PSNC Digital Libraries Team

Network Services Department – Poznań Supercomputing and Networking Center
  • Introduction
  • About the team
  • Activities
    • Software
    • Projects
    • Internet services
    • Events
  • Publications
  • Blog
  • Career
  • Contact

Results of the IMPACT project

Activities performed by PSNC Digital Libraries Team in frame of the IMPACT project resulted in a set of full text versions of selected Polish historical documents from four digital libraries in Poland:

  • Elbląska Library (Elbląska Digital Library)
  • The Kórnik Library of the Polish Academy of Sciences (Digital Library of Wielkopolska)
  • Poznań University Library (Digital Library of Wielkopolska)
  • The Institute of Journalism, University of Warsaw (Digital Library of Polish and Poland-Related News Pamphlets)
  • Wrocław University of Environmental and Life Sciences (Dolnośląska Biblioteka Cyfrowa)

Below you can find a list of the documents with corresponding source data (master files) and ground truth data (full text versions). Full text versions are enconded in PAGE XML format. The description of this format can be found here. Full text documents have accuracy around 99.95%. There are two versions of full text:

  1. Full text versions on region level (paragraph), where accuracy is around 99.95%.
  2. Full text versions on region level (paragraph), with additional information about coordinates for lines, words and characters. This additional information comes from the optical character recognition process and was not corrected/changed in any way. Nevertheless, this kind of information can be helpful in case one wants to have approximate coordinates of the word or character on the image. Accuracy level for region level is still around 99.95%.

All above resources are also available in the Poliqarp search engine, hosted by the Formal Linguistic Department of the University of Warsaw and available at http://poliqarp.wbl.klf.uw.edu.pl/en/.

Moreover for 478 files from all the files processed in frame of the IMPACT project, a detailed information related to coordinates on glyph level has been prepared. These files are available at:

  • Antiqua files:
    • Full text versions on region, line, word and glyph level.
    • Master files.
  • Gothic (fraktur) files:
    • Full text versions on region, line, word and glyph level.
    • Master files.

Above detailed data has been used in the experiment related to comparison of Tesseract and FineReader OCR engines. The report from this comparison is available here, and the trained datasets are available for download here.

Altogether 4693 files were processed, corresponding full text versions have 6890677 characters. Size of the master files is around 16,5GB. Size of the full text is around 300MB, and size of full text with additional information is 700MB.

Master files are available thanks to particular libraries. All materials are available under Creative Commons Attribution 3.0 Unported License.

Aletheia Sans font can be used to view characters in the ground truth documents and it is available for download here. Aletheia Sans is an extension of the font DejaVu Sans and as such it is adding numerous historical characters to one of the most complete and free Unicode fonts. It was created and is maintained by the PRImA Research Group (www.primaresearch.org/tools) as part of the ground truth production tool Aletheia which is described in “Aletheia – An Advanced Document Layout and Text Ground-Truthing System for Production Environments”, C. Clausner, S. Pletschacher, A. Antonacopoulos, Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR2011), Beijing, China, September 2011, pp. 48-52. This font is available under DejaVu Seans license (availble for download here).

In case of questions or remarks related to the data, please contact us.

Description of the documents set Metadata and presentation version Master files (TIF) Full text – region level (PAGE XML) Full text – region level and word/character information (PAGE XML)
Adwersaria, albo terminata sprawy wojennej, która się toczyła w wołoskiej ziemi z tureckim cesarzem view download (files: 26, ~130MB) download (characters: 31454) download (additional regions: 6795)
Ceremonie i porządek w koronowaniu Marii de Medici, królowej francuskiej i nawarskiej 13 maja 1610 view download (files: 32, ~50MB) download (characters: 27477) download (additional regions: 6980)
Chorągiew Sarmacka w Wołoszech, to jest pospolite ruszenie i szczęśliwy powrót Polaków z Wołoch w roku 1621 view download (files: 11, ~48MB) download (characters: 7139) download (additional regions: 2088)
Diariusz wiadomości od wyjazdu króla z Wilna do Smoleńska view download (files: 32, ~120MB) download (characters: 55948) download (additional regions: 13281)
Discurs o cenie pieniedzy teraznieyszey y o niektorych skutkach iey? view download (files: 64, ~307MB) download (characters: 70217) download (additional regions: 15924)
List o oblężeniu zamku Dyjamenckiego w Inflantach do Krzysztofa Moniwida Dorohostajskiego, dnia 22 października 1605 pisany view download (files: 11, ~52MB) download (characters: 13867) download (additional regions: 4332)
Nowe Ateny albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … / przez Xiędza Benedykta Chmielowskiego … . Część 1. view download (files: 844, ~2770MB) download (characters: 1605794) download (additional regions: 368491)
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … / przez Xiędza Benedykta Chmielowskiego … . Część 2. view download (files: 810, ~2653MB) download (characters: 1247896) download (additional regions: 289459)
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … . Część 3 albo Supplement. view download (files: 741, ~2681MB) download (characters: 1165470) download (additional regions: 280205)
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … . Część 4, a drugi Supplement. view download (files: 632, ~2308MB) download (characters: 1127368) download (additional regions: 288779)
Nowe nowiny z Czech, Tatar i Węgier, przy tym rewokacja księcia czeskiego i jak radę cesarską z zamku oknem wyrzucali i innego króla sobie obrali view download (files: 32, ~165MB) download (characters: 44268) download (additional regions: 9655)
Nowiny z Inflant o porażce, która się stała nad Karolem, księciem Sudermańskim przez Jana Karola Chodkiewicza dnia 27 września 1605 view download (files: 8, ~35MB) download (characters: 8256) download (additional regions: 2770)
Nowiny z Moskwy albo wota z traktatów i konsulty panów radnych ziemi moskiewskiej, które carowi swemu podawali view download (files: 32, ~148MB) download (characters: 49929) download (additional regions: 12059)
Nowiny z Rakuz o monstrancji luterskiej view download (files: 27, ~124MB) download (characters: 33983) download (additional regions: 8043)
Nowiny z Torunia o zabronieniu przez heretyków nabożeństwa i procesji katolickich view download (files: 7, ~33MB) download (characters: 8753) download (additional regions: 2917)
Oekonomika ziemianska generalna Punktámi Pártikulárnemi, Interrogatoryámi Gospodárskiemi, Praktyką Mieśięczną, Modelluszámi abo Tabułámi Arithmetycznemi obiaśniona. Pánom Dźiedzicznym, Arendarzom, Oekonomom, Attendętom, Urzędnikom, [...]. view download (files: 242, ~1202MB) download (characters: 262860) download (additional regions: 62635)
O cieplicach we Skle Ksiąg Troie. Przez Erazma Syxta Philozophiey y Medicyny Doktora Napisanych? view download (files: 195, ~1096MB) download (characters: 274754) download (additional regions: 57175)
Pasja żołnierzy obojga narodów w stolicy moskiewskiej krótko opisana view download (files: 16, ~78MB) download (characters: 21396) download (additional regions: 4891)
Poseł z Wołoch z obozu polskiego. 1621 view download (files: 11, ~57MB) download (characters: 9737) download (additional regions: 2817)
Powodzenia niebezpiecznego ale szczęśliwego wojska j. k. m. w Multanach opisanie view download (files: 6, ~32MB) download (characters: 4795) download (additional regions: 1608)
Prawdziwa relacja i opisanie straszliwego trzęsienia ziemi 27 marca roku 1638 w Kalabrii view download (files: 7, ~7MB) download (characters: 5841) download (additional regions: 2036)
Relacja chwalebnej ekspedycji Jana Kazimierza, króla polskiego i szwedzkiego view download (files: 24, ~118MB) download (characters: 30512) download (additional regions: 6583)
Relacja koronacji cudownego obrazu Najświętszej Marii Panny na Górze Różańcowej [w Podkamieniu] view download (files: 32, ~120MB) download (characters: 28738) download (additional regions: 7783)
Relacja prawdziwa o wejściu wojska polskiego do Wołoch i o potrzebie jego z pogaństwem we wrześniu i październiku 1620 view download (files: 26, ~127MB) download (characters: 38398) download (additional regions: 10487)
Relacja spraw gdańskich na sejmie walnym warszawskim roku 1570 view download (files: 62, ~333MB) download (characters: 60064) download (additional regions: 14180)
Szturm pocieszny smoleński, który był odprawiony szczęśliwie 13 czerwca 1611 view download (files: 29, ~74MB) download (characters: 11171) download (additional regions: 2908)
SŁAWNA VICTORIA, NAD TVRKAMI. OD WOYSK KORONNYCH view download (files: 28, ~122MB) download (characters: 22977) download (additional regions: 5836)
Sławna wiktoria nad Turkami od wojsk koronnych i Wielkiego Księstwa Litewskiego pod Chocimiem otrzymana view download (files: 14, ~123MB) download (characters: 17520) download (additional regions: 4392)
Wieść z Moskwy prawdziwa krótkim rymem wyprowadzona view download (files: 32, ~30MB) download (characters: 24034) download (additional regions: 5628)
Wyprawa i wyjazd sułtana Amurata, cesarza tureckiego, na wojnę do Korony Polskiej view download (files: 32, ~55MB) download (characters: 44944) download (additional regions: 9825)
Wyprawa i wyjazd sułtana Amurata, cesarza tureckiego, na wojnę do Korony Polskiej (version 2) view download (files: 32, ~149MB) download (characters: 45007) download (additional regions: 7358)
Zbiór rytmów duchownych Panegirycznych Moralnych i Swiatowych [...] Elżbiety z Kowalskich Druzbackiey [...] Zebrany y do druku podany przez J. Z. R. K. O. W. etc. [Załuskiego Józefa Andrzeja] view download (files: 566, ~1274MB) download (characters: 450405) download (additional regions: 107884)
Żałosne opisanie upadku króla hiszpańskiego na morzu i na lądzie view download (files: 30, ~135MB) download (characters: 39705) download (additional regions: 10709)
Comments rss
Comments rss
Trackback
Trackback
Drukuj tę stronę Drukuj tę stronę

2 Responses to “Results of the IMPACT project”

  1. PSNC Digital Libraries Team » Full text versions of Polish historical documents available for download! says:
    2012-01-10 at 3.10 pm

    [...] related to data and available data for download can be accessed via IMPACT results website dedicated to PSNC Digital Libraries Team activities. See also:PSNC joined European IMPACT projectIMPACT Centre of Competence in 2012IMPACT project [...]

  2. Comparison of FineReader and Tesseract OCR engines – report | PSNC Digital Libraries Team says:
    2012-07-20 at 2.04 pm

    [...] full report is available for download on the PSNC Digital Libraries Team website dedicated to the IMPACT project results. See also:New textual resources developed in [...]

Leave a Reply

Click here to cancel reply.

RSS Wiadomości z Federacji Bibliotek Cyfrowych

  • Zasady otwartych instytucji kultury
  • Program tegorocznej konferencji i3 / Polskie Biblioteki Cyfrowe jest już dostępny!
  • V Konferencja Polskie Biblioteki Cyfrowe

RSS dLibra, dMuseion, dLab & dArceo

  • Repozytorium instytucjonalne na systemie dLibra i Google Scholar – mały eksperyment
  • Porady dla tworzących repozytoria
  • dLibra 5.5.0

RSS FBC – Pytania i odpowiedzi

  • Odpowiedź: Wyszukiwarka FBC i dostępne publikacje
  • Odpowiedź: Jak przeglądać DjVu na iPadzie?
  • Odpowiedź: Wsadowa konwersja obrazów z palety szarości do RGB

RSS PSNC Institutional Repository

  • Dudczak, Adam, Rola zasobów Federacji Bibliotek Cyfrowych sieci PIONIER i Wirtualnego Laboratorium Transkrypcji platformy SYNAT w realizacji naukowych projektów humanistycznych
  • Mazurek, Cezary, NUKAT i Federacja Bibliotek Cyfrowych – pierwsze wyniki działań w kierunku integracji metadanychPo
  • Materiały informacyjne: Biblioteki cyfrowe w Polsce. Stan obecny, narzędzia, modele działania i współpracy

RSS DL News

  • An error has occurred, which probably means the feed is down. Try again later.

Język/Language

  • polski
  • english

Recent Posts

  • LoCLoud project Tuesday, 21 May 2013
  • THATCamp Poznań – agenda is ready Friday, 12 Apr 2013
  • Public release of (part of) Clepsydra framework Tuesday, 9 Apr 2013

Meta

  • Entries RSS
  • Comments RSS

Archives

Tags

ACCESS IT ankieta archiwizacja bezpieczeństwo biblioteki cyfrowe CIDOC CRM DART-Europe Digital Humanities digitalizacja dLibra dMuseion Dublin Core długoterminowe przechowywanie danych e-book e-learning EDM ENRICH Europeana EuropeanaLocal FBC Firefox gazety Google Hack4Europe! hackaton IMPACT konferencja Linked Data metadane ocr Open Data PBC2008 PBC2009 PBC2010 PBC2013 praca SYNAT TEL tesseract warsztaty WBC wizjonerzy wlt WWW zespół
PCSS

Instytucja odpowiedzialna:Poznańskie Centrum Superkomputerowo-Sieciowe.

rss Comments rss Creative Commons License valid xhtml 1.1 design by jide powered by Wordpress