Results of the IMPACT project

Activities performed by PSNC Digital Libraries Team in frame of the IMPACT project resulted in a set of full text versions of selected Polish historical documents from four digital libraries in Poland:

Below you can find a list of the documents with corresponding source data (master files) and ground truth data (full text versions). Full text versions are enconded in PAGE XML format. The description of this format can be found here. Full text documents have accuracy around 99.95%. There are two versions of full text:

  1. Full text versions on region level (paragraph), where accuracy is around 99.95%.
  2. Full text versions on region level (paragraph), with additional information about coordinates for lines, words and characters. This additional information comes from the optical character recognition process and was not corrected/changed in any way. Nevertheless, this kind of information can be helpful in case one wants to have approximate coordinates of the word or character on the image. Accuracy level for region level is still around 99.95%.

All above resources are also available in the Poliqarp search engine, hosted by the Formal Linguistic Department of the University of Warsaw and available at http://poliqarp.wbl.klf.uw.edu.pl/en/.

Moreover for 478 files from all the files processed in frame of the IMPACT project, a detailed information related to coordinates on glyph level has been prepared. These files are available at:

Above detailed data has been used in the experiment related to comparison of Tesseract and FineReader OCR engines. The report from this comparison is available here, and the trained datasets are available for download here.

Altogether 4693 files were processed, corresponding full text versions have 6890677 characters. Size of the master files is around 16,5GB. Size of the full text is around 300MB, and size of full text with additional information is 700MB.

Master files are available thanks to particular libraries. All materials are available under Creative Commons Attribution 3.0 Unported License.

Aletheia Sans font can be used to view characters in the ground truth documents and it is available for download here. Aletheia Sans is an extension of the font DejaVu Sans and as such it is adding numerous historical characters to one of the most complete and free Unicode fonts. It was created and is maintained by the PRImA Research Group (www.primaresearch.org/tools) as part of the ground truth production tool Aletheia which is described in “Aletheia – An Advanced Document Layout and Text Ground-Truthing System for Production Environments”, C. Clausner, S. Pletschacher, A. Antonacopoulos, Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR2011), Beijing, China, September 2011, pp. 48-52. This font is available under DejaVu Seans license (availble for download here).

In case of questions or remarks related to the data, please contact us.

Description of the documents set Metadata and presentation version Master files (TIF) Full text – region level (PAGE XML) Full text – region level and word/character information (PAGE XML)
Adwersaria, albo terminata sprawy wojennej, która się toczyła w wołoskiej ziemi z tureckim cesarzem view download (files: 26, ~130MB) download (characters: 31454) download (additional regions: 6795)
Ceremonie i porządek w koronowaniu Marii de Medici, królowej francuskiej i nawarskiej 13 maja 1610 view download (files: 32, ~50MB) download (characters: 27477) download (additional regions: 6980)
Chorągiew Sarmacka w Wołoszech, to jest pospolite ruszenie i szczęśliwy powrót Polaków z Wołoch w roku 1621 view download (files: 11, ~48MB) download (characters: 7139) download (additional regions: 2088)
Diariusz wiadomości od wyjazdu króla z Wilna do Smoleńska view download (files: 32, ~120MB) download (characters: 55948) download (additional regions: 13281)
Discurs o cenie pieniedzy teraznieyszey y o niektorych skutkach iey? view download (files: 64, ~307MB) download (characters: 70217) download (additional regions: 15924)
List o oblężeniu zamku Dyjamenckiego w Inflantach do Krzysztofa Moniwida Dorohostajskiego, dnia 22 października 1605 pisany view download (files: 11, ~52MB) download (characters: 13867) download (additional regions: 4332)
Nowe Ateny albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … / przez Xiędza Benedykta Chmielowskiego … . Część 1. view download (files: 844, ~2770MB) download (characters: 1605794) download (additional regions: 368491)
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … / przez Xiędza Benedykta Chmielowskiego … . Część 2. view download (files: 810, ~2653MB) download (characters: 1247896) download (additional regions: 289459)
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … . Część 3 albo Supplement. view download (files: 741, ~2681MB) download (characters: 1165470) download (additional regions: 280205)
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … . Część 4, a drugi Supplement. view download (files: 632, ~2308MB) download (characters: 1127368) download (additional regions: 288779)
Nowe nowiny z Czech, Tatar i Węgier, przy tym rewokacja księcia czeskiego i jak radę cesarską z zamku oknem wyrzucali i innego króla sobie obrali view download (files: 32, ~165MB) download (characters: 44268) download (additional regions: 9655)
Nowiny z Inflant o porażce, która się stała nad Karolem, księciem Sudermańskim przez Jana Karola Chodkiewicza dnia 27 września 1605 view download (files: 8, ~35MB) download (characters: 8256) download (additional regions: 2770)
Nowiny z Moskwy albo wota z traktatów i konsulty panów radnych ziemi moskiewskiej, które carowi swemu podawali view download (files: 32, ~148MB) download (characters: 49929) download (additional regions: 12059)
Nowiny z Rakuz o monstrancji luterskiej view download (files: 27, ~124MB) download (characters: 33983) download (additional regions: 8043)
Nowiny z Torunia o zabronieniu przez heretyków nabożeństwa i procesji katolickich view download (files: 7, ~33MB) download (characters: 8753) download (additional regions: 2917)
Oekonomika ziemianska generalna Punktámi Pártikulárnemi, Interrogatoryámi Gospodárskiemi, Praktyką Mieśięczną, Modelluszámi abo Tabułámi Arithmetycznemi obiaśniona. Pánom Dźiedzicznym, Arendarzom, Oekonomom, Attendętom, Urzędnikom, […]. view download (files: 242, ~1202MB) download (characters: 262860) download (additional regions: 62635)
O cieplicach we Skle Ksiąg Troie. Przez Erazma Syxta Philozophiey y Medicyny Doktora Napisanych? view download (files: 195, ~1096MB) download (characters: 274754) download (additional regions: 57175)
Pasja żołnierzy obojga narodów w stolicy moskiewskiej krótko opisana view download (files: 16, ~78MB) download (characters: 21396) download (additional regions: 4891)
Poseł z Wołoch z obozu polskiego. 1621 view download (files: 11, ~57MB) download (characters: 9737) download (additional regions: 2817)
Powodzenia niebezpiecznego ale szczęśliwego wojska j. k. m. w Multanach opisanie view download (files: 6, ~32MB) download (characters: 4795) download (additional regions: 1608)
Prawdziwa relacja i opisanie straszliwego trzęsienia ziemi 27 marca roku 1638 w Kalabrii view download (files: 7, ~7MB) download (characters: 5841) download (additional regions: 2036)
Relacja chwalebnej ekspedycji Jana Kazimierza, króla polskiego i szwedzkiego view download (files: 24, ~118MB) download (characters: 30512) download (additional regions: 6583)
Relacja koronacji cudownego obrazu Najświętszej Marii Panny na Górze Różańcowej [w Podkamieniu] view download (files: 32, ~120MB) download (characters: 28738) download (additional regions: 7783)
Relacja prawdziwa o wejściu wojska polskiego do Wołoch i o potrzebie jego z pogaństwem we wrześniu i październiku 1620 view download (files: 26, ~127MB) download (characters: 38398) download (additional regions: 10487)
Relacja spraw gdańskich na sejmie walnym warszawskim roku 1570 view download (files: 62, ~333MB) download (characters: 60064) download (additional regions: 14180)
Szturm pocieszny smoleński, który był odprawiony szczęśliwie 13 czerwca 1611 view download (files: 29, ~74MB) download (characters: 11171) download (additional regions: 2908)
SŁAWNA VICTORIA, NAD TVRKAMI. OD WOYSK KORONNYCH view download (files: 28, ~122MB) download (characters: 22977) download (additional regions: 5836)
Sławna wiktoria nad Turkami od wojsk koronnych i Wielkiego Księstwa Litewskiego pod Chocimiem otrzymana view download (files: 14, ~123MB) download (characters: 17520) download (additional regions: 4392)
Wieść z Moskwy prawdziwa krótkim rymem wyprowadzona view download (files: 32, ~30MB) download (characters: 24034) download (additional regions: 5628)
Wyprawa i wyjazd sułtana Amurata, cesarza tureckiego, na wojnę do Korony Polskiej view download (files: 32, ~55MB) download (characters: 44944) download (additional regions: 9825)
Wyprawa i wyjazd sułtana Amurata, cesarza tureckiego, na wojnę do Korony Polskiej (version 2) view download (files: 32, ~149MB) download (characters: 45007) download (additional regions: 7358)
Zbiór rytmów duchownych Panegirycznych Moralnych i Swiatowych […] Elżbiety z Kowalskich Druzbackiey […] Zebrany y do druku podany przez J. Z. R. K. O. W. etc. [Załuskiego Józefa Andrzeja] view download (files: 566, ~1274MB) download (characters: 450405) download (additional regions: 107884)
Żałosne opisanie upadku króla hiszpańskiego na morzu i na lądzie view download (files: 30, ~135MB) download (characters: 39705) download (additional regions: 10709)

2 thoughts on “Results of the IMPACT project

Leave a Reply

Your email address will not be published. Required fields are marked *

*