Wyniki prac projektu IMPACT

Prace prowadzone przez Zespół Bibliotek Cyfrowych PCSS zaowocowały przygotowaniem zestawu pełnotekstowych wersji cyfrowych wybranych dokumentów historycznych z czterech bibliotek cyfrowych w Polsce:

Poniżej znajduje się zestawienie dokumentów wraz z mozliwością pobrania zarówno plików źródłowych, jak i odpowiadających im wersji pełnotekstowych (transkrypcji). Wersje pełnotekstowe plików zapisane są w formacie PAGE XML, którego opis znajduje się tutaj. Pliki pełnotekstowe mają dokładność oscylującą w okolicach 99.95%. Istnieją dwie wersje plików z transkrypcją:

  1. Pliki z transkrypcją na poziomie regionów (paragrafów), poziom dokładności transkrypcji oscyluje w okolicach 99.95%.
  2. Pliki z transkrypcją na poziomie regionów (paragrafów), wzbogacone o informacje związane z regionami dla linii, słów i znaków. Informacje te pochodzą z automatycznego przetwarzania plików silnikiem OCR i nie były w żaden sposób poprawiane. Niemniej mogą być w pewnych sytuacjach pomocne, np. jeśli chcemy posiadać przybliżone współrzędne słowa lub znaku na pliku źródłowym. Poziom dokładności transkrypcji na poziomie regionu oscyluje w okolicach 99.95%.

Wszystkie powyższe zasoby dostępne są również w ramach wyszukiwarki Poliqarp, udostępnionej przez Katedrę Lingwistyki Formalnej UW i dostępnej pod adresem http://poliqarp.wbl.klf.uw.edu.pl/pl/.

Ponadto dla 478 plików z wszystkich przetworzonych w ramach projektu IMPACT, dostępne są szczegółowe informacje dotyczące współrzędnych dla linii, słów i znaków. Pliki dostępne są pod adresami:

Powyższe szczegółowe dane zostały wykorzystane w ramach eksperymentu porównania silników OCR Tesseract oraz FineReader. Raport z porównania można pobrać tutaj (dostępny tylko w języku angielskim), natomiast przykładowe zestawy danych wytrenowanych dla silnika Tesseract można pobrać tutaj.

W sumie przetworzone zostały 4693 pliki, a ich transkrypcje mają łącznie 6890677 znaków. Rozmiar plików master to w sumie około 16,5GB. Rozmiar wszystkich transkrypcji to około 300MB, a transkrypcje z dodatkowymi informacjami zajmują 700MB.

Pliki źródłowe zostały udostepnione przez odpowiednie biblioteki cyfrowe. Wszystkie materiały dostepne są na licencji  Creative Commons Uznanie autorstwa 3.0 Polska.

Czcionka, która pozwala wyświetlić znaki zapisane w transkrypcjach to Aletheia Sans i można ją pobrać tutaj. Czcionka Aletheia Sans jest rozszerzeniem czcionki DejaVu Sans wprowadzającej wiele nowych znaków historycznych do jednej z najbardziej kompletnych i darmowych czcionek Unicode. Aletheia Sans została utworzona i jest rozwijana przez PRImA Research Group (www.primaresearch.org/tools) jako część narzędzia Aletheia pozwalającego tworzyć pełnotekstowe transkrypcje. Aletheia jest opisana w „Aletheia – An Advanced Document Layout and Text Ground-Truthing System for Production Environments”, C. Clausner, S. Pletschacher, A. Antonacopoulos, Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR2011), Beijing, China, September 2011, pp. 48-52. Czcionka ta jest dostępna na licencji DejaVu Seans (do pobrania tutaj).

W razie szczegółowych pytań lub uwag na temat dostępnych zasobów prosimy o kontakt.

Opis zestawu dokumentów Wersja prezentacyjna i metadane Pliki źródłowe (TIF) Transkrypcje – poziom regionów (PAGE XML) Transkrypcje – poziom regionów oraz poziom linii/słów/znaków (PAGE XML)
Adwersaria, albo terminata sprawy wojennej, która się toczyła w wołoskiej ziemi z tureckim cesarzem pokaż pobierz (plików: 26, ~130MB) pobierz (znaków: 31454) pobierz (dodatkowe regiony: 6795)
Ceremonie i porządek w koronowaniu Marii de Medici, królowej francuskiej i nawarskiej 13 maja 1610 pokaż pobierz (plików: 32, ~50MB) pobierz (znaków: 27477) pobierz (dodatkowe regiony: 6980)
Chorągiew Sarmacka w Wołoszech, to jest pospolite ruszenie i szczęśliwy powrót Polaków z Wołoch w roku 1621 pokaż pobierz (plików: 11, ~48MB) pobierz (znaków: 7139) pobierz (dodatkowe regiony: 2088)
Diariusz wiadomości od wyjazdu króla z Wilna do Smoleńska pokaż pobierz (plików: 32, ~120MB) pobierz (znaków: 55948) pobierz (dodatkowe regiony: 13281)
Discurs o cenie pieniedzy teraznieyszey y o niektorych skutkach iey? pokaż pobierz (plików: 64, ~307MB) pobierz (znaków: 70217) pobierz (dodatkowe regiony: 15924)
List o oblężeniu zamku Dyjamenckiego w Inflantach do Krzysztofa Moniwida Dorohostajskiego, dnia 22 października 1605 pisany pokaż pobierz (plików: 11, ~52MB) pobierz (znaków: 13867) pobierz (dodatkowe regiony: 4332)
Nowe Ateny albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … / przez Xiędza Benedykta Chmielowskiego … . Część 1. pokaż pobierz (plików: 844, ~2770MB) pobierz (znaków: 1605794) pobierz (dodatkowe regiony: 368491)
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … / przez Xiędza Benedykta Chmielowskiego … . Część 2. pokaż pobierz (plików: 810, ~2653MB) pobierz (znaków: 1247896) pobierz (dodatkowe regiony: 289459)
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … . Część 3 albo Supplement. pokaż pobierz (plików: 741, ~2681MB) pobierz (znaków: 1165470) pobierz (dodatkowe regiony: 280205)
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … . Część 4, a drugi Supplement. pokaż pobierz (plików: 632, ~2308MB) pobierz (znaków: 1127368) pobierz (dodatkowe regiony: 288779)
Nowe nowiny z Czech, Tatar i Węgier, przy tym rewokacja księcia czeskiego i jak radę cesarską z zamku oknem wyrzucali i innego króla sobie obrali pokaż pobierz (plików: 32, ~165MB) pobierz (znaków: 44268) pobierz (dodatkowe regiony: 9655)
Nowiny z Inflant o porażce, która się stała nad Karolem, księciem Sudermańskim przez Jana Karola Chodkiewicza dnia 27 września 1605 pokaż pobierz (plików: 8, ~35MB) pobierz (znaków: 8256) pobierz (dodatkowe regiony: 2770)
Nowiny z Moskwy albo wota z traktatów i konsulty panów radnych ziemi moskiewskiej, które carowi swemu podawali pokaż pobierz (plików: 32, ~148MB) pobierz (znaków: 49929) pobierz (dodatkowe regiony: 12059)
Nowiny z Rakuz o monstrancji luterskiej pokaż pobierz (plików: 27, ~124MB) pobierz (znaków: 33983) pobierz (dodatkowe regiony: 8043)
Nowiny z Torunia o zabronieniu przez heretyków nabożeństwa i procesji katolickich pokaż pobierz (plików: 7, ~33MB) pobierz (znaków: 8753) pobierz (dodatkowe regiony: 2917)
Oekonomika ziemianska generalna Punktámi Pártikulárnemi, Interrogatoryámi Gospodárskiemi, Praktyką Mieśięczną, Modelluszámi abo Tabułámi Arithmetycznemi obiaśniona. Pánom Dźiedzicznym, Arendarzom, Oekonomom, Attendętom, Urzędnikom, […]. pokaż pobierz (plików: 242, ~1202MB) pobierz (znaków: 262860) pobierz (dodatkowe regiony: 62635)
O cieplicach we Skle Ksiąg Troie. Przez Erazma Syxta Philozophiey y Medicyny Doktora Napisanych? pokaż pobierz (plików: 195, ~1096MB) pobierz (znaków: 274754) pobierz (dodatkowe regiony: 57175)
Pasja żołnierzy obojga narodów w stolicy moskiewskiej krótko opisana pokaż pobierz (plików: 16, ~78MB) pobierz (znaków: 21396) pobierz (dodatkowe regiony: 4891)
Poseł z Wołoch z obozu polskiego. 1621 pokaż pobierz (plików: 11, ~57MB) pobierz (znaków: 9737) pobierz (dodatkowe regiony: 2817)
Powodzenia niebezpiecznego ale szczęśliwego wojska j. k. m. w Multanach opisanie pokaż pobierz (plików: 6, ~32MB) pobierz (znaków: 4795) pobierz (dodatkowe regiony: 1608)
Prawdziwa relacja i opisanie straszliwego trzęsienia ziemi 27 marca roku 1638 w Kalabrii pokaż pobierz (plików: 7, ~7MB) pobierz (znaków: 5841) pobierz (dodatkowe regiony: 2036)
Relacja chwalebnej ekspedycji Jana Kazimierza, króla polskiego i szwedzkiego pokaż pobierz (plików: 24, ~118MB) pobierz (znaków: 30512) pobierz (dodatkowe regiony: 6583)
Relacja koronacji cudownego obrazu Najświętszej Marii Panny na Górze Różańcowej [w Podkamieniu] pokaż pobierz (plików: 32, ~120MB) pobierz (znaków: 28738) pobierz (dodatkowe regiony: 7783)
Relacja prawdziwa o wejściu wojska polskiego do Wołoch i o potrzebie jego z pogaństwem we wrześniu i październiku 1620 pokaż pobierz (plików: 26, ~127MB) pobierz (znaków: 38398) pobierz (dodatkowe regiony: 10487)
Relacja spraw gdańskich na sejmie walnym warszawskim roku 1570 pokaż pobierz (plików: 62, ~333MB) pobierz (znaków: 60064) pobierz (dodatkowe regiony: 14180)
Szturm pocieszny smoleński, który był odprawiony szczęśliwie 13 czerwca 1611 pokaż pobierz (plików: 29, ~74MB) pobierz (znaków: 11171) pobierz (dodatkowe regiony: 2908)
SŁAWNA VICTORIA, NAD TVRKAMI. OD WOYSK KORONNYCH pokaż pobierz (plików: 28, ~122MB) pobierz (znaków: 22977) pobierz (dodatkowe regiony: 5836)
Sławna wiktoria nad Turkami od wojsk koronnych i Wielkiego Księstwa Litewskiego pod Chocimiem otrzymana pokaż pobierz (plików: 14, ~123MB) pobierz (znaków: 17520) pobierz (dodatkowe regiony: 4392)
Wieść z Moskwy prawdziwa krótkim rymem wyprowadzona pokaż pobierz (plików: 32, ~30MB) pobierz (znaków: 24034) pobierz (dodatkowe regiony: 5628)
Wyprawa i wyjazd sułtana Amurata, cesarza tureckiego, na wojnę do Korony Polskiej pokaż pobierz (plików: 32, ~55MB) pobierz (znaków: 44944) pobierz (dodatkowe regiony: 9825)
Wyprawa i wyjazd sułtana Amurata, cesarza tureckiego, na wojnę do Korony Polskiej (wersja 2) pokaż pobierz (plików: 32, ~149MB) pobierz (znaków: 45007) pobierz (dodatkowe regiony: 7358)
Zbiór rytmów duchownych Panegirycznych Moralnych i Swiatowych […] Elżbiety z Kowalskich Druzbackiey […] Zebrany y do druku podany przez J. Z. R. K. O. W. etc. [Załuskiego Józefa Andrzeja] pokaż pobierz (plików: 566, ~1274MB) pobierz (znaków: 450405) pobierz (dodatkowe regiony: 107884)
Żałosne opisanie upadku króla hiszpańskiego na morzu i na lądzie pokaż pobierz (plików: 30, ~135MB) pobierz (znaków: 39705) pobierz (dodatkowe regiony: 10709)

2 przemyślenia nt. „Wyniki prac projektu IMPACT

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

*