Prace prowadzone przez Zespół Bibliotek Cyfrowych PCSS zaowocowały przygotowaniem zestawu pełnotekstowych wersji cyfrowych wybranych dokumentów historycznych z czterech bibliotek cyfrowych w Polsce:
- Biblioteka Elbląska (Elbląska Biblioteka Cyfrowa)
- Biblioteka Kórnicka PAN (Wielkopolska Biblioteka Cyfrowa)
- Biblioteka Uniwersytecka w Poznaniu (Wielkopolska Biblioteka Cyfrowa)
- Instytut Dziennikarstwa Uniwersytetu Warszawskiego (Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII Wieku)
- Uniwersytet Przyrodniczy we Wrocławiu (Dolnośląska Biblioteka Cyfrowa)
Poniżej znajduje się zestawienie dokumentów wraz z mozliwością pobrania zarówno plików źródłowych, jak i odpowiadających im wersji pełnotekstowych (transkrypcji). Wersje pełnotekstowe plików zapisane są w formacie PAGE XML, którego opis znajduje się tutaj. Pliki pełnotekstowe mają dokładność oscylującą w okolicach 99.95%. Istnieją dwie wersje plików z transkrypcją:
- Pliki z transkrypcją na poziomie regionów (paragrafów), poziom dokładności transkrypcji oscyluje w okolicach 99.95%.
- Pliki z transkrypcją na poziomie regionów (paragrafów), wzbogacone o informacje związane z regionami dla linii, słów i znaków. Informacje te pochodzą z automatycznego przetwarzania plików silnikiem OCR i nie były w żaden sposób poprawiane. Niemniej mogą być w pewnych sytuacjach pomocne, np. jeśli chcemy posiadać przybliżone współrzędne słowa lub znaku na pliku źródłowym. Poziom dokładności transkrypcji na poziomie regionu oscyluje w okolicach 99.95%.
Wszystkie powyższe zasoby dostępne są również w ramach wyszukiwarki Poliqarp, udostępnionej przez Katedrę Lingwistyki Formalnej UW i dostępnej pod adresem http://poliqarp.wbl.klf.uw.edu.pl/pl/.
Ponadto dla 478 plików z wszystkich przetworzonych w ramach projektu IMPACT, dostępne są szczegółowe informacje dotyczące współrzędnych dla linii, słów i znaków. Pliki dostępne są pod adresami:
- Antykwa:
- Gotyk:
Powyższe szczegółowe dane zostały wykorzystane w ramach eksperymentu porównania silników OCR Tesseract oraz FineReader. Raport z porównania można pobrać tutaj (dostępny tylko w języku angielskim), natomiast przykładowe zestawy danych wytrenowanych dla silnika Tesseract można pobrać tutaj.
W sumie przetworzone zostały 4693 pliki, a ich transkrypcje mają łącznie 6890677 znaków. Rozmiar plików master to w sumie około 16,5GB. Rozmiar wszystkich transkrypcji to około 300MB, a transkrypcje z dodatkowymi informacjami zajmują 700MB.
Pliki źródłowe zostały udostepnione przez odpowiednie biblioteki cyfrowe. Wszystkie materiały dostepne są na licencji Creative Commons Uznanie autorstwa 3.0 Polska.
Czcionka, która pozwala wyświetlić znaki zapisane w transkrypcjach to Aletheia Sans i można ją pobrać tutaj. Czcionka Aletheia Sans jest rozszerzeniem czcionki DejaVu Sans wprowadzającej wiele nowych znaków historycznych do jednej z najbardziej kompletnych i darmowych czcionek Unicode. Aletheia Sans została utworzona i jest rozwijana przez PRImA Research Group (www.primaresearch.org/tools) jako część narzędzia Aletheia pozwalającego tworzyć pełnotekstowe transkrypcje. Aletheia jest opisana w „Aletheia – An Advanced Document Layout and Text Ground-Truthing System for Production Environments”, C. Clausner, S. Pletschacher, A. Antonacopoulos, Proceedings of the 11th International Conference on Document Analysis and Recognition (ICDAR2011), Beijing, China, September 2011, pp. 48-52. Czcionka ta jest dostępna na licencji DejaVu Seans (do pobrania tutaj).
W razie szczegółowych pytań lub uwag na temat dostępnych zasobów prosimy o kontakt.
Opis zestawu dokumentów | Wersja prezentacyjna i metadane | Pliki źródłowe (TIF) | Transkrypcje – poziom regionów (PAGE XML) | Transkrypcje – poziom regionów oraz poziom linii/słów/znaków (PAGE XML) |
---|---|---|---|---|
Adwersaria, albo terminata sprawy wojennej, która się toczyła w wołoskiej ziemi z tureckim cesarzem | pokaż | pobierz (plików: 26, ~130MB) | pobierz (znaków: 31454) | pobierz (dodatkowe regiony: 6795) |
Ceremonie i porządek w koronowaniu Marii de Medici, królowej francuskiej i nawarskiej 13 maja 1610 | pokaż | pobierz (plików: 32, ~50MB) | pobierz (znaków: 27477) | pobierz (dodatkowe regiony: 6980) |
Chorągiew Sarmacka w Wołoszech, to jest pospolite ruszenie i szczęśliwy powrót Polaków z Wołoch w roku 1621 | pokaż | pobierz (plików: 11, ~48MB) | pobierz (znaków: 7139) | pobierz (dodatkowe regiony: 2088) |
Diariusz wiadomości od wyjazdu króla z Wilna do Smoleńska | pokaż | pobierz (plików: 32, ~120MB) | pobierz (znaków: 55948) | pobierz (dodatkowe regiony: 13281) |
Discurs o cenie pieniedzy teraznieyszey y o niektorych skutkach iey? | pokaż | pobierz (plików: 64, ~307MB) | pobierz (znaków: 70217) | pobierz (dodatkowe regiony: 15924) |
List o oblężeniu zamku Dyjamenckiego w Inflantach do Krzysztofa Moniwida Dorohostajskiego, dnia 22 października 1605 pisany | pokaż | pobierz (plików: 11, ~52MB) | pobierz (znaków: 13867) | pobierz (dodatkowe regiony: 4332) |
Nowe Ateny albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … / przez Xiędza Benedykta Chmielowskiego … . Część 1. | pokaż | pobierz (plików: 844, ~2770MB) | pobierz (znaków: 1605794) | pobierz (dodatkowe regiony: 368491) |
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … / przez Xiędza Benedykta Chmielowskiego … . Część 2. | pokaż | pobierz (plików: 810, ~2653MB) | pobierz (znaków: 1247896) | pobierz (dodatkowe regiony: 289459) |
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … . Część 3 albo Supplement. | pokaż | pobierz (plików: 741, ~2681MB) | pobierz (znaków: 1165470) | pobierz (dodatkowe regiony: 280205) |
Nowe Ateny, albo Akademia wszelkiey scyencyi pełna, na różne tytuły iak na classes podzielona, mądrym dla memoryału, idiotom dla nauki, politykom dla praktyki, melancholikom dla rozrywki erygowana … . Część 4, a drugi Supplement. | pokaż | pobierz (plików: 632, ~2308MB) | pobierz (znaków: 1127368) | pobierz (dodatkowe regiony: 288779) |
Nowe nowiny z Czech, Tatar i Węgier, przy tym rewokacja księcia czeskiego i jak radę cesarską z zamku oknem wyrzucali i innego króla sobie obrali | pokaż | pobierz (plików: 32, ~165MB) | pobierz (znaków: 44268) | pobierz (dodatkowe regiony: 9655) |
Nowiny z Inflant o porażce, która się stała nad Karolem, księciem Sudermańskim przez Jana Karola Chodkiewicza dnia 27 września 1605 | pokaż | pobierz (plików: 8, ~35MB) | pobierz (znaków: 8256) | pobierz (dodatkowe regiony: 2770) |
Nowiny z Moskwy albo wota z traktatów i konsulty panów radnych ziemi moskiewskiej, które carowi swemu podawali | pokaż | pobierz (plików: 32, ~148MB) | pobierz (znaków: 49929) | pobierz (dodatkowe regiony: 12059) |
Nowiny z Rakuz o monstrancji luterskiej | pokaż | pobierz (plików: 27, ~124MB) | pobierz (znaków: 33983) | pobierz (dodatkowe regiony: 8043) |
Nowiny z Torunia o zabronieniu przez heretyków nabożeństwa i procesji katolickich | pokaż | pobierz (plików: 7, ~33MB) | pobierz (znaków: 8753) | pobierz (dodatkowe regiony: 2917) |
Oekonomika ziemianska generalna Punktámi Pártikulárnemi, Interrogatoryámi Gospodárskiemi, Praktyką Mieśięczną, Modelluszámi abo Tabułámi Arithmetycznemi obiaśniona. Pánom Dźiedzicznym, Arendarzom, Oekonomom, Attendętom, Urzędnikom, […]. | pokaż | pobierz (plików: 242, ~1202MB) | pobierz (znaków: 262860) | pobierz (dodatkowe regiony: 62635) |
O cieplicach we Skle Ksiąg Troie. Przez Erazma Syxta Philozophiey y Medicyny Doktora Napisanych? | pokaż | pobierz (plików: 195, ~1096MB) | pobierz (znaków: 274754) | pobierz (dodatkowe regiony: 57175) |
Pasja żołnierzy obojga narodów w stolicy moskiewskiej krótko opisana | pokaż | pobierz (plików: 16, ~78MB) | pobierz (znaków: 21396) | pobierz (dodatkowe regiony: 4891) |
Poseł z Wołoch z obozu polskiego. 1621 | pokaż | pobierz (plików: 11, ~57MB) | pobierz (znaków: 9737) | pobierz (dodatkowe regiony: 2817) |
Powodzenia niebezpiecznego ale szczęśliwego wojska j. k. m. w Multanach opisanie | pokaż | pobierz (plików: 6, ~32MB) | pobierz (znaków: 4795) | pobierz (dodatkowe regiony: 1608) |
Prawdziwa relacja i opisanie straszliwego trzęsienia ziemi 27 marca roku 1638 w Kalabrii | pokaż | pobierz (plików: 7, ~7MB) | pobierz (znaków: 5841) | pobierz (dodatkowe regiony: 2036) |
Relacja chwalebnej ekspedycji Jana Kazimierza, króla polskiego i szwedzkiego | pokaż | pobierz (plików: 24, ~118MB) | pobierz (znaków: 30512) | pobierz (dodatkowe regiony: 6583) |
Relacja koronacji cudownego obrazu Najświętszej Marii Panny na Górze Różańcowej [w Podkamieniu] | pokaż | pobierz (plików: 32, ~120MB) | pobierz (znaków: 28738) | pobierz (dodatkowe regiony: 7783) |
Relacja prawdziwa o wejściu wojska polskiego do Wołoch i o potrzebie jego z pogaństwem we wrześniu i październiku 1620 | pokaż | pobierz (plików: 26, ~127MB) | pobierz (znaków: 38398) | pobierz (dodatkowe regiony: 10487) |
Relacja spraw gdańskich na sejmie walnym warszawskim roku 1570 | pokaż | pobierz (plików: 62, ~333MB) | pobierz (znaków: 60064) | pobierz (dodatkowe regiony: 14180) |
Szturm pocieszny smoleński, który był odprawiony szczęśliwie 13 czerwca 1611 | pokaż | pobierz (plików: 29, ~74MB) | pobierz (znaków: 11171) | pobierz (dodatkowe regiony: 2908) |
SŁAWNA VICTORIA, NAD TVRKAMI. OD WOYSK KORONNYCH | pokaż | pobierz (plików: 28, ~122MB) | pobierz (znaków: 22977) | pobierz (dodatkowe regiony: 5836) |
Sławna wiktoria nad Turkami od wojsk koronnych i Wielkiego Księstwa Litewskiego pod Chocimiem otrzymana | pokaż | pobierz (plików: 14, ~123MB) | pobierz (znaków: 17520) | pobierz (dodatkowe regiony: 4392) |
Wieść z Moskwy prawdziwa krótkim rymem wyprowadzona | pokaż | pobierz (plików: 32, ~30MB) | pobierz (znaków: 24034) | pobierz (dodatkowe regiony: 5628) |
Wyprawa i wyjazd sułtana Amurata, cesarza tureckiego, na wojnę do Korony Polskiej | pokaż | pobierz (plików: 32, ~55MB) | pobierz (znaków: 44944) | pobierz (dodatkowe regiony: 9825) |
Wyprawa i wyjazd sułtana Amurata, cesarza tureckiego, na wojnę do Korony Polskiej (wersja 2) | pokaż | pobierz (plików: 32, ~149MB) | pobierz (znaków: 45007) | pobierz (dodatkowe regiony: 7358) |
Zbiór rytmów duchownych Panegirycznych Moralnych i Swiatowych […] Elżbiety z Kowalskich Druzbackiey […] Zebrany y do druku podany przez J. Z. R. K. O. W. etc. [Załuskiego Józefa Andrzeja] | pokaż | pobierz (plików: 566, ~1274MB) | pobierz (znaków: 450405) | pobierz (dodatkowe regiony: 107884) |
Żałosne opisanie upadku króla hiszpańskiego na morzu i na lądzie | pokaż | pobierz (plików: 30, ~135MB) | pobierz (znaków: 39705) | pobierz (dodatkowe regiony: 10709) |
2 przemyślenia nt. „Wyniki prac projektu IMPACT”