Archiwa tagu: IMPACT

Raport dotyczący porównania silników OCR FineReader i Tesseract

Dziś opublikowany został raport dotyczący porównania silników OCR FineReader oraz Tesseract. Oba narzędzia zostały przetestowane na skanach dokumentów historycznych (drukowanych przed 1850), które pochodzą z różnych polskich bibliotek cyfrowych. Porównanie dotyczyło antykwy i gotyku, a także obrazów z szumami i bez szumów. W celu przeprowadzenia porównania oba narzędzia zostały poddane procesowi trenowania.

Porównując wyniki obu silników OCR nie można stwierdzić, że jeden z nich znacząco przeważa nad innym, niemniej w raporcie opisano różnice pomiędzy silnikiem FineReader i Tesseract, ze wskazaniem na ich wady i zalety. Zachęcamy Państwa do zapoznania się z raportem, podejściem zastosowanym do porównania silników i otrzymanymi wynikami.

Wszystkie testy zostały opracowane na bazie pełnotekstowych transkrypcji wytworzonych w ramach projektu IMPACT. Samo porównanie zostało zrealizowane w ramach rozszerzenia projektu IMPACT w pierwszej połowie 2012 roku. IMPACT jest wspierany przez Unię Europejską w ramach 7 Programu Ramowego. Projekt jest koordynowany przez Bibliotekę Królewską Holandii.

Pełen raport jest dostępny do pobrania na stronach Zespołu Bibliotek Cyfrowych PCSS, w sekcji dotyczącej wyników projektu IMPACT.

Nowe zasoby tekstowe opracowane w ramach projektu IMPACT

Dziś udostępnione zostały dodatkowe materiały tekstowe opracowane w ramach projektu IMPACT, a pochodzące z polskich bibliotek cyfrowych. Nowe zasoby zawierają 478 plików z pełnotekstową transkrypcją, która zawiera informacje o współrzędnych regionów, linii, słów oraz znaków. Taki zasób jest szczególnie przydatny w pracach badawczych, dotyczących m.in. algorytmów automatycznego rozpoznawania znaków. Jakość opracowanych zasobów oscyluje w granicach 99.95%. Wszystkie zasoby dostępne są pod adresem: http://dl.psnc.pl/activities/projekty/impact/results/.

Opracowane zasoby były podstawą prac badawczo-rozwojowych realizowanych przez Poznańskie Centrum Superkomputerowo-Sieciowe w ramach projektu IMPACT. Prace te miały na celu porównanie wyników działania dwóch uznanych na świecie silników OCR: FineReader 10 CE oraz Tesseract 3.0.

IMPACT: rezultaty projektu

 

Zapraszamy do uczestnictwa w spotkaniu na którym omówione zostaną rezultaty projektu IMPACT. Spotkanie odbędzie się 26 czerwca 2012 roku w Bibliotece Królewskiej Holandii w Hadze. W spotkaniu zaprezentowane zostaną zarówno wyniki projektu IMPACT, jak i rezultaty serii pilotów, które zostały przeprowadzone przez biblioteki na początku 2012 roku.

Projekt IMPACT (styczeń 2008 – czerwiec 2012) jest projektem europejskim, którego celem jest opracowanie innowacyjnych narzędzi lingwistycznych oraz OCR, które pozwolą ulepszyć proces digitalizacji i dostępność historycznych dokumentów drukowanych w Internecie. IMPACT jest koordynowany przez Bibliotekę Królewską Holandii, a w skład partnerów wchodzą najważniejsze instytucje europejskie, w tym biblioteki narodowe, uniwersytety, centra badawczo-rozwojowe oraz firmy komercyjne. W efekcie projektu IMPACT uruchomione zostąło Centrum Kompetencji IMPACT (www.digitisation.eu), które składa się z szeregu ekspertów w zakresie digitalizacji, chcących wspierać instytucje nauki i kultury w zakresie digitalizacji i pełnotekstowej dostępności dokumentów cyfrowych.

Na spotkaniu w czerwcu zaprezentowane zostaną następujące wyniki:

  • Silnik OCR ABBYY FineReader 10 (tzw. IMPACT FineReader)
  • Adaptacyjny silnik OCR firmy IBM wraz z narzędziem CONCERT do korekty wyników OCR
  • Leksykon lingwistyczny dla 9 języków europejskich oraz narzędzia do jego budowania
  • System do demonstracji oraz weryfikacji i oceny narzędzi i rezultatów digitalizacji
  • Zbiór danych opracowany w ramach projektu, w tym nieocenione zasoby pełnotekstowe dla ponad 50 000 stron
  • Narzędzie Functional Extension Parser analizujące układ stron książek
  • Narzędzie do korenty wyników OCR z wbudowaną możliwością profilowania
  • Nowatorskie podejścia do przetwarzania wstępnego dla OCR oraz potencjalne możliwości jego rozwoju
  • Centrum Kompetencji IMPACT w zakresie digitalizacji

Uczestnictwo w spotkaniu jest bezpłatne, natomiast prosimy o rejestrację na stronie: http://impactocr.eventbrite.com/. Program spotkania zostanie umieszczony w najbliższym czasie.

 

Pełnotekstowe wersje polskich dokumentów historycznych – pobierz już dziś!

Prace prowadzone przez Zespół Bibliotek Cyfrowych PCSS, a realizowane w ramach projektu IMPACT, zaowocowały przygotowaniem zestawu pełnotekstowych wersji cyfrowych wybranych dokumentów historycznych z czterech bibliotek cyfrowych w Polsce. W sumie przetworzone zostały 4 693 pliki, a ich transkrypcje mają łącznie 6 890 677 znaków. Rozmiar plików master to w sumie około 16,5GB. Rozmiar wszystkich transkrypcji to około 300MB, a transkrypcje z dodatkowymi informacjami zajmują 700MB.

Szczegóły co do udostępnionych materiałów oraz same materiały dostępne są do pobrania na stronie wyników projektu IMPACT opracowanych przez Zespół Bibliotek Cyfrowych PCSS.

PCSS przyłączyło się do europejskiego projektu IMPACT

Z początkiem lutego 2010 roku PCSS zostało przyłączone do europejskiego projektu IMPACT (Improving Access To Text). Prace projektowe prowadzone są przez Zespół Bibliotek Cyfrowych PCSS.

IMPACT jest czteroletnim projektem (2008-2012) finansowanym w ramach 7 Programu Ramowego UE. W 2010 roku rozpoczęła się druga faza projektu w ramach której przyłączeni zostali nowi partnerzy z Francji, Hiszpanii oraz Polski. Podstawowym celem projektu jest ułatwienie dostępu do historycznych dokumentów cyfrowych, a kluczowym celem strategicznym jest wsparcie jednostek takich jak biblioteki i instytucje kultury, ale również firmy oraz organizacje w zakresie realizacji koncepcji masowej digitalizacji zasobów.

Koordynatorem projektu IMPACT jest Biblioteka Narodowa Holandii, a liderami pod-projektów są Biblioteka Brytyjska, Uniwersytet z Innsbruck oraz Biblioteka Narodowa Austrii.

Polska w projekcie reprezentowana jest przez Zespół Bibliotek Cyfrowych PCSS (ZBC PCSS) oraz Katedrę Lingwistyki Formalnej Uniwersytetu Warszawskiego (KLF UW). ZBC PCSS odpowiedzialny jest za koordynację prac prowadzonych przez polskich partnerów, prace demonstracyjne dotyczące polskich dokumentów historycznych, a związane z narzędziami wytworzonymi w ramach projektu IMPACT w kontekście ulepszania technik wyszukiwania oraz OCR, prowadzenie działalności informacyjnej dotyczącej projektu na terenie Polski oraz wsparcie projektu w zakresie budowania centrów kompetencji masowej digitalizacji. KLF UW odpowiedzialna jest za prowadzenie prac językowych dotyczących polskich dokumentów historycznych w zakresie budowania zasobów (leksykonów) umożliwiających ulepszenie technik wyszukiwania oraz OCR historycznych dokumentów.

Więcej informacji dostępnych w języku angielskim znajduje się na stronie projektu IMPACT – http://www.impact-project.eu/