Archiwa tagu: FineReader

Raport dotyczący porównania silników OCR FineReader i Tesseract

Dziś opublikowany został raport dotyczący porównania silników OCR FineReader oraz Tesseract. Oba narzędzia zostały przetestowane na skanach dokumentów historycznych (drukowanych przed 1850), które pochodzą z różnych polskich bibliotek cyfrowych. Porównanie dotyczyło antykwy i gotyku, a także obrazów z szumami i bez szumów. W celu przeprowadzenia porównania oba narzędzia zostały poddane procesowi trenowania.

Porównując wyniki obu silników OCR nie można stwierdzić, że jeden z nich znacząco przeważa nad innym, niemniej w raporcie opisano różnice pomiędzy silnikiem FineReader i Tesseract, ze wskazaniem na ich wady i zalety. Zachęcamy Państwa do zapoznania się z raportem, podejściem zastosowanym do porównania silników i otrzymanymi wynikami.

Wszystkie testy zostały opracowane na bazie pełnotekstowych transkrypcji wytworzonych w ramach projektu IMPACT. Samo porównanie zostało zrealizowane w ramach rozszerzenia projektu IMPACT w pierwszej połowie 2012 roku. IMPACT jest wspierany przez Unię Europejską w ramach 7 Programu Ramowego. Projekt jest koordynowany przez Bibliotekę Królewską Holandii.

Pełen raport jest dostępny do pobrania na stronach Zespołu Bibliotek Cyfrowych PCSS, w sekcji dotyczącej wyników projektu IMPACT.