Dziś opublikowany został raport dotyczący porównania silników OCR FineReader oraz Tesseract. Oba narzędzia zostały przetestowane na skanach dokumentów historycznych (drukowanych przed 1850), które pochodzą z różnych polskich bibliotek cyfrowych. Porównanie dotyczyło antykwy i gotyku, a także obrazów z szumami i bez szumów. W celu przeprowadzenia porównania oba narzędzia zostały poddane procesowi trenowania.
Porównując wyniki obu silników OCR nie można stwierdzić, że jeden z nich znacząco przeważa nad innym, niemniej w raporcie opisano różnice pomiędzy silnikiem FineReader i Tesseract, ze wskazaniem na ich wady i zalety. Zachęcamy Państwa do zapoznania się z raportem, podejściem zastosowanym do porównania silników i otrzymanymi wynikami.
Wszystkie testy zostały opracowane na bazie pełnotekstowych transkrypcji wytworzonych w ramach projektu IMPACT. Samo porównanie zostało zrealizowane w ramach rozszerzenia projektu IMPACT w pierwszej połowie 2012 roku. IMPACT jest wspierany przez Unię Europejską w ramach 7 Programu Ramowego. Projekt jest koordynowany przez Bibliotekę Królewską Holandii.
Pełen raport jest dostępny do pobrania na stronach Zespołu Bibliotek Cyfrowych PCSS, w sekcji dotyczącej wyników projektu IMPACT.
Czy można poprosić o bezpośredni link do raportu?
Witam.
Link znajduje się na stronie http://dl.psnc.pl/activities/projekty/impact/results/. Konkretnie jest to: http://lib.psnc.pl/publication/428/content
Pozdrawiam,
Tomasz Parkoła