Archiwa tagu: tesseract

Digitlab

Digitlab to specjalnie przystosowany system operacyjny oparty o Linux Ubuntu. Głównym celem jego powstania było stworzenie przy użyciu darmowych i ogólnodostępnych narzędzi kompletnego systemu, który może zostać wykorzystany w procesie cyfryzacji zbiorów. System został oparty na dystrybucji Ubuntu w wersji 12.04 LTS, a przygotowany za pomocą programu Remastersys. Można go pobrać w formie obrazu ISO i wypróbować go nagrywając na pendrive lub płytę DVD bez konieczności instalacji na komputerze.

Digitlab jest jednym z rezultatów prac w ramach projektu ACCESS IT Plus.
Wśród zainstalowanych programów znajdują się między innymi: ScanTailor (narzędzie umożliwiające obróbkę wyników skanowania), gscan2pdf (obsługa skanera, tworzenie PDF/DjVu ze wsparciem dla Tesseracta), magicktiler (narzędzie umozliwiające tworzenie obrazów Zoomify), silnik OCR Tesseract z zainstalowanym wsparciem dla języka polskiego, niemieckich czcionek gotyckich i wiele innych. Oprócz wspomnianych wyżej programów narzędziowych użytkownicy znajdą tam również trzy przykładowe biblioteki cyfrowe, stworzone w oparciu o oprogramowanie DSpace, GreenStone i dLibra. Pełna lista oprogramowania zainstalowanego w systemie Digitlab opublikowana została tutaj.

W celu wypróbowania możliwości systemu Digitlab niezbędne jest użycie nośnika o pojemności co najmniej 4GB oraz oprogramowanie takie jak Ubuntu Startup Disk Creator (Linux) lub Universal USB Installer (Windows) lub inne narzędzie umożliwiające stworzenie boot’owalnego nośnika z obrazu ISO. W obu tych programach oprócz nagrania obrazu systemu można utworzyć przestrzeń dyskową w której zapisywane będą wszystkie zmiany wprowadzane przez użytkownika gdy system uruchomiony będzie z pendrive’a. Przy tworzeniu tej przestrzeni należy pamiętać o tym, że im większy rozmiar tej przestrzeni tym czas startowania systemu z pendrive’a jest (dużo) dłuższy. Oprócz uruchamiania z pendrive’a, Digitlab można również zainstalować na komputerze i wykorzystywać go w pracy jako podstawowy system operacyjny.

Domyślnym językiem systemu jest język angielski. Dodatkowo zainstalowano języki chorwacki, serbski, grecki, albański, turecki oraz polski. Wszystkie aplikacje, które nie zostały zainstalowane z paczek systemowych umieszczone zostały w katalogu /usr/apps/. System z powodzeniem może być wykorzystywany podczas szkoleń jak i codziennej pracy. Obraz ISO pobrać można klikając tutaj.

Grafika, która jest ilustracją dla tego wpisu pochodzi z czasopisma Missye Katolickie z 1882 dostępnego w Wielkopolskiej Bibliotece Cyfrowej.

Raport dotyczący porównania silników OCR FineReader i Tesseract

Dziś opublikowany został raport dotyczący porównania silników OCR FineReader oraz Tesseract. Oba narzędzia zostały przetestowane na skanach dokumentów historycznych (drukowanych przed 1850), które pochodzą z różnych polskich bibliotek cyfrowych. Porównanie dotyczyło antykwy i gotyku, a także obrazów z szumami i bez szumów. W celu przeprowadzenia porównania oba narzędzia zostały poddane procesowi trenowania.

Porównując wyniki obu silników OCR nie można stwierdzić, że jeden z nich znacząco przeważa nad innym, niemniej w raporcie opisano różnice pomiędzy silnikiem FineReader i Tesseract, ze wskazaniem na ich wady i zalety. Zachęcamy Państwa do zapoznania się z raportem, podejściem zastosowanym do porównania silników i otrzymanymi wynikami.

Wszystkie testy zostały opracowane na bazie pełnotekstowych transkrypcji wytworzonych w ramach projektu IMPACT. Samo porównanie zostało zrealizowane w ramach rozszerzenia projektu IMPACT w pierwszej połowie 2012 roku. IMPACT jest wspierany przez Unię Europejską w ramach 7 Programu Ramowego. Projekt jest koordynowany przez Bibliotekę Królewską Holandii.

Pełen raport jest dostępny do pobrania na stronach Zespołu Bibliotek Cyfrowych PCSS, w sekcji dotyczącej wyników projektu IMPACT.

Instalacja Tesseract 3.0 na Ubuntu server 10.10

Tesseract to aplikacja służąca do automatycznego rozpoznawania tekstu (ang. Optical Character Recognition, OCR). Pierwotnie była ona rozwijana przez firmę Hewlett Packard. W 2005 roku kod aplikacji został uwolniony na licencji Apache. W chwili obecnej jego rozwój jest wspierany przez Google. We wrześniu 2010 opublikowano wersję 3.0, obok wielu innych nowych funkcji oferuje on również wsparcie dla języka polskiego.

Wiki na stronach projektu Tesseract jest chwilami niespójna dlatego zdecydowałem się opisać moje doświadczenia związane z instalacją wersji 3.0. Instalacji dokonałem przy wykorzystaniu Ubuntu 10.10 w wersji serwerowej działającej na wirtualnej maszynie stworzonej przy użyciu Oracle Virtual Box.

W pierwszej kolejności należy zainstalować build-essential i autoconf:

sudo apt-get install build-essential
sudo apt-get install autoconf

Następnie – zgodnie z tym co napisano na Wiki projektu, trzeba zainstalować wykorzystywane przez aplikację biblioteki:

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev

Proszę zwrócić uwagę, że na stronie Tesseract’a jest błąd w nazwie pakietu zlib1g-gev.

Próbowałem zainstalować libleptonica (biblioteka Leptonica jest wymagana) z pakietu dostępnego w domyślnych repozytoriach Ubuntu, ale skrypt ./configure Tesseract’a nie wykrywa tak zainstalowanej biblioteki. Z problemem tym można sobie poradzić kompilując Leptonicę ze źródeł. Ściągnąłem źródła do wersji 1.6.7 z strony projektu. Proces budowania wygląda następująco:

./configure
make
sudo make install
sudo ldconfig

Kolejny krok to ściągnięcie źródeł tesseract-3.00.tar.gz ze strony projektu. Należy rozpakować archiwum, wejść do katalogu tesseract-3.0 i wydać polecenia:

./runautoconf
./configure

Po wywołaniu polecenia ./configure należy sprawdzić zawartość pliku config_auto.h pozwoli to określić czy wszystkie zależności zostały przez skrypt wykryte. Plik powinien zawierać dyrektywę #define odkomentowaną dla następujących zmiennych AVE_LIBLEPT, HAVE_LIBPNG, HAVE_LIBTIFF, HAVE_LIBJPEG oraz HAVE_ZLIB.

make
sudo make install
sudo ldconfig

Bez wydania polecenia ldconfig Tesseract może się w ogóle nie uruchomić.

Teraz wystarczy już tylko ze strony projektu ściągnąć pliki zawierające wsparcie dla potrzebnych języków i skopiować je do katalogu z ustawieniami, który domyślnie znajduje się w /usr/local/share/tessdata. Aby uruchomić OCR wystarczy wydać polecenie:

tesseract phototest.tiff out.txt -l eng 
more out.txt

Mam nadzieje, że powyższa instrukcja okaże się przydatna.