Archiwa tagu: ocr

Nowa wersja portalu Wirtualnego Laboratorium Transkrypcji

Kilka dni temu wdrożona została nowa wersja portalu Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl). W nowej wersji znajdą Państwo kilka nowych funkcji i udogodnień, zostały również naprawione zgłaszane przez Państwa błędy.

Najważniejsze zmiany jakie zostały wprowadzone:

  • edytor transkrypcji wspiera pracę z drukami wielokolumnowymi np. gazetami (opcja ta jest dostępna dla nowotworzonych projektów),
  • dodano mechanizm weryfikacji linii, z każdą linią skojarzona jest informacja o tym czy została ona już przejrzana,
  • usprawniony mechanizm importu plików TIFF,
  • możliwość pobierania transkrypcji w formie prostego pliku tekstowego,
  • link do podglądu całej strony w edytorze transkrypcji,
  • w widoku podglądu transkrypcji dodane zostały numery porządkowe linii,
  • w edytorze transkrypcji możliwe jest przesuwanie linii na konkretną pozycję (poprzez podanie jej numeru),
  • po zakończeniu wsadowego OCRa wysyłany jest mail do właściciela projektu,
  • w widoku historii zmian widoczna jest informacja o autorze zmian,
  • w formularzu tworzenia nowego projektu pole autor jest teraz opcjonalne.

Szczegółową notę do wydania z listą wszystkich zmian i poprawek możecie Państwo znaleźć tutaj.

Oprócz wymienionych powyżej zmian uruchomione zostało również forum sugestii i  usprawnień (jest ono dostępne tutaj), w ramach którego możecie Państwo przekazywać nam swoje propozycje ulepszeń w WLT oraz głosować na pomysły, które już zostały zgłoszone. Mogą Państwo wejść na forum korzystając z pomarańczowej zakładki “Twoja sugestia”, która znajduje się w prawym górnym rogu strony WLT. Gorąco zachęcamy do zgłaszania pomysłów i głosowanie na te, które są już widoczne na forum. Przebieg dalszych prac nad WLT zależy w dużej mierze od tego, które funkcje będą się wydawać Państwu najbardziej interesujące.

Nowe funkcje w portalu Wirtualnego Laboratorium Transkrypcji

Source: http://pl.wikipedia.org/wiki/Plik:Escribano.jpg

Z przyjemnością informujemy o wdrożeniu nowej wersji portalu Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl).

Wersja ta to nowe funkcję i poprawki błędów zgłaszanych przez użytkowników. Wśród najbardziej istotnych zmian należy wymienić:

  • możliwość wyeksportowania wyników pracy w postaci pliku ePUB,
  • udostępnianie projektu tylko wybranym użytkownikom WLT,
  • wsparcie dla skanów w formacie TIFF po załadowaniu są one automatycznie konwertowane do formatu PNG,
  • zmiany w dialogu edytora transkrypcji,
  • szereg poprawek w wynikowych plikach hOCR.

Pełną listę zmian wraz z zrzutami ekranu można znaleźć na naszym wiki:
https://confluence.man.poznan.pl/community/display/WLT/Nota+do+wydania+z+dnia+2013-03-25

Kolejny etap beta testów WLT

circle1
W piątek 15 lutego 2013 w portalu Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl) udostępniliśmy szereg nowych funkcji oraz usprawnień.
Oto najważniejsze z nich:

  • wyraźna poprawa wydajności i stabilności działania całego portalu,
  • zmiana sposobu zapisywania historii zmian transkrypcji,
  • import istniejącej publikacji DjVu na podstawie identyfikatora OAI
    (więcej na ten temat tutaj: http://bit.ly/15nMbhn),
  • wsadowy OCR dla wszystkich plików w projekcie,
  • system notyfikacji o zapisywaniu zmian w edytorze transkrypcji,
  • szereg mniejszych poprawek i usprawnień zgłaszanych przez użytkowników,
  • opublikowana została również pierwsza wersja dokumentacji dla użytkowników (https://confluence.man.poznan.pl/community/display/WLT).

Od uruchomienia BETA wersji WLT minęło kilka miesięcy. Dzięki informacji zwrotnej jaką otrzymaliśmy od użytkowników stało się jasne, że musimy dokonać poważnych zmian w silniku portalu. Najważniejsza z nich to zmiana sposobu przechowywania transkrypcji.

W najbliższym czasie zostaną dodane dwie nowe funkcje:

  • eksport projektów w formacie EPUB
  • możliwość  załadowania plików TIFF do projektu (zostaną one skonwertowane automatycznie do formatu PNG w rozdzielczosci 300 DPI).

Autorzy wpisu: Bogna Wróż, Adam Dudczak

Digitlab

Digitlab to specjalnie przystosowany system operacyjny oparty o Linux Ubuntu. Głównym celem jego powstania było stworzenie przy użyciu darmowych i ogólnodostępnych narzędzi kompletnego systemu, który może zostać wykorzystany w procesie cyfryzacji zbiorów. System został oparty na dystrybucji Ubuntu w wersji 12.04 LTS, a przygotowany za pomocą programu Remastersys. Można go pobrać w formie obrazu ISO i wypróbować go nagrywając na pendrive lub płytę DVD bez konieczności instalacji na komputerze.

Digitlab jest jednym z rezultatów prac w ramach projektu ACCESS IT Plus.
Wśród zainstalowanych programów znajdują się między innymi: ScanTailor (narzędzie umożliwiające obróbkę wyników skanowania), gscan2pdf (obsługa skanera, tworzenie PDF/DjVu ze wsparciem dla Tesseracta), magicktiler (narzędzie umozliwiające tworzenie obrazów Zoomify), silnik OCR Tesseract z zainstalowanym wsparciem dla języka polskiego, niemieckich czcionek gotyckich i wiele innych. Oprócz wspomnianych wyżej programów narzędziowych użytkownicy znajdą tam również trzy przykładowe biblioteki cyfrowe, stworzone w oparciu o oprogramowanie DSpace, GreenStone i dLibra. Pełna lista oprogramowania zainstalowanego w systemie Digitlab opublikowana została tutaj.

W celu wypróbowania możliwości systemu Digitlab niezbędne jest użycie nośnika o pojemności co najmniej 4GB oraz oprogramowanie takie jak Ubuntu Startup Disk Creator (Linux) lub Universal USB Installer (Windows) lub inne narzędzie umożliwiające stworzenie boot’owalnego nośnika z obrazu ISO. W obu tych programach oprócz nagrania obrazu systemu można utworzyć przestrzeń dyskową w której zapisywane będą wszystkie zmiany wprowadzane przez użytkownika gdy system uruchomiony będzie z pendrive’a. Przy tworzeniu tej przestrzeni należy pamiętać o tym, że im większy rozmiar tej przestrzeni tym czas startowania systemu z pendrive’a jest (dużo) dłuższy. Oprócz uruchamiania z pendrive’a, Digitlab można również zainstalować na komputerze i wykorzystywać go w pracy jako podstawowy system operacyjny.

Domyślnym językiem systemu jest język angielski. Dodatkowo zainstalowano języki chorwacki, serbski, grecki, albański, turecki oraz polski. Wszystkie aplikacje, które nie zostały zainstalowane z paczek systemowych umieszczone zostały w katalogu /usr/apps/. System z powodzeniem może być wykorzystywany podczas szkoleń jak i codziennej pracy. Obraz ISO pobrać można klikając tutaj.

Grafika, która jest ilustracją dla tego wpisu pochodzi z czasopisma Missye Katolickie z 1882 dostępnego w Wielkopolskiej Bibliotece Cyfrowej.

Nowe zasoby tekstowe opracowane w ramach projektu IMPACT

Dziś udostępnione zostały dodatkowe materiały tekstowe opracowane w ramach projektu IMPACT, a pochodzące z polskich bibliotek cyfrowych. Nowe zasoby zawierają 478 plików z pełnotekstową transkrypcją, która zawiera informacje o współrzędnych regionów, linii, słów oraz znaków. Taki zasób jest szczególnie przydatny w pracach badawczych, dotyczących m.in. algorytmów automatycznego rozpoznawania znaków. Jakość opracowanych zasobów oscyluje w granicach 99.95%. Wszystkie zasoby dostępne są pod adresem: http://dl.psnc.pl/activities/projekty/impact/results/.

Opracowane zasoby były podstawą prac badawczo-rozwojowych realizowanych przez Poznańskie Centrum Superkomputerowo-Sieciowe w ramach projektu IMPACT. Prace te miały na celu porównanie wyników działania dwóch uznanych na świecie silników OCR: FineReader 10 CE oraz Tesseract 3.0.

IMPACT: rezultaty projektu

 

Zapraszamy do uczestnictwa w spotkaniu na którym omówione zostaną rezultaty projektu IMPACT. Spotkanie odbędzie się 26 czerwca 2012 roku w Bibliotece Królewskiej Holandii w Hadze. W spotkaniu zaprezentowane zostaną zarówno wyniki projektu IMPACT, jak i rezultaty serii pilotów, które zostały przeprowadzone przez biblioteki na początku 2012 roku.

Projekt IMPACT (styczeń 2008 – czerwiec 2012) jest projektem europejskim, którego celem jest opracowanie innowacyjnych narzędzi lingwistycznych oraz OCR, które pozwolą ulepszyć proces digitalizacji i dostępność historycznych dokumentów drukowanych w Internecie. IMPACT jest koordynowany przez Bibliotekę Królewską Holandii, a w skład partnerów wchodzą najważniejsze instytucje europejskie, w tym biblioteki narodowe, uniwersytety, centra badawczo-rozwojowe oraz firmy komercyjne. W efekcie projektu IMPACT uruchomione zostąło Centrum Kompetencji IMPACT (www.digitisation.eu), które składa się z szeregu ekspertów w zakresie digitalizacji, chcących wspierać instytucje nauki i kultury w zakresie digitalizacji i pełnotekstowej dostępności dokumentów cyfrowych.

Na spotkaniu w czerwcu zaprezentowane zostaną następujące wyniki:

  • Silnik OCR ABBYY FineReader 10 (tzw. IMPACT FineReader)
  • Adaptacyjny silnik OCR firmy IBM wraz z narzędziem CONCERT do korekty wyników OCR
  • Leksykon lingwistyczny dla 9 języków europejskich oraz narzędzia do jego budowania
  • System do demonstracji oraz weryfikacji i oceny narzędzi i rezultatów digitalizacji
  • Zbiór danych opracowany w ramach projektu, w tym nieocenione zasoby pełnotekstowe dla ponad 50 000 stron
  • Narzędzie Functional Extension Parser analizujące układ stron książek
  • Narzędzie do korenty wyników OCR z wbudowaną możliwością profilowania
  • Nowatorskie podejścia do przetwarzania wstępnego dla OCR oraz potencjalne możliwości jego rozwoju
  • Centrum Kompetencji IMPACT w zakresie digitalizacji

Uczestnictwo w spotkaniu jest bezpłatne, natomiast prosimy o rejestrację na stronie: http://impactocr.eventbrite.com/. Program spotkania zostanie umieszczony w najbliższym czasie.

 

Instalacja Tesseract 3.0 na Ubuntu server 10.10

Tesseract to aplikacja służąca do automatycznego rozpoznawania tekstu (ang. Optical Character Recognition, OCR). Pierwotnie była ona rozwijana przez firmę Hewlett Packard. W 2005 roku kod aplikacji został uwolniony na licencji Apache. W chwili obecnej jego rozwój jest wspierany przez Google. We wrześniu 2010 opublikowano wersję 3.0, obok wielu innych nowych funkcji oferuje on również wsparcie dla języka polskiego.

Wiki na stronach projektu Tesseract jest chwilami niespójna dlatego zdecydowałem się opisać moje doświadczenia związane z instalacją wersji 3.0. Instalacji dokonałem przy wykorzystaniu Ubuntu 10.10 w wersji serwerowej działającej na wirtualnej maszynie stworzonej przy użyciu Oracle Virtual Box.

W pierwszej kolejności należy zainstalować build-essential i autoconf:

sudo apt-get install build-essential
sudo apt-get install autoconf

Następnie – zgodnie z tym co napisano na Wiki projektu, trzeba zainstalować wykorzystywane przez aplikację biblioteki:

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev

Proszę zwrócić uwagę, że na stronie Tesseract’a jest błąd w nazwie pakietu zlib1g-gev.

Próbowałem zainstalować libleptonica (biblioteka Leptonica jest wymagana) z pakietu dostępnego w domyślnych repozytoriach Ubuntu, ale skrypt ./configure Tesseract’a nie wykrywa tak zainstalowanej biblioteki. Z problemem tym można sobie poradzić kompilując Leptonicę ze źródeł. Ściągnąłem źródła do wersji 1.6.7 z strony projektu. Proces budowania wygląda następująco:

./configure
make
sudo make install
sudo ldconfig

Kolejny krok to ściągnięcie źródeł tesseract-3.00.tar.gz ze strony projektu. Należy rozpakować archiwum, wejść do katalogu tesseract-3.0 i wydać polecenia:

./runautoconf
./configure

Po wywołaniu polecenia ./configure należy sprawdzić zawartość pliku config_auto.h pozwoli to określić czy wszystkie zależności zostały przez skrypt wykryte. Plik powinien zawierać dyrektywę #define odkomentowaną dla następujących zmiennych AVE_LIBLEPT, HAVE_LIBPNG, HAVE_LIBTIFF, HAVE_LIBJPEG oraz HAVE_ZLIB.

make
sudo make install
sudo ldconfig

Bez wydania polecenia ldconfig Tesseract może się w ogóle nie uruchomić.

Teraz wystarczy już tylko ze strony projektu ściągnąć pliki zawierające wsparcie dla potrzebnych języków i skopiować je do katalogu z ustawieniami, który domyślnie znajduje się w /usr/local/share/tessdata. Aby uruchomić OCR wystarczy wydać polecenie:

tesseract phototest.tiff out.txt -l eng 
more out.txt

Mam nadzieje, że powyższa instrukcja okaże się przydatna.

Ankieta dotycząca wykorzystania oprogramowania OCR w polskich bibliotekach cyfrowych

Zapraszamy wszystkich Państwa do wypełnienia ankiety dotyczącej wykorzystywania oprogramowania do automatycznego rozpoznawania tekstu (OCR) w tworzonych przez Państwa bibliotekach cyfrowych. Ankieta jest adresowana do instytucji, które tworzą bądź współtworzą biblioteki cyfrowe. Wyniki zostaną wykorzystane w czasie prac realizowanych przez PCSS w ramach projektu SYNAT (http://www.synat.pl) i zostaną opublikowane w formie raportu.

Ankieta będzie dostępna do 6 października 2010 pod tym adresem.