Archiwa tagu: SYNAT

Nowa wersja portalu Wirtualnego Laboratorium Transkrypcji

Kilka dni temu wdrożona została nowa wersja portalu Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl). W nowej wersji znajdą Państwo kilka nowych funkcji i udogodnień, zostały również naprawione zgłaszane przez Państwa błędy.

Najważniejsze zmiany jakie zostały wprowadzone:

  • edytor transkrypcji wspiera pracę z drukami wielokolumnowymi np. gazetami (opcja ta jest dostępna dla nowotworzonych projektów),
  • dodano mechanizm weryfikacji linii, z każdą linią skojarzona jest informacja o tym czy została ona już przejrzana,
  • usprawniony mechanizm importu plików TIFF,
  • możliwość pobierania transkrypcji w formie prostego pliku tekstowego,
  • link do podglądu całej strony w edytorze transkrypcji,
  • w widoku podglądu transkrypcji dodane zostały numery porządkowe linii,
  • w edytorze transkrypcji możliwe jest przesuwanie linii na konkretną pozycję (poprzez podanie jej numeru),
  • po zakończeniu wsadowego OCRa wysyłany jest mail do właściciela projektu,
  • w widoku historii zmian widoczna jest informacja o autorze zmian,
  • w formularzu tworzenia nowego projektu pole autor jest teraz opcjonalne.

Szczegółową notę do wydania z listą wszystkich zmian i poprawek możecie Państwo znaleźć tutaj.

Oprócz wymienionych powyżej zmian uruchomione zostało również forum sugestii i  usprawnień (jest ono dostępne tutaj), w ramach którego możecie Państwo przekazywać nam swoje propozycje ulepszeń w WLT oraz głosować na pomysły, które już zostały zgłoszone. Mogą Państwo wejść na forum korzystając z pomarańczowej zakładki “Twoja sugestia”, która znajduje się w prawym górnym rogu strony WLT. Gorąco zachęcamy do zgłaszania pomysłów i głosowanie na te, które są już widoczne na forum. Przebieg dalszych prac nad WLT zależy w dużej mierze od tego, które funkcje będą się wydawać Państwu najbardziej interesujące.

Nowe funkcje w portalu Wirtualnego Laboratorium Transkrypcji

Source: http://pl.wikipedia.org/wiki/Plik:Escribano.jpg

Z przyjemnością informujemy o wdrożeniu nowej wersji portalu Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl).

Wersja ta to nowe funkcję i poprawki błędów zgłaszanych przez użytkowników. Wśród najbardziej istotnych zmian należy wymienić:

  • możliwość wyeksportowania wyników pracy w postaci pliku ePUB,
  • udostępnianie projektu tylko wybranym użytkownikom WLT,
  • wsparcie dla skanów w formacie TIFF po załadowaniu są one automatycznie konwertowane do formatu PNG,
  • zmiany w dialogu edytora transkrypcji,
  • szereg poprawek w wynikowych plikach hOCR.

Pełną listę zmian wraz z zrzutami ekranu można znaleźć na naszym wiki:
https://confluence.man.poznan.pl/community/display/WLT/Nota+do+wydania+z+dnia+2013-03-25

Kolejny etap beta testów WLT

circle1
W piątek 15 lutego 2013 w portalu Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl) udostępniliśmy szereg nowych funkcji oraz usprawnień.
Oto najważniejsze z nich:

  • wyraźna poprawa wydajności i stabilności działania całego portalu,
  • zmiana sposobu zapisywania historii zmian transkrypcji,
  • import istniejącej publikacji DjVu na podstawie identyfikatora OAI
    (więcej na ten temat tutaj: http://bit.ly/15nMbhn),
  • wsadowy OCR dla wszystkich plików w projekcie,
  • system notyfikacji o zapisywaniu zmian w edytorze transkrypcji,
  • szereg mniejszych poprawek i usprawnień zgłaszanych przez użytkowników,
  • opublikowana została również pierwsza wersja dokumentacji dla użytkowników (https://confluence.man.poznan.pl/community/display/WLT).

Od uruchomienia BETA wersji WLT minęło kilka miesięcy. Dzięki informacji zwrotnej jaką otrzymaliśmy od użytkowników stało się jasne, że musimy dokonać poważnych zmian w silniku portalu. Najważniejsza z nich to zmiana sposobu przechowywania transkrypcji.

W najbliższym czasie zostaną dodane dwie nowe funkcje:

  • eksport projektów w formacie EPUB
  • możliwość  załadowania plików TIFF do projektu (zostaną one skonwertowane automatycznie do formatu PNG w rozdzielczosci 300 DPI).

Autorzy wpisu: Bogna Wróż, Adam Dudczak

Kultura 2.0: Cyfrowe archiwa – Narzędziownia

W dniach 26-27 października Narodowy Instytut Audiowizualny (NiNA) zoorganizował po raz kolejny konferencję (a właściwie festiwal) Kultura 2.0. Goście konferencji mieli możliwość uczestniczenia w różnego rodzaju prelekcjach, warsztatach, grach i pokazach. Szczegółowy program jest dostępny na stronach konferencji. PCSS był partnerem imprezy, ekipa Platon TV realizowała nagrania i transmisję obrad, natomiast Zespół Bibliotek Cyfrowych był odpowiedzialny za zorganizowanie akcji „Cyfrowe archiwa – Narzędziownia”.

O co chodziło w „Narzędziowni”? Biblioteki, archiwa i muzea cyfrowe kojarzą się zazwyczaj z dużymi instytucjami i bezcennymi zabytkowymi zbiorami. Jednak każdy z nas może znaleźć w zapomnianej szufladzie czy szafie rodzinne pamiątki, stare dokumenty, zdjęcia lub pocztówki warte zachowania, ale i szerszego udostępnienia. W ramach tej akcji chcieliśmy pokazać, jak za pomocą ogólnie dostępnych narzędzi (prosty skaner płaski, aparat cyfrowy, darmowe oprogramowanie) można stworzyć np. własne cyfrowe archiwum rodzinne i jak te materiały udostępnić w sieci zgodnie z kanonami cyfrowego bibliotekarstwa. Narzędziownia była podzielona na trzy stoiska: „Obróbka ze skanowaniem”, „Tran2|>ryp>ja”i „Niech wszyscy zobaczą!”.

fot. Justyna Walkowska

W ramach pierwszego przystanku („Obróbka ze skanowaniem”) uczestnicy mogli spróbować swoich sił w digitalizacji przyniesionych przez siebie materiałów. Pokazywaliśmy, jak przebiega sam proces skanowania i co się dzieje z cyfrowym materiałem, gdy trafia już na dysk twardy komputera. Całość działań na tym stoisku realizowaliśmy przy pomocy systemu DigitLab, używając takich narzędzi jak ScanTailor, gScan2PDF, Tesseract czy SimpleScan. Był to swoisty egzamin dla tego narzędzia, egzamin, który DigitLab zdał 😉 (przynajmniej naszym zdaniem). Bezpośredni kontakt z użytkownikami to rzecz bezcenna dla każdego twórcy narzędzi. Uwagi, które zebraliśmy, postaramy się uwzględnić w kolejnym wydaniu systemu.

Na stoisku numer 2 – o nieco dziwnym tytule „Tran2|>ryp>ja” – pokazywaliśmy, jak za pomocą „Wirtualnego Laboratorium Transkrypcji” (WLT) użytkownicy mogą tworzyć pełnotekstowe reprezentacje (transkrypcje) dokumentów tekstowych. Jak wiadomo, wynikiem procesu digitalizacji jest plik graficzny – cyfrowa reprezentacja zeskanowanego dokumentu. Nie zawiera ona, niestety, tekstu dokumentu w postaci cyfrowej, a dopiero dostęp do cyfrowego tekstu pozwala na stworzenie efektywnych mechanizmów wyszukiwania, zwiększa widoczność dokumentu w sieci i otwiera nowe możliwości w pracach badawczych. WLT oferuje użytkownikom mechanizm automatycznej konwersji skanów do postaci cyfrowego tekstu (tzw. OCR, od angielskiego Optical Character Recognition). Poza tym, użytkownicy mogą wspólnie pracować nad automatycznie rozpoznawanym tekstem i wprowadzać korekty w miejscach, w których program komputerowy się pomylił. Dzięki połączeniu metod automatycznych i wygodnego edytora transkrypcji, WLT umożliwia bibliotekarzom, naukowcom czy też hobbystom tworzenie wysokiej jakości reprezentacji tekstowej dla dokumentów historycznych.

Ostatnie stoisko demonstrowało zagadnienia związane z udostępnianiem zasobów w sieci zgodnie z kanonami cyfrowego bibliotekarstwa. Pokazywaliśmy, jak stworzyć własne archiwum cyfrowe przy pomocy narzędzi takich jak Omeka. Prezentowaliśmy również, jak wygląda proces umieszczania w sieci dokumentów w największych polskich bibliotekach cyfrowych, w których wykorzystywane jest oprogramowanie dLibra. W kolejnym kroku pokazywaliśmy, jak sprawdzić, kto linkuje do naszych zasobów i jak monitorować wykorzystanie tych zasobów za pomocą darmowych narzędzi. Duża część gości naszego stoiska nie słyszała o Federacji Bibliotek Cyfrowych i Europeanie, zatem staraliśmy się im ten temat przybliżyć.

Dla nas bezcenna była możliwość przetestowania naszych rozwiązań w bezpośrednich rozmowach z użytkownikami. Były to bardzo pracowite dwa dni i tak naprawdę nie mieliśmy zbyt wiele czasu, żeby uczestniczyć w prelekcjach czy warsztatach, które odbywały się w czasie festiwalu. Udało nam się za to rozejrzeć nieco po Poziomie 2.0 (taką nazwę nosiło drugie piętro budynku w którym odbywała się konferencja) na którym oprócz „Narzędziowni” prezentowane były różnego rodzaju instalacje. Z rzeczy, które bardzo przypadły nam do gustu należy wspomnieć o pracy dyplomowej Waldemara Węgrzyna pt. „Elektrobiblioteka” – który wykorzystał tradycyjną analogową książkę jako interfejs do wzbogaconej wersji elektronicznej.

Elektrobiblioteka Waldka Wegrzyna w serwisie Vimeo.

To oczywiście nie wszystko. Zapraszamy do zapoznania się z pełną lista tego, co można było zobaczyć na Poziomie 2.0. Mamy nadzieję, że w najbliższym czasie udostępnione zostaną nagrania z prelekcji z chęcią nadrobimy zaległości i obejrzymy to co nas ominęło ;-).

Autorzy wpisu: Adam Dudczak, Justyna Walkowska

Pierwszy polski THATCamp

W dniach 24-25 października 2012 odbędzie się pierwsza polska edycja THATCampu. Jest ona organizowana przez koalicję THAT-Camp Polska i odbędzie się w ramach konferencji w ramach Ogólnopolskiej Konferencji Naukowej „Zwrot Cyfrowy w humanistyce Internet Nowe Media-Kultura 2.0”. THATCamp odbędzie się w siedzibie Teatru NN na Starym Mieście w Lublinie (ul.Grodzka 21). Patronat nad imprezą objęło Poznańskie Centrum Superkomputerowo Sieciowe.

THATCampy (The Humanities And Technology Camp, http://www.thatcamp.org) to organizowane na całym świecie otwarte i nieformalne spotkania osób zainteresowanych nowymi technologiami w humanistyce i socjologii, a także w działalnościach instytucji naukowych i artystycznych (uniwersytety, galerie, archiwa, biblioteki, muzea). Uczestnictwo w tego typu imprezach jest bezpłatne.

Początki THATCampu sięgają roku 2008 kiedy to w Stanach Zjednoczonych odbył się on po raz pierwszy, zorganizowany przez Centrum Historii i Nowych Mediów (Center for History and New Media, CHNM) przy Uniwersytecie George’a Masona.

Więcej informacji o imprezie można znaleźć tutaj.

Autorzy wpisu: Bogna Wróż, Adam Dudczak

Europeana i biblioteki: spotkanie w Bukareszcie

Cerkiew Włoska w Bukareszcie

W dniach 21-23 maja w Bukareszcie odbyło się wspólne spotkanie projektu Europeana Libraries oraz TEL (The European Library). Motyw przewodni spotkania to Patrząc w przyszłość: w jaki sposób nasza usługa odpowiada na potrzeby europejskich wspólnot badawczych? Pod tym adresem można znaleźć nagrania wideo z niektórych sesji.

PCSS uczestniczy w części Work Package 5 projektu EuropeanaLibraries. Głównym zadaniem tej grupy roboczej jest poprawa możliwości wyszukiwania wśród treści bibliotecznych w Europeanie poprzez zdefiniowanie przekształcenia metadanych w formacie ESE na format EDM oraz ustanowienie dobrych praktyk uwzględniających różne typy bibliotek obecnych w Europeanie.

Wewnętrznie portal Europeana przechodzi na nowy format reprezentacji danych EDM (Europeana Data Model). Format ten od stosowanego do tej pory ESE (Europeana Semantic Elements) różni się przede wszystkim tym, że jest formatem zgodnym z inicjatywami Semantic Web i Linked Open Data, wykorzystującym ontologię. EDM wprowadza wyraźnie rozróżnienie pomiędzy zasobem fizycznym (np. obraz albo starodruk), nazywanym w ontologii Provided Cultural Heritage Object (dostarczany obiekt dziedzictwa kulturowego) a odwzorowującym go zasobem elektronicznym (Web Resource), przy czym takich zasobów elektronicznych dla tego samego obiektu może być wiele. W schemacie ESE dane tych dwóch różnych typów zasobów bywają przemieszane. Schemat EDM dąży do postaci zdarzeniocentrycznej, zbliżonej do tej znanej z ontologii CIDOC CRM.

W przypadku bibliotek wyzwania związane z przejściem na schemat EDM są nieco odmienne niż w przypadku muzeów. Jedną z podstawowych kwestii było zadecydowanie, czy opisywanym obiektem dziedzictwa kulturowego ma być Egzemplarz/Item (konkretna książka), czy Realizacja/Expression (konkretne wydanie, stosując słownictwo z modelu FRBR).

Przed spotkaniem instytucje zaangażowane w prace WP5 zostały poproszone o zaproponowanie mapowanie wybranych kilku rekordów bibliograficznych ze swoich kolekcji do formatu EDM. Celem ćwiczenia było zgromadzenie uwag i wątpliwości związanych z profilem bibliotecznym EDM (zdefiniowanym osobno dla monografii, a osobno dla wydawnictw ciągłych). Po przeanalizowaniu wyników tej walidacji, następnym krokiem będzie przygotowanie (przez TEL) procesu automatycznego mapowania z oryginalnych schematów metadanych bibliotek do EDM oraz jego przetestowanie na nowej porcji rekordów w oparciu o nową infrastrukturę agregacji metadanych.

Udział PCSS w pracach projektu Europeana Libraries jest ściśle powiązany z zadaniami semantycznej integracji metadanych obiektów dziedzictwa kulturowego, realizowanymi przez PCSS w ramach etapu A10 projektu SYNAT.

Ankieta dotycząca przechowywania kopii MASTER w polskich bibliotekach cyfrowych

Zapraszamy wszystkich Państwa do wypełnienia ankiety dotyczącej przechowywania kopii MASTER w tworzonych przez Państwa bibliotekach cyfrowych. Ankieta jest adresowana do instytucji, które tworzą bądź współtworzą biblioteki cyfrowe. Wyniki zostaną wykorzystane w czasie prac realizowanych przez PCSS w ramach projektu SYNAT (http://www.synat.pl) i zostaną opublikowane w formie raportu.

Ankieta będzie dostępna do 12 stycznia 2012 pod tym adresem.

Z góry dziękujemy za pomoc.

Konferencja „CIDOC 2011 – Knowledge Management and Museums”

W dniach 4-9 września 2011 w Sybinie w Rumunii odbyła się konferencja „CIDOC 2011 – Knowledge Management and Museums”. Konferencja jest co roku organizowana przez ICOM-CIDOC, czyli Komitet ds. Dokumentacji (CIDOC) przy Międzynarodowej Radzie Muzeów (ICOM).

W konferencji uczestniczyli przedstawiciele bardzo różnych, ale współpracujących ze sobą środowisk: muzealnicy, bibliotekarze, programiści i producenci rozwiązań dla muzeów, naukowcy zainteresowani wykorzystaniem ontologii oraz technologii semantic web, a także osoby i instytucje zajmujące się standaryzają dokumentacji muzealnej.

Konferencja była okazją do spotkania się grup roboczych CIDOC. Ich działania koncentrują się w następujących obszarach:

  • Archaeological Sites (stanowiska archeologiczne)
  • Conceptual Reference Model Special Interest Group (grupa CIDOC CRM)
  • Co-reference (koreferencje)
  • Data Harvesting and Interchange (harvesting i wymiana danych)
  • Digital preservation (trwałe przechowywanie obiektów w postaci cyfrowej)
  • Documentation Standards (standardy dokumentacji)
  • Information Centres (centra informacji)
  • Multimedia (multimedia)
  • Transdisciplinary Approaches in Documentation (dokumentacja transdyscyplinarna)

Na konferencji pojawiło się wiele tematów, które są bezpośrednio związane z pracami w ramach projektu SYNAT. Najważniejsze z nich to:

  • specyfikacja schematu LIDO (Lightweight Information Describing Objects) i zachęcanie muzeów do stosowania go do opisu zasobów udostępnianych w sieci (www.lido-schema.org/)
  • nacisk na stosowanie trwałych, unikalnych identyfikatorów takich zasobów (najlepiej URI)
  • ontologia FRBRoo, łącząca schemat FRBR (Functional Requirements for Bibliographic Records) z ontologią CIDOC CRM w celu umożliwienia poprawnego opisu rekorów bibliograficznych (www.nla.gov.au/lis/stndrds/grps/acoc/tillett2004.ppt, http://www.frbr.org/categories/frbroo)
  • prezentacja niemieckiego systemu Wiss-ki (http://wiss-ki.eu/, http://www8.informatik.uni-erlangen.de/transdisc/hohmann_cidoc09_wisski-2.pdf). Założenia tego systemu przypominają założenia projektu SYNAT, wiele z już wypracowanych rozwiązań mogłoby zostać wykorzystanych przez nas.

Następna konferencja CIDOC odbędzie się w Helsinkach w czerwcu 2012. Dodatkowo latem po raz kolejny zorganizowana zostanie „letnia szkoła” CIDOC, kierowana do osób zajmujących się dokumentacją muzealną.

Konferencja Open Repositories 2011

W dniach 6-11 czerwca 2011 odbyła się międzynarodowa konferencją Open Repositories 2011, która jest ważnym forum wymiany informacji na temat rozwoju, zarządzania oraz budowania repozytoriów cyfrowych.

Ponad 300 uczestników, pochodzących z ponad 20 krajów świata, miało okazję słuchać wykładów tak znakomitych przedstawicieli świata informatyki i cyfrowych zasobów jak Jim Jagielski oraz Clifford Lynch. W ramach sesji naukowych omówiono wiele tematów związanych z repozytoriami cyfrowymi, m. in. sieci semantyczne, narzędzia i standardy, długoterminowa archiwizacja, oraz sieci społecznościowe.

Konferencję otworzył Jim Jagielski, prezydent Apache Software Foundation, który przedstawił charakter pracy przy projektach open-source. Podkreślił, że przy rozwoju projektów open-source współpracują przede wszystkim wolontariusze, gdzie kluczowym elementem budującym społeczność programistów jest zaufanie względem siebie. Bradley McLean z DuraSpace zidentyfikował jego zdaniem najważniejsze trendy w rozwoju repozytoriów cyfrowych, m.in. technologie mobilne, długoterminowe przechowywanie, chmury obliczeniowe, mashupy. Richard Rodgers z M.I.T. Libraries przedstawił inicjatywę ORCID, której celem jest utworzenie rejestru identyfikującego naukowców, co z kolei pozwoli na rozwiązanie problemu niejednoznaczności autorów publikacji naukowych.

Na konferencji zaprezentowano także wiele narzędzi, systemów i inicjatyw związanych z repozytoriami cyfrowymi: Memento, Hathi Trust, DAR, FITS, OTS-Schemas, BatchBuilder, ReDBox and Mint, Exhibit, Fascinator, Recollection, SWORD, CUPID.

Na konferencji zaprezentowana została również koncepcja tworzenia wirtualnych repozytoriów instytucjonalnych na bazie bibliotek cyfrowych. Plakat obrazujący tę koncepcję przedstawił Tomasz Parkoła z PCSS. Tworzenie wirtualnych repozytoriów instytucjonalnych jest nowym trendem w sieci polskich bibliotek cyfrowych, który ma na celu zwiększenie dostępności on-line współczesnych prac naukowych publikowanych na zasadach Open Access. Wsparcie dla tego typu działań realizowane jest m.in. poprzez budowany przez PCSS w ramach projektu SYNAT Zintegrowany System Wiedzy.

Instalacja Tesseract 3.0 na Ubuntu server 10.10

Tesseract to aplikacja służąca do automatycznego rozpoznawania tekstu (ang. Optical Character Recognition, OCR). Pierwotnie była ona rozwijana przez firmę Hewlett Packard. W 2005 roku kod aplikacji został uwolniony na licencji Apache. W chwili obecnej jego rozwój jest wspierany przez Google. We wrześniu 2010 opublikowano wersję 3.0, obok wielu innych nowych funkcji oferuje on również wsparcie dla języka polskiego.

Wiki na stronach projektu Tesseract jest chwilami niespójna dlatego zdecydowałem się opisać moje doświadczenia związane z instalacją wersji 3.0. Instalacji dokonałem przy wykorzystaniu Ubuntu 10.10 w wersji serwerowej działającej na wirtualnej maszynie stworzonej przy użyciu Oracle Virtual Box.

W pierwszej kolejności należy zainstalować build-essential i autoconf:

sudo apt-get install build-essential
sudo apt-get install autoconf

Następnie – zgodnie z tym co napisano na Wiki projektu, trzeba zainstalować wykorzystywane przez aplikację biblioteki:

sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev

Proszę zwrócić uwagę, że na stronie Tesseract’a jest błąd w nazwie pakietu zlib1g-gev.

Próbowałem zainstalować libleptonica (biblioteka Leptonica jest wymagana) z pakietu dostępnego w domyślnych repozytoriach Ubuntu, ale skrypt ./configure Tesseract’a nie wykrywa tak zainstalowanej biblioteki. Z problemem tym można sobie poradzić kompilując Leptonicę ze źródeł. Ściągnąłem źródła do wersji 1.6.7 z strony projektu. Proces budowania wygląda następująco:

./configure
make
sudo make install
sudo ldconfig

Kolejny krok to ściągnięcie źródeł tesseract-3.00.tar.gz ze strony projektu. Należy rozpakować archiwum, wejść do katalogu tesseract-3.0 i wydać polecenia:

./runautoconf
./configure

Po wywołaniu polecenia ./configure należy sprawdzić zawartość pliku config_auto.h pozwoli to określić czy wszystkie zależności zostały przez skrypt wykryte. Plik powinien zawierać dyrektywę #define odkomentowaną dla następujących zmiennych AVE_LIBLEPT, HAVE_LIBPNG, HAVE_LIBTIFF, HAVE_LIBJPEG oraz HAVE_ZLIB.

make
sudo make install
sudo ldconfig

Bez wydania polecenia ldconfig Tesseract może się w ogóle nie uruchomić.

Teraz wystarczy już tylko ze strony projektu ściągnąć pliki zawierające wsparcie dla potrzebnych języków i skopiować je do katalogu z ustawieniami, który domyślnie znajduje się w /usr/local/share/tessdata. Aby uruchomić OCR wystarczy wydać polecenie:

tesseract phototest.tiff out.txt -l eng 
more out.txt

Mam nadzieje, że powyższa instrukcja okaże się przydatna.