W dniach 23-27 września 2012 w miejscowości Pafos na Cyprze odbyła się kolejna edycja konferencji Theory and Practice of Digital Libraries (znanej wcześniej jako European Conference on Digital Libraries, ECDL). PCSS prezentował na niej dwa artykuły, które ukazały się w towarzyszącej konferencji publikacji z serii Lecture Notes in Computer Science (tom 7489):
- Creation of Textual Versions of Historical Documents from Polish Digital Libraries (Adam Dudczak, Miosz Kmieciak, Marcin Werla)
- Advanced Automatic Mapping from Flat or Hierarchical Metadata Schemas to a Semantic Web Ontology (Justyna Walkowska, Marcin Werla)
Pierwszy artykuł opisuje prototyp Wirtualnego Laboratorium Transkrypcji stworzony przez PCSS w ramach projektu SYNAT. W ramach prac opisanych w artykule przeprowadzono eksperymenty, których celem było wytrenowanie silnika OCR na potrzeby automatycznego rozpoznawania tekstu na skanach historycznych dokumentów (teksty polskie drukowane miedzy XVI a XVII wiekiem). Artykuł omawia przyczyny powstania prototypu, jego możliwości oraz dalsze kierunki rozwoju.
Drugi z artykułów jest poświęcony kwestii przekształcania metadanych zapisanych za pomocą tradycyjnych schematów (takich jak MARC 21 czy Dublin Core) do postaci ontologicznej, przeznaczonej do istnienia w środowisku Semantic Web i Linked Open Data. Artykuł przedstawia wymagania dla języków opisu reguł mapowania oraz interpretujących je narzędzi, a także krótko opisuje stworzone przez nas narzędzie jMet2Ont.

Udział w konferencji rozpoczęliśmy w niedzielę, od tzw. Doctoral Consortium, czyli spotkania, na którym doktorantom przydzielani są mentorzy, zobowiązani do przeczytania przed spotkaniem rozbudowanego abstraktu planowanej rozprawy doktorskiej i przygotowania listy uwag i pytań. Następnie, już podczas spotkania, każdy z doktorantów prezentuje swoje dotychczasowe wyniki oraz plany. Mentor danego doktoranta powinien poprowadzić dyskusję po prezentacji. Takie wydarzenie jest bardzo korzystne dla samych doktorantów, którzy w bezpiecznym środowisku (spotkanie jest zamknięte, uczestniczą w nim tylko doktoranci i mentorzy) mogą poznań opinię ekspertów na temat silnych i słabszych stron swojej pracy.
Właściwa konferencja obejmowała kolejne trzy dni, poniedziałek, wtorek i środę.
Wśród wystąpień plenarnych zdecydowanie wyróżniało się wystąpienie Cathy Marshall (z Microsoft Research) pod tytułem Whose content is it anyway? Social media, personal data, and the fate of our digital legacy. Autorka poruszyła wiele interesujących kwestii związanych z ulotnością mediów cyfrowych, podejściem jakie do tychże treści mają zwykli użytkownicy oraz tego, jak sytuację zmieniły media społecznościowe takie jak Twitter czy Facebook. Wystąpienie było naprawdę dobrze poprowadzone, pełne zaskakujących zwrotów akcji 😉 i dających do myślenia wniosków.
Podobny temat poruszyli też w swoim referacie Hany M. SalahEldeen oraz Michael L Nelson z Old Dominion University. W ich artykule zatytułowanym Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost? przedstawiona została analiza archiwalnej zawartości mediów społecznościowych dotyczącej sześciu istotnych wydarzeń z ostatnich kilku lat (w tym egipskiej rewolucji, epidemii wirusa H1N1 czy śmierci Michaela Jacksona). Okazuje się, że po upływie roku od wydarzenia około 11% materiałów linkowanych w mediach społecznościowych nie jest już dostępne. Kolejny rok to kolejne kilkanaście procent martwych linków. Pełen tekst artykułu można przeczytać m.in. na stronach arXiv.org. Wyniki tych badań zainteresowały również tradycyjne media, m.in. BBC.
Zaskakująco wiele artykułów poświęconych było zagadnieniom związanym z uczeniem maszynowym. Dane z bibliotek cyfrowych są doskonałym polem do stosowania i testowania algorytmów z tej dziedziny. Bardzo interesujące było wystąpienie Finding Quality Issues in SKOS Vocabularies (Christian Mader, Bernhard Haslhofer, Antoine Isaac). Autorzy w ramach swoich badań zdefiniowali pewne wyznaczniki i dobre praktyki dla tezaurusów zapisanych jako SKOS, a następnie stworzyli narzędzie qSKOS walidujące istniejące tezaurusy.
Jednym z najciekawszych wydarzeń podczas właściwej konferencji była sesja plakatowa (połączona z pokazami oprogramowania). Oficjalnie za najlepszą prezentację uznano FrbrVis: An Information Visualization Approach to Presenting FRBR Work Families (Tanja Mercun, Maja Zumer, and Trond Aalberg). Autorzy, świadomi tego, że coraz więcej bibliotek i agregatorów metadanych rozważa wprowadzenie modelu FRBR, postawili sobie zadanie zaprojektowania efektywnego sposobu prezentacji danych zapisanych w tym formacie, tak, by użytkownik korzystał ze złożoności modelu, ale nie czuł się przez niego przytłoczony. Stworzyli cztery (niektóre bardzo pomysłowe) propozycje interfejsu, a następnie przeprowadzili testy użyteczności na dużej liczbie użytkowników. Ostatecznie wygrały dwie reprezentacje: koncentryczna (tzw. sun burst) oraz hierarchiczna. Nieoczekiwana konkluzja jest taka, że reprezentacja oparta o graf (często postulowana w środowiskach Semantic Web z powodu natury danych RDF), choć początkowo zainteresowała użytkowników, ostatecznie okazała się trudna w użyciu. Wspomniany wcześnie Hany M. SalahEldeen zajmujący się problemem znikania zasobów z Internetu zaprezentował plakat dotyczący analizy intencji użytkowników publikujących linki na portalach społecznościowych – czy chodzi im o aktualną wersję zasobu? A może o wersję istniejącą w momencie publikowania?
W czwartek odbyły się warsztaty. Uczestnicy mogli wybrać spomiędzy następujących propozycji:
- International Workshop on Supporting Users’ Exploration of Digital Libraries (wspieranie użytkowników w odkrywaniu zasobów bibliotek cyfrowych)
- Networked Knowledge Organisation Systems and Services. The 11th European Networked Knowledge Organisation Systems (NKOS) Workshop (SKOS i NKOS)
- 2nd International Workshop on Semantic Digital Archives (semantyczne archiwa cyfrowe)
Na warsztacie NKOS omawiany był przede wszystkim standard ISO 25964 dla tezaurusów oraz jego relacja z modelem SKOS. Gotowa jest dopiero pierwsza z dwóch części standardu. Same dokumenty opisujące standard są płatne, ale ze strony ISO 25964 można za darmo pobrać wiele materiałów, w tym definicję (xsd) schematu danych zgodnego ze standardem.
Warsztat poświęcony archiwom zawierał sesję na temat technologii semantycznych i ontologii, w której bardzo ciekawą prezentację wygłosił Vladimir Alexiev z firmy Ontotext. Odniósł się on do złożoności ontologii CIDOC CRM. Powołując się na wyniki projektu naukowców z FORTH (A New Framework for Querying Semantic Networks), przedstawił model wyszukiwania w bazie wiedzy stosującej tę ontologię, w którym 82 klasy i 142 właściwości z ontologii CIDOC CRM są mapowane do postaci dużo mniejszej liczby tzw. fundamentalnych klas i właściwości (np. Thing – rzecz, Actor – aktor, Place – miejsce). Dzięki temu wyszukiwanie jest znacznie proste. Firma Ontotext jest producentem repozytorium RDF o nazwie OWLIM. W ramach badań autor stworzył zestaw reguł wnioskowania dla tego narzędzia, które generują taki uproszczony model, ułatwiający odpytywanie bazy wiedzy.
W czasie najkrótszego z całej trójki warsztatu na temat wspierania odkrywania zasobów przez użytkowników (materiały konferencyjne dostępne tutaj) uczestnicy mogli wysłuchać bardzo ciekawego wystąpienia Davida Haskiya (Fundacja Europeana) na temat funkcji wspierających eksplorowanie zasobów cyfrowych, które rozwinęła bądź będzie rozwijać Europeana. Warsztaty zakończyła interesująca dyskusja panelowa, w czasie której uczestnicy rozprawiali między innymi o tym jakie potrzeby ma współczesny i przyszły użytkownik bibliotek cyfrowych, zwłaszcza w kontekście najmłodszego pokolenia (por. film poniżej)
Konferencja odbyła się w bardzo pięknym i fascynującym historycznie zakątku Europy, do którego niestety bardzo trudno jest dotrzeć z Polski. Ubiegłoroczna lokalizacja (Berlin) była zdecydowanie łatwiejsza do osiągnięcia dla większości uczestników. W przyszłym roku spotkanie ma odbyć się na Malcie.

Autorzy wpisu: Adam Dudczak, Justyna Walkowska, Marcin Werla