Archiwa tagu: CIDOC CRM

Konferencja TPDL 2012: teoria i praktyka bibliotek cyfrowych

W dniach 23-27 września 2012 w miejscowości Pafos na Cyprze odbyła się kolejna edycja konferencji Theory and Practice of Digital Libraries (znanej wcześniej jako European Conference on Digital Libraries, ECDL). PCSS prezentował na niej dwa artykuły, które ukazały się w towarzyszącej konferencji publikacji z serii Lecture Notes in Computer Science (tom 7489):

Pierwszy artykuł opisuje prototyp Wirtualnego Laboratorium Transkrypcji stworzony przez PCSS w ramach projektu SYNAT. W ramach prac opisanych w artykule przeprowadzono eksperymenty, których celem było wytrenowanie silnika OCR na potrzeby automatycznego rozpoznawania tekstu na skanach historycznych dokumentów (teksty polskie drukowane miedzy XVI a XVII wiekiem). Artykuł omawia przyczyny powstania prototypu, jego możliwości oraz dalsze kierunki rozwoju.

Drugi z artykułów jest poświęcony kwestii przekształcania metadanych zapisanych za pomocą tradycyjnych schematów (takich jak MARC 21 czy Dublin Core) do postaci ontologicznej, przeznaczonej do istnienia w środowisku Semantic Web i Linked Open Data. Artykuł przedstawia wymagania dla języków opisu reguł mapowania oraz interpretujących je narzędzi, a także krótko opisuje stworzone przez nas narzędzie jMet2Ont.

Muzeum Palaeokastro Maa

Udział w konferencji rozpoczęliśmy w niedzielę, od tzw. Doctoral Consortium, czyli spotkania, na którym doktorantom przydzielani są mentorzy, zobowiązani do przeczytania przed spotkaniem rozbudowanego abstraktu planowanej rozprawy doktorskiej i przygotowania listy uwag i pytań. Następnie, już podczas spotkania, każdy z doktorantów prezentuje swoje dotychczasowe wyniki oraz plany. Mentor danego doktoranta powinien poprowadzić dyskusję po prezentacji. Takie wydarzenie jest bardzo korzystne dla samych doktorantów, którzy w bezpiecznym środowisku (spotkanie jest zamknięte, uczestniczą w nim tylko doktoranci i mentorzy) mogą poznań opinię ekspertów na temat silnych i słabszych stron swojej pracy.

Właściwa konferencja obejmowała kolejne trzy dni, poniedziałek, wtorek i środę.

Wśród wystąpień plenarnych zdecydowanie wyróżniało się wystąpienie Cathy Marshall (z Microsoft Research) pod tytułem Whose content is it anyway? Social media, personal data, and the fate of our digital legacy. Autorka poruszyła wiele interesujących kwestii związanych z ulotnością mediów cyfrowych, podejściem jakie do tychże treści mają zwykli użytkownicy oraz tego, jak sytuację zmieniły media społecznościowe takie jak Twitter czy Facebook. Wystąpienie było naprawdę dobrze poprowadzone, pełne zaskakujących zwrotów akcji 😉 i dających do myślenia wniosków.

Podobny temat poruszyli też w swoim referacie Hany M. SalahEldeen oraz Michael L Nelson z Old Dominion University. W ich artykule zatytułowanym Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost? przedstawiona została analiza archiwalnej zawartości mediów społecznościowych dotyczącej sześciu istotnych wydarzeń z ostatnich kilku lat (w tym egipskiej rewolucji, epidemii wirusa H1N1 czy śmierci Michaela Jacksona). Okazuje się, że po upływie roku od wydarzenia około 11% materiałów linkowanych w mediach społecznościowych nie jest już dostępne. Kolejny rok to kolejne kilkanaście procent martwych linków. Pełen tekst artykułu można przeczytać m.in. na stronach arXiv.org. Wyniki tych badań zainteresowały również tradycyjne media, m.in. BBC.

Zaskakująco wiele artykułów poświęconych było zagadnieniom związanym z uczeniem maszynowym. Dane z bibliotek cyfrowych są doskonałym polem do stosowania i testowania algorytmów z tej dziedziny. Bardzo interesujące było wystąpienie Finding Quality Issues in SKOS Vocabularies (Christian Mader, Bernhard Haslhofer, Antoine Isaac). Autorzy w ramach swoich badań zdefiniowali pewne wyznaczniki i dobre praktyki dla tezaurusów zapisanych jako SKOS, a następnie stworzyli narzędzie qSKOS walidujące istniejące tezaurusy.

Jednym z najciekawszych wydarzeń podczas właściwej konferencji była sesja plakatowa (połączona z pokazami oprogramowania). Oficjalnie za najlepszą prezentację uznano FrbrVis: An Information Visualization Approach to Presenting FRBR Work Families (Tanja Mercun, Maja Zumer, and Trond Aalberg). Autorzy, świadomi tego, że coraz więcej bibliotek i agregatorów metadanych rozważa wprowadzenie modelu FRBR, postawili sobie zadanie zaprojektowania efektywnego sposobu prezentacji danych zapisanych w tym formacie, tak, by użytkownik korzystał ze złożoności modelu, ale nie czuł się przez niego przytłoczony. Stworzyli cztery (niektóre bardzo pomysłowe) propozycje interfejsu, a następnie przeprowadzili testy użyteczności na dużej liczbie użytkowników. Ostatecznie wygrały dwie reprezentacje: koncentryczna (tzw. sun burst) oraz hierarchiczna. Nieoczekiwana konkluzja jest taka, że reprezentacja oparta o graf (często postulowana w środowiskach Semantic Web z powodu natury danych RDF), choć początkowo zainteresowała użytkowników, ostatecznie okazała się trudna w użyciu. Wspomniany wcześnie Hany M. SalahEldeen zajmujący się problemem znikania zasobów z Internetu zaprezentował plakat dotyczący analizy intencji użytkowników publikujących linki na portalach społecznościowych – czy chodzi im o aktualną wersję zasobu? A może o wersję istniejącą w momencie publikowania?

W czwartek odbyły się warsztaty. Uczestnicy mogli wybrać spomiędzy następujących propozycji:

Na warsztacie NKOS omawiany był przede wszystkim standard ISO 25964 dla tezaurusów oraz jego relacja z modelem SKOS. Gotowa jest dopiero pierwsza z dwóch części standardu. Same dokumenty opisujące standard są płatne, ale ze strony ISO 25964 można za darmo pobrać wiele materiałów, w tym definicję (xsd) schematu danych zgodnego ze standardem.

Warsztat poświęcony archiwom zawierał sesję na temat technologii semantycznych i ontologii, w której bardzo ciekawą prezentację wygłosił Vladimir Alexiev z firmy Ontotext. Odniósł się on do złożoności ontologii CIDOC CRM. Powołując się na wyniki projektu naukowców z  FORTH (A New Framework for Querying Semantic Networks), przedstawił model wyszukiwania w bazie wiedzy stosującej tę ontologię, w którym 82 klasy i 142 właściwości z ontologii CIDOC CRM są mapowane do postaci dużo mniejszej liczby tzw. fundamentalnych klas i właściwości (np. Thing – rzecz, Actor – aktor, Place – miejsce). Dzięki temu wyszukiwanie jest znacznie proste. Firma Ontotext jest producentem repozytorium RDF o nazwie OWLIM. W ramach badań autor stworzył zestaw reguł wnioskowania dla tego narzędzia, które generują taki uproszczony model, ułatwiający odpytywanie bazy wiedzy.

W czasie najkrótszego z całej trójki warsztatu na temat wspierania odkrywania zasobów przez użytkowników (materiały konferencyjne dostępne tutaj) uczestnicy mogli wysłuchać bardzo ciekawego wystąpienia Davida Haskiya (Fundacja Europeana) na temat funkcji wspierających eksplorowanie zasobów cyfrowych, które rozwinęła bądź będzie rozwijać Europeana. Warsztaty zakończyła interesująca dyskusja panelowa, w czasie której uczestnicy rozprawiali między innymi o tym jakie potrzeby ma współczesny i przyszły użytkownik bibliotek cyfrowych, zwłaszcza w kontekście najmłodszego pokolenia (por. film poniżej)

Konferencja odbyła się w bardzo pięknym i fascynującym historycznie zakątku Europy, do którego niestety bardzo trudno jest dotrzeć z Polski. Ubiegłoroczna lokalizacja (Berlin) była zdecydowanie łatwiejsza do osiągnięcia dla większości uczestników. W przyszłym roku spotkanie ma odbyć się na Malcie.

Cypryjska kuchnia

Autorzy wpisu: Adam Dudczak, Justyna Walkowska, Marcin Werla

Konferencja CIDOC 2012 w Helsinkach

Katedra w Helsinkach kilka minut przed północą

Konferencja CIDOC 2012: Enriching Cultural Heritage (wzbogacanie dziedzictwa kulturowego) odbyła się w Helsinkach (które w tym roku szczycą się mianem Światowej Stolicy Wzornictwa – World Design Capital) w dniach 10-14 czerwca. Konferencja jest organizowana raz do roku przez CIDOC/ICOM: Międzynarodowy Komitet ds. Dokumentacji (CIDOC) przy Międzynarodowej Radzie Muzeów (ICOM). W ubiegłym roku konferencja została zorganizowana w rumuńskim Sybinie (krótką notatkę na ten temat można znaleźć tutaj).

Prace komitetu CIDOC są interesujące z punktu widzenia PCSS, ponieważ w ramach projektu SYNAT wykorzystujemy opracowany przez ten komitet model konceptualny CIDOC CRM. CIDOC CRM pełni rolę głównej ontologii opisującej bazę wiedzy zawierającą dane na temat zasobów różnego typu (w tej chwili są to zasoby biblioteczne, katalogowe i muzealne), które oryginalnie są opisywane za pomocą metadanych w całkowicie odmiennych schematach. Do stworzenia takiej bazy wiedzy potrzebowaliśmy schematu umożliwiającego reprezentację opisów takich heterogenicznych zasobów. CIDOC CRM oferuje definicje i formalną strukturę do opisu jawnych i niejawnych konceptów i związków obecnych w dokumentacji dziedzictwa kulturowego, zatem wybór jest dość naturalny. Dodatkowym atutem CIDOC CRM jest to, że istnieje implementacja tego modelu w języku OWL, co jest bardzo przydatne w środowisku Semantic Web.

Podczas pierwszych prób przekształcania (mapowania) schematów bibliograficznych do CIDOC CRM zauważyliśmy, że reprezentacja książek w tym modelu jest bardziej złożona, niż reprezentacja obiektów muezalnych (chociaż, oczywiście, muzea mogą wystawiać książki, a biblioteki mogą posiadać zabytkowe tomy o wartości muzealnej). Więcej informacji na temat reprezentacji danych bibliograficznych w CIDOC CRM i ich mapowania można znaleźć w naszych publikacjach.

Początkowo zaproponowaliśmy własne rozszerzenia ontologii (głównie podklasy i podwłaściwości) CIDOC CRM umożliwiające reprezentację danych bibliograficznych, jednak ostatecznie zdecydowaliśmy się na zastosowanie FRBRoo. FRBRoo to rozszerzenie ontologii CIDOC CRM również stworzone przez komitet CIDOC, które dodatkowo jest zgodne z modelem FRBR (Functional Requirements for Bibliographic Records) opracowanym przez IFLA (Międzynarodowa Federacja Stowarzyszeń i Instytucji Bibliotekarskich). Wyróżniającą cechą FRBR jest opis publikacji (np. książki) na czterech poziomach:

  • dzieło (np. „Jądro ciemności” Josepha Conrada),
  • realizacja (np. pierwsze wydanie „Jądra ciemności”),
  • materializacja (zbiór wszystkich egzemplarzy wydania),
  • egzemplarz.

Podczas tegorocznej konferencji prezentowaliśmy wyniki związane z mapowaniem dużej liczby rekordów ze schematów MARC 21 i PLMET do FRBRoo.

Program konferencji obejmował warsztaty (w tym bardzo ciekawy, całodniowy warsztat na temat CIDOC CRM, FRBRoo i EDM, CRM Dig prowadzony przez Martina Doerra), spotkania grup roboczych, wykłady zaproszonych gości, a także „zwykłe” prezentacje. Motywy przewodnie konferencji to:

  • Co-operation & exchange (współpraca i wymiana),
  • Social media (media społecznościowe),
  • Semantic Web (semantyczny Internet),
  • Digital technologies and intangible cultural heritage (technologie cyfrowe i niematerialne dziedzictwo kulturowe),
  • Innovations in documentation (innowacje w dokumentacji),
  • Multilingualism and regional cultures (wielojęzykowość i kultury regionalne).

Konferencja „CIDOC 2011 – Knowledge Management and Museums”

W dniach 4-9 września 2011 w Sybinie w Rumunii odbyła się konferencja „CIDOC 2011 – Knowledge Management and Museums”. Konferencja jest co roku organizowana przez ICOM-CIDOC, czyli Komitet ds. Dokumentacji (CIDOC) przy Międzynarodowej Radzie Muzeów (ICOM).

W konferencji uczestniczyli przedstawiciele bardzo różnych, ale współpracujących ze sobą środowisk: muzealnicy, bibliotekarze, programiści i producenci rozwiązań dla muzeów, naukowcy zainteresowani wykorzystaniem ontologii oraz technologii semantic web, a także osoby i instytucje zajmujące się standaryzają dokumentacji muzealnej.

Konferencja była okazją do spotkania się grup roboczych CIDOC. Ich działania koncentrują się w następujących obszarach:

  • Archaeological Sites (stanowiska archeologiczne)
  • Conceptual Reference Model Special Interest Group (grupa CIDOC CRM)
  • Co-reference (koreferencje)
  • Data Harvesting and Interchange (harvesting i wymiana danych)
  • Digital preservation (trwałe przechowywanie obiektów w postaci cyfrowej)
  • Documentation Standards (standardy dokumentacji)
  • Information Centres (centra informacji)
  • Multimedia (multimedia)
  • Transdisciplinary Approaches in Documentation (dokumentacja transdyscyplinarna)

Na konferencji pojawiło się wiele tematów, które są bezpośrednio związane z pracami w ramach projektu SYNAT. Najważniejsze z nich to:

  • specyfikacja schematu LIDO (Lightweight Information Describing Objects) i zachęcanie muzeów do stosowania go do opisu zasobów udostępnianych w sieci (www.lido-schema.org/)
  • nacisk na stosowanie trwałych, unikalnych identyfikatorów takich zasobów (najlepiej URI)
  • ontologia FRBRoo, łącząca schemat FRBR (Functional Requirements for Bibliographic Records) z ontologią CIDOC CRM w celu umożliwienia poprawnego opisu rekorów bibliograficznych (www.nla.gov.au/lis/stndrds/grps/acoc/tillett2004.ppt, http://www.frbr.org/categories/frbroo)
  • prezentacja niemieckiego systemu Wiss-ki (http://wiss-ki.eu/, http://www8.informatik.uni-erlangen.de/transdisc/hohmann_cidoc09_wisski-2.pdf). Założenia tego systemu przypominają założenia projektu SYNAT, wiele z już wypracowanych rozwiązań mogłoby zostać wykorzystanych przez nas.

Następna konferencja CIDOC odbędzie się w Helsinkach w czerwcu 2012. Dodatkowo latem po raz kolejny zorganizowana zostanie „letnia szkoła” CIDOC, kierowana do osób zajmujących się dokumentacją muzealną.