Wszystkie wpisy, których autorem jest Justyna Walkowska

Prosta wizualizacja rekordów w RDF za pomocą ogólnodostępnych narzędzi

Jednym z efektów naszych prac w projekcie SYNAT jest baza wiedzy RDF zawierająca informacje na temat zasobów pochodzących z:

  • Federacji Bibliotek Cyfrowych,
  • Katalogu Centralnego NUKAT,
  • Muzeum Narodowego w Warszawie,
  • a wkrótce także Muzeum Narodowego w Krakowie.

Metadane z wymienionych źródeł są pobierane w ich oryginalnych formatach (PLMET, MARC 21, format systemu Mona, CDWA-Lite) i przekształcane do formatu docelowego (CIDOC CRM / FRBRoo) za pomocą narzędzia jMet2Ont i zestawu reguł wyrażonych w języku XML.

Dane RDF można odpytywać za pomocą języka SPARQL, przeglądać w postaci Linked Open Data za pomocą przeglądarki (jeśli chodzi o słowo „open”, warunek ten zostanie spełniony wkrótce), są one także przetwarzane przez portal również powstały w wyniku projektu. Czasami jednak niezbędna jest wzrokowa analiza danych zaraz po mapowaniu, zwłaszcza w sytuacji, gdy wynikowy graf okazuje się niespójny.

Istnieje kilka narzędzi umożliwiających wizualizację danych RDF, jednak nie wszystkie dają satysfakcjonujące wyniki. Oto, jak wizualizujemy je na swoje własne potrzeby:

  1. Graf (w naszym przypadku wynik mapowania) jest zapisywany w formacie RDF/XML. Przykład można pobrać tutaj.
  2. Za pomocą bardzo prostej transformacji XSLT (dostępnej tutaj) plik jest przekształcany do postaci kodu źródłowego PlantUML. Przekształcenie w naszym przypadku jest realizowane przez narzędzie Saxon.
  3. PlantUML to proste narzędzie do tworzenia diagramów UML za pomocą tekstu. Tutaj można podejrzeć automatycznie wygenerowany kod PlantUML.
  4. Wreszcie wywoływane jest narzędzie PlantUML, które tworzy taki oto diagram:
Wygenerowany za pomocą PlantUML diagram (klas) pokazujący relacje pomiędzy obiektami w bazie wiedzy

Komendy umożliwiające przejście od pliku test.xml do rysunku test.png:

Transform.exe -xsl:RDF2PUML.xsl -s:test.xml -o:test.puml

java -jar plantuml.jar  test.puml

Może komuś się przyda 🙂

Konferencja Semantic Web in Libraries

W dniach 26-28 listopada 2012 w Kolonii odbyła się konferencja Semantic Web in Libraries, organizowana przez HBZ i ZBW. Pierwszego dnia odbywały się warsztaty (do wyboru: wprowadzenie do Linked Open Data, pochodzenie metadanych, warsztaty doktoranckie). Dwa kolejne dni to wykłady i prezentacje.

Wśród najważniejszych tematów poruszanych na konferencji wymienić można:

  • wnioski płynące z publikacji w Internecie pierwszych dużych zbiorów danych LOD
  • wzbogacanie danych i wprowadzanie relacji pomiędzy nimi
  • wykazy autorytatywne
  • praktyczne wykorzystanie technologii Semantic Web i Linked Open Data w bibliotekach
  • nowe schematy katalogowania
  • wyzwania na przyszłość

Konferencja zakończyła się sesją tzw. „lighting talks” – maksymalnie pięciominutowych wystąpień osób, które chciały krótko przedstawić problem, omówić wyniki lub znaleźć partnerów do współpracy i panelem dyskusyjnym. Jednym z wniosków zamykających konferencję było to, że technologie Semantic Web i LOD wkroczyły na nowy etap rozwoju. Nie są już traktowane jako zagadnienie badawcze i coraz częściej widzimy je stosowane w praktyce.

Poruszony został także temat nowego modelu danych (BIBFRAME) proponowanego przez Bibliotekę Kongresu Stanów Zjednoczonych. Model jest oparty na czterech podstawowych klasach:

  • Creative Work: konceptualny opis dzieła,
  • Instance: opis egzemplarza,
  • Authority: wykaz autorytatywny, np. ludzie, miejsca,
  • Annotation: dodatkowe informacje przydzielane zasobom, np. na temat recenzji.

Wystąpienia na konferencji były filmowane. Można je obejrzeć tutaj.

Kolonia

Toruńska konferencja Polskie Zbiory w Europeanie

Toruń w roku 1641

W dniach 18-19 października w Toruniu, na pięknie odrestaurowanej starówce, odbyła się organizowana przez Międzynarodowe Centrum Zarządzania Informacją ICIMSS konferencja Polskie zbiory w Europeanie.

Inauguracyjny wykład The Decision to Digitise wygłosiła pani Eleanor Kenny z Fundacji Europeana. Pozostałe wystąpienia, już w języku polskim, można podzielić na następujące grupy:

  • Prezentacja projektów związanych z Europeaną
  • Krajowa infrastruktura informatyczna dla zasobów dziedzictwa kulturowego
  • Możliwości wsparcia projektów digitalizacyjnych przez MKiDN
  • Problemy i potrzeby polskich instytucji kultury

Dwie prezentacje zostały wygłoszone przez przedstawicieli Ministerstwa Kultury i Dziedzictwa Narodowego: Strategia dygitalizacji Ministerstwa Kultury i Dziedzictwa Narodowego (Anna
Duńczyk-Szulc) oraz Projekt portalu MKiDN poświęconego digitalizacji zasobów dziedzictwa kultury (Agata Bratek). Portal powinien zostać udostępniony na początku roku 2013.

Wśród prezentowanych projektów związanych z Europeaną znalazły się:

  • Europeana Photography  (Europeana Photography – czyli dokumentacja pierwszego stulecia fotografii, Marta Miskowiec, Muzeum Historii Fotografii w Krakowie, Piotr Kożurno, ICIMSS)
  • Athena (Athena i Athena Plus – projekty zachęcające muzea do współpracy z Europeaną, Maria Śliwińska, ICIMSS)
  • Judaica Europeana (Judaica Europeana – projekt digitalizacji żydowskiego dziedzictwa kulturowego Europy, Edyta Kurek, Żydowski Instytut Historyczny im. Emanuela Ringelbluma, Warszawa)
  • APEX (Udział archiwów polskich w projekcie APEX, Anna Matejak, Naczelna Dyrekcja Archiwów Państwowych, Warszawa)

O swoich bieżących pracach, także tych związanych z Europeaną, opowiadali przedstawiciele kilku dużych instytucji:

  • Narodowy Instytut Muzealnictwa i Ochrony Zbiorów (Narodowy Instytut Muzealnictwa i Ochrony Zbiorów, jego działania i plany w zakresie digitalizacji muzealiów, Anna Kuśmidrowicz, Monika Jędralska)
  • Narodowy Instytut Audiowizualny (Wspieranie dygitalizacji przez Narodowy Instytut Audiowizualny na przykładzie projektu Europeana Awareness, Jarosław Czuba)
  • Biblioteka Narodowa (Udział Biblioteki Narodowej w bieżących projektach Europeany, Katarzyna Ślaska)

Poznańskie Centrum Superkomputerowo-Sieciowe przygotowało prezentację Federacja Bibliotek Cyfrowych: wsparcie instytucji kultury w udostępnianiu zbiorów on-line, agregacja metadanych na potrzeby Europeany (Marcin Werla, Justyna Walkowska), dostępna tutaj. W prezentacji przedstawiamy rolę Federacji Bibliotek Cyfrowych w środowisku polskich zasobów dziedzictwa kultury i w kontekście krajowej infrastruktury informatycznej nauki. Omawiamy też naszą współpracę z Europeaną, w tym kilka projektów, w które jesteśmy zaangażowani bądź będziemy zaangażowani w najbliższym czasie.

Sekcję problemową otworzyła prezentacja przygotowana przez prof. Dorotę Folgę-Januszewską Problemy udziału polskich muzeów w przekazywaniu zbiorów do Europeany. Przedstawiciele mniejszych instytucji byli zainteresowani uzyskaniem informacji na temat możliwości pozyskania środków na digitalizację.

Ważnym tematem była nowa umowa na udostępnianie danych Europeanie – Data Exchange Agreement. Materiały i opinie na jej temat można znaleźć pod tym adresem: http://fbc.pionier.net.pl/pro/dla-dostawcow-danych/wspolpraca-z-zewnetrznymi-serwisami/wspolpraca-z-europeana/. Umowa ta, oparta na licencji Creative Commons 0, która w niektórych miejscach stoi w opozycji do ściśle pojmowanego polskiego prawa – w polskim prawie nie jest możliwe zrzeczenie się praw autorskich, a w przypadku udzielenia nieodpłatnej licencji (co przewiduje tak zwana „awaryjna” licencja) należy wyszczególnić wszystkie przewidziane pola eksploatacji. Aktualne wytyczne MKiDN przewidują przekazywanie do Europeany metadanych, które nie są objęte prawami autorskimi (oznacza to, na przykład, wyłączenie opinii konserwatorskich). Bardzo dobrą wiadomością dla wszystkich europejskich czytelników jest to, że polska Biblioteka Narodowa zdecydowała się podpisać to porozumienie. W swoim wystąpieniu ogłosiła to pani wicedyrektor Katarzyna Ślaska z BN.

Innym powracającym tematem była potrzeba przetłumaczenia (przez grupę ekspertów z wszystkich zainteresowanych środowisk: muzealnych, bibliotecznych, archiwalnych) dokumentacji najpopularniejszych schematów metadanych na język polski, co ma prowadzić do bardziej spójnego i konsekwentnego sposobu korzystania z nich przez poszczególne instytucje.

Na konferencji obecne były także osoby prywatne, zainteresowane udostępnieniem swoich kolekcji online. Jedną z takich osób był pan Piotr Grzywacz z Tucholi, prowadzący prywatne Muzeum Sygnałów Myśliwskich.

Konferencja TPDL 2012: teoria i praktyka bibliotek cyfrowych

W dniach 23-27 września 2012 w miejscowości Pafos na Cyprze odbyła się kolejna edycja konferencji Theory and Practice of Digital Libraries (znanej wcześniej jako European Conference on Digital Libraries, ECDL). PCSS prezentował na niej dwa artykuły, które ukazały się w towarzyszącej konferencji publikacji z serii Lecture Notes in Computer Science (tom 7489):

Pierwszy artykuł opisuje prototyp Wirtualnego Laboratorium Transkrypcji stworzony przez PCSS w ramach projektu SYNAT. W ramach prac opisanych w artykule przeprowadzono eksperymenty, których celem było wytrenowanie silnika OCR na potrzeby automatycznego rozpoznawania tekstu na skanach historycznych dokumentów (teksty polskie drukowane miedzy XVI a XVII wiekiem). Artykuł omawia przyczyny powstania prototypu, jego możliwości oraz dalsze kierunki rozwoju.

Drugi z artykułów jest poświęcony kwestii przekształcania metadanych zapisanych za pomocą tradycyjnych schematów (takich jak MARC 21 czy Dublin Core) do postaci ontologicznej, przeznaczonej do istnienia w środowisku Semantic Web i Linked Open Data. Artykuł przedstawia wymagania dla języków opisu reguł mapowania oraz interpretujących je narzędzi, a także krótko opisuje stworzone przez nas narzędzie jMet2Ont.

Muzeum Palaeokastro Maa

Udział w konferencji rozpoczęliśmy w niedzielę, od tzw. Doctoral Consortium, czyli spotkania, na którym doktorantom przydzielani są mentorzy, zobowiązani do przeczytania przed spotkaniem rozbudowanego abstraktu planowanej rozprawy doktorskiej i przygotowania listy uwag i pytań. Następnie, już podczas spotkania, każdy z doktorantów prezentuje swoje dotychczasowe wyniki oraz plany. Mentor danego doktoranta powinien poprowadzić dyskusję po prezentacji. Takie wydarzenie jest bardzo korzystne dla samych doktorantów, którzy w bezpiecznym środowisku (spotkanie jest zamknięte, uczestniczą w nim tylko doktoranci i mentorzy) mogą poznań opinię ekspertów na temat silnych i słabszych stron swojej pracy.

Właściwa konferencja obejmowała kolejne trzy dni, poniedziałek, wtorek i środę.

Wśród wystąpień plenarnych zdecydowanie wyróżniało się wystąpienie Cathy Marshall (z Microsoft Research) pod tytułem Whose content is it anyway? Social media, personal data, and the fate of our digital legacy. Autorka poruszyła wiele interesujących kwestii związanych z ulotnością mediów cyfrowych, podejściem jakie do tychże treści mają zwykli użytkownicy oraz tego, jak sytuację zmieniły media społecznościowe takie jak Twitter czy Facebook. Wystąpienie było naprawdę dobrze poprowadzone, pełne zaskakujących zwrotów akcji 😉 i dających do myślenia wniosków.

Podobny temat poruszyli też w swoim referacie Hany M. SalahEldeen oraz Michael L Nelson z Old Dominion University. W ich artykule zatytułowanym Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost? przedstawiona została analiza archiwalnej zawartości mediów społecznościowych dotyczącej sześciu istotnych wydarzeń z ostatnich kilku lat (w tym egipskiej rewolucji, epidemii wirusa H1N1 czy śmierci Michaela Jacksona). Okazuje się, że po upływie roku od wydarzenia około 11% materiałów linkowanych w mediach społecznościowych nie jest już dostępne. Kolejny rok to kolejne kilkanaście procent martwych linków. Pełen tekst artykułu można przeczytać m.in. na stronach arXiv.org. Wyniki tych badań zainteresowały również tradycyjne media, m.in. BBC.

Zaskakująco wiele artykułów poświęconych było zagadnieniom związanym z uczeniem maszynowym. Dane z bibliotek cyfrowych są doskonałym polem do stosowania i testowania algorytmów z tej dziedziny. Bardzo interesujące było wystąpienie Finding Quality Issues in SKOS Vocabularies (Christian Mader, Bernhard Haslhofer, Antoine Isaac). Autorzy w ramach swoich badań zdefiniowali pewne wyznaczniki i dobre praktyki dla tezaurusów zapisanych jako SKOS, a następnie stworzyli narzędzie qSKOS walidujące istniejące tezaurusy.

Jednym z najciekawszych wydarzeń podczas właściwej konferencji była sesja plakatowa (połączona z pokazami oprogramowania). Oficjalnie za najlepszą prezentację uznano FrbrVis: An Information Visualization Approach to Presenting FRBR Work Families (Tanja Mercun, Maja Zumer, and Trond Aalberg). Autorzy, świadomi tego, że coraz więcej bibliotek i agregatorów metadanych rozważa wprowadzenie modelu FRBR, postawili sobie zadanie zaprojektowania efektywnego sposobu prezentacji danych zapisanych w tym formacie, tak, by użytkownik korzystał ze złożoności modelu, ale nie czuł się przez niego przytłoczony. Stworzyli cztery (niektóre bardzo pomysłowe) propozycje interfejsu, a następnie przeprowadzili testy użyteczności na dużej liczbie użytkowników. Ostatecznie wygrały dwie reprezentacje: koncentryczna (tzw. sun burst) oraz hierarchiczna. Nieoczekiwana konkluzja jest taka, że reprezentacja oparta o graf (często postulowana w środowiskach Semantic Web z powodu natury danych RDF), choć początkowo zainteresowała użytkowników, ostatecznie okazała się trudna w użyciu. Wspomniany wcześnie Hany M. SalahEldeen zajmujący się problemem znikania zasobów z Internetu zaprezentował plakat dotyczący analizy intencji użytkowników publikujących linki na portalach społecznościowych – czy chodzi im o aktualną wersję zasobu? A może o wersję istniejącą w momencie publikowania?

W czwartek odbyły się warsztaty. Uczestnicy mogli wybrać spomiędzy następujących propozycji:

Na warsztacie NKOS omawiany był przede wszystkim standard ISO 25964 dla tezaurusów oraz jego relacja z modelem SKOS. Gotowa jest dopiero pierwsza z dwóch części standardu. Same dokumenty opisujące standard są płatne, ale ze strony ISO 25964 można za darmo pobrać wiele materiałów, w tym definicję (xsd) schematu danych zgodnego ze standardem.

Warsztat poświęcony archiwom zawierał sesję na temat technologii semantycznych i ontologii, w której bardzo ciekawą prezentację wygłosił Vladimir Alexiev z firmy Ontotext. Odniósł się on do złożoności ontologii CIDOC CRM. Powołując się na wyniki projektu naukowców z  FORTH (A New Framework for Querying Semantic Networks), przedstawił model wyszukiwania w bazie wiedzy stosującej tę ontologię, w którym 82 klasy i 142 właściwości z ontologii CIDOC CRM są mapowane do postaci dużo mniejszej liczby tzw. fundamentalnych klas i właściwości (np. Thing – rzecz, Actor – aktor, Place – miejsce). Dzięki temu wyszukiwanie jest znacznie proste. Firma Ontotext jest producentem repozytorium RDF o nazwie OWLIM. W ramach badań autor stworzył zestaw reguł wnioskowania dla tego narzędzia, które generują taki uproszczony model, ułatwiający odpytywanie bazy wiedzy.

W czasie najkrótszego z całej trójki warsztatu na temat wspierania odkrywania zasobów przez użytkowników (materiały konferencyjne dostępne tutaj) uczestnicy mogli wysłuchać bardzo ciekawego wystąpienia Davida Haskiya (Fundacja Europeana) na temat funkcji wspierających eksplorowanie zasobów cyfrowych, które rozwinęła bądź będzie rozwijać Europeana. Warsztaty zakończyła interesująca dyskusja panelowa, w czasie której uczestnicy rozprawiali między innymi o tym jakie potrzeby ma współczesny i przyszły użytkownik bibliotek cyfrowych, zwłaszcza w kontekście najmłodszego pokolenia (por. film poniżej)

Konferencja odbyła się w bardzo pięknym i fascynującym historycznie zakątku Europy, do którego niestety bardzo trudno jest dotrzeć z Polski. Ubiegłoroczna lokalizacja (Berlin) była zdecydowanie łatwiejsza do osiągnięcia dla większości uczestników. W przyszłym roku spotkanie ma odbyć się na Malcie.

Cypryjska kuchnia

Autorzy wpisu: Adam Dudczak, Justyna Walkowska, Marcin Werla

Konferencja CIDOC 2012 w Helsinkach

Katedra w Helsinkach kilka minut przed północą

Konferencja CIDOC 2012: Enriching Cultural Heritage (wzbogacanie dziedzictwa kulturowego) odbyła się w Helsinkach (które w tym roku szczycą się mianem Światowej Stolicy Wzornictwa – World Design Capital) w dniach 10-14 czerwca. Konferencja jest organizowana raz do roku przez CIDOC/ICOM: Międzynarodowy Komitet ds. Dokumentacji (CIDOC) przy Międzynarodowej Radzie Muzeów (ICOM). W ubiegłym roku konferencja została zorganizowana w rumuńskim Sybinie (krótką notatkę na ten temat można znaleźć tutaj).

Prace komitetu CIDOC są interesujące z punktu widzenia PCSS, ponieważ w ramach projektu SYNAT wykorzystujemy opracowany przez ten komitet model konceptualny CIDOC CRM. CIDOC CRM pełni rolę głównej ontologii opisującej bazę wiedzy zawierającą dane na temat zasobów różnego typu (w tej chwili są to zasoby biblioteczne, katalogowe i muzealne), które oryginalnie są opisywane za pomocą metadanych w całkowicie odmiennych schematach. Do stworzenia takiej bazy wiedzy potrzebowaliśmy schematu umożliwiającego reprezentację opisów takich heterogenicznych zasobów. CIDOC CRM oferuje definicje i formalną strukturę do opisu jawnych i niejawnych konceptów i związków obecnych w dokumentacji dziedzictwa kulturowego, zatem wybór jest dość naturalny. Dodatkowym atutem CIDOC CRM jest to, że istnieje implementacja tego modelu w języku OWL, co jest bardzo przydatne w środowisku Semantic Web.

Podczas pierwszych prób przekształcania (mapowania) schematów bibliograficznych do CIDOC CRM zauważyliśmy, że reprezentacja książek w tym modelu jest bardziej złożona, niż reprezentacja obiektów muezalnych (chociaż, oczywiście, muzea mogą wystawiać książki, a biblioteki mogą posiadać zabytkowe tomy o wartości muzealnej). Więcej informacji na temat reprezentacji danych bibliograficznych w CIDOC CRM i ich mapowania można znaleźć w naszych publikacjach.

Początkowo zaproponowaliśmy własne rozszerzenia ontologii (głównie podklasy i podwłaściwości) CIDOC CRM umożliwiające reprezentację danych bibliograficznych, jednak ostatecznie zdecydowaliśmy się na zastosowanie FRBRoo. FRBRoo to rozszerzenie ontologii CIDOC CRM również stworzone przez komitet CIDOC, które dodatkowo jest zgodne z modelem FRBR (Functional Requirements for Bibliographic Records) opracowanym przez IFLA (Międzynarodowa Federacja Stowarzyszeń i Instytucji Bibliotekarskich). Wyróżniającą cechą FRBR jest opis publikacji (np. książki) na czterech poziomach:

  • dzieło (np. „Jądro ciemności” Josepha Conrada),
  • realizacja (np. pierwsze wydanie „Jądra ciemności”),
  • materializacja (zbiór wszystkich egzemplarzy wydania),
  • egzemplarz.

Podczas tegorocznej konferencji prezentowaliśmy wyniki związane z mapowaniem dużej liczby rekordów ze schematów MARC 21 i PLMET do FRBRoo.

Program konferencji obejmował warsztaty (w tym bardzo ciekawy, całodniowy warsztat na temat CIDOC CRM, FRBRoo i EDM, CRM Dig prowadzony przez Martina Doerra), spotkania grup roboczych, wykłady zaproszonych gości, a także „zwykłe” prezentacje. Motywy przewodnie konferencji to:

  • Co-operation & exchange (współpraca i wymiana),
  • Social media (media społecznościowe),
  • Semantic Web (semantyczny Internet),
  • Digital technologies and intangible cultural heritage (technologie cyfrowe i niematerialne dziedzictwo kulturowe),
  • Innovations in documentation (innowacje w dokumentacji),
  • Multilingualism and regional cultures (wielojęzykowość i kultury regionalne).

Europeana i biblioteki: spotkanie w Bukareszcie

Cerkiew Włoska w Bukareszcie

W dniach 21-23 maja w Bukareszcie odbyło się wspólne spotkanie projektu Europeana Libraries oraz TEL (The European Library). Motyw przewodni spotkania to Patrząc w przyszłość: w jaki sposób nasza usługa odpowiada na potrzeby europejskich wspólnot badawczych? Pod tym adresem można znaleźć nagrania wideo z niektórych sesji.

PCSS uczestniczy w części Work Package 5 projektu EuropeanaLibraries. Głównym zadaniem tej grupy roboczej jest poprawa możliwości wyszukiwania wśród treści bibliotecznych w Europeanie poprzez zdefiniowanie przekształcenia metadanych w formacie ESE na format EDM oraz ustanowienie dobrych praktyk uwzględniających różne typy bibliotek obecnych w Europeanie.

Wewnętrznie portal Europeana przechodzi na nowy format reprezentacji danych EDM (Europeana Data Model). Format ten od stosowanego do tej pory ESE (Europeana Semantic Elements) różni się przede wszystkim tym, że jest formatem zgodnym z inicjatywami Semantic Web i Linked Open Data, wykorzystującym ontologię. EDM wprowadza wyraźnie rozróżnienie pomiędzy zasobem fizycznym (np. obraz albo starodruk), nazywanym w ontologii Provided Cultural Heritage Object (dostarczany obiekt dziedzictwa kulturowego) a odwzorowującym go zasobem elektronicznym (Web Resource), przy czym takich zasobów elektronicznych dla tego samego obiektu może być wiele. W schemacie ESE dane tych dwóch różnych typów zasobów bywają przemieszane. Schemat EDM dąży do postaci zdarzeniocentrycznej, zbliżonej do tej znanej z ontologii CIDOC CRM.

W przypadku bibliotek wyzwania związane z przejściem na schemat EDM są nieco odmienne niż w przypadku muzeów. Jedną z podstawowych kwestii było zadecydowanie, czy opisywanym obiektem dziedzictwa kulturowego ma być Egzemplarz/Item (konkretna książka), czy Realizacja/Expression (konkretne wydanie, stosując słownictwo z modelu FRBR).

Przed spotkaniem instytucje zaangażowane w prace WP5 zostały poproszone o zaproponowanie mapowanie wybranych kilku rekordów bibliograficznych ze swoich kolekcji do formatu EDM. Celem ćwiczenia było zgromadzenie uwag i wątpliwości związanych z profilem bibliotecznym EDM (zdefiniowanym osobno dla monografii, a osobno dla wydawnictw ciągłych). Po przeanalizowaniu wyników tej walidacji, następnym krokiem będzie przygotowanie (przez TEL) procesu automatycznego mapowania z oryginalnych schematów metadanych bibliotek do EDM oraz jego przetestowanie na nowej porcji rekordów w oparciu o nową infrastrukturę agregacji metadanych.

Udział PCSS w pracach projektu Europeana Libraries jest ściśle powiązany z zadaniami semantycznej integracji metadanych obiektów dziedzictwa kulturowego, realizowanymi przez PCSS w ramach etapu A10 projektu SYNAT.

jMet2Ont: przekształcanie metadanych z XML do postaci ontologicznej

Pod adresem http://fbc.pionier.net.pl/pro/jmet2ont/ udostępnione zostało nowe narzędzie, o nazwie jMet2Ont.

jMet2Ont przekształca metadane zapisane w schemacie opartym o XML do postaci trójek RDF zgodnych z wybraną ontologią (np. CIDOC CRM, EDM). Metadane wejściowe mogą być zapisane zarówno w schemacie płaskim (np. Dublin Core) jak i hierarchicznym (MARC/XML).

Do korzystania z narzędzia nie jest wymagana żadna wiedza programistyczna. Reguły mapowania definiuje się w pliku XML, którego składnia została szczegółowo opisana (po angielsku) w części User Documentation na stronie projektu.

W tej chwili program uruchamia się w linii poleceń. W przyszłości być może stworzymy dla niego interfejs graficzny. W razie pytań prosimy o kontakt z autorami programu.

Mapowanie formatu MARC 21 rekordu bibliograficznego do schematu metadanych PLMET

Pod tym adresem umieszczone zostały zasady mapowania formatu MARC 21 rekordu bibliograficznego do schematu matadanych PLMET. Mapowanie przygotował pan Leszek Śnieżko z Centrum NUKAT (katalog zbiorów polskich bibliotek naukowych) w ramach współpracy z PCSS w projekcie SYNAT.

Biblioteki stosujące wewnętrznie format MARC 21 (oraz wszystkie inne zainteresowane osoby i placówki) zachęcamy do zapoznania się z propozycją mapowania.

Różnica pomiędzy FROM i FROM NAMED w języku SPARQL oraz analogiczne zapytania w SeRQL

W projekcie SYNAT intensywnie stosujemy technologie semantic web (po polsku czasem semantyczny Internet). Wykorzystujemy repozytorium RDF (OWLIM) do składowania dużych ilości danych. Do odpytywania repozytorium stosujemy języki SPARQL i SeRQL. Pierwszy z nich jest uznanym standardem, drugi (stworzony przez firmę Aduda, producenta repozytorium Sesame) według części z nas jest o wiele wygodniejszy w użyciu.

W ubiegłym postanowiliśmy, że niezależnie od tego, jako często stosujemy SPARQL, należałoby w końcu zrozumieć różnicę pomiędzy klauzulami FROM i FROM NAMED. Okazało się, że dotarcie do wiarygodnego i zrozumiałego źródła wcale nie jest takie proste, dlatego zamieszczamy ten wpis (oparty o wpis na prywatnym blogu osoby z zespołu).

Wydaje się, że największy problem brzmi w samej nazwie. Zarówno FROM jak i FROM NAMED operuja na grafach nazwanych, co z pewnością ma związek z zamieszaniem wokół tych słów kluczowych. Poniżej znajduje się krótka sekcja pytań i odpowiedzi, która powinna wyjaśnić sytuację.

Jeśli zapytanie nie zawiera FROM ani FROM NAMED, co właściwie jest odpytywane?
Odpytywany jest graf aktywny. Wbrew niektórym sugestiom, nie musi on mieć nic wspólnego z grafem domyślnym (ang. default graph). Przykładowo w OWLIM graf aktywny obejmuje całą zawartość repozytorium.

Przykład (ze specyfikacji SPARQL):

PREFIX foaf: <http://xmlns.com/foaf/0.1/>
SELECT ?nameX ?nameY ?nickY
WHERE
  { ?x foaf:knows ?y ;
       foaf:name ?nameX .
    ?y foaf:name ?nameY .
    OPTIONAL { ?y foaf:nick ?nickY }
  }

Co to jest graf aktywny?
Jest to graf (lub zbiór grafów) odpytywany, gdy nie zostały podane klauzule FROM i FROM NAMED. Może to być graf domyślny, może to być cała zawartość repozytorium… albo coś zupełnie innego, w zależności od implementacji.

Co to jest graf domyślny?
Graf domyślny to graf bez nazwy, lub inaczej – bez kontekstu. Jest to graf zbudowany z trójek RDF, a nie z czwórek.

Jak efekt ma klauzula FROM?
Klauzule FROM ograniczają zbiór odpytywanych grafów. Szablon przedstawiony w zapytaniu zostanie dopasowany tylko do grafu (lub grafów) zdefiniowanego w klauzuli (klauzulach) FROM.

Przykład. Uwzględnione zostaną jedynie trójki z grafu <http://example.org/foaf/aliceFoaf>.

PREFIX foaf: &lt;http://xmlns.com/foaf/0.1/glt;
SELECT  ?name
FROM    &lt;http://example.org/foaf/aliceFoaf&gt;
WHERE   { ?x foaf:name ?name }

Jaki efekt ma klauzula FROM NAMED?
Sprawia ona, że do każdej zmiennej reprezentującej w zapytaniu graf nazwany dopasowane zostaną tylko grafy podane w klazulach FROM NAMED.

Przykład (łączący FROM i FROM NAMED). Zmienna ?g zostanie dopasowana albo do grafu <http://example.org/alice>, albo do <http://example.org/bob>, ale nie do żadnego innego grafu nazwanego.

PREFIX foaf: &lt;http://xmlns.com/foaf/0.1/&gt;
PREFIX dc: &lt;http://purl.org/dc/elements/1.1/&gt;

SELECT ?who ?g ?mbox
FROM &lt;http://example.org/dft.ttl&gt;
FROM NAMED &lt;http://example.org/alice&gt;
FROM NAMED &lt;http://example.org/bob&gt;
WHERE
{
   ?g dc:publisher ?who .
   GRAPH ?g { ?x foaf:mbox ?mbox }
}
<strong>Czy można łączyć FROM i FROM NAMED?</strong>
Tak, jak widać powyżej. W przykładzie trójka nazwana musi należeć do jednego z grafów wymienionych w klauzuli FROM NAMED, a <span style="font-style: italic;">luźna</span> trójka zostanie dopasowana do trójki z grafu podanego w klauzuli FROM.

<strong>A co, jeśli jest tylko jedna klauzula FROM NAMED?</strong>
Wówczas poniższe dwa zapytania zwrócą dokładnie ten sam wynik:
PREFIX foaf: &lt;http://xmlns.com/foaf/0.1/&gt;
PREFIX dc: &lt;http://purl.org/dc/elements/1.1/&gt;

SELECT ?who ?mbox
FROM &lt;http://example.org/dft.ttl&gt;
FROM NAMED &lt;http://example.org/alice&gt;
WHERE
{
   ?g dc:publisher ?who .
   GRAPH ?g { ?x foaf:mbox ?mbox }
}

jest równoważne z:

PREFIX foaf: &lt;http://xmlns.com/foaf/0.1/&gt;
PREFIX dc: &lt;http://purl.org/dc/elements/1.1/&gt;

SELECT ?who ?mbox
FROM &lt;http://example.org/dft.ttl&gt;
WHERE
{
   ?g dc:publisher ?who .
   GRAPH &lt;http://example.org/alice&gt; { ?x foaf:mbox ?mbox }
}

Czy w SeRQL jest łatwiej?
Tak. Funkcjonalność odpowiadająca FROM i FROM NAMED jest realizowana przez klauzulę FROM CONTEXT. Przykład (ze specyfikacji SeRQL ):

SELECT name, mbox
FROM CONTEXT <http://example.org/context/graph2>
     {x} foaf:name {name};
         foaf:mbox {mbox}
USING NAMESPACE
foaf = <http://xmlns.com/foaf/0.1/>

Konferencja „CIDOC 2011 – Knowledge Management and Museums”

W dniach 4-9 września 2011 w Sybinie w Rumunii odbyła się konferencja „CIDOC 2011 – Knowledge Management and Museums”. Konferencja jest co roku organizowana przez ICOM-CIDOC, czyli Komitet ds. Dokumentacji (CIDOC) przy Międzynarodowej Radzie Muzeów (ICOM).

W konferencji uczestniczyli przedstawiciele bardzo różnych, ale współpracujących ze sobą środowisk: muzealnicy, bibliotekarze, programiści i producenci rozwiązań dla muzeów, naukowcy zainteresowani wykorzystaniem ontologii oraz technologii semantic web, a także osoby i instytucje zajmujące się standaryzają dokumentacji muzealnej.

Konferencja była okazją do spotkania się grup roboczych CIDOC. Ich działania koncentrują się w następujących obszarach:

  • Archaeological Sites (stanowiska archeologiczne)
  • Conceptual Reference Model Special Interest Group (grupa CIDOC CRM)
  • Co-reference (koreferencje)
  • Data Harvesting and Interchange (harvesting i wymiana danych)
  • Digital preservation (trwałe przechowywanie obiektów w postaci cyfrowej)
  • Documentation Standards (standardy dokumentacji)
  • Information Centres (centra informacji)
  • Multimedia (multimedia)
  • Transdisciplinary Approaches in Documentation (dokumentacja transdyscyplinarna)

Na konferencji pojawiło się wiele tematów, które są bezpośrednio związane z pracami w ramach projektu SYNAT. Najważniejsze z nich to:

  • specyfikacja schematu LIDO (Lightweight Information Describing Objects) i zachęcanie muzeów do stosowania go do opisu zasobów udostępnianych w sieci (www.lido-schema.org/)
  • nacisk na stosowanie trwałych, unikalnych identyfikatorów takich zasobów (najlepiej URI)
  • ontologia FRBRoo, łącząca schemat FRBR (Functional Requirements for Bibliographic Records) z ontologią CIDOC CRM w celu umożliwienia poprawnego opisu rekorów bibliograficznych (www.nla.gov.au/lis/stndrds/grps/acoc/tillett2004.ppt, http://www.frbr.org/categories/frbroo)
  • prezentacja niemieckiego systemu Wiss-ki (http://wiss-ki.eu/, http://www8.informatik.uni-erlangen.de/transdisc/hohmann_cidoc09_wisski-2.pdf). Założenia tego systemu przypominają założenia projektu SYNAT, wiele z już wypracowanych rozwiązań mogłoby zostać wykorzystanych przez nas.

Następna konferencja CIDOC odbędzie się w Helsinkach w czerwcu 2012. Dodatkowo latem po raz kolejny zorganizowana zostanie „letnia szkoła” CIDOC, kierowana do osób zajmujących się dokumentacją muzealną.