Kopia ontologii i prototypowej bazy wiedzy systemu ZSW

Zastrzeżenie

Przed rozpoczęciem korzystania z opisanych poniżej danych prosimy o zapoznanie się ze stroną „SYNAT – Wyniki prac PCSS”. Możliwości wykorzystania poniższych danych powinny być każdorazowo uzgodnione z PCSS.

Bazową ontologią jest ontologia CIDOC CRM w wersji Erlangen CRM, w przypadku danych bibliograficznych rozszerzona do postaci FRBRoo, opartej na modelu FRBR (Functional Requirements for Bibliographic Records) zaproponowanym przez IFLA. Baza wiedzy została utworzona w efekcie przetworzenia danych pochodzacych z Federacji Bibliotek Cyfrowych (lista źródeł danych FBC dostępna jest w Bazie Bibliotek Cyfrowych tego serwisu), katalogu NUKAT oraz próbki 15.000 rekordów z systemu Mona stosowanego w Muzeum Narodowym w Warszawie. Implementacja ontologii FRBRoo w języku OWL również pochodzi z Uniwersytetu w Erlangen. Ponieważ jednak jest ona rozwijana od niedawna, zawiera kilka nieścisłości względem specyfikacji. Zostałe one poprawione lokalnie w powstałej bazie wiedzy.

Udostępniane dane są postacią roboczą bazy wiedzy i mogą zawierać błędy. Jakość danych ulega ciągłej poprawie wraz z realizacją dalszych prac w projekcie.

Informacje ogólne na temat modelu danych

Publikacje w bazie wiedzy są reprezentowane za pomocą czterech poziomów opisu (zgodnie z modelem FRBR):

Oznacza to, że publikacja jest reprezentowana na 4 poziomach:

  • Work / Dzieło (idealne dzieło stworzone przez autora) – instancje klasy F14_Individual_Work lub F18_Serial_Work (wydawnictwa ciągłe).
  • Expression / Realizacja (intelektualna zawartość danego wydania dzieła) – instancje klasy F24_Publication_Expression
  • Manifestation / Materializacja (zbiór egzemplarzy danego Expression, przechowujący informację o cechach wspólnych) – instancje klasy F3_Manifestation_Product_Type
  • Item / Egzemplarz – instancje klasy F5_Item

Obiekty muzealne to instancje klasy E22_Man-Made_Object.

Ontologie w bazie wiedzy

Hierarchie typów, tezaurusy, słownictwo kontrolowane

Klasa E55 jest interfejsem, za pomocą którego można osadzać istniejące tezaurusy i słownictwo kontrolowane. Utworzone i wykorzystywane przez nas hierarchie to:

Reprezentowanie relacji między tematami jhp Kaba: każdy rekord języka haseł przedmiotowych Kaba jest mapowany na obiekty typu E55g_Subject_Hierarchy. Pomiędzy tego typu tematami istnieją relacje dwóch typów:

  • Relacje węższego i szerszego pojęcia wynikające z gramatyki jhp, opierające się przede wszystkim na zasadzie, że dodanie określnika do tematu zawęża jego zakres znaczeniowy, np. terminem szerszym dla „Niemcy — 1056-1106 (Henryk IV).” będzie temat „Niemcy.”. Relacje te są mapowane na przechodnią relację P127_has_broader_term i odwrotną do niej P127i_has_narrower_term
  • Relacje typu „zobacz też” zapisane w definicji rekordu z Kaby, podające zależności do zbliżonych tematów. Niektóre z tych relacji mają dodatkowo określony typ, który może oznaczać wskazanie na szersze pojęcie, wskazanie na węższe pojęcie, wcześniejszą nazwę danego pojęcia lub późniejszą nazwę danego pojęcia (np. wcześniejszą nazwą Uniwesytetu Jagiellońskiego jest Uniwersytet Krakowski). Relacje te są jednak mało restrykcyjnie zdefiniowane i czasami błędne, nie można na ich podstawie stworzyć poprawnej hierarchii tematów, choć informacja przez nie reprezentowana jest cenna i wartościowa. Mapowane są one na relację zapożyczoną z [open.vocab.org]: similarTo oraz zdefiniowane przez nas jej podrelacje (w zależności od typu powiązania między tematami): P214_see_also_broader_term, P214i_see_also_narrower_term, P213_see_also_earlier_form, P213i_see_also_later_form

Zrzut bazy wiedzy

  • Wyeksportowana do formatu: Notation3
  • Zawiera trójki wygenerowane na podstawia mapowania, wzbogacania i wykrywania relacji dla 100 000 rekordów z FBC, 100 000 rekordów z katalogu NUKAT, oraz 15 000 rekordów z Muzeum Narodowego w Warszawie.
  • Zawiera także trójki ontologiczne.
  • Baza wiedzy wygenerowana dnia: 2012-09-03
  • Baza nie zawiera trójek wnioskowanych
  • Liczba wszystkich trójek: 19 149 139
  • Nowo tworzone zasoby otrzymują identyfikatory URI w przestrzeni nazw http://dl.psnc.pl/kb/. Jest to rozwiązanie tymczasowe. Jesienią 2012 udostępniona zostanie baza wiedzy wraz z interfejsem w języku SPARQL. Przechowywanie w niej obiekty otrzymają trwałe identyfikatory w innej, docelowej przestrzeni.

2 przemyślenia nt. „Kopia ontologii i prototypowej bazy wiedzy systemu ZSW

  1. Witam
    Niestety linki nie działają:

    Forbidden

    You don’t have permission to access /sites/synat-protected/ontology/ecrm_current.owl on this server.

  2. W tej chwili wszystkie linki do słownictwa i ontologii powinny działać – zasoby te są już dostępne na zewnątrz.
    Natomiast jeśli chodzi o zrzut bazy wiedzy, to niezbędne jest uzyskanie zgody na dostęp (który już został Ci przyznany).
    Pozdrawiam

Dodaj komentarz

Twój adres email nie zostanie opublikowany. Pola, których wypełnienie jest wymagane, są oznaczone symbolem *

*