Zastrzeżenie
Przed rozpoczęciem korzystania z opisanych poniżej danych prosimy o zapoznanie się ze stroną „SYNAT – Wyniki prac PCSS”. Możliwości wykorzystania poniższych danych powinny być każdorazowo uzgodnione z PCSS.
Bazową ontologią jest ontologia CIDOC CRM w wersji Erlangen CRM, w przypadku danych bibliograficznych rozszerzona do postaci FRBRoo, opartej na modelu FRBR (Functional Requirements for Bibliographic Records) zaproponowanym przez IFLA. Baza wiedzy została utworzona w efekcie przetworzenia danych pochodzacych z Federacji Bibliotek Cyfrowych (lista źródeł danych FBC dostępna jest w Bazie Bibliotek Cyfrowych tego serwisu), katalogu NUKAT oraz próbki 15.000 rekordów z systemu Mona stosowanego w Muzeum Narodowym w Warszawie. Implementacja ontologii FRBRoo w języku OWL również pochodzi z Uniwersytetu w Erlangen. Ponieważ jednak jest ona rozwijana od niedawna, zawiera kilka nieścisłości względem specyfikacji. Zostałe one poprawione lokalnie w powstałej bazie wiedzy.
Udostępniane dane są postacią roboczą bazy wiedzy i mogą zawierać błędy. Jakość danych ulega ciągłej poprawie wraz z realizacją dalszych prac w projekcie.
Informacje ogólne na temat modelu danych
Publikacje w bazie wiedzy są reprezentowane za pomocą czterech poziomów opisu (zgodnie z modelem FRBR):
Oznacza to, że publikacja jest reprezentowana na 4 poziomach:
- Work / Dzieło (idealne dzieło stworzone przez autora) – instancje klasy F14_Individual_Work lub F18_Serial_Work (wydawnictwa ciągłe).
- Expression / Realizacja (intelektualna zawartość danego wydania dzieła) – instancje klasy F24_Publication_Expression
- Manifestation / Materializacja (zbiór egzemplarzy danego Expression, przechowujący informację o cechach wspólnych) – instancje klasy F3_Manifestation_Product_Type
- Item / Egzemplarz – instancje klasy F5_Item
Obiekty muzealne to instancje klasy E22_Man-Made_Object.
Ontologie w bazie wiedzy
- ontologia CIDOC CRM w implementacji Erlangen
- ontologia FRBRoo w implementacji Erlangen
- ecrm_extended.owl – plik z naszymi rozszerzeniami ontologii Erlangen dodanymi w celu precyzyjniejszej reprezentacji danych
- ontologia Geonames w wersji 3.0.1
- languages-schema.rdf – ontologia Lexvo.org do opisu języków (zgodnie z ISO 639-3 i 639-3 – w BW języki są stosowane w postaci zgodnej z CIDOC CRM)
- słownictwo WGS84 Geo Positioning, służy do reprezentacji informacji o danych geograficznych
- annotationProperties.owl – pomocnicze słownictwo pozwalające rozpoznać siłę relacji wiążacych obiekty (np. na potrzeby prezentacji porcji danych RDF związanych z danym zasobem)
- kbMetadata.owl – pomocnicze słownictwo techniczne, częściowo usuwane podczas tworzenia finalnej wersji bazy wiedzy (po wnioskowaniu)
Hierarchie typów, tezaurusy, słownictwo kontrolowane
Klasa E55 jest interfejsem, za pomocą którego można osadzać istniejące tezaurusy i słownictwo kontrolowane. Utworzone i wykorzystywane przez nas hierarchie to:
- E55a_Degree: stopnie naukowe [CIDOC],
- E55b_Education_Level: stopnie edukacji [CIDOC]
- E55d_Resource_Type [oryginalne słownictwo DCMI Type] [CIDOC],
- E55e_Subject: temat, klasa ma dwie podklasy: E55g_Subject_Hierarchy (KABA) i E55f_User_Subject, instancje są ładowane dynamicznie
- E55k_Contribution_Type: typ współautorstwa [CIDOC]
- E55j_Subject_Type [CIDOC]
- E55l_Keyword: słowo kluczowe, instancje są ładowane dynamicznie
- waluty [CIDOC]
- języki [Lexvo] [CIDOC]
- dyscypliny nauki: [SKOS] [CIDOC]
- typy oparte na kodach typów w formacie MARC 21 i innych klasyfikacjach stosowanych przez NUKAT
- zachmurzenie (zdjęcia i mapy) [oryg. SKOS] [CIDOC + polskie etykiety]
- typ podłoża dla ikonografii [oryg. SKOS] [CIDOC + polskie etykiety]
- materiał ochronny, oprawa dla ikonografii [oryg. SKOS] [CIDOC + polskie etykiety]
- typ ikonograficzny [oryg. SKOS] [CIDOC + polskie etykiety]
- instrument muzyczny [SKOS] [CIDOC + polskie etykiety]
- forma filmowa [oryg. SKOS] [CIDOC + polskie etykiety]
- forma muzyczna [oryg. SKOS] [CIDOC + polskie etykiety]
- forma fizyczna dokumentu kartograficznego – mapa [oryg. SKOS] [CIDOC]
- forma fizyczna dokumentu kartograficznego – globus [oryg. SKOS] [CIDOC]
- wysokość sensora (detektora) / pułapu obrazowania [oryg. SKOS] [CIDOC]
- typ danych teledetekcyjnych [oryg. SKOS] [CIDOC]
- format prezentacji filmu [oryg. SKOS] [CIDOC]
- forma literacka [oryg. SKOS] [CIDOC]
- docelowy odbiorca [oryg. SKOS] [CIDOC]
- częstotliwość wydawania [oryg. SKOS] [CIDOC]
- typy oparte na klasyfikacji systemu Mona stosowanego przez MNW
- sposób nabycia [SKOS] [CIDOC]
- rodzaj pozycji bibliograficznej [SKOS] [CIDOC]
- typ bibliografii [SKOS] [CIDOC]
- klasyfikacja obiektu [SKOS] [CIDOC]
- ocena stanu zachowania [SKOS] [CIDOC]
- klasyfikacja depozytu [SKOS] [CIDOC]
- format [SKOS] [CIDOC]
- typ instytucji [SKOS] [CIDOC]
- typ pomieszczenia [SKOS] [CIDOC]
- rodzaj obiektu [SKOS] [CIDOC]
- rzadkość [SKOS] [CIDOC]
- rodzaj wartości [SKOS] [CIDOC]
- rodzaj dokumentacji wizualnej [SKOS] [CIDOC]
- inne znane typy [CIDOC]
Reprezentowanie relacji między tematami jhp Kaba: każdy rekord języka haseł przedmiotowych Kaba jest mapowany na obiekty typu E55g_Subject_Hierarchy. Pomiędzy tego typu tematami istnieją relacje dwóch typów:
- Relacje węższego i szerszego pojęcia wynikające z gramatyki jhp, opierające się przede wszystkim na zasadzie, że dodanie określnika do tematu zawęża jego zakres znaczeniowy, np. terminem szerszym dla „Niemcy — 1056-1106 (Henryk IV).” będzie temat „Niemcy.”. Relacje te są mapowane na przechodnią relację P127_has_broader_term i odwrotną do niej P127i_has_narrower_term
- Relacje typu „zobacz też” zapisane w definicji rekordu z Kaby, podające zależności do zbliżonych tematów. Niektóre z tych relacji mają dodatkowo określony typ, który może oznaczać wskazanie na szersze pojęcie, wskazanie na węższe pojęcie, wcześniejszą nazwę danego pojęcia lub późniejszą nazwę danego pojęcia (np. wcześniejszą nazwą Uniwesytetu Jagiellońskiego jest Uniwersytet Krakowski). Relacje te są jednak mało restrykcyjnie zdefiniowane i czasami błędne, nie można na ich podstawie stworzyć poprawnej hierarchii tematów, choć informacja przez nie reprezentowana jest cenna i wartościowa. Mapowane są one na relację zapożyczoną z [open.vocab.org]: similarTo oraz zdefiniowane przez nas jej podrelacje (w zależności od typu powiązania między tematami): P214_see_also_broader_term, P214i_see_also_narrower_term, P213_see_also_earlier_form, P213i_see_also_later_form
- Wyeksportowana do formatu: Notation3
- Zawiera trójki wygenerowane na podstawia mapowania, wzbogacania i wykrywania relacji dla 100 000 rekordów z FBC, 100 000 rekordów z katalogu NUKAT, oraz 15 000 rekordów z Muzeum Narodowego w Warszawie.
- Zawiera także trójki ontologiczne.
- Baza wiedzy wygenerowana dnia: 2012-09-03
- Baza nie zawiera trójek wnioskowanych
- Liczba wszystkich trójek: 19 149 139
- Nowo tworzone zasoby otrzymują identyfikatory URI w przestrzeni nazw http://dl.psnc.pl/kb/. Jest to rozwiązanie tymczasowe. Jesienią 2012 udostępniona zostanie baza wiedzy wraz z interfejsem w języku SPARQL. Przechowywanie w niej obiekty otrzymają trwałe identyfikatory w innej, docelowej przestrzeni.
Witam
Niestety linki nie działają:
Forbidden
You don’t have permission to access /sites/synat-protected/ontology/ecrm_current.owl on this server.
W tej chwili wszystkie linki do słownictwa i ontologii powinny działać – zasoby te są już dostępne na zewnątrz.
Natomiast jeśli chodzi o zrzut bazy wiedzy, to niezbędne jest uzyskanie zgody na dostęp (który już został Ci przyznany).
Pozdrawiam