Tag Archives: metadane

Public domain and Creative Commons licenses in Polish digital libraries (part 2)

W opublikowanym niedawno na tej stronie wpisie pt.: “Domena publiczna i licencje Creative Commons w polskich bibliotekach cyfrowych” przedstawiliśmy statystyki obrazujące udział obiektów z domeny publicznej w zbiorach polskich bibliotek cyfrowych oraz wykorzystanie licencji Creative Commons w tychże bibliotekach. Podstawowe statystyki z próbki około pół miliona obiektów wyglądały następująco:

 • Domena publiczna (dalej: PD) – 10,37%
 • Licencje CC (dalej: CC)- 0,1%
 • Prawa zastrzeżone, dostęp nieograniczony (dalej: RR-F) – 88,87%
 • Prawa zastrzeżone, dostęp ograniczony (dalej: RR-R)- 0,66%

Po szczegółowe informacje i szerszy kontekst dla interpretacji tych danych odsyłamy do wspomnianego już poprzedniego wpisu. Bardzo istotne jest to, iż powyższe statystyki nie koniecznie muszą odzwierciedlać faktyczny stan prawny obiektów. Zostały one przygotowane na podstawie informacji licencyjnych, jakimi opatrują poszczególne obiekty udostępniające je instytucje. Bardzo często brak jest podanych wprost informacji licencyjnych, a zamiast tego w polu “Prawa” opisu widnieje nazwa instytucji, która dany obiekt udostępniła on-line. Z punktu widzenia użytkownika końcowego trudno interpretować tego typu informację inaczej, niż jako stwierdzenie że dana instytucja posiada prawa do udostępnianego w sieci obiektu. Stąd też obiekty bez określonych wprost zasad licencjonowania zostały skategoryzowane jako obiekty, do których prawa są zastrzeżone. Dodatkowo część z tych obiektów udostępniana jest w sposób ograniczony (np. dostęp wyłącznie na terenie biblioteki).

W ramach dalszej analizy tych danych postanowiliśmy zestawić dane odnośnie licencji z danymi o dacie utworzenia/wydania udostępnianego obiektu. W przypadku obiektów digitalizowanych braliśmy pod uwagę datę utworzenia/wydania oryginalnego obiektu, a nie datę digitalizacji. Jest to uzasadnione zapisami Statutu Domeny Publicznej Europeany:

“Digitalizacja domeny publicznej nie oznacza tworzenia praw autorskich: prace, które w wersji analogowej znajdują się w domenie publicznej, nadal do niej należą po stworzeniu ich wersji cyfrowej.”

Ze względu na brak ogólnie przyjętego w polskich bibliotekach cyfrowych jednego sposobu zapisu dat, w celu przygotowania wspomnianego powyżej zestawienia musieliśmy opracować narzędzie, które pozwoliło na ujednolicenie dat i ich zestawienie z grupami licencji. W wyniku działania tego narzędzia udało się poprawnie przetworzyć daty utworzenia opisujące 96% obiektów ze wspomnianej próbki pół miliona obiektów. Zestawienie w formie graficznej wygląda następująco (kliknięcie na wykres spowoduje powiększenie go):

Dokładne dane zawiera poniższa tabela:

 Zakres lat Obiekty wg typu licencji  Łączna
 liczba obiektów 
 % próbki 
 RR-F   RR-R   PD   CC 
1001 – 1050 8 0 0 0 8 0,0017%
1051 – 1100 0 0 0 0 0 0,0000%
1101 – 1150 0 0 0 0 0 0,0000%
1151 – 1200 2 0 0 0 2 0,0004%
1201 – 1250 4 0 0 0 4 0,0008%
1251 – 1300 17 0 14 0 31 0,0065%
1301 – 1350 22 0 25 0 47 0,0098%
1351 – 1400 93 0 4 0 97 0,0203%
1401 – 1450 93 0 10 0 103 0,0216%
1451 – 1500 431 0 12 0 443 0,0928%
1501 – 1550 812 0 7 0 819 0,1716%
1551 – 1600 1 572 0 9 0 1581 0,3312%
1601 – 1650 1 467 0 25 0 1492 0,3125%
1651 – 1700 1 690 0 33 0 1723 0,3609%
1701 – 1750 2 948 0 59 0 3007 0,6299%
1751 – 1800 5 137 0 219 0 5356 1,1219%
1801 – 1850 37 951 0 6 567 0 44518 9,3254%
1851 – 1900 97 560 6 19 499 0 117065 24,5221%
1901 – 1939 177 237 453 22 326 3 200019 41,8988%
1940 – 1945 7 194 8 1 918 196 9316 1,9515%
1946 – 1989 45 877 1 926 185 44 48032 10,0615%
1989 – 2011 42 391 922 175 235 43723 9,1588%

W czasie zorganizowanego w czerwcu 2010 roku przez Bibliotekę Narodową i EBIB Seminarium prawnego dla bibliotekarzy cyfrowych pan Tomasz Ganicz w swoim wystąpieniu “Domena Publiczna w praktyce projektów Wikimedia” przedstawił zarys tzw. polskiego kalkulatora domeny publicznej, czyli algorytmu czy też zestawu kroków pozwalającego na określenie statusu prawnego dzieła. W kalkulatorze tym kluczowy jest rok 1939. Jeżeli dzieło zostało przed końcem tego roku upublicznione, to jest szansa iż znajduje się ono w domenie publicznej (por. slajd 20 i dalsze w prezentacji).

Dane z powyższej tabeli, po wyróżnieniu tylko dwóch przedziałów czasowych – do 1939 i po 1939 – przedstawiają się następująco:

 Zakres lat Obiekty wg typu licencji  Łączna
 liczba obiektów 
 % próbki 
 RR-F   RR-R   PD   CC 
1001 – 1939 327 044 459 48 809 3 376 315 78,8282%
1940 – 2011 95 462 2 856 2 278 475 101 071 21,1718%

Wspomniany kalkulator, poza rokiem 1939 jako graniczną datą upublicznienia dzieła, podaje jeszcze dwa inne warunki na mocy których dzieło może zostać uznane jako należące do domeny publicznej:

 • dla dzieł których autor jest nieznany, jest to 140 lat od upublicznienia dzieła,
 • dla dzieł których autor jest znany i nie przekazał on praw majątkowych za życia, jest to rok 1939 jako data śmierci autora.

Z pewnym przybliżeniem, można w takim razie przyjąć, że dzieła powstałe/upublicznione przed 1850 rokiem z bardzo dużym prawdopodobieństwem należą do domeny publicznej. W związku z tym powyższe statystyki można podzielić w następujący sposób:

 Zakres lat Obiekty wg typu licencji  Łączna
 liczba obiektów 
 % próbki 
 RR-F   RR-R   PD   CC 
1001 – 1850 52 247 0 6 984 0 59 231 12,4074%
1851 – 1939 274 797 459 41 825 3 317 084 66,4209%
1940 – 2011 95 462 2 856 2 278 475 101 071 21,1718%

Pierwszy wiersz (lata 1001 – 1850) to obiekty, które właściwie powinny być oznaczone jako dzieła znajdujące się w domenie publicznej. Drugi wiersz (lata 1851-1939) to obiekty, które z dużym prawdopodobieństwem do domeny publicznej należą – jednak występowanie publikacji w grupach licencji CC czy RR-R, pokazuje, że 100% pewności tutaj nie ma (najstarszy obiekt z grupy RR-R to rok 1887, najstarszy obiekt z grupy CC to rok 1926). Trzeci wiersz (lata 1940-2011) to obiekty, które najprawdopodobniej nadal objęte są prawami autorskimi.

Publikując to zestawienie mamy nadzieje, iż skłoni ono twórców polskich bibliotek cyfrowych do zastanowienia się nad sposobami wyrażania w metadanych statusu prawnego dzieł publikowanych on-line. Choć oczywiście zdajemy sobie równocześnie sprawę z tego, że w wielu przypadkach jasne określenie tego statusu jest trudne.

Public domain and Creative Commons licenses in Polish digital libraries

Federacja Bibliotek Cyfrowych to serwis, który m.in. gromadzi informacje na temat publikacji z polskich bibliotek cyfrowych i następnie ułatwia dostęp do tych informacji. Zadanie to realizowane jest również poprzez współpracę z Europeaną, polegającą na przekazywaniu do niej zgromadzonych w FBC informacji, które w tym celu muszą zostać dopasowane do jednego schematu metadanych wymaganego przez Europeanę. Obecnie wykorzystywanym schematem jest Europeana Semantic Elements.

W związku z wdrożeniem kolejnej wersji tego schematu (oznaczonej numerem 3.3.1), konieczne stało się m.in. określanie zasad, na jakich poszczególne obiekty dostępne są dla użytkowników (w tym również użytkowników Europeany). Szczegółowe informacje na temat sposobów określania licencji w danych przekazywanych do Europeany zawarte zostały w odrębnym dokumencie. Zapisano tam, że dozwolonymi określeniami licencji są:

 • Dowolna licencja z rodziny licencji Creative Commons
 • Domena publiczna
 • Prawa zastrzeżone – Dostęp nieograniczony
 • Prawa zastrzeżone – Dostęp ograniczony
 • Prawa zastrzeżone – Dostęp płatny
 • Nieznane

Dwie pierwsze wartości jasno określają kwestie licencyjne. Pozostałe wartości są natomiast bardziej wskazówką dla zainteresowanego użytkownika. Po szczegółowe informacje taki użytkownik powinien sięgnąć do stron źródłowej biblioteki cyfrowej udostępniającej dany obiekt.

W związku z opisanymi powyżej nowymi wymaganiami odnośnie metadanych, w FBC wprowadzony został mechanizm automatycznie określający na jakiej licencji, spośród licencji zdefiniowanych w schemacie Europeany, udostępniany jest dany obiekt. Mechanizm ten działa na zasadzie automatycznej analizy rekordów metadanych w poszukiwaniu informacji o licencji bądź ograniczeniach dostępu.

Po jego wprowadzeniu możliwe było opracowanie statystyk pokazujących wykorzystanie poszczególnych typów licencji w bibliotekach cyfrowych dostępnych poprzez FBC. Z analizy wyłączone zostały dane pochodzące z CBN Polona oraz Polskiej Biblioteki Internetowej, gdyż zgodnie z życzeniem Biblioteki Narodowej dane z tych dwóch serwisów nie trafiają do Europeany poprzez FBC. Ostatecznie analiza przeprowadzona została na metadanych prawie pół miliona obiektów cyfrowych dostępnych w FBC w dniu 16 lutego 2011 r.

Poniższy wykres pokazuje wykorzystanie wspomnianych licencji do udostępniania obiektów, które odnaleźć można poprzez serwis Federacji Bibliotek Cyfrowych (kliknięcie na wykres spowoduje wyświetlenie go w większej jakości).

Jak widać obiekty cyfrowe są najczęściej (około 89% obiektów) opisane w sposób, który pozwala jedynie stwierdzić, iż dostęp do nich możliwy jest bez ograniczeń, ale nie określono wprost zasad ich wykorzystania. Powszechnie przyjętą praktyką jest za to podawanie zamiast tych zasad nazwy instytucji, która udostępniła dany obiekt. Trudno, aby decydować się na inną interpretacje takiego zapisu w metadanych niż tę, że prawa są zastrzeżone i należą do podanej instytucji. Dlatego też przypisanie ich do grupy “Prawa zastrzeżone – Dostęp nieograniczony”.

Biorąc pod uwagę, że większość obiektów cyfrowych w FBC to gazety sprzed II WŚ, można by się spodziewać znacznie większego udziału Domeny Publicznej, tak jak m.in. wskazywała to Europeana w opublikowanym niecały rok temu dokumencie zatytułowanym “Statut Domeny Publicznej”. Obecnie jednak obiekty wprost oznaczone jako należące do Domeny Publicznej, to tylko około 10%. Bibliotekami cyfrowymi, które najczęściej publikują oznaczone w ten sposób obiekty są:

Kolejne 0,66% to obiekty do których dostęp jest w jakiś sposób ograniczony. Są to najczęściej współcześnie wydane publikacje udostępniane wyłącznie w wewnętrznych sieciach bibliotecznych czy uniwersyteckich.

Ostatnia grupa na wykresie to licencje z rodziny Creative Commons, które wykorzystywane są w zaledwie 0.1% wszystkich obiektów dostępnych poprzez FBC. Poniżej przedstawiono szczegółowy udział poszczególnych typów licencji (dla uproszczenia pominięto tutaj wersje licencji).

Dokładne dane przedstawione zostały w poniższej tabeli:

Licencja URL Licencji Liczba obiektów Udział %
CC BY 3.0 PL http://creativecommons.org/licenses/by/3.0/pl/ 2 0,0004%
CC BY ND 3.0 PL http://creativecommons.org/licenses/by-nd/2.5/pl/ 3 0,0006%
CC BY NC ND 3.0 PL http://creativecommons.org/licenses/by-nc-nd/3.0/pl/ 3 0,0006%
CC BY NC 3.0 PL http://creativecommons.org/licenses/by-nc/3.0/deed.pl 9 0,0018%
CC BY 2.5 PL http://creativecommons.org/licenses/by-nc/2.5/pl/ 12 0,0024%
CC BY 2.5 PL http://creativecommons.org/licenses/by/2.5/pl/ 12 0,0024%
CC BY SA 2.5 PL http://creativecommons.org/licenses/by-nc-sa/2.5/pl/ 29 0,0058%
CC BY NC 3.0 PL http://creativecommons.org/licenses/by-nc/3.0/pl/ 38 0,0077%
CC BY NC ND 2.5 PL http://creativecommons.org/licenses/by-nc-nd/2.5/pl/ 56 0,0113%
CC BY SA 3.0 PL http://creativecommons.org/licenses/by-sa/3.0/pl/ 314 0,0632%
Prawa zastrzeżone – Dostęp ograniczony http://www.europeana.eu/rights/rr-r/ 3 294 0,6633%
Domena Publiczna http://creativecommons.org/publicdomain/mark/1.0/ 51 484 10,3673%
Prawa zastrzeżone – Dostęp nieograniczony http://www.europeana.eu/rights/rr-f/ 441 346 88,8732%
ŁĄCZNIE: 496 602

Obecnie trwają prace nad wdrożeniem w Federacji Bibliotek Cyfrowych oraz w zainteresowanych bibliotekach partnerskich schematu metadanych PLMET (więcej informacji na ten temat można znaleźć tutaj). Schemat ten, m.in. dzięki wykorzystaniu elementów Dublin Core Metadata Terms, daje szersze możliwości wyrażenia informacji licencyjnych niż podstawowy schemat Dublin Core, który jest obecnie podstawą metadanych dla większości polskich bibliotek cyfrowych i FBC. Wprowadzenie w PLMET rozróżnienia pomiędzy licencją, prawami dostępu, właścicielem praw oraz lokalizację oryginalnego obiektu (w przypadku obiektów digitalizowanych), daje szansę na zaprzestanie wspomnianych wcześniej praktyk podawania nazwy instytucji w polu Prawa, a więc również na ogólną poprawę jakości informacji licencyjnych.

“Introduction to Controlled Vocabularies” available online

Some time ago Getty Foundation have released a free book [1] “Introduction to Controlled Vocabularies – Terminology for Art., Architecture and Rother Cultural Works” written by Patricia Harpring. Author is a managing editor for Getty Vocabulary Program which includes three vocabularies: Thesaurus of Geographic Names (TGN), Union List of Artist Names (ULAN) and the Art & Architecture Thesaurus (AAT). She is also one of the creators of “Categories for the Description of Works of Art” (CWDA) metadata standard [2].

Book features a straightforward explanation of what controlled vocabularies are in the context of work of arts, museums, archival collections, libraries and scholars. Apart from this reader would also find there descriptions of existing controlled vocabularies and thesauruses including AAT, TGN, ULAN, CT, LCSH, TGM, IconClass. Author explains in which parts of metadata it is reasonable to use controlled vocabularies with some suggestions regarding to usage of existing vocabularies.

Apart from this what was already mentioned there is also chapter dedicated to creation of controlled vocabularies and some examples showing how to catalogue works of art. In the final chapter of the book author discusses issues associated with retrieval using controlled vocabularies.