Archiwa tagu: FBC

Publiczne wydanie (części) systemu Clepsydra

Z przyjemnością informujemy o publicznym wydaniu części systemu Clepsydra, oprogramowania do agregacji i wzbogacania danych, wydanego na licencji Apache License 2.0.

Clepsydra to elastyczny i skalowany system do agregacji, przetwarzania i udostępniania danych z heterogenicznych źródeł. Został on zaprojektowany i rozwijany jako podstawa usług bazujących na agregacji i wzbogacaniu danych – np. metadanych opisujących dostępne on-line kolekcje obiektów dziedzictwa kulturowego z polskich instytucji pamięci. Federacja Bibliotek Cyfrowych to pierwsze wdrożenie tego systemu.

Pierwsze wydanie systemu zawiera jeden komponent, Clepsydra Storage, który przede wszystkim ma służyć jako elastyczna i skalowalna usługa pozwalająca na przechowywanie i dostęp do dużej ilości heterogenicznych danych. System Clepsydra powstaje w ramach prac PCSS w projekcie SYNAT.

Instrukcja instalacji, dokumentacja i kod źródłowy modułu Clepsydra Storage są dostępne tutaj.

Warsztaty „Cyfryzacja w instytucjach kultury i jednostkach samorządu terytorialnego”

Pod koniec kwietnia we Wrocławiu odbyły się warsztaty zatytułowane „Cyfryzacja w instytucjach kultury i jednostkach samorządu terytorialnego” zorganizowane przez serwis Digitalizacja.pl oraz Wrocławski Zakład Aktywności Zawodowej. W ramach tych warsztatów swoje wystąpienia mieli również Tomasz Parkoła oraz Adam Dudczak z PCSS. Zaprezentowali oni zestaw oprogramowania dLibra/dMuseion/dArceo/dLab wspierający instytucje kultury w digitalizacji i udostępnianiu zbiorów on-line oraz kursy e-learningowe na temat digitalizacji i budowania bibliotek cyfrowych przeznaczone dla pracowników małych instytucji kultury dostępne w portalu FBC.

Osoby zainteresowane przebiegiem warsztatów zachęcamy do zapoznania się ze sprawozdaniem opublikowanym w najnowszym numerze biuletynu EBIB.  

900 000 obiektów w bazie FBC!

28 lutego liczba obiektów cyfrowych dostępnych poprzez Federację Bibliotek Cyfrowych przekroczyła 900 000. Publikacja wprowadzona do bazy FBC na pozycji 900 000 pochodzi ze zbiorów Zakładu Narodowego im. Ossolińskich, udostępniona została przez Dolnośląską Bibliotekę Cyfrową, a zatytułowana jest „Legiony Polskie. Kartoteka legionistów internowanych w 1918 r. na Węgrzech i w Polsce. Pudło 3: Lit. F-I”.

FBC na Autostradzie Informacji Cyfrowej

Katalog Rozproszony Bibliotek Polskich (KaRo), pozwalający na przeszukiwanie zawartości katalogów bibliotecznych kilkudziesięciu polskich bibliotek (w tym katalogu NUKAT i Biblioteki Narodowej) dostępny jest już w nowej wersji – KaRo 3. Dzięki współpracy pomiedzy twórcą KaRo i Zespołem Bibliotek Cyfrowych, po raz pierwszy w ramach tego serwisu możliwe jest też przeszukiwanie metadanych gromadzonych w Federacji Bibliotek Cyfrowych. Tak więc użytkownicy szukający publikacji w KaRo wydając jedno zapytanie mogą dowiedzieć się, czy dana publikacja dostępna jest on-line w jednej z bibliotek cyfrowych FBC czy też może znajduje się w postaci fizycznej w zbiorach którejś z bibliotek. Przykładowe wyniki takiego wyszukiwania przedstawia poniższy wycinek ekranu.

Integracja pomiędzy KaRo i FBC została przeprowadzona w oparciu o protokół OpenSearch. Szczegółówe informacje na temat OpenSearch API FBC można znaleźć tutaj. Nowa wersja KaRo powstała w ramach projektu NUKAT – AUTOSTRADA INFORMACJI CYFROWEJ.

Grudzień 1980 w zbiorach Federacji Bibliotek Cyfrowych

Osoby zainteresowane tym, jak wyglądało życie w Polsce w okresie wkrótce przed wprowadzeniem stanu wojennego, mogą szukać ciekawych materiałów również w zbiorach polskich bibliotek cyfrowych. Dla przykładu wśród materiałów z grudnia 1980 możemy znaleźć:

Konferencja „Polskie Biblioteki Cyfrowe 2011” – ostatnie dni rejestracji!

Jeszcze niecałe dwa tygodnie można rejestrować się na IV Konferencję „Polskie Biblioteki Cyfrowe”. Tegoroczna edycja konferencji odbędzie się w dniach 11-12 października w Bibliotece Kórnickiej PAN w Poznaniu.
Dzień przed konferencją odbędą się dwa równoległe szkolenia:

  • Szkolenie „Podstawy digitalizacji i udostępniania obiektów dziedzictwa kulturowego”
  • Szkolenie z zakresu obsługi systemu dLibra.

Dzień po konferencji będą miały miejsce VIII Warsztaty „Biblioteki cyfrowe”.

Konferencji towarzyszyć będzie również prezentacja wyników projektu europejskiego IMPACT dotyczącego masowej digitalizacji tekstów historycznych.

Szczegółowy program konferencji i imprez towarzyszących dostępny jest na stronie: http://www.man.poznan.pl/PBC/2011-program-konferencji/

Rejestracja on line prowadzona jest pod adresem: http://www.man.poznan.pl/PBC/rejestracja-uczestnikow/

Uwaga: Organizatorzy zastrzegają sobie możliwość wcześniejszego zamknięcia rejestracji w przypadku osiągnięcia założonego limitu uczestników.

Jakie oprogramowanie do budowy bibliotek cyfrowych jest wykorzystywane w Polsce?

Liczba bibliotek cyfrowych zarejestrowanych w Bazie Bibliotek Cyfrowych FBC przekroczyła niedawno 80, a jeżeli dynamika wzrostu utrzyma się, to do końca roku liczba ta może sięgnąć nawet 100. W związku z tym postanowiliśmy przygotować podstawową analizę dotyczącą oprogramowania, jakie jest wykorzystywane w Polsce do budowy bibliotek cyfrowych.

Jako podstawowe dane potraktowaliśmy zawartość wspomnianej Bazy Bibliotek Cyfrowych FBC (stan z dnia 22.08.2011 r.). Z tych danych przed rozpoczęciem analiz usunięta została Polska Biblioteka Internetowa (32 071 obiektów), powstała jako projekt ministerialny z dedykowanym finansowaniem, aktywny w latach 2002-2007. Biblioteka ta była utworzona w sposób zdecydowanie odmienny od innych bibliotek cyfrowych przyłączonych do FBC, a szanse na powtórzenie takiego projektu są obecnie bardzo nikłe. Dodatkowo przy analizie liczby obiektów cyfrowych nie uwzględniono danych z serwisów „Ziemiańska Biblioteka Cyfrowa” oraz „Teledetekcja Środowiska„, gdyż wykorzystywane w nich oprogramowanie nie pozwala obecnie na określenie łącznej liczby obiektów.

Poniższa tabela zawiera zestawienie wykorzystywanych systemów (w kolejności alfabetycznej) wraz z listą serwisów wykorzystujących poszczególne systemy (w kolejności odpowiadającej liczbie udostępnianych obiektów).

Nazwa systemu / Lista instalacji Liczba publikacji
dLibra 697 683
Wielkopolska Biblioteka Cyfrowa 138 668
e-biblioteka Uniwersytetu Warszawskiego 78 000
Jagiellońska Biblioteka Cyfrowa 63 747
Małopolska Biblioteka Cyfrowa 59 745
Kujawsko-Pomorska Biblioteka Cyfrowa 44 743
Cyfrowa Biblioteka Narodowa 31 008
Biblioteka Cyfrowa Uniwersytetu Wrocławskiego 27 573
Śląska Biblioteka Cyfrowa 27 148
Elbląska Biblioteka Cyfrowa 25 567
Zachodniopomorska Biblioteka Cyfrowa 21 098
Biblioteka Multimedialna Teatrnn.pl 20 079
Biblioteka Cyfrowa – Regionalia Ziemi Łódzkiej 17 972
Bałtycka Biblioteka Cyfrowa 12 884
Pomorska Biblioteka Cyfrowa 12 446
Podlaska Biblioteka Cyfrowa 12 289
Świętokrzyska Biblioteka Cyfrowa 11 835
Zielonogórska Biblioteka Cyfrowa 8 905
Dolnośląska Biblioteka Cyfrowa 8 583
Wejherowska Biblioteka Cyfrowa 6 041
Radomska Biblioteka Cyfrowa 5 594
Cyfrowy Dolny Śląsk 5 209
Podkarpacka Biblioteka Cyfrowa 5 158
Chełmska Biblioteka Cyfrowa 4 859
Biblioteka Cyfrowa Polskiego Instytutu Antropologii 4 538
Biblioteka Cyfrowa Ośrodka KARTA 3 816
Biblioteka Cyfrowa UMCS 3 229
Biblioteka Cyfrowa Politechniki Łódzkiej 2 867
Mazowiecka Biblioteka Cyfrowa 2 754
Internetowa Biblioteka Wzornictwa 2 554
Biblioteka Cyfrowa Politechniki Warszawskiej 2 420
Pedagogiczna Biblioteka Cyfrowa 2 094
Krośnieńska Biblioteka Cyfrowa 1 970
Iławska Biblioteka Cyfrowa 1 952
Bialska Biblioteka Cyfrowa 1 867
Biblioteka Cyfrowa Uniwersytetu Łódzkiego 1 679
Nowohucka Biblioteka Cyfrowa 1 674
Gdańska Biblioteka Cyfrowa 1 662
Opolska Biblioteka Cyfrowa 1 623
Morska Biblioteka Cyfrowa 1 481
Cyfrowe archiwum KK NSZZ Solidarność 1 357
Cyfrowa Ziemia Sieradzka 1 249
Biblioteka Cyfrowa Politechniki Śląskiej 1 165
Księgozbiór Wirtualny Federacji Bibliotek Kościelnych FIDES 1 033
Biblioteka Cyfrowa Instytutu Łączności 847
Sanocka Biblioteka Cyfrowa 736
Rolnicza Biblioteka Cyfrowa 640
Biblioteka Cyfrowa Politechniki Lubelskiej 506
Tarnowska Biblioteka Cyfrowa 447
Repozytorium Cyfrowe Poloników 407
Bibliologiczna Biblioteka Cyfrowa 337
Czytelnia Wirtualna Katolickiego Uniwersytetu Lubelskiego Jana Pawła II 253
Biblioteka Cyfrowa Uniwersytetu Warmińsko-Mazurskiego 236
Publiczne Archiwum Cyfrowe Agnieszki Osieckiej 231
Biblioteka Cyfrowa Fundacji Ormiańskiej KZKO 214
Biblioteka Cyfrowa ORE 193
Repozytorium Cyfrowe Instytutów Naukowych 183
Cyfrowa Biblioteka Diecezjalna w Sandomierzu 122
Armarium. dominikańska biblioteka cyfrowa 88
Kolbuszowska Biblioteka Cyfrowa 74
Biblioteka Cyfrowa Politechniki Koszalińskiej 30
Biblioteka Cyfrowa Zachodniopomorskiego Centrum Doskonalenia Nauczycieli 4
dMuseion 1 227
Cyfrowe Muzeum Narodowe w Warszawie 1 227
DSpace 1 535
Repozytorium Uniwersytetu im. Adama Mickiewicza 884
Repozytorium Politechniki Łódzkiej CYRENA 647
Biblioteka Cyfrowa Książnicy Stargardzkiej 4
EPrints 1 946
Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII Wieku 1 403
Dziennik Ustaw RP na Uchodźstwie 298
Computer Science Journal 95
Repozytorium Instytutu Biochemii i Biofizyki Polskiej Akademii Nauk 80
Biblioteka Cyfrowa Katedry Lingwistyki Formalnej Uniwersytetu Warszawskiego 70
Greenstone 24
Baza Rozpraw Doktorskich Uniwersytetu Przyrodniczo-Humanistycznego w Siedlcach 24
Oprogramowanie własne 6 119
Wirtualne Archiwum Polskich Ormian 2 793
Biblioteka Cyfrowa Politechniki Krakowskiej 2 693
Czytelnia kwartalnika „Bezpieczeństwo i Technika Pożarnicza” 248
Biblioteka Cyfrowa Małopolskiego Towarzystwa Genealogicznego 180
ICM – DIR – Zasoby Polskie 121
Otwórz książkę 84
Ziemiańska Biblioteka Cyfrowa  ?
Teledetekcja Środowiska  ?
VTLS Virtua 9 282
Akademicka Biblioteka Cyfrowa KRAKÓW 9 282
WordPress 9
Biblioteka Humanistyczna 9
Razem: 717 825

Kolejna tabela zawiera zestawienie liczby publicznie dostępnych wdrożeń poszczególnych systemów do budowy bibliotek cyfrowych oraz łącznej liczby publikacji w bibliotekach opartych na tych systemach.

Nazwa systemu Liczba instalacji Udział % wg liczby instalacji Łączna liczba publikacji Udział % wg łącznej liczby publikacji
dLibra 61 75,31%            697 683 97,19%
Oprogramowanie własne 8 9,88%                6 119 0,85%
EPrints 5 6,17%                1 946 0,27%
DSpace 3 3,70%                1 535 0,21%
WordPress 1 1,23%                      10 0,00%
VTLS Virtua 1 1,23%                9 282 1,29%
Greenstone 1 1,23%                      24 0,00%
dMuseion 1 1,23%                1 227 0,17%
Razem: 81              717 826  

Ostatnie zestawienie pokazuje, jak obecnie kształtuje się rozmiar bibliotek cyfrowych opartych na poszczególnych systemach:

Nazwa systemu Liczba instalacji Rozmiar najmniejszej instalacji Średni rozmiar instalacji Rozmiar największej instalacji
dLibra 61              4              11 437      138 668
Oprogramowanie własne 8            84                1 020           2 793
EPrints 5            70                    389           1 403
DSpace 3              4                    512              884
— Poniżej znajdują się systemy z pojedynczym wdrożeniem —
VTLS Virtua 1 9 282
dMuseion 1 1 227
Greenstone 1 24
WordPress 1 10

Mamy nadzieję, że to zestawienie będzie przydatne dla osób, które rozważają wybór oprogramowania dla własnej biblioteki cyfrowej.

Domena publiczna i licencje Creative Commons w polskich bibliotekach cyfrowych (część 2)

W opublikowanym niedawno na tej stronie wpisie pt.: „Domena publiczna i licencje Creative Commons w polskich bibliotekach cyfrowych” przedstawiliśmy statystyki obrazujące udział obiektów z domeny publicznej w zbiorach polskich bibliotek cyfrowych oraz wykorzystanie licencji Creative Commons w tychże bibliotekach. Podstawowe statystyki z próbki około pół miliona obiektów wyglądały następująco:

  • Domena publiczna (dalej: PD) – 10,37%
  • Licencje CC (dalej: CC)- 0,1%
  • Prawa zastrzeżone, dostęp nieograniczony (dalej: RR-F) – 88,87%
  • Prawa zastrzeżone, dostęp ograniczony (dalej: RR-R)- 0,66%

Po szczegółowe informacje i szerszy kontekst dla interpretacji tych danych odsyłamy do wspomnianego już poprzedniego wpisu. Bardzo istotne jest to, iż powyższe statystyki nie koniecznie muszą odzwierciedlać faktyczny stan prawny obiektów. Zostały one przygotowane na podstawie informacji licencyjnych, jakimi opatrują poszczególne obiekty udostępniające je instytucje. Bardzo często brak jest podanych wprost informacji licencyjnych, a zamiast tego w polu „Prawa” opisu widnieje nazwa instytucji, która dany obiekt udostępniła on-line. Z punktu widzenia użytkownika końcowego trudno interpretować tego typu informację inaczej, niż jako stwierdzenie że dana instytucja posiada prawa do udostępnianego w sieci obiektu. Stąd też obiekty bez określonych wprost zasad licencjonowania zostały skategoryzowane jako obiekty, do których prawa są zastrzeżone. Dodatkowo część z tych obiektów udostępniana jest w sposób ograniczony (np. dostęp wyłącznie na terenie biblioteki).

W ramach dalszej analizy tych danych postanowiliśmy zestawić dane odnośnie licencji z danymi o dacie utworzenia/wydania udostępnianego obiektu. W przypadku obiektów digitalizowanych braliśmy pod uwagę datę utworzenia/wydania oryginalnego obiektu, a nie datę digitalizacji. Jest to uzasadnione zapisami Statutu Domeny Publicznej Europeany:

„Digitalizacja domeny publicznej nie oznacza tworzenia praw autorskich: prace, które w wersji analogowej znajdują się w domenie publicznej, nadal do niej należą po stworzeniu ich wersji cyfrowej.”

Ze względu na brak ogólnie przyjętego w polskich bibliotekach cyfrowych jednego sposobu zapisu dat, w celu przygotowania wspomnianego powyżej zestawienia musieliśmy opracować narzędzie, które pozwoliło na ujednolicenie dat i ich zestawienie z grupami licencji. W wyniku działania tego narzędzia udało się poprawnie przetworzyć daty utworzenia opisujące 96% obiektów ze wspomnianej próbki pół miliona obiektów. Zestawienie w formie graficznej wygląda następująco (kliknięcie na wykres spowoduje powiększenie go):

Dokładne dane zawiera poniższa tabela:

 Zakres lat Obiekty wg typu licencji  Łączna
 liczba obiektów 
 % próbki 
 RR-F   RR-R   PD   CC 
1001 – 1050 8 0 0 0 8 0,0017%
1051 – 1100 0 0 0 0 0 0,0000%
1101 – 1150 0 0 0 0 0 0,0000%
1151 – 1200 2 0 0 0 2 0,0004%
1201 – 1250 4 0 0 0 4 0,0008%
1251 – 1300 17 0 14 0 31 0,0065%
1301 – 1350 22 0 25 0 47 0,0098%
1351 – 1400 93 0 4 0 97 0,0203%
1401 – 1450 93 0 10 0 103 0,0216%
1451 – 1500 431 0 12 0 443 0,0928%
1501 – 1550 812 0 7 0 819 0,1716%
1551 – 1600 1 572 0 9 0 1581 0,3312%
1601 – 1650 1 467 0 25 0 1492 0,3125%
1651 – 1700 1 690 0 33 0 1723 0,3609%
1701 – 1750 2 948 0 59 0 3007 0,6299%
1751 – 1800 5 137 0 219 0 5356 1,1219%
1801 – 1850 37 951 0 6 567 0 44518 9,3254%
1851 – 1900 97 560 6 19 499 0 117065 24,5221%
1901 – 1939 177 237 453 22 326 3 200019 41,8988%
1940 – 1945 7 194 8 1 918 196 9316 1,9515%
1946 – 1989 45 877 1 926 185 44 48032 10,0615%
1989 – 2011 42 391 922 175 235 43723 9,1588%

W czasie zorganizowanego w czerwcu 2010 roku przez Bibliotekę Narodową i EBIB Seminarium prawnego dla bibliotekarzy cyfrowych pan Tomasz Ganicz w swoim wystąpieniu „Domena Publiczna w praktyce projektów Wikimedia” przedstawił zarys tzw. polskiego kalkulatora domeny publicznej, czyli algorytmu czy też zestawu kroków pozwalającego na określenie statusu prawnego dzieła. W kalkulatorze tym kluczowy jest rok 1939. Jeżeli dzieło zostało przed końcem tego roku upublicznione, to jest szansa iż znajduje się ono w domenie publicznej (por. slajd 20 i dalsze w prezentacji).

Dane z powyższej tabeli, po wyróżnieniu tylko dwóch przedziałów czasowych – do 1939 i po 1939 – przedstawiają się następująco:

 Zakres lat Obiekty wg typu licencji  Łączna
 liczba obiektów 
 % próbki 
 RR-F   RR-R   PD   CC 
1001 – 1939 327 044 459 48 809 3 376 315 78,8282%
1940 – 2011 95 462 2 856 2 278 475 101 071 21,1718%

Wspomniany kalkulator, poza rokiem 1939 jako graniczną datą upublicznienia dzieła, podaje jeszcze dwa inne warunki na mocy których dzieło może zostać uznane jako należące do domeny publicznej:

  • dla dzieł których autor jest nieznany, jest to 140 lat od upublicznienia dzieła,
  • dla dzieł których autor jest znany i nie przekazał on praw majątkowych za życia, jest to rok 1939 jako data śmierci autora.

Z pewnym przybliżeniem, można w takim razie przyjąć, że dzieła powstałe/upublicznione przed 1850 rokiem z bardzo dużym prawdopodobieństwem należą do domeny publicznej. W związku z tym powyższe statystyki można podzielić w następujący sposób:

 Zakres lat Obiekty wg typu licencji  Łączna
 liczba obiektów 
 % próbki 
 RR-F   RR-R   PD   CC 
1001 – 1850 52 247 0 6 984 0 59 231 12,4074%
1851 – 1939 274 797 459 41 825 3 317 084 66,4209%
1940 – 2011 95 462 2 856 2 278 475 101 071 21,1718%

Pierwszy wiersz (lata 1001 – 1850) to obiekty, które właściwie powinny być oznaczone jako dzieła znajdujące się w domenie publicznej. Drugi wiersz (lata 1851-1939) to obiekty, które z dużym prawdopodobieństwem do domeny publicznej należą – jednak występowanie publikacji w grupach licencji CC czy RR-R, pokazuje, że 100% pewności tutaj nie ma (najstarszy obiekt z grupy RR-R to rok 1887, najstarszy obiekt z grupy CC to rok 1926). Trzeci wiersz (lata 1940-2011) to obiekty, które najprawdopodobniej nadal objęte są prawami autorskimi.

Publikując to zestawienie mamy nadzieje, iż skłoni ono twórców polskich bibliotek cyfrowych do zastanowienia się nad sposobami wyrażania w metadanych statusu prawnego dzieł publikowanych on-line. Choć oczywiście zdajemy sobie równocześnie sprawę z tego, że w wielu przypadkach jasne określenie tego statusu jest trudne.