Tag Archives: FBC

Public release of (part of) Clepsydra framework

We’re happy to announce the public release of part of Clepsydra, data aggregation and enrichment framework. It is released under the Apache Licence, Version 2.0.

Clepsydra is a flexible and scalable system for aggregation, processing and provisioning of data from heterogeneous sources. It was designed and developed to be a basis for services focused on aggregation and enrichment of data, e.g. metadata describing on-line collections of cultural heritage objects from Polish memory institutions. The first production deployment of this system is the PIONIER Network Digital Libraries Federation. Clepsydra is developed as a part of PSNC activities in the SYNAT project.

This first release of Clepsydra contains one component, Clepsydra Storage, which main aim is to serve as a flexible and scalable service allowing storing and accessing large amounts of heterogeneous data.

Installation instruction, documentation and source code for Clepsydra Storage module can be found here.

“Digitization in cultural and local administration institutions”

At the end of April in Wrocław a workshop titled “Digitization in cultural and local administration institutions” was organized by Digitalizacja.pl and Wrocław Institute for Professional Activity. As a part of this workshop Tomasz Parkoła and Adam Dudczak from PSNC were also speaking.  They presented the set of software dLibra/dMuseion/dArceo/dLab supporting institutions in digitization and on-line publishing of collections and e-learning courses on digitization and building digital libraries designed for employees of small cultural heritage institutions, available in the Digital Libraries Federation portal.

900 000 objects in the database of Polish Digital Libraries Federation!

On the 28 February number of objects available via Polish Digital Libraries Federation reached 900 000. Publication which was entered to the Federation database on position 900 000 comes from the Ossoliński National Institute, was made available via the Dolnośląska Digital Library, and is titled “Legiony Polskie. Kartoteka legionistów internowanych w 1918 r. na Węgrzech i w Polsce. Pudło 3: Lit. F-I”.

DLF on the highway of digital information

Distributed Catalogue of Polish Libraries (KaRo), allowing to search the contents of library catalogues from several tenths of Polish libraries (including National Union Catalogue and the National Library) is available in the new version – KaRo 3. Cooperation between the KaRo author and the PSNC Digital Libraries Team allowed to include in KaRo for the first time also results from the Polish Digital Libraries Federation. From now on KaRo users will be able to find out with one query if particular publication is available on-line in one of DLF digital libraries and if it is included in the catalogue of one of the libraries. Sample search results are on the screenshot below.

Integration between KaRo and FBC was made with the use of OpenSearch protocol. detailed information on DLF OpenSearch API can be found here. New version of KaRo was developed as a part of NUKAT – AUTOSTRADA INFORMACJI CYFROWEJ (NUKAT – HIGHWAY OF DIGITAL INFORMATION) project .

December 1980 in resources of Polish Digital Libraries Federation

If you are interested, how life in Poland looked like shortly before the beginning of the martial law, you can check the resources of Polish digital libraries. For example among materials from December 1980 you can find:

Polish Digital Libraries Conference – Last days for registration

The registration for the 2011 Polish Digital Libraries Conference will be open for only two more weeks. Current edition of the conference will be held in Kórnik Library of the Polish Academy of Sciences between 10th and 13th of October. The conference will be accompanied by two parallel tutorials, a workshop and the demonstration day of the IMPACT project.

Detailed program of the conference (in Polish) is available at: http://www.man.poznan.pl/PBC/2011-program-konferencji/

Which digital library software systems are used in Poland?

Number of digital libraries registered in the DLF Digtial Libraries Database reached recently 80, and if the dynamics of growth will be as good as it is, then by the end of the year this number may even reach 100. Beacuse of this we have decided to prepare a basic analysis showing, which software is presently used in Poland as a basis for digital libraries.

As a base data we took the conents of the mentioned Digital Libraries Database of the Polish Digital Libraries Federation (data snapshot taken on 2011/08/22). From this data before the analysis we have removed Polish Internet Library (32 071 objects), whis was created as a ministerial project with dedicated financing and was active from 2002 to 2007. This digital library was created in a way significantly different that any other library connected to the Federation, nad chances for repeating such project nowadays are really low. Additionallu in the analysis we were not able to include the information about the number of objects from “Ziemiańska Biblioteka Cyfrowa” and “Teledetekcja Środowiska“, because the software they use is not providing such information.

The table below contains the list of used digital library systems (in alphabetical order) together with the list of their deployments (in order respective to the number of available objects).

Name of the system / List o deployments Number of publications
dLibra 697 683
Wielkopolska Biblioteka Cyfrowa 138 668
e-biblioteka Uniwersytetu Warszawskiego 78 000
Jagiellońska Biblioteka Cyfrowa 63 747
Małopolska Biblioteka Cyfrowa 59 745
Kujawsko-Pomorska Biblioteka Cyfrowa 44 743
Cyfrowa Biblioteka Narodowa 31 008
Biblioteka Cyfrowa Uniwersytetu Wrocławskiego 27 573
Śląska Biblioteka Cyfrowa 27 148
Elbląska Biblioteka Cyfrowa 25 567
Zachodniopomorska Biblioteka Cyfrowa 21 098
Biblioteka Multimedialna Teatrnn.pl 20 079
Biblioteka Cyfrowa – Regionalia Ziemi Łódzkiej 17 972
Bałtycka Biblioteka Cyfrowa 12 884
Pomorska Biblioteka Cyfrowa 12 446
Podlaska Biblioteka Cyfrowa 12 289
Świętokrzyska Biblioteka Cyfrowa 11 835
Zielonogórska Biblioteka Cyfrowa 8 905
Dolnośląska Biblioteka Cyfrowa 8 583
Wejherowska Biblioteka Cyfrowa 6 041
Radomska Biblioteka Cyfrowa 5 594
Cyfrowy Dolny Śląsk 5 209
Podkarpacka Biblioteka Cyfrowa 5 158
Chełmska Biblioteka Cyfrowa 4 859
Biblioteka Cyfrowa Polskiego Instytutu Antropologii 4 538
Biblioteka Cyfrowa Ośrodka KARTA 3 816
Biblioteka Cyfrowa UMCS 3 229
Biblioteka Cyfrowa Politechniki Łódzkiej 2 867
Mazowiecka Biblioteka Cyfrowa 2 754
Internetowa Biblioteka Wzornictwa 2 554
Biblioteka Cyfrowa Politechniki Warszawskiej 2 420
Pedagogiczna Biblioteka Cyfrowa 2 094
Krośnieńska Biblioteka Cyfrowa 1 970
Iławska Biblioteka Cyfrowa 1 952
Bialska Biblioteka Cyfrowa 1 867
Biblioteka Cyfrowa Uniwersytetu Łódzkiego 1 679
Nowohucka Biblioteka Cyfrowa 1 674
Gdańska Biblioteka Cyfrowa 1 662
Opolska Biblioteka Cyfrowa 1 623
Morska Biblioteka Cyfrowa 1 481
Cyfrowe archiwum KK NSZZ Solidarność 1 357
Cyfrowa Ziemia Sieradzka 1 249
Biblioteka Cyfrowa Politechniki Śląskiej 1 165
Księgozbiór Wirtualny Federacji Bibliotek Kościelnych FIDES 1 033
Biblioteka Cyfrowa Instytutu Łączności 847
Sanocka Biblioteka Cyfrowa 736
Rolnicza Biblioteka Cyfrowa 640
Biblioteka Cyfrowa Politechniki Lubelskiej 506
Tarnowska Biblioteka Cyfrowa 447
Repozytorium Cyfrowe Poloników 407
Bibliologiczna Biblioteka Cyfrowa 337
Czytelnia Wirtualna Katolickiego Uniwersytetu Lubelskiego Jana Pawła II 253
Biblioteka Cyfrowa Uniwersytetu Warmińsko-Mazurskiego 236
Publiczne Archiwum Cyfrowe Agnieszki Osieckiej 231
Biblioteka Cyfrowa Fundacji Ormiańskiej KZKO 214
Biblioteka Cyfrowa ORE 193
Repozytorium Cyfrowe Instytutów Naukowych 183
Cyfrowa Biblioteka Diecezjalna w Sandomierzu 122
Armarium. dominikańska biblioteka cyfrowa 88
Kolbuszowska Biblioteka Cyfrowa 74
Biblioteka Cyfrowa Politechniki Koszalińskiej 30
Biblioteka Cyfrowa Zachodniopomorskiego Centrum Doskonalenia Nauczycieli 4
dMuseion 1 227
Cyfrowe Muzeum Narodowe w Warszawie 1 227
DSpace 1 535
Repozytorium Uniwersytetu im. Adama Mickiewicza 884
Repozytorium Politechniki Łódzkiej CYRENA 647
Biblioteka Cyfrowa Książnicy Stargardzkiej 4
EPrints 1 946
Cyfrowa Biblioteka Druków Ulotnych Polskich i Polski Dotyczących z XVI, XVII i XVIII Wieku 1 403
Dziennik Ustaw RP na Uchodźstwie 298
Computer Science Journal 95
Repozytorium Instytutu Biochemii i Biofizyki Polskiej Akademii Nauk 80
Biblioteka Cyfrowa Katedry Lingwistyki Formalnej Uniwersytetu Warszawskiego 70
Greenstone 24
Baza Rozpraw Doktorskich Uniwersytetu Przyrodniczo-Humanistycznego w Siedlcach 24
Custom software 6 119
Wirtualne Archiwum Polskich Ormian 2 793
Biblioteka Cyfrowa Politechniki Krakowskiej 2 693
Czytelnia kwartalnika “Bezpieczeństwo i Technika Pożarnicza” 248
Biblioteka Cyfrowa Małopolskiego Towarzystwa Genealogicznego 180
ICM – DIR – Zasoby Polskie 121
Otwórz książkę 84
Ziemiańska Biblioteka Cyfrowa  ?
Teledetekcja Środowiska  ?
VTLS Virtua 9 282
Akademicka Biblioteka Cyfrowa KRAKÓW 9 282
WordPress 9
Biblioteka Humanistyczna 9
Total: 717 825

Next table contains information about publicly available deployments of particular digital library software systems and about the total number of publications in digital libraries based on these systems.

Name of the system Number of deployments % share in the number of deployments Total number of publications % share in the total number of publications
dLibra 61 75,31%            697 683 97,19%
Custom software 8 9,88%                6 119 0,85%
EPrints 5 6,17%                1 946 0,27%
DSpace 3 3,70%                1 535 0,21%
WordPress 1 1,23%                      10 0,00%
VTLS Virtua 1 1,23%                9 282 1,29%
Greenstone 1 1,23%                      24 0,00%
dMuseion 1 1,23%                1 227 0,17%
Total: 81              717 826  

The last table shows, how at the moment looks the size of digital libraries based on particular systems:

Name of the system Number of deployments Size of the smallest deployment Average size of deployment Size of the largest deployment
dLibra 61              4              11 437      138 668
Custom software 8            84                1 020           2 793
EPrints 5            70                    389           1 403
DSpace 3              4                    512              884
— Below systems with just one deployment are listed —
VTLS Virtua 1 9 282
dMuseion 1 1 227
Greenstone 1 24
WordPress 1 10

We hope that persons looking for suitable digital library software will find this analysis useful.

Public domain and Creative Commons licenses in Polish digital libraries (part 2)

W opublikowanym niedawno na tej stronie wpisie pt.: “Domena publiczna i licencje Creative Commons w polskich bibliotekach cyfrowych” przedstawiliśmy statystyki obrazujące udział obiektów z domeny publicznej w zbiorach polskich bibliotek cyfrowych oraz wykorzystanie licencji Creative Commons w tychże bibliotekach. Podstawowe statystyki z próbki około pół miliona obiektów wyglądały następująco:

  • Domena publiczna (dalej: PD) – 10,37%
  • Licencje CC (dalej: CC)- 0,1%
  • Prawa zastrzeżone, dostęp nieograniczony (dalej: RR-F) – 88,87%
  • Prawa zastrzeżone, dostęp ograniczony (dalej: RR-R)- 0,66%

Po szczegółowe informacje i szerszy kontekst dla interpretacji tych danych odsyłamy do wspomnianego już poprzedniego wpisu. Bardzo istotne jest to, iż powyższe statystyki nie koniecznie muszą odzwierciedlać faktyczny stan prawny obiektów. Zostały one przygotowane na podstawie informacji licencyjnych, jakimi opatrują poszczególne obiekty udostępniające je instytucje. Bardzo często brak jest podanych wprost informacji licencyjnych, a zamiast tego w polu “Prawa” opisu widnieje nazwa instytucji, która dany obiekt udostępniła on-line. Z punktu widzenia użytkownika końcowego trudno interpretować tego typu informację inaczej, niż jako stwierdzenie że dana instytucja posiada prawa do udostępnianego w sieci obiektu. Stąd też obiekty bez określonych wprost zasad licencjonowania zostały skategoryzowane jako obiekty, do których prawa są zastrzeżone. Dodatkowo część z tych obiektów udostępniana jest w sposób ograniczony (np. dostęp wyłącznie na terenie biblioteki).

W ramach dalszej analizy tych danych postanowiliśmy zestawić dane odnośnie licencji z danymi o dacie utworzenia/wydania udostępnianego obiektu. W przypadku obiektów digitalizowanych braliśmy pod uwagę datę utworzenia/wydania oryginalnego obiektu, a nie datę digitalizacji. Jest to uzasadnione zapisami Statutu Domeny Publicznej Europeany:

“Digitalizacja domeny publicznej nie oznacza tworzenia praw autorskich: prace, które w wersji analogowej znajdują się w domenie publicznej, nadal do niej należą po stworzeniu ich wersji cyfrowej.”

Ze względu na brak ogólnie przyjętego w polskich bibliotekach cyfrowych jednego sposobu zapisu dat, w celu przygotowania wspomnianego powyżej zestawienia musieliśmy opracować narzędzie, które pozwoliło na ujednolicenie dat i ich zestawienie z grupami licencji. W wyniku działania tego narzędzia udało się poprawnie przetworzyć daty utworzenia opisujące 96% obiektów ze wspomnianej próbki pół miliona obiektów. Zestawienie w formie graficznej wygląda następująco (kliknięcie na wykres spowoduje powiększenie go):

Dokładne dane zawiera poniższa tabela:

 Zakres lat Obiekty wg typu licencji  Łączna
 liczba obiektów 
 % próbki 
 RR-F   RR-R   PD   CC 
1001 – 1050 8 0 0 0 8 0,0017%
1051 – 1100 0 0 0 0 0 0,0000%
1101 – 1150 0 0 0 0 0 0,0000%
1151 – 1200 2 0 0 0 2 0,0004%
1201 – 1250 4 0 0 0 4 0,0008%
1251 – 1300 17 0 14 0 31 0,0065%
1301 – 1350 22 0 25 0 47 0,0098%
1351 – 1400 93 0 4 0 97 0,0203%
1401 – 1450 93 0 10 0 103 0,0216%
1451 – 1500 431 0 12 0 443 0,0928%
1501 – 1550 812 0 7 0 819 0,1716%
1551 – 1600 1 572 0 9 0 1581 0,3312%
1601 – 1650 1 467 0 25 0 1492 0,3125%
1651 – 1700 1 690 0 33 0 1723 0,3609%
1701 – 1750 2 948 0 59 0 3007 0,6299%
1751 – 1800 5 137 0 219 0 5356 1,1219%
1801 – 1850 37 951 0 6 567 0 44518 9,3254%
1851 – 1900 97 560 6 19 499 0 117065 24,5221%
1901 – 1939 177 237 453 22 326 3 200019 41,8988%
1940 – 1945 7 194 8 1 918 196 9316 1,9515%
1946 – 1989 45 877 1 926 185 44 48032 10,0615%
1989 – 2011 42 391 922 175 235 43723 9,1588%

W czasie zorganizowanego w czerwcu 2010 roku przez Bibliotekę Narodową i EBIB Seminarium prawnego dla bibliotekarzy cyfrowych pan Tomasz Ganicz w swoim wystąpieniu “Domena Publiczna w praktyce projektów Wikimedia” przedstawił zarys tzw. polskiego kalkulatora domeny publicznej, czyli algorytmu czy też zestawu kroków pozwalającego na określenie statusu prawnego dzieła. W kalkulatorze tym kluczowy jest rok 1939. Jeżeli dzieło zostało przed końcem tego roku upublicznione, to jest szansa iż znajduje się ono w domenie publicznej (por. slajd 20 i dalsze w prezentacji).

Dane z powyższej tabeli, po wyróżnieniu tylko dwóch przedziałów czasowych – do 1939 i po 1939 – przedstawiają się następująco:

 Zakres lat Obiekty wg typu licencji  Łączna
 liczba obiektów 
 % próbki 
 RR-F   RR-R   PD   CC 
1001 – 1939 327 044 459 48 809 3 376 315 78,8282%
1940 – 2011 95 462 2 856 2 278 475 101 071 21,1718%

Wspomniany kalkulator, poza rokiem 1939 jako graniczną datą upublicznienia dzieła, podaje jeszcze dwa inne warunki na mocy których dzieło może zostać uznane jako należące do domeny publicznej:

  • dla dzieł których autor jest nieznany, jest to 140 lat od upublicznienia dzieła,
  • dla dzieł których autor jest znany i nie przekazał on praw majątkowych za życia, jest to rok 1939 jako data śmierci autora.

Z pewnym przybliżeniem, można w takim razie przyjąć, że dzieła powstałe/upublicznione przed 1850 rokiem z bardzo dużym prawdopodobieństwem należą do domeny publicznej. W związku z tym powyższe statystyki można podzielić w następujący sposób:

 Zakres lat Obiekty wg typu licencji  Łączna
 liczba obiektów 
 % próbki 
 RR-F   RR-R   PD   CC 
1001 – 1850 52 247 0 6 984 0 59 231 12,4074%
1851 – 1939 274 797 459 41 825 3 317 084 66,4209%
1940 – 2011 95 462 2 856 2 278 475 101 071 21,1718%

Pierwszy wiersz (lata 1001 – 1850) to obiekty, które właściwie powinny być oznaczone jako dzieła znajdujące się w domenie publicznej. Drugi wiersz (lata 1851-1939) to obiekty, które z dużym prawdopodobieństwem do domeny publicznej należą – jednak występowanie publikacji w grupach licencji CC czy RR-R, pokazuje, że 100% pewności tutaj nie ma (najstarszy obiekt z grupy RR-R to rok 1887, najstarszy obiekt z grupy CC to rok 1926). Trzeci wiersz (lata 1940-2011) to obiekty, które najprawdopodobniej nadal objęte są prawami autorskimi.

Publikując to zestawienie mamy nadzieje, iż skłoni ono twórców polskich bibliotek cyfrowych do zastanowienia się nad sposobami wyrażania w metadanych statusu prawnego dzieł publikowanych on-line. Choć oczywiście zdajemy sobie równocześnie sprawę z tego, że w wielu przypadkach jasne określenie tego statusu jest trudne.