Wszystkie wpisy, których autorem jest Marcin Heliński

40 lat Projektu Gutenberg

40 lat temu Michael Hart zapoczątkował Projekt Gutenberg. Jest to dobry moment, żeby zwrócić uwagę na fakt, iż digitalizacja książek nie zaczęła się w ostatnich kilkunastu latach a znacznie wcześniej. Hart poinformował na swojej stronie, iż całkowita liczba tytułów w Projekcie Gutenberg przekroczyła w sierpniu b.r. 37 500, a do momentu świętowania 40-lecia istnienia projektu przekroczy 40 000. Średnia 1 000 książek na rok w ciągu 40 lat nie jest być może zbyt imponująca, jednak autor projektu zapewnia, że w tym roku powinna się zbliżyć do 5000. Obecnie ze strony projektu http://gutenberg.org dziennie ściągane jest około 100 tysięcy książek co daje 3 miliony miesięcznie, czyli 36 milionów rocznie.

Michael Hart zwraca też uwagę na postęp jaki dokonał się w pamięciach przenośnych, które w 2000 roku miały 1 000 razy mniejszą pojemność i były 3 razy droższe.  Przenośne „kieszonkowe napędy” mogą obecnie pomieścić nawet do 2,5 miliona książek w formacie .zip i mimo, iż ich rozmiar nie do końca jest „kieszonkowy”, to nie są cięższe niż pojedyncza książka.

Jeśli wrócimy do roku 2000 to okaże się, że Google jeszcze przez 5 lat nie ogłosi „wynalezienia” eBooków, a Projekt Gutenberg będzie potrzebował jeszcze 2 i 3/4 roku, aby pochwalić się liczbą 10 000 tytułów. Na kolejną dekadę, do 2020 roku, pozostaje wiec wiele do zrobienia. Autor sugeruje, że do tego czasu pobierane będą petabajty danych, a wszystkie książki możliwe do znalezienia w domenie publicznej będą występować w przynajmniej kilku formatach elektronicznych.

Na koniec jednak autor wyraża obawę, iż jest prawdopodobne, że znowu zmienią się reguły, które będą ograniczały strefę domeny publicznej i jednocześnie ochraniały prawa autorskie pogłębiając problem tzw. „cyfrowego podziału” („The Digital Divide”).

Pełny tekst autorstwa Michael’a Hart’a można znaleźć tutaj.

Powstała Jagiellońska Biblioteka Cyfrowa

19 lipca 2010 roku oficjalnie uruchomiona została Jagiellońska Biblioteka Cyfrowa oparta na oprogramowaniu dLibra. Biblioteka ta jest współ­fi­nan­so­wana przez Unię Euro­pej­ską ze środ­ków Europej­skie­go Fun­du­szu Roz­woju Regio­nal­nego w ramach Programu Opera­cyj­nego Infra­stru­ktura i Śro­do­wis­ko na lata 2007–2013, Priorytet 11. „Kultura i Dzie­dzic­two Kulturowe” Dzia­ła­nie 11.1. „Ochro­na i za­cho­wanie dzie­dzictwa kultu­rowego o zna­czeniu ponad­regio­nal­nym”.

Przeglądając pierwsze publikacje warto zwrócić uwagę na dwa odrębne sposoby prezentacji map. Pierwszy z nich wykorzystuje Zoomify, który był już wcześniej stosowany m.in. w Kujawsko-Pomorskiej Bibliotece Cyfrowej. Przykładem mapy w takiej postaci jest Mappa szczegulna [!] Woiewodztwa Płockiego i Ziemi Dobrzynskiey… Drugi sposób prezentacji map opiera się na mechanizmie The Google Maps Image Cutter rozwijanym przez Centre for Advanced Spatial Analysis – University College London. Przykładem może być Karta pocztowa Królestwa Polskiego przez K. Widulińskeigo Sekretarza Jeneral(nego) Poczt wydana na r. 1827.

Wyświetlanie mapy dowolną z tych dwóch metod nie wymaga instalowania dodatkowego oprogramowania. Zoomify oparte na technologii flash wydaje się być nieco wolniejsze niż rozwiązanie Google korzystające z JavaScript. Przy porównaniu zostały jednakże użyte dwie różne publikacje więc ocena ta nie do końca może być obiektywna. Poza tym funkcjonalność obu tych rozwiązań jest zbliżona. Zoomify w bardziej rozbudowanych wersjach jest płatne jednakże podstawowa wersja zapewnia dostateczną funkcjonalność, aby z powodzeniem prezentować mapy na stronach biblioteki cyfrowej. Google Maps Image Cutter jest całkowicie darmowy.

Zachęcamy biblioteki cyfrowe do korzystania z obu tych rozwiązań. Podniesie to atrakcyjność prezentowanych map czy szkiców.

Europeana publikuje raport White Paper #1

1 czerwca 2010 Europeana poinformowała o wydaniu raportu „White Paper 1 Knowledge = Information in Context: on the Importance of Semantic Contextualisation in Europeana”. Pierwszy raport Europeany zwraca uwagę na kluczową rolę powiązanych danych (ang. linked data). Będą one znacząco wpływać na rozwój Europeany jak również będą wspomagać obywateli Europy w tworzeniu powiązań pomiędzy istniejącą wiedzą w celu osiągnięcia postępu kulturalnego i naukowego.

Powiązane dane dają maszynom możliwość tworzenia relacji i umieszczania terminów wyszukiwawczych w kontekście. Bez tego Europeana byłaby widziana jako prosta kolekcja obiektów cyfrowych. Z powiązanymi danymi potencjał jest dużo większy, wyjaśnia autor raportu, profesor Stefan Gradmann.

Profesor Gradmann na przykładzie słowa „Paris” pokazał jak wyniki wyszukiwania mogą prowadzić do przedmiotów paryskiego Luwru, gdzie można również obejrzeć obrazy z portretem Parysa, greckiego księcia który uprowadził Helenę Trojańską. Stamtąd linki prowadzą do kolejnych tematów powiązanych z mitologicznym Jabłkiem Niezgody a to z kolei do zakazanego jabłka zjedzonego przez Adama i Ewę.

Przedstawiony przykład pokazuje jak powiązane dane pozwolą Europeanie proponować połączenia pomiędzy milionami obiektów. Te połączenia mogą być później wykorzystane do tworzenia nowych pomysłów i wiedzy na skalę jaka do tej pory nie była możliwa.

Pełny tekst raportu można znaleźć na stronach Europeany.

Europeana opublikowała statut domeny publicznej

W kwietniu b.r. Europeana opublikowała Statut Domeny Publicznej. Europeana jako europejska biblioteka, muzeum i archiwum cyfrowe jest własnością publiczną i musi reprezentować interesy publiczne. Stąd potrzeba wywołania dyskusji na ten temat. Statut jest deklaracją właściwych zasad funkcjonowania domeny publicznej zawierającej materiały, z których społeczeństwo może czerpać wiedzę oraz przeglądać informacje w zakresie dzieł sztuki. Statut zwraca uwagę na fakt, iż digitalizacja zasobów domeny publicznej nie jest równoznaczna z nadawaniem nowych praw autorskich. Zbiory, które występują w domenie publicznej w postaci analogowej są również jej częścią po utworzeniu ich cyfrowej wersji.

Pełny tekst statutu domeny publicznej można znaleźć na stronach Europeany pod adresem statut domeny publicznej

Europeana zachęca również do dyskusji na temat statutu i oczekuje na odzew pod adresem mailowym info@europeana.eu

Lucene w wersji 3.0.0 już dostępny

Niedawno wydana została wersja 3.0.0 biblioteki programistycznej Lucene. Lucene to otwarta biblioteka Javy używana w oprogramowaniu dLibra do indeksowania i wyszukiwania w tekście. Wersja 3.0.0 tej biblioteki jest pierwszą, dla której niezbędna będzie Java w wersji 5. API zostało zostało uporządkowane aby umożliwić wykorzystanie zalet Javy 5. W najnowszym Lucene znajdziemy wiele optymalizacji i nowych funkcji aczkolwiek nie jest on w pełni kompatybilny ze starszymi wersjami z powodu dużej ilości zmian. Najważniejsze z nich to  wprowadzenie do IndexWritera wyszukiwania prawie w czasie rzeczywistym,  nowe typy zapytań, odrębne wyszukiwanie i cache’owanie na każdy segment, ulepszona obsługa wieloznaczników, lepsza obsługa Unicode, wysokowydajna obsługa pól numerycznych i wiele innych. Szczegółowe informacje dotyczące zmian w bibliotece Lucene można znaleźć tutaj.

Planujemy wykorzystać Lucene 3.0.0 w jednej z przyszłych wersji oprogramowania dLibra. Pomoże nam to poprawić wydajność indeksowania i wyszukiwania.

Lucene 3.0.0 was released on 25 November 2009. Lucene is an open Java framework that is used for indexing and searching text in dLibra software. Lucene 3.0.0 is the first release with Java 5 as a minimum requirement. The API was cleaned up to make use of Java 5’s advantages. Unfortunately it is not fully compatible with earlier releases due to many optimizations and new features. The most important are near real-time search capabilities added to IndexWriter, new query types, per segment searching and caching, improvements in wildcard searching, improved Unicode support, high-performance handling of numeric fields and much more. Detailed information on changes in Lucene framework is available here.

We are planning to use Lucene 3.0.0 in one of the future versions of dLibra software. It will help us improve indexing and searching performance.