Archiwa tagu: digitalizacja

Spotkanie rozpoczynające projekt Succeed

Tydzień temu – 1 lutego 2013 roku odbyło się spotkanie inicjujące projektu Succeed. Celem tego dwuletniego projektu, współfinansowanego w ramach 7 Programu Ramowego przez UE, jest promowanie i zwiększenie wykorzystania zaawansowanych narzędzi w ramach procesu digitalizacji, realizowanego przez różne instytucje kultury (np. biblioteki, muzea, archiwa). Specjalizowane silniki OCR, dedykowane zasoby lingwistyczne, czy też usługi konwersji danych to niektóre z przykładów narzędzi usprawniających proces budowania szeroko rozumianych bibliotek cyfrowych. Te i inne narzędzia będą promowane w ramach różnego rodzaju wydarzeń takich jak konferencje, konkursy, czy warsztaty. Wybrane narzędzia zostaną wdrożone i przetestowane w ramach istniejących projektów digitalizacyjnych.

Koordynatorem projektu Succeed jest Uniwersytet w Alicante. Pozostali partnerzy projektu to:  Biblioteka Narodowa Holandii, Duński Instytut Leksykologii, Fraunhofer IAIS, Poznańskie Centrum Superkomputerowo-Sieciowe, Uniwersytet Salford, Fundacja Wirtualnej Biblioteki Miguel de Cervantes Saavedra, Francuska Biblioteka Narodowa oraz Biblioteka Brytyjska.

Poznańskie Centrum Superkomputerowo-Sieciowe odpowiedzialne jest w projekcie przede wszystkim za:

  • pomoc instytucjom kultury we wdrażaniu nowych narzędzi w ramach prowadzonych przez nie projektów digitalizacyjnych
  • koordynację pakietu roboczego dotyczącego przygotowania rekomendacji związanych z formatami, standardami i modelem licencjonowania odnoszącymi się do digitalizacji, w szczególności dokumentów tekstowych.

Projekt Europeana Newspapers – ankieta

Projekt Europeana Newspapers opublikował ankietę, której celem jest zebranie informacji na temat digitalizacji gazet w Europie. Ankieta jest dedykowana do instytucji, które nie uczestniczą w projekcie Europeana Newspapers. Jak opisano na stronie projektu Europeana Newspapers ankieta ma trzy zasadnicze cele:

  1. Zidentyfikować zakres digitalizacji gazet w Europie.
  2. Umieścić adekwatne metadane w katalogu periodyków Biblioteki Państwowej w Berlinie (http://www.zeitschriftendatenbank.de/) oraz w centralnym indeksie gazet, który jest tworzony przez TEL (The European Library, http://www.theeuropeanlibrary.org/).
  3. Pomóc w znalezieniu 10 nowych partnerów, którzy dołączą do projektu.

Ankieta dostępna jest tylko w języku angielskim pod adresem http://www.surveymonkey.com/s/BQ28579. Ostateczny termin jej wypełniania upływa 31 lipca 2012.

IMPACT: rezultaty projektu

 

Zapraszamy do uczestnictwa w spotkaniu na którym omówione zostaną rezultaty projektu IMPACT. Spotkanie odbędzie się 26 czerwca 2012 roku w Bibliotece Królewskiej Holandii w Hadze. W spotkaniu zaprezentowane zostaną zarówno wyniki projektu IMPACT, jak i rezultaty serii pilotów, które zostały przeprowadzone przez biblioteki na początku 2012 roku.

Projekt IMPACT (styczeń 2008 – czerwiec 2012) jest projektem europejskim, którego celem jest opracowanie innowacyjnych narzędzi lingwistycznych oraz OCR, które pozwolą ulepszyć proces digitalizacji i dostępność historycznych dokumentów drukowanych w Internecie. IMPACT jest koordynowany przez Bibliotekę Królewską Holandii, a w skład partnerów wchodzą najważniejsze instytucje europejskie, w tym biblioteki narodowe, uniwersytety, centra badawczo-rozwojowe oraz firmy komercyjne. W efekcie projektu IMPACT uruchomione zostąło Centrum Kompetencji IMPACT (www.digitisation.eu), które składa się z szeregu ekspertów w zakresie digitalizacji, chcących wspierać instytucje nauki i kultury w zakresie digitalizacji i pełnotekstowej dostępności dokumentów cyfrowych.

Na spotkaniu w czerwcu zaprezentowane zostaną następujące wyniki:

  • Silnik OCR ABBYY FineReader 10 (tzw. IMPACT FineReader)
  • Adaptacyjny silnik OCR firmy IBM wraz z narzędziem CONCERT do korekty wyników OCR
  • Leksykon lingwistyczny dla 9 języków europejskich oraz narzędzia do jego budowania
  • System do demonstracji oraz weryfikacji i oceny narzędzi i rezultatów digitalizacji
  • Zbiór danych opracowany w ramach projektu, w tym nieocenione zasoby pełnotekstowe dla ponad 50 000 stron
  • Narzędzie Functional Extension Parser analizujące układ stron książek
  • Narzędzie do korenty wyników OCR z wbudowaną możliwością profilowania
  • Nowatorskie podejścia do przetwarzania wstępnego dla OCR oraz potencjalne możliwości jego rozwoju
  • Centrum Kompetencji IMPACT w zakresie digitalizacji

Uczestnictwo w spotkaniu jest bezpłatne, natomiast prosimy o rejestrację na stronie: http://impactocr.eventbrite.com/. Program spotkania zostanie umieszczony w najbliższym czasie.

 

XVIII Seminarium z cyklu „Digitalizacja”

Dziś w Warszawie miało miejsce osiemnaste seminarium z cyklu „Digitalizacja” zorganizowane przez Centrum Promocji Informatyki, a prowadzone przez dra Henryka Hollendera. Program tej edycji seminarium składał się z ośmiu wystąpień podzielonych na trzy bloki tematyczne. W pierwszym z nich dr Edyta Kotyńska przedstawiła analizę funkcjonowania polskich bibliotek cyfrowych przeprowadzoną pod kątem procesów czy też zadań, które są realizowane w przypadku takiego przedsięwzięcia oraz ich ustandaryzowania i udokumentowania. Poza wprowadzeniem teoretycznym w wystąpieniu przedstawione zostały również wyniki ankiety, którą autorka przeprowadziła wśród instytucji tworzących polskie biblioteki cyfrowe.
Czytaj dalej XVIII Seminarium z cyklu „Digitalizacja”

Kurs e-learningowy w portalu FBC

Od czerwca br. w ramach portalu Federacji Bibliotek Cyfrowych stopniowo udostępniany jest bezpłatny kurs e-learningowy „Repozytoria cyfrowe dla małych instytucji kultury„.

Zawiera on informacje o tym, jak organizować i prowadzić cyfryzację różnego rodzaju dokumentów i ma na celu pomóc w stworzeniu wysokiej jakości bibliotek cyfrowych i umożliwić ich promocję poprzez udostępnienie informacji o dostępnych zasobach takim serwisom jak Europeana.

Kurs skierowany jest przede wszystkim (ale nie tylko) do pracowników małych instytucji kultury, takich jak biblioteki publiczne czy muzea regionalne. Może on być również źródłem wiedzy dla studentów kierunków takich jak bibliotekoznawstwo i informacja naukowa, z którymi to dziedzinami digitalizacja zasobów i tworzenie bibliotek cyfrowych są w sposób oczywisty związane. Uczestnicy kursu będą mieli okazję zapoznać się z szeregiem instrukcji omawiających krok po kroku sposób realizacji typowych zadań cyfrowego bibliotekarza, m.in.: tworzenie opisów dla zdigitalizowanych obiektów, przygotowanie cyfrowych treści do publikacji w sieci czy promocja obiektów w sieci.

Każdy z tematów zakończony jest testem, pozwalającym uczestnikom sprawdzić zdobytą wiedzę. Docelowo kurs będzie składał się z kilkudziesięciu modułów pogrupowanych w 9 tematach.

Do końca roku 2011 uczestnictwo w kursie nie jest objęte żadnymi ścisłymi ramami czasowymi. Uczestnicy mogą wybrać dowolny z udostępnionych dotychczas tematów, zapoznać się z materiałem i przystąpić do testu weryfikującego zdobytą wiedzę. Od roku 2012 planowane jest organizowanie regularnych cykli szkoleniowych.

Informacje na temat tego, w jaki sposób się zapisać na kurs, można znaleźć w serwisie Federacji Bibliotek Cyfrowych pod adresem: http://fbc.pionier.net.pl/elearning/.

„NUKAT – autostrada informacji cyfrowej” – pierwsze efekty dla czytelników

Pod koniec października 2010 e-bUW udostępnił pierwszy tytuł poddany digitalizacji w ramach projektu „NUKAT – autostrada informacji cyfrowej”. Jak podaje e-bUW jest to „Nowy Pamiętnik Warszawski : [dziennik historyczny, polityczny, tudzież nauk i umiejętności]”, czasopismo założone w pruskiej Warszawie przez Franciszka Ksawerego Dmochowskiego, człowieka wcześniej już zasłużonego na polu literatury, uczestnika insurekcji kościuszkowskiej. Czasopismo o charakterze literackim i polityczno–społecznym przez pięć lat swojego istnienia (1801-1805) odegrało znaczącą rolę w pobudzeniu życia intelektualnego w całym zaborze pruskim. Czasopismo dostępne jest online pod adresem http://ebuw.uw.edu.pl/dlibra/publication?id=5512&tab=3

Projekt „NUKAT – autostrada informacji cyfrowej” finansowany jest ze środków Programu Operacyjnego Innowacyjna Gospodarka. Partnerami projektu są BUW, Uczelniane Centrum Informatyczne UMK w Toruniu, biblioteki wydziałowe UW oraz biblioteki, których katalogi zostaną scalone w bazie NUKAT.

Nowa japońska technologia skanowania książek: “book-flipping scanning”

Jak informuje Francuska Agencja Prasowa, badacze z Tokijskiej Podyplomowej Szkoły Nauk i Technologii Informatycznych (Tokyo’s Graduate School of Information Science and Technology) stworzyli prototypowy system, pozwalający skanować książki podczas przewracania stron. Innymi słowy, osoba chcąca zeskanować całą książkę, musi ją tylko przekartkować. W ten sposób, za pomocą stworzonego prototypu, książkę mającą 170 stron można zeskanować w ciągu 60 sekund.

“Book-flipping scanning system” składa się między innymi z kamery, zdolnej robić 500 zdjęć na sekundę, laserów podczerwieni oraz komputera. Zniekształcenia, spowodowane krzywizną stron podczas przekartkowywania, są mierzone wiązkami podczerwieni. Następnie strony są “prostowane” programowo za pomocą modelu trójwymiarowego strony.

Mimo faktu, że potencjał technologii daleko przekracza zastosowania związane wyłącznie ze skanowaniem książek, “book-flipping scanning” może również przyśpieszyć proces digitalizacji drukowanego dziedzictwa kulturowego. Na przykład, aby zeskanować 110 200 publikacji (tyle ile jest na dzień dzisiejszy w największej polskiej bibliotece cyfrowej – Wielkopolskiej Bibliotece Cyfrowej), przy założeniu, że średni czas “surowego” skanowania jednego obiektu cyfrowego wynosi 60 sekund, należy przeznaczyć ok. 77 pełnych dni.

Niestety powyższy system nadaje się głównie do digitalizacji książek w dobrym stanie. Egzemplarze w złym stanie mogą ulec zniszczeniu podczas kartkowania. Natomiast publikacji nie będących książkami, takich jak pocztówki czy gazety wielkoformatowe, nie można najzwyczajniej w świecie przekartkować.

Zespół badaczy planuję skończyć pracę nad finalną wersją prototypu “najszybszego na świecie systemu skanowania” za 2 lata. Materiały, prezentujące działanie technologii, można znaleźć na stronie http://www.k2.t.u-tokyo.ac.jp/vision/BookFlipScan/index-e.html

40 lat Projektu Gutenberg

40 lat temu Michael Hart zapoczątkował Projekt Gutenberg. Jest to dobry moment, żeby zwrócić uwagę na fakt, iż digitalizacja książek nie zaczęła się w ostatnich kilkunastu latach a znacznie wcześniej. Hart poinformował na swojej stronie, iż całkowita liczba tytułów w Projekcie Gutenberg przekroczyła w sierpniu b.r. 37 500, a do momentu świętowania 40-lecia istnienia projektu przekroczy 40 000. Średnia 1 000 książek na rok w ciągu 40 lat nie jest być może zbyt imponująca, jednak autor projektu zapewnia, że w tym roku powinna się zbliżyć do 5000. Obecnie ze strony projektu http://gutenberg.org dziennie ściągane jest około 100 tysięcy książek co daje 3 miliony miesięcznie, czyli 36 milionów rocznie.

Michael Hart zwraca też uwagę na postęp jaki dokonał się w pamięciach przenośnych, które w 2000 roku miały 1 000 razy mniejszą pojemność i były 3 razy droższe.  Przenośne „kieszonkowe napędy” mogą obecnie pomieścić nawet do 2,5 miliona książek w formacie .zip i mimo, iż ich rozmiar nie do końca jest „kieszonkowy”, to nie są cięższe niż pojedyncza książka.

Jeśli wrócimy do roku 2000 to okaże się, że Google jeszcze przez 5 lat nie ogłosi „wynalezienia” eBooków, a Projekt Gutenberg będzie potrzebował jeszcze 2 i 3/4 roku, aby pochwalić się liczbą 10 000 tytułów. Na kolejną dekadę, do 2020 roku, pozostaje wiec wiele do zrobienia. Autor sugeruje, że do tego czasu pobierane będą petabajty danych, a wszystkie książki możliwe do znalezienia w domenie publicznej będą występować w przynajmniej kilku formatach elektronicznych.

Na koniec jednak autor wyraża obawę, iż jest prawdopodobne, że znowu zmienią się reguły, które będą ograniczały strefę domeny publicznej i jednocześnie ochraniały prawa autorskie pogłębiając problem tzw. „cyfrowego podziału” („The Digital Divide”).

Pełny tekst autorstwa Michael’a Hart’a można znaleźć tutaj.

40 tysięcy nowych publikacji do 2012 roku w e-BUW

Według portalu e-biblioteki Uniwersytetu Warszawskiego (e-bUW), Biblioteka Uniwersytecka w Warszawie (BUW) planuje zdigitalizować i umieścić on-line w e-bUW około 40 tysięcy publikacji do 2012 roku. Pozycje, które będą skanowane są częścią cennej kolekcji XIX-wiecznych czasopism przechowywanych w BUW. Czytelnicy będą mogli przeglądać między innymi takie tytuły jak „Kurier Warszawski”, „Gazeta Warszawska”, czy „Korespondent Warszawski” (pełna lista tytułów znajduje się tutaj).

Skanowanie cennych kolekcji czasopism odbywa się w ramach projektu NUKAT – AUTOSTRADA INFORMACJI CYFROWEJ, realizowanego ze środków Programu Operacyjnego Innowacyjna Gospodarka. Życzymy powodzenia w realizacji projektu i jak najwięcej nowych publikacji w e-bUW.

Ponadto w ramach tego samego projektu system KARO zyska możliwość przeszukiwania metadanych bibliotek cyfrowych przyłączonych do Federacji Bibliotek Cyfrowych. Odbędzie się to poprzez zaimplementowany w FBC interfejs OpenSearch.