Wszystkie wpisy, których autorem jest Tomasz Parkoła

Konferencja Open Repositories 2012

Konferencja Open Repositories 2012 wraz z towarzyszącymi warsztatami odbyła się w Edynburgu (Szkocja) w dniach 9-13 lipca 2012. Bogaty program konferencji oraz interesujące warsztaty, a także ogromna liczba uczestników potwierdza rangę cyklu konferencji Open Repositories. OR2012
konferencja składała się z szeregu sesji. Szczególnie interesujące pod kątem budowy bibliotek cyfrowych były te związane z przetwarzaniem dużych ilości danych (tzw. data mining), a także te dotyczące długoterminowego przechowywania danych. Warsztaty dotyczące przetwarzania dużych ilości danych dotykały różnych tematów, m.in. przeszukiwania ogromnych ilości danych, semantycznego wyszukiwania, agregacji metadanych i danych, ekstrakcji informacji z dokumentów tekstowych, jak i przepływów pracy (ang. workflows) związanych z danymi tekstowymi. Przedstawiono różne systemy opracowane z myślą o przetwarzaniu dużych ilości danych, w tym:
Przy rozwoju omawianych systemów wykorzystywano różne narzędzia do przetwarzania tekstu, np. TextCat (http://odur.let.rug.nl/vannoord/TextCat/), U-Compare (http://u-compare.org/), OSCAR4 (https://bitbucket.org/wwmm/oscar4/wiki/Home), ANTRL (http://www.antlr.org/), MAUI (http://code.google.com/p/maui-indexer/), KEA (http://www.nzdl.org/Kea/), Sesame (http://www.openrdf.org/index.jsp), H2 (http://www.h2database.com/).
Warsztaty powiązane z długoterminowym przechowywaniem danych źródłowych dotyczyły przede wszystkim oprogramowania Trident i możliwości jego konfiguracji oraz wykorzystania. Podczas warsztatów zaprezentowano również najważniejsze kwestie związane z długoterminowym przechowywaniem danych źródłowych, w tym zasady identyfikowania plików które powinny podlegać migracji lub normalizacji oraz narzędzia, które można wykorzystać do budowania procesu przechowywania danych. Omówione narzędzia to: Kepler (https://kepler-project.org/), Taverna (http://www.taverna.org.uk/), Ptolemy II (http://ptolemy.eecs.berkeley.edu/ptolemyII/), Triana (http://www.trianacode.org/).
Sama konferencja obejmowała trzy dni, podczas których zaprezentowano szereg ciekawych referatów związanych z rozwojem szeroko rozumianych repozytoriów cyfrowych, m.in.
  • „Build to scale” – referat omawiający budowanie systemu wyszukiwania dla 250 milionów rekordów, opartego na Apache Solr i dostarczającego wyniki wyszukiwania w ciągu co najwyżej dwóch sekund.
  • „Inter-repository Linking of Research Objects with Webtracks” – referat omawiający propozycję protokołu InteRCom, który pozwala na wymianę semantycznych informacji między repozytoriami.
  • „ResourceSync: Web-based Resource Synchronization” – referat przedstawiający protokół synchronizacji danych i metadanych, bazujący na doświadczeniach protokołu OAI-PMH oraz OAI-ORE.
  • „Griffith’s Research Data Evolution Journey: Enabling data capture, management, aggregation, discovery and reuse.” – referat opisujący infrastrukturę w ramach uniwersytetu Griffith, w tym narzędzia semantyczne VIVO (http://sourceforge.net/apps/mediawiki/vivo/) oraz VITRO (http://vitro.mannlib.cornell.edu/).
  • „Multivio, a flexible solution for in-browser access to digital content” – referat przedstawiający uniwersalną przeglądarkę dokumentów PDF, GIF, JPEG czy PNG.
  • „ORCID update and why you should use ORCIDs in your repository” – referat omawiający aktualny stan i plany rozwojowe systemu identyfikowania naukowców ORCID (http://about.orcid.org/).
  • „Digital Preservation Network, Saving the Scholarly Record Together” – referat omawiający inicjatywę powstałą w USA, dotyczącą budowania heterogenicznego systemu długoterminowego przechowywania (http://d-p-n.org/).
W ramach konferencji przedstawiciel Poznańskiego Centrum Superkoputerowo-Sieciowego zaprezentował referat pt. „dArceo services: advancing long-term preservation”, omawiający usługi długoterminowego przechowywania danych źródłowych dla polskich instytucji nauki i kultury, ze szczególnym uwzględnieniem materiałów tekstowych, graficznych i audiowizualnych. Zachęcamy do odwiedzenia strony konferencji OR2012 (http://or2012.ed.ac.uk/), gdzie znajdują się prezentacje autorów oraz program konferencji.

Projekt Europeana Newspapers – ankieta

Projekt Europeana Newspapers opublikował ankietę, której celem jest zebranie informacji na temat digitalizacji gazet w Europie. Ankieta jest dedykowana do instytucji, które nie uczestniczą w projekcie Europeana Newspapers. Jak opisano na stronie projektu Europeana Newspapers ankieta ma trzy zasadnicze cele:

  1. Zidentyfikować zakres digitalizacji gazet w Europie.
  2. Umieścić adekwatne metadane w katalogu periodyków Biblioteki Państwowej w Berlinie (http://www.zeitschriftendatenbank.de/) oraz w centralnym indeksie gazet, który jest tworzony przez TEL (The European Library, http://www.theeuropeanlibrary.org/).
  3. Pomóc w znalezieniu 10 nowych partnerów, którzy dołączą do projektu.

Ankieta dostępna jest tylko w języku angielskim pod adresem http://www.surveymonkey.com/s/BQ28579. Ostateczny termin jej wypełniania upływa 31 lipca 2012.

Konferencja SEEDI – podsumowanie

Pod koniec maja 2012 odbyła się 7 konferencja SEEDI (South-Eastern European Digitisation Initiative), traktująca o problematyce digitalizacji w krajach południowo-wschodniej części Europy.

W ramach konferencji wygłoszono szereg interesujących wystąpień. Referat powitalny wygłosiła Jill Cousins – dyrektor wykonawczy fundacji Europeana. Podczas wystąpienia omówiła wizję nowego portalu Europeany, który ma się opierać na rozwiązaniach przetwarzania chmurowego oraz zwracać szczególną uwagę na potrzeby użytkowników. Wystąpienia w kolejnych sesjach dotyczyły między innymi partnerstwa publiczno-prywatnego na bazie doświadczeń Austriackiej Biblioteki Narodowej. Przytoczone zostały podstawowe wnioski płynące z takie współpracy i aspekty na które należy zwrócić szczególną uwagę podejmując się tego typu projektów. Przedstawiciel Czeskiej Biblioteki Narodowej przedstawił problem koordynacji zadań digitalizacyjnych i zastosowane rozwiązanie w ramach czeskich bibliotek. Omówiono również różnorodne projekty digitalizacyjne, realizowane w ramach bibliotek w Serbii, Chorwacji czy Słowenii. Poruszono również tematykę długoterminowego przechowywania danych źródłowych oraz zarządzania procesem digitalizacji. W tym obszarze przedstawiciel Poznańskiego Centrum Superkomputerowo-Sieciowego przedstawił narzędzia wspomagające proces digitalizacji, w tym oprogramowanie dLibra oraz dMuseion wraz z systemem do zarządzania procesem digitalizacji dLab oraz systemem wspomagającym długoterminowe przechowywanie danych źródłowych dArceo. W ramach wystąpień poruszano również problemy związane z OCR oraz podejścia do ich rozwiązywania, w szczególności w kontekście dokumentów historycznych, takich jak starodruki czy rękopisy.

Program konferencji wraz z dodatkowymi informacjami dostępny jest pod adresem: http://www.nuk.uni-lj.si/nukeng4.asp?id=483558290

Nowe zasoby tekstowe opracowane w ramach projektu IMPACT

Dziś udostępnione zostały dodatkowe materiały tekstowe opracowane w ramach projektu IMPACT, a pochodzące z polskich bibliotek cyfrowych. Nowe zasoby zawierają 478 plików z pełnotekstową transkrypcją, która zawiera informacje o współrzędnych regionów, linii, słów oraz znaków. Taki zasób jest szczególnie przydatny w pracach badawczych, dotyczących m.in. algorytmów automatycznego rozpoznawania znaków. Jakość opracowanych zasobów oscyluje w granicach 99.95%. Wszystkie zasoby dostępne są pod adresem: http://dl.psnc.pl/activities/projekty/impact/results/.

Opracowane zasoby były podstawą prac badawczo-rozwojowych realizowanych przez Poznańskie Centrum Superkomputerowo-Sieciowe w ramach projektu IMPACT. Prace te miały na celu porównanie wyników działania dwóch uznanych na świecie silników OCR: FineReader 10 CE oraz Tesseract 3.0.

IMPACT: rezultaty projektu

 

Zapraszamy do uczestnictwa w spotkaniu na którym omówione zostaną rezultaty projektu IMPACT. Spotkanie odbędzie się 26 czerwca 2012 roku w Bibliotece Królewskiej Holandii w Hadze. W spotkaniu zaprezentowane zostaną zarówno wyniki projektu IMPACT, jak i rezultaty serii pilotów, które zostały przeprowadzone przez biblioteki na początku 2012 roku.

Projekt IMPACT (styczeń 2008 – czerwiec 2012) jest projektem europejskim, którego celem jest opracowanie innowacyjnych narzędzi lingwistycznych oraz OCR, które pozwolą ulepszyć proces digitalizacji i dostępność historycznych dokumentów drukowanych w Internecie. IMPACT jest koordynowany przez Bibliotekę Królewską Holandii, a w skład partnerów wchodzą najważniejsze instytucje europejskie, w tym biblioteki narodowe, uniwersytety, centra badawczo-rozwojowe oraz firmy komercyjne. W efekcie projektu IMPACT uruchomione zostąło Centrum Kompetencji IMPACT (www.digitisation.eu), które składa się z szeregu ekspertów w zakresie digitalizacji, chcących wspierać instytucje nauki i kultury w zakresie digitalizacji i pełnotekstowej dostępności dokumentów cyfrowych.

Na spotkaniu w czerwcu zaprezentowane zostaną następujące wyniki:

  • Silnik OCR ABBYY FineReader 10 (tzw. IMPACT FineReader)
  • Adaptacyjny silnik OCR firmy IBM wraz z narzędziem CONCERT do korekty wyników OCR
  • Leksykon lingwistyczny dla 9 języków europejskich oraz narzędzia do jego budowania
  • System do demonstracji oraz weryfikacji i oceny narzędzi i rezultatów digitalizacji
  • Zbiór danych opracowany w ramach projektu, w tym nieocenione zasoby pełnotekstowe dla ponad 50 000 stron
  • Narzędzie Functional Extension Parser analizujące układ stron książek
  • Narzędzie do korenty wyników OCR z wbudowaną możliwością profilowania
  • Nowatorskie podejścia do przetwarzania wstępnego dla OCR oraz potencjalne możliwości jego rozwoju
  • Centrum Kompetencji IMPACT w zakresie digitalizacji

Uczestnictwo w spotkaniu jest bezpłatne, natomiast prosimy o rejestrację na stronie: http://impactocr.eventbrite.com/. Program spotkania zostanie umieszczony w najbliższym czasie.

 

Warsztaty dotyczące wykorzystania Usługi Powszechnej Archiwizacji PLATON-U4

Wszystkich zainteresowanych tematyką przechowywania danych (np. plików master/plików wzorcowych) zapraszamy do udziału w warsztatach dotyczących wykorzystania usługi PLATON-U4 do archiwizacji danych. Na warsztatach omówione zostaną m.in. kwestie zasad i warunków wykorzystania systemu przez zainteresowanych użytkowników, rejestracji i możliwości uzyskania konta w systemie, praktycznych wskazówek dotyczących archiwizowania danych.

Najbliższy termin i miejsce organizacji warsztatów to 14.03.2012 w Poznaniu. W kolejnych dniach organizowane będą warsztaty w innych miastach: Białystok, Lublin, Gliwice, Toruń, Zielona Góra oraz Szczecin. Szczegóły znajdują się na stornie z programem i planem warsztatów: http://www.storage.pionier.net.pl/news/warsztaty2012/index.html.

Zapraszamy!

Pełnotekstowe wersje polskich dokumentów historycznych – pobierz już dziś!

Prace prowadzone przez Zespół Bibliotek Cyfrowych PCSS, a realizowane w ramach projektu IMPACT, zaowocowały przygotowaniem zestawu pełnotekstowych wersji cyfrowych wybranych dokumentów historycznych z czterech bibliotek cyfrowych w Polsce. W sumie przetworzone zostały 4 693 pliki, a ich transkrypcje mają łącznie 6 890 677 znaków. Rozmiar plików master to w sumie około 16,5GB. Rozmiar wszystkich transkrypcji to około 300MB, a transkrypcje z dodatkowymi informacjami zajmują 700MB.

Szczegóły co do udostępnionych materiałów oraz same materiały dostępne są do pobrania na stronie wyników projektu IMPACT opracowanych przez Zespół Bibliotek Cyfrowych PCSS.

Centrum Kompetencji IMPACT nabiera rozpędu

Z początkiem 2012 roku Centrum Kompetencji IMPACT osiągnie swój docelowy kształt i będzie gotowe do współpracy i świadczenia pomocy w zakresie masowej digitalizacji. Ponieważ inicjatywa ta powstała w efekcie działań w ramach projektu IMPACT, kluczowe role w konstrukcji centrum odgrywają jego partnerzy.

Pięciu partnerów projektu IMPACT zadeklarowało chęć wzmożonego zaangażowania w rozwój i działania Centrum Kompetencji IMPACT i zadeklarowało chęć znalezienia się w grupie instytucji wspierających i zarządzających centrum. Liderem tego przedsięwzięcia będą Uniwersytet w Alicante oraz Biblioteka Cyfrowa Miguel de Cervantes, a członkami rady zarządzającej będą Poznańskie Centrum Superkomputerowo-Sieciowe, Biblioteka Królewska Holandii, Biblioteka Narodowa Francji oraz Instytut Leksykologii Holenderskiej. PCSS poza aktywnym wspieraniem centrum od strony merytorycznej, służył będzie również pomocą w zakresie utrzymania go od strony technicznej. Kluczowym elementem w tym zakresie jest umieszczenie stron WWW Centrum Kompetencji IMPACT na serwerach PCSS.

Zachęcamy Państwa do udziału w działaniach Centrum Kompetencji IMPACT, zarówno w charakterze instytucji wiodącej, jak i korzystającej z doświadczeń i narzędzi opracowanych w ramach projektu IMPACT. Szczegóły znajdują się na oficjalnej stronie internetowej Centrum Kompetencji IMPACT: www.digitisation.eu.

Konferencja projektu IMPACT – Digitalizacja i OCR.

Zapraszamy do uczestnictwa w finalnej konferencji projektu IMPACT pod tytułem: “Digitalizacja i OCR: Lepiej, szybciej, taniej. Rozwiązania projektu IMPACT oraz przyszłe wyzwania”. Konferencja odbędzie się w dniach 24-25 października 2011 w Londynie. W ramach konferencji projekt IMPACT zaprezentuje końcowe rezultaty, wraz z wynikami badań w kontekście OCR i technik lingwistycznych.

Konferencja będzie również miejscem oficjalnego uruchomienie Centrum Kompetencji IMPACT, którego celem jest dzielenie się doświadczeniami oraz ekspertyzą w zakresie digitalizacji, wraz z udostępnianiem narzędzi usprawniających proces digitalizacji.

Program konferencji jest dostępny na jej stronie domowej, najważniejsze wystąpienia wygłoszą m.in. Khalil Rouhana (Komisja Europejska), Michael Fuchs (ABBUU Europe), Paul Fogel (Biblioteka Cyfrowa w Kalifornii) Clemens Neudecker (Biblioteka Królewska, Holandia), Asaf Tzadok (IBM Haifa), Majlis Bremer-Laamanen (Biblioteka Narodowa Finlandii), Katrien Depuydt (INL) and Klaus Schulz (Uniwersytet w Monachium), Stephen Krauwer (koordynator projektu CLARIN).

Więcej informacji podawanych będzie na bieżąco na stronie konferencji oraz poprzez Twitter (hashtag: #impactconf2011). Konferencja prowadzona będzie w języku angielskim.

Konferencja Open Repositories 2011

W dniach 6-11 czerwca 2011 odbyła się międzynarodowa konferencją Open Repositories 2011, która jest ważnym forum wymiany informacji na temat rozwoju, zarządzania oraz budowania repozytoriów cyfrowych.

Ponad 300 uczestników, pochodzących z ponad 20 krajów świata, miało okazję słuchać wykładów tak znakomitych przedstawicieli świata informatyki i cyfrowych zasobów jak Jim Jagielski oraz Clifford Lynch. W ramach sesji naukowych omówiono wiele tematów związanych z repozytoriami cyfrowymi, m. in. sieci semantyczne, narzędzia i standardy, długoterminowa archiwizacja, oraz sieci społecznościowe.

Konferencję otworzył Jim Jagielski, prezydent Apache Software Foundation, który przedstawił charakter pracy przy projektach open-source. Podkreślił, że przy rozwoju projektów open-source współpracują przede wszystkim wolontariusze, gdzie kluczowym elementem budującym społeczność programistów jest zaufanie względem siebie. Bradley McLean z DuraSpace zidentyfikował jego zdaniem najważniejsze trendy w rozwoju repozytoriów cyfrowych, m.in. technologie mobilne, długoterminowe przechowywanie, chmury obliczeniowe, mashupy. Richard Rodgers z M.I.T. Libraries przedstawił inicjatywę ORCID, której celem jest utworzenie rejestru identyfikującego naukowców, co z kolei pozwoli na rozwiązanie problemu niejednoznaczności autorów publikacji naukowych.

Na konferencji zaprezentowano także wiele narzędzi, systemów i inicjatyw związanych z repozytoriami cyfrowymi: Memento, Hathi Trust, DAR, FITS, OTS-Schemas, BatchBuilder, ReDBox and Mint, Exhibit, Fascinator, Recollection, SWORD, CUPID.

Na konferencji zaprezentowana została również koncepcja tworzenia wirtualnych repozytoriów instytucjonalnych na bazie bibliotek cyfrowych. Plakat obrazujący tę koncepcję przedstawił Tomasz Parkoła z PCSS. Tworzenie wirtualnych repozytoriów instytucjonalnych jest nowym trendem w sieci polskich bibliotek cyfrowych, który ma na celu zwiększenie dostępności on-line współczesnych prac naukowych publikowanych na zasadach Open Access. Wsparcie dla tego typu działań realizowane jest m.in. poprzez budowany przez PCSS w ramach projektu SYNAT Zintegrowany System Wiedzy.