Archiwa tagu: Open Repositories 2012

Konferencja Open Repositories 2012

Konferencja Open Repositories 2012 wraz z towarzyszącymi warsztatami odbyła się w Edynburgu (Szkocja) w dniach 9-13 lipca 2012. Bogaty program konferencji oraz interesujące warsztaty, a także ogromna liczba uczestników potwierdza rangę cyklu konferencji Open Repositories. OR2012
konferencja składała się z szeregu sesji. Szczególnie interesujące pod kątem budowy bibliotek cyfrowych były te związane z przetwarzaniem dużych ilości danych (tzw. data mining), a także te dotyczące długoterminowego przechowywania danych. Warsztaty dotyczące przetwarzania dużych ilości danych dotykały różnych tematów, m.in. przeszukiwania ogromnych ilości danych, semantycznego wyszukiwania, agregacji metadanych i danych, ekstrakcji informacji z dokumentów tekstowych, jak i przepływów pracy (ang. workflows) związanych z danymi tekstowymi. Przedstawiono różne systemy opracowane z myślą o przetwarzaniu dużych ilości danych, w tym:
Przy rozwoju omawianych systemów wykorzystywano różne narzędzia do przetwarzania tekstu, np. TextCat (http://odur.let.rug.nl/vannoord/TextCat/), U-Compare (http://u-compare.org/), OSCAR4 (https://bitbucket.org/wwmm/oscar4/wiki/Home), ANTRL (http://www.antlr.org/), MAUI (http://code.google.com/p/maui-indexer/), KEA (http://www.nzdl.org/Kea/), Sesame (http://www.openrdf.org/index.jsp), H2 (http://www.h2database.com/).
Warsztaty powiązane z długoterminowym przechowywaniem danych źródłowych dotyczyły przede wszystkim oprogramowania Trident i możliwości jego konfiguracji oraz wykorzystania. Podczas warsztatów zaprezentowano również najważniejsze kwestie związane z długoterminowym przechowywaniem danych źródłowych, w tym zasady identyfikowania plików które powinny podlegać migracji lub normalizacji oraz narzędzia, które można wykorzystać do budowania procesu przechowywania danych. Omówione narzędzia to: Kepler (https://kepler-project.org/), Taverna (http://www.taverna.org.uk/), Ptolemy II (http://ptolemy.eecs.berkeley.edu/ptolemyII/), Triana (http://www.trianacode.org/).
Sama konferencja obejmowała trzy dni, podczas których zaprezentowano szereg ciekawych referatów związanych z rozwojem szeroko rozumianych repozytoriów cyfrowych, m.in.
  • „Build to scale” – referat omawiający budowanie systemu wyszukiwania dla 250 milionów rekordów, opartego na Apache Solr i dostarczającego wyniki wyszukiwania w ciągu co najwyżej dwóch sekund.
  • „Inter-repository Linking of Research Objects with Webtracks” – referat omawiający propozycję protokołu InteRCom, który pozwala na wymianę semantycznych informacji między repozytoriami.
  • „ResourceSync: Web-based Resource Synchronization” – referat przedstawiający protokół synchronizacji danych i metadanych, bazujący na doświadczeniach protokołu OAI-PMH oraz OAI-ORE.
  • „Griffith’s Research Data Evolution Journey: Enabling data capture, management, aggregation, discovery and reuse.” – referat opisujący infrastrukturę w ramach uniwersytetu Griffith, w tym narzędzia semantyczne VIVO (http://sourceforge.net/apps/mediawiki/vivo/) oraz VITRO (http://vitro.mannlib.cornell.edu/).
  • „Multivio, a flexible solution for in-browser access to digital content” – referat przedstawiający uniwersalną przeglądarkę dokumentów PDF, GIF, JPEG czy PNG.
  • „ORCID update and why you should use ORCIDs in your repository” – referat omawiający aktualny stan i plany rozwojowe systemu identyfikowania naukowców ORCID (http://about.orcid.org/).
  • „Digital Preservation Network, Saving the Scholarly Record Together” – referat omawiający inicjatywę powstałą w USA, dotyczącą budowania heterogenicznego systemu długoterminowego przechowywania (http://d-p-n.org/).
W ramach konferencji przedstawiciel Poznańskiego Centrum Superkoputerowo-Sieciowego zaprezentował referat pt. „dArceo services: advancing long-term preservation”, omawiający usługi długoterminowego przechowywania danych źródłowych dla polskich instytucji nauki i kultury, ze szczególnym uwzględnieniem materiałów tekstowych, graficznych i audiowizualnych. Zachęcamy do odwiedzenia strony konferencji OR2012 (http://or2012.ed.ac.uk/), gdzie znajdują się prezentacje autorów oraz program konferencji.