Archiwa tagu: dArceo

Kod źródłowy dArceo jest już otwarty!

dArceo to system długoterminowego przechowywania danych źródłowych (np. plików wzorcowych), opracowany początkowo w ramach działań PCSS w projekcie SYNAT.  System ten został z powodzeniem włączony w oferowany przez PCSS pakiet DInGO – zbiór narzędzi do digitalizacji i udostępniania zbiorów on-line i jest obecnie wykorzystywany przez kilkadziesiąt polskich instytucji kultury i nauki.

Miło nam poinformować, że kod źródłowy systemu został opublikowany na licencji GNU GPL v3.0. Jest to efekt współpracy w ramach Open Preservation Foundation, której PCSS jest członkiem. Opublikowanie źródeł systemu dArceo na wolnej licencji czyni go bardziej transparentnym i łatwiej dostępnym dla wszystkich zainteresowanych – to kluczowe warunki w obszarze profesjonalnej archiwizacji i długoterminowego przechowywania zasobów cyfrowych. Zachęcamy do korzystania z systemu i współpracy przy jego rozwoju!

Repozytorium kodu źródłowego dArceo:

http://github.com/psnc-dl/darceo

Konferencja „Cyfrowe Spotkania z Zabytkami 5”

Tegoroczna konferencja cyfrowych spotkań z zabytkami odbyła się pod hasłem „Reprodukcja cyfrowa zabytku – metody, wiarygodność, trwałość.”. Konferencja odbyła się we Wrocławiu w dniach 19-20 listopada 2012 r. W ramach konferencji wygłoszono wiele ciekawych referatów związanych z przechowywaniem, wizualizacją i dostępem do cyfrowych reprezentacji zabytków dziedzictwa kulturowego. Przedstawiono standardy i formaty opisujące zabytki (np. standard STARC do opisu obiektów archeologicznych), zaprezentowano możliwości związane z wizualizacją obiektów muzealnych z wykorzystaniem technologii 3D, a także rozważano aspekty katalogowania zabytków. W ramach konferencji przedstawiono również narzędzia rozwijane przez Poznańskie Centrum Superkomputerowo-Sieciowe, w tym system dMuseion służący do budowy muzeów cyfrowych, system dLab dedykowany do zarządzania procesem digitalizacji oraz narzędzie dArceo zapewniające długoterminowe przechowywanie danych źródłowych.

Konferencja Open Repositories 2012

Konferencja Open Repositories 2012 wraz z towarzyszącymi warsztatami odbyła się w Edynburgu (Szkocja) w dniach 9-13 lipca 2012. Bogaty program konferencji oraz interesujące warsztaty, a także ogromna liczba uczestników potwierdza rangę cyklu konferencji Open Repositories. OR2012
konferencja składała się z szeregu sesji. Szczególnie interesujące pod kątem budowy bibliotek cyfrowych były te związane z przetwarzaniem dużych ilości danych (tzw. data mining), a także te dotyczące długoterminowego przechowywania danych. Warsztaty dotyczące przetwarzania dużych ilości danych dotykały różnych tematów, m.in. przeszukiwania ogromnych ilości danych, semantycznego wyszukiwania, agregacji metadanych i danych, ekstrakcji informacji z dokumentów tekstowych, jak i przepływów pracy (ang. workflows) związanych z danymi tekstowymi. Przedstawiono różne systemy opracowane z myślą o przetwarzaniu dużych ilości danych, w tym:
Przy rozwoju omawianych systemów wykorzystywano różne narzędzia do przetwarzania tekstu, np. TextCat (http://odur.let.rug.nl/vannoord/TextCat/), U-Compare (http://u-compare.org/), OSCAR4 (https://bitbucket.org/wwmm/oscar4/wiki/Home), ANTRL (http://www.antlr.org/), MAUI (http://code.google.com/p/maui-indexer/), KEA (http://www.nzdl.org/Kea/), Sesame (http://www.openrdf.org/index.jsp), H2 (http://www.h2database.com/).
Warsztaty powiązane z długoterminowym przechowywaniem danych źródłowych dotyczyły przede wszystkim oprogramowania Trident i możliwości jego konfiguracji oraz wykorzystania. Podczas warsztatów zaprezentowano również najważniejsze kwestie związane z długoterminowym przechowywaniem danych źródłowych, w tym zasady identyfikowania plików które powinny podlegać migracji lub normalizacji oraz narzędzia, które można wykorzystać do budowania procesu przechowywania danych. Omówione narzędzia to: Kepler (https://kepler-project.org/), Taverna (http://www.taverna.org.uk/), Ptolemy II (http://ptolemy.eecs.berkeley.edu/ptolemyII/), Triana (http://www.trianacode.org/).
Sama konferencja obejmowała trzy dni, podczas których zaprezentowano szereg ciekawych referatów związanych z rozwojem szeroko rozumianych repozytoriów cyfrowych, m.in.
  • „Build to scale” – referat omawiający budowanie systemu wyszukiwania dla 250 milionów rekordów, opartego na Apache Solr i dostarczającego wyniki wyszukiwania w ciągu co najwyżej dwóch sekund.
  • „Inter-repository Linking of Research Objects with Webtracks” – referat omawiający propozycję protokołu InteRCom, który pozwala na wymianę semantycznych informacji między repozytoriami.
  • „ResourceSync: Web-based Resource Synchronization” – referat przedstawiający protokół synchronizacji danych i metadanych, bazujący na doświadczeniach protokołu OAI-PMH oraz OAI-ORE.
  • „Griffith’s Research Data Evolution Journey: Enabling data capture, management, aggregation, discovery and reuse.” – referat opisujący infrastrukturę w ramach uniwersytetu Griffith, w tym narzędzia semantyczne VIVO (http://sourceforge.net/apps/mediawiki/vivo/) oraz VITRO (http://vitro.mannlib.cornell.edu/).
  • „Multivio, a flexible solution for in-browser access to digital content” – referat przedstawiający uniwersalną przeglądarkę dokumentów PDF, GIF, JPEG czy PNG.
  • „ORCID update and why you should use ORCIDs in your repository” – referat omawiający aktualny stan i plany rozwojowe systemu identyfikowania naukowców ORCID (http://about.orcid.org/).
  • „Digital Preservation Network, Saving the Scholarly Record Together” – referat omawiający inicjatywę powstałą w USA, dotyczącą budowania heterogenicznego systemu długoterminowego przechowywania (http://d-p-n.org/).
W ramach konferencji przedstawiciel Poznańskiego Centrum Superkoputerowo-Sieciowego zaprezentował referat pt. „dArceo services: advancing long-term preservation”, omawiający usługi długoterminowego przechowywania danych źródłowych dla polskich instytucji nauki i kultury, ze szczególnym uwzględnieniem materiałów tekstowych, graficznych i audiowizualnych. Zachęcamy do odwiedzenia strony konferencji OR2012 (http://or2012.ed.ac.uk/), gdzie znajdują się prezentacje autorów oraz program konferencji.