Miesięczne archiwum: Październik 2012

Toruńska konferencja Polskie Zbiory w Europeanie

Toruń w roku 1641

W dniach 18-19 października w Toruniu, na pięknie odrestaurowanej starówce, odbyła się organizowana przez Międzynarodowe Centrum Zarządzania Informacją ICIMSS konferencja Polskie zbiory w Europeanie.

Inauguracyjny wykład The Decision to Digitise wygłosiła pani Eleanor Kenny z Fundacji Europeana. Pozostałe wystąpienia, już w języku polskim, można podzielić na następujące grupy:

  • Prezentacja projektów związanych z Europeaną
  • Krajowa infrastruktura informatyczna dla zasobów dziedzictwa kulturowego
  • Możliwości wsparcia projektów digitalizacyjnych przez MKiDN
  • Problemy i potrzeby polskich instytucji kultury

Dwie prezentacje zostały wygłoszone przez przedstawicieli Ministerstwa Kultury i Dziedzictwa Narodowego: Strategia dygitalizacji Ministerstwa Kultury i Dziedzictwa Narodowego (Anna
Duńczyk-Szulc) oraz Projekt portalu MKiDN poświęconego digitalizacji zasobów dziedzictwa kultury (Agata Bratek). Portal powinien zostać udostępniony na początku roku 2013.

Wśród prezentowanych projektów związanych z Europeaną znalazły się:

  • Europeana Photography  (Europeana Photography – czyli dokumentacja pierwszego stulecia fotografii, Marta Miskowiec, Muzeum Historii Fotografii w Krakowie, Piotr Kożurno, ICIMSS)
  • Athena (Athena i Athena Plus – projekty zachęcające muzea do współpracy z Europeaną, Maria Śliwińska, ICIMSS)
  • Judaica Europeana (Judaica Europeana – projekt digitalizacji żydowskiego dziedzictwa kulturowego Europy, Edyta Kurek, Żydowski Instytut Historyczny im. Emanuela Ringelbluma, Warszawa)
  • APEX (Udział archiwów polskich w projekcie APEX, Anna Matejak, Naczelna Dyrekcja Archiwów Państwowych, Warszawa)

O swoich bieżących pracach, także tych związanych z Europeaną, opowiadali przedstawiciele kilku dużych instytucji:

  • Narodowy Instytut Muzealnictwa i Ochrony Zbiorów (Narodowy Instytut Muzealnictwa i Ochrony Zbiorów, jego działania i plany w zakresie digitalizacji muzealiów, Anna Kuśmidrowicz, Monika Jędralska)
  • Narodowy Instytut Audiowizualny (Wspieranie dygitalizacji przez Narodowy Instytut Audiowizualny na przykładzie projektu Europeana Awareness, Jarosław Czuba)
  • Biblioteka Narodowa (Udział Biblioteki Narodowej w bieżących projektach Europeany, Katarzyna Ślaska)

Poznańskie Centrum Superkomputerowo-Sieciowe przygotowało prezentację Federacja Bibliotek Cyfrowych: wsparcie instytucji kultury w udostępnianiu zbiorów on-line, agregacja metadanych na potrzeby Europeany (Marcin Werla, Justyna Walkowska), dostępna tutaj. W prezentacji przedstawiamy rolę Federacji Bibliotek Cyfrowych w środowisku polskich zasobów dziedzictwa kultury i w kontekście krajowej infrastruktury informatycznej nauki. Omawiamy też naszą współpracę z Europeaną, w tym kilka projektów, w które jesteśmy zaangażowani bądź będziemy zaangażowani w najbliższym czasie.

Sekcję problemową otworzyła prezentacja przygotowana przez prof. Dorotę Folgę-Januszewską Problemy udziału polskich muzeów w przekazywaniu zbiorów do Europeany. Przedstawiciele mniejszych instytucji byli zainteresowani uzyskaniem informacji na temat możliwości pozyskania środków na digitalizację.

Ważnym tematem była nowa umowa na udostępnianie danych Europeanie – Data Exchange Agreement. Materiały i opinie na jej temat można znaleźć pod tym adresem: http://fbc.pionier.net.pl/pro/dla-dostawcow-danych/wspolpraca-z-zewnetrznymi-serwisami/wspolpraca-z-europeana/. Umowa ta, oparta na licencji Creative Commons 0, która w niektórych miejscach stoi w opozycji do ściśle pojmowanego polskiego prawa – w polskim prawie nie jest możliwe zrzeczenie się praw autorskich, a w przypadku udzielenia nieodpłatnej licencji (co przewiduje tak zwana „awaryjna” licencja) należy wyszczególnić wszystkie przewidziane pola eksploatacji. Aktualne wytyczne MKiDN przewidują przekazywanie do Europeany metadanych, które nie są objęte prawami autorskimi (oznacza to, na przykład, wyłączenie opinii konserwatorskich). Bardzo dobrą wiadomością dla wszystkich europejskich czytelników jest to, że polska Biblioteka Narodowa zdecydowała się podpisać to porozumienie. W swoim wystąpieniu ogłosiła to pani wicedyrektor Katarzyna Ślaska z BN.

Innym powracającym tematem była potrzeba przetłumaczenia (przez grupę ekspertów z wszystkich zainteresowanych środowisk: muzealnych, bibliotecznych, archiwalnych) dokumentacji najpopularniejszych schematów metadanych na język polski, co ma prowadzić do bardziej spójnego i konsekwentnego sposobu korzystania z nich przez poszczególne instytucje.

Na konferencji obecne były także osoby prywatne, zainteresowane udostępnieniem swoich kolekcji online. Jedną z takich osób był pan Piotr Grzywacz z Tucholi, prowadzący prywatne Muzeum Sygnałów Myśliwskich.

Human Language Technology Days 2012

W dniach 27-28 września 2012 r. w Warszawie odbyła się konferencja Human Language Technology Days. Została ona zorganizowana przez Instytut Podstaw Informatyki PAN oraz Uniwersytet Łódzki w ramach projektu CESAR (Central and South-East European Resources) – jednego z kilku obecnie finansowanych przez UE projektów, które mają na celu utworzenie wspólnych narzędzi i zasobów językowych dla krajów europejskich.

Prezentacje z pierwszego dnia konferencji pokazały, że obecnie różne dziedziny inżynierii języka wciąż wymagają intensywnego rozwoju, choć niektóre zagadnienia zostały już na tyle dobrze rozpoznane i opracowane, że doczekały się się komercyjnych wdrożeń – większość z nas słyszała o takich usługach jak Google Translate, Siri czy IBM Watson. Ten ostatni to superkomputer, który w 2011 roku zmierzył się w teleturnieju Jeopardy! (znanym w Polsce jako Va Banque) z dwoma ludzkimi przeciwnikami, którzy do tej pory osiągnęli najlepsze wyniki w tej grze, i ich pokonał, udzielając największej liczby poprawnych odpowiedzi na pytania zadawane w programie. O zaawansowanym przetwarzaniu języka oraz reprezentacji wiedzy w tym systemie można było usłyszeć na prezentacji Włodka Zadrożnego – jednego z członków zespołu DeepQA, który stworzył Watsona. Jak się dowiedzieliśmy, obecnie trwają prace nad wykorzystaniem tego systemu w medycynie jako wsparcie w diagnozowaniu. Zainteresowanie budziła również prezentacja Enrique Alfonseca, pracującego w oddziale R&D firmy Google zlokalizowanym w Zurichu. Opowiedział m.in. o uruchomionej w tym roku usłudze Knowledge Graph (opartej na semantycznej bazie wiedzy Freebase) oraz o automatycznym generowaniu streszczeń tekstów (które jest użyteczne do generowania krótkiego opisu aktualnych wydarzeń w usłudze Google News ma podstawie zbioru artykułów na dany temat).

Drugiego dnia spotkania aż 13 zespołów z polskich instytucji badawczych zaprezentowało swój obecny stan prac nad rozwiązywaniem problemów powiązanych z przetwarzaniem języka naturalnego. Zagadnienia przedstawione podczas tych prezentacji były bardzo ciekawe i różnorodne: można było usłyszeć zarówno o algorytmach tworzenia i reprezentacji automatów skończonych (wykorzystywanych m.in. do kompresji słowników), o tworzeniu narzędzi wspomagających pracę lingwistów, jak i o systemach rozpoznawania mowy.

Nagranie video z całego spotkania można obejrzeć pod adresem http://www.hltdays.pl/video.

Pierwszy polski THATCamp

W dniach 24-25 października 2012 odbędzie się pierwsza polska edycja THATCampu. Jest ona organizowana przez koalicję THAT-Camp Polska i odbędzie się w ramach konferencji w ramach Ogólnopolskiej Konferencji Naukowej „Zwrot Cyfrowy w humanistyce Internet Nowe Media-Kultura 2.0”. THATCamp odbędzie się w siedzibie Teatru NN na Starym Mieście w Lublinie (ul.Grodzka 21). Patronat nad imprezą objęło Poznańskie Centrum Superkomputerowo Sieciowe.

THATCampy (The Humanities And Technology Camp, http://www.thatcamp.org) to organizowane na całym świecie otwarte i nieformalne spotkania osób zainteresowanych nowymi technologiami w humanistyce i socjologii, a także w działalnościach instytucji naukowych i artystycznych (uniwersytety, galerie, archiwa, biblioteki, muzea). Uczestnictwo w tego typu imprezach jest bezpłatne.

Początki THATCampu sięgają roku 2008 kiedy to w Stanach Zjednoczonych odbył się on po raz pierwszy, zorganizowany przez Centrum Historii i Nowych Mediów (Center for History and New Media, CHNM) przy Uniwersytecie George’a Masona.

Więcej informacji o imprezie można znaleźć tutaj.

Autorzy wpisu: Bogna Wróż, Adam Dudczak

Konferencja TPDL 2012: teoria i praktyka bibliotek cyfrowych

W dniach 23-27 września 2012 w miejscowości Pafos na Cyprze odbyła się kolejna edycja konferencji Theory and Practice of Digital Libraries (znanej wcześniej jako European Conference on Digital Libraries, ECDL). PCSS prezentował na niej dwa artykuły, które ukazały się w towarzyszącej konferencji publikacji z serii Lecture Notes in Computer Science (tom 7489):

Pierwszy artykuł opisuje prototyp Wirtualnego Laboratorium Transkrypcji stworzony przez PCSS w ramach projektu SYNAT. W ramach prac opisanych w artykule przeprowadzono eksperymenty, których celem było wytrenowanie silnika OCR na potrzeby automatycznego rozpoznawania tekstu na skanach historycznych dokumentów (teksty polskie drukowane miedzy XVI a XVII wiekiem). Artykuł omawia przyczyny powstania prototypu, jego możliwości oraz dalsze kierunki rozwoju.

Drugi z artykułów jest poświęcony kwestii przekształcania metadanych zapisanych za pomocą tradycyjnych schematów (takich jak MARC 21 czy Dublin Core) do postaci ontologicznej, przeznaczonej do istnienia w środowisku Semantic Web i Linked Open Data. Artykuł przedstawia wymagania dla języków opisu reguł mapowania oraz interpretujących je narzędzi, a także krótko opisuje stworzone przez nas narzędzie jMet2Ont.

Muzeum Palaeokastro Maa

Udział w konferencji rozpoczęliśmy w niedzielę, od tzw. Doctoral Consortium, czyli spotkania, na którym doktorantom przydzielani są mentorzy, zobowiązani do przeczytania przed spotkaniem rozbudowanego abstraktu planowanej rozprawy doktorskiej i przygotowania listy uwag i pytań. Następnie, już podczas spotkania, każdy z doktorantów prezentuje swoje dotychczasowe wyniki oraz plany. Mentor danego doktoranta powinien poprowadzić dyskusję po prezentacji. Takie wydarzenie jest bardzo korzystne dla samych doktorantów, którzy w bezpiecznym środowisku (spotkanie jest zamknięte, uczestniczą w nim tylko doktoranci i mentorzy) mogą poznań opinię ekspertów na temat silnych i słabszych stron swojej pracy.

Właściwa konferencja obejmowała kolejne trzy dni, poniedziałek, wtorek i środę.

Wśród wystąpień plenarnych zdecydowanie wyróżniało się wystąpienie Cathy Marshall (z Microsoft Research) pod tytułem Whose content is it anyway? Social media, personal data, and the fate of our digital legacy. Autorka poruszyła wiele interesujących kwestii związanych z ulotnością mediów cyfrowych, podejściem jakie do tychże treści mają zwykli użytkownicy oraz tego, jak sytuację zmieniły media społecznościowe takie jak Twitter czy Facebook. Wystąpienie było naprawdę dobrze poprowadzone, pełne zaskakujących zwrotów akcji 😉 i dających do myślenia wniosków.

Podobny temat poruszyli też w swoim referacie Hany M. SalahEldeen oraz Michael L Nelson z Old Dominion University. W ich artykule zatytułowanym Losing My Revolution: How Many Resources Shared on Social Media Have Been Lost? przedstawiona została analiza archiwalnej zawartości mediów społecznościowych dotyczącej sześciu istotnych wydarzeń z ostatnich kilku lat (w tym egipskiej rewolucji, epidemii wirusa H1N1 czy śmierci Michaela Jacksona). Okazuje się, że po upływie roku od wydarzenia około 11% materiałów linkowanych w mediach społecznościowych nie jest już dostępne. Kolejny rok to kolejne kilkanaście procent martwych linków. Pełen tekst artykułu można przeczytać m.in. na stronach arXiv.org. Wyniki tych badań zainteresowały również tradycyjne media, m.in. BBC.

Zaskakująco wiele artykułów poświęconych było zagadnieniom związanym z uczeniem maszynowym. Dane z bibliotek cyfrowych są doskonałym polem do stosowania i testowania algorytmów z tej dziedziny. Bardzo interesujące było wystąpienie Finding Quality Issues in SKOS Vocabularies (Christian Mader, Bernhard Haslhofer, Antoine Isaac). Autorzy w ramach swoich badań zdefiniowali pewne wyznaczniki i dobre praktyki dla tezaurusów zapisanych jako SKOS, a następnie stworzyli narzędzie qSKOS walidujące istniejące tezaurusy.

Jednym z najciekawszych wydarzeń podczas właściwej konferencji była sesja plakatowa (połączona z pokazami oprogramowania). Oficjalnie za najlepszą prezentację uznano FrbrVis: An Information Visualization Approach to Presenting FRBR Work Families (Tanja Mercun, Maja Zumer, and Trond Aalberg). Autorzy, świadomi tego, że coraz więcej bibliotek i agregatorów metadanych rozważa wprowadzenie modelu FRBR, postawili sobie zadanie zaprojektowania efektywnego sposobu prezentacji danych zapisanych w tym formacie, tak, by użytkownik korzystał ze złożoności modelu, ale nie czuł się przez niego przytłoczony. Stworzyli cztery (niektóre bardzo pomysłowe) propozycje interfejsu, a następnie przeprowadzili testy użyteczności na dużej liczbie użytkowników. Ostatecznie wygrały dwie reprezentacje: koncentryczna (tzw. sun burst) oraz hierarchiczna. Nieoczekiwana konkluzja jest taka, że reprezentacja oparta o graf (często postulowana w środowiskach Semantic Web z powodu natury danych RDF), choć początkowo zainteresowała użytkowników, ostatecznie okazała się trudna w użyciu. Wspomniany wcześnie Hany M. SalahEldeen zajmujący się problemem znikania zasobów z Internetu zaprezentował plakat dotyczący analizy intencji użytkowników publikujących linki na portalach społecznościowych – czy chodzi im o aktualną wersję zasobu? A może o wersję istniejącą w momencie publikowania?

W czwartek odbyły się warsztaty. Uczestnicy mogli wybrać spomiędzy następujących propozycji:

Na warsztacie NKOS omawiany był przede wszystkim standard ISO 25964 dla tezaurusów oraz jego relacja z modelem SKOS. Gotowa jest dopiero pierwsza z dwóch części standardu. Same dokumenty opisujące standard są płatne, ale ze strony ISO 25964 można za darmo pobrać wiele materiałów, w tym definicję (xsd) schematu danych zgodnego ze standardem.

Warsztat poświęcony archiwom zawierał sesję na temat technologii semantycznych i ontologii, w której bardzo ciekawą prezentację wygłosił Vladimir Alexiev z firmy Ontotext. Odniósł się on do złożoności ontologii CIDOC CRM. Powołując się na wyniki projektu naukowców z  FORTH (A New Framework for Querying Semantic Networks), przedstawił model wyszukiwania w bazie wiedzy stosującej tę ontologię, w którym 82 klasy i 142 właściwości z ontologii CIDOC CRM są mapowane do postaci dużo mniejszej liczby tzw. fundamentalnych klas i właściwości (np. Thing – rzecz, Actor – aktor, Place – miejsce). Dzięki temu wyszukiwanie jest znacznie proste. Firma Ontotext jest producentem repozytorium RDF o nazwie OWLIM. W ramach badań autor stworzył zestaw reguł wnioskowania dla tego narzędzia, które generują taki uproszczony model, ułatwiający odpytywanie bazy wiedzy.

W czasie najkrótszego z całej trójki warsztatu na temat wspierania odkrywania zasobów przez użytkowników (materiały konferencyjne dostępne tutaj) uczestnicy mogli wysłuchać bardzo ciekawego wystąpienia Davida Haskiya (Fundacja Europeana) na temat funkcji wspierających eksplorowanie zasobów cyfrowych, które rozwinęła bądź będzie rozwijać Europeana. Warsztaty zakończyła interesująca dyskusja panelowa, w czasie której uczestnicy rozprawiali między innymi o tym jakie potrzeby ma współczesny i przyszły użytkownik bibliotek cyfrowych, zwłaszcza w kontekście najmłodszego pokolenia (por. film poniżej)

Konferencja odbyła się w bardzo pięknym i fascynującym historycznie zakątku Europy, do którego niestety bardzo trudno jest dotrzeć z Polski. Ubiegłoroczna lokalizacja (Berlin) była zdecydowanie łatwiejsza do osiągnięcia dla większości uczestników. W przyszłym roku spotkanie ma odbyć się na Malcie.

Cypryjska kuchnia

Autorzy wpisu: Adam Dudczak, Justyna Walkowska, Marcin Werla

Nowa edycja kursów e-learningowych dostępnych przy FBC

Dzisiaj rozpoczął się nowy cykl szkoleniowy dla kursów e-learningowych „Cyfrowe repozytoria dla małych instytucji kultury” oraz „Współpraca z Europeaną”. Dostępne są one w dziale E-learning portalu Federacji Bibliotek Cyfrowych. Drugi z nich został ostatnio zaktualizowany w związku z rozwojem portalu Europeana i pracami w projekcie ACCESS IT Plus, a następnie po raz pierwszy przetłumaczony na język polski. Ta edycja kursu potrwa 3 miesiące, zaczynamy dzisiaj, a kończymy na początku stycznia 2013. Po ukończeniu każdego z tych bezpłatnych kursów uczestnicy będą mogli uzyskać zaświadczenia w formie elektronicznej (osobne dla każdego z kursów). Kurs „Cyfrowe repozytoria dla małych instytucji kultury” cieszył się wcześniej niemałym powodzeniem, mamy nadzieję, że ograniczenia czasowe wpłyną pozytywnie na motywacje uczestników do ukończenia kursu ;-).