Archiwa tagu: Digital Humanities

Nowa wersja portalu Wirtualnego Laboratorium Transkrypcji

Kilka dni temu wdrożona została nowa wersja portalu Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl). W nowej wersji znajdą Państwo kilka nowych funkcji i udogodnień, zostały również naprawione zgłaszane przez Państwa błędy.

Najważniejsze zmiany jakie zostały wprowadzone:

  • edytor transkrypcji wspiera pracę z drukami wielokolumnowymi np. gazetami (opcja ta jest dostępna dla nowotworzonych projektów),
  • dodano mechanizm weryfikacji linii, z każdą linią skojarzona jest informacja o tym czy została ona już przejrzana,
  • usprawniony mechanizm importu plików TIFF,
  • możliwość pobierania transkrypcji w formie prostego pliku tekstowego,
  • link do podglądu całej strony w edytorze transkrypcji,
  • w widoku podglądu transkrypcji dodane zostały numery porządkowe linii,
  • w edytorze transkrypcji możliwe jest przesuwanie linii na konkretną pozycję (poprzez podanie jej numeru),
  • po zakończeniu wsadowego OCRa wysyłany jest mail do właściciela projektu,
  • w widoku historii zmian widoczna jest informacja o autorze zmian,
  • w formularzu tworzenia nowego projektu pole autor jest teraz opcjonalne.

Szczegółową notę do wydania z listą wszystkich zmian i poprawek możecie Państwo znaleźć tutaj.

Oprócz wymienionych powyżej zmian uruchomione zostało również forum sugestii i  usprawnień (jest ono dostępne tutaj), w ramach którego możecie Państwo przekazywać nam swoje propozycje ulepszeń w WLT oraz głosować na pomysły, które już zostały zgłoszone. Mogą Państwo wejść na forum korzystając z pomarańczowej zakładki “Twoja sugestia”, która znajduje się w prawym górnym rogu strony WLT. Gorąco zachęcamy do zgłaszania pomysłów i głosowanie na te, które są już widoczne na forum. Przebieg dalszych prac nad WLT zależy w dużej mierze od tego, które funkcje będą się wydawać Państwu najbardziej interesujące.

THATCamp Poznań – agenda spotkania

W najbliższy poniedziałek o 18:00 odbędzie się pierwszy poznański THATCamp. Więcej informacji o tym jak dotrzeć na spotkanie znajdziecie Państwo na stronie konferencji i3 lub na thatcamp.pl. Udział w imprezie jest bezpłatny i gorąco zapraszamy wszystkich zainteresowanych do przybycia. Otrzymaliśmy kilka bardzo ciekawych propozycji wystąpień, na ich podstawie udało nam się stworzyć program spotkania.

Czasy podane w programie są orientacyjne, każdy prelegent będzie miał 10 min na prezentację, poza tym w każdym bloku przewidziany jest czas na dyskusję.

18:00 – 18:10 Otwarcie i powitanie uczestników
18:10 – 18:50
  • „Milion blogów. Duże próby w badaniach piśmiennictwa elektronicznego” – Maciej Maryl
  • „Cybernetyczna Szeherezada – opowiadanie historii i nowe technologie” – Patryk Rzepecki
  • Wielkopolski Słownik Pisarek” – Lucyna Marzec
18:50 – 19:00 Przerwa
19:00 – 19:40
  • „PRO ARTE – Serwis Kulturalno-Literacki on-line (http://proarte.net.pl/)” – Patryk Szaj, Kinga Gąska, Katarzyna Kończal
  • „Jak powstaje „Praktyka Teoretyczna„?” – Krystian Szadkowski
  • „Performing Art & Science: idea i projekty HAT Center” – Michał Krawczak
19:40 – 20:20 Przerwa
20:20 – 21:00
  • „Z menadżerem bibliografii pod prąd” – Beata Koper
  • „W Wordzie piszę gorsze teksty. Instrumentarium w służbie humanistyki” – Emanuel Kulczycki
  • „Design Thinking w szkole i pracy” – Darek Walczak
21:00 – 21:10 Przerwa
21:10 – 21:40
  • „Edycje średniowiecznych tektów online, czyli o niebywałych możliwościach i równie wielkich wątpliwościach” – Rafał Wójcik
  • „Od skanu do tekstu w max. 12 krokach i dwóch smakach” – Adam Dudczak
21:40 – 22:00 Zamknięcie częśći oficjalnej, ewentualne dalsze dyskusje

Po części oficjalnej przeniesiemy się do któregoś z pobliskich pubów, szczegółowe informacje na ten temat zostaną podane w czasie zakończenia imprezy.

Nowe funkcje w portalu Wirtualnego Laboratorium Transkrypcji

Source: http://pl.wikipedia.org/wiki/Plik:Escribano.jpg

Z przyjemnością informujemy o wdrożeniu nowej wersji portalu Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl).

Wersja ta to nowe funkcję i poprawki błędów zgłaszanych przez użytkowników. Wśród najbardziej istotnych zmian należy wymienić:

  • możliwość wyeksportowania wyników pracy w postaci pliku ePUB,
  • udostępnianie projektu tylko wybranym użytkownikom WLT,
  • wsparcie dla skanów w formacie TIFF po załadowaniu są one automatycznie konwertowane do formatu PNG,
  • zmiany w dialogu edytora transkrypcji,
  • szereg poprawek w wynikowych plikach hOCR.

Pełną listę zmian wraz z zrzutami ekranu można znaleźć na naszym wiki:
https://confluence.man.poznan.pl/community/display/WLT/Nota+do+wydania+z+dnia+2013-03-25

Kolejny etap beta testów WLT

circle1
W piątek 15 lutego 2013 w portalu Wirtualnego Laboratorium Transkrypcji (http://wlt.synat.pcss.pl) udostępniliśmy szereg nowych funkcji oraz usprawnień.
Oto najważniejsze z nich:

  • wyraźna poprawa wydajności i stabilności działania całego portalu,
  • zmiana sposobu zapisywania historii zmian transkrypcji,
  • import istniejącej publikacji DjVu na podstawie identyfikatora OAI
    (więcej na ten temat tutaj: http://bit.ly/15nMbhn),
  • wsadowy OCR dla wszystkich plików w projekcie,
  • system notyfikacji o zapisywaniu zmian w edytorze transkrypcji,
  • szereg mniejszych poprawek i usprawnień zgłaszanych przez użytkowników,
  • opublikowana została również pierwsza wersja dokumentacji dla użytkowników (https://confluence.man.poznan.pl/community/display/WLT).

Od uruchomienia BETA wersji WLT minęło kilka miesięcy. Dzięki informacji zwrotnej jaką otrzymaliśmy od użytkowników stało się jasne, że musimy dokonać poważnych zmian w silniku portalu. Najważniejsza z nich to zmiana sposobu przechowywania transkrypcji.

W najbliższym czasie zostaną dodane dwie nowe funkcje:

  • eksport projektów w formacie EPUB
  • możliwość  załadowania plików TIFF do projektu (zostaną one skonwertowane automatycznie do formatu PNG w rozdzielczosci 300 DPI).

Autorzy wpisu: Bogna Wróż, Adam Dudczak

Pierwszy polski THATCamp

W dniach 24-25 października 2012 odbędzie się pierwsza polska edycja THATCampu. Jest ona organizowana przez koalicję THAT-Camp Polska i odbędzie się w ramach konferencji w ramach Ogólnopolskiej Konferencji Naukowej „Zwrot Cyfrowy w humanistyce Internet Nowe Media-Kultura 2.0”. THATCamp odbędzie się w siedzibie Teatru NN na Starym Mieście w Lublinie (ul.Grodzka 21). Patronat nad imprezą objęło Poznańskie Centrum Superkomputerowo Sieciowe.

THATCampy (The Humanities And Technology Camp, http://www.thatcamp.org) to organizowane na całym świecie otwarte i nieformalne spotkania osób zainteresowanych nowymi technologiami w humanistyce i socjologii, a także w działalnościach instytucji naukowych i artystycznych (uniwersytety, galerie, archiwa, biblioteki, muzea). Uczestnictwo w tego typu imprezach jest bezpłatne.

Początki THATCampu sięgają roku 2008 kiedy to w Stanach Zjednoczonych odbył się on po raz pierwszy, zorganizowany przez Centrum Historii i Nowych Mediów (Center for History and New Media, CHNM) przy Uniwersytecie George’a Masona.

Więcej informacji o imprezie można znaleźć tutaj.

Autorzy wpisu: Bogna Wróż, Adam Dudczak

Konferencja Digital Humanities 2012

Konferencja Digital Humanities 2012 to jedna z najlepszych konferencji w jakich braliśmy udział w tym roku. Organizatorom udało się zgromadzić w jednym miejscu ponad 500 uczestników z całego świata. Począwszy od 16 lipca 2012, przez 5 dni odbyło się ponad 200 sesji, które w czasie głównej konferencji odbywały się w 5 równoległych ścieżkach wykładowych. Całość została zorganizowana na Uniwersytecie Hamburskim.

W tym sprawozdaniu chcielibyśmy przybliżyć Państwu kilka interesujących projektów i narzedzii, które zostały zaprezentowane w czasie Digital Humanities 2012. Zachęcamy do przejrzenia strony konferencji nagrania wideo ze wszystkich sesji są już dostępne.

Pierwszy projekt na naszej liście to „Programming historian 2„. Celem projektu jest stworzenie materiałów edukacyjnych dla historyków zainteresowanych wykorzystaniem narzędzi programistycznych takich jak Python. Pomysł jest bardzo ciekawy, realizuje go grupa ochotników z kilku ośrodków naukowych w Europie. W wyniku ich działań powstaje zbiór lekcji trwających od 30 do 60 minut w czasie ich trwania przyszły historyk-programista uczy się podstaw programowania i tego jak nowoczesne narzędzia programistyczne mogą zostać użyte w pracy historyka.

Neatline to jeden z najciekawszych projektów z punktu widzenia interfejsów użytkownika. Neatline to zestaw wtyczek do Omeki (narzędzie do budowy bibliotek cyfrowych), który pozwala w bardzo atrakcyjny wizualnie sposób prezentować użytkownikami historie przy pomocy mapy i osi czasu (przykładowa wystawa obrazująca przebieg bitwy o Chancellorsville). Narzędzie to potrafi również współpracować z urzadzeniami mobilnymi.

Kolejny projekt na który chcielibyśmy zwrócić Państwa uwagę to Pelagios. Nazwa projektu jest skrótem od pełnej nazwy „Pelagios: Enable Linked Ancient Geodata In Open Systems”. To zbiór dostępnych w sieci projektów związanych z starożytnością (np. Google Ancient Places, LUCERO) których zasoby są wykorzystywane aby odnaleźć informacje o starożytnych miejscach i pozwala na zwizualizowanie ich obecnego położenia. Aby tego dokonać w Pelagios wykorzystywane są technologie semantyczne (RDF), które pozwalają na reprezentację miejsc i odniesień do nich w wygodny i elastyczny sposób. W tej chwili twórcy skupiają się na starożytności, ale docelowo chcą zbudować bazę informacji geograficznych dedykowaną dla badań humanistycznych.

Jedna z najciekawszych prezentacji konferencji to „Visualizing the History of English” przeprowadzona przez Alexandara Marc. Marc przedstawił metodę wizualizacji angielskiego słownictwa za pomocą specjalnych wykresów tworzonych dla różnych okresów historycznych. Aby stworzyć te wizualizacje wykorzystano ogromną bazę Historical Thesaurus of English (składa się ona z 793 747 wpisów pogrupowanych 236 346 kategorie). Wideo z prezentacji dostępne jest na stronie konferencji.

Oprócz już wspomnianych prezentowane były również inne projekty związane z różnymi aspektami historii i geografii. Ogromny rozmach i możliwości w tym zakresie zostały zaimplementowane w The MayaArch3D Project, który łączy historię sztuki, archeologie z możliwościami oferowanymi przez systemy typu GIS i wirtualną rzeczywistość. Wszystko to zostało stworzone głównie z myślą o edukacji w zakresie historii sztuki i archeologii. Dostępny w tej chwili prototyp to wirtualny model miasta Maya, które znajdowało się w Copan w zachodnim Hondurasie. Naukowym celem tego projektu była analiza związków między formą i architekturą budowli, a środowiskiem w jakim one powstawały. Do stworzenia prototypu wykorzystano oprogramowanie do tworzenia gier komputerowych Unity3D w połączeniu z językiem PHP i bazą danych PostgreSQL.

QueryArch3D Demo Film from Jennifer von Schwerin on Vimeo.

To oczywiście nie wszystko, poniżej prezentujemy listę najciekawszych narzędzi i komponentów, które można wykorzystać w realizacji własnych prac i eksperymentów naukowych.

  • Zespół przetwarzania języka naturalnego ze Stanford udostępnia na swojej stronie WWW wyniki większości swoich prac. Strona oferuje dostęp do wielu przydantych narzędzi, które mogę być wykorzystane do przetwarzania języka naturalnego.
  • Apache Open NLP to biblioteka programistyczna, która umożliwia wykorzystanie możliwości uczenia maszynowego na potrzeby przetwarzania języka naturalnego.
  • Alchemy API – pomaga przekształcić tekst w wiedzę. Alchemy to platforma operująca w chmurze obliczeniowej, która jest wykorzystywana przez 18,000 programistów. Alchemy API to bardzo elastyczne narzędzie, które umożliwia między innymi ekstrakcję encji nazwanych, słów kluczowych, haseł autorytatywnych.
  • Kilka prezentacji w czasie DH 2012 wspominało o wykorzystaniu Open Calais platformy podobnej do Alchemy rozwijanej przez wydawnictwo Thomson Reuters. W chwili obecnej w wersji 4.6 fakt iż jest ona wciąż rozwijana świadczy o tym, że jest tego typu narzędzia są naprawdę potrzebne.
  • D3.js – Data-Driven Documents to bardzo interesująca biblioteka Javascriptowa, która umożliwia tworzenie i wizualizowanie dokumentów opartych o dane. Dzięki D3 każdy może osadzić w swojej stronie bardzo ładnie wyglądające wizualizację różnego rodzaju danych.
  • OKF annotator to projekt rozwijany przez Open Knowledge Foundation, który pozwala na adnotowanie większości typów zasobów sieciowych.
  • GeoStoryteller to narzędzie, które było wykorzystywane i rozwijane w ramach projektu German Traces NYC. To aplikacja edukacyjna, która pozwala opowiadać historie o różnego rodzaju rzeczywiście istniejących miejscach. Użytkownik zwiedzając dane lokacje może dzięki wykorzystaniu telefonu komórkowego dowiedzieć się o niej nowych rzeczy.

Na zakończenie chcielibyśmy jeszcze zwrócić Państwa uwagę na dwa dokuemnty:

Autorzy wpisu: Piotr Smoczyk, Adam Dudczak

Google’s Digital Humanities Research Awards announced

Wczoraj na blogu Google Research opublikowana została informacja na temat projektów badawczych, którym przyznane zostały granty w ramach programu „Google’s Digital Humanities Research Awards”. Poniżej lista nagrodzonych projektów:

  • Steven Abney and Terry Szymanski, University of Michigan. Automatic Identification and Extraction of Structured Linguistic Passages in Texts.
  • Elton Barker, The Open University, Eric C. Kansa, University of California-Berkeley, Leif Isaksen, University of Southampton, United Kingdom. Google Ancient Places (GAP): Discovering historic geographical entities in the Google Books corpus.
  • Dan Cohen and Fred Gibbs, George Mason University. Reframing the Victorians.
  • Gregory R. Crane, Tufts University. Classics in Google Books.
  • Miles Efron, Graduate School of Library and Information Science, University of Illinois. Meeting the Challenge of Language Change in Text Retrieval with Machine Translation Techniques.
  • Brian Geiger, University of California-Riverside, Benjamin Pauley, Eastern Connecticut State University. Early Modern Books Metadata in Google Books.
  • David Mimno and David Blei, Princeton University. The Open Encyclopedia of Classical Sites.
  • Alfonso Moreno, Magdalen College, University of Oxford. Bibliotheca Academica Translationum: link to Google Books.
  • Todd Presner, David Shepard, Chris Johanson, James Lee, University of California-Los Angeles.Hypercities Geo-Scribe.
  • Amelia del Rosario Sanz-Cabrerizo and José Luis Sierra-Rodríguez, Universidad Complutense de Madrid. Collaborative Annotation of Digitalized Literary Texts.
  • Andrew Stauffer, University of Virginia. JUXTA Collation Tool for the Web.
  • Timothy R. Tangherlini, University of California-Los Angeles, Peter Leonard, University of Washington.Northern Insights: Tools & Techniques for Automated Literary Analysis, Based on the Scandinavian Corpus in Google Books.

Łączny budżet tego programu to około 1 milion dolarów, rozłożony w czasie na dwa lata. Nagrodzonym oczywiście gratulujemy 🙂