Beiträge

“Texte aufräumen” – die ersten CrossAsia N-Gramm-Pakete stehen zum Download bereit

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Von Martina Siebert.

Die meisten kennen sicherlich Ursus Wehrlis Buch „Kunst aufräumen“. Dort wird z.B. Keith Harings „Untitled“ (1986) in seine einzelnen Farbsegmente zerlegt und diese werden fein säuberlich nach Farben und Größe geordnet übereinander gestapelt (siehe z.B. hier). Ganz ähnlich geht das Erstellen von N-Grammen vor. Der eigentliche Text wird in seine Einzelteile zerlegt, identische Einzelteile werden zusammengetragen und dann wird gezählt: was gibt es wie oft. Damit wird sogar noch etwas ökonomischer als bei Herrn Wehrli „aufgeräumt“. Die eigentliche Struktur, das Gesamtbild, wird aufgelöst und der Text strikt statistisch und auf der Basis seiner Einzelteile betrachtet. Was im Fall von N-Grammen als „Einzelteil“ gilt, kann dabei variieren. In Texten in lateinischer Schrift können das die Buchstaben sein oder die durch Leerstellen identifizierbaren Wörter oder auch zwei oder drei (etc.) aufeinanderfolgende Buchstaben oder Wörter.

„Aufräumen“ Ostasiatisch

Für ostasiatische Texte sind die am sichersten korrekt zu identifizierenden Einzelteile die verschiedenen Schriftzeichen (chinesische Schriftzeichen oder auch japanische bzw. koreanische Silbenzeichen). An einem Beispiel lässt sich gut zeigen, wie konzeptionell einfach N-Gramme zunächst gedacht sind. Aus den ersten zwei Phrasen des Daode jing

道可道,非常道。名可名,非常名。無名天地之始, 有名萬物之母。

… wird (hier ohne die Satzzeichen, da die im Original i.d.R. ja auch nicht zur Verfügung stehen) im Fall von 1-Grammen (Monogramm bzw. Engl. unigram) folgendes:

名, 5
道, 3
可, 2
非, 2

常, 2
之, 2
無, 1
天, 1

地, 1
始, 1
有, 1
萬, 1

物, 1
母, 1

… im Fall von 2-Grammen (Bigramm bzw. Engl. bigram), bei denen die Einzelteile nicht aneinander angrenzen, sondern sich schuppenartig überlagern (also 道可, 可道, 道非 etc.), nach Anzahl gestaffelt dieses:

非常, 2
道可, 1
可道, 1
道非, 1
常道, 1
道名, 1

名可, 1
可名, 1
名非, 1
常名, 1
名無, 1
無名, 1

名天, 1
天地, 1
地之, 1
之始, 1
始有, 1
有名, 1

名萬, 1
萬物, 1
物之, 1
之母, 1

Die 3-Gramm (Trigramm bzw. Engl. trigram) Liste würde noch länger und keiner der 3-Gramme würde – auf diesen kleinen Abschnitt bezogen – mehr als einmal vorkommen. Zwei Dinge werden klar: N-Gramme machen für kurze Texte keinen Sinn und die Listen werden schnell sehr groß. Für den gesamten Korpus des Xuxiu Siku quanshu mit 5.446 Titeln sind das 27.387 Monogramme, bzw. 13.216.542 Bigramme; allein für das Beispiel Buwu quanshu 卜筮全書 aus dem Headerbild werden bereits 3.382 Monogramme, 64.438 Bigramme und 125.010 Trigramme gebildet.

Große Listen und dann?

Nur N-Gramm Listen von ganzen Büchern oder sogar ganzen Korpora von Büchern sind in der Lage, inhaltliche Tendenzen aufzuzeigen: treten z.B. bestimmte „Einzelteile“ auffällig oft gemeinsam auf? Was fällt auf, wenn man verschiedene N-Gramm Listen (von Büchern oder Korpora) miteinander vergleicht? Wenn diese rein auf den Textinhalt bezogenen Informationen dann mit den bibliographischen Angaben zu den Büchern in Zusammenhang gesetzt werden, lassen sich Verschiebungen von Gewichtungen und Zusammenspiel dieser „Einzelteile“ über einem Zeitstrahl analysieren oder Charakteristika für bestimmte Autoren oder Buchthemen usw. herausarbeiten.

Der Google-Ngram Viewer oder der HathiTrust Bookworm werden wohl zumeist für genau solche Visualisierungen der Popularität von verschiedenen Termini im Vergleich und über einen Zeitstrahl verwendet. Doch N-Gramme – bereinigt und „geschärft“ durch weitere analytische Routinen – können die Basis für viele weitergreifende Fragen und Antworten bilden. Manche dieser Dinge fallen u.U. auch beim Lesen oder „close reading“ auf – natürlich! Aber N-Gramme gehen erbarmungslos statistisch vor und lassen sich nicht von Leseerwartungen und Standardinterpretationen beeinflussen. Und noch einen großen Vorteil bieten N-Gramme: der eigentliche (lizenzgeschützte) Text ist hinter einer statistischen Analyse seiner Einzelteile verschwunden und die Bereitstellung dieser Statistik stellt keine Verletzung der von CrossAsia abgeschlossenen Hosting- und Indexierungsrechte dar.

Schritt für Schritt in die Zukunft

Das Headerbild zum Artikel zeigt, wie aus dem originalen Druckbild ein durchsuchbarer Volltext wird und aus diesem dann Listen mit 1-, 2-, und 3-Grammen. Die einzelne N-Gramm-Liste selbst ist dabei nur bedingt von Nutzen. Erst wenn sie zusammen mit vielen Listen und mittels Tools und Routinen analysiert wird, zeigt sich das Potential. Die Zahl unserer Nutzerinnen und Nutzer, die auf der Basis solcher Listen ihre eigenen Analysen durchführen, wird sicher in den nächsten Jahren stark zunehmen, da immer öfter digitale Analysemethoden und Formen des „distant reading“ in geisteswissenschaftliche Curricula eingebunden werden. Doch wir arbeiten daran, parallel zu Services wie CrossAsia N-Gramm Listen, Analyse- und Visualisierungstools zu entwickeln, die allen Nutzerinnen und Nutzern einen einfachen Zugang zu unserem beständig wachsenden Fundus an Texten im Repositorium erlauben.

Erste Stationen

Als erstes Tool dafür ist die CrossAsia Volltextsuche Ende April 2018 mit zwei Versionen online gegangen. Ihr Suchraum ist nunmehr auf rund 130.000 Titel mit über 15,4 Mio. Textseiten angewachsen. Die Volltextsuche arbeitet auf Basis einer Wort-Suche in Kombination mit den Buchmetadaten und wird auf lange Sicht – so ist zu vermuten – die Anforderung, Hinweise auf relevante oder interessante Ressourcen zu geben, nicht optimal erfüllen können: zum einen unterscheiden sich die bibliographischen Metadaten der einzelnen Sammlungen stark und als Filter eignen sich im Grunde nur allen gemeinsame Metadatenfelder, zum anderen werden immer mehr Ressourcen durchsucht und man verliert leicht in der großen Treffermenge den Überblick.

Ziel von Aktivitäten wie der Generierung von N-Grammen und der Entwicklung von digitalen Tools zur Ermittlung von Ähnlichkeiten zwischen Texten und der Identifikation von Themen ist, die Texte nicht mehr allein unter dem Blickwinkel ihrer bibliographischen Beschreibung zu betrachten, sondern die Texte auch „über sich selbst“ sprechen zu lassen. N-Gramme, topic modeling (d.h. die Algorithmus-gesteuerte Identifikation von „Themen“ eines Buchs), Named-entity recognition (d.h. das automatische Erkennen und markieren von Personen- und Ortsnamen u.ä.) etc. sind Formen solcher Selbstbeschreibungen von Texten. Wir experimentieren aktuell mit verschiedenen solcher Zugänge, Visualisierungen und Analysen der Textkorpora im CrossAsia ITR und diese sollen der reinen Volltextsuche in naher Zukunft zur Seite gestellt werden.

CrossAsia N-Gramm Service

Drei erste Pakete mit N-Grammen (1-, 2-, und 3-Gramme) der im CrossAsia Integrierten Textrepositorium (ITR) gehosteten Texte haben wir nun als Service für unsere Nutzerinnen und Nutzer – und darüber hinaus – zum Download bereitgestellt (CrossAsia N-gramn Service). Das sind 1. der über 5.400 Titel umfassende schriftsprachliche, chinesische Textkorpus Xuxiu Siku Quanshu 續修四庫全書, 2. das 1906 herausgegebene daoistische Textkompendium Daozang jiyao 道藏辑要 (ca. 300 Titel) und 3. eine über 10.000 Titel große Zusammenstellung von chinesischen Lokalmonographien (difang zhi 地方誌) der Song bis Republikzeit inklusive einiger älterer geographischer Texte.

Die N-Gramme sind hierbei jeweils auf Buchebene generiert worden. Die ID, also der Name der Datei, verweist auf den entsprechenden Metadatensatz in den ebenfalls zum Download bereitstehenden Tabellen mit Metadaten. Einige Hinweise zu dieser ersten Version von N-Grammen: es wurde keine Dublettenkontrolle durchgeführt (also ob z.B. dieselbe Lokalmonographie mehrmals im Korpus vorkommt) und es wurde keine Normalisierung der Zeichenvarianten vorgenommen (bei der z.B. 回, 囬, 廻, 囘 als gleichwertige Zeichen behandelt würden). An Interpunktionen weisen die Volltexte nur chinesische Klammern zur Markierung von Unterüberschriften u.ä. (wie 【 und 】) auf. Auch diese Klammern haben wir in der aktuellen Version getilgt. Wie immer bei der Verwendung von Algorithmen, ist die oben versprochene erbarmungslos statistische Herangehensweise von n-grams natürlich abhängig von einigen sensiblen Entscheidungen beim Vorbereiten der Daten und keine Entscheidung ist für alle Forschungsfragen gleich passend.

Wir sind neugierig!

Helfen Ihnen diese N-Gramm-Listen bei Ihrer Forschung? Was können wir hier besser machen? Haben Sie andere Vorschläge für computergenerierte Informationen über die Texte, die wir zur Verfügung stellen sollten? Wir freuen uns von Ihnen zu unserem neuen Service zu hören!

x-asia@sbb.spk-berlin.de

Dieser Artikel erschien zuerst im CrossAsia Blog.

Vorschau: In unserem nächsten Beitrag nähern wir uns der künstlichen Intelligenz aus Sicht von Kunst und Kultur!

Formate, Bilder, Sicherheit – Die neue Beta der Digitalisierten Sammlungen

Meistens läuft ein Update unserer Digitalisierten Sammlungen eher still ab. Neue Features werden eingespielt, Bugs werden gefixt und intern wird getestet. Tagesgeschäft halt. Inzwischen ist aber soviel passiert, dass wir etwas umfangreicher davon erzählen wollen. Und wir möchten alle NutzerInnen dazu einladen zu testen, Fehler zu finden und Anmerkungen zu geben. Denn die Beta soll bald produktiv gehen und die neuen Features für alle zur Verfügung stehen, damit im Anschluss die neue Beta entstehen kann.

Alles sicher

Die Digitalisierten Sammlungen wurden komplett auf https – also eine sichere, verschlüsselte Verbindung – umgestellt. Das haben wir erst mit dem Beta-Portal getestet, fanden es aber so wichtig, dass wir es auf dem produktiven Portal ebenso implementiert haben. Die Umstellung betrifft nicht nur den Server der die Präsentation an sich ausliefert, sondern auch den Content-Server, der für die Auslieferung unserer Bilder zuständig ist, sowie weitere Hintergrunddienste.

Alle nun folgenden Änderungen kann man hingegen nur unter dieser Adresse ausprobieren:

 

 

Bildauslieferung nach iiiF-Standard

Es beginnt mit dem Content-Server – dieser wurde neu entwickelt. Der bisherige Content-Server war mit dem Framework Node.js® umgesetzt. Bei der Neuimplementierung haben wir uns ebenfalls für diese Technologie entschieden und auf das Web Framework koa aufgesetzt.
Der Hauptgrund für die Umstellung war die Anpassung der Auslieferung der Bilder mittels des relativ neuen iiiF-Standards. Das International Image Interoperability Framework™ ist ein internationaler Standard für den Zugriff auf Bilder und das Handling der Metadaten für diese Bilder. Das erlaubt uns unsere Bilder und Metadaten noch besser mit anderen Institutionen teilen zu können, sofern diese ebenfalls auf diesen Standard setzen, was immer mehr Institutionen weltweit machen. Weiterhin erlaubt der Einsatz von Standards eine Nutzung von weiteren Projekten, die diesen Standard implementieren, wozu bspw. der iiiF-Viewer Mirador gehört.
Unser Content-Server kann etwas mehr, er implementiert neben der iiiF Image API eine Reihe weiterer Funktionen, die speziell zu unserem Stack der Digitalisierten Sammlungen gehören.
Das Beispiel zeigt ein auf 500 Pixel Breite verkleinertes Bild, das um 90 Grad gedreht in Graustufen ausgeliefert wird. Einen kurzen technischen Einblick erhält man in der NGCS routes Dokumentation, eine tiefer gehende Betrachtung der technischen Umsetzung innerhalb der Software, ist einen eigenen Beitrag wert.

Mehr Werkzeuge

Klicken Sie auf das Bild, um die Bildfilter jetzt zu testen.

Unser Werkzeugkasten hat sich erweitert. Neben einem zusätzlichen Zoom-Slider bieten wir nun einen eigenen Bereich für Bildmanipulationen. Damit lässt sich das Bild auf vielfältige Weise neu erforschen: bestimmte Bereiche können durch eine Erhöhung des Kontrastes verdeutlicht, Farben zur Veränderung des Gesamteindruckes angehoben oder abgeschwächt werden. All diese Veränderungen können für das einzelne Werk gespeichert werden und gelten dann für jedes weitere Bild, das über die Navigation innerhalb dieses Werkes aufgerufen wird.

Neuer Download-Bereich

Viele NutzerInnen wollen nicht nur online durch unsere Werke stöbern, sondern sich die Digitalisate in voller Qualität auch auf den eigenen Rechner laden. Der hierfür vorgesehene Downloadbereich ist mittlerweile so umfangreich geworden, dass er einen eigenen View verdient hat. Das neue Icon ist nach der häufigsten Anfrage an unseren Support benannt: “Wo befindet sich der PDF-Download?”, und nun hoffentlich gut genug in Szene gesetzt.

Der PDF-Download selbst hat derzeit noch kein Face-Lifting erhalten und ist weiterhin eine Client-seitige Lösung, was bedeutet: welche Anzahl und wie groß die Bilder innerhalb des PDFs sein können, hängt in großem Maße von dem Rechner ab, an dem man den PDF-Download startet. Weiterhin gibt es wie gewohnt die unkomplizierte Möglichkeit sich alle Bilder oder einzelne Abschnitte in hoher Qualität als ZIP-Datei herunterzuladen und damit selbst die Formate auf seinem Rechner zu erstellen, die für die eigene Arbeit gewünscht werden.

Neben der METS-Datei, die alle Metadaten enthält, ist es nun auch möglich diese als iiiF Manifest abzurufen. Dieses im JSON-LD Format gehaltene Dokument entspricht der iiiF Presentation API und bringt unsere Metadaten in neuer Form in die Welt. In iiiF kompatiblen Viewern, wie Mirador, können URI’s zu dem Manifest geladen und damit unsere Werke dort angezeigt werden, was viele neue Blickwinkel auf unsere Digitalisate eröffnet – insbesondere der direkte Vergleich von Seiten, Illustrationen oder ganzen Werken.

Wenn uns der OCR-Text zum Werk vorliegt, erscheinen drei weitere Download Links, einmal der Download der OCR der einzelnen Seite, der Download des gesamten Werkes im ALTO XML Format, sowie der gesamte Text des Bandes als einfache Text-Datei(.txt). Gerade die Letztere war ein vielfacher Wunsch, da sich dieser Text nicht nur einfach lesen und in den bevorzugten Editor einfügen lässt, auch Text-Mining-Projekte freuen sich über einfachen Text zur Verarbeitung. Weiterhin auf unserer Liste der geplanten Funktionen ist das Angebot von strukturiertem TEI.

Die jeweilige Lizenz der Werke findet sich ebenfalls sehr präsent im Download-View, sowie auf dem Info-View und dem PDF-Deckblatt. Unsere gemeinfreie Werke werden derzeit schrittweise auf eine Public-Domain-Auszeichnung umgestellt. Damit die Umgewöhnung für alle Nutzer leicht fällt, ist die komplette Download-Sektion für eine Übergangszeit im alten Toolbox-View gespiegelt.

Mehrsprachigkeit

Die Weboberfläche ist ab jetzt ebenso in Englisch verfügbar. Neben den Bedienflächen sind auch viele der Fachbegriffe übersetzt. Das schließt neben den Kategorien und Strukturtypen, in die sich unsere Digitalisierten Sammlungen gliedern, auch die einzelnen Standardelemente der Werke in den Inhaltsverzeichnissen und weitere Metadaten mit ein. Die eigentlichen Inhalte, wie Titel, Text und Autor, werden weiterhin in der Orginalsprache angezeigt.

Testen, testen, testen

Alle unsere neuen Funktionalitäten sind mit Softwaretests hinterlegt und in unsere Continuous IntegrationContinuous Deployment (CI / CD) – Strecke eingebunden. Wir tun unser Möglichstes, um die neuen Features fehlerfrei auszuliefern – aber es gibt auch andere Aufgaben und Projekte und damit eine begrenzte Zeit, die investiert werden kann. Deshalb an diese Stelle unsere Bitte: Probieren Sie unser neues Angebot aus und geben Sie uns hierzu Rückmeldungen. Wir freuen uns über alle Meinungen, positives wie negatives Feedback und natürlich über die Fehler, die wir nicht gefunden haben.

Neben diesem einleitenden Blogposting veröffentlichen wir dazu noch ein zweites, in dem ganz nüchtern alle Bereiche einzeln verzeichnet sind, in denen sich die aktuelle Beta von der Produktivinstanz unterscheidet. Entlang dieser Liste kann man testen – und dann unter diesem zweiten Artikel in den Kommentaren Rückmeldungen hinterlassen.

 

Digital Humanities Rundgang: Rückblick & Ausblick

Am 7. April 2016 fand in der Staatsbibliothek zu Berlin, Haus Potsdamer Straße, der 17. Berliner Digital Humanities Rundgang statt. Im Folgenden wollen wir einen kurzen Rückblick über die Veranstaltung geben und auch der Frage nachgehen, was die Bedeutung der Digital Humanities für die Staatsbibliothek, als auch der Staatsbibliothek für die Digital Humanities, ist.

Was sind “Digital Humanities”?

Was man genau unter den Digital Humanities (früher auch als “e-Humanities” oder “Humanities Computing” bekannt) versteht, ist schon beinahe so etwas wie die Gretchenfrage. Laut Wikipedia subsumiert man unter der Bezeichnung “die Anwendung von computergestützten Verfahren und die systematische Verwendung von digitalen Ressourcen in den Geistes- und Kulturwissenschaften.” Wie vielfältig die konkreten Ausprägungen von Digital Humanities tatsächlich sind, lässt sich gut anhand der über die Jahre gesammelten Definitionsbeiträge unter “What is Digital Humanities” (in Englisch) ersehen. Das thematische Spektrum reicht dabei von digitalen Texteditionen über vielfältigste virtuelle Forschungsumgebungen bis hin zu 3D-Rekonstruktionen archäologischer Stätten.

Word cloud von "What is Digital Humanities"

Word cloud von “What is Digital Humanities”

Hierzulande haben sich die Digital Humanities in einer Unconference im Rahmen der Internationalen Konferenz “Digital Humanities 2012” in Hamburg organisiert – der daraus hervorgegangene Verband DHd – “Digital Humanities im deutschsprachigen Raum” – versteht sich dabei als Interessensvertretung aller Forschenden und Studierenden die, unabhängig von der jeweiligen Fachdisziplin, in den Digital Humanities aktiv sind.

Speziell in Berlin existiert mit dem “Interdisziplinären Forschungsverbund Digital Humanities in Berlin” (if|DH|b) eine eigene Organisationsform, in der sich Berliner Einrichtungen und ForscherInnen vernetzen und austauschen können. Eines der vielfältigen Angebote des if|DH|b ist der “Berliner DH-Rundgang.” Bei den meist einmal im Monat stattfindenden Rundgängen stellt sich jeweils eine Berliner Einrichtung mit ihren für die Digital Humanities relevanten Angeboten und Aktivitäten vor. So können sich die TeilnehmerInnen über die örtlichen Ressourcen und Kompetenzen informieren und AnsprechpartnerInnen und Kooperationsmöglichkeiten kennenlernen.

Das Programm des DH-Rundgang an der Staatsbibliothek

Das Programm des DH-Rundgangs an der Staatsbibliothek war so zugeschnitten, dass nach der Begrüßung und Einführung in die Strategie des Hauses zu Kooperation mit Wissenschaft und Forschung zunächst die “Kernangebote” der Staatsbibliothek näher vorgestellt, und dann nach und nach Verbund- und Kooperationsprojekte auf nationaler sowie schließlich auf internationaler Ebene präsentiert wurden:

Begrüßung der Teilnehmer durch Reinhard Altenhöner

Begrüßung der Teilnehmer durch Reinhard Altenhöner, Ständiger Vertreter der Generaldirektorin. Foto © Swantje Bahnsen

Mit rund 30 TeilnehmerInnen war der Konferenzraum bis auf den letzten Platz gefüllt – erfreulich dass so großes Interesse an der StaBi besteht. Da unsere Mitarbeiter mit viel Leidenschaft von ihren Tätigkeiten berichteten, und auch zahlreiche Fragen von den aufmerksamen Gästen zu beantworten waren, wurde die vorgesehene Zeit um beinahe eine dreiviertel Stunde überzogen. Mit Freude können wir sagen: nicht ein einziger Gast hat die Veranstaltung (trotz Möglichkeit) vorzeitig verlassen – und selbst nach Ende der Veranstaltung blieben noch zahlreiche Gruppen in Gespräche über laufende Projekte und mögliche Kooperationen vertieft.

Sollten sie ihrerseits ebenfalls Interesse am Austausch mit der Staatsbibliothek zu Themen der Digital Humanities haben, können sie gerne die oben genannten Vortragenden unter vorname.nachname@sbb.spk-berlin.de kontaktieren – oder direkt einen Kommentar hier im Blog hinterlassen.

Ausblick

Die voranschreitende Digitalisierung in Bibliotheken, Archiven und Museen kann geradezu als Initialmoment für die Digital Humanities gesehen werden. Nur dank der Verfügbarkeit großer Mengen von digitalisierten Beständen können WissenschaftlerInnen heute Millionen von Texten mithilfe von Computerprogrammen auf einmal analysieren. So gehören die Digital Humanities inzwischen zu den aktivsten Nutzern von Digitalen Sammlungen und spielen eine bedeutende Rolle bei der Priorisierung von Digitalisierungsvorhaben, der Bereitstellung von Online-Diensten für die Wissenschaft sowie als Partner der Staatsbibliothek in diversen Forschungsprojekten.

Auch die Frage danach welche Rolle insbesondere Bibliotheken für die Digital Humanities spielen, wird aktuell rege diskutiert. Das (englischsprachige) Blog dh+lib sammelt bereits seit einigen Jahren Beiträge zu gelungenen Kooperationen und modellhaften Beispielen der Zusammenarbeit an der Schnittstelle von Bibliothek und Forschung.

Einen interessanten Beitrag zur Rolle der Bibliothek für die Digital Humanities stellt auch die Keynote von Jan-Christof Meister, Professor für Neuere deutsche Literatur an der Universität Hamburg, bei der IFLA News Media Konferenz 2016 dar. Darin fordert Meister die Bibliotheken dazu auf, sich als “epistemological agents” zukünftig noch intensiver an den Digital Humanities zu beteiligen. Ihm schwebt eine Art “DH-Helpdesk” in Bibliotheken vor, d.h. ein Service der neben der klassischen Literaturrecherche auch zu digitalen Korpora und Werkzeugen, Methoden und Herausforderungen sowie Fragen der Veröffentlichung und langfristigen Verfügbarkeit von Publikationen und Datensets Auskunft gibt. Dadurch werden Bibliotheken sehr viel aktiver und auch gleichberechtigter in den Forschungsprozess mit eingebunden denn schlicht als Anbieter von digitalem “Content”.

Ein ähnliches Konzept wurde bereits vor einigen Jahren an der British Library oder der Nationalbibliothek der Niederlande umgesetzt, wo “Digital Scholarship” bzw. ein “Digital Humanities Programme” bereits zum Alltag gehören. In beiden Einrichtungen gibt es sog. Labs, in denen mit digitalen Sammlungen und Technologien für Textmining oder Datenvisualisierung experimentiert werden kann, sowie ein dezidiertes Team und Programm in dem ausgewählte WissenschaftlerInnen mit BibliothekarInnen in innovativen Forschungs- und Nutzungsszenarien erfolgreich zusammenarbeiten. Hiervon lässt sich sicherlich auch noch das eine oder andere für die Angebote und Dienste der Bibliotheken in Deutschland lernen.

SBB Konferenzraum mit Teilnehmern

Mit rund 30 Teilnehmern war der DH-Rundgang gut besucht. Foto © Swantje Bahnsen

Zuletzt sei noch allen, die diesen Termin verpasst aber dennoch Interesse haben, die Staatsbibliothek zu Berlin und ihre Bedeutung für die Digital Humanities näher kennen zu lernen, gesagt dass dies sicherlich nicht der letzte DH-Rundgang an der Staatsbibliothek war. Die relevanten Angebote des Hauses sind zu zahlreich um alles in einem (zumal nur 2-stündigen) Termin unterzubringen – so wird es voraussichtlich noch mindestens einen weiteren DH-Rundgang in der Staatsbibliothek geben.

Weiterführende Links

 

Events

E.T.A. Hoffmann (links) und Ludwig Devrient im Weinkeller von Lutter & Wegner in Berlin (um 1900) © bpk | Ingo Schulze © Gaby Gerster

Festveranstaltung zum Launch des E.T.A. Hoffmann Portals am 12.12.

Festveranstaltung zum Launch des E.T.A. Hoffmann Portals am 12.12.

  • Termin

    Di, 12. Dezember 2017
    17.30 Uhr

  • Veranstaltungsort

    Staatsbibliothek zu Berlin
    Otto-Braun-Saal
    Potsdamer Straße 33
    10785 Berlin

    Eintritt frei, Anmeldung erbeten

  • Anfahrt

    S + U Potsdamer Platz

    Bushaltestelle
    H Potsdamer Brücke (Bus M29)
    H Varian-Fry-Straße (Bus 200)
    H Kulturforum (Bus M48)

  • Alle Veranstaltungen

    Klicken Sie auf den obigen Link um sich weitere Veranstaltungen anzeigen zu lassen.



E.T.A. Hoffmann (links) und Ludwig Devrient im Weinkeller von Lutter & Wegner in Berlin (um 1900) © bpk | Ingo Schulze © Gaby Gerster


Seit Dezember 2016 ist das E.T.A. Hoffmann Portal in einer Betaversion online – Zeit, es endlich in die Vollversion umzuwandeln! Dieses Ereignis feiern wir am 12. Dezember 2017 um 17.30 Uhr in einer Festveranstaltung.

Sie sind herzlich eingeladen!

Zur Anmeldung

12. Dezember 2017
Beginn: 17.30 Uhr
Staatsbibliothek zu Berlin – Preußischer Kulturbesitz
Otto-Braun-Saal
Potsdamer Straße 33
10785 Berlin

Programm

Grußworte
Barbara Schneider-Kempf, Generaldirektorin der Staatsbibliothek zu Berlin
Bettina Wagner, Direktorin der Staatsbibliothek Bamberg
Jörg Petzel, Vizepräsident der E.T.A. Hoffmann-Gesellschaft

Das E.T.A. Hoffmann Portal - Ein Angebot für Forschung, Lehre und Kultur

Das neue Webportal zur Künstlerpersönlichkeit E.T.A. Hoffmann ist ein facettenreiches Angebot für Forschung, Lehre und Bildung. Hierin werden die Sammlungen der Staatsbibliotheken Berlin und Bamberg sowie weiterer Einrichtungen virtuell zusammengeführt – dazu gehören beispielsweise illustrierte Buchausgaben, Autographe und juristische Akten, aber auch Buchobjekte und Gemälde. Mit der datenbankübergreifenden Suche können Fachliteratur und Quellenmaterialien von und zu Hoffmann ortsunabhängig recherchiert werden. Zudem ist das Portal eine zentrale Plattform für Fakten und Informationen rund um den Künstler und sein Umfeld, die durch interaktive Elemente und Datenvisualisierungen neue Zusammenhänge sichtbar macht.

In einer Kurzpräsentation stellen Ursula Jäcker und Christina Schmitz die wesentlichen Funktionen des Portals vor, weisen auf besondere Highlights hin und berichten über den aktuellen Stand des Projekts und Planungen für die weitere Entwicklung.


Ursula Jäcker und Christina Schmitz, Projektleitung

Zwischen Theorie und Philologie. Aktuelle Tendenzen der E.T.A. Hoffmann-Forschung

In ihrem Kurzvortrag unternimmt Prof. Dr. Claudia Liebrand einen kleinen Streifzug durch die relevantesten Publikationen der letzten Jahre zu E.T.A. Hoffmann. Claudia Liebrand ist Professorin für Allgemeine Literaturwissenschaft und Medientheorie an der Universität zu Köln. Gemeinsam mit Hartmut Steinecke, Harald Neumeyer und Kaltërina Latifi gibt sie das E.T.A. Hoffmann-Jahrbuch heraus.


Claudia Liebrand, Herausgeberin des E.T.A. Hoffmann-Jahrbuchs (Universität Köln)

Literarische Quellen online: Ein kleiner Rundgang durch die Welt der Digitalen Edition

Das Edieren von Texten – historischer, aber auch literatur- und sprachwissenschaftlicher Quellen und Dokumente – zählt zum “Kerngeschäft” verschiedener geisteswissenschaftlicher Disziplinen. Im Zuge der Digitalen Transformation hat es einen grundlegenden Wandel erfahren: Quellen – Faksimiles, aber auch Lesefassungen und verschiedene Textstufen – können heute digital erschlossen, online verfügbar und interaktiv nutzbar gemacht werden. Dabei werden wir Rezipienten zunehmend von “LeserInnen” zu “NutzerInnen”. Der Kurzvortrag erläutert an verschiedenen ausgewählten Beispielen, Portalen und Funktionen das Potential solcher digitalen Editionen und wirft einen Blick auf die Herausforderungen und Perspektiven, die uns die vielberufenen “Digital Humanities” heute eröffnen.

Sibylle Söring studierte Germanistik, Philosophie und Theaterwissenschaft an der Freien Universität Berlin. Als Projektmitarbeiterin und Koordinatorin im Forschungsverbund TextGrid war sie an der Schaffung einer virtuellen Forschungsumgebung für Geistes- und Kulturwissenschaften beteiligt. Zudem betreute sie digitale Editionsprojekte zu Theodor Fontanes Notizheften und zu Johann Friedrich Blumenbach. Derzeit arbeitet sie am Center für Digitale Systeme der FU Berlin am Aufbau einer Digital-Humanities-Infrastruktur.

Sibylle Söring / Copyright: Jasper Ian Bray


Sibylle Söring (Center für Digitale Systeme der Freien Universität Berlin)

Musik
Eine Auswahl aus den ‘Duettini italiani’ (WV 67) von E.T.A. Hoffmann
Susanne Henschel (Violine), Jorma Lünenbürger (Cello), Maximilian Kleinert (Piano)

Von Künstlern und Dämonen

Ingo Schulze ist einer der renommiertesten deutschen Autoren seiner Generation. Sein Debüt ›33 Augenblicke des Glücks‹ (1995) wurde mit Begeisterung aufgenommen, einzelne Erzählungen wurden im New Yorker abgedruckt. ›Simple Storys‹ (1998) war ein spektakulärer Erfolg und ist Schullektüre. Für ›Handy‹ (2007) wurde er mit dem Preis der Leipziger Buchmesse ausgezeichnet, für ›Neue Leben‹ (2005) mit dem Joseph-Breitbach-Preis. Sein Werk wurde in mehr als 30 Sprachen übersetzt. Im September 2017 erschien sein neuer Roman ›Peter Holtz. Sein glückliches Leben erzählt von ihm selbst‹.

In Ingo Schulzes Werk ist E.T.A. Hoffmann sehr präsent, seien es Handlungsorte wie Dresden oder St. Petersburg, hoffmanneske Erzählfiguren wie Enrico Türmer oder die Teufelsgestalt Clemens von Barrista im Roman ›Neue Leben‹ oder der fiktive Herausgeber – E.T.A. Hoffmann scheint – mal mehr, mal weniger offensichtlich – in Ingo Schulzes Werken hervor.

Im Gespräch erzählt der Autor von seiner Faszination für E.T.A. Hoffmann und dessen Relevanz für die Gegenwartsliteratur. Er spricht über seine Neuerscheinung ›Peter Holtz‹ und liest Passagen aus seinen Werken vor, die den Einfluss von E.T.A. Hoffmann erkennen lassen.

Ingo Schulze | Copyright: Gaby Gerster


Lesung und Gespräch mit dem Autor Ingo Schulze über E.T.A. Hoffmann
Kleiner Empfang
Weinhandlung Lutter & Wegner


Rahmenprogramm

Büchertisch der Nicolai’schen Buchhandlung

Kleine Ausstellung ausgewählter Hoffmanniana

PC-Stationen zum Stöbern im E.T.A. Hoffmann Portal



Das E.T.A. Hoffmann Portal ist ein Dienst der Staatsbibliothek zu Berlin in Zusammenarbeit mit:

Schlagworte: , , ,

Digital Humanities CC BY-NC-SA

Wappen und Semantic Web. Neue Methoden für alte Quellen. Werkstattgespräch am 26.4.

Wappen und Semantic Web. Neue Methoden für alte Quellen

  • Termin

    Do, 26. April 2018
    18.15 Uhr

  • Veranstaltungsort

    Staatsbibliothek zu Berlin
    Konferenzraum 4
    Haus Unter den Linden
    (Eingang Dorotheenstraße 27, Treffpunkt Rotunde)
    10117 Berlin

    Eintritt frei, Anmeldung erbeten

  • Anfahrt

    S- + U-Bahnstationen
    S + U Friedrichstraße
    U Französische Straße

    Bushaltestelle
    H Unter den Linden, Friedrichstraße (Bus 147)
    H Staatsoper (Bus 100, 200, TXL)



Digital Humanities CC BY-NC-SA


Jun.-Prof. Dr. Torsten Hiltmann, Westfälische Wilhelms-Universität Münster
Fachliche Betreuung: Dr. Nicole Eichenberger, Dr. Jana Madlen Schütte (Mail
)

Wappen waren in der mittelalterlichen Gesellschaft allgegenwärtig und zentraler Bestandteil deren Kultur und Kommunikation. Die bisherige Auseinandersetzung mit den Wappen als Quellengruppe wird dieser Bedeutung jedoch nicht gerecht. Dies gilt sowohl für deren Nutzung im Rahmen hilfswissenschaftlicher Fragestellungen als auch im Bereich der kulturhistorischen Forschung oder der politischen Geschichte. Mit der Digitalisierung bieten sich hier jedoch ganz neue Möglichkeiten, und dies gleich auf mehreren Ebenen.
Der Beitrag wird zunächst die Ursachen für die bisherige Zurückhaltung im Umgang mit den Wappen identifizieren, um daraufhin danach zu fragen, wie sich diese durch den Einsatz neuer digitaler Methoden überwinden lassen. Nach einem Überblick über die bisherigen Ansätze soll dabei insbesondere auf die Methoden und Techniken des Semantic Web eingegangen und deren Nutzen am Beispiel der mittelalterlichen Wappen demonstriert werden – sowohl für die klassischen hilfswissenschaftlichen Aufgaben der Heraldik wie für neue kulturhistorische Perspektiven in der Auseinandersetzung mit dieser besonderen Quellengruppe.



Eine Veranstaltung der Reihe “Digital Humanities in der Mediävistik”

Alle Veranstaltungen der Wissenswerkstatt.

Schlagworte: , ,

Digital Humanities CC BY-NC-SA

Manuscript studies in the digital age: new tools and new questions. Werkstattgespräch am 3.5.

Manuscript studies in the digital age: new tools and new questions

  • Termin

    Do, 3. Mai 2018
    18.15 Uhr

  • Veranstaltungsort

    Staatsbibliothek zu Berlin
    Dietrich-Bonhoeffer-Saal
    Potsdamer Straße 33
    10785 Berlin

    Eintritt frei, Anmeldung erbeten

  • Anfahrt

    S + U Potsdamer Platz

    Bushaltestelle
    H Potsdamer Brücke (Bus M29)
    H Varian-Fry-Straße (Bus 200)
    H Kulturforum (Bus M48)



Digital Humanities CC BY-NC-SA


Prof. Dr. Marc Smith, École nationale des chartes Paris
Fachliche Betreuung: Dr. Nicole Eichenberger, Dr. Jana Madlen Schütte (Mail
)

The use of digital technology, it is no secret, has revolutionised manuscript studies over the past quarter century, bringing about a vast and somewhat chaotic variety of resources, initiatives and perspectives.

The most widely acknowledged benefit lies in mass-digitised manuscripts and archives, made directly accessible to anyone with elementary computer skills, thus leading a new generation of historians and philologists to delve into unpublished texts online — in otherwise traditional ways, and at the cost of acquiring the traditional scholarly skills of palaeography. One wonders about the effects of mass digitisation: can it help draw attention to the importance of manuscripts in general, wherever they are, and to the necessity of engaging with their material uniqueness, or will it lead scholars to concentrate primarily on sources selected for digitisation by archives and libraries, and to think of manuscripts essentially as sets of digital images?

At the other end of the spectrum, a smaller number of scholars have dedicated much effort to the development of high-end, experimental software aimed at the analysis of manuscript resources, particularly in the field of “digital palaeography”: script typology, writer identification, etc. Neural networks and deep learning are now opening up an era in which image repositories can be exploited in terms of “big data”, as a basis for the automatic reading and indexing of manuscripts — until recently a utopian dream.

Some of the more interesting developments are now happening in between, in the field of tools, formats and interfaces that will make it easier for all scholars to navigate an overwhelming quantity of digital resources and to apply powerful methods of analysis. One current project that will be discussed, focusing on a distinctly material aspect, is “Filigranes Pour Tous”, which aims to automate the identification of watermarks in paper, in the form of an app for smartphones.

Eine Veranstaltung der Reihe “Digital Humanities in der Mediävistik”. In Kooperation mit der Tagung „Gebrauch und Funktion handschriftlicher Überlieferung aus dem Preußenland“

Alle Veranstaltungen der Wissenswerkstatt.

Schlagworte: , ,