Beiträge

Nadel(n) im Heuhaufen harvesten

Ein Beitrag von Maria Federbusch.

Wer mit Daten aus unseren Digitalisierten Sammlungen arbeitet, kennt sicherlich bereits unsere OAI-Schnittstelle. Sie folgt dem OAI-PMH 2.0-Protokoll der Open Archives Initiative. Über diese Schnittstelle können Datensets geharvestet werden. Bisher dominierten die einerseits nach Sachgruppen des Alten Realkatalogs und andererseits nach Formalkategorien „ordnenden“ Sets diese Schnittstelle. Vornehmlich datentechnische Informationen zur Nutzung unserer Schnittstelle findet man seit Sommer 2019 dazu in unserem SBB-Lab. Nun erreichen uns immer wieder Anfragen, die auf andere Schnittmengen unserer Daten abzielen. Zudem „verstecken“ sich in den größer werdenden Sets interessante durch Projekte entstandene Spezialkorpora, deren Attribute hinsichtlich der zugrundeliegenden Originale bzw. ihrer Erschließung oder Digitalisierung hervorgehoben werden sollen. Daher haben wir in einem ersten Schritt begonnen, derartige spezielle Datensets für Druckschriften zusätzlich zu den bisher über die Schnittstelle verfügbaren anzubieten. Jetzt kann auch nach Jahrhunderten, Projekten oder einigen beispielhaften Gattungen ausgewählt werden.

 

Beispiele für spezielle Sets

 

Ohne Hintergrundinformationen wüsste allerdings weiterhin niemand, worin evtl. Besonderheiten liegen können. Sie finden ab sofort zu jedem dieser Sets im SBB-Lab eine kurze Beschreibung unter Berücksichtigung folgender Aspekte:
Material (Sprache, Erscheinungszusammenhänge, Bezüge zu o.g. sachlichen OAI-Sets), Umfang (Zahl der METS-Dateien zum jetzigen Zeitpunkt; Publikationsarten der Originale; Digitalisierungsgrad innerhalb des einschlägigen SBB-Bestands), nach Möglichkeit Verlinkung zu den zugehörigen Katalogisaten im StaBiKat, Spezifika aller Art (vorhandene Volltexte und Strukturdaten; zusätzliche Sacherschließung; Besonderheiten der Digitalisierung), Verlinkung zu vorhandenen Projektseiten, Lizenzen und Ansprechpartner.

Beispiele für Beschreibungen im SBB-Lab

 

Die Überschrift benennt das Set und bildet zugleich die Verlinkung zur OAI-Schnittstelle. Nun können wir bei unserer (niemals vollständigen) Setbildung nicht immer Angaben zu allen Aspekten liefern; auch ist das eine oder andere Set im Moment eher experimentell zu verstehen. Schauen Sie selbst.
Wie eingangs beschrieben, möchten wir auch die Schnittstelle „selbstredender“ gestalten. Daher finden Sie an prominenter Stelle den Verweis auf das SBB-Lab sowie bei jedem Set eine konkrete Verlinkung zur jeweiligen Beschreibung. Die Benutzung der Schnittstelle wird des Weiteren erleichtert – oder sagen wir menschenlesbarer – durch die Verlinkung zur SBB-Präsentation sowie zum DFG-Viewer auf Datensatzebene.

Screenshot Beispiel Datensatz

Vielleicht haben wir jetzt Wünsche geweckt oder Projektideen bei Ihnen gesät – es würde uns freuen. Wir sind daran, auch für unsere zahlreichen Sondermaterialien weitere Sets inklusive Bestandsbeschreibungen zu erstellen. Gern hören wir auch von der Verwendung unserer Daten in Ihren Vorhaben, v.a. hinsichtlich der Digital Humanities. Hier gilt es, noch viele Nadeln zu finden!

SoNAR (IDH) – Interfaces to Data for Historical Social Network Analysis

Soziale Netzwerke sind in aller Munde. Über Facebook, Twitter und Co. hören wir regelmäßig in der Tagesschau. Die Verletzung von Datenschutz, die Manipulation öffentlicher Meinungen sind dabei die eine Seite, einfach im Kontakt mit Freunden und Bekannten bleiben sind die andere Seite.

Beziehungen sind das Fundament unseres menschlichen Zusammenlebens, und es hat sie natürlich ohne technische Plattformen auch immer und in vielfältigen Formen gegeben, z.B. in Familien, Stämmen, Dörfern und Städten, Interessengemeinschaft, Parteien und Kirchen. Das Zusammenwirken ist eine Säule des Wirkens eines jeden – in verschiedenen Positionen, in unterschiedlichen Rollen. Die Betrachtung von Beziehungen in Studien über soziale Phänomene kann daher ausgesprochen gewinnbringend sein, wie vor allem soziologische Studien auf der Basis der Sozialen Netzwerkanalyse, kurz SNA, zeigen.

Das von der Deutschen Forschungsgemeinschaft (DFG) seit Juli 2019 für zwei Jahre geförderte Projekt SoNAR (IDH), Interfaces to Data for Historical Social Network Analysis and Research, untersucht wissenschaftliche, technische und organisatorische Methoden, um die sozialen Bindungen vergangener Generationen ohne Facebook & Co. für sozialwissenschaftliche und historische Studien sichtbar zu machen.

Im Zentrum steht dabei die Frage, ob und mit welchen Methoden die in den vergangenen Jahrzehnten in Kulturerbeeinrichtungen digitalisierten Kataloge (Meta- und Normdaten) und Textobjekte (OCR, Transkriptionen) für die Analyse und Exploration von sozialen Beziehungen aufbereitet und nutzbar gemacht werden können. Die Partner dieses Projekts sind neben der Staatsbibliothek zu Berlin – Preußischer Kulturbesitz, das

Sukzessive werden im Projektverlauf diverse Seiten der historischen Netzwerkanalyse mit zunehmender Komplexität betrachtet und ein Konzept für Aufbau und Betrieb einer Forschungstechnologie erarbeitet. Der Schwerpunkt liegt auf Technologien zur Datenaufbereitung und -bereitstellung sowie zur Interaktion und Visualisierung der Daten. Querschnittsaspekte sind einerseits Fragen nach der „Datenerhebung“ für fehlende oder fehlerhafte Ausgangsdaten sowie andererseits die Sicherung der Datenqualität und ganz wesentlich der Benutzerfreundlichkeit von Nutzerschnittstellen.

Auf der Projektwebsite https://sonar.fh-potsdam.de werden Projekt und Projektpartner sowie Aufgaben und Testdatenbestände vorgestellt. Auch finden Interessierte dort die öffentliche Version des DFG-Antrags. Über Zwischen- und Projektergebnisse wird hier und in künftigen Workshops berichtet werden. Es wird schwer sein zeigen zu können, wann soziale Netzwerke früher und heute zu Konflikten oder Unterstützung führen. Es soll aber möglich sein, Muster für weitere Untersuchungen sichtbar zu machen.

“Texte aufräumen” – die ersten CrossAsia N-Gramm-Pakete stehen zum Download bereit

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Von Martina Siebert.

Die meisten kennen sicherlich Ursus Wehrlis Buch „Kunst aufräumen“. Dort wird z.B. Keith Harings „Untitled“ (1986) in seine einzelnen Farbsegmente zerlegt und diese werden fein säuberlich nach Farben und Größe geordnet übereinander gestapelt (siehe z.B. hier). Ganz ähnlich geht das Erstellen von N-Grammen vor. Der eigentliche Text wird in seine Einzelteile zerlegt, identische Einzelteile werden zusammengetragen und dann wird gezählt: was gibt es wie oft. Damit wird sogar noch etwas ökonomischer als bei Herrn Wehrli „aufgeräumt“. Die eigentliche Struktur, das Gesamtbild, wird aufgelöst und der Text strikt statistisch und auf der Basis seiner Einzelteile betrachtet. Was im Fall von N-Grammen als „Einzelteil“ gilt, kann dabei variieren. In Texten in lateinischer Schrift können das die Buchstaben sein oder die durch Leerstellen identifizierbaren Wörter oder auch zwei oder drei (etc.) aufeinanderfolgende Buchstaben oder Wörter.

„Aufräumen“ Ostasiatisch

Für ostasiatische Texte sind die am sichersten korrekt zu identifizierenden Einzelteile die verschiedenen Schriftzeichen (chinesische Schriftzeichen oder auch japanische bzw. koreanische Silbenzeichen). An einem Beispiel lässt sich gut zeigen, wie konzeptionell einfach N-Gramme zunächst gedacht sind. Aus den ersten zwei Phrasen des Daode jing

道可道,非常道。名可名,非常名。無名天地之始, 有名萬物之母。

… wird (hier ohne die Satzzeichen, da die im Original i.d.R. ja auch nicht zur Verfügung stehen) im Fall von 1-Grammen (Monogramm bzw. Engl. unigram) folgendes:

名, 5
道, 3
可, 2
非, 2

常, 2
之, 2
無, 1
天, 1

地, 1
始, 1
有, 1
萬, 1

物, 1
母, 1

… im Fall von 2-Grammen (Bigramm bzw. Engl. bigram), bei denen die Einzelteile nicht aneinander angrenzen, sondern sich schuppenartig überlagern (also 道可, 可道, 道非 etc.), nach Anzahl gestaffelt dieses:

非常, 2
道可, 1
可道, 1
道非, 1
常道, 1
道名, 1

名可, 1
可名, 1
名非, 1
常名, 1
名無, 1
無名, 1

名天, 1
天地, 1
地之, 1
之始, 1
始有, 1
有名, 1

名萬, 1
萬物, 1
物之, 1
之母, 1

Die 3-Gramm (Trigramm bzw. Engl. trigram) Liste würde noch länger und keiner der 3-Gramme würde – auf diesen kleinen Abschnitt bezogen – mehr als einmal vorkommen. Zwei Dinge werden klar: N-Gramme machen für kurze Texte keinen Sinn und die Listen werden schnell sehr groß. Für den gesamten Korpus des Xuxiu Siku quanshu mit 5.446 Titeln sind das 27.387 Monogramme, bzw. 13.216.542 Bigramme; allein für das Beispiel Buwu quanshu 卜筮全書 aus dem Headerbild werden bereits 3.382 Monogramme, 64.438 Bigramme und 125.010 Trigramme gebildet.

Große Listen und dann?

Nur N-Gramm Listen von ganzen Büchern oder sogar ganzen Korpora von Büchern sind in der Lage, inhaltliche Tendenzen aufzuzeigen: treten z.B. bestimmte „Einzelteile“ auffällig oft gemeinsam auf? Was fällt auf, wenn man verschiedene N-Gramm Listen (von Büchern oder Korpora) miteinander vergleicht? Wenn diese rein auf den Textinhalt bezogenen Informationen dann mit den bibliographischen Angaben zu den Büchern in Zusammenhang gesetzt werden, lassen sich Verschiebungen von Gewichtungen und Zusammenspiel dieser „Einzelteile“ über einem Zeitstrahl analysieren oder Charakteristika für bestimmte Autoren oder Buchthemen usw. herausarbeiten.

Der Google-Ngram Viewer oder der HathiTrust Bookworm werden wohl zumeist für genau solche Visualisierungen der Popularität von verschiedenen Termini im Vergleich und über einen Zeitstrahl verwendet. Doch N-Gramme – bereinigt und „geschärft“ durch weitere analytische Routinen – können die Basis für viele weitergreifende Fragen und Antworten bilden. Manche dieser Dinge fallen u.U. auch beim Lesen oder „close reading“ auf – natürlich! Aber N-Gramme gehen erbarmungslos statistisch vor und lassen sich nicht von Leseerwartungen und Standardinterpretationen beeinflussen. Und noch einen großen Vorteil bieten N-Gramme: der eigentliche (lizenzgeschützte) Text ist hinter einer statistischen Analyse seiner Einzelteile verschwunden und die Bereitstellung dieser Statistik stellt keine Verletzung der von CrossAsia abgeschlossenen Hosting- und Indexierungsrechte dar.

Schritt für Schritt in die Zukunft

Das Headerbild zum Artikel zeigt, wie aus dem originalen Druckbild ein durchsuchbarer Volltext wird und aus diesem dann Listen mit 1-, 2-, und 3-Grammen. Die einzelne N-Gramm-Liste selbst ist dabei nur bedingt von Nutzen. Erst wenn sie zusammen mit vielen Listen und mittels Tools und Routinen analysiert wird, zeigt sich das Potential. Die Zahl unserer Nutzerinnen und Nutzer, die auf der Basis solcher Listen ihre eigenen Analysen durchführen, wird sicher in den nächsten Jahren stark zunehmen, da immer öfter digitale Analysemethoden und Formen des „distant reading“ in geisteswissenschaftliche Curricula eingebunden werden. Doch wir arbeiten daran, parallel zu Services wie CrossAsia N-Gramm Listen, Analyse- und Visualisierungstools zu entwickeln, die allen Nutzerinnen und Nutzern einen einfachen Zugang zu unserem beständig wachsenden Fundus an Texten im Repositorium erlauben.

Erste Stationen

Als erstes Tool dafür ist die CrossAsia Volltextsuche Ende April 2018 mit zwei Versionen online gegangen. Ihr Suchraum ist nunmehr auf rund 130.000 Titel mit über 15,4 Mio. Textseiten angewachsen. Die Volltextsuche arbeitet auf Basis einer Wort-Suche in Kombination mit den Buchmetadaten und wird auf lange Sicht – so ist zu vermuten – die Anforderung, Hinweise auf relevante oder interessante Ressourcen zu geben, nicht optimal erfüllen können: zum einen unterscheiden sich die bibliographischen Metadaten der einzelnen Sammlungen stark und als Filter eignen sich im Grunde nur allen gemeinsame Metadatenfelder, zum anderen werden immer mehr Ressourcen durchsucht und man verliert leicht in der großen Treffermenge den Überblick.

Ziel von Aktivitäten wie der Generierung von N-Grammen und der Entwicklung von digitalen Tools zur Ermittlung von Ähnlichkeiten zwischen Texten und der Identifikation von Themen ist, die Texte nicht mehr allein unter dem Blickwinkel ihrer bibliographischen Beschreibung zu betrachten, sondern die Texte auch „über sich selbst“ sprechen zu lassen. N-Gramme, topic modeling (d.h. die Algorithmus-gesteuerte Identifikation von „Themen“ eines Buchs), Named-entity recognition (d.h. das automatische Erkennen und markieren von Personen- und Ortsnamen u.ä.) etc. sind Formen solcher Selbstbeschreibungen von Texten. Wir experimentieren aktuell mit verschiedenen solcher Zugänge, Visualisierungen und Analysen der Textkorpora im CrossAsia ITR und diese sollen der reinen Volltextsuche in naher Zukunft zur Seite gestellt werden.

CrossAsia N-Gramm Service

Drei erste Pakete mit N-Grammen (1-, 2-, und 3-Gramme) der im CrossAsia Integrierten Textrepositorium (ITR) gehosteten Texte haben wir nun als Service für unsere Nutzerinnen und Nutzer – und darüber hinaus – zum Download bereitgestellt (CrossAsia N-gramn Service). Das sind 1. der über 5.400 Titel umfassende schriftsprachliche, chinesische Textkorpus Xuxiu Siku Quanshu 續修四庫全書, 2. das 1906 herausgegebene daoistische Textkompendium Daozang jiyao 道藏辑要 (ca. 300 Titel) und 3. eine über 10.000 Titel große Zusammenstellung von chinesischen Lokalmonographien (difang zhi 地方誌) der Song bis Republikzeit inklusive einiger älterer geographischer Texte.

Die N-Gramme sind hierbei jeweils auf Buchebene generiert worden. Die ID, also der Name der Datei, verweist auf den entsprechenden Metadatensatz in den ebenfalls zum Download bereitstehenden Tabellen mit Metadaten. Einige Hinweise zu dieser ersten Version von N-Grammen: es wurde keine Dublettenkontrolle durchgeführt (also ob z.B. dieselbe Lokalmonographie mehrmals im Korpus vorkommt) und es wurde keine Normalisierung der Zeichenvarianten vorgenommen (bei der z.B. 回, 囬, 廻, 囘 als gleichwertige Zeichen behandelt würden). An Interpunktionen weisen die Volltexte nur chinesische Klammern zur Markierung von Unterüberschriften u.ä. (wie 【 und 】) auf. Auch diese Klammern haben wir in der aktuellen Version getilgt. Wie immer bei der Verwendung von Algorithmen, ist die oben versprochene erbarmungslos statistische Herangehensweise von n-grams natürlich abhängig von einigen sensiblen Entscheidungen beim Vorbereiten der Daten und keine Entscheidung ist für alle Forschungsfragen gleich passend.

Wir sind neugierig!

Helfen Ihnen diese N-Gramm-Listen bei Ihrer Forschung? Was können wir hier besser machen? Haben Sie andere Vorschläge für computergenerierte Informationen über die Texte, die wir zur Verfügung stellen sollten? Wir freuen uns von Ihnen zu unserem neuen Service zu hören!

x-asia@sbb.spk-berlin.de

Dieser Artikel erschien zuerst im CrossAsia Blog.

Vorschau: In unserem nächsten Beitrag nähern wir uns der künstlichen Intelligenz aus Sicht von Kunst und Kultur!