Beiträge

“Texte aufräumen” – die ersten CrossAsia N-Gramm-Pakete stehen zum Download bereit

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Von Martina Siebert.

Die meisten kennen sicherlich Ursus Wehrlis Buch „Kunst aufräumen“. Dort wird z.B. Keith Harings „Untitled“ (1986) in seine einzelnen Farbsegmente zerlegt und diese werden fein säuberlich nach Farben und Größe geordnet übereinander gestapelt (siehe z.B. hier). Ganz ähnlich geht das Erstellen von N-Grammen vor. Der eigentliche Text wird in seine Einzelteile zerlegt, identische Einzelteile werden zusammengetragen und dann wird gezählt: was gibt es wie oft. Damit wird sogar noch etwas ökonomischer als bei Herrn Wehrli „aufgeräumt“. Die eigentliche Struktur, das Gesamtbild, wird aufgelöst und der Text strikt statistisch und auf der Basis seiner Einzelteile betrachtet. Was im Fall von N-Grammen als „Einzelteil“ gilt, kann dabei variieren. In Texten in lateinischer Schrift können das die Buchstaben sein oder die durch Leerstellen identifizierbaren Wörter oder auch zwei oder drei (etc.) aufeinanderfolgende Buchstaben oder Wörter.

„Aufräumen“ Ostasiatisch

Für ostasiatische Texte sind die am sichersten korrekt zu identifizierenden Einzelteile die verschiedenen Schriftzeichen (chinesische Schriftzeichen oder auch japanische bzw. koreanische Silbenzeichen). An einem Beispiel lässt sich gut zeigen, wie konzeptionell einfach N-Gramme zunächst gedacht sind. Aus den ersten zwei Phrasen des Daode jing

道可道,非常道。名可名,非常名。無名天地之始, 有名萬物之母。

… wird (hier ohne die Satzzeichen, da die im Original i.d.R. ja auch nicht zur Verfügung stehen) im Fall von 1-Grammen (Monogramm bzw. Engl. unigram) folgendes:

名, 5
道, 3
可, 2
非, 2

常, 2
之, 2
無, 1
天, 1

地, 1
始, 1
有, 1
萬, 1

物, 1
母, 1

… im Fall von 2-Grammen (Bigramm bzw. Engl. bigram), bei denen die Einzelteile nicht aneinander angrenzen, sondern sich schuppenartig überlagern (also 道可, 可道, 道非 etc.), nach Anzahl gestaffelt dieses:

非常, 2
道可, 1
可道, 1
道非, 1
常道, 1
道名, 1

名可, 1
可名, 1
名非, 1
常名, 1
名無, 1
無名, 1

名天, 1
天地, 1
地之, 1
之始, 1
始有, 1
有名, 1

名萬, 1
萬物, 1
物之, 1
之母, 1

Die 3-Gramm (Trigramm bzw. Engl. trigram) Liste würde noch länger und keiner der 3-Gramme würde – auf diesen kleinen Abschnitt bezogen – mehr als einmal vorkommen. Zwei Dinge werden klar: N-Gramme machen für kurze Texte keinen Sinn und die Listen werden schnell sehr groß. Für den gesamten Korpus des Xuxiu Siku quanshu mit 5.446 Titeln sind das 27.387 Monogramme, bzw. 13.216.542 Bigramme; allein für das Beispiel Buwu quanshu 卜筮全書 aus dem Headerbild werden bereits 3.382 Monogramme, 64.438 Bigramme und 125.010 Trigramme gebildet.

Große Listen und dann?

Nur N-Gramm Listen von ganzen Büchern oder sogar ganzen Korpora von Büchern sind in der Lage, inhaltliche Tendenzen aufzuzeigen: treten z.B. bestimmte „Einzelteile“ auffällig oft gemeinsam auf? Was fällt auf, wenn man verschiedene N-Gramm Listen (von Büchern oder Korpora) miteinander vergleicht? Wenn diese rein auf den Textinhalt bezogenen Informationen dann mit den bibliographischen Angaben zu den Büchern in Zusammenhang gesetzt werden, lassen sich Verschiebungen von Gewichtungen und Zusammenspiel dieser „Einzelteile“ über einem Zeitstrahl analysieren oder Charakteristika für bestimmte Autoren oder Buchthemen usw. herausarbeiten.

Der Google-Ngram Viewer oder der HathiTrust Bookworm werden wohl zumeist für genau solche Visualisierungen der Popularität von verschiedenen Termini im Vergleich und über einen Zeitstrahl verwendet. Doch N-Gramme – bereinigt und „geschärft“ durch weitere analytische Routinen – können die Basis für viele weitergreifende Fragen und Antworten bilden. Manche dieser Dinge fallen u.U. auch beim Lesen oder „close reading“ auf – natürlich! Aber N-Gramme gehen erbarmungslos statistisch vor und lassen sich nicht von Leseerwartungen und Standardinterpretationen beeinflussen. Und noch einen großen Vorteil bieten N-Gramme: der eigentliche (lizenzgeschützte) Text ist hinter einer statistischen Analyse seiner Einzelteile verschwunden und die Bereitstellung dieser Statistik stellt keine Verletzung der von CrossAsia abgeschlossenen Hosting- und Indexierungsrechte dar.

Schritt für Schritt in die Zukunft

Das Headerbild zum Artikel zeigt, wie aus dem originalen Druckbild ein durchsuchbarer Volltext wird und aus diesem dann Listen mit 1-, 2-, und 3-Grammen. Die einzelne N-Gramm-Liste selbst ist dabei nur bedingt von Nutzen. Erst wenn sie zusammen mit vielen Listen und mittels Tools und Routinen analysiert wird, zeigt sich das Potential. Die Zahl unserer Nutzerinnen und Nutzer, die auf der Basis solcher Listen ihre eigenen Analysen durchführen, wird sicher in den nächsten Jahren stark zunehmen, da immer öfter digitale Analysemethoden und Formen des „distant reading“ in geisteswissenschaftliche Curricula eingebunden werden. Doch wir arbeiten daran, parallel zu Services wie CrossAsia N-Gramm Listen, Analyse- und Visualisierungstools zu entwickeln, die allen Nutzerinnen und Nutzern einen einfachen Zugang zu unserem beständig wachsenden Fundus an Texten im Repositorium erlauben.

Erste Stationen

Als erstes Tool dafür ist die CrossAsia Volltextsuche Ende April 2018 mit zwei Versionen online gegangen. Ihr Suchraum ist nunmehr auf rund 130.000 Titel mit über 15,4 Mio. Textseiten angewachsen. Die Volltextsuche arbeitet auf Basis einer Wort-Suche in Kombination mit den Buchmetadaten und wird auf lange Sicht – so ist zu vermuten – die Anforderung, Hinweise auf relevante oder interessante Ressourcen zu geben, nicht optimal erfüllen können: zum einen unterscheiden sich die bibliographischen Metadaten der einzelnen Sammlungen stark und als Filter eignen sich im Grunde nur allen gemeinsame Metadatenfelder, zum anderen werden immer mehr Ressourcen durchsucht und man verliert leicht in der großen Treffermenge den Überblick.

Ziel von Aktivitäten wie der Generierung von N-Grammen und der Entwicklung von digitalen Tools zur Ermittlung von Ähnlichkeiten zwischen Texten und der Identifikation von Themen ist, die Texte nicht mehr allein unter dem Blickwinkel ihrer bibliographischen Beschreibung zu betrachten, sondern die Texte auch „über sich selbst“ sprechen zu lassen. N-Gramme, topic modeling (d.h. die Algorithmus-gesteuerte Identifikation von „Themen“ eines Buchs), Named-entity recognition (d.h. das automatische Erkennen und markieren von Personen- und Ortsnamen u.ä.) etc. sind Formen solcher Selbstbeschreibungen von Texten. Wir experimentieren aktuell mit verschiedenen solcher Zugänge, Visualisierungen und Analysen der Textkorpora im CrossAsia ITR und diese sollen der reinen Volltextsuche in naher Zukunft zur Seite gestellt werden.

CrossAsia N-Gramm Service

Drei erste Pakete mit N-Grammen (1-, 2-, und 3-Gramme) der im CrossAsia Integrierten Textrepositorium (ITR) gehosteten Texte haben wir nun als Service für unsere Nutzerinnen und Nutzer – und darüber hinaus – zum Download bereitgestellt (CrossAsia N-gramn Service). Das sind 1. der über 5.400 Titel umfassende schriftsprachliche, chinesische Textkorpus Xuxiu Siku Quanshu 續修四庫全書, 2. das 1906 herausgegebene daoistische Textkompendium Daozang jiyao 道藏辑要 (ca. 300 Titel) und 3. eine über 10.000 Titel große Zusammenstellung von chinesischen Lokalmonographien (difang zhi 地方誌) der Song bis Republikzeit inklusive einiger älterer geographischer Texte.

Die N-Gramme sind hierbei jeweils auf Buchebene generiert worden. Die ID, also der Name der Datei, verweist auf den entsprechenden Metadatensatz in den ebenfalls zum Download bereitstehenden Tabellen mit Metadaten. Einige Hinweise zu dieser ersten Version von N-Grammen: es wurde keine Dublettenkontrolle durchgeführt (also ob z.B. dieselbe Lokalmonographie mehrmals im Korpus vorkommt) und es wurde keine Normalisierung der Zeichenvarianten vorgenommen (bei der z.B. 回, 囬, 廻, 囘 als gleichwertige Zeichen behandelt würden). An Interpunktionen weisen die Volltexte nur chinesische Klammern zur Markierung von Unterüberschriften u.ä. (wie 【 und 】) auf. Auch diese Klammern haben wir in der aktuellen Version getilgt. Wie immer bei der Verwendung von Algorithmen, ist die oben versprochene erbarmungslos statistische Herangehensweise von n-grams natürlich abhängig von einigen sensiblen Entscheidungen beim Vorbereiten der Daten und keine Entscheidung ist für alle Forschungsfragen gleich passend.

Wir sind neugierig!

Helfen Ihnen diese N-Gramm-Listen bei Ihrer Forschung? Was können wir hier besser machen? Haben Sie andere Vorschläge für computergenerierte Informationen über die Texte, die wir zur Verfügung stellen sollten? Wir freuen uns von Ihnen zu unserem neuen Service zu hören!

x-asia@sbb.spk-berlin.de

Dieser Artikel erschien zuerst im CrossAsia Blog.

Vorschau: In unserem nächsten Beitrag nähern wir uns der künstlichen Intelligenz aus Sicht von Kunst und Kultur!

Die CrossAsia Volltextsuche für Asieninteressierte!

Ein Beitrag von Martina Siebert

Seit einigen Monaten steht bereits eine erste Version der CrossAsia Volltextsuche zur Verfügung. Die Volltextsuche basiert auf den Texten, die im CrossAsia Integrierten TextRepositorium (ITR) gespeichert sind, welches der Aufgabe dient, Texte, Bilder und Metadaten der für CrossAsia lizenzierten Datenbanken sicher und nachhaltig zu archivieren und zugleich die Möglichkeit bietet, diese Inhalte nahtlos in aktuelle und zukünftige CrossAsia Services einzubinden und im Rahmen der digitalen Wissenschaften für Analysen, Explorationen, Anreicherungen und Visualisierungen anbieten zu können. Wie bei Lagern, Magazinen, Repositorien zumeist die Regel, ist auch das CrossAsia ITR vor allem Infrastruktur, d.h. es *ermöglicht* Dinge ohne selbst unmittelbar sichtbar und greifbar zu werden. Die Volltextsuche kann also als eine Spitze dieses sonst von außen nicht sichtbaren „Eisbergs“ vorgestellt werden.

Das ITR und die in die Volltextsuche eingebetteten Ressourcen wachsen kontinuierlich und wir konnten jetzt auch eine zweite Variante der Volltextsuche freischalten. Zu beidem finden Sie mehr Details weiter unten. Ein wichtiger Punkt bei der Volltextsuche für uns ist, sie so anzubieten, dass sie *allen* Nutzer*innen zur Verfügung steht, also auch solchen, die keinen Zugang zu den jeweiligen Datenbanken haben bzw. deren Zugang nicht über CrossAsia ermöglicht wird. Damit fügt sich die Volltextsuche harmonisch in das Profil der eher „bibliographischen“ CrossAsia Suche ein, die ebenfalls frei zur Verfügung steht.

Schnipsel und Links

Die Treffer in der CrossAsia Volltextsuche werden als sehr kurze und fragmentierte Textschnipsel ausgegeben. Nur so ist es möglich, die Suche für alle zu öffnen und dabei die für diese Ressourcen vereinbarten Lizenzbedingungen zu wahren. Auch Nutzer*innen ohne Zugang zu den jeweiligen Datenbanken wird damit die Möglichkeit gegeben, einen Eindruck zu gewinnen, welche Quellen u.U. relevant für die eigene Fragestellung sind. Über verschiedene Links in den Treffern gelangt man zur kompletten Quelle. Für authentifizierte CrossAsia-Nutzer*innen führt das ‚rot‘ gefärbte Icon direkt zum Objekt im originalen Kontext der Datenbank; für Nutzer*innen mit anderen Zugangsmöglichkeiten – z.B. über den IP-Range ihrer Institution oder ein individuelles Login – wird parallel ein ‚graues‘ Icon angeboten. „Direkt zur Quelle“ bedeutet für die verschiedenen Ressourcen dann doch verschiedenes. In jedem Fall stellen wir möglichst treffgenaue Links zur Verfügung. D.h. wenn der Datenbankanbieter uns das ermöglicht, wird die entsprechende Seite angesteuert, in anderen Fällen gelangt man zumindest zum Buch oder Artikel und muss dort dann die im Treffer angegebene Seite (bzw. Imagenummer) aufschlagen. In einigen Fällen jedoch stehen nur Links zur jeweiligen Datenbank zur Verfügung. Hier ist der Weg dann etwas weiter bis zur Fundstelle (so aktuell z.B. der Fall für die People’s Daily und die Lokalmonographien der Erudition-Datenbank).

Noch mehr Volltexte für die Suche

Der Korpus an Texten, die in der CrossAsia Volltextsuche durchsucht werden können, wächst kontinuierlich. Aktuell dominieren chinesische Texte und englische Texte mit Chinabezug, aber weitere Ressourcen, die auch für die Japan-, Korea- und weitere asienbezogene Forschung relevant sind, befinden sich bereits in der Pipeline. Aktuell können die Inhalte der folgenden, über CrossAsia lizenzierten Datenbanken recherchiert werden:

  • Adam Matthew – China, America, Pacific
  • Adam Matthew – China Trade & Politics
  • Adam Matthew – Foreign Office Files China
  • 道藏輯要
  • 中國地方誌 一集 (雕龍)
  • 中國地方誌 續集 (雕龍)
  • Missionary, Sinology, and Literary Periodicals (1817-1949)
  • Local Gazetteers (Erudition)
  • 人民日报 : People’s daily (1946-2009)
  • 清代史料
  • 四庫全書
  • 續修四庫全書

Darüber hinaus sind in die Volltextsuche einzelne lizenzierte Bände aus den Airiti und CNKI ebook-Portalen integriert, sowie ein Testsample an gedruckten Beständen, für die wir selbst mittels OCR einen Index erstellt haben. Zusammen sind das aktuell: 120 Tausend Titel (Buch- und Artikeltitel) mit über 13 Millionen Seiten. Das ist schon eine ziemlich große Eisbergspitze.

Noch mehr Suche für die Volltexte

Einigen Nutzer*innen ist die CrossAsia Volltextsuche Typ A mittlerweile schon vertraut. Jetzt haben wir ihr eine Volltextsuche Typ B zur Seite gestellt. Charakterisieren lassen sich die beiden als „geführte Suche“ (Typ A) und „explorative Suche“ (Typ B).

Typ A nimmt als Anker für die Suche Einheiten wie z.B. ein Buch oder eine Tagesausgabe der People’s Daily und verwendet die Anzahl der Seiten/Artikel mit Treffern darin als Kriterium für die Reihenfolge der Anzeige. Ein Buch mit mehr Seiten, auf denen der Suchterm erscheint, wird also höher gerankt. Die „Anker“ bzw. Bücher etc. werden im Suchergebnis in der linken Spalte in diesem Ranking angezeigt; wählt man ein Objekt dort aus, erscheinen die Seiten mit Treffern aus dem ausgewählten Objekt in der mittleren Spalte. Diese sind nach Seitenzahl geordnet. Mit Hilfe der Filter in der rechten Spalte kann man die Treffermenge dann weiter reduzieren bzw. fokussieren. Es wird in Typ A  *nur* in den Inhalten der Seiten gesucht und diese Inhalte zu ihren jeweiligen Büchern o.ä. gebündelt ausgegeben.

Hier die Funktionen der drei Seitenbereiche von Typ A im Überblick:

“Geführte” Volltextsuche (Typ A)

Typ B behandelt alle Objekte gleichberechtigt. D.h. Bücher, Artikel oder Archivalien und die einzelnen Volltextseiten werden auf ihre Relevanz in Bezug auf den Suchterm vom Index bewertet und in der Reihenfolge dieser Bewertung (dem „score“) als Treffer ausgeliefert. Metadaten, Beschreibungen, Autorennamen, Volltexte – alles wird durchsucht und in bunt gemischter Reihe ausgegeben. Über Filter auf der linken Seite kann der Typ der Trefferobjekte gewählt werden (also ob nur Seiten oder nur Bücher bzw. Artikel und ihre Metadaten ausgeben werden sollen) oder auch Filter wie Jahr, subject u.ä. eingestellt werden. Dies kann wiederum nachträglich geschehen, in Typ B aber auch bevor ein Suchterm eingegeben wurde. Zu beachten hier ist, dass aktuell für Seiten keine inhaltlichen Filter zur Verfügung stehen. IE jenseits von Edge setzen die Filterfunktion nicht korrekt um.

“Explorative” Volltextsuche (Typ B)

Einen kurzen Überblick gibt auch die neue Einstiegsseite für die CrossAsia Volltextsuche. Mehr Informationen zu den jeweiligen Besonderheiten der beiden Such-Typen können über das „i“ hinter den Suchschlitzen aufgerufen werden.

Und was kommt dann?

Beide Suchmodi lösen Schranken zwischen verschiedenen Quellenkorpora und Texttypen auf, die durch die individuellen Datenbankzugänge geschaffen wurden, und ermöglichen damit – so hoffen wir – neue, bessere Wege, sich einen Überblick über die Quellenlage zu verschaffen und das Umfeld eines Suchterminus in einem möglichst breiten Spektrum von Texten zu ergründen. Details aus verschiedenen Datenkorpora werden gemeinsam angezeigt und werden jenseits der von der Datenbank vorgegebenen Logik ansteuerbar. Das ist ein wichtiger, aber doch auch nur ein erster Schritt. Um sich in diesen großen Mengen an Text nicht zu verlieren, wollen wir gemeinsam mit unseren Nutzern überlegen, wie innovative Recherche- und Zugangsmodi aussehen könnten. Um zudem diese große Menge an Text für neue Forschungsfragen in den digitalen Geisteswissenschaften zu erschließen, arbeiten wir an Schnittstellen, über die Projekte (große und individuelle) mit diesen Daten in Zukunft arbeiten können, aber auch an Wegen über ein pre-processing diese Texte nicht nur über die Metadaten ihrer bibliographischen Einheit zu charakterisieren, sondern auch „aus sich selbst heraus“, d.h. mit Hilfe von automatisierter Textanreicherung und statistischen Auswertungen von Kollokationen u.ä. weitere Formen von „Metadaten“ zu generieren.

Über Hinweise, Feedback, Vorschläge, Kritik sind wir dankbar! Am besten direkt an x-asia@sbb.spk-berlin.de