Beiträge zu Innovationen in unserem IT-Bereich

“Texte aufräumen” – die ersten CrossAsia N-Gramm-Pakete stehen zum Download bereit

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Von Martina Siebert.

Die meisten kennen sicherlich Ursus Wehrlis Buch „Kunst aufräumen“. Dort wird z.B. Keith Harings „Untitled“ (1986) in seine einzelnen Farbsegmente zerlegt und diese werden fein säuberlich nach Farben und Größe geordnet übereinander gestapelt (siehe z.B. hier). Ganz ähnlich geht das Erstellen von N-Grammen vor. Der eigentliche Text wird in seine Einzelteile zerlegt, identische Einzelteile werden zusammengetragen und dann wird gezählt: was gibt es wie oft. Damit wird sogar noch etwas ökonomischer als bei Herrn Wehrli „aufgeräumt“. Die eigentliche Struktur, das Gesamtbild, wird aufgelöst und der Text strikt statistisch und auf der Basis seiner Einzelteile betrachtet. Was im Fall von N-Grammen als „Einzelteil“ gilt, kann dabei variieren. In Texten in lateinischer Schrift können das die Buchstaben sein oder die durch Leerstellen identifizierbaren Wörter oder auch zwei oder drei (etc.) aufeinanderfolgende Buchstaben oder Wörter.

„Aufräumen“ Ostasiatisch

Für ostasiatische Texte sind die am sichersten korrekt zu identifizierenden Einzelteile die verschiedenen Schriftzeichen (chinesische Schriftzeichen oder auch japanische bzw. koreanische Silbenzeichen). An einem Beispiel lässt sich gut zeigen, wie konzeptionell einfach N-Gramme zunächst gedacht sind. Aus den ersten zwei Phrasen des Daode jing

道可道,非常道。名可名,非常名。無名天地之始, 有名萬物之母。

… wird (hier ohne die Satzzeichen, da die im Original i.d.R. ja auch nicht zur Verfügung stehen) im Fall von 1-Grammen (Monogramm bzw. Engl. unigram) folgendes:

名, 5
道, 3
可, 2
非, 2

常, 2
之, 2
無, 1
天, 1

地, 1
始, 1
有, 1
萬, 1

物, 1
母, 1

… im Fall von 2-Grammen (Bigramm bzw. Engl. bigram), bei denen die Einzelteile nicht aneinander angrenzen, sondern sich schuppenartig überlagern (also 道可, 可道, 道非 etc.), nach Anzahl gestaffelt dieses:

非常, 2
道可, 1
可道, 1
道非, 1
常道, 1
道名, 1

名可, 1
可名, 1
名非, 1
常名, 1
名無, 1
無名, 1

名天, 1
天地, 1
地之, 1
之始, 1
始有, 1
有名, 1

名萬, 1
萬物, 1
物之, 1
之母, 1

Die 3-Gramm (Trigramm bzw. Engl. trigram) Liste würde noch länger und keiner der 3-Gramme würde – auf diesen kleinen Abschnitt bezogen – mehr als einmal vorkommen. Zwei Dinge werden klar: N-Gramme machen für kurze Texte keinen Sinn und die Listen werden schnell sehr groß. Für den gesamten Korpus des Xuxiu Siku quanshu mit 5.446 Titeln sind das 27.387 Monogramme, bzw. 13.216.542 Bigramme; allein für das Beispiel Buwu quanshu 卜筮全書 aus dem Headerbild werden bereits 3.382 Monogramme, 64.438 Bigramme und 125.010 Trigramme gebildet.

Große Listen und dann?

Nur N-Gramm Listen von ganzen Büchern oder sogar ganzen Korpora von Büchern sind in der Lage, inhaltliche Tendenzen aufzuzeigen: treten z.B. bestimmte „Einzelteile“ auffällig oft gemeinsam auf? Was fällt auf, wenn man verschiedene N-Gramm Listen (von Büchern oder Korpora) miteinander vergleicht? Wenn diese rein auf den Textinhalt bezogenen Informationen dann mit den bibliographischen Angaben zu den Büchern in Zusammenhang gesetzt werden, lassen sich Verschiebungen von Gewichtungen und Zusammenspiel dieser „Einzelteile“ über einem Zeitstrahl analysieren oder Charakteristika für bestimmte Autoren oder Buchthemen usw. herausarbeiten.

Der Google-Ngram Viewer oder der HathiTrust Bookworm werden wohl zumeist für genau solche Visualisierungen der Popularität von verschiedenen Termini im Vergleich und über einen Zeitstrahl verwendet. Doch N-Gramme – bereinigt und „geschärft“ durch weitere analytische Routinen – können die Basis für viele weitergreifende Fragen und Antworten bilden. Manche dieser Dinge fallen u.U. auch beim Lesen oder „close reading“ auf – natürlich! Aber N-Gramme gehen erbarmungslos statistisch vor und lassen sich nicht von Leseerwartungen und Standardinterpretationen beeinflussen. Und noch einen großen Vorteil bieten N-Gramme: der eigentliche (lizenzgeschützte) Text ist hinter einer statistischen Analyse seiner Einzelteile verschwunden und die Bereitstellung dieser Statistik stellt keine Verletzung der von CrossAsia abgeschlossenen Hosting- und Indexierungsrechte dar.

Schritt für Schritt in die Zukunft

Das Headerbild zum Artikel zeigt, wie aus dem originalen Druckbild ein durchsuchbarer Volltext wird und aus diesem dann Listen mit 1-, 2-, und 3-Grammen. Die einzelne N-Gramm-Liste selbst ist dabei nur bedingt von Nutzen. Erst wenn sie zusammen mit vielen Listen und mittels Tools und Routinen analysiert wird, zeigt sich das Potential. Die Zahl unserer Nutzerinnen und Nutzer, die auf der Basis solcher Listen ihre eigenen Analysen durchführen, wird sicher in den nächsten Jahren stark zunehmen, da immer öfter digitale Analysemethoden und Formen des „distant reading“ in geisteswissenschaftliche Curricula eingebunden werden. Doch wir arbeiten daran, parallel zu Services wie CrossAsia N-Gramm Listen, Analyse- und Visualisierungstools zu entwickeln, die allen Nutzerinnen und Nutzern einen einfachen Zugang zu unserem beständig wachsenden Fundus an Texten im Repositorium erlauben.

Erste Stationen

Als erstes Tool dafür ist die CrossAsia Volltextsuche Ende April 2018 mit zwei Versionen online gegangen. Ihr Suchraum ist nunmehr auf rund 130.000 Titel mit über 15,4 Mio. Textseiten angewachsen. Die Volltextsuche arbeitet auf Basis einer Wort-Suche in Kombination mit den Buchmetadaten und wird auf lange Sicht – so ist zu vermuten – die Anforderung, Hinweise auf relevante oder interessante Ressourcen zu geben, nicht optimal erfüllen können: zum einen unterscheiden sich die bibliographischen Metadaten der einzelnen Sammlungen stark und als Filter eignen sich im Grunde nur allen gemeinsame Metadatenfelder, zum anderen werden immer mehr Ressourcen durchsucht und man verliert leicht in der großen Treffermenge den Überblick.

Ziel von Aktivitäten wie der Generierung von N-Grammen und der Entwicklung von digitalen Tools zur Ermittlung von Ähnlichkeiten zwischen Texten und der Identifikation von Themen ist, die Texte nicht mehr allein unter dem Blickwinkel ihrer bibliographischen Beschreibung zu betrachten, sondern die Texte auch „über sich selbst“ sprechen zu lassen. N-Gramme, topic modeling (d.h. die Algorithmus-gesteuerte Identifikation von „Themen“ eines Buchs), Named-entity recognition (d.h. das automatische Erkennen und markieren von Personen- und Ortsnamen u.ä.) etc. sind Formen solcher Selbstbeschreibungen von Texten. Wir experimentieren aktuell mit verschiedenen solcher Zugänge, Visualisierungen und Analysen der Textkorpora im CrossAsia ITR und diese sollen der reinen Volltextsuche in naher Zukunft zur Seite gestellt werden.

CrossAsia N-Gramm Service

Drei erste Pakete mit N-Grammen (1-, 2-, und 3-Gramme) der im CrossAsia Integrierten Textrepositorium (ITR) gehosteten Texte haben wir nun als Service für unsere Nutzerinnen und Nutzer – und darüber hinaus – zum Download bereitgestellt (CrossAsia N-gramn Service). Das sind 1. der über 5.400 Titel umfassende schriftsprachliche, chinesische Textkorpus Xuxiu Siku Quanshu 續修四庫全書, 2. das 1906 herausgegebene daoistische Textkompendium Daozang jiyao 道藏辑要 (ca. 300 Titel) und 3. eine über 10.000 Titel große Zusammenstellung von chinesischen Lokalmonographien (difang zhi 地方誌) der Song bis Republikzeit inklusive einiger älterer geographischer Texte.

Die N-Gramme sind hierbei jeweils auf Buchebene generiert worden. Die ID, also der Name der Datei, verweist auf den entsprechenden Metadatensatz in den ebenfalls zum Download bereitstehenden Tabellen mit Metadaten. Einige Hinweise zu dieser ersten Version von N-Grammen: es wurde keine Dublettenkontrolle durchgeführt (also ob z.B. dieselbe Lokalmonographie mehrmals im Korpus vorkommt) und es wurde keine Normalisierung der Zeichenvarianten vorgenommen (bei der z.B. 回, 囬, 廻, 囘 als gleichwertige Zeichen behandelt würden). An Interpunktionen weisen die Volltexte nur chinesische Klammern zur Markierung von Unterüberschriften u.ä. (wie 【 und 】) auf. Auch diese Klammern haben wir in der aktuellen Version getilgt. Wie immer bei der Verwendung von Algorithmen, ist die oben versprochene erbarmungslos statistische Herangehensweise von n-grams natürlich abhängig von einigen sensiblen Entscheidungen beim Vorbereiten der Daten und keine Entscheidung ist für alle Forschungsfragen gleich passend.

Wir sind neugierig!

Helfen Ihnen diese N-Gramm-Listen bei Ihrer Forschung? Was können wir hier besser machen? Haben Sie andere Vorschläge für computergenerierte Informationen über die Texte, die wir zur Verfügung stellen sollten? Wir freuen uns von Ihnen zu unserem neuen Service zu hören!

x-asia@sbb.spk-berlin.de

Dieser Artikel erschien zuerst im CrossAsia Blog.

Vorschau: In unserem nächsten Beitrag nähern wir uns der künstlichen Intelligenz aus Sicht von Kunst und Kultur!

Bild1

Mit KI zum Durchbruch bei der OCR für historische Drucke

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Texterkennung bzw. OCR (Optical Character Recognition) stellt einen entscheidenden Schritt dar, um von Digitalisaten, d.h. gescannten Bildern von (Buch-)Seiten, zu durchsuchbarem, elektronischen Volltext zu gelangen. Während OCR für zeitgenössische Dokumente inzwischen beinahe fehlerfrei funktioniert, sahen die mit kommerziellen OCR-Produkten erzielbaren Ergebnisse bei historischen Drucken und Frakturschriften bislang weniger zufriedenstellend aus.

OCR Courante uyt Italien, Duytslandt, &c.

OCR Ergebnis für die “Courante uyt Italien, Duytslandt, &c.” (1618)

OCR für historische Dokumente

Zahlreiche Forschungsprojekte haben sich daher mit der Weiterentwicklung von OCR-Verfahren spezifisch für historische Drucke beschäftigt, so z.B. IMPACT, eMOP(In)Venod uvm. Den meisten dieser Initiativen ist allerdings gemein, dass sie zu früh endeten um vom neuerlichen Boom der Künstlichen Intelligenz (bzw. des maschinellen Lernens) zu profitieren. Im Bereich der OCR kann dafür 2016 als das entscheidende Jahr gelten: zwei “Klassiker” der Open Source OCR, Tesseract und OCRopus wurden grundlegend erneuert und auf KI-basierte Verfahren in Form sog. rekurrenter neuronaler Netze (RNN) in Kombination mit LSTM (Long short-term memory) umgestellt. Tesseract Hauptentwickler Ray Smith berichtete dazu in einem Tutorial im DAS2016 Workshop, während parallel Uwe Springmann zeigte, welche Erkennungsqualität mit OCRopus und Training inzwischen auch für historische Materialien möglich ist.

Grundsätzlich besteht ein künstliches Neuronales Netz – analog zum menschlichen Gehirn – aus einer Anzahl von miteinander vernetzten Neuronen (Rezeptoren). Entscheidend für die Lernfunktion eines Neuronalen Netz ist dabei dessen Topologie, also die Struktur des Netzes. Darunter versteht man einerseits die Anzahl und Typologie der Neuronen und ihre Verbindungen untereinander als auch die Verbindungen der Neuronen durch verschiedene Schichten hindurch. Der Nutzen von Neuronalen Netzen ist vor allem dann groß, wenn kein oder nur geringes Wissen über einen Lösungsweg vorliegt. In einem solchen Fall wird das Neuronale Netz mit manuell erzeugten Daten (Ground Truth) trainiert und das Neuronale Netz lernt selbstständig einen Lösungsweg um von den Eingabedaten zu den Ground Truth Daten zu gelangen.

Das Video zeigt, wie ein neuronales Netz nach und nach den in der obersten Zeile (invertiert) dargestellten Text erkennen lernt

Durchbrüche in der OCR durch KI

Ein entscheidender Durchbruch der KI-basierten OCR ist der Wechsel von “segmentatierungsbasierten” zu sog. “segmentierungsfreien” Ansätzen. Was genau ist damit gemeint?

Klassische Verfahren beginnen mit der Unterteilung einer Seite in Bereiche (“Blöcke” bzw. “Regionen” oder auch “Zonen”) die Text enthalten sowie Bereiche ohne Text (bspw. Abbildungen, Verzierungen usw.). Die Textbereiche werden anschließend weiter in einzelne Zeilen unterteilt (“Zeilensegmentierung”), diese wiederum in Wörter (“Wortsegmentierung”) und in einzelne Zeichen (“Zeichensegmentierung”). Die OCR gleicht dann die isolierten Buchstaben mit einer Datenbank von hinterlegten Mustern von Zeichen ab, um das wahrscheinlichste Zeichen zu bestimmen. Die “segmentierungsfreien” Verfahren hingegen betrachten immer den gesamten Text einer Zeile und profitieren dadurch von zusätzlichen Kontextinformationen wie bspw. anderen Wörtern in der selben Zeile.

Eine weitere Neuerung von KI-basierten OCR-Verfahren ist der Verzicht auf ein Sprachmodell. Klassische OCR verwendet Lexika und Wortfrequenzlisten um durch die optische Erkennung gewonnenen Wörter zusätzlich abzusichern. Wie jedoch Ray Smith 2011 auf der ICDAR-Konferenz zeigte, bringen insbesondere frequenzbasierte Sprachmodelle bei bereits guten Zeichenklassifikationen mehr Schaden als Nutzen. Gerade für historische Drucke, die sich durch uneinheitliche Orthografie, häufige Eigennamen und variierendes Schriftbild auszeichnen, kann eine sprachbasierte Nachkorrektur sogar zu einer “Verschlimmbesserung” führen, die eine wissenschaftliche Nachnutzung unmöglich macht.

OCR-D: Weiterentwicklung von OCR für historische Drucke

Um die neuen Möglichkeiten KI-basierter Verfahren rund um OCR für historische Drucke auszuloten und nachnutzbar zu machen fand sich dank DFG-Förderung in 2015 die “Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition”, kurz OCR-D, zusammen. 2015 – 2017 wurden in einer ersten Projektphase Bedarfe für die Weiterentwicklung der automatischen Texterkennung analysiert. Die ermittelten Anforderungen mündeten im März 2017 in der DFG-Ausschreibung „Skalierbare Verfahren der Text- und Strukturerkennung für die Volltextdigitalisierung historischer Drucke“. Die Bewilligung von acht Modulprojekten zum Dezember 2017 markierte den Beginn der zweiten Projektphase, in der aktuell die Modulprojekte verschiedene Prototypen entwickeln. Dabei finden KI-basierte Methoden gleich in mehreren OCR-D Modulprojekten Verwendung:

Referenzen:

Vorschau: Mit unserem nächsten Beitrag reisen wir nach Ostasien!

WLAN – jetzt mit alternativem eduroam-Zugang und noch einfacher

Viele unserer Leserinnen und Leser haben einen eduroam-Zugang, der es Ihnen ermöglicht, mit der Benutzerkennung ihrer Universität oder Forschungseinrichtung den Netzwerkzugang in anderen Forschungseinrichtungen zu nutzen. Das hat den Vorteil, dass das eigene Gerät nur ein einziges Mal eingerichtet werden muss und sobald sich irgendwo ein eduroam-Netzwerk in der Nähe befindet, verbindet sich das Gerät automatisch damit. Egal wo, egal wann. Man ist regional, national oder international unterwegs und bleibt trotzdem eng mit der Heimateinrichtung und allen dort verfügbaren Services verbunden.

Ab sofort steht Ihnen auch im WLAN der Staatsbibliothek ein eduroam-Netzwerk zur Verfügung. Falls Sie es noch nicht bemerkt haben, dann fragen Sie mal ihr Gerät. Vielleicht hat es sich schon damit verbunden. Wir hoffen, es Ihnen so noch einfacher zu machen, in unseren Häusern zu arbeiten.

Einziger Wermutstropfen: Solange Sie über eduroam mit Ihrer Heimateinrichtung verbunden sind, können Sie nicht auf die elektronischen Ressourcen zugreifen, die exklusiv in den Lesesälen der Staatsbibliothek verfügbar sind. Denn über eduroam sind Sie digital für uns praktisch unsichtbar. Sobald Sie allerdings wieder das Netzwerk WLAN-SBB nutzen, haben Sie auch erneut Zugriff auf alle Ressourcen, die wir anbieten.

Falls auch Sie eduroam nutzen möchten, wenden Sie sich bitte an Ihre Universität oder Forschungseinrichtung und lassen sich dort die nötigen Zugangsdaten und Hinweise zur Ersteinrichtung geben. Die Staatsbibliothek zu Berlin bietet keine direkte Anmeldung oder Beratung zu eduroam an, sondern stellt nur die technische Infrastruktur bereit.