Beiträge

Kuratieren mit KI: Erste Ergebnisse aus dem QURATOR-Projekt

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

QURATOR ist ein BMBF-gefördertes Forschungsprojekt mit dem Ziel, ein weites Spektrum von Kuratierungstechnologien basierend auf Methoden und Verfahren der künstlichen Intelligenz zu entwickeln. Wir haben hier im Blog schon mehrfach zum Projekt berichtet. Nachdem im November 2019 das erste von insgesamt drei Jahren Projektlaufzeit endete, liegen inzwischen auch Zwischenergebnisse von insgesamt drei Aktivitäten aus dem Arbeitsbereich der SBB “Digitalisiertes kulturelles Erbe” vor, die wir Ihnen hier gerne kurz vorstellen wollen.

Qualitätsverbesserung OCR

Eine grundlegende Voraussetzung für Suche, Recherche, Analyse und Verarbeitung von digitalisierten Dokumenten sind qualitativ hochwertige, automatisch durch OCR (Optical Character Recognition) erzeugte Volltexte. Während sich die SBB parallel im DFG-Projekt OCR-D vor allem im Bereich der Spezifizierung von offenen Schnittstellen und Datenformaten für die OCR einbringt, wird im Rahmen von QURATOR durch die SBB auch an der Verbesserung der Qualität von OCR Ergebnissen gearbeitet. Hierzu wurden auf dem Datenset GT4HistOCR (Springmann et al., 2018) mehrere Modelle für die auf Deep Learning basierende OCR-Engine Calamari (Wick et al., 2018) trainiert. Eine Besonderheit von Calamari im Vergleich zu anderen OCR-Engines liegt darin, dass bei der OCR mit mehreren Modellen parallel gearbeitet wird, die anschließend in einem Voting-Verfahren unter den Modellen das optimale Ergebnis ermitteln.

Voting der OCR Modelle

Um dies an einem Beispiel zu illustrieren: im folgenden wird mit drei OCR-Modellen gearbeitet. Während Modell 1 (blau) hier mit 80% Sicherheit ein “i” erkennt, tendieren die Modelle 2 (violett) und 3 (grün) als erste Option für den auf “Beyſp…” folgenden Buchstaben mit 40% resp. 30% zu einem “i“.

Die Modelle 2 und 3 geben hingegen eine höhere Wahrscheinlichkeit (50% resp. 40%) für die zweite Option “l” an. Bildet man aber nun aus sämtlichen Modellen für jede erkannte Variante mit deren Konfidenzwerten die Summe, so ergibt sich letztlich doch die Ausgabe des “i” als beste Möglichkeit. Dies liegt daran, dass das Modell 1 sich hier besonders sicher ist, auch wirklich ein “i” erkannt zu haben (80%).

So lässt sich letztendlich zeigen, dass die Modelle unterschiedliche Merkmale unterschiedlich gut lernen, und durch Kombination der Spezialisierungen der Modelle im Gesamtergebnis eine höhere Qualität erzielt werden kann.

Erste Tests im Vergleich mit der aktuellen Version 4.1 der Open Source OCR-Engine Tesseract und dem Standard-Modell für Fraktur (frk) deuten darauf hin, dass hier erhebliche Verbesserungspotenziale zu verwirklichen sind:

OCR Vergleich Tesseract 4.1 und Calamari

Um die mit diesen OCR-Modellen erzielbare OCR-Qualität präzise und reproduzierbar automatisch zu bestimmen, wurde zudem das Evaluationstool Dinglehopper entwickelt, das es erlaubt OCR Ergebnisse in den Formaten ALTO, PAGE-XML und Text mit Referenzdaten (sog. Ground Truth) zu vergleichen und die Differenzen visuell darzustellen. Zudem wurden gegenüber anderen frei verfügbaren Werkzeugen für die OCR Evaluation einige Verbesserungen bei der Behandlung von Sonderzeichen (Ligaturen, Umlaute, Sonderzeichen) vorgenommen.

Strukturerkennung

Die mit Dinglehopper bislang durchgeführten Evaluierungen deuten weiter darauf hin, dass noch auftretende Fehler bei der Texterkennung häufig auf Fehler im Bereich der Layoutanalyse und Textzeilenextraktion (moderne OCR Verfahren arbeiten mit Textzeilen als Input) zurückzuführen sind. Daher arbeitet die SBB auch an einem speziell auf die vielfältigen in historischen Dokumenten auftretenden Layouts trainierten Tool für die Strukturerkennung. Ziel ist es dabei, ausgehend von einer grundlegenden Layoutanalyse einer Dokumentenseite alle Regionen zu ermitteln, die nur Text enthalten (z.B. Absätze, Blöcke) und von weiteren Regionen wie bspw. Grafiken (Abbildungen, Illustrationen, Photographien) oder sonstigen Strukturen (Tabellen, Diagramme) zu unterscheiden. Hierfür wurde in einem ersten Schritt eine Layoutanalyse basierend auf den Konvolutionalen Neuronalen Netzen (CNN) ResNet (He et al., 2015) und U-Net (Ronneberger et al., 2015) entwickelt. Ausgehend von zuvor manuell annotierten Trainingsdaten lernen die Neuronalen Netze hierbei für jedes einzelne Pixel zu entscheiden, in welche übergeordnete Strukturklasse sich dieses am besten zuordnen lässt.

Layoutanalyse mit ResNet/U-Net

Textzeilenerkennung

Auf der Basis der so erkannten Bildregionen die Text enthalten werden in einem weiteren Schritt schließlich anhand der Dichte der Pixel entlang der x-Achse einzelne Zeilen erkannt und für die Texterkennung durch eine OCR-Engine extrahiert.

Die bislang erzielten Ergebnisse sind bei einer ersten rein qualitativen Betrachtung dem state-of-the-art überlegen. Um dies jedoch systematisch und quantitativ zu evaluieren, wird angestrebt in 2020 – erneut in Kooperation mit dem OCR-D Projekt – eine freie Version der Layoutevaluation von PRImA (Clausner et al., 2011) zu implementieren.

Named Entity Recognition

Sind erst einmal die größten Herausforderungen der Text- und Strukturerkennung mit zufriedenstellender Qualität bewältigt, so steht einer weiteren Analyse und Anreicherung der digitalisierten Dokumente mit semantischen Informationen nichts mehr im Wege. Eine häufige Anwendung ist hier z.B. die Eigennamenerkennung (Named Entity Recognition, NER). Unter NER versteht man die Erkennung von Namen für (üblicherweise) Personen, Orte und Organisationen aus Texten.

Scheint dies im ersten Moment noch recht trivial, so ergeben sich bei genauerer Betrachtung doch erhebliche Schwierigkeiten: so müssen durch ein geeignetes NER Verfahren nicht nur historische Schreibvarianten (“Leypzick” –> “Leipzig”) korrekt zugeordnet werden sondern dieses auch robust gegenüber den (hoffentlich wenigen) verbleibenden OCR Fehlern (“Lcipzlg” –> “Leipzig”) sein. Zudem ist die Zuordnung eines Namen zu einer Kategorie nicht immer so eindeutig, wie es auf den ersten Blick scheinen mag. Nehmen wir z.B. den Satz “Paris ist schön”, so könnte mit “Paris” sowohl die Stadt Paris als auch die Person Paris Hilton gemeint sein. Ein gutes NER Verfahren muss daher also auch immer den Kontext mit in Betracht ziehen.

Beispiel Ausgabe der NER auf OCR Volltext

Für die Entwicklung eines für all diese Anforderungen geeigneten NER Tools hat sich die SBB entschieden, auf BERT (Devlin et al., 2018) aufzubauen. BERT hat nicht wirklich etwas mit der Sesamstraße zu tun – vielmehr steht BERT für Bidirectional Encoder Representations from Transformers, ein von Google Ende 2018 veröffentlichtes Neuronales Netz, das darauf trainiert wurde, grundlegende Merkmale natürlicher Sprache zu lernen.

Ausgehend von Google’s BERT Modell hat die SBB dieses zuerst mit einem Datenset aus großen Mengen von deutschsprachigen Volltexten der digitalisierten Sammlungen (Labusch et al., 2019) so trainiert, dass das Modell auch die Besonderheiten von historischen deutschen Schreibweisen erlernt. In einem weiteren Schritt bekam das Modell dann kleinere Mengen von manuell annotierten Daten (Neudecker, 2016) vorgelegt, also Dokumente in denen manuell Personen, Orte und Organisationen vorab markiert wurden, um diese in den digitalisierten Sammlungen automatisch erkennen zu lernen.

Die entwickelte Methode und quantitative Evaluation des so trainierten Modells gegenüber der state-of-the-art in einer Reihe von Experimenten wurde auch in einem Konferenzbeitrag auf der KONVENS2019 vorgestellt. Dabei zeigte sich, dass das so gewonnene Modell die Qualität der NER im Vergleich zu den bislang verfügbaren generischen Methoden (Riedl et al., 2018) erheblich steigert (f1-score von 84.3% vs. 78.5%) bzw. ohne weiteres Fine-tuning die Qualität von speziell angepassten Lösungen (Schweter et al., 2019) erreichen kann.

Um die Qualität der NER weiter zu steigern wurde zudem das Annotationstool neath entwickelt, mit dem aktuell in Kooperation mit dem DFG-Projekt SoNAR-IDH weitere Trainingsdaten erstellt werden. Aktuell wird auch an der Disambiguierung erkannter Entitäten sowie der Zuordnung zu und Verlinkung mit einer Normdatei wie der Gemeinsamen Normdatei (GND) der Deutschen Nationalbibliothek oder Wikidata mittels Contextual String Embeddings (Akbik et al., 2018) gearbeitet.

Sämtliche der genannten und von der SBB im Rahmen von QURATOR entwickelten Software-Tools werden über GitHub als Open Source veröffentlicht. Die trainierten Modelle und dazu verwendeten Datensets werden zudem auch sukzessive im SBB Lab veröffentlicht.

Sollte all dies ihr Interesse geweckt haben, bleibt nur noch der Hinweis auf die #QURATOR2020 Konferenz am 20-21 Januar 2020 in Berlin, wo neben der SBB auch die weiteren Projektpartner von QURATOR sowie eine Reihe von KI-Expert*innen und Anwender*innen die neuesten innovativen Verfahren für die Digitale Kuratierung mit künstlicher Intelligenz präsentieren werden.

 

Vorschau: In unserem nächsten Beitrag wird es kämpferisch – wir beleuchten den Einsatz von KI im Militärwesen!

Bild1

Mit KI zum Durchbruch bei der OCR für historische Drucke

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Texterkennung bzw. OCR (Optical Character Recognition) stellt einen entscheidenden Schritt dar, um von Digitalisaten, d.h. gescannten Bildern von (Buch-)Seiten, zu durchsuchbarem, elektronischen Volltext zu gelangen. Während OCR für zeitgenössische Dokumente inzwischen beinahe fehlerfrei funktioniert, sahen die mit kommerziellen OCR-Produkten erzielbaren Ergebnisse bei historischen Drucken und Frakturschriften bislang weniger zufriedenstellend aus.

OCR Courante uyt Italien, Duytslandt, &c.

OCR Ergebnis für die “Courante uyt Italien, Duytslandt, &c.” (1618)

OCR für historische Dokumente

Zahlreiche Forschungsprojekte haben sich daher mit der Weiterentwicklung von OCR-Verfahren spezifisch für historische Drucke beschäftigt, so z.B. IMPACT, eMOP(In)Venod uvm. Den meisten dieser Initiativen ist allerdings gemein, dass sie zu früh endeten um vom neuerlichen Boom der Künstlichen Intelligenz (bzw. des maschinellen Lernens) zu profitieren. Im Bereich der OCR kann dafür 2016 als das entscheidende Jahr gelten: zwei “Klassiker” der Open Source OCR, Tesseract und OCRopus wurden grundlegend erneuert und auf KI-basierte Verfahren in Form sog. rekurrenter neuronaler Netze (RNN) in Kombination mit LSTM (Long short-term memory) umgestellt. Tesseract Hauptentwickler Ray Smith berichtete dazu in einem Tutorial im DAS2016 Workshop, während parallel Uwe Springmann zeigte, welche Erkennungsqualität mit OCRopus und Training inzwischen auch für historische Materialien möglich ist.

Grundsätzlich besteht ein künstliches Neuronales Netz – analog zum menschlichen Gehirn – aus einer Anzahl von miteinander vernetzten Neuronen (Rezeptoren). Entscheidend für die Lernfunktion eines Neuronalen Netz ist dabei dessen Topologie, also die Struktur des Netzes. Darunter versteht man einerseits die Anzahl und Typologie der Neuronen und ihre Verbindungen untereinander als auch die Verbindungen der Neuronen durch verschiedene Schichten hindurch. Der Nutzen von Neuronalen Netzen ist vor allem dann groß, wenn kein oder nur geringes Wissen über einen Lösungsweg vorliegt. In einem solchen Fall wird das Neuronale Netz mit manuell erzeugten Daten (Ground Truth) trainiert und das Neuronale Netz lernt selbstständig einen Lösungsweg um von den Eingabedaten zu den Ground Truth Daten zu gelangen.

Das Video zeigt, wie ein neuronales Netz nach und nach den in der obersten Zeile (invertiert) dargestellten Text erkennen lernt

Durchbrüche in der OCR durch KI

Ein entscheidender Durchbruch der KI-basierten OCR ist der Wechsel von “segmentatierungsbasierten” zu sog. “segmentierungsfreien” Ansätzen. Was genau ist damit gemeint?

Klassische Verfahren beginnen mit der Unterteilung einer Seite in Bereiche (“Blöcke” bzw. “Regionen” oder auch “Zonen”) die Text enthalten sowie Bereiche ohne Text (bspw. Abbildungen, Verzierungen usw.). Die Textbereiche werden anschließend weiter in einzelne Zeilen unterteilt (“Zeilensegmentierung”), diese wiederum in Wörter (“Wortsegmentierung”) und in einzelne Zeichen (“Zeichensegmentierung”). Die OCR gleicht dann die isolierten Buchstaben mit einer Datenbank von hinterlegten Mustern von Zeichen ab, um das wahrscheinlichste Zeichen zu bestimmen. Die “segmentierungsfreien” Verfahren hingegen betrachten immer den gesamten Text einer Zeile und profitieren dadurch von zusätzlichen Kontextinformationen wie bspw. anderen Wörtern in der selben Zeile.

Eine weitere Neuerung von KI-basierten OCR-Verfahren ist der Verzicht auf ein Sprachmodell. Klassische OCR verwendet Lexika und Wortfrequenzlisten um durch die optische Erkennung gewonnenen Wörter zusätzlich abzusichern. Wie jedoch Ray Smith 2011 auf der ICDAR-Konferenz zeigte, bringen insbesondere frequenzbasierte Sprachmodelle bei bereits guten Zeichenklassifikationen mehr Schaden als Nutzen. Gerade für historische Drucke, die sich durch uneinheitliche Orthografie, häufige Eigennamen und variierendes Schriftbild auszeichnen, kann eine sprachbasierte Nachkorrektur sogar zu einer “Verschlimmbesserung” führen, die eine wissenschaftliche Nachnutzung unmöglich macht.

OCR-D: Weiterentwicklung von OCR für historische Drucke

Um die neuen Möglichkeiten KI-basierter Verfahren rund um OCR für historische Drucke auszuloten und nachnutzbar zu machen fand sich dank DFG-Förderung in 2015 die “Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition”, kurz OCR-D, zusammen. 2015 – 2017 wurden in einer ersten Projektphase Bedarfe für die Weiterentwicklung der automatischen Texterkennung analysiert. Die ermittelten Anforderungen mündeten im März 2017 in der DFG-Ausschreibung „Skalierbare Verfahren der Text- und Strukturerkennung für die Volltextdigitalisierung historischer Drucke“. Die Bewilligung von acht Modulprojekten zum Dezember 2017 markierte den Beginn der zweiten Projektphase, in der aktuell die Modulprojekte verschiedene Prototypen entwickeln. Dabei finden KI-basierte Methoden gleich in mehreren OCR-D Modulprojekten Verwendung:

Referenzen:

Vorschau: Mit unserem nächsten Beitrag reisen wir nach Ostasien!

ALTO XML Schema

SBB engagiert sich im ALTO Board

Seit dem 14. November 2015 ist die Staatsbibliothek zu Berlin im Editorial Board des internationalen ALTO Standards vertreten. Nun werden Sie sich fragen: was ist denn ALTO überhaupt und warum sollte mich das interessieren?

Was bzw. wofür ist ALTO?

ALTO steht für Analyzed Layout and Text Object, ein XML Schema zur Beschreibung von Layout- und Textinformationen für elektronische Dokumente wie bspw. Digitalisate von Büchern und Zeitungen. ALTO ermöglicht die standardisierte Speicherung des mittels OCR (Optical Character Recognition / Texterkennung) generierten Texts, vor allem aber auch entsprechender Formatierungsinformationen und technischer Metadaten. Eine der wichtigsten Eigenschaften von ALTO ist dabei wohl die Angabe von (pixel-basierten) Koordinaten für die Wörter auf einer Seite. Im folgenden Ausschnitt  aus einer ALTO XML Datei sind bspw. die exakten Koordinaten für jeden Buchstaben des Wortes “Berlin” in den Attributen HPOS (für horizontal position) und VPOS (für vertical position) enthalten.

Ausschnitt aus einer ALTO XML Datei für den String "Berlin"

Ausschnitt aus einer ALTO XML Datei für den String “Berlin”

Nur dank dieser Informationen ist es später möglich in der Präsentation nach einer Suche in den Volltexten ein praktisches farbliches Highlight auf die gefundenen Treffer zu setzen. Dies erleichtert insbesondere bei großformatigen Zeitungen das Wiederfinden des Suchbegriffs im digitalen Faksimile ungemein.

Treffer-Highlighting (in Gelb) am Beispiel einer Ausgabe des <em>Berliner Tageblatt</em>, <a href="http://sbb.berlin/7djmvo" target="_blank">http://sbb.berlin/7djmvo</a>

Treffer-Highlighting (in Gelb) am Beispiel einer Ausgabe des Berliner Tageblatt, http://sbb.berlin/7djmvo

Hintergrund und Geschichte von ALTO

Ursprünglich entwickelt wurde ALTO im Rahmen des EU-Projekts METAe um 2004, in der Folge kümmerte sich vor allem das Hamburger Unternehmen Content Conversion Specialists (CCS) um die Betreuung des Formats bevor diese Verantwortung 2009 mit der Anerkennung als Standard an die Library of Congress überging. Dort ist ALTO auch deshalb hervorragend aufgehoben weil die Library of Congress bereits (neben mehreren anderen) den weit verbreiteten Metadatenstandard METS (Metadata Encoding and Transmission Standard) betreut, mit dem ALTO in den meisten Fällen kombiniert wird. Seitdem existiert auch ein international besetztes Editorial Board das sich neben der Kuration des ALTO XML Schema und der zugehörigen Dokumentation auch um die weitere Verbreitung des Standards sowie um Richtlinien und Beispiele zu seiner optimalen Verwendung kümmert. Neben renommierten internationalen Bibliotheken wie der Library of Congress, den Nationalbibliotheken Frankreichs, der Niederlande, Finnlands und Singapurs sind auch Forscher und Experten aus Universitäten sowie Dienstleister aus dem Bereich der Digitalisierung im ALTO Editorial Board vertreten.

Und was ist mit TEI?

TEI (Text Encoding Initiative) ist eine ebenfalls XML-basierte Methode um Texte digital zu repräsentieren. TEI findet vor allem in den Geisteswissenschaften bzw. Digital Humanities Anwendung, z.B. wenn es um das Erstellen von Digitalen Editionen geht. Im Gegensatz zu ALTO liegt jedoch das Gewicht bei TEI weniger auf einer möglichst genauen Wiedergabe von optischen / physischen Merkmalen des Texts, als vielmehr bei dessen logischer und semantischer Auszeichnung. Das ALTO Board hingegen verwehrt seit jeher bewusst die Aufnahme jeglicher logischer Elemente in den Standard – es geht allein um das was wirklich auf der Seite “sichtbar” ist, ohne irgendeine Form von inhaltlicher Interpretation. Um ein Beispiel zu geben: eine Überschrift würde in TEI typischerweise mit einem entsprechenden XML Element <head> gekennzeichnet:

<head>Neuigkeiten aus Berlin</head>

In ALTO hingegen wäre die Tatsache dass es sich um eine Überschrift handelt bestenfalls implizit durch die Größe der Buchstaben oder etwa den Fettdruck erkennbar:

<String STYLE="bold" CONTENT="Neuigkeiten aus Berlin"/>

Darüber hinaus enthalten die ALTO Dateien auch eine Reihe von inhaltlich nicht relevanten Informationen, die aber für die Weiterverarbeitung – etwa eine (semi-)automatisierte Korrektur der OCR Qualität – entscheiden sind, wie z.B. Wahrscheinlichkeitswerte für die Qualität der Zeichenerkennung, alternative Erkennungsvarianten und vieles mehr. Zudem lassen sich ALTO Dateien dank XML Schema leicht validieren. Gerade wegen dieser technischen Eigenschaften und des völligen Verzichts auf inhaltliche Interpretation werden die ALTO Daten an der SBB quasi als “Text Master” vorgehalten. Geisteswissenschaftler müssen dennoch nicht verzagen – durch die Standardisierung von ALTO lassen sich mit Hilfe von XSL Transformation relativ leicht entsprechende TEI-Versionen aus den ALTO Daten erzeugen. Für unsere Digitalen Sammlungen ist aber auch eine Möglichkeit zum Download der Volltexte direkt als TEI oder Plain Text geplant.

Anwender & Anwendungen

In der SBB wird ALTO für die Volltexte in den Digitalen Sammlungen verwendet. Zu den bereits vorhandenen ca. 2 Mio. Seiten Volltext werden in näherer Zukunft noch weitere 5 Mio. Seiten hinzukommen. Eine Liste von ALTO Anwendern weltweit mit vielen Live-Beispielen gibt es hier. Die Kombination METS/ALTO hat sich auch und insbesondere in der Zeitungsdigitalisierung bewährt – so z.B. im von der SBB koordinierten EU-Projekt Europeana Newspapers, in dem 12 Mio. Seiten OCR von historischen Zeitungen produziert und eine Empfehlung für ein METS/ALTO Profil (PDF) speziell für Zeitungen erarbeitet wurden. Auch der DFG-Viewer unterstützt die Darstellung von Volltexten wenn diese als ALTO vorliegen.

Die Liste der Anwendungen die ALTO unterstützen wird ebenfalls stets länger.

Weiterführende Links

  • Homepage des ALTO Standards bei der Library of Congress
  • GitHub des ALTO Standards