Mit KI zum Durchbruch bei der OCR für historische Drucke

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Texterkennung bzw. OCR (Optical Character Recognition) stellt einen entscheidenden Schritt dar, um von Digitalisaten, d.h. gescannten Bildern von (Buch-)Seiten, zu durchsuchbarem, elektronischen Volltext zu gelangen. Während OCR für zeitgenössische Dokumente inzwischen beinahe fehlerfrei funktioniert, sahen die mit kommerziellen OCR-Produkten erzielbaren Ergebnisse bei historischen Drucken und Frakturschriften bislang weniger zufriedenstellend aus.

OCR Courante uyt Italien, Duytslandt, &c.

OCR Ergebnis für die „Courante uyt Italien, Duytslandt, &c.“ (1618)

OCR für historische Dokumente

Zahlreiche Forschungsprojekte haben sich daher mit der Weiterentwicklung von OCR-Verfahren spezifisch für historische Drucke beschäftigt, so z.B. IMPACT, eMOP, (In)Venod uvm. Den meisten dieser Initiativen ist allerdings gemein, dass sie zu früh endeten um vom neuerlichen Boom der Künstlichen Intelligenz (bzw. des maschinellen Lernens) zu profitieren. Im Bereich der OCR kann dafür 2016 als das entscheidende Jahr gelten: zwei „Klassiker“ der Open Source OCR, Tesseract und OCRopus wurden grundlegend erneuert und auf KI-basierte Verfahren in Form sog. rekurrenter neuronaler Netze (RNN) in Kombination mit LSTM (Long short-term memory) umgestellt. Tesseract Hauptentwickler Ray Smith berichtete dazu in einem Tutorial im DAS2016 Workshop, während parallel Uwe Springmann zeigte, welche Erkennungsqualität mit OCRopus und Training inzwischen auch für historische Materialien möglich ist.

Grundsätzlich besteht ein künstliches Neuronales Netz – analog zum menschlichen Gehirn – aus einer Anzahl von miteinander vernetzten Neuronen (Rezeptoren). Entscheidend für die Lernfunktion eines Neuronalen Netz ist dabei dessen Topologie, also die Struktur des Netzes. Darunter versteht man einerseits die Anzahl und Typologie der Neuronen und ihre Verbindungen untereinander als auch die Verbindungen der Neuronen durch verschiedene Schichten hindurch. Der Nutzen von Neuronalen Netzen ist vor allem dann groß, wenn kein oder nur geringes Wissen über einen Lösungsweg vorliegt. In einem solchen Fall wird das Neuronale Netz mit manuell erzeugten Daten (Ground Truth) trainiert und das Neuronale Netz lernt selbstständig einen Lösungsweg um von den Eingabedaten zu den Ground Truth Daten zu gelangen.

Das Video zeigt, wie ein neuronales Netz nach und nach den in der obersten Zeile (invertiert) dargestellten Text erkennen lernt

Durchbrüche in der OCR durch KI

Ein entscheidender Durchbruch der KI-basierten OCR ist der Wechsel von „segmentatierungsbasierten“ zu sog. „segmentierungsfreien“ Ansätzen. Was genau ist damit gemeint?

Klassische Verfahren beginnen mit der Unterteilung einer Seite in Bereiche („Blöcke“ bzw. „Regionen“ oder auch „Zonen“) die Text enthalten sowie Bereiche ohne Text (bspw. Abbildungen, Verzierungen usw.). Die Textbereiche werden anschließend weiter in einzelne Zeilen unterteilt („Zeilensegmentierung“), diese wiederum in Wörter („Wortsegmentierung“) und in einzelne Zeichen („Zeichensegmentierung“). Die OCR gleicht dann die isolierten Buchstaben mit einer Datenbank von hinterlegten Mustern von Zeichen ab, um das wahrscheinlichste Zeichen zu bestimmen. Die „segmentierungsfreien“ Verfahren hingegen betrachten immer den gesamten Text einer Zeile und profitieren dadurch von zusätzlichen Kontextinformationen wie bspw. anderen Wörtern in der selben Zeile.

https://www.slideshare.net/icaruseu/coopreadconvention-marburg-roger-labahn-university-of-rostock-de-handwritten-text-recognition-key-concepts

Eine weitere Neuerung von KI-basierten OCR-Verfahren ist der Verzicht auf ein Sprachmodell. Klassische OCR verwendet Lexika und Wortfrequenzlisten um durch die optische Erkennung gewonnenen Wörter zusätzlich abzusichern. Wie jedoch Ray Smith 2011 auf der ICDAR-Konferenz zeigte, bringen insbesondere frequenzbasierte Sprachmodelle bei bereits guten Zeichenklassifikationen mehr Schaden als Nutzen. Gerade für historische Drucke, die sich durch uneinheitliche Orthografie, häufige Eigennamen und variierendes Schriftbild auszeichnen, kann eine sprachbasierte Nachkorrektur sogar zu einer „Verschlimmbesserung“ führen, die eine wissenschaftliche Nachnutzung unmöglich macht.

OCR-D: Weiterentwicklung von OCR für historische Drucke

Um die neuen Möglichkeiten KI-basierter Verfahren rund um OCR für historische Drucke auszuloten und nachnutzbar zu machen fand sich dank DFG-Förderung in 2015 die „Koordinierte Förderinitiative zur Weiterentwicklung von Verfahren für die Optical-Character-Recognition“, kurz OCR-D, zusammen. 2015 – 2017 wurden in einer ersten Projektphase Bedarfe für die Weiterentwicklung der automatischen Texterkennung analysiert. Die ermittelten Anforderungen mündeten im März 2017 in der DFG-Ausschreibung „Skalierbare Verfahren der Text- und Strukturerkennung für die Volltextdigitalisierung historischer Drucke“. Die Bewilligung von acht Modulprojekten zum Dezember 2017 markierte den Beginn der zweiten Projektphase, in der aktuell die Modulprojekte verschiedene Prototypen entwickeln. Dabei finden KI-basierte Methoden gleich in mehreren OCR-D Modulprojekten Verwendung: