Jahrspalterei – unsere digitalisierten Jahresberichte deutscher Handelskammern in einem Benchmarking-Datenset historischer Tabellen (1750–1990)

Nach wie vor stellen maschinelle Erkennung und Extraktion der Inhalte historischer Tabellen die verfügbaren proprietären wie quelloffenen Softwareangebote für Optical Character / Handwritten Text Recognition (OCR/HTR) vor beträchtliche Herausforderungen – selbst bei gedruckten Vorlagen und ungeachtet der rasanten Dynamik auf diesem Informatikfeld. Den Wunsch der Forschenden nach niedrigschwelligen und idealerweise webbasierten Angeboten zur automatischen Tabellenextraktion machen der anhaltende Erfolg der Kliometrie wie auch die zahlreichen aktuellen Projektaktivitäten zur Generierung und Analyse historischer Zeitreihen dabei umso dringlicher: An erster Stelle ist in diesem Zusammenhang das jüngst bewilligte, auf 18 Jahre angelegte Vorhaben im Akademienprogramm Finanz- und Unternehmensforschung aus der Langfristperspektive: Erschließung historischer Bestände deutscher Finanzmarkt- und Unternehmensdaten (1871–2025) zu nennen. Aber auch das von der Deutschen Forschungsgemeinschaft geförderte Projekt der Staatsbibliothek zu Berlin (Stabi) zur Digitalisierung ihrer herausragenden Sammlung an Jahresberichten deutscher Handelskammern des ‚langen‘ 19. Jahrhunderts zählt dazu – einer Gattung, die in ihrem charakteristischen zweiteiligen Aufbau neben qualitativen Einschätzungen der regionalen Wirtschaftslage zahlreiche quantitative Informationen zur Entwicklung von Industrie, Handel, Gewerbe und Beschäftigung versammelt.

Über die dauerhafte Open Access-Transformation dieses Bestandssegments hinaus möchte die Stabi damit zugleich das Fundament für ein Folgevorhaben legen, das anhand der erzeugten Digitalisate auf die Weiterentwicklung von Verfahren zur automatischen Tabellenextraktion zielt. Dazu sollen die Ergebnisse der langjährigen Forschungsaktivitäten der Stabi zum Einsatz von Künstlicher Intelligenz auf dem Gebiet der Layoutanalyse digitalisierter historischer Drucke und Zeitungen genutzt werden, wie sie im Kontext mehrerer u.a. von DFG, BMBF und BKM geförderter Projekt gewonnen werden konnten. Allerdings sind frei verfügbare qualitätsgesicherte Referenzdaten (Ground Truth) zum Training von Algorithmen für die automatische Extraktion von Tabelleninhalten bislang rar und zudem überwiegend aus modernen Quellen geschöpft, was die Eignung etwa der häufig verwendeten Sets PubTabNet und SynthTabNet für historische Anwendungsszenarien erheblich einschränkt.

Allerdings und erfreulicherweise liegt der Akzent hier aber auf ‚bislang‘, denn an der Otto-Friedrich-Universität Bamberg arbeitet seit kurzem ein Projekt unter der Leitung von Univ.-Prof. Dr. Werner Scheltjens am Aufbau eines Benchmarking-Datensets gedruckter historischer Tabellen (1750–1990). Dieses aus Mitteln der NFDI4Memory Incubator Funds geförderte und in Kooperation mit dem wissenschaftlichen Berater unseres Handelskammerprojekts Univ.-Prof. Dr. Mark Spoerer durchgeführte Vorhaben möchte die schiere Vielfalt der Erscheinungsformen historischer Tabellen in ca. 10.000 Objekten abbilden und deren Merkmale mit Annotationen erfassen.

Zumal die in den von der Stabi digitalisierten Handelskammerberichten enthaltenen Tabellen intellektuell markiert werden – ein Arbeitsschritt, der die spätere maschinelle Erkennung ihrer Inhalte erleichtern soll –, lag eine Zusammenarbeit zwischen Bamberg und Berlin nahe. Neben der Bereitstellung ausgewählter Tabellen sowohl aus dem narrativen Teil der historischen Handelskammerberichte als auch aus ihrem statistischen Anhang ist in dieser Perspektive die Organisation eines gemeinsamen Transkribathons mit unserem hybriden Stabi Lab zur Erzeugung von Ground Truth-Trainingsdaten geplant. Denn schon Anfang der 1990er Jahre wusste die Bietigheim-Bissinger Pop-Band Pur: „Nichts ohne Grund!

Projektnummer 529670445

0 Kommentare

Ihr Kommentar

An Diskussion beteiligen?
Hinterlassen Sie uns einen Kommentar!

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.