Beiträge

QURATOR: Digitale Kuratierung mit Künstlicher Intelligenz

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Angesichts des stark wachsenden und fragmentierten Informationsangebotes müssen Inhalte in immer kürzerer Zeit für die digitale Publikation aufbereitet und publiziert werden. Vor diesem Hintergrund beteiligt sich die Staatsbibliothek zu Berlin an dem vom Bundesministerium für Bildung und Forschung (BMBF) im Programm Unternehmen Region geförderten Forschungsprojekt QURATOR: Curation Technologies.

QURATOR will dazu beitragen, Kuratierungstätigkeiten und die Generierung digitaler Inhalte  durch Automatisierung hochwertiger, effizienter und kostengünstiger zu gestalten und Wissensarbeiter*innen bei der Kuratierung digitaler Inhalte zu unterstützen. Eine wesentliche Grundlage dafür bilden Methoden auf Grundlage von Sprach- und Wissenstechnologien, Maschinellem Lernen (ML) und Künstlicher Intelligenz (KI).

Welche Rolle die Staatsbibliothek zu Berlin in diesem Projekt spielt, erläutert Clemens Neudecker, Forschungsreferent in der Generaldirektion, im Interview:

Woran arbeitet die Staatsbibliothek zu Berlin im Projekt QURATOR?

Die Staatsbibliothek zu Berlin digitalisiert alle Dokumente aus ihrem urheberrechtsfreien Bestand und stellt diese online zur Verfügung. Bevor man mit digitalisierten Quellen aber genauso komfortabel arbeiten kann, wie mit digital-born Dokumenten, sind zahlreiche komplexe Verarbeitungsschritte und technische Herausforderungen zu meistern. Im QURATOR Teilprojekt „Automatisierte Kuratierungstechnologien für das digitalisierte kulturelle Erbe“ beschäftigt sich die Staatsbibliothek zu Berlin mit zwei dieser grundsätzlichen Herausforderungen: Zum einen soll die Qualität der Digitalisierung durch KI-basierte Verfahren  verbessert werden, zum anderen soll die Effizienz der Kuratierung mithilfe automatisierter Verfahren deutlich steigen. Ziel ist es, dass künftig mehr Dokumente schneller und besser erschlossen und damit auch leichter recherchierbar werden.

Welche Anwendungsszenarien werden konkret entwickelt?

Konkret haben wir in QURATOR mit den Arbeiten an drei Kernaufgaben begonnen:

  1. Für die Qualitätsverbesserung ist es wichtig, überhaupt erst einmal zu verstehen, wo die Probleme auftreten und welche Stellschrauben zur Verfügung stehen. So werden in einem ersten Schritt sämtliche Metadaten und Volltexte der an der Staatsbibliothek zu Berlin vorhandenen Digitalisate untersucht um durch Clustering und Profiling Problemklassen zu identifizieren. In einem nächsten Schritt werden die für die Problemklassen entscheidenden Merkmale extrahiert und spezifisch dafür Lösungen entwickelt.
  2. Die Strukturerkennung stellt einen weiteren entscheidenden Schritt in der Dokumentenanalyse dar. Hierbei geht es darum Strukturen des Layout wie bspw. Spalten, Überschriften, Marginalien und dergleichen zu erkennen und als solche zu klassifizieren. Dafür werden aktuell Convolutional Neural Networks (CNN) auf der Basis von ResNet-50 trainiert.
  3. Auch im Bereich der Eigennamenerkennnung (Named Entity Recognition, NER) nutzen wir die Möglichkeiten der KI. Während bisherige Ansätze eher statistisch oder regelbasiert arbeiten, setzen wir hierfür auf Bidirectional Encoder Representations from Transformers (BERT), ein von Google auf Millionen von Texten vortrainiertes Neuronales Netz bzw. Modell, das nun auf den Digitalisaten der Staatsbibliothek zu Berlin für die Besonderheiten der historischen Rechtschreibung im Deutschen nachtrainiert wird.

Welche Innovationen verbinden sich damit?

Die zu erwartenden technologischen Innovationen bestehen in erster Linie darin, die vielversprechenden Ansätze aus dem Bereich der KI/des maschinellen Lernens auf die besonderen Anforderungen von historischen Dokumenten zu adaptieren. Da hierbei insbesondere die Verfügbarkeit von großen Mengen von Trainingsdaten eine wichtige Rolle spielt, ist die Staatsbibliothek zu Berlin aber mit aktuell rund 2,5 PetaBytes an Daten gut gerüstet.

Aktuell arbeiten wir bereits in weiteren Forschungsprojekten mit Technologien wie Künstlicher Intelligenz – so z.B. in dem von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekt OCR-D. Dort werden momentan im Bereich der Texterkennung (OCR) dank KI Durchbrüche erzielt, die vor wenigen Jahren noch undenkbar waren, wie bspw. die qualitativ hochwertige Verarbeitung von historischen Drucken oder sogar die automatische Erkennung von Handschriften.

Wie sieht die Bibliothek der Zukunft aus?

Vom Bücherspeicher zur Informationsinfrastruktur: Bibliotheken sind wie kaum ein anderes Feld vom digitalen Wandel betroffen. Die Digitale Transformation krempelt dabei viele etablierte Geschäftsprozesse einer Bibliothek grundlegend um. An die Stelle von unstrukturierten Daten sollen schlussendlich strukturierte Inhalte treten.

Darüber hinaus gibt es mit dem Forschungsbereich der „Digital Humanities“ seit einigen Jahren einen stark wachsenden Kreis von Forscher*innen, die mit großen Mengen von digitalisierten Beständen aus dem Kulturbereich und digitalen Methoden an neuen Forschungsfragen arbeiten. Die Staatsbibliothek zu Berlin erweitert hier konsequent ihre Kompetenzen und baut auch entsprechende Partnerschaften auf und aus.

Vorschau: „Von der Zukunft zurück in die Vergangenheit: Im nächsten Beitrag beleuchten wir die Geschichte der Automaten und den Maschinenglauben der Menschen aus der Frühen Neuzeit – sozusagen die ersten Experimente auf dem Weg zur Künstlichen Intelligenz.“

Forschungsprojekt QURATOR erfolgreich gestartet – Künstliche Intelligenz für die Wissensarbeit

Pressemitteilung des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) in Berlin:

Mit einer gemeinsamen Auftaktveranstaltung im Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Berlin ist die Wachstumskerninitiative QURATOR erfolgreich gestartet. QURATOR steht für „Curation Technologies“ und bezeichnet eine Technologieplattform, die WissensarbeiterInnen in unterschiedlichen Branchen und Anwendungskontexten bei der Kuratierung digitaler Inhalte unterstützt. Im Rahmen des Forschungsprojekts sollen Verfahren aus der Künstlichen Intelligenz (KI) als Kuratierungstechnologien entwickelt und in praxisnahe Branchenlösungen integriert werden.
Das Bündnis der Wachstumskerninitiative, die im Rahmen des Programms „Unternehmen Region“ vom Bundesministerium für Bildung und Forschung (BMBF) über drei Jahre gefördert wird, umfasst 12 Partner aus Forschung und Industrie. Langfristig zielt das Vorhaben darauf ab, die Metropolregion Berlin-Brandenburg zu einem global anerkannten Exzellenzstandort für digitale Kuratierungstechnologien zu etablieren, so Dr. Georg Rehm (DFKI), wissenschaftlich-technischer Koordinator des Vorhabens.

Steigender Kommunikationsdruck
Hintergrund für die Entwicklung intelligenter Kuratierungstechnologien ist ein steigender Kommunikationsdruck, der im Zeitalter der Digitalisierung alle Organisationen erfasst hat. Dazu Armin Berger, Geschäftsführer von 3pc und Bündnissprecher von QURATOR: „Egal ob Unternehmen, Kultureinrichtungen oder staatliche Stellen, wer heute relevant sein will, muss digital kommunizieren. Und das bei einer täglich zunehmenden Menge an Daten, Informationen und Quellen.“ Wissensarbeiterinnen und Wissensarbeiter aller Branchen stünden daher vor dem Problem, aus einem wachsenden Quellenangebot die relevanten Informationen mit wirtschaftlich vertretbarem Aufwand zu extrahieren und daraus eine Vielfalt an digitalen Medienformaten zu erschaffen und zu pflegen, so Armin Berger weiter.

Kuratierungstechnologien als Lösung
Eine Antwort auf diese Herausforderung sind intelligente Kuratierungstechnologien (KT), wie sie im Rahmen von QURATOR entwickelt werden. Im Rahmen der Forschungs- und Entwicklungsarbeiten sollen manuelle Teilprozesse des Kuratierens mithilfe von KI-Technologien automatisiert werden. Dazu gehören z. B. das Suchen und Finden, Sichten, Auswählen, Ordnen, Sortieren, Zusammenfassen, Klassifizieren, Verknüpfen oder Visualisieren von Inhalten und Daten. Als Kuratierungstechnologien weiterentwickelt unterstützen sie den Prozess der Erstellung und Pflege von Content und schaffen gleichzeitig eine optimale Basis für intelligente Services wie Semantische Suche, Empfehlungs-, Sprachdialog- oder Monitoringsysteme.

Plattform für Kuratierungsservices
Ziel des Verbundprojekts ist die Entwicklung einer Technologieplattform, die ein weites Spektrum an Informationsquellen, Datenformaten und Anwendungsszenarien unterstützt. Mit Hilfe dieser modularen Plattform sollen die neu entwickelten Verfahren getestet und evaluiert werden. Darüber hinaus ist die Realisierung branchenbezogener Showcases vorgesehen, um den Nutzen der integrierten Services demonstrieren zu können.

Branchenlösungen für Kultur, Medien, Medizin und Industrie
Die Anwendungsfelder für intelligente Kuratierungsservices sind zahlreich. Sie werden immer dort gebraucht, wo digitale Inhalte erstellt und gepflegt werden. Exemplarisch werden im Verbundprojekt Branchenlösungen für Anwendungsfelder in den Bereichen Kultur, Medien, Medizin und Industrie entwickelt. Dazu gehören u.a. die automatisierte Kuratierung digitaler Archive, smarte Exponate für Museen, ein intelligentes Autorensystem für Storytelling, Tools für TV- und Medienredaktionen, Kuratierungstechnologien für biomedizinisches Wissen sowie Lösungen im Bereich Corporate Communication und intelligente Geschäftsprozessmodellierung.

Förderung und Partner
QURATOR wird vom BMBF im Rahmen des Programms „Unternehmen Region“ gefördert. Die zwölf Bündnispartner sind: DFKI GmbH, 3pc GmbH, Ada Health GmbH, ART+COM AG, Condat AG, Fraunhofer FOKUS, kreuzwerker GmbH, RiseML GmbH, Semtation GmbH, Stiftung Preußischer Kulturbesitz (Staatsbibliothek zu Berlin), Ubermetrics Technologies GmbH und Wikimedia Deutschland e.V.

Pressekontakt
DFKI GmbH, Dr. Georg Rehm
Alt-Moabit 91c, 10559 Berlin
Tel.: 030 23895-1833, georg.rehm@dfki.de