Beiträge für Forschung und Kultur

Das Bibliotheksmagazin 2/19 ist erschienen

Der Sommer ist bunt! Von kalten und warmen Farben, einem blauen Klavier, einer gestreiften Plaza und farbenfrohen Schätzen unserer Kinder- und Jugendbuchabteilung berichtet das aktuelle Bibliotheksmagazin mit Mitteilungen aus den Staatsbibliotheken in Berlin und München.

Es liegt in den zentralen Eingangsbereichen unserer Häuser aus:

Haus Potsdamer Straße 33, 10785 Berlin
Haus Unter den Linden 8, 10117 Berlin (Eingang Dorotheenstraße 27)
Kinder- und Jugendbuchabteilung und Zeitungsabteilung im Westhafenspeicher: Westhafenstraße 1, 13353 Berlin

Einen ortsunabhängigen Zugang bietet die digitale Version als PDF-Datei zum Herunterladen:
http://staatsbibliothek-berlin.de/die-staatsbibliothek/publikationen-der-staatsbibibliothek/bibliotheksmagazin/

QURATOR: Digitale Kuratierung mit Künstlicher Intelligenz

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Angesichts des stark wachsenden und fragmentierten Informationsangebotes müssen Inhalte in immer kürzerer Zeit für die digitale Publikation aufbereitet und publiziert werden. Vor diesem Hintergrund beteiligt sich die Staatsbibliothek zu Berlin an dem vom Bundesministerium für Bildung und Forschung (BMBF) im Programm Unternehmen Region geförderten Forschungsprojekt QURATOR: Curation Technologies.

QURATOR will dazu beitragen, Kuratierungstätigkeiten und die Generierung digitaler Inhalte  durch Automatisierung hochwertiger, effizienter und kostengünstiger zu gestalten und Wissensarbeiter*innen bei der Kuratierung digitaler Inhalte zu unterstützen. Eine wesentliche Grundlage dafür bilden Methoden auf Grundlage von Sprach- und Wissenstechnologien, Maschinellem Lernen (ML) und Künstlicher Intelligenz (KI).

Welche Rolle die Staatsbibliothek zu Berlin in diesem Projekt spielt, erläutert Clemens Neudecker, Forschungsreferent in der Generaldirektion, im Interview:

Woran arbeitet die Staatsbibliothek zu Berlin im Projekt QURATOR?

Die Staatsbibliothek zu Berlin digitalisiert alle Dokumente aus ihrem urheberrechtsfreien Bestand und stellt diese online zur Verfügung. Bevor man mit digitalisierten Quellen aber genauso komfortabel arbeiten kann, wie mit digital-born Dokumenten, sind zahlreiche komplexe Verarbeitungsschritte und technische Herausforderungen zu meistern. Im QURATOR Teilprojekt „Automatisierte Kuratierungstechnologien für das digitalisierte kulturelle Erbe“ beschäftigt sich die Staatsbibliothek zu Berlin mit zwei dieser grundsätzlichen Herausforderungen: Zum einen soll die Qualität der Digitalisierung durch KI-basierte Verfahren  verbessert werden, zum anderen soll die Effizienz der Kuratierung mithilfe automatisierter Verfahren deutlich steigen. Ziel ist es, dass künftig mehr Dokumente schneller und besser erschlossen und damit auch leichter recherchierbar werden.

Welche Anwendungsszenarien werden konkret entwickelt?

Konkret haben wir in QURATOR mit den Arbeiten an drei Kernaufgaben begonnen:

  1. Für die Qualitätsverbesserung ist es wichtig, überhaupt erst einmal zu verstehen, wo die Probleme auftreten und welche Stellschrauben zur Verfügung stehen. So werden in einem ersten Schritt sämtliche Metadaten und Volltexte der an der Staatsbibliothek zu Berlin vorhandenen Digitalisate untersucht um durch Clustering und Profiling Problemklassen zu identifizieren. In einem nächsten Schritt werden die für die Problemklassen entscheidenden Merkmale extrahiert und spezifisch dafür Lösungen entwickelt.
  2. Die Strukturerkennung stellt einen weiteren entscheidenden Schritt in der Dokumentenanalyse dar. Hierbei geht es darum Strukturen des Layout wie bspw. Spalten, Überschriften, Marginalien und dergleichen zu erkennen und als solche zu klassifizieren. Dafür werden aktuell Convolutional Neural Networks (CNN) auf der Basis von ResNet-50 trainiert.
  3. Auch im Bereich der Eigennamenerkennnung (Named Entity Recognition, NER) nutzen wir die Möglichkeiten der KI. Während bisherige Ansätze eher statistisch oder regelbasiert arbeiten, setzen wir hierfür auf Bidirectional Encoder Representations from Transformers (BERT), ein von Google auf Millionen von Texten vortrainiertes Neuronales Netz bzw. Modell, das nun auf den Digitalisaten der Staatsbibliothek zu Berlin für die Besonderheiten der historischen Rechtschreibung im Deutschen nachtrainiert wird.

Welche Innovationen verbinden sich damit?

Die zu erwartenden technologischen Innovationen bestehen in erster Linie darin, die vielversprechenden Ansätze aus dem Bereich der KI/des maschinellen Lernens auf die besonderen Anforderungen von historischen Dokumenten zu adaptieren. Da hierbei insbesondere die Verfügbarkeit von großen Mengen von Trainingsdaten eine wichtige Rolle spielt, ist die Staatsbibliothek zu Berlin aber mit aktuell rund 2,5 PetaBytes an Daten gut gerüstet.

Aktuell arbeiten wir bereits in weiteren Forschungsprojekten mit Technologien wie Künstlicher Intelligenz – so z.B. in dem von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekt OCR-D. Dort werden momentan im Bereich der Texterkennung (OCR) dank KI Durchbrüche erzielt, die vor wenigen Jahren noch undenkbar waren, wie bspw. die qualitativ hochwertige Verarbeitung von historischen Drucken oder sogar die automatische Erkennung von Handschriften.

Wie sieht die Bibliothek der Zukunft aus?

Vom Bücherspeicher zur Informationsinfrastruktur: Bibliotheken sind wie kaum ein anderes Feld vom digitalen Wandel betroffen. Die Digitale Transformation krempelt dabei viele etablierte Geschäftsprozesse einer Bibliothek grundlegend um. An die Stelle von unstrukturierten Daten sollen schlussendlich strukturierte Inhalte treten.

Darüber hinaus gibt es mit dem Forschungsbereich der „Digital Humanities“ seit einigen Jahren einen stark wachsenden Kreis von Forscher*innen, die mit großen Mengen von digitalisierten Beständen aus dem Kulturbereich und digitalen Methoden an neuen Forschungsfragen arbeiten. Die Staatsbibliothek zu Berlin erweitert hier konsequent ihre Kompetenzen und baut auch entsprechende Partnerschaften auf und aus.

Vorschau: „Von der Zukunft zurück in die Vergangenheit: Im nächsten Beitrag beleuchten wir die Geschichte der Automaten und den Maschinenglauben der Menschen aus der Frühen Neuzeit – sozusagen die ersten Experimente auf dem Weg zur Künstlichen Intelligenz.“

Hackathon@SBB: Coding Gender – Diversity in historischen Kulturdaten

Diversity sichtbar machen – das ist das Anliegen des Deutschen Diversity-Tags, der heute zum siebten Mal stattfindet. Mit einer Reihe von öffentlichen und internen Aktionen lenken verschiedene Institutionen und Unternehmen die Aufmerksamkeit auf Vielfalt und Sichtbarkeit. Das ist uns auch in der Staatsbibliothek ein Anliegen! Deshalb organisieren wir vom 28.-30. August 2019 eine ganz besondere Veranstaltung: Den Kultur-Hackathon „Coding Gender – Women in Cultural Data“!

Bibliotheken sind offene Orte, an denen sich Nutzende mit unterschiedlichsten persönlichen Hintergründen begegnen. Um Teilhabe zu ermöglichen, garantieren Bibliotheken – in Anlehnung an Artikel 5 des gerade siebzig Jahre altgewordenen Grundgesetzes – Zugang zu Bildung und einem breiten Spektrum von Informationen.

Trotzdem zeigen sich die Ungleichheiten der Geschichte auch in unserem Medienbestand und wir wollen den Blick auf einen dieser – teilweise historisch bedingten – Problemfälle lenken: Die Rolle von Frauen und deren Sichtbarkeit in Kulturdaten. Deshalb wollen wir wissen, wo wir in Bibliotheken auf Geschlechter-Stereotype stoßen und wie Gender in historischen Dokumenten konstruiert und repräsentiert wird.

Mit dem Hackathon versuchen wir uns an einem neuen und unvoreingenommenen Blick auf Kulturdaten, der spielerisch und kreativ neue Perspektiven eröffnet. Dafür stellen wir Datensets aus historischen Kulturobjekten zusammen, d.h. Digitalisate von Büchern, Briefen, Portraits und vieles mehr. Inhaltlich liegt der Schwerpunkt auf den Themen Gender, Feminismus, Konstruktion, Normierung und Transgression von Geschlechterrollen.

Damit aus Daten aber ein Hackathon werden kann, freuen wir uns auf Teilnehmer*innen, die Lust haben, kreativ und innovativ mit diesen Datensets zu arbeiten. Deshalb laden wir Entwickler*innen, Kreative, Wissenschaftler*innen und Kulturinteressierte ein, vom 28.-30. August in interdisziplinären Teams bei uns zusammenzuarbeiten!

Interessiert? Weitere Informationen zur Veranstaltung und Anmeldung hier.