Anschlussfähigkeit durch TEI-XML –
Wie das Handschriftenportal mit dem Austauschformat arbeiten wird

Ein Interview zwischen Pia Geißel, Torsten Schaßan (beide HAB) und Carolin Hahn (SBB).

Die ‘TEI’. Es gibt wohl kein Digital-Humanities-Projekt, das nicht mit der seit über dreißig Jahren aktiven Organisation ‘Text Encoding Initiative’ zumindest in Berührung kommt. Das gleichnamige XML-Format wird genutzt, um Texte aller Art zu kodieren: Dabei werden strukturelle und inhaltliche Einheiten ausgezeichnet, die hierdurch maschinell auswertbar werden. Die generierten Text- und Metadaten können projekt- und institutionsübergreifend ausgetauscht werden – auch im internationalen Kontext.

Für die Auszeichnung der Strukturen sind in der TEI Sets von sogenannten ‘Elementen’ definiert: Englischsprachige Bezeichnungen für die Anfangs- und Endmarkierung (‘Tags’) und Attribute sind in den TEI-P5-Guidelines dokumentiert. Auch für die Handschriftenforschung sind im Kapitel ‘Manuscript Description / 〈msDesc〉’ spezialisierte Elemente vorgesehen: So können Materialien (〈material〉), Wasserzeichen (〈watermark〉), Maßangaben (〈height〉 / 〈width〉) sowie viele weitere Metadaten und Textinhalte eindeutig kodiert werden.

Eine so ausgezeichnete XML-Datei ist in der Lage, strukturierte Inhalte modular abzubilden. Somit können Texte in verschiedenen Szenarien in der je gewünschten Informationstiefe – ob als vollumfängliches Katalogisat, als Teil einer digitalen Edition oder als ein auf ausgewählte Metadaten fokussiertes Graphen-Netzwerk – wiedergegeben werden.

Insbesondere für die wissenschaftliche Community wird es im Vergleich zur bisherigen Arbeit mit Manuscripta Mediaevalia einen enormen Fortschritt bedeuten, das Austauschformat TEI-XML im Handschriftenportal verwenden zu können. Wie genau der Im- und Export entsprechend ausgezeichneter XML-Dateien ermöglicht wird und vor welchen Herausforderungen die Projektmitarbeiter:innen bei der Entwicklung stehen, erläutern Pia Geißel und Torsten Schaßan.

Steckbrief

Name:
Pia Geißel und Torsten Schaßan (HAB)


Rolle im Projekt:
Bearbeitung und Leitung der Arbeitspakete der HAB


Institutionelle Anbindung:
Mitarbeiter:in der HAB
Abteilung Handschriften und Sondersammlungen

1. Inwiefern wird die TEI im Handschriftenportal zur Anwendung kommen?

Die TEI wird als wichtigstes Format für den Im- und Export von Beschreibungen sowie für die interne Kommunikation zwischen den einzelnen Softwarekomponenten zur Anwendung kommen. So werden zum Beispiel die Beschreibungen aus Manuscripta Mediaevalia aus dem internen Format ‘Manuscriptum XML’ (MXML) nach TEI transformiert, um dann vollständig in das Portal übernommen zu werden.

Zukünftig werden Institutionen beziehungsweise Forschende selbst erstellte TEI-Dokumente in das Portal einspeisen können. Und auch die Handschriftenbeschreibungen, die Nutzer:innen bald auf der Erfassungsoberfläche des Handschriftenportals eingeben können, werden zunächst in dieses TEI-Format exportiert, bevor die Speicherung im System erfolgt. Sämtliche im Portal recherchierbaren Inhalte werden damit als TEI-XML heruntergeladen und weiterverarbeitet werden können. Neben TEI-XML wird auch das MAchine-Readable Cataloging XML (MARCXML) als wichtiges bibliothekarisches Austauschformat angeboten werden.

2. Wie würden Sie Ihre Rolle im Projektzusammenhang beschreiben? Wofür genau sind Sie beide verantwortlich?

In Abstimmung mit der Fachseite werden die Katalogisierungsrichtlinien neu geschrieben. Diese resultieren in das TEI-Format zur Speicherung und zum Austausch der Daten. Wir sind für die Dokumentation sowie die technische Beschreibung des Formats zuständig. Außerdem pflegen wir die Templates, an deren Beispiel sich all jene Erfasser:innen orientieren können, die Daten in das Handschriftenportal einpflegen werden. Das setzt natürlich eine enge Zusammenarbeit mit den Entwickler:innen an der Staatsbibliothek zu Berlin (SBB) voraus, die letztendlich das TEI im Backend integrieren müssen. Außerdem fällt die Konversion der MXML-Daten aus Manuscripta Mediaevalia in gültiges TEI in unsere Zuständigkeit. Da diese Daten zuvor von der Datenredaktion aufbereitet werden, müssen wir im engen Kontakt mit den jeweiligen Bearbeiter:innen stehen.

3. Welche konkreten Vorteile versprechen Sie sich von der Unterstützung des TEI-Austauschformats?

TEI-XML wird weltweit für die Kodierung von Handschriftenbeschreibungen eingesetzt. Indem wir dieses Format als zentrales Werkzeug verwenden, stellen wir die Austauschbarkeit unserer Daten sowie die Möglichkeit ihrer Nachnutzung sicher. XML-Dokumente, die mit dem TEI-Vokabular ausgezeichnet sind, können nach dem Single-Source-Prinzip in unzählige andere Daten- und Dateiformate wie MARC, HTML, PDF oder in Formate der Office-Anwendungen umgewandelt werden. Wir können so zum Beispiel eine Druckversion eines digitalen Kataloges erzeugen, was die Lesefreundlichkeit erhöht und so auch eine Weiterverarbeitung als analoges Druckwerk ermöglicht. Aber auch Forschende können aus TEI-XML-Dateien gezielt Informationen ziehen und diese Daten beispielsweise im Digital-Humanities-Kontext nachnutzen.

4. Werden Sie angesichts der Vielzahl der im Handschriftenportal verfügbaren Daten das Tag-Set weiterentwickeln? Wie gehen Sie mit dem Interpretationsspielraum um, den die TEI bei jeder Auszeichnung bietet?

Zu Beginn des Projektes haben wir uns – unabhängig von allen Format-Überlegungen – die Frage gestellt, wie Handschriften ideal beschrieben werden sollten. Dabei haben wir festgestellt, dass manche Aspekte noch nicht oder nicht gut genug mit dem aktuellen TEI-Vokabular modelliert und beschrieben werden können. Unsere Ideen zur Weiterentwicklung der TEI bringen wir in die TEI-Community zur Diskussion ein.

Da sich viele Informationen auf ganz verschiedene Weise auszeichnen lassen, müssen wir die Richtlinien zur Katalogisierung im Rahmen des Handschriftenportals entsprechend spezifisch formulieren, um mögliche Ambiguitäten zu vermeiden und möglichst homogene Daten ins System zu bekommen.

5. Werden sich diese Entscheidungen auf die Gestaltung der Erfassungsoberfläche auswirken?

Es gibt hier einen wichtigen Konnex, ja. Handschriftenbeschreiber:innen werden auf der zukünftigen Erfassungsoberfläche Daten in vorgefertigte Feldern eingeben können, die im Hintergrund in das bestmögliche TEI umgewandelt werden müssen. Auch hierfür sind genaue Schreib- bzw. Konversionsanweisungen notwendig.

6. Was waren die bisher größten Herausforderungen?

Es hat sich in der Tat als schwierig herausgestellt, ein konzeptionelles Datenmodell parallel zur technischen Entwicklung zu erarbeiten. Einerseits müssen wir zunächst die fachlichen Ansprüche an die Katalogisierung festschreiben und aus diesen die Anforderungen an das Format ableiten. Andererseits können die technischen Entwicklungen nur mit konkreten Daten vorangetrieben werden.

Gleichzeitig gibt es die Herausforderung, dass die TEI für das Konzeptionelle ein solides Fundament bereitstellt, uns in der Praxis aber vor unzählige kleine Probleme stellt. Das sind beispielsweise die Einbindung von Relationen und Ontologien, aber auch praktischere Dinge wie die Verknüpfung der Objekte mit Digitalisaten. Mit den bisherigen Lösungen der TEI lassen sich nicht alle von uns gewünschten Aspekte in der angestrebten Tiefe erfassen und sollten auf längere Sicht verbessert werden.

7. Welche Ziele haben Sie sich für die nächsten sechs Monate gesetzt?

Die wichtigsten Aufgaben sind einerseits die Konversion der Daten aus Manuscripta Mediaevalia, um den vorhandenen Datenbestand vollständig und in verbesserter Qualität für das Handschriftenportal zu nutzen. Andererseits müssen die neuen Katalogisierungsrichtlinien und deren Erfassung im Format der TEI weiterentwickelt werden. Dazu sind Dialoge mit den Communities der Katalogisierer:innen, den Bibliotheken und der TEI weiterzuführen.

8. In einem Satz: Welches Problem wird das Handschriftenportal lösen?

Das Handschriftenportal wird Daten in massiv verbesserter Qualität und Menge zur Verfügung stellen, die erstmals auch vollständig interoperabel sein werden. Dies wird nicht nur durch das TEI-Format sichergestellt, sondern auch durch den weitreichenden Einsatz von Normdaten und die Aufbereitung der Informationen als Linked Open Data (LOD).

0 Kommentare

Ihr Kommentar

An Diskussion beteiligen?
Hinterlassen Sie uns einen Kommentar!

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

]]

0 Kommentare

Ihr Kommentar

An Diskussion beteiligen?
Hinterlassen Sie uns einen Kommentar!

Schreiben Sie einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.