MLA – kein Geheimnis für Philologen?

Fachfremde mögen ihrer Phantasie freien Lauf lassen:

Marxistisch-leninistische Alternative? – Ist hier bestimmt nicht gemeint.

Multimediale Langzeit-Archivierung? – Wohl auch nicht. Wenngleich ein wichtiges Thema.

Moderierter Leseabend? – Wäre mal eine nette Idee.

Diejenigen, die bei „Philologen“ in erster Linie an hartgesottene Sprachwissenschaftler denken, vermuten eher etwas sehr Spezielles, etwa wie „morphologisch-lexikalische Axionomie” – was auch immer das sein mag.

Alle, die sich wissenschaftlich mit Sprachen oder Literaturen beschäftigen, wissen natürlich, worum es geht. Doch wissen sie auch, wofür die drei Buchstaben stehen? Die Abkürzung heißt aufgelöst „Modern Language Association of America“. Dabei ist zweierlei bemerkenswert: Weiterlesen

Annette von Droste-Hülshoff und die Staatsbibliothek

Vertreterinnen und Vertreter der Stiftung Preußischer Kulturbesitz, der Universität Münster und der Droste-Stiftung haben am 19. November auf Burg Hülshoff bei Havixbeck (Kreis Coesfeld) die Ergänzungsvereinbarung zum Dauerleihvertrag über den „Meersburger Nachlass“ der Dichterin Annette von Droste-Hülshoff unterzeichnet. Damit geben die Stiftung Preußischer Kulturbesitz als Eigentümerin und die Universität als langjährige Verwahrerin des Nachlasses der 2012 gegründeten Annette von Droste zu Hülshoff-Stiftung die Möglichkeit, Bestandteile des Konvolutes für Forschungs- und Ausstellungszwecke auf Burg Hülshoff auszuleihen. “Für die Droste-Stiftung ist dies ein weiterer wichtiger Schritt auf ihrem Weg, Burg Hülshoff als bedeutenden Literaturort in der Region zu etablieren”, so die Kulturdezernentin des Landschaftsverbandes Westfalen-Lippe (LWL) und Vorstandsvorsitzende der Droste-Stiftung, Dr. Barbara Rüschoff-Thale.

Darüber hinaus haben die Unterzeichner den dauerhaften Verbleib des „Meersburger Nachlasses“ in Münster bekräftigt. Prof. Dr. Ursula Nelles, Rektorin der Universität Münster: “Ich freue mich, dass die Stiftung Preußischer Kulturbesitz erneut ein Zeichen gesetzt hat, den Nachlass dauerhaft in der Obhut der Universität Münster und hiermit in der Heimatregion der Droste zu belassen.” Prof. Dr. Hermann Parzinger, Präsident der Stiftung Preußischer Kulturbesitz: “Westfalen ist der richtige, da authentische Ort für die Bewahrung des Droste-Nachlasses. Es ist daher ein konsequenter Schritt, die im Eigentum der Stiftung Preußischer Kulturbesitz befindlichen Schriften künftig nicht nur an der Universitätsbibliothek, sondern auch an dem Geburts- und Wohnort der Autorin für die Forschung und die Öffentlichkeit zugänglich zu machen.”

Der „Meersburger Nachlass“ enthält Dokumente, die sich beim Tode der Annette von Droste-Hülshoff am 24. Mai 1848 in Meersburg befanden. Bis 1905 wurde der Nachlass von der Familie von Laßberg in Meersburg und anschließend bis 1967 von der Familie von Droste-Hülshoff in Haus Stapel bei Havixbeck verwahrt. 1967 wurde der Bestand unter der Federführung der Fritz-Thyssen-Stiftung für die öffentliche Hand erworben und für den symbolischen Kaufpreis von 1 Mark an die Stiftung Preußischer Kulturbesitz übergeben. Die Schenkung war ein politischer Akt, um die Kulturbedeutung West-Berlins zu stärken. Das Konvolut sollte jedoch dauerhaft in Westfalen verwahrt bleiben. Der 1967 unterzeichnete Dauerleihvertrag mit der Westfälischen Wilhelms-Universität sicherte den Verbleib des Nachlasses in Münster. Er befindet sich seitdem als Dauerleihgabe der Berliner Staatsbibliothek – Stiftung Preußischer Kulturbesitz in der Universitäts- und Landesbibliothek Münster, wo er u.a. von der Droste-Forschungsstelle für die Herausgabe der Historisch-Kritischen Ausgabe der Werke der Droste genutzt wurde.

Die 2012 gegründete Annette von Droste zu Hülshoff-Stiftung hat den Auftrag, die mit dem Namen von Droste-Hülshoff verbundenen kultur- und literaturhistorischen Werte zu bewahren, zu fördern und zu vermitteln. Neben dem Erhalt der beiden authentischen Lebensorte der Dichterin Annette von Droste-Hülshoff – Burg Hülshoff bei Havixbeck und Haus Rüschhaus in Münster-Nienberge – ist es ein wesentliches Ziel der Stiftung, diese beiden Anwesen weiter zu entwickeln, stärker zu verbinden und als neuen Literaturort mit Strahlkraft zu etablieren. Die Ausbaupläne der Stiftung sehen u.a. den Umbau der Vorburg Hülshoff zu einem Kulturzentrum und die Umgestaltung des bestehenden Familienmuseums in der Hauptburg zu einem Droste-Literaturmuseum vor.

ALTO XML Schema

SBB engagiert sich im ALTO Board

Seit dem 14. November 2015 ist die Staatsbibliothek zu Berlin im Editorial Board des internationalen ALTO Standards vertreten. Nun werden Sie sich fragen: was ist denn ALTO überhaupt und warum sollte mich das interessieren?

Was bzw. wofür ist ALTO?

ALTO steht für Analyzed Layout and Text Object, ein XML Schema zur Beschreibung von Layout- und Textinformationen für elektronische Dokumente wie bspw. Digitalisate von Büchern und Zeitungen. ALTO ermöglicht die standardisierte Speicherung des mittels OCR (Optical Character Recognition / Texterkennung) generierten Texts, vor allem aber auch entsprechender Formatierungsinformationen und technischer Metadaten. Eine der wichtigsten Eigenschaften von ALTO ist dabei wohl die Angabe von (pixel-basierten) Koordinaten für die Wörter auf einer Seite. Im folgenden Ausschnitt  aus einer ALTO XML Datei sind bspw. die exakten Koordinaten für jeden Buchstaben des Wortes “Berlin” in den Attributen HPOS (für horizontal position) und VPOS (für vertical position) enthalten.

Ausschnitt aus einer ALTO XML Datei für den String "Berlin"

Ausschnitt aus einer ALTO XML Datei für den String “Berlin”

Nur dank dieser Informationen ist es später möglich in der Präsentation nach einer Suche in den Volltexten ein praktisches farbliches Highlight auf die gefundenen Treffer zu setzen. Dies erleichtert insbesondere bei großformatigen Zeitungen das Wiederfinden des Suchbegriffs im digitalen Faksimile ungemein.

Treffer-Highlighting (in Gelb) am Beispiel einer Ausgabe des <em>Berliner Tageblatt</em>, <a href="http://sbb.berlin/7djmvo" target="_blank">http://sbb.berlin/7djmvo</a>

Treffer-Highlighting (in Gelb) am Beispiel einer Ausgabe des Berliner Tageblatt, http://sbb.berlin/7djmvo

Hintergrund und Geschichte von ALTO

Ursprünglich entwickelt wurde ALTO im Rahmen des EU-Projekts METAe um 2004, in der Folge kümmerte sich vor allem das Hamburger Unternehmen Content Conversion Specialists (CCS) um die Betreuung des Formats bevor diese Verantwortung 2009 mit der Anerkennung als Standard an die Library of Congress überging. Dort ist ALTO auch deshalb hervorragend aufgehoben weil die Library of Congress bereits (neben mehreren anderen) den weit verbreiteten Metadatenstandard METS (Metadata Encoding and Transmission Standard) betreut, mit dem ALTO in den meisten Fällen kombiniert wird. Seitdem existiert auch ein international besetztes Editorial Board das sich neben der Kuration des ALTO XML Schema und der zugehörigen Dokumentation auch um die weitere Verbreitung des Standards sowie um Richtlinien und Beispiele zu seiner optimalen Verwendung kümmert. Neben renommierten internationalen Bibliotheken wie der Library of Congress, den Nationalbibliotheken Frankreichs, der Niederlande, Finnlands und Singapurs sind auch Forscher und Experten aus Universitäten sowie Dienstleister aus dem Bereich der Digitalisierung im ALTO Editorial Board vertreten.

Und was ist mit TEI?

TEI (Text Encoding Initiative) ist eine ebenfalls XML-basierte Methode um Texte digital zu repräsentieren. TEI findet vor allem in den Geisteswissenschaften bzw. Digital Humanities Anwendung, z.B. wenn es um das Erstellen von Digitalen Editionen geht. Im Gegensatz zu ALTO liegt jedoch das Gewicht bei TEI weniger auf einer möglichst genauen Wiedergabe von optischen / physischen Merkmalen des Texts, als vielmehr bei dessen logischer und semantischer Auszeichnung. Das ALTO Board hingegen verwehrt seit jeher bewusst die Aufnahme jeglicher logischer Elemente in den Standard – es geht allein um das was wirklich auf der Seite “sichtbar” ist, ohne irgendeine Form von inhaltlicher Interpretation. Um ein Beispiel zu geben: eine Überschrift würde in TEI typischerweise mit einem entsprechenden XML Element <head> gekennzeichnet:

<head>Neuigkeiten aus Berlin</head>

In ALTO hingegen wäre die Tatsache dass es sich um eine Überschrift handelt bestenfalls implizit durch die Größe der Buchstaben oder etwa den Fettdruck erkennbar:

<String STYLE="bold" CONTENT="Neuigkeiten aus Berlin"/>

Darüber hinaus enthalten die ALTO Dateien auch eine Reihe von inhaltlich nicht relevanten Informationen, die aber für die Weiterverarbeitung – etwa eine (semi-)automatisierte Korrektur der OCR Qualität – entscheiden sind, wie z.B. Wahrscheinlichkeitswerte für die Qualität der Zeichenerkennung, alternative Erkennungsvarianten und vieles mehr. Zudem lassen sich ALTO Dateien dank XML Schema leicht validieren. Gerade wegen dieser technischen Eigenschaften und des völligen Verzichts auf inhaltliche Interpretation werden die ALTO Daten an der SBB quasi als “Text Master” vorgehalten. Geisteswissenschaftler müssen dennoch nicht verzagen – durch die Standardisierung von ALTO lassen sich mit Hilfe von XSL Transformation relativ leicht entsprechende TEI-Versionen aus den ALTO Daten erzeugen. Für unsere Digitalen Sammlungen ist aber auch eine Möglichkeit zum Download der Volltexte direkt als TEI oder Plain Text geplant.

Anwender & Anwendungen

In der SBB wird ALTO für die Volltexte in den Digitalen Sammlungen verwendet. Zu den bereits vorhandenen ca. 2 Mio. Seiten Volltext werden in näherer Zukunft noch weitere 5 Mio. Seiten hinzukommen. Eine Liste von ALTO Anwendern weltweit mit vielen Live-Beispielen gibt es hier. Die Kombination METS/ALTO hat sich auch und insbesondere in der Zeitungsdigitalisierung bewährt – so z.B. im von der SBB koordinierten EU-Projekt Europeana Newspapers, in dem 12 Mio. Seiten OCR von historischen Zeitungen produziert und eine Empfehlung für ein METS/ALTO Profil (PDF) speziell für Zeitungen erarbeitet wurden. Auch der DFG-Viewer unterstützt die Darstellung von Volltexten wenn diese als ALTO vorliegen.

Die Liste der Anwendungen die ALTO unterstützen wird ebenfalls stets länger.

Weiterführende Links

  • Homepage des ALTO Standards bei der Library of Congress
  • GitHub des ALTO Standards