Beiträge

QURATOR: Digitale Kuratierung mit Künstlicher Intelligenz

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Angesichts des stark wachsenden und fragmentierten Informationsangebotes müssen Inhalte in immer kürzerer Zeit für die digitale Publikation aufbereitet und publiziert werden. Vor diesem Hintergrund beteiligt sich die Staatsbibliothek zu Berlin an dem vom Bundesministerium für Bildung und Forschung (BMBF) im Programm Unternehmen Region geförderten Forschungsprojekt QURATOR: Curation Technologies.

QURATOR will dazu beitragen, Kuratierungstätigkeiten und die Generierung digitaler Inhalte  durch Automatisierung hochwertiger, effizienter und kostengünstiger zu gestalten und Wissensarbeiter*innen bei der Kuratierung digitaler Inhalte zu unterstützen. Eine wesentliche Grundlage dafür bilden Methoden auf Grundlage von Sprach- und Wissenstechnologien, Maschinellem Lernen (ML) und Künstlicher Intelligenz (KI).

Welche Rolle die Staatsbibliothek zu Berlin in diesem Projekt spielt, erläutert Clemens Neudecker, Forschungsreferent in der Generaldirektion, im Interview:

Woran arbeitet die Staatsbibliothek zu Berlin im Projekt QURATOR?

Die Staatsbibliothek zu Berlin digitalisiert alle Dokumente aus ihrem urheberrechtsfreien Bestand und stellt diese online zur Verfügung. Bevor man mit digitalisierten Quellen aber genauso komfortabel arbeiten kann, wie mit digital-born Dokumenten, sind zahlreiche komplexe Verarbeitungsschritte und technische Herausforderungen zu meistern. Im QURATOR Teilprojekt „Automatisierte Kuratierungstechnologien für das digitalisierte kulturelle Erbe“ beschäftigt sich die Staatsbibliothek zu Berlin mit zwei dieser grundsätzlichen Herausforderungen: Zum einen soll die Qualität der Digitalisierung durch KI-basierte Verfahren  verbessert werden, zum anderen soll die Effizienz der Kuratierung mithilfe automatisierter Verfahren deutlich steigen. Ziel ist es, dass künftig mehr Dokumente schneller und besser erschlossen und damit auch leichter recherchierbar werden.

Welche Anwendungsszenarien werden konkret entwickelt?

Konkret haben wir in QURATOR mit den Arbeiten an drei Kernaufgaben begonnen:

  1. Für die Qualitätsverbesserung ist es wichtig, überhaupt erst einmal zu verstehen, wo die Probleme auftreten und welche Stellschrauben zur Verfügung stehen. So werden in einem ersten Schritt sämtliche Metadaten und Volltexte der an der Staatsbibliothek zu Berlin vorhandenen Digitalisate untersucht um durch Clustering und Profiling Problemklassen zu identifizieren. In einem nächsten Schritt werden die für die Problemklassen entscheidenden Merkmale extrahiert und spezifisch dafür Lösungen entwickelt.
  2. Die Strukturerkennung stellt einen weiteren entscheidenden Schritt in der Dokumentenanalyse dar. Hierbei geht es darum Strukturen des Layout wie bspw. Spalten, Überschriften, Marginalien und dergleichen zu erkennen und als solche zu klassifizieren. Dafür werden aktuell Convolutional Neural Networks (CNN) auf der Basis von ResNet-50 trainiert.
  3. Auch im Bereich der Eigennamenerkennnung (Named Entity Recognition, NER) nutzen wir die Möglichkeiten der KI. Während bisherige Ansätze eher statistisch oder regelbasiert arbeiten, setzen wir hierfür auf Bidirectional Encoder Representations from Transformers (BERT), ein von Google auf Millionen von Texten vortrainiertes Neuronales Netz bzw. Modell, das nun auf den Digitalisaten der Staatsbibliothek zu Berlin für die Besonderheiten der historischen Rechtschreibung im Deutschen nachtrainiert wird.

Welche Innovationen verbinden sich damit?

Die zu erwartenden technologischen Innovationen bestehen in erster Linie darin, die vielversprechenden Ansätze aus dem Bereich der KI/des maschinellen Lernens auf die besonderen Anforderungen von historischen Dokumenten zu adaptieren. Da hierbei insbesondere die Verfügbarkeit von großen Mengen von Trainingsdaten eine wichtige Rolle spielt, ist die Staatsbibliothek zu Berlin aber mit aktuell rund 2,5 PetaBytes an Daten gut gerüstet.

Aktuell arbeiten wir bereits in weiteren Forschungsprojekten mit Technologien wie Künstlicher Intelligenz – so z.B. in dem von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekt OCR-D. Dort werden momentan im Bereich der Texterkennung (OCR) dank KI Durchbrüche erzielt, die vor wenigen Jahren noch undenkbar waren, wie bspw. die qualitativ hochwertige Verarbeitung von historischen Drucken oder sogar die automatische Erkennung von Handschriften.

Wie sieht die Bibliothek der Zukunft aus?

Vom Bücherspeicher zur Informationsinfrastruktur: Bibliotheken sind wie kaum ein anderes Feld vom digitalen Wandel betroffen. Die Digitale Transformation krempelt dabei viele etablierte Geschäftsprozesse einer Bibliothek grundlegend um. An die Stelle von unstrukturierten Daten sollen schlussendlich strukturierte Inhalte treten.

Darüber hinaus gibt es mit dem Forschungsbereich der „Digital Humanities“ seit einigen Jahren einen stark wachsenden Kreis von Forscher*innen, die mit großen Mengen von digitalisierten Beständen aus dem Kulturbereich und digitalen Methoden an neuen Forschungsfragen arbeiten. Die Staatsbibliothek zu Berlin erweitert hier konsequent ihre Kompetenzen und baut auch entsprechende Partnerschaften auf und aus.

Vorschau: „Von der Zukunft zurück in die Vergangenheit: Im nächsten Beitrag beleuchten wir die Geschichte der Automaten und den Maschinenglauben der Menschen aus der Frühen Neuzeit – sozusagen die ersten Experimente auf dem Weg zur Künstlichen Intelligenz.“

Künstliche Intelligenz in Kunst und Kultur

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Künstliche Intelligenz (KI) und Kunst sowie Kultur sind schon seit langer Zeit untrennbar miteinander verbunden: Literarische Werke wie E.T.A. Hoffmanns Der Sandmann oder Mary W. Shelleys Frankenstein rekurrierten schon vor über 200 Jahren auf den Topos künstlich belebter und – mehr oder weniger – intelligenter Wesen. Doch in den letzten Jahrzehnten hat sich das Verhältnis von KI und Kunst nochmals verändert. In großen Blockbustern wie Stanley Kubricks 2001: Odyssee im Weltraum wird Künstliche Intelligenz in einer noch nie zuvor dagewesenen Art und Weise ins Bild gesetzt. Künstliche Intelligenz wird darüber hinaus insbesondere in den Geistes- und Kulturwissenschaften zunehmend als Werkzeug zur Erschließung von Kunst genutzt und Künstliche Intelligenz ist nicht zuletzt selbst zu einer Quelle von Kunstwerken geworden.

Künstliche Intelligenz im Film

„Morpheus: What is real? How do you define ‘real’?
If you’re talking about what you can feel, what you can smell, what you can taste and see,
then ‘real’ is simply electrical signals interpreted by your brain.“
(Matrix, 1999, Quelle: https://www.imdb.com/title/tt0133093/quotes/qt0324251)

Filmszene aus Matrix, Bild: MATRIX, THE (1999). – Quelle: Britannica ImageQuest @ ROADSHOW FILM LIMITED / Album / Universal Images Group

Nicht erst seit dem überraschenden Kinoerfolg von Matrix ist KI ein gängiger Topos im Film. Bereits im Stummfilmklassiker Metropolis von 1927 wird der Roboter Maria zur Filmikone schlechthin und prägend für die Filmgeschichte. Mit KI ausgestattete Roboter tauchen danach auch im Tonfilm regelmäßig auf. Immer wieder stellt sich dabei die Frage nach dem Verhältnis von Mensch und Maschine wie zum Beispiel Ridley Scotts stilbildendes Werk Blade Runner aus dem Jahr 1982 zeigt. Lange Zeit dominierten dabei Dystopien, in der Künstliche Intelligenz die Menschheit bedroht (2001: A Space Odyssey, 1968; Terminator, 1984) oder gar – wie in der Matrix-Trilogie – bereits die Macht über die Menschen gewonnen hat. In neueren filmischen Auseinandersetzungen (A.I. – Künstliche Intelligenz, 2001; I, Robot, 2004; WALL-E, 2008; Her, 2013; Ex Machina, 2014) wird der KI zunehmend ein eigenes Bewusstsein zugesprochen und es werden mitunter große Fragen verhandelt, wie etwa welche Rechte eine KI eigentlich hat.

Die Darstellung von Künstlicher Intelligenz im Film gibt damit Aufschluss über die aktuelle gesellschaftliche Diskussion über KI. Gleichzeitig beeinflussen Filme und andere Kunstwerke diese Diskussionen, indem sie die Vorstellungen über KI formen und verändern. Am Ende bleibt die Darstellung von KI aber vor allem eines: Eine unterhaltende Fiktion.

Künstliche Intelligenz als Werkzeug der Geistes- und Kulturwissenschaften

Inzwischen lässt sich gut beobachten, dass KI zunehmend auch von Kultureinrichtungen wie Museen eingesetzt wird, um die eigenen Bestände – meist Fotosammlungen – zu erschließen. So nutzte beispielsweise das MoMA gemeinsam mit dem Google Arts & Culture Lab Machine Learning, um Kunstwerke auf Ausstellungsfotografien zu identifizieren und mit den Kunstwerken zu verknüpfen: Ein Algorithmus suchte in über 30.000 Ausstellungsfotografien in Abgleich mit den 65.000 Bildern der Online-Sammlung nach passenden Treffern.  20.000 Matches kamen dabei heraus und bieten nun den Besucher*innen der Online-Sammlungen umfassende Informationen nicht nur zum Objekt, sondern auch zum jeweiligen Kontext, in dem das Kunstwerk über die Jahre hinweg ausgestellt wurde (hier am Beispiel von Paul Cezannes The Bather https://www.moma.org/collection/works/78296?).

Auch das Metropolitan Museum of Art möchte seine digitalen Bestände durch die Zuhilfenahme von KI weltweit noch stärker vernetzen. Dafür sind nicht nur sämtliche Daten frei verfügbar, sondern es wurden im Rahmen eines Hackathons in Zusammenarbeit mit Microsoft und dem MIT erste KI-Prototypen entwickelt. Der Prototyp Storyteller zeigt beispielsweise passende Gemälde aus der Met Sammlung zu einer gesprochenen Geschichte oder einem Gespräch an. Mit dem Prototyp My Life, My Met werden Instagram-Fotos von Mahlzeiten mit passenden Gemälden aus der Sammlung verknüpft.

Doch nicht nur in Museen wird KI verwendet: Besonders große digitale Bildbestände eignen sich für den Einsatz von KI. So ist das Fotoarchiv der New York Times mit geschätzten 5 bis 7 Millionen Fotos ein enormer historischer Schatz mit großem Wert für die Zeitgeschichte. Sämtliche Bilder werden aktuell digitalisiert und mittels KI-Tools von Google analysiert: Gedruckte und handgeschriebene Texte (meist mit Informationen zum Aufnahmedatum, Aufnahmeort und Veröffentlichungshinweisen) auf beiden Seiten des Fotos werden erkannt und extrahiert. Außerdem sorgt die Bilderkennung für eine Kategorisierung und damit für eine einfachere Auffindbarkeit. KI sorgt in diesem Fall also erst für einen digitalen Zugang zum historischen Bildarchiv.

Künstliche Intelligenz als Quelle von Kunst

The Next Rembrandt by ING Group (CC BY 2.0), via flickr; Lizenz: https://creativecommons.org/licenses/by/2.0/; Quelle: https://www.flickr.com/photos/inggroup/25681990573/in/photostream/

Die wohl spannendsten Entwicklungen im Bereich Kunst und KI sind sicherlich die, in denen mit Hilfe von KI selbst Kunst erschaffen wird. War und ist Kunst lange mit einer menschlichen schöpferischen Tätigkeit verbunden, werfen Kunstwerke – erschaffen von KI – nicht nur rechtliche Fragen zum Urheberrecht auf. (Vgl. Die Maschine als Urheber? Gastbeitrag von Dr. Robert Heine und Julia Schafdecker) Vielmehr werden ganz grundsätzliche gesellschaftliche Annahmen rund um das Verhältnis von Original und Reproduktion in Frage gestellt. Dies zeigt beispielsweise das Projekt The Next Rembrandt. Hier hat KI einen scheinbar echten Rembrandt hervorgebracht. Über Trainingsdaten in Form von echten Rembrandt-Porträts und Trainings in der Maltechnik Rembrandts (inkl. Berechnung der Pinselstrichstruktur) konnte ein neuer „Rembrandt“ im 3D-Druck erschaffen werden.

Auch das AICAN (Artificial Intelligence Creative Adversarial Network) arbeitet mit KI. Auf Basis unzähliger Trainingsbildern – insgesamt über 100.000 Kunstwerke der westlichen Kunst aus über fünf Jahrhunderten –   wurde die Software dazu gebracht, selbstständig kreativ zu werden und eigene Kunstwerke (Digitaldrucke auf Aluminium oder Leinwand) zu erschaffen. AICAN ist eine Softwareinitiative, die von Ahmed Elgammal, Professor für Informatik und Gründungsdirektor des Art and Artificial Intelligence Lab der Rutgers Universität, ins Leben gerufen wurde.

Der Berliner Künstler Roman Lipski arbeitet ebenfalls mit einer KI namens A.I.R., entwickelt von Florian Dohmann, an seinen Kunstwerken. KI funktioniert hier als Inspirationsquelle: Die KI analysiert seine bisherigen Bilder, setzt diese neu zusammen und macht so dem Kunstschaffenden neue Vorschläge. Der Münchner Künstler Mario Klingemann nutzt hingegen für seine so genannten Neurographien Deep-Learning-Algorithmen, mit denen er halb-autonome Bilder und Filme entstehen lässt.  Seine Werke wurden schon im Museum of Modern Art New York, Metropolitan Museum of Art New York oder dem Centre Pompidou Paris gezeigt.

Obvious “Edmond de Belamy”, Bild: Christie’s, Quelle: https://www.christies.com/img/LotImages/2018/NYR/2018_NYR_16388_0363_000 (edmond_de_belamy_from_la_famille_de_belamy).jpg, Public Domain, https://commons.wikimedia.org/w/index.php?curid=73886038

Dass KI-Kunst schon längst den etablierten Kunstmarkt erreicht hat, wurde spätestens 2018 deutlich: Beim Aktionshaus Christie’s wurde das Porträt „Edmond de Belamy” für 432.500 Dollar versteigert. Das Porträt wurde mittels KI erschaffen. Das französische Künstlerkollektiv Obvious hatte die Idee dazu und trainierte die KI mit 15.000 klassischen Porträts vom 14. bis zum 20. Jahrhundert. Signiert wurde das Bild übrigens mit einem Ausschnitt aus dem Algorithmus.

Ob Hype, Zukunftsvision oder Marketing-Aktion: Die Beispiele zeigen, dass KI längst in Kunst und Kultur angekommen ist. Ob KI die Kunst- und Kulturlandschaft in Zukunft dominieren wird, bleibt abzuwarten. Klar ist aber, dass KI auch diesen Lebensbereich beeinflussen wird. Fragen nach Kunst und Kreativität im Zusammenspiel mit eigener Subjektivität sowie neue Konzepte der Autorschaft, die die Wahrnehmung und die Produktion von Kunst beeinflussen, werden auch in Zukunft eine wichtige Rolle im gesellschaftlichen Diskurs über Künstliche Intelligenz spielen.

 

Referenzen:

Aufzeichnung: Digitaler Salon – Zahlen, die malen, Alexander von Humboldt Institut für Internet und Gesellschaft (HIIG),  verfügbar unter: https://youtu.be/t74HlOVFW-I

Julian Nida-Rümelin und Nathalie Weidenfeld: Digitaler Humanismus: Eine Ethik für das Zeitalter der Künstlichen Intelligenz, München: Piper 2018. http://stabikat.de/DB=1/XMLPRS=N/PPN?PPN=1019191635

Fiorella Battaglia und Nathalie Weidenfeld: Roboethics in film: [Workshop “RoboEthics in Film” held in Munich on the 28th and 29th of February 2014], Pisa: Pisa University Press 2014. http://stabikat.de/DB=1/XMLPRS=N/PPN?PPN=799896292

Regelmäßige Informationen über KI in Kunst und Kultur: https://kulturimweb.net/

 

Vorschau: Im nächsten Beitrag stellen wir unser neues Projekt QURATOR vor – dabei geht es um Künstliche Intelligenz für die Wissensarbeit!

“Texte aufräumen” – die ersten CrossAsia N-Gramm-Pakete stehen zum Download bereit

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

Von Martina Siebert.

Die meisten kennen sicherlich Ursus Wehrlis Buch „Kunst aufräumen“. Dort wird z.B. Keith Harings „Untitled“ (1986) in seine einzelnen Farbsegmente zerlegt und diese werden fein säuberlich nach Farben und Größe geordnet übereinander gestapelt (siehe z.B. hier). Ganz ähnlich geht das Erstellen von N-Grammen vor. Der eigentliche Text wird in seine Einzelteile zerlegt, identische Einzelteile werden zusammengetragen und dann wird gezählt: was gibt es wie oft. Damit wird sogar noch etwas ökonomischer als bei Herrn Wehrli „aufgeräumt“. Die eigentliche Struktur, das Gesamtbild, wird aufgelöst und der Text strikt statistisch und auf der Basis seiner Einzelteile betrachtet. Was im Fall von N-Grammen als „Einzelteil“ gilt, kann dabei variieren. In Texten in lateinischer Schrift können das die Buchstaben sein oder die durch Leerstellen identifizierbaren Wörter oder auch zwei oder drei (etc.) aufeinanderfolgende Buchstaben oder Wörter.

„Aufräumen“ Ostasiatisch

Für ostasiatische Texte sind die am sichersten korrekt zu identifizierenden Einzelteile die verschiedenen Schriftzeichen (chinesische Schriftzeichen oder auch japanische bzw. koreanische Silbenzeichen). An einem Beispiel lässt sich gut zeigen, wie konzeptionell einfach N-Gramme zunächst gedacht sind. Aus den ersten zwei Phrasen des Daode jing

道可道,非常道。名可名,非常名。無名天地之始, 有名萬物之母。

… wird (hier ohne die Satzzeichen, da die im Original i.d.R. ja auch nicht zur Verfügung stehen) im Fall von 1-Grammen (Monogramm bzw. Engl. unigram) folgendes:

名, 5
道, 3
可, 2
非, 2

常, 2
之, 2
無, 1
天, 1

地, 1
始, 1
有, 1
萬, 1

物, 1
母, 1

… im Fall von 2-Grammen (Bigramm bzw. Engl. bigram), bei denen die Einzelteile nicht aneinander angrenzen, sondern sich schuppenartig überlagern (also 道可, 可道, 道非 etc.), nach Anzahl gestaffelt dieses:

非常, 2
道可, 1
可道, 1
道非, 1
常道, 1
道名, 1

名可, 1
可名, 1
名非, 1
常名, 1
名無, 1
無名, 1

名天, 1
天地, 1
地之, 1
之始, 1
始有, 1
有名, 1

名萬, 1
萬物, 1
物之, 1
之母, 1

Die 3-Gramm (Trigramm bzw. Engl. trigram) Liste würde noch länger und keiner der 3-Gramme würde – auf diesen kleinen Abschnitt bezogen – mehr als einmal vorkommen. Zwei Dinge werden klar: N-Gramme machen für kurze Texte keinen Sinn und die Listen werden schnell sehr groß. Für den gesamten Korpus des Xuxiu Siku quanshu mit 5.446 Titeln sind das 27.387 Monogramme, bzw. 13.216.542 Bigramme; allein für das Beispiel Buwu quanshu 卜筮全書 aus dem Headerbild werden bereits 3.382 Monogramme, 64.438 Bigramme und 125.010 Trigramme gebildet.

Große Listen und dann?

Nur N-Gramm Listen von ganzen Büchern oder sogar ganzen Korpora von Büchern sind in der Lage, inhaltliche Tendenzen aufzuzeigen: treten z.B. bestimmte „Einzelteile“ auffällig oft gemeinsam auf? Was fällt auf, wenn man verschiedene N-Gramm Listen (von Büchern oder Korpora) miteinander vergleicht? Wenn diese rein auf den Textinhalt bezogenen Informationen dann mit den bibliographischen Angaben zu den Büchern in Zusammenhang gesetzt werden, lassen sich Verschiebungen von Gewichtungen und Zusammenspiel dieser „Einzelteile“ über einem Zeitstrahl analysieren oder Charakteristika für bestimmte Autoren oder Buchthemen usw. herausarbeiten.

Der Google-Ngram Viewer oder der HathiTrust Bookworm werden wohl zumeist für genau solche Visualisierungen der Popularität von verschiedenen Termini im Vergleich und über einen Zeitstrahl verwendet. Doch N-Gramme – bereinigt und „geschärft“ durch weitere analytische Routinen – können die Basis für viele weitergreifende Fragen und Antworten bilden. Manche dieser Dinge fallen u.U. auch beim Lesen oder „close reading“ auf – natürlich! Aber N-Gramme gehen erbarmungslos statistisch vor und lassen sich nicht von Leseerwartungen und Standardinterpretationen beeinflussen. Und noch einen großen Vorteil bieten N-Gramme: der eigentliche (lizenzgeschützte) Text ist hinter einer statistischen Analyse seiner Einzelteile verschwunden und die Bereitstellung dieser Statistik stellt keine Verletzung der von CrossAsia abgeschlossenen Hosting- und Indexierungsrechte dar.

Schritt für Schritt in die Zukunft

Das Headerbild zum Artikel zeigt, wie aus dem originalen Druckbild ein durchsuchbarer Volltext wird und aus diesem dann Listen mit 1-, 2-, und 3-Grammen. Die einzelne N-Gramm-Liste selbst ist dabei nur bedingt von Nutzen. Erst wenn sie zusammen mit vielen Listen und mittels Tools und Routinen analysiert wird, zeigt sich das Potential. Die Zahl unserer Nutzerinnen und Nutzer, die auf der Basis solcher Listen ihre eigenen Analysen durchführen, wird sicher in den nächsten Jahren stark zunehmen, da immer öfter digitale Analysemethoden und Formen des „distant reading“ in geisteswissenschaftliche Curricula eingebunden werden. Doch wir arbeiten daran, parallel zu Services wie CrossAsia N-Gramm Listen, Analyse- und Visualisierungstools zu entwickeln, die allen Nutzerinnen und Nutzern einen einfachen Zugang zu unserem beständig wachsenden Fundus an Texten im Repositorium erlauben.

Erste Stationen

Als erstes Tool dafür ist die CrossAsia Volltextsuche Ende April 2018 mit zwei Versionen online gegangen. Ihr Suchraum ist nunmehr auf rund 130.000 Titel mit über 15,4 Mio. Textseiten angewachsen. Die Volltextsuche arbeitet auf Basis einer Wort-Suche in Kombination mit den Buchmetadaten und wird auf lange Sicht – so ist zu vermuten – die Anforderung, Hinweise auf relevante oder interessante Ressourcen zu geben, nicht optimal erfüllen können: zum einen unterscheiden sich die bibliographischen Metadaten der einzelnen Sammlungen stark und als Filter eignen sich im Grunde nur allen gemeinsame Metadatenfelder, zum anderen werden immer mehr Ressourcen durchsucht und man verliert leicht in der großen Treffermenge den Überblick.

Ziel von Aktivitäten wie der Generierung von N-Grammen und der Entwicklung von digitalen Tools zur Ermittlung von Ähnlichkeiten zwischen Texten und der Identifikation von Themen ist, die Texte nicht mehr allein unter dem Blickwinkel ihrer bibliographischen Beschreibung zu betrachten, sondern die Texte auch „über sich selbst“ sprechen zu lassen. N-Gramme, topic modeling (d.h. die Algorithmus-gesteuerte Identifikation von „Themen“ eines Buchs), Named-entity recognition (d.h. das automatische Erkennen und markieren von Personen- und Ortsnamen u.ä.) etc. sind Formen solcher Selbstbeschreibungen von Texten. Wir experimentieren aktuell mit verschiedenen solcher Zugänge, Visualisierungen und Analysen der Textkorpora im CrossAsia ITR und diese sollen der reinen Volltextsuche in naher Zukunft zur Seite gestellt werden.

CrossAsia N-Gramm Service

Drei erste Pakete mit N-Grammen (1-, 2-, und 3-Gramme) der im CrossAsia Integrierten Textrepositorium (ITR) gehosteten Texte haben wir nun als Service für unsere Nutzerinnen und Nutzer – und darüber hinaus – zum Download bereitgestellt (CrossAsia N-gramn Service). Das sind 1. der über 5.400 Titel umfassende schriftsprachliche, chinesische Textkorpus Xuxiu Siku Quanshu 續修四庫全書, 2. das 1906 herausgegebene daoistische Textkompendium Daozang jiyao 道藏辑要 (ca. 300 Titel) und 3. eine über 10.000 Titel große Zusammenstellung von chinesischen Lokalmonographien (difang zhi 地方誌) der Song bis Republikzeit inklusive einiger älterer geographischer Texte.

Die N-Gramme sind hierbei jeweils auf Buchebene generiert worden. Die ID, also der Name der Datei, verweist auf den entsprechenden Metadatensatz in den ebenfalls zum Download bereitstehenden Tabellen mit Metadaten. Einige Hinweise zu dieser ersten Version von N-Grammen: es wurde keine Dublettenkontrolle durchgeführt (also ob z.B. dieselbe Lokalmonographie mehrmals im Korpus vorkommt) und es wurde keine Normalisierung der Zeichenvarianten vorgenommen (bei der z.B. 回, 囬, 廻, 囘 als gleichwertige Zeichen behandelt würden). An Interpunktionen weisen die Volltexte nur chinesische Klammern zur Markierung von Unterüberschriften u.ä. (wie 【 und 】) auf. Auch diese Klammern haben wir in der aktuellen Version getilgt. Wie immer bei der Verwendung von Algorithmen, ist die oben versprochene erbarmungslos statistische Herangehensweise von n-grams natürlich abhängig von einigen sensiblen Entscheidungen beim Vorbereiten der Daten und keine Entscheidung ist für alle Forschungsfragen gleich passend.

Wir sind neugierig!

Helfen Ihnen diese N-Gramm-Listen bei Ihrer Forschung? Was können wir hier besser machen? Haben Sie andere Vorschläge für computergenerierte Informationen über die Texte, die wir zur Verfügung stellen sollten? Wir freuen uns von Ihnen zu unserem neuen Service zu hören!

x-asia@sbb.spk-berlin.de

Dieser Artikel erschien zuerst im CrossAsia Blog.

Vorschau: In unserem nächsten Beitrag nähern wir uns der künstlichen Intelligenz aus Sicht von Kunst und Kultur!