Seit wann gibt es „Stadt, Land, Fluss?“ Mit Stabi-Daten und KI Antworten finden
Ein Beitrag von Dr. Jörg Lehmann und Tarek Saier. Der Volltext-Datensatz wurde im Rahmen des Projekts Projekt „Mensch.Maschine.Kultur – Künstliche Intelligenz für das Digitale Kulturelle Erbe“ publiziert.
Schon richtig – es gibt vermutlich wichtigere Recherchefragen. Andererseits: Wenn man in der Familie gerne „Stadt, Land, Fluss“ spielt, kann man schon einmal nach der Herkunft des Spiels fragen. Tarek Saier hat Antworten dazu gefunden und dabei einen von der Staatsbibliothek zu Berlin publizierten Datensatz verwendet.
Die kurze Antwort lautet: Das Spiel „Stadt, Land, Fluss“ (SLF) lässt sich in seiner heutigen Form auf die 1930er Jahre datieren; der Name ist spätestens 1937 nachweisbar. Das zugrunde liegende Spielprinzip – Antworten zu mehreren Kategorien mit demselben Anfangsbuchstaben – existiert jedoch schon seit dem späten 18. Jahrhundert, nachgewiesen ist das Jahr 1784.
Die lange Antwort hat Tarek Saier auf spielerisch-verschmitzte Weise in einem außergewöhnlich gut geschriebenen Beispiel gelungener Wissenschaftskommunikation veröffentlicht. Auch die Einbindung interaktiver Diagramme unterstreicht den verspielten Charakter des Artikels.
„Die Beschäftigung mit ‚Stadt, Land, Fluss‘ ist ein Steckenpferd“, sagt Tarek Saier. Er hat erst einmal nur aus Eigeninteresse recherchiert; ein früheres SLF-Projekt ist ein online verfügbarer ‚Kategorienfinder‘ auf der Grundlage von bildgenerierten Karten.
Das Rechercheprojekt zur Herkunft von SLF kombinierte manuelle, stichwort- und KI-gestützte Suchmethoden und identifizierte 36 historische Quellen. Trotz sprachlicher Hindernisse und OCR-Fehler gelang es, eine plausible Entwicklungslinie vom 18. bis ins 20. Jahrhundert zu rekonstruieren.
Die Recherche zu „Seit wann gibt es ‚Stadt, Land, Fluss‘“ ist nicht nur sehr gut lesbar, sondern durch seine mixed methods-Herangehensweise beispielhaft für digital humanities-Projekte. Saier hat eine ganze Reihe verschiedener Quellen benutzt und sich ad hoc verschiedene Klassifikationen (wie etwa Pfänderspiele und Schreibvarianten) oder Kriterien (ein Buchstabe über mehrere Kategorien hinweg) intellektuell erschlossen. Frühere Varianten, wie das „Handlungs-Spiel“ oder das „Kaufmannsspiel“, waren gesprochene Pfänderspiele, bei denen Spieler reihum etwa Namen, Orte und Waren nannten. Ab dem Jahr 1887 sind schriftliche Formen belegt, bei denen in vorgegebener Zeit Wörter zu Kategorien notiert wurden. Erst in den 1930er Jahren setzte sich die heute bekannte Regel durch, bei der man stoppt, sobald jemand alle Felder ausgefüllt hat.
Raffiniert ist der Teil des Rechercheprojekts, der Large Language Models (LLMs) einsetzt, um den von der Stabi publizierten Datensatz zu analysieren; dieser umfasst immerhin 5 Millionen Textseiten. Saier hat ein KI-gestütztes Rechercheverfahren entwickelt und optimiert, um in diesem riesigen Datenbestand Spiele zu finden, die Stadt, Land, Fluss ähneln. Dafür wurden nur Seiten mit Begriffen wie „Spiel“, „Alphabet“ oder „Anfangsbuchstabe“ vorgefiltert, was den Umfang von fünf Millionen auf 138.000 Seiten reduzierte. Anschließend beurteilte ein günstigeres Sprachmodell (Mistral Small), ob ein Textausschnitt ein entsprechendes Spiel beschreibt. Um trotz begrenzter „Intelligenz“ gute Ergebnisse zu erzielen, nutzte der Autor Techniken wie In-Context-Learning, Chain-of-Thought, englische Instruktionen bei deutschsprachigen Daten und eine auf hohe Trefferquote ausgerichtete Bewertung. Dieses Vorgehen hätte bei der Benutzung von GPT-5 und ohne Vorfilter schlappe 1,2 Millionen Dollar gekostet (!); durch Nutzung von OpenRouter, d.h. einer Plattform, über die viele verschiedene Sprachmodelle über eine einzige API angesprochen werden können, konnte der Preis auf 66,59 Dollar gedrückt werden. Als Informatiker war Saier OpenRouter schon bekannt. Auch wenn er lieber ein offenes, lokal betriebenes Modell benutzt hätte, hält er doch den API-Anwendungsfall im digital humanities-Bereich für realistischer nutzbar.
Für die Niederschrift des Beitrags hat Saier übrigens keine KI benutzt; das Autorsignal ist gut hörbar. Der D3.js-Code der interaktiven Visualisierungen hingegen wurde weitgehend von einem LLM geschrieben, um mit überschaubarem Aufwand eine möglichst responsive und barrierefreie Benutzeroberfläche umzusetzen.
Saier betont die Bedeutung von Quellentransparenz und lädt dazu ein, den Forschungsstand künftig zu erweitern. Sein locker formulierter Text präsentiert hier und da Überlegungen, die Lesende gerne als Inspiration nehmen. Einen Endpunkt sieht er aber durch das Projekt nicht erreicht; im Gegenteil – und wie so oft in der Forschung – gibt es viele denkbare Erweiterungen. Allein schon die in den digitalisierten Sammlungen der Staatsbibliothek verfügbaren Spielbücher bieten dazu reichhaltige Anregungen.





DFKI





Ihr Kommentar
An Diskussion beteiligen?Hinterlassen Sie uns einen Kommentar!