Infos zu den Datensets und Datenpräsentation

Die digitalisierten Bestände der Staatsbibliothek zu Berlin bilden die Grundlage unserer Datensets. Was über die Jahrhunderte hinweg in die Bibliothek aufgenommen wurde, stellt bereits eine erste historische Auswahl dar. Ebenso wurde bisher nur ein Ausschnitt der gesamten Bestände digitalisiert, oft im Zusammenhang mit Forschungsprojekten oder groß angelegten Digitalisierungsinitiativen. Die verfügbaren digitalisierten Sammlungen sind dadurch nicht repräsentativ für die historische Literaturproduktion, aber jedes einzelne Dokument ist dennoch als Zeugnis seiner Entstehungszeit aussagekräftig.

Für den Hackathon haben wir aus den digitalisierten Beständen thematische Datensets zusammengestellt, um die Orientierung innerhalb der Datenmenge und die Ideenfindung für konkrete Projekte zu erleichtern. Entstanden sind Datensets, die entweder von Sammlungsschwerpunkten der SBB inspiriert sind oder Themen betreffen, die uns besonders interessant und wichtig erscheinen.

Die Datensets enthalten Bilddaten der entsprechenden historischen Dokumente sowie Metadaten, in vielen Fällen sind auch OCR-Volltexte verfügbar. Überblickslisten mit genaueren Informationen zu den einzelnen Dokumenten stehen bei jeder Beschreibung zum Download zur Verfügung und die in den Datensets enthaltenen Dokumente stehen unter der Lizenz Public Domain.

Die Präsentation der Datensets zum Auftakt des Hackathons gibt es hier.