In corpore sano et legali – Lizenzinformationen für das Text- & Data-Mining im StaBiKat
Nicht erst seit der Eröffnung neuer Handlungsspielräume für das wissenschaftliche Text- und Data-Mining im Gefolge der jüngsten Urheberrechtsnovelle unterstützt die Staatsbibliothek zu Berlin (SBB) die algorithmische Auswertung, das Distant Reading umfangreicher Datenkorpora. In erster Linie ist damit auf die offene Zugänglichmachung der Digitalisate ihrer gemeinfreien Bestände unter der Public Domain Mark 1.0 angespielt bzw. auf die Integration der von der SBB digitalisierten, aber noch rechtebewehrten Inhalte des DDR-Presseportals in die virtuelle Forschungsinfrastruktur für Sprachressourcen in den Geistes-, Kultur- und Sozialwissenschaften CLARIN. Doch nicht alleine unter dem Dach ihres DDR-Presseportals stehen die digitalisierten Sammlungen der SBB in thematischen Kollektionen zur intellektuellen wie automatisierten Auswertung zur Verfügung, sondern auch in ihrem experimentellen Lab – in Form kuratierter Datensets. Um diese kreative Kontextualisierungsleistung zu skalieren und große Datenkorpora durch maschinelles Lernen besser inhaltlich zu erschließen, beteiligt sich die SBB zudem am Projektcluster QURATOR – Curation Technologies, mit dem das Bundesministerium für Bildung und Forschung die Hauptstadtregion zu einem Innovationszentrum für Künstliche Intelligenz entwickeln möchte. Und schließlich trägt die von der SBB mitkoordinierte nationale Förderinitiative OCR-D dazu bei, digitalisierte historische Druckschriften mithilfe von Verfahren der Optical Character Recognition überhaupt erst in maschinenlesebare Volltexte zu transformieren.
Aber auch jenseits des DDR-Pressportals sowie ihrer Aktivitäten zur Digitalisierung vergriffener Werke versucht die SBB, die urheberrechtlich geschützten Inhalte ihrer zahlreichen Volltextdatenbanken und E-Book-Pakete im Wege der Lizenzierung durch Verlage und Verwertungsgesellschaften unter möglichst liberalen Bedingungen für das wissenschaftliche Text- und Data-Mining nutzbar zu machen. Auf dem Feld der Asienwissenschaften haben diese Anstrengungen bereits zu so umfassenden wie komfortablen Resultaten geführt, stehen doch im Integrierten Textrepositorium unseres von der Deutschen Forschungsgemeinschaft geförderten Fachinformationsdiensts CrossAsia nicht nur ein umfängliches gemischtsprachiges Textkorpus zur Verfügung, sondern mit dem N-Gramm-Service überdies auch ein computerlinguistisches Instrument zu dessen Auswertung.
Zwar wird es angesichts der Breite des von der SBB adressierten Fächerspektrums kaum möglich sein, auch allen übrigen wissenschaftlichen Disziplinen ein entsprechendes Angebot zu schaffen. Aber zumindest machen wir nunmehr direkt im StaBiKat für alle von uns bereitgestellten Volltextdatenbanken und E-Book-Pakete transparent, welche Rechte für das wissenschaftliche Text- und Data-Mining wir für Sie verhandelt haben – über die in § 60d UrhG benannten gesetzlichen Schrankenregelungen hinaus. Darum finden Sie nunmehr bei vielen lizenzierten Datenbanken, E-Journal- und E-Book-Paketen im StaBiKat unter den Anmerkungen einen bisher nicht verzeichneten Hinweis, der Aufschluss darüber gibt, ob es die SBB-Lizenz für diese Ressource gestattet, daran Text-Data-Mining-Aktivitäten vorzunehmen oder nicht. Insgesamt können Sie auf vier verschiedene Hinweise stoßen: Neben der bereits genannten Schrankenbestimmung, Text und Data Mining im Rahmen des deutschen Urheberrechts für wissenschaftliche Zwecke erlaubt, gibt es auch elektronische Ressourcen, bei denen Text und Data Mining erlaubt, Text und Data Mining bedingt erlaubt oder Text und Data Mining nicht erlaubt ist. Eine Aufschlüsselung sowie weitere Informationen finden Sie auf dieser Seite, die Sie auch als Ausgangspunkt für das Stöbern in den Ressourcen nehmen können, da auch hier die jeweiligen Überschriften per Klick direkt zu den in Frage kommenden StaBiKat-Einträgen führen.
Ein Beitrag von Eva María Mateo Decabo und Christian Mathieu
Ihr Kommentar
An Diskussion beteiligen?Hinterlassen Sie uns einen Kommentar!