Unsere Beiträge zu den Wissenschaften und Forschung

Die CrossAsia Volltextsuche für Asieninteressierte!

Ein Beitrag von Martina Siebert

Seit einigen Monaten steht bereits eine erste Version der CrossAsia Volltextsuche zur Verfügung. Die Volltextsuche basiert auf den Texten, die im CrossAsia Integrierten TextRepositorium (ITR) gespeichert sind, welches der Aufgabe dient, Texte, Bilder und Metadaten der für CrossAsia lizenzierten Datenbanken sicher und nachhaltig zu archivieren und zugleich die Möglichkeit bietet, diese Inhalte nahtlos in aktuelle und zukünftige CrossAsia Services einzubinden und im Rahmen der digitalen Wissenschaften für Analysen, Explorationen, Anreicherungen und Visualisierungen anbieten zu können. Wie bei Lagern, Magazinen, Repositorien zumeist die Regel, ist auch das CrossAsia ITR vor allem Infrastruktur, d.h. es *ermöglicht* Dinge ohne selbst unmittelbar sichtbar und greifbar zu werden. Die Volltextsuche kann also als eine Spitze dieses sonst von außen nicht sichtbaren „Eisbergs“ vorgestellt werden.

Das ITR und die in die Volltextsuche eingebetteten Ressourcen wachsen kontinuierlich und wir konnten jetzt auch eine zweite Variante der Volltextsuche freischalten. Zu beidem finden Sie mehr Details weiter unten. Ein wichtiger Punkt bei der Volltextsuche für uns ist, sie so anzubieten, dass sie *allen* Nutzer*innen zur Verfügung steht, also auch solchen, die keinen Zugang zu den jeweiligen Datenbanken haben bzw. deren Zugang nicht über CrossAsia ermöglicht wird. Damit fügt sich die Volltextsuche harmonisch in das Profil der eher „bibliographischen“ CrossAsia Suche ein, die ebenfalls frei zur Verfügung steht.

Schnipsel und Links

Die Treffer in der CrossAsia Volltextsuche werden als sehr kurze und fragmentierte Textschnipsel ausgegeben. Nur so ist es möglich, die Suche für alle zu öffnen und dabei die für diese Ressourcen vereinbarten Lizenzbedingungen zu wahren. Auch Nutzer*innen ohne Zugang zu den jeweiligen Datenbanken wird damit die Möglichkeit gegeben, einen Eindruck zu gewinnen, welche Quellen u.U. relevant für die eigene Fragestellung sind. Über verschiedene Links in den Treffern gelangt man zur kompletten Quelle. Für authentifizierte CrossAsia-Nutzer*innen führt das ‚rot‘ gefärbte Icon direkt zum Objekt im originalen Kontext der Datenbank; für Nutzer*innen mit anderen Zugangsmöglichkeiten – z.B. über den IP-Range ihrer Institution oder ein individuelles Login – wird parallel ein ‚graues‘ Icon angeboten. „Direkt zur Quelle“ bedeutet für die verschiedenen Ressourcen dann doch verschiedenes. In jedem Fall stellen wir möglichst treffgenaue Links zur Verfügung. D.h. wenn der Datenbankanbieter uns das ermöglicht, wird die entsprechende Seite angesteuert, in anderen Fällen gelangt man zumindest zum Buch oder Artikel und muss dort dann die im Treffer angegebene Seite (bzw. Imagenummer) aufschlagen. In einigen Fällen jedoch stehen nur Links zur jeweiligen Datenbank zur Verfügung. Hier ist der Weg dann etwas weiter bis zur Fundstelle (so aktuell z.B. der Fall für die People’s Daily und die Lokalmonographien der Erudition-Datenbank).

Noch mehr Volltexte für die Suche

Der Korpus an Texten, die in der CrossAsia Volltextsuche durchsucht werden können, wächst kontinuierlich. Aktuell dominieren chinesische Texte und englische Texte mit Chinabezug, aber weitere Ressourcen, die auch für die Japan-, Korea- und weitere asienbezogene Forschung relevant sind, befinden sich bereits in der Pipeline. Aktuell können die Inhalte der folgenden, über CrossAsia lizenzierten Datenbanken recherchiert werden:

  • Adam Matthew – China, America, Pacific
  • Adam Matthew – China Trade & Politics
  • Adam Matthew – Foreign Office Files China
  • 道藏輯要
  • 中國地方誌 一集 (雕龍)
  • 中國地方誌 續集 (雕龍)
  • Missionary, Sinology, and Literary Periodicals (1817-1949)
  • Local Gazetteers (Erudition)
  • 人民日报 : People’s daily (1946-2009)
  • 清代史料
  • 四庫全書
  • 續修四庫全書

Darüber hinaus sind in die Volltextsuche einzelne lizenzierte Bände aus den Airiti und CNKI ebook-Portalen integriert, sowie ein Testsample an gedruckten Beständen, für die wir selbst mittels OCR einen Index erstellt haben. Zusammen sind das aktuell: 120 Tausend Titel (Buch- und Artikeltitel) mit über 13 Millionen Seiten. Das ist schon eine ziemlich große Eisbergspitze.

Noch mehr Suche für die Volltexte

Einigen Nutzer*innen ist die CrossAsia Volltextsuche Typ A mittlerweile schon vertraut. Jetzt haben wir ihr eine Volltextsuche Typ B zur Seite gestellt. Charakterisieren lassen sich die beiden als „geführte Suche“ (Typ A) und „explorative Suche“ (Typ B).

Typ A nimmt als Anker für die Suche Einheiten wie z.B. ein Buch oder eine Tagesausgabe der People’s Daily und verwendet die Anzahl der Seiten/Artikel mit Treffern darin als Kriterium für die Reihenfolge der Anzeige. Ein Buch mit mehr Seiten, auf denen der Suchterm erscheint, wird also höher gerankt. Die „Anker“ bzw. Bücher etc. werden im Suchergebnis in der linken Spalte in diesem Ranking angezeigt; wählt man ein Objekt dort aus, erscheinen die Seiten mit Treffern aus dem ausgewählten Objekt in der mittleren Spalte. Diese sind nach Seitenzahl geordnet. Mit Hilfe der Filter in der rechten Spalte kann man die Treffermenge dann weiter reduzieren bzw. fokussieren. Es wird in Typ A  *nur* in den Inhalten der Seiten gesucht und diese Inhalte zu ihren jeweiligen Büchern o.ä. gebündelt ausgegeben.

Hier die Funktionen der drei Seitenbereiche von Typ A im Überblick:

“Geführte” Volltextsuche (Typ A)

Typ B behandelt alle Objekte gleichberechtigt. D.h. Bücher, Artikel oder Archivalien und die einzelnen Volltextseiten werden auf ihre Relevanz in Bezug auf den Suchterm vom Index bewertet und in der Reihenfolge dieser Bewertung (dem „score“) als Treffer ausgeliefert. Metadaten, Beschreibungen, Autorennamen, Volltexte – alles wird durchsucht und in bunt gemischter Reihe ausgegeben. Über Filter auf der linken Seite kann der Typ der Trefferobjekte gewählt werden (also ob nur Seiten oder nur Bücher bzw. Artikel und ihre Metadaten ausgeben werden sollen) oder auch Filter wie Jahr, subject u.ä. eingestellt werden. Dies kann wiederum nachträglich geschehen, in Typ B aber auch bevor ein Suchterm eingegeben wurde. Zu beachten hier ist, dass aktuell für Seiten keine inhaltlichen Filter zur Verfügung stehen. IE jenseits von Edge setzen die Filterfunktion nicht korrekt um.

“Explorative” Volltextsuche (Typ B)

Einen kurzen Überblick gibt auch die neue Einstiegsseite für die CrossAsia Volltextsuche. Mehr Informationen zu den jeweiligen Besonderheiten der beiden Such-Typen können über das „i“ hinter den Suchschlitzen aufgerufen werden.

Und was kommt dann?

Beide Suchmodi lösen Schranken zwischen verschiedenen Quellenkorpora und Texttypen auf, die durch die individuellen Datenbankzugänge geschaffen wurden, und ermöglichen damit – so hoffen wir – neue, bessere Wege, sich einen Überblick über die Quellenlage zu verschaffen und das Umfeld eines Suchterminus in einem möglichst breiten Spektrum von Texten zu ergründen. Details aus verschiedenen Datenkorpora werden gemeinsam angezeigt und werden jenseits der von der Datenbank vorgegebenen Logik ansteuerbar. Das ist ein wichtiger, aber doch auch nur ein erster Schritt. Um sich in diesen großen Mengen an Text nicht zu verlieren, wollen wir gemeinsam mit unseren Nutzern überlegen, wie innovative Recherche- und Zugangsmodi aussehen könnten. Um zudem diese große Menge an Text für neue Forschungsfragen in den digitalen Geisteswissenschaften zu erschließen, arbeiten wir an Schnittstellen, über die Projekte (große und individuelle) mit diesen Daten in Zukunft arbeiten können, aber auch an Wegen über ein pre-processing diese Texte nicht nur über die Metadaten ihrer bibliographischen Einheit zu charakterisieren, sondern auch „aus sich selbst heraus“, d.h. mit Hilfe von automatisierter Textanreicherung und statistischen Auswertungen von Kollokationen u.ä. weitere Formen von „Metadaten“ zu generieren.

Über Hinweise, Feedback, Vorschläge, Kritik sind wir dankbar! Am besten direkt an x-asia@sbb.spk-berlin.de

Forschungsprojekt QURATOR erfolgreich gestartet – Künstliche Intelligenz für die Wissensarbeit

Pressemitteilung des Deutschen Forschungszentrums für Künstliche Intelligenz (DFKI) in Berlin:

Mit einer gemeinsamen Auftaktveranstaltung im Deutschen Forschungszentrum für Künstliche Intelligenz (DFKI) in Berlin ist die Wachstumskerninitiative QURATOR erfolgreich gestartet. QURATOR steht für „Curation Technologies“ und bezeichnet eine Technologieplattform, die WissensarbeiterInnen in unterschiedlichen Branchen und Anwendungskontexten bei der Kuratierung digitaler Inhalte unterstützt. Im Rahmen des Forschungsprojekts sollen Verfahren aus der Künstlichen Intelligenz (KI) als Kuratierungstechnologien entwickelt und in praxisnahe Branchenlösungen integriert werden.
Das Bündnis der Wachstumskerninitiative, die im Rahmen des Programms „Unternehmen Region“ vom Bundesministerium für Bildung und Forschung (BMBF) über drei Jahre gefördert wird, umfasst 12 Partner aus Forschung und Industrie. Langfristig zielt das Vorhaben darauf ab, die Metropolregion Berlin-Brandenburg zu einem global anerkannten Exzellenzstandort für digitale Kuratierungstechnologien zu etablieren, so Dr. Georg Rehm (DFKI), wissenschaftlich-technischer Koordinator des Vorhabens.

Steigender Kommunikationsdruck
Hintergrund für die Entwicklung intelligenter Kuratierungstechnologien ist ein steigender Kommunikationsdruck, der im Zeitalter der Digitalisierung alle Organisationen erfasst hat. Dazu Armin Berger, Geschäftsführer von 3pc und Bündnissprecher von QURATOR: „Egal ob Unternehmen, Kultureinrichtungen oder staatliche Stellen, wer heute relevant sein will, muss digital kommunizieren. Und das bei einer täglich zunehmenden Menge an Daten, Informationen und Quellen.“ Wissensarbeiterinnen und Wissensarbeiter aller Branchen stünden daher vor dem Problem, aus einem wachsenden Quellenangebot die relevanten Informationen mit wirtschaftlich vertretbarem Aufwand zu extrahieren und daraus eine Vielfalt an digitalen Medienformaten zu erschaffen und zu pflegen, so Armin Berger weiter.

Kuratierungstechnologien als Lösung
Eine Antwort auf diese Herausforderung sind intelligente Kuratierungstechnologien (KT), wie sie im Rahmen von QURATOR entwickelt werden. Im Rahmen der Forschungs- und Entwicklungsarbeiten sollen manuelle Teilprozesse des Kuratierens mithilfe von KI-Technologien automatisiert werden. Dazu gehören z. B. das Suchen und Finden, Sichten, Auswählen, Ordnen, Sortieren, Zusammenfassen, Klassifizieren, Verknüpfen oder Visualisieren von Inhalten und Daten. Als Kuratierungstechnologien weiterentwickelt unterstützen sie den Prozess der Erstellung und Pflege von Content und schaffen gleichzeitig eine optimale Basis für intelligente Services wie Semantische Suche, Empfehlungs-, Sprachdialog- oder Monitoringsysteme.

Plattform für Kuratierungsservices
Ziel des Verbundprojekts ist die Entwicklung einer Technologieplattform, die ein weites Spektrum an Informationsquellen, Datenformaten und Anwendungsszenarien unterstützt. Mit Hilfe dieser modularen Plattform sollen die neu entwickelten Verfahren getestet und evaluiert werden. Darüber hinaus ist die Realisierung branchenbezogener Showcases vorgesehen, um den Nutzen der integrierten Services demonstrieren zu können.

Branchenlösungen für Kultur, Medien, Medizin und Industrie
Die Anwendungsfelder für intelligente Kuratierungsservices sind zahlreich. Sie werden immer dort gebraucht, wo digitale Inhalte erstellt und gepflegt werden. Exemplarisch werden im Verbundprojekt Branchenlösungen für Anwendungsfelder in den Bereichen Kultur, Medien, Medizin und Industrie entwickelt. Dazu gehören u.a. die automatisierte Kuratierung digitaler Archive, smarte Exponate für Museen, ein intelligentes Autorensystem für Storytelling, Tools für TV- und Medienredaktionen, Kuratierungstechnologien für biomedizinisches Wissen sowie Lösungen im Bereich Corporate Communication und intelligente Geschäftsprozessmodellierung.

Förderung und Partner
QURATOR wird vom BMBF im Rahmen des Programms „Unternehmen Region“ gefördert. Die zwölf Bündnispartner sind: DFKI GmbH, 3pc GmbH, Ada Health GmbH, ART+COM AG, Condat AG, Fraunhofer FOKUS, kreuzwerker GmbH, RiseML GmbH, Semtation GmbH, Stiftung Preußischer Kulturbesitz (Staatsbibliothek zu Berlin), Ubermetrics Technologies GmbH und Wikimedia Deutschland e.V.

Pressekontakt
DFKI GmbH, Dr. Georg Rehm
Alt-Moabit 91c, 10559 Berlin
Tel.: 030 23895-1833, georg.rehm@dfki.de

Startseite der Wiley Online Library mit Eintragung im Suchfeld - Screenshot

Testzugang in Wiley Online Library bis 24. 12. 2018 : Log In and Try Out

Die Staatsbibliothek zu Berlin – Preußischer Kulturbesitz bietet für ihre registrierten Benutzer bis zum 24. Dezember 2018 einen Testzugang zu einigen vom Verlag Wiley angebotenen elektronischen Nachschlagewerken an. Bei den fünf zu testenden Publikationen handelt es sich um parallele Ausgaben zu gedruckten mehrbändigen Werken aus den Jahren 2011 – 2016, die zum großen Teil bereits in einem unserer Lesesäle zur Verfügung stehen. Die elektronischen Versionen werden in größeren Abständen um weitere Beiträge ergänzt.

Konkret umfasst das aktuelle Angebot folgende Titel:

The Encyclopedia of Victorian Literature
Zugang über http://erf.sbb.spk-berlin.de/han/protem/https/onlinelibrary.wiley.com/doi/book/10.1002/9781118405376
gedruckt 4 Bände, Lesesaal Unter den Linden HA 5 Vu 7202

The International Encyclopedia of Geography
Zugang über http://erf.sbb.spk-berlin.de/han/protem/https/onlinelibrary.wiley.com/doi/book/10.1002/9781118786352
gedruckt 15 Bände, demnächst im Lesesaal Potsdamer Straße HB 14         

Encyclopedia of Applied Linguistics
Zugang über http://erf.sbb.spk-berlin.de/han/protem/https/onlinelibrary.wiley.com/doi/book/10.1002/9781405198431
gedruckt 10 Bände, Lesesaal Potsdamer Straße HB 5 Bb 7753

Blackwell Companion to Phonology
Zugang über http://erf.sbb.spk-berlin.de/han/protem/https/onlinelibrary.wiley.com/doi/book/10.1002/9781444335262

 The Encyclopedia of Political Thought
Zugang über http://erf.sbb.spk-berlin.de/han/protem/https/onlinelibrary.wiley.com/doi/book/10.1002/9781118474396
gedruckt 8 Bände, Lesesaal Potsdamer Straße HB 8 Pa 5530

–> Login mit Bibliotheksausweisnummer und Password

Machen Sie von diesem zeitlich begrenzten Angebot Gebrauch!

UND

Testen Sie die Produkte auf Inhalt und Funktionalität!

UND, für uns das wichtigste:

Geben Sie uns Ihr Feedback! Damit helfen Sie uns bei der Entscheidung, ob wir eine Lizenzierung anstreben, oder ob das dafür erforderliche Geld nutzbringender für die Erwerbung anderer  Materialien eingesetzt wird.

Kontakt: fachinfo@sbb.spk-berlin.de