Beiträge

Der autonome Militärroboter

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

 

Der autonome Militärroboter – Science fiction oder die Realität von morgen?

Wir kennen sie alle aus Science-fiction Filmen wie Star wars: Kampfroboter, Maschinen, die völlig eigenständig gegnerische Soldaten oder Roboter erkennen und bekämpfen können, meist noch in atemberaubender Geschwindigkeit und mit Fähigkeiten, die den menschlichen weit überlegen sind. Auch wenn an Modellen, die in diese Richtung gehen, in allen großen Militärmächten -USA, China, Russland – geforscht wird, sieht die aktuelle Situation doch noch ganz anders aus.
Dennoch sind auch heute schon Waffensysteme im Einsatz, die hochautomatisiert bzw. z.T. auch schon halbautonom sind: unbemannte Luftfahrzeuge, unmanned aerial vehicles (UAV) sind die bekanntesten von ihnen, landläufig eher als Drohnen bezeichnet, welche auch für zivile Zwecke zum Einsatz kommen, etwa in der Landwirtschaft. Analog gibt es natürlich auch unbemannte Landfahrzeuge, Schiffe und U-Boote.

Automatisierte Systeme kann man als solche Systeme verstehen, bei denen der Computer für jeweils eine spezifische Eingabe oder einen Sensorimpuls genau eine spezifische Reaktion generiert. Autonome Systeme hingegen versuchen Prozesse der kognitiven Psychologie beim Menschen nachzumodellieren (perception, cognition, action) und können damit bei bestimmten Informationen aufgrund der programmierten Algorithmen zu verschiedenen Reaktionen gelangen. Diese Nachbildung eines „Weltmodells“ benötigt also verschiedene Umgebungsdaten, die verarbeitet und aus denen dann Handlungsanweisungen für das System abgeleitet werden. Dies gelingt umso besser, je weniger beeinflussende Faktoren das System erkennen und analysieren muss. Aus diesem Grund sind Drohnen schon relativ weit in ihrer Autonomie vorangeschritten: diese orientieren sich primär an Landkarten, Höhenangaben und Flugverbotszonen. Mittels Radar können sie eventuelle Hindernisse auf der Flugbahn erfassen und über GPS ihre Position bestimmen. Andere Flugkörper emittieren zudem über ihre Transponder Signale, die von der Drohne bei ihrer Flugbahnberechnung ebenfalls erfasst werden können. Aufklärungsdrohnen können auf der Basis dieser Informationen selbständig starten, bestimmte Gebiete überfliegen, mit Sensoren abtasten und auch wieder landen. Autopilotsysteme in zivilen Flugzeugen operieren im Prinzip nach dem gleichen Muster, der Pilot im Cockpit kann hier aber jederzeit in das System manuell eingreifen.
Es liegt auf der Hand, dass z.B. die Probleme beim autonomen Fahren ungleich größer sind, da hier der Computer im Fahrzeug wesentlich mehr Einflussfaktoren möglichst fehlerfrei identifizieren können muss, um daraus ein unfallfreies Fahren des Autos ableiten zu können.

Die Autonomie endet im Moment noch dort, wo die Sensordatenverarbeitung nicht ausreicht, um eine Entscheidung für das System zu treffen, sondern (langjähriges) Erfahrungswissen erforderlich ist, vor allem in Situationen mit einem hohen Grad an Unsicherheit. Exemplarisch kann man hier die Landung eines Flugzeugs auf dem Hudson River im Jahr 2009 nach einem doppelten Triebwerksausfall nennen. Kein Autopilotsystem hätte in kürzester Zeit die Entscheidung zur Notwasserung fällen können, wie der Pilot sie vornahm. Nur langjährig erworbenes Erfahrungswissen erlaubte sowohl die schnelle Einschätzung der Situation als auch dann daraus die richtige Schlussfolgerung zu ziehen.

Im militärischen Kontext sind daher alle Entscheidungen, die mit einem hohen Grad an Unsicherheit behaftet sind und genaues Abwägen erfordern, nach wie vor dem Menschen überlassen. Der Befehl zum Abfeuern einer Rakete durch eine Kampfdrohne wird aus Kontrollzentren weit entfernt vom Ort des Geschehens gegeben. Fragen der Zuverlässigkeit der Informationen (wird das richtige Ziel getroffen), der Verhältnismäßigkeit und ethischen Vertretbarkeit (werden u.U. unbeteiligte Zivilisten mitgetroffen, euphemistisch oft als Kollateralschaden bezeichnet) müssen in kürzester Zeit entschieden werden. Die psychischen Anforderungen an die Drohnenpiloten ähneln denen von Flugzeugpiloten im Kampfeinsatz, vergleichbare Belastungsstörungen sind ebenfalls bekannt.
Der nächste Schritt in der Weiterentwicklung autonomer Militärroboter müsste diese befähigen, durch künstliche Intelligenz ohne Fernlenkung oder Vorprogrammierung eines festen Ablaufplans auf sich verändernde Situationen zu reagieren und in letzter Konsequenz auch den Einsatz von Waffen selbst auszulösen. Dieser gesamte Prozess müsste zudem so ablaufen, dass das System möglichst zweifelsfrei zwischen feindlichen und eigenen Kräften unterscheiden könnte und dass es eine Abwägung treffen könnte, ob Kollateralschäden in unvertretbarem Ausmaß zu erwarten oder gar zivile Opfer zu beklagen wären. Insgesamt eine komplexe Gesamtsituation mit einem hohen Maß an Unsicherheit. Der „Kaperung“ des Systems durch den militärischen Gegner müsste zudem wirksam vorgebeugt werden.
Abgesehen von diesen technischen Herausforderungen stellt sich aber auch die Frage, ob solch ein System überhaupt ethisch zu vertreten wäre und ob es nicht unlösbare rechtliche Probleme nach sich zöge. Schließlich wäre die Verantwortung für die Entscheidung über Leben und Tod an eine Maschine abgegeben worden, die man im Nachhinein kaum noch nach dem internationalen Kriegsvölkerrecht zur Verantwortung ziehen könnte. Es gibt daher nicht wenige Stimmen von Wissenschaftlern und Juristen, die die Entwicklung solcher autonomen Systeme grundsätzlich international ächten bzw. verbieten möchten.

Dennoch kann man davon ausgehen, dass zumindest die Forschung an solchen Systemen weiter vorangetrieben werden wird. Insbesondere bei asymmetrischen Konflikten, bei der Aufstandsbekämpfung (counter insurgency), im Häuserkampf (urban warfare) und der Terrorismusabwehr, bei denen verlustreiche und lang andauernde Einsätze in den militärentsendenden Nationen zunehmend hinterfragt werden, scheint die Möglichkeit, in Zukunft größere Anteile der eingesetzten Soldaten durch intelligente Maschinen ersetzen zu können, verlockend zu sein.

Vielleicht sollte man sich daher noch einmal die vom Science-Fiction-Autor Isaac Asimov schon 1942 exemplarisch formulierten drei Regeln der Robotik in Erinnerung rufen:
1. A robot may not injure a human being or, through inaction, allow a human being to come to harm.
2. A robot must obey the orders given it by human beings except where such orders would conflict with the First Law.
3. A robot must protect its own existence as long as such protection does not conflict with the First or Second Laws. [Asimov, Isaac (1950). “Runaround”. I, Robot (The Isaac Asimov Collection ed.). New York City: Doubleday. p. 40.]

Für autonome Militärroboter hätten diese Regeln keine Gültigkeit mehr.

 

Weiterführende Literatur:

  • Amoroso, Daniele et al., Autonomy in Weapon Systems: The military application of artificial intelligence as a litmus test for Germany’s new foreign and security policy; Berlin, Heinrich Böll Foundation, [2018].
  • Biermann, Kai; Wiegold, Thomas, Drohen: Chancen und Gefahren einer neuen Technik, Berlin, Ch. Links Verlag, 2015.
  • Cummings, M.L., Artificial intelligence and the future of warfare, Research Paper, International Security Department and US and the Americas Programme, January 2017, Chatham House, The Royal Institute of International Affairs.
    https://www.chathamhouse.org/sites/default/files/publications/research/2017-01-26-artificial-intelligence-future-warfare-cummings-final.pdf
  • Payne, Kenneth, Strategy, evolution and war: From apes to artificial intelligence, Washington, Georgetown University Press, 2018.
  • Reisner, Markus, Robotic wars: Legitimatorische Grundlagen und Grenzen des Einsatzes von Military unmanned Systems in modernen Konfliktszenarien, Berlin, Carola Hartmann Miles-Verlag, 2018.
  • Schwarz, Elke, Death machines: The ethics of violent technologies, Manchester, Manchester University Press, 2018.

 

Mit diesem Beitrag verabschieden wir uns aus dem Wissenschaftsjahr 2019 zur Künstlichen Intelligenz, wünschen Ihnen schöne Festtage und freuen uns auf ein Wiederlesen bei unseren Beiträgen im nächsten Jahr!

 

 

 

Kuratieren mit KI: Erste Ergebnisse aus dem QURATOR-Projekt

Ein Beitrag aus unserer Reihe Künstliche Intelligenz zum Wissenschaftsjahr 2019

QURATOR ist ein BMBF-gefördertes Forschungsprojekt mit dem Ziel, ein weites Spektrum von Kuratierungstechnologien basierend auf Methoden und Verfahren der künstlichen Intelligenz zu entwickeln. Wir haben hier im Blog schon mehrfach zum Projekt berichtet. Nachdem im November 2019 das erste von insgesamt drei Jahren Projektlaufzeit endete, liegen inzwischen auch Zwischenergebnisse von insgesamt drei Aktivitäten aus dem Arbeitsbereich der SBB “Digitalisiertes kulturelles Erbe” vor, die wir Ihnen hier gerne kurz vorstellen wollen.

Qualitätsverbesserung OCR

Eine grundlegende Voraussetzung für Suche, Recherche, Analyse und Verarbeitung von digitalisierten Dokumenten sind qualitativ hochwertige, automatisch durch OCR (Optical Character Recognition) erzeugte Volltexte. Während sich die SBB parallel im DFG-Projekt OCR-D vor allem im Bereich der Spezifizierung von offenen Schnittstellen und Datenformaten für die OCR einbringt, wird im Rahmen von QURATOR durch die SBB auch an der Verbesserung der Qualität von OCR Ergebnissen gearbeitet. Hierzu wurden auf dem Datenset GT4HistOCR (Springmann et al., 2018) mehrere Modelle für die auf Deep Learning basierende OCR-Engine Calamari (Wick et al., 2018) trainiert. Eine Besonderheit von Calamari im Vergleich zu anderen OCR-Engines liegt darin, dass bei der OCR mit mehreren Modellen parallel gearbeitet wird, die anschließend in einem Voting-Verfahren unter den Modellen das optimale Ergebnis ermitteln.

Voting der OCR Modelle

Um dies an einem Beispiel zu illustrieren: im folgenden wird mit drei OCR-Modellen gearbeitet. Während Modell 1 (blau) hier mit 80% Sicherheit ein “i” erkennt, tendieren die Modelle 2 (violett) und 3 (grün) als erste Option für den auf “Beyſp…” folgenden Buchstaben mit 40% resp. 30% zu einem “i“.

Die Modelle 2 und 3 geben hingegen eine höhere Wahrscheinlichkeit (50% resp. 40%) für die zweite Option “l” an. Bildet man aber nun aus sämtlichen Modellen für jede erkannte Variante mit deren Konfidenzwerten die Summe, so ergibt sich letztlich doch die Ausgabe des “i” als beste Möglichkeit. Dies liegt daran, dass das Modell 1 sich hier besonders sicher ist, auch wirklich ein “i” erkannt zu haben (80%).

So lässt sich letztendlich zeigen, dass die Modelle unterschiedliche Merkmale unterschiedlich gut lernen, und durch Kombination der Spezialisierungen der Modelle im Gesamtergebnis eine höhere Qualität erzielt werden kann.

Erste Tests im Vergleich mit der aktuellen Version 4.1 der Open Source OCR-Engine Tesseract und dem Standard-Modell für Fraktur (frk) deuten darauf hin, dass hier erhebliche Verbesserungspotenziale zu verwirklichen sind:

OCR Vergleich Tesseract 4.1 und Calamari

Um die mit diesen OCR-Modellen erzielbare OCR-Qualität präzise und reproduzierbar automatisch zu bestimmen, wurde zudem das Evaluationstool Dinglehopper entwickelt, das es erlaubt OCR Ergebnisse in den Formaten ALTO, PAGE-XML und Text mit Referenzdaten (sog. Ground Truth) zu vergleichen und die Differenzen visuell darzustellen. Zudem wurden gegenüber anderen frei verfügbaren Werkzeugen für die OCR Evaluation einige Verbesserungen bei der Behandlung von Sonderzeichen (Ligaturen, Umlaute, Sonderzeichen) vorgenommen.

Strukturerkennung

Die mit Dinglehopper bislang durchgeführten Evaluierungen deuten weiter darauf hin, dass noch auftretende Fehler bei der Texterkennung häufig auf Fehler im Bereich der Layoutanalyse und Textzeilenextraktion (moderne OCR Verfahren arbeiten mit Textzeilen als Input) zurückzuführen sind. Daher arbeitet die SBB auch an einem speziell auf die vielfältigen in historischen Dokumenten auftretenden Layouts trainierten Tool für die Strukturerkennung. Ziel ist es dabei, ausgehend von einer grundlegenden Layoutanalyse einer Dokumentenseite alle Regionen zu ermitteln, die nur Text enthalten (z.B. Absätze, Blöcke) und von weiteren Regionen wie bspw. Grafiken (Abbildungen, Illustrationen, Photographien) oder sonstigen Strukturen (Tabellen, Diagramme) zu unterscheiden. Hierfür wurde in einem ersten Schritt eine Layoutanalyse basierend auf den Konvolutionalen Neuronalen Netzen (CNN) ResNet (He et al., 2015) und U-Net (Ronneberger et al., 2015) entwickelt. Ausgehend von zuvor manuell annotierten Trainingsdaten lernen die Neuronalen Netze hierbei für jedes einzelne Pixel zu entscheiden, in welche übergeordnete Strukturklasse sich dieses am besten zuordnen lässt.

Layoutanalyse mit ResNet/U-Net

Textzeilenerkennung

Auf der Basis der so erkannten Bildregionen die Text enthalten werden in einem weiteren Schritt schließlich anhand der Dichte der Pixel entlang der x-Achse einzelne Zeilen erkannt und für die Texterkennung durch eine OCR-Engine extrahiert.

Die bislang erzielten Ergebnisse sind bei einer ersten rein qualitativen Betrachtung dem state-of-the-art überlegen. Um dies jedoch systematisch und quantitativ zu evaluieren, wird angestrebt in 2020 – erneut in Kooperation mit dem OCR-D Projekt – eine freie Version der Layoutevaluation von PRImA (Clausner et al., 2011) zu implementieren.

Named Entity Recognition

Sind erst einmal die größten Herausforderungen der Text- und Strukturerkennung mit zufriedenstellender Qualität bewältigt, so steht einer weiteren Analyse und Anreicherung der digitalisierten Dokumente mit semantischen Informationen nichts mehr im Wege. Eine häufige Anwendung ist hier z.B. die Eigennamenerkennung (Named Entity Recognition, NER). Unter NER versteht man die Erkennung von Namen für (üblicherweise) Personen, Orte und Organisationen aus Texten.

Scheint dies im ersten Moment noch recht trivial, so ergeben sich bei genauerer Betrachtung doch erhebliche Schwierigkeiten: so müssen durch ein geeignetes NER Verfahren nicht nur historische Schreibvarianten (“Leypzick” –> “Leipzig”) korrekt zugeordnet werden sondern dieses auch robust gegenüber den (hoffentlich wenigen) verbleibenden OCR Fehlern (“Lcipzlg” –> “Leipzig”) sein. Zudem ist die Zuordnung eines Namen zu einer Kategorie nicht immer so eindeutig, wie es auf den ersten Blick scheinen mag. Nehmen wir z.B. den Satz “Paris ist schön”, so könnte mit “Paris” sowohl die Stadt Paris als auch die Person Paris Hilton gemeint sein. Ein gutes NER Verfahren muss daher also auch immer den Kontext mit in Betracht ziehen.

Beispiel Ausgabe der NER auf OCR Volltext

Für die Entwicklung eines für all diese Anforderungen geeigneten NER Tools hat sich die SBB entschieden, auf BERT (Devlin et al., 2018) aufzubauen. BERT hat nicht wirklich etwas mit der Sesamstraße zu tun – vielmehr steht BERT für Bidirectional Encoder Representations from Transformers, ein von Google Ende 2018 veröffentlichtes Neuronales Netz, das darauf trainiert wurde, grundlegende Merkmale natürlicher Sprache zu lernen.

Ausgehend von Google’s BERT Modell hat die SBB dieses zuerst mit einem Datenset aus großen Mengen von deutschsprachigen Volltexten der digitalisierten Sammlungen (Labusch et al., 2019) so trainiert, dass das Modell auch die Besonderheiten von historischen deutschen Schreibweisen erlernt. In einem weiteren Schritt bekam das Modell dann kleinere Mengen von manuell annotierten Daten (Neudecker, 2016) vorgelegt, also Dokumente in denen manuell Personen, Orte und Organisationen vorab markiert wurden, um diese in den digitalisierten Sammlungen automatisch erkennen zu lernen.

Die entwickelte Methode und quantitative Evaluation des so trainierten Modells gegenüber der state-of-the-art in einer Reihe von Experimenten wurde auch in einem Konferenzbeitrag auf der KONVENS2019 vorgestellt. Dabei zeigte sich, dass das so gewonnene Modell die Qualität der NER im Vergleich zu den bislang verfügbaren generischen Methoden (Riedl et al., 2018) erheblich steigert (f1-score von 84.3% vs. 78.5%) bzw. ohne weiteres Fine-tuning die Qualität von speziell angepassten Lösungen (Schweter et al., 2019) erreichen kann.

Um die Qualität der NER weiter zu steigern wurde zudem das Annotationstool neath entwickelt, mit dem aktuell in Kooperation mit dem DFG-Projekt SoNAR-IDH weitere Trainingsdaten erstellt werden. Aktuell wird auch an der Disambiguierung erkannter Entitäten sowie der Zuordnung zu und Verlinkung mit einer Normdatei wie der Gemeinsamen Normdatei (GND) der Deutschen Nationalbibliothek oder Wikidata mittels Contextual String Embeddings (Akbik et al., 2018) gearbeitet.

Sämtliche der genannten und von der SBB im Rahmen von QURATOR entwickelten Software-Tools werden über GitHub als Open Source veröffentlicht. Die trainierten Modelle und dazu verwendeten Datensets werden zudem auch sukzessive im SBB Lab veröffentlicht.

Sollte all dies ihr Interesse geweckt haben, bleibt nur noch der Hinweis auf die #QURATOR2020 Konferenz am 20-21 Januar 2020 in Berlin, wo neben der SBB auch die weiteren Projektpartner von QURATOR sowie eine Reihe von KI-Expert*innen und Anwender*innen die neuesten innovativen Verfahren für die Digitale Kuratierung mit künstlicher Intelligenz präsentieren werden.

 

Vorschau: In unserem nächsten Beitrag wird es kämpferisch – wir beleuchten den Einsatz von KI im Militärwesen!

QURATOR 2020 – Konferenz zu Digitalen Kuratierungstechnologien

Sie möchten wissen, wie Künstliche Intelligenz Sie bei der digitalen Kuratierung unterstützen kann? Dann kommen Sie zu QURATOR 2020 – Conference on Digital Curation Technologies am 20. und 21. Januar 2020 in Berlin!

Hier werden neueste Kuratierungstechnologien für Branchen wie Medien, Kultur, Logistik, Gesundheit oder Energie und Industrie vorgestellt. In praxisnahen Anwenderworkshops  werden konkrete Use Cases erarbeitet – für Storytelling und Ausstellungskuratierung, Risiko-Monitoring, Prozess- und Wissensmanagement, personalisierte Medizin und weitere vielversprechende Anwendungsfelder.

Wer heute nicht digital kommuniziert, findet nicht statt. Unternehmen und Organisationen müssen also immer mehr Inhalte, Daten und Wissen aufbereiten – für eine wachsende Anzahl an Ausgabegeräten und Medien, und natürlich so schnell wie möglich. Allerdings bleibt dafür im Alltag kaum Zeit. Die Folge: Durch unstrukturierte Daten geht wertvolles Wissen verloren – und damit auch die Möglichkeit, Dienstleistungen, Geschäftsprozesse und Lieferketten im Rahmen des Wissensmanagements zu optimieren.

Die Lösung? Kuratierungstechnologien. Im Projekt QURATOR (qurator.ai), an dem die Staatsbibliothek zu Berlin mitwirkt und zu dem wir auch hier im Blog schon mehrfach berichtet haben, werden eine Reihe KI-basierter Services und intelligente Tools zur Unterstützung von Wissensarbeiter*innen, Geschäftsstrategen und Medienverantwortlichen entwickelt, die den kompletten Zyklus der Inhalte-Kuratierung abdecken: von der automatisierten Inhaltsanalyse und –kennzeichnung, über die Vorbereitung und Anreicherung bis hin zur Produktion für verschiedene Formate und Geräte.

Zwei Tage – ein Ziel: Kuratierungstechnologien revolutionieren das Informationsmanagement

Auf der zweitägigen Konferenz werden Anwendungsfelder für Kuratierungstechnologien für verschiedene Branchen – Medien, Kultur, Logistik, Gesundheit, Energie und Industrie – vorgestellt und in Workshops konkrete Use Cases erarbeitet. Am ersten Tag stellen die QURATOR-Partner ihre Projekte vor. Ausgewählte Aspekte werden in Gastbeiträgen vertieft. Der zweite Tag ist praxisorientiert: In Hands-on Workshops erarbeiten unsere QURATOR-Expert*innen gemeinsam mit Ihnen konkrete, branchenspezifische Anwendungsszenarien z.B. für Storytelling und Ausstellungskuratierung, Risiko-Monitoring, Prozess- und Wissensmanagement, personalisierte Medizin und weitere vielversprechende Aufgabengebiete.

Ein weiteres Ziel der Konferenz ist es, traditionelle Silos aufzubrechen und bislang isoliert betrachtete Forschungsfelder zusammenführen: Künstliche Intelligenz und Semantic Web, Datenanalyse und Machine Learning, Informations-/Content- und Wissensmanagement-Systeme, Information Retrieval, Knowledge Discovery und Computerlinguistik – Innovationen garantiert!

Weitere Informationen und Registrierung: https://qurator.ai/conference-qurator-2020/.