Wie Menschen und Maschinen gemeinsam Konzepte lernen können

Auf dem wissenschaftlichen Gebiet der künstlichen Intelligenz (KI) wurden in den letzten Jahren große Erfolge bei Aufgaben wie der Klassifizierung von Bildmengen erzielt. Einige neuartige Ansätze scheinen sogar die menschliche Leistung bei diesen Aufgaben zu übertreffen. Diese Erfolge stammen vor allem aus dem Teilbereich des maschinellen Lernens, genauer gesagt aus dem Bereich des Deep Learning, wo große Netze nichtlinearer Recheneinheiten, so genannter Neuronen (Achtung: sie haben weniger Ähnlichkeit mit biologischen Neuronen, als es den Anschein haben mag), im Prinzip fast jede Funktion annähern können, die man von ihnen zu lernen verlangt. Zwar wird noch immer darüber debattiert, was die Leistung dieser Modelle für den Begriff "Intelligenz" wirklich bedeutet, doch deuten diese Erfolge darauf hin, dass solche Systeme den Menschen vielleicht bei bestimmten Dienstleistungen unterstützen können.

Seit einigen Jahren stellen die Forscher aber auch die Frage, wie wir die internen Entscheidungsprozesse dieser Modelle verstehen können. Wenn wir diese Modelle im täglichen Leben einsetzen wollen, z. B. um wichtige medizinische Entscheidungen zu treffen, sind wir uns sicher einig, dass wir ihre Entscheidungen verstehen wollen, damit wir ihnen voll und ganz vertrauen können.

Ein Ansatz zum Aufbau von Vertrauen besteht darin, von einem Modell Erklärungen zu erhalten, warum es eine bestimmte Entscheidung getroffen hat. Der derzeitige Standardansatz in der Gemeinschaft des maschinellen Lernens, um solche "Erklärungen" von einem Modell zu erhalten, besteht in der Anwendung von Methoden, die dem Benutzer letztendlich sagen, welcher Teil eines Bildes für eine Vorhersage wichtig war. Dies ist jedoch ein sehr begrenztes Mittel, um eine echte "Erklärung" zu erhalten, da der Benutzer immer noch nicht sagen kann, warum der bestimmte Teil des Bildes wichtig war, oder anders ausgedrückt: aus welchem konzeptionellen Grund dieser Teil des Bildes wichtig war. Es wäre wohl wünschenswerter, wenn man eine Erklärung in der Form bekäme: "Ich sage voraus, dass dieses Bild eine Orange beinhaltet, weil ich die Farbe Orange in diesem Bildbereich erkenne.", anstatt "Ich sage voraus, dass dieses Bild eine Orange beinhaltet, weil diese Pixel vorhanden sind.". Diese konzeptionelle Ebene des Erklärens ist auch für die zwischenmenschliche Kommunikation sehr natürlich, denn wenn zwei Menschen miteinander diskutieren und sich gegenseitig Dinge erklären, kommunizieren sie in der Regel auf einer höheren, konzeptionellen Ebene.

Nun stellt sich aber die große Frage: Wie können wir ein künstliches System dazu bringen Konzepte zu lernen und diese klar zu identifizieren und kommunizieren, sodass ein Mensch verstehen kann, was das Modell meint, wenn es sich auf ein bestimmtes Konzept bezieht? Zugegebenermaßen sind dies sehr wichtige Fragen, die mit vielen wichtigen Fragen der KI und der Kognitionswissenschaft zusammenhängen.

Ein einfacher und naiver Ansatz besteht darin, ein Modell so zu überwachen, dass es alle Konzepte vorhersagt, die man ihm vorgibt, wenn man die richtigen Daten hat. Nehmen wir zum Beispiel an, wir haben einen Datensatz von Bildern mit Orangen und Äpfeln. Wir könnten jedes Bild mit allen relevanten Begriffsinformationen versehen und das Modell lernen lassen, diese Begriffsinformationen aus jedem Bild vorherzusagen, z. B. "runde Form", "orange Farbe", "rote Farbe" usw.. Die Erstellung eines solchen kommentierten Datensatzes kann jedoch sehr zeitaufwändig sein, und in vielen Fällen wissen wir vielleicht nicht einmal, welche Konzepte relevant sein könnten, oder haben vielleicht selbst Schwierigkeiten, diese in eine symbolische, sprachliche Form zu bringen. Daher erscheint es viel wünschenswerter, unter diesem Gesichtspunkt auch praktischer, ein Modell solche Konzepte selbst lernen zu lassen, ohne viel Überwachung von Seiten eines Menschen. Abgesehen vom eigentlichen Konzeptlernprozess, der an sich schon eine Herausforderung darstellt, stellt sich nun aber noch mehr die Frage: Wie können wir die Konzepte, die das Modell gelernt hat, identifizieren und uns ihrer sicher sein?

In unserer kürzlich erschienenen wissenschaftlichen Veröffentlichung [1] gehen wir diese Frage an und argumentieren für den Wert prototypischer Darstellungen für die Aufgabe, Konzeptwissen aus Rohdaten, in unserem Fall Bilddaten, zu lernen und zu kommunizieren.

Also, was sind nun prototypische Darstellungen? Ich scheine gerade mit immer mehr Begriffen um mich zu werfen. In unserer Arbeit verstehen wir eine prototypische Repräsentation als eine abstrakte, interne (mentale) Darstellung einer Idee oder eines Konzepts. Es gibt zum Beispiel viele verschiedene Arten von Bäumen in unserer Welt, aber eine Theorie in der menschlichen Psychologie (Prototypentheorie) besagt, dass unsere mentale Repräsentation eines Baumes einem abstrakten prototypischen Baum entspricht. Dadurch wird es einfacher, z. B. eine neue Pflanze als Baum zu kategorisieren, indem wir sie nur mit der prototypischen Repräsentation vergleichen und nicht mit den Repräsentationen aller zuvor gesehenen Bäume. Auf diese Weise ähnelt die prototypische Darstellung eines Baumes der Vorstellung von einem Baum, die alle zuvor gesehenen Bäume gemeinsam haben.

Unabhängig davon, ob diese Theorie für den Menschen gültig ist, nutzen wir in unserer Arbeit die Idee der Prototypentheorie, das während des Lernens bestimmte semantische Merkmale eines möglicherweise kontinuierlichen Raums (wie z.B. Bilder) auf spezifische prototypische Repräsentationen abgebildet werden. Auf diese Weise kann man sicher sein, dass z.B. ein Baum erkannt wurde, wenn diese prototypische Repräsentation aktiviert wurde.

In unserer Arbeit entwickeln wir daher ein neuartiges Modell des maschinellen Lernens, das aus Bildern von Objekten lernen kann, visuelle Merkmale dieser Objekte, die Konzepten wie Form, Größe und Farbe entsprechen, auf bestimmte interne Prototyp-Slots abzubilden, wobei sich "Slot" hier auf den Speicherplatz bezieht, in dem die Prototyp-Repräsentationen gespeichert werden. Wichtig ist, dass das Modell anschließend visualisieren kann, was es mit jedem gelernten Prototyp “meint". Z.B. kann das Modell die prototypische Farbe Blau darstellen, die es aus den verschiedenen Blautönen in den Daten gelernt hat. Auf diese Weise kann ein menschlicher Benutzer prüfen, welches Konzeptwissen das Modell tatsächlich gelernt hat.

 

Interaktives Konzeptlernen zwischen dem Menschen und KI Modell.

Danach kann der menschliche Benutzer den Konzeptlerner auch direkt beeinflussen, indem er z.B. den Prototypraum direkt aktualisiert oder spezifische Beispiele angibt, die ein bestimmtes Konzept gut repräsentieren, welches das Modell möglicherweise übersehen hat (skizzenhaft dargestellt in Bild 1.). Auf diese Weise kann der Benutzer sicherstellen, dass das Modell Konzepte gelernt hat, die für den Endbenutzer sinnvoll sind, oder möglicherweise neue Konzepte identifizieren, die der Benutzer selbst vorher nicht kannte.

Zusammenfassend argumentieren wir in unserer Forschung, dass prototypische Darstellungen starke Vorteile haben, wenn es darum geht, dass maschinelle Lernmodelle Konzeptwissen lernen und kommunizieren.

[1] Stammer, W., Memmel, M., Schramowski, P., & Kersting, K. (2021). Interactive Disentanglement: Learning Concepts by Interacting with their Prototype Representations. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).

Wolfgang arbeitet als PhD in der Artificial Intelligence and Machine Learning Gruppe an der TU Darmstadt unter der Leitung von Prof. Kristian Kersting. Seine Projekte bearbeiten Themen aus Neuro-Symbolic AI, explainable AI, interactive machine learning und representation learning.

Wir benutzen Cookies

Wir nutzen Cookies auf unserer Website. Einige von ihnen sind essenziell für den Betrieb der Seite, während andere uns helfen, diese Website und die Nutzererfahrung zu verbessern (Tracking Cookies). Sie können selbst entscheiden, ob Sie die Cookies zulassen möchten. Bitte beachten Sie, dass bei einer Ablehnung womöglich nicht mehr alle Funktionalitäten der Seite zur Verfügung stehen.