Optische Täuschungen könnten uns helfen, die nächste Generation von KI zu bauen

Sie betrachten ein Bild eines schwarzen Kreises auf einem Raster aus kreisförmigen Punkten. Es ähnelt einem Loch, das in ein Stück weißes Maschenmaterial eingebrannt ist, obwohl es eigentlich ein flaches, stationäres Bild auf einem Bildschirm oder einem Blatt Papier ist. Aber dein Gehirn begreift es nicht so. Wie eine halluzinatorische Erfahrung auf niedriger Ebene stolpert Ihr Verstand; Wahrnehmen des statischen Bildes als Mündung eines schwarzen Tunnels, der sich auf Sie zubewegt.

Als Reaktion auf die Wahrscheinlichkeit des Effekts beginnt der Körper unbewusst zu reagieren: Die Pupillen des Auges weiten sich, um mehr Licht hereinzulassen, so wie sie sich anpassen würden, wenn Sie in Dunkelheit getaucht würden, um die bestmögliche Sicht zu gewährleisten.

Die optische Täuschung des Schwarzen Lochs

Der fragliche Effekt wurde von Akiyoshi Kitaoka , einem Psychologen an der Ritsumeikan-Universität in Kobe, Japan, entwickelt. Es ist eine von Dutzenden von optischen Täuschungen, die er im Laufe seiner langen Karriere geschaffen hat. („Ich mag sie alle“, antwortete er auf die Frage von Digital Trend, ob er einen Favoriten habe.)

Diese neue Illusion war Gegenstand einer Forschungsarbeit, die kürzlich in der Zeitschrift Frontiers in Human Neuroscience veröffentlicht wurde. Während der Schwerpunkt des Papiers eindeutig auf den menschlichen physiologischen Reaktionen auf den neuartigen Effekt liegt (was, wie sich herausstellt, etwa 86 Prozent von uns erleben werden), kann das Gesamtthema auch eine ganze Menge Relevanz haben, wenn es um die Zukunft von geht Maschinenintelligenz – wie einer der Forscher Digital Trends unbedingt erklären wollte.

Ein evolutionärer Vorteil

eine optische Täuschung, die als Fraser-Spirale bekannt ist
Auf den ersten Blick könnte es so aussehen, als ob dieses Bild eine Spirale zeigt, die sich zum Zentrum hin windet. Aber versuchen Sie, einer der Linien zu folgen, während sie sich scheinbar nach innen krümmt, und Sie werden feststellen, dass es sich überhaupt nicht um eine Spirale handelt.

Irgendetwas stimmt nicht mit deinem Gehirn. Zumindest ist das eine einfache Schlussfolgerung aus der Art und Weise, wie das menschliche Gehirn optische Täuschungen wahrnimmt. Welche andere Erklärung gibt es für ein zweidimensionales, statisches Bild, das das Gehirn als etwas völlig anderes wahrnimmt? Lange Zeit hat die Mainstream-Psychologie genau das herausgefunden.

„Am Anfang dachten die Leute: ‚Okay, unser Gehirn ist nicht perfekt … Es macht nicht immer alles richtig.' Das ist ein Fehlschlag, oder?“ sagte Bruno Laeng , Professor am Institut für Psychologie der Universität Oslo und Erstautor der oben genannten Studie. „Illusionen waren in diesem Fall interessant, weil sie eine Art Unvollkommenheit in der Maschinerie aufdecken würden.“

Psychologen sehen sie nicht mehr so. Wenn überhaupt, zeigt Forschung wie diese, dass das visuelle System nicht nur eine einfache Kamera ist. Die optische Täuschung „Illusory Expanding Hole“ verdeutlicht, dass sich das Auge nicht an physische Energie, sondern an wahrgenommenes, ja sogar eingebildetes Licht und Dunkelheit anpasst.

Am wichtigsten ist, dass es zeigt, dass wir die Welt nicht nur dumm mit unseren visuellen Systemen aufzeichnen, sondern stattdessen eine kontinuierliche Reihe wissenschaftlicher Experimente durchführen, um einen kleinen evolutionären Vorteil zu erlangen. Das Ziel ist es, die uns präsentierten Daten zu analysieren und zu versuchen, präventiv mit Problemen umzugehen, bevor sie zu Problemen werden.

"Das Gehirn hat keine Möglichkeit zu wissen, was [wirklich] da draußen ist", sagte Laeng. „Es baut eine Art virtuelle Realität dessen auf, was da draußen sein könnte. Es gibt ein wenig Vermutungen. Insofern kann man sich das Gehirn als eine Art Wahrscheinlichkeitsmaschine vorstellen. Sie können es eine Bayes'sche Maschine nennen, wenn Sie wollen. Es verwendet eine vorherige Hypothese und versucht, sie die ganze Zeit zu testen, um zu sehen, ob das funktioniert.“

Laeng nennt das Beispiel unserer Augen, die Anpassungen vornehmen, die auf nichts anderem basieren als dem Eindruck von Licht von der Sonne: selbst wenn dieses durch eine Wolkendecke oder ein Blätterdach über uns gesichtet wird. Nur für den Fall.

„Was bei der Evolution zählt, ist nicht, dass es [in diesem Moment] wahr ist, sondern dass es wahrscheinlich ist“, fuhr er fort. „Durch das Verengen der Pupille stellt sich Ihr Körper bereits auf eine Situation ein, die sehr wahrscheinlich in kurzer Zeit eintreten wird. Was passiert [wenn die Sonne plötzlich herauskommt] ist, dass Sie geblendet werden. Geblendet bedeutet vorübergehend handlungsunfähig. Das hat enorme Konsequenzen, egal ob Sie eine Beute oder ein Raubtier sind. Du verlierst in einer bestimmten Situation den Bruchteil einer Sekunde und überlebst vielleicht nicht.“

Es sind nicht nur Licht und Dunkelheit, bei denen unsere visuellen Systeme Vermutungen anstellen müssen. Denken Sie an ein Tennisspiel, bei dem der Ball mit hoher Geschwindigkeit fliegt. Würden wir unser Verhalten ausschließlich darauf stützen, was das visuelle System in einem bestimmten Moment empfängt, würden wir der Realität hinterherhinken und den Ball nicht zurückgeben. „Wir sind in der Lage, die Gegenwart wahrzunehmen, obwohl wir wirklich in der Vergangenheit stecken“, sagte Laeng. „Der einzige Weg, dies zu tun, besteht darin, die Zukunft vorherzusagen. Es klingt ein bisschen wie ein Wortspiel, aber das war es auf den Punkt gebracht.“

Maschinelles Sehen wird immer besser

Gesichtserkennung
izusek/Getty Images

Was hat das mit Computer Vision zu tun? Potenziell alles. Damit beispielsweise ein Roboter in der realen Welt effektiv funktionieren kann, muss er in der Lage sein, diese Art von Anpassungen im laufenden Betrieb vorzunehmen. Computer haben einen Vorteil, wenn es um ihre Fähigkeit geht, extrem schnelle Berechnungen durchzuführen. Was sie nicht haben, sind Millionen Jahre Evolution auf ihrer Seite.

In den letzten Jahren hat die Bildverarbeitung dennoch enorme Fortschritte gemacht. Sie können Gesichter oder Gangarten in Echtzeit-Videostreams identifizieren – möglicherweise sogar in großen Menschenmengen. Ähnliche Bildklassifizierungs- und Tech-Tools können auch das Vorhandensein anderer Objekte erkennen, während Durchbrüche bei der Objektsegmentierung es ermöglichen, den Inhalt verschiedener Szenen besser zu verstehen. Auch bei der Extrapolation von 3D-Bildern aus 2D-Szenen wurden erhebliche Fortschritte erzielt, sodass Maschinen dreidimensionale Informationen, wie z. B. die Tiefe, aus Szenen „lesen“ können. Damit rückt die moderne Computer Vision näher an die menschliche Bildwahrnehmung heran.

Es besteht jedoch immer noch eine Kluft zwischen den besten Bildverarbeitungsalgorithmen und den visuellen Fähigkeiten, zu denen die überwältigende Mehrheit der Menschen von klein auf in der Lage ist. Obwohl wir nicht genau sagen können, wie wir diese auf Visionen basierenden Aufgaben ausführen (um den ungarisch-britischen Universalgelehrten Michael Polanyi zu zitieren: „Wir können mehr wissen, als wir sagen können“), sind wir dennoch in der Lage, eine beeindruckende Reihe von Aufgaben auszuführen, die dies tun ermöglichen es uns, unser Sehvermögen auf vielfältige Weise zu nutzen.

Ein Turing-Test für maschinelles Sehen

Wenn Forscher und Ingenieure hoffen, Computer-Vision-Systeme zu entwickeln, die mindestens auf Augenhöhe mit den visuellen Verarbeitungsfähigkeiten des Wetware-Gehirns arbeiten, ist das Erstellen von Algorithmen, die optische Täuschungen verstehen können, kein schlechter Ausgangspunkt. Zumindest könnte es sich als gute Methode erweisen, um zu messen, wie gut maschinelle Bildverarbeitungssysteme für unser eigenes Gehirn funktionieren. Es ist vielleicht nicht die Antwort auf die mythische künstliche allgemeine Intelligenz , aber es könnte der Schlüssel sein, um die allgemeine Vision freizuschalten.

eine optische Täuschung, die Ihr Gehirn dazu bringt, falsche Farben zu sehen
Ob Sie es glauben oder nicht, aber alle diese Bälle haben denselben Grauton, und Ihr Gehirn interpretiert sie als unterschiedliche Farben, basierend auf den kontextuellen Hinweisen der farbigen Linien, die sie kreuzen

„Wenn jemand eines Tages ein künstliches visuelles System entwickeln würde, das die gleichen illusorischen Wahrnehmungsfehler begeht wie wir, würden Sie an diesem Punkt wissen, dass er eine gute Simulation der Funktionsweise unseres Gehirns [erreicht]“, sagte Laeng. „Das wäre eine Art Turing-Test. Wenn Sie ein künstliches Netzwerk haben, das wie wir von Illusionen getäuscht wird, dann wären wir dem Verständnis der zugrunde liegenden Berechnung des Gehirns selbst sehr nahe.“

Yi-Zhe Song , Dozentin für Computer Vision and Machine Learning am Centre for Vision Speech and Signal Processing der britischen University of Surrey, stimmt dieser Hypothese zu. „Es ist von großem Wert für die Community, Sehalgorithmen zu bitten, optische Täuschungen als allgemeines Thema zu verstehen“, sagte er gegenüber Digital Trends. „Es geht über den derzeitigen Gemeinschaftsfokus hinaus, Maschinen zu bitten, [zu erkennen], indem es die Grenzen weiter verschiebt [und] Maschinen zur Vernunft auffordert. Dieser Vorstoß [würde] einen bedeutenden Schritt nach vorn in Richtung ‚General Vision‘ darstellen, wo subjektive Interpretationen visueller Konzepte berücksichtigt werden müssen.“

Benutze deine Illusion

Bis heute gibt es einige begrenzte Forschungen zu diesem Ziel – obwohl es sich noch in einem relativ frühen Stadium befindet. Nasim Nematzadeh, ein promovierter Forscher. in Artificial Intelligence and Robotics-Low-Level Vision Models, ist eine Person, die Arbeiten zu diesem Thema veröffentlicht hat.

„Wir glauben, dass die weitere Erforschung der Rolle einfacher Gauß-ähnlicher Modelle bei der Netzhautverarbeitung auf niedriger Ebene und des Gauss-Kerns im frühen Stadium [tiefe neuronale Netze] und ihre Vorhersage des Verlusts der Wahrnehmungstäuschung zu genaueren Computer-Vision-Techniken führen wird und Modelle“, sagte Nematzadeh gegenüber Digital Trends. „[Dies könnte] zu übergeordneten Modellen der Tiefen- und Bewegungsverarbeitung beitragen und auf das Computerverständnis natürlicher Bilder verallgemeinert werden.“

Max Williams, ein KI-Forscher, der geholfen hat, einen Datensatz mit Tausenden von Bildern optischer Täuschungen für Computer-Vision-Systeme zusammenzustellen, bringt die Beziehung zwischen allgemeinem Sehen und optischen Täuschungen auf den Punkt: „Illusionen existieren, weil unsere Augen und unser Gehirn chaotisch und ad-hoc arbeiten Prozess, um eine visuelle Szene aus einem ansonsten unverständlichen Lichtfeld zu extrahieren, das von einer physischen Welt geschaffen wurde, von der wir fast vollständig abgeschottet sind“, sagten sie gegenüber Digital Trends. „Ich glaube nicht, dass es möglich ist, ein visuelles System ausdrucksstark genug zu machen, um als ‚Wahrnehmung‘ angesehen zu werden, die auch frei von Illusionen ist.“

Allgemeine Vision erreichen

Um es klar zu sagen, das Erreichen von General Vision für KI auf menschlicher Ebene (oder besser) bedeutet nicht nur, sie darin zu trainieren, standardmäßige optische Täuschungen zu erkennen. Keine hyperspezifische Fähigkeit, beispielsweise Magic Eye-Illusionen mit einer Genauigkeit von 99,9 % in 0,001 Sekunden zu entschlüsseln, wird Millionen von Jahren menschlicher Evolution ersetzen.

(Interessanterweise hat die maschinelle Bildverarbeitung bereits ihre eigene Version von optischen Täuschungen in Form von gegnerischen Modellen, die sie – wie in einer alarmierenden Illustration – fälschlicherweise eine 3D-gedruckte Spielzeugschildkröte für ein Gewehr halten können. Diese ergeben jedoch nicht die dieselben evolutionären Vorteile wie die optischen Täuschungen, die beim Menschen wirken.)

Dennoch könnte es eine sehr nützliche Forschung sein, Maschinen dazu zu bringen, menschliche optische Täuschungen zu verstehen und auf sie so zu reagieren, wie wir es tun.

Und eines ist sicher: Wenn General Vision AI erreicht ist , wird es auf die gleichen optischen Täuschungen hereinfallen wie wir. Zumindest im Fall des Illusory Expanding Hole, 86% von uns.