Fei-Fei Lis 10.000-Wörter-Interview: Räumliche Intelligenz ist die nächste Grenze der KI

In der Welt der KI haben große Sprachmodelle bereits für Erstaunen gesorgt. Doch Fei-Fei Li sagte, der wahre Durchbruch stehe noch bevor. Sie glaubt, dass KI nicht vollständig sei, wenn sie die dreidimensionale Welt nicht verstehe. Das ist ihr nächstes verrücktes Ziel.

Vor zwei Tagen aktualisierte Y Combinator seinen YouTube-Kanal mit einem Interviewvideo von Fei-Fei Li an der AI Startup School in San Francisco. In diesem Gespräch sprach Fei-Fei Li über die Entstehung des ImageNet-Projekts, die rasante Entwicklung des Deep Learning von der Objekterkennung bis hin zu heutigen generativen Modellen und hob eine der schwierigsten Grenzen der künstlichen Intelligenz hervor, an der sie derzeit arbeitet: räumliche Intelligenz.

Fei-Fei Li ist Gründerin und CEO von World Labs, einem Unternehmen für räumliche Intelligenz, das sich auf die Entwicklung groß angelegter Weltmodelle zur Wahrnehmung, Generierung und Interaktion mit der dreidimensionalen Welt spezialisiert hat. In diesem Gespräch stellte sie auch eine Reihe von Fragen dazu, warum dreidimensionale Weltmodellierung für die allgemeine künstliche Intelligenz (AGI) wichtig ist und warum räumliche Intelligenz möglicherweise schwieriger zu erreichen ist als Sprache .

Durchflussrate speichern um die Version anzuzeigen:

Dies ist ein Paradigmenwechsel im maschinellen Lernen

Die Geburt von ImageNet ist nicht nur Fei-Fei Lis persönlicher Traum, sondern auch ein Paradigmenwechsel im Bereich Computer Vision und Deep Learning. Sie erzählte, dass sie damals geradezu besessen davon war, „Maschinen das Sehen beizubringen“, und dass diese Beharrlichkeit und harte Arbeit einen wichtigen Moment geschaffen haben, als Daten, GPUs und neuronale Netze zusammenkamen . Jetzt hat sie eine neue Obsession und plant, weiterhin eine neue KI-Revolution anzuführen.

Wir wollen räumliche Intelligenz zum neuen Schlachtfeld der KI machen

Von der Objekterkennung bis zum Szenenverständnis hat KI allmählich begonnen, komplexe visuelle Informationen zu verstehen. Im aktuellen Zeitalter der künstlichen Intelligenz (AGI) hat eine neue Transformationsphase begonnen. Sie ist überzeugt, dass die Welt nicht rein generativ ist und dass wir uns nur dann wirklich in Richtung AGI bewegen können, wenn wir KI ermöglichen, die dreidimensionale Welt zu verstehen. Die Datenerfassung für große Sprachmodelle ist einfach, und räumliche Intelligenzmodelle sind die nächste Herausforderung, die sie bewältigen muss.

Ich kann nicht zu viele Details zu World Labs verraten.

Auf die Frage nach den von World Labs geplanten Anwendungsszenarien und deren Unterschieden zur aktuellen LLM-Architektur erklärte Li Feifei, dass die Integration von Software und Hardware sowie die Realisierung des Metaversums deren räumliche Intelligenz erfordern. Im Gegensatz zur Realisierung von LLMs erwähnte sie, dass Menschen keine ausgeprägte Wahrnehmung der 3D-Welt hätten, was sehr schwierig sei. Sie glaubt jedoch an ihr Team, das aus den intelligentesten Köpfen der Welt besteht, und dass sie gemeinsam dieses Problem in der 2D-Welt lösen können.

Im Bereich der KI gilt: Keine Angst vor dem Scheitern

Zum Abschluss des Interviews berichtete Fei-Fei Li von ihren eigenen Erfahrungen: Von ihrer Einwanderung in die USA zum Studium über ihre Tätigkeit als Leiterin des Stanford Artificial Intelligence Laboratory und Vizepräsidentin bei Google bis hin zur Gründung ihres eigenen Unternehmens. Sie sagte, sie habe immer bei Null angefangen und hart gearbeitet . Sie ermutigte junge Menschen, ihren Interessen und ihrer Neugier zu folgen, sich mutig Herausforderungen zu stellen und unlösbare Probleme zu lösen.

Fei-Fei Lis 10.000-Wörter-Interview: Räumliche Intelligenz ist die nächste Grenze der KI - PixPin 2025 07 04 11 37 44

Originalvideo: https://youtu.be/_PioN-CpOP0

Nachfolgend finden Sie die Abschrift des Interviews mit geringfügigen Übersetzungsanpassungen.

Der Bereich des maschinellen Lernens braucht einen Paradigmenwechsel

Moderator: Ich freue mich sehr, Dr. Fei-Fei Li hier bei uns zu haben, die eine langjährige Karriere in der KI hinter sich hat. Ich glaube, viele kennen sie. Sie sind auch als „Patin der KI“ bekannt, und eines der ersten Projekte, die Sie 2009, vor 16 Jahren, gegründet haben, war Imagenet. Dieses Projekt wurde über 80.000 Mal zitiert und legte einen wichtigen Grundstein für die KI – das Datenproblem. Können Sie etwas darüber erzählen, wie dieses Projekt entstand? Die damalige Arbeit war wirklich bahnbrechend.

Fei-Fei Lis 10.000-Wörter-Interview: Räumliche Intelligenz ist die nächste Grenze der KI -

Fei-Fei Li: Ja, zunächst einmal vielen Dank an Diana, Gary und alle anderen für die Einladung. Ich freue mich sehr, hier zu sein, denn ich fühle mich wie alle anderen. Ich bin jetzt auch Unternehmerin und habe gerade ein Unternehmen gegründet, daher freue ich mich sehr, hier zu sein.

Ja, Sie haben Recht. Wir haben dieses Projekt tatsächlich schon vor fast 18 Jahren konzipiert, die Zeit vergeht wie im Flug. Ich war in meinem ersten Jahr als Assistenzprofessor an der Princeton University. Die Welt der künstlichen Intelligenz und des maschinellen Lernens war damals völlig anders als heute. Es gab nur wenige Daten, und zumindest im Bereich der Computervision funktionierten die Algorithmen überhaupt nicht. Es gab damals noch keine Industrie, und der Begriff „künstliche Intelligenz“ war der Öffentlichkeit kaum bekannt. Aber es gab dennoch eine Gruppe von Menschen, angefangen bei den Begründern der künstlichen Intelligenz wie John McCarthy bis hin zu Leuten wie Jeff Hinton. Ich denke, wir alle träumen von künstlicher Intelligenz und wollen Maschinen unbedingt die Fähigkeit verleihen, zu denken und zu arbeiten. Und mein persönlicher Traum ist es, Maschinen visuelle Fähigkeiten zu verleihen, denn das Sehen ist der Grundstein der Intelligenz, und visuelle Intelligenz bedeutet nicht nur Wahrnehmung, sondern auch das Verstehen der Welt und das Handeln in ihr.

Ich war sehr besessen von der Idee, Maschinen sehen zu lassen. Im Zuge meiner Leidenschaft für die Entwicklung von Algorithmen für maschinelles Lernen haben wir neuronale Netze ausprobiert, aber das funktionierte nicht. Wir haben uns anderen Methoden wie Support Vector Machines zugewandt, aber es gab ein Problem, das mich immer beschäftigte: das Generalisierungsproblem. Wer im Bereich maschinelles Lernen arbeitet, muss verstehen, dass Generalisierung die zentrale mathematische Grundlage und das Ziel des maschinellen Lernens ist. Für die Generalisierung dieser Algorithmen sind Daten unerlässlich, doch im Bereich der Computervision gab es damals kaum Daten. Und zufällig gehörte ich zur ersten Generation von Doktoranden, die mit Daten zu arbeiten begannen, da ich die Entstehung des Internets und des Internets der Dinge miterlebte.

Um 2007 beschlossen meine Studenten und ich, einen mutigen Schritt zu wagen. Wir waren überzeugt, dass das maschinelle Lernen einen Paradigmenwechsel benötigte, der durch datenbasierte Methoden vorangetrieben werden musste. Doch damals gab es nicht genügend Daten. Da es keine Daten gab, dachten wir: „Lasst uns Milliarden von Bildern aus dem Internet herunterladen – die größte Menge, die wir im Internet finden können.“ Anschließend entwickelten wir ein globales visuelles Klassifizierungssystem, um Algorithmen für maschinelles Lernen zu trainieren und zu evaluieren. Aus diesem Grund entstand das ImageNet-Projekt, das nun auch in die Praxis umgesetzt wurde.

Daten und Open Source läuten den Frühling des Deep Learning ein

Moderator: Tatsächlich begannen Durchbrüche erst mit der Entwicklung vielversprechender Algorithmen. Erst mit der Veröffentlichung von AlexNet im Jahr 2012 wurde der zweite Schlüsselfaktor auf dem Weg zur KI geschaffen: ausreichend Rechenleistung und Ressourcen. Die Algorithmen markierten einen kritischen Moment: Wenn KI mit Daten gefüttert wird, findet die Community allmählich weitere Lösungen, was der KI-Entwicklung neuen Schwung verleiht, nicht wahr?

Fei-Fei Li: 2009 haben wir nur ein kleines Papier als CVPR-Poster veröffentlicht.

Von 2009 bis 2012, bis zum Aufkommen von AlexNet, glaubten wir wirklich, dass Daten die KI vorantreiben würden, aber wir hatten fast keine klaren Signale, dass dieser Ansatz funktionieren würde.

Wir haben also ein paar Dinge getan . Zunächst haben wir uns entschieden, es als Open Source zu veröffentlichen. Wir waren von Anfang an der Meinung, dass es Open Source sein muss, damit die gesamte Forschungsgemeinschaft es nutzen und gemeinsam an der Lösung dieses Problems arbeiten kann.

Zweitens haben wir eine Challenge ins Leben gerufen, weil wir die klügsten Studierenden und Forscher weltweit zusammenbringen wollten, um an diesem Problem zu arbeiten. Diese Challenge nennen wir die ImageNet Challenge. Jedes Jahr veröffentlichen wir einen Testdatensatz. Die gesamten ImageNet-Daten der Plattform werden für das Training verwendet. Wir veröffentlichen jedoch einen separaten Testdatensatz und laden alle zur öffentlichen Teilnahme ein.

In den ersten Jahren ging es vor allem darum, Maßstäbe zu setzen. Die Fehlerquote lag bei etwa 30 %, was zwar nicht null Fehler, nicht völlig zufällig, aber auch nicht überragend war. Doch bereits im dritten Jahr, 2012, schrieb ich in meinem veröffentlichten Buch über diese Erfahrung.

Fei-Fei Lis 10.000-Wörter-Interview: Räumliche Intelligenz ist die nächste Grenze der KI - PixPin 2025 07 04 15 33 21

▲ Der erste Platz in der ImageNet Challenge geht an SuperVision

Ich erinnere mich noch gut: Es war Spätsommer, und wir ließen alle Ergebnisse der ImageNet-Challenge auf unseren Servern laufen. Eines späten Abends erhielt ich eine Nachricht von meinem Doktoranden, der mir von einem besonders herausragenden Ergebnis erzählte, das wir uns einmal ansehen sollten. Wir recherchierten und fanden heraus, dass es sich um ein Convolutional Neural Network handelte. Damals hieß es noch nicht AlexNet, sondern eine Arbeit von Geoffrey Hintons Team namens „SuperVision“. Es war ein cleveres Wortspiel, das „Super“ und „überwachtes Lernen“ kombinierte. Wir sahen uns die Arbeit von SuperVision an, einem alten Algorithmus. Convolutional Neural Networks waren bereits in den 1980er-Jahren veröffentlicht worden, allerdings wurden damals nur einige Anpassungen am Algorithmus vorgenommen. Als wir das zum ersten Mal sahen, waren wir von diesem großen Durchbruch wirklich überrascht.

Natürlich haben wir dies im selben Jahr auf dem ImageNet Challenge-Workshop in Florenz auf der ICCV (International Conference on Computer Vision) vorgestellt. Alex Krizhevsky, sein Team und viele andere Interessierte waren dabei. Heute wird dieser Moment vom „AlexNet-Moment“ der ImageNet Challenge gesprochen.

Ich möchte außerdem hinzufügen, dass es nicht nur der Erfolg des Convolutional Neural Network war, sondern auch das erste Mal, dass Alex und sein Team zwei GPUs für Deep-Learning-Berechnungen kombinierten. Dies war wirklich der erste große Moment für die Kombination von Daten, GPUs und neuronalen Netzwerken.

In meiner Karriere geht es nicht nur darum, Szenen zu erzählen

Moderator: Dem Entwicklungstrend der Computer Vision Intelligence folgend, hat ImageNet tatsächlich den Grundstein für die Lösung des Problems der Objekterkennung gelegt. Künstliche Intelligenz hat nun einen Punkt erreicht, an dem sie das Problem des Szenenverständnisses lösen kann. Denn Sie und Ihre Studenten, wie beispielsweise Andre Karpathy, sind inzwischen in der Lage, Szenen zu beschreiben. Können Sie etwas über den Übergang von der Objekterkennung zum Szenenverständnis sagen?

Fei-Fei Li: Ja, ImageNet löst das Problem, Objekte in einem Bild zu erkennen, wenn man sie sieht, wie zum Beispiel „das ist eine Katze, das ist ein Stuhl“, was ein grundlegendes Problem der visuellen Erkennung ist. Doch seit ich als Doktorand in die künstliche Intelligenz eingestiegen bin, habe ich einen Traum. Ich glaube, es wird hundert Jahre dauern, bis dieser Traum Wirklichkeit wird: die Geschichte der Welt zu erzählen. Stellen Sie sich vor, wenn ein Mensch die Augen öffnet, sieht er nicht nur „Menschen, Stühle, Tische“, sondern einen Konferenzraum, einen Bildschirm, eine Bühne, ein Publikum, eine Kamera usw. Man kann die gesamte Szene beschreiben – eine menschliche Fähigkeit, die Grundlage der visuellen Intelligenz und entscheidend für unser tägliches Leben. Deshalb dachte ich immer, dass dieses Problem mein Leben lang beschäftigen würde. Als ich mein Doktorandenstudium abschloss, sagte ich mir: Wenn ich einen Algorithmus entwickeln könnte, der die Geschichte einer Szene erzählen kann, wäre ich erfolgreich. Das war damals meine Vision von meiner Karriere.

Dieser Moment kam jedoch erst mit dem Aufkommen des Deep Learning. Dann kamen Andre und Justin Johnson in mein Labor und wir begannen, Anzeichen für eine Kollision zwischen natürlicher Sprache und visueller Wahrnehmung zu erkennen.

Andre und ich beschäftigten uns mit dem Problem der Bildbeschreibung bzw. des Geschichtenerzählens. Kurz gesagt: Um 2015 veröffentlichten Andre und ich eine Reihe von Artikeln, darunter einige, die zeitgleich mit uns erschienen. Sie gehörten zu den ersten Arbeiten, die Computern die Generierung von Bildunterschriften ermöglichten. Ich fragte mich fast: Wie soll ich mit meinem Leben weitermachen? Das war mein Lebenstraum. Es war ein wirklich prägender Moment für uns beide.

Fei-Fei Lis 10.000-Wörter-Interview: Räumliche Intelligenz ist die nächste Grenze der KI - PixPin 2025 07 04 13 55 18

Letztes Jahr hielt ich einen TED-Vortrag und benutzte dabei einen Tweet, den Andre vor ein paar Jahren gepostet hatte, direkt nachdem er seine Arbeit über Bildunterschriften abgeschlossen hatte. Das war quasi seine Doktorarbeit. Ich sagte scherzhaft zu ihm: „Hey, Andre, warum machen wir nicht das Gegenteil? Generiere ein Bild aus einem Satz .“ Natürlich wusste er, dass ich scherzte, und antwortete: „Haha, ich gehe zuerst.“ Die Welt war offensichtlich noch nicht bereit dafür. Aber heute, im Schnelldurchgang, wissen wir alle, dass generative KI mittlerweile wunderschöne Bilder aus einem Satz generieren kann. Die Moral der Geschichte ist also, dass KI eine enorme Entwicklung durchgemacht hat.

Ich persönlich fühle mich als der glücklichste Mensch der Welt, denn meine gesamte Karriere begann mit dem Ende des KI-Winters und dem Beginn des Aufstiegs der KI. Ein Großteil meiner Arbeit und Karriere ist eng mit diesem Wandel verbunden oder hat ihn in irgendeiner Weise vorangetrieben. Daher bin ich sehr glücklich, dankbar und in gewisser Weise auch stolz.

Moderator: Ich finde es am verrücktesten, dass Sie, obwohl Sie Ihren Traum, Szenen zu beschreiben und sogar Szenen mithilfe von Diffusionsmodellen zu generieren, verwirklicht haben, immer noch von Größerem träumen. Denn die gesamte Entwicklung der Computervision hat sich von der Objekterkennung zum Szenenverständnis und nun zum Konzept der „Welt“ entwickelt. Und Sie haben sich entschieden, von der Wissenschaft, von einer Professur, in die Selbstständigkeit zu wechseln und wurden Gründer und CEO von World Labs. Können Sie etwas darüber sagen, was „Welt“ ist? Ist sie anspruchsvoller als Szenen und Objekte?

Fei-Fei Li: Ja, es ist wirklich verrückt. Natürlich weiß jeder, was in der Vergangenheit passiert ist, und mir fällt es wirklich schwer, die Fortschritte der letzten fünf oder sechs Jahre zusammenzufassen. Wir befinden uns in einer Phase des technologischen Fortschritts. Als Computer-Vision-Forscher haben wir ein unglaubliches Wachstum von Bildern über Bildbeschreibungen bis hin zur Bildgenerierung mithilfe von Diffusionstechniken miterlebt. Obwohl diese Fortschritte spannend sind, sehen wir gleichzeitig auch einen weiteren äußerst spannenden Bereich: den Bereich der Sprache, insbesondere LLMs (Large Language Models). Beispielsweise öffnete im November 2022 die Einführung von ChatGPT die Tür zu generativen Modellen, die im Grunde den Turing-Test bestehen können usw. Selbst ältere Menschen wie ich sind daher sehr gespannt und beginnen, mutig über das nächste Ziel nachzudenken.

Fei-Fei Lis 10.000-Wörter-Interview: Räumliche Intelligenz ist die nächste Grenze der KI - 1a5d7f716492c6d

Als Computervisionsforscher lasse ich mich oft von der Evolutions- und Gehirnforschung inspirieren. Im Laufe meiner Karriere suche ich oft nach dem nächsten bahnbrechenden Problem. Ich frage mich dann: Was hat die Evolution oder die Entwicklung des Gehirns bewirkt? Bemerkenswert und erfreulich ist, dass die Entwicklung der menschlichen Sprache etwa 300 bis 500 Millionen Jahre gedauert hat – selbst wenn wir sehr großzügig rechnen, sind es weniger als eine Million Jahre. Der Mensch ist die einzige Spezies mit komplexer Sprache. Wir können zwar von Tiersprachen sprechen, aber was die Funktion der Sprache als Werkzeug für Kommunikation, Denken und Abstraktion betrifft, so besitzt nur der Mensch diese Fähigkeit. Dieser Evolutionsprozess dauerte weniger als 500.000 Jahre.

Aber wenn Sie an das Sehen denken, an die Fähigkeit, die dreidimensionale Welt zu verstehen, herauszufinden, wie man sich in dieser dreidimensionalen Welt bewegt, wie man navigiert, interagiert, versteht, mit ihr kommuniziert, dann hat die Entwicklung all dessen 540 Millionen Jahre gedauert.

Vor etwa 540 Millionen Jahren begannen die ersten Trilobiten, unter Wasser visuelle Wahrnehmung zu entwickeln. Seitdem ist das Sehen zum Schlüsselfaktor für das evolutionäre Wettrüsten geworden. Vor der Entstehung des Sehens waren tierische Lebensformen relativ einfach und zeigten fast 500 Millionen Jahre lang kaum komplexe Veränderungen. Doch in den folgenden 540 Millionen Jahren begann gerade die Fähigkeit, die Welt zu verstehen, das evolutionäre Wettrüsten, und die Intelligenz der Tiere verbesserte sich kontinuierlich.

Fei-Fei Lis 10.000-Wörter-Interview: Räumliche Intelligenz ist die nächste Grenze der KI - cofounders desktop

▲ iWorld Labs-Gründungsteam, Fei-Fei Li (erste von rechts), Justin Johnson, Christoph Lassner, Ben Mildenhall

Für mich ist die Lösung des Problems der räumlichen Intelligenz, das Verstehen der 3D-Welt, ihre Generierung, ihr Denken und Handeln in der 3D-Welt ein grundlegendes Problem der KI. Für mich ist künstliche Intelligenz ohne räumliche Intelligenz unvollständig. Dieses Problem möchte ich lösen. Dazu gehört die Entwicklung von „Weltmodellen“, die über flache Pixel und Sprache hinausgehen, um die 3D-Struktur und räumliche Intelligenz der Welt wirklich zu erfassen. Glücklicherweise arbeite ich, egal wie alt ich werde, immer mit den tollsten jungen Menschen zusammen. Deshalb gründe ich jetzt dieses Unternehmen mit drei jungen, aber erstklassigen Technologen: Justin Johnson, Ben Mildenhall und Christoph Lassner. Wir werden versuchen, das meiner Meinung nach derzeit schwierigste Problem der KI zu lösen.

Es ist viel schwieriger, Daten zur räumlichen Intelligenz zu erhalten als Daten zur Sprachkompetenz.

Moderator: Das sind in der Tat alles sehr talentierte Leute. Chris ist der Gründer von Pulsar, einer Technologie für differenzierbares Rendering und jetzt einem kugelbasierten Rendering-Backend für PyTorch3D. Und Justin Johnson, Ihr ehemaliger Student, hat eine ausgeprägte Systemtechnik-Denkweise und hat Echtzeit-Transfers auf Basis neuronaler Netzwerke implementiert. Und Ben ist der Autor des NeRF-Papers (Neural Radiance Fields). Das ist also wirklich ein hochkarätiges Team. Man braucht so ein Eliteteam, denn wir haben ja schon darüber gesprochen: Sehen ist tatsächlich schwieriger als Sprache. Vielleicht ist das etwas kontrovers, weil LLMs im Grunde eindimensional sind, aber Sie sprechen davon, viele 3D-Strukturen zu verstehen. Warum ist das so schwierig? Warum ist es jetzt leistungsfähiger als die großen Programmiersprachen?

Fei-Fei Li: Ja, Sie verstehen die Schwierigkeit unseres Problems. Sprache ist von Natur aus eindimensional, und Grammatik entsteht in Sequenzen, weshalb die Sequenz-zu-Sequenz-Modellierung so klassisch ist. Ein weiterer Punkt ist, dass Sprache ein rein generatives Signal ist, was vielen Menschen nicht bewusst ist. Sprache gibt es in der Natur nicht, man kann sie nicht anfassen, man kann sie nicht sehen, sie entsteht vollständig im Kopf eines jeden Menschen. Sprache ist ein rein generatives Signal. Natürlich ist sie vorhanden, wenn man sie aufs Papier schreibt, aber die Entstehung, Konstruktion und Nutzung von Sprache ist von Natur aus sehr generativ, und die Welt ist viel komplizierter.

Zunächst einmal ist die reale Welt dreidimensional. Zählt man die Zeit hinzu, ist sie vierdimensional, aber wir betrachten hier nur den Raum. Die reale Welt ist im Wesentlichen dreidimensional, was selbst ein kombinatorisch anspruchsvolleres Problem darstellt.

Zweitens muss man verstehen, wie schwierig es ist, die visuelle Welt als Projektionsprozess wahrzunehmen, sei es durch die Augen, die Netzhaut oder die Kamera, die dreidimensionale Informationen stets in zwei Dimensionen komprimiert. Mathematisch gesehen ist dies ein irreversibler Prozess, weshalb Menschen und Tiere über mehrere Sinne verfügen, um dieses Problem zu lösen.

Drittens ist die Welt nicht rein generativ. Ja, wir können eine virtuelle 3D-Welt generieren, aber sie unterliegt weiterhin den Gesetzen der Physik, und die reale Welt existiert außerhalb von uns. Man wechselt nun fließend zwischen Generierung und Rekonstruktion. Nutzerverhalten, Praxistauglichkeit und Anwendungsszenarien sind völlig unterschiedlich. Konzentriert man sich durchgehend auf Generativität, können wir über Spiele, Metaversen und andere Dinge sprechen; konzentriert man sich durchgehend auf die reale Welt, sprechen wir über Robotik und so weiter. Aber alles bewegt sich im Kontinuum von Weltmodellierung und räumlicher Intelligenz.

Die große Herausforderung besteht derzeit natürlich darin , dass es im Internet eine große Menge an Sprachdaten gibt, und Daten zur räumlichen Intelligenz, obwohl sie alle in unserem Gehirn gespeichert sind, sind nicht so leicht zugänglich wie Sprachdaten. Das sind alles Gründe, warum dieses Problem so schwierig ist. Aber ehrlich gesagt, genau das begeistert mich, denn wäre dieses Problem einfach, hätte es schon jemand anderes gelöst. Und meine gesamte Karriere dreht sich darum, extrem schwierige, fast schon Wunschdenken-Probleme zu lösen. Ich denke, dies ist ein Wunschdenken-Problem. Vielen Dank für Ihre Unterstützung bei diesem Problem.

Unsere World Labs haben die intelligentesten Leute der Welt

Moderator: Ja, schon grundlegend betrachtet, verfügt der visuelle Kortex des menschlichen Gehirns über deutlich mehr Neuronen, die visuelle Daten verarbeiten, als Neuronen, die Sprache verarbeiten. Wie manifestiert sich dieser Unterschied in Modellen? Die Dinge, an denen Sie arbeiten, unterscheiden sich ja auch in der Architektur stark von denen im LLM, nicht wahr?

Fei-Fei Li: Das ist eine sehr gute Frage. Tatsächlich gibt es derzeit zwei verschiedene Ansätze zu dieser Frage.

Ein Ansatz ist der LLM-Ansatz, bei dem viele der Schreib- und Schreiberweiterungsmuster, die wir in LLMs sehen, durch selbstüberwachtes Lernen fast direkt weiterentwickelt werden können, bis ein „Happy End“ erreicht ist. Man kann die Selbstüberwachung quasi mit roher Gewalt anwenden, bis man sein Ziel erreicht.

Die andere Möglichkeit besteht darin, ein Weltmodell zu erstellen, das detaillierter und hierarchischer sein kann, da die Welt strukturiert ist und wir möglicherweise Signale benötigen, um es zu steuern. Man kann es als Vorwissen oder als ein Überwachungssignal in den Daten betrachten. Auf jeden Fall ist es eine Möglichkeit, das Lernen zu steuern.

Ich denke, das sind einige der offenen Fragen, die wir lösen müssen, aber Sie haben Recht. Wenn man an die menschliche Wahrnehmung denkt, haben wir noch nicht einmal alle Probleme des menschlichen Sehens vollständig gelöst, oder? Welche Rolle spielt 3D beim menschlichen Sehen? Das Problem ist noch nicht gelöst. Wir wissen, dass die Augen mechanisch Informationen durch Triangulation erfassen müssen, aber dennoch fehlt uns ein perfektes mathematisches Modell, und in der Realität sind Menschen nicht besonders gut in der 3D-Wahrnehmung. Wir sind nicht besonders gut darin, die dreidimensionale Welt zu verstehen und zu manipulieren, daher warten noch viele Fragen auf eine Antwort.

Fei-Fei Lis 10.000-Wörter-Interview: Räumliche Intelligenz ist die nächste Grenze der KI - PixPin 2025 07 04 14 01 48

▲ Screenshots einiger Mitglieder von World Labs

Wir befinden uns also tatsächlich in der Phase der „World Labs“. Ich bin überzeugt, dass wir die intelligentesten Köpfe der Welt haben, um dieses Problem in der „Pixelwelt“ zu lösen.

Die Konvergenz von Hardware und Software wird irgendwann kommen

Moderator: Können wir sagen, dass das Endergebnis dieser von World Labs erstellten Basismodelle eine dreidimensionale Welt ist? Welche Anwendungsszenarien stellen Sie sich vor? Ich habe gesehen, dass Sie verschiedene Möglichkeiten von der Wahrnehmung bis zur Generierung erwähnt haben. Es besteht immer eine Spannung zwischen generativen und diskriminativen Modellen. Welche Rolle spielen diese dreidimensionalen Welten?

Fei-Fei Li: Ja, ich kann vielleicht nicht zu viel über die spezifischen Details von World Labs verraten, aber was räumliche Intelligenz betrifft, ist es tatsächlich ein Bereich, der mich begeistert. Genau wie bei der Sprache sind die Anwendungsszenarien sehr vielfältig. Designer, Architekten, Industriedesigner und sogar Künstler, 3D-Artists und Spieleentwickler können es von Anfang an nutzen. Auch Robotik und Roboterlernen sind ein sehr wichtiges Anwendungsgebiet, und die Einsatzmöglichkeiten von Modellen der räumlichen Intelligenz oder Weltmodellen sind sehr vielfältig. Darüber hinaus werden viele verwandte Branchen wie Marketing, Unterhaltung und sogar das Metaversum davon betroffen sein. Ich bin wirklich begeistert vom Metaversum. Obwohl es noch nicht vollständig realisiert ist und ich weiß, dass es noch nicht sehr ausgereift ist, bin ich gerade deshalb besonders gespannt. Ich denke, die Integration von Hard- und Software wird irgendwann kommen, und das zukünftige Potenzial ist enorm. Dies ist auch eine sehr spannende Anwendungsrichtung.

Fei-Fei Lis 10.000-Wörter-Interview: Räumliche Intelligenz ist die nächste Grenze der KI - article 6156864d15701

Moderator: Ich persönlich bin sehr begeistert, dass Sie das Problem des Metaversums lösen. Ich habe diese Richtung in meiner Firma bereits ausprobiert und bin daher sehr gespannt, dass Sie dies jetzt tun.

Li Feifei: Ja, ich denke, es gibt jetzt mehr Anzeichen dafür, dass das Metaverse allmählich realisiert wird. Ich denke, die Hardware ist tatsächlich eines der Hindernisse, aber noch wichtiger ist die Erstellung von Inhalten, und die Erstellung von Inhalten für das Metaverse erfordert Weltmodelle.

Von vorne anfangen, das ist meine Komfortzone

Moderator: Lassen Sie uns das Thema wechseln. Für manche Zuschauer mag Ihr Wechsel von der Wissenschaft zur Gründerin und Geschäftsführerin etwas plötzlich erscheinen. Tatsächlich ist Ihr gesamtes Leben jedoch außergewöhnlich, und es ist nicht das erste Mal, dass Sie von Null auf Null gehen. Sie haben mir einmal erzählt, wie Sie in die USA ausgewandert sind, anfangs kein Englisch sprachen und mehrere Jahre lang mit Ihrem Team eine Wäscherei betrieben haben. Können Sie darüber sprechen, wie diese Erfahrungen Sie heute geprägt haben?

Fei-Fei Li: Stimmt's? Ich weiß, ihr seid hier, um meine Geschichte zu hören, wie ich eine Wäscherei eröffnet habe. Haha.

Ich war 19 Jahre alt und völlig verzweifelt. Ich konnte meine Familie nicht ernähren, meine Eltern brauchten mich zum Studium, und ich wollte Physik in Princeton studieren. Also eröffnete ich eine Reinigung. Um es mit den Worten des Silicon Valleys auszudrücken: Ich war Spendensammlerin, Gründerin und Geschäftsführerin, Kassiererin und hatte alle möglichen Aufgaben zu erledigen. Nach sieben Jahren verließ ich die Firma schließlich.

Um auf Dianas Punkt zurückzukommen: Besonders für euch alle: Ich sehe euch an und es ist wirklich aufregend, weil ihr halb so alt seid, sogar ein Drittel jünger als ich, und ihr seid so talentiert. Versucht es einfach, habt keine Angst.

So ging es mir schon meine ganze Karriere lang, natürlich auch während meiner Arbeit in der Wäscherei. Selbst als Professor habe ich einige Entscheidungen getroffen. Einmal habe ich mich entschieden, in eine Abteilung zu gehen, in der es keinen Professor für Computer Vision gab, um der Erste zu sein, was vielen Ratschlägen widersprach. Als junger Professor wird einem jeder raten, an einen Ort zu gehen, wo es eine Community und einen erfahrenen Mentor gibt. Natürlich hoffe ich auch auf einen erfahrenen Mentor, aber selbst wenn nicht, gehe ich meinen eigenen Weg. Ich habe davor also überhaupt keine Angst. Später ging ich zu Google und lernte viel über Wirtschaft, über Google Cloud und B2B. Dann gründete ich ein Startup in Stanford, denn 2018 ist KI nicht mehr nur ein Branchenproblem, sondern ein menschliches Problem.

Der Mensch wird immer den technologischen Fortschritt vorantreiben, aber wir dürfen unsere Menschlichkeit nicht verlieren. Ich konzentriere mich sehr darauf, wie wir einen Lichtblick in der KI-Entwicklung schaffen, wie KI menschenzentriert sein und Menschen helfen kann. Also ging ich zurück nach Stanford, gründete ein Institut für menschenzentrierte KI und führte es fünf Jahre lang als Startup. Manche mögen es nicht mögen, dass ich es während des Studiums so lange als Startup geführt habe, aber ich bin sehr stolz darauf. In gewisser Weise mag ich es einfach, Unternehmer zu sein. Ich mag das Gefühl, bei Null anzufangen, ganz am Anfang zu stehen, zu vergessen, was man bisher getan hat, zu vergessen, was andere von einem denken, und einfach zu tun. Das ist meine Komfortzone, und ich liebe dieses Gefühl.

Was ich suche, ist intellektuelle Furchtlosigkeit.

Moderator: Es ist wirklich toll, dass Sie all diese erstaunlichen Dinge geleistet und viele legendäre Forscher wie Andrej Karpathy, Jim Fan (jetzt bei Nvidia) und Jia Deng (Mitarbeit am ImageNet-Projekt) betreut haben. Sie alle haben sich zu führenden Köpfen der Branche entwickelt. Was hat Ihnen schon als Student klar gemacht, dass sie in Zukunft Außergewöhnliches leisten würden? Welchen Rat können Sie uns geben, um diese Menschen zu identifizieren, die die KI-Welt verändern werden?

Fei-Fei Li: Zunächst einmal fühle ich mich sehr glücklich und glaube nicht, dass ich mehr für meine Studierenden geleistet habe als sie. Sie machen mich wirklich zu einem besseren Menschen, einem besseren Lehrer und einem besseren Forscher. Es ist mir eine große Ehre, mit so vielen legendären Studierenden zusammenzuarbeiten, wie Sie sagten. Jeder Studierende ist anders. Manche sind reine Wissenschaftler, die sich auf die Lösung wissenschaftlicher Probleme konzentrieren; manche sind Branchenführer; und manche sind große Vermittler von KI-Wissen. Aber ich denke, eines haben sie alle gemeinsam, und ich ermutige jeden Studierenden hier, über diese Frage nachzudenken.

Dies ist auch das Kriterium, auf das ich bei Unternehmern achte, insbesondere bei der Einstellung von Mitarbeitern. Ich achte auf intellektuelle Furchtlosigkeit.

Ich denke, es kommt nicht nur darauf an, woher man kommt oder welches Problem man lösen möchte, sondern auch auf den Mut, sich der Herausforderung zu stellen und sich für ihre Lösung einzusetzen. Diese Furchtlosigkeit ist die entscheidende Eigenschaft für Erfolg. Ich habe das von diesen Studierenden gelernt, und als Geschäftsführer unseres Labors lege ich auch bei meinem Rekrutierungsprozess großen Wert darauf.

Moderator: Sie rekrutieren auch viele Leute für World Labs, suchen Sie also nach denselben Positionen?

Fei-Fei Li: Ja, wir stellen tatsächlich in großem Umfang ein. Wir suchen Ingenieure, Produktentwickler, 3D-Entwickler und Entwickler generativer Modelle. Wenn Sie mutig sind und mit Leidenschaft intelligente Probleme lösen, kontaktieren Sie mich gerne oder besuchen Sie unsere Website.

Fragen und Antworten des Publikums

Fragesteller 1: Hallo Feifei, vielen Dank für deinen Vortrag. Ich bin ein großer Fan von dir! Meine Frage ist: Du hast vor über 20 Jahren an visueller Erkennung gearbeitet. Ich möchte jetzt promovieren. Welche Richtung sollte ich einschlagen, um eine Legende wie du zu werden?

Fei-Fei Li: Ich möchte Ihnen eine durchdachte Antwort geben, denn ich kann immer sagen: Tun Sie, was immer Sie begeistert.

Erstens denke ich, dass sich die KI-Forschung verändert hat, denn wer promoviert, ist in der Wissenschaft tätig. Heute verfügt die Wissenschaft nicht mehr über die meisten KI-Ressourcen, was sich stark von meiner Situation unterscheidet. Rechenleistung und Datenressourcen sind in der Wissenschaft sehr begrenzt, während die Industrie deutlich schneller forschen kann. Daher empfehle ich Ihnen als Doktorand, nach Richtungen zu suchen, die nicht im Widerspruch zu den Problemen stehen, die die Industrie mit mehr Rechenleistung, umfangreicheren Daten und den Vorteilen der Teamarbeit lösen kann. Es gibt noch einige grundlegende Probleme, die die Wissenschaft weiter erforschen kann, und selbst mit mehr Chips können Sie große Fortschritte erzielen.

Zunächst einmal finde ich die interdisziplinäre KI ein sehr spannendes Forschungsgebiet, insbesondere im Hinblick auf wissenschaftliche Entdeckungen. Es gibt so viele Disziplinen, die sich mit KI überschneiden. Ich denke, dieser Bereich bietet Potenzial für eine intensive Weiterentwicklung. Andererseits finde ich es theoretisch sehr interessant, dass die Fähigkeiten der KI die Theorie weit übertreffen. Wir wissen nicht, wie wir das erreichen sollen, es fehlt an Interpretierbarkeit und wir wissen nicht, wie wir kausale Zusammenhänge aufdecken können. Es gibt noch viele Unbekannte in unserem Verständnis des Modells, und es gibt noch viele Möglichkeiten, dieses Feld in Zukunft weiterzuentwickeln. Im Bereich der Computer Vision gibt es noch einige ungelöste Probleme. Darüber hinaus ist auch Small Data ein sehr interessantes Feld voller Möglichkeiten.

Fragesteller 2: Vielen Dank, Professor Fei-Fei Li, und nochmals herzlichen Glückwunsch zur Ehrendoktorwürde der Yale University. Es war mir eine Ehre, diesen Moment vor einem Monat persönlich mitzuerleben. Meine Frage lautet: Ist es aus Ihrer Sicht wahrscheinlicher, dass AGI als einheitliches Einzelmodell oder als „Modell-Agenten“-System entsteht?

Fei-Fei Li: Für Ihre Frage wurden zwei Definitionen vorgeschlagen. Eine Definition ist eher theoretisch und definiert AGI als Intelligenz, die durch einen IQ-Test gemessen wird. Der andere Teil der Frage ist pragmatischer und konzentriert sich auf die Aufgaben, die ein intelligenter Agent ausführen kann. Ehrlich gesagt bin ich etwas verwirrt über die Definition von AGI.

Dies liegt daran, dass die Begründer der künstlichen Intelligenz, darunter John McCarthy und Marvin Minsky, auf der Dartmouth-Konferenz 1956 das Problem denkender Maschinen lösen wollten, das bereits zuvor von Alan Turing vorgeschlagen worden war. Daher handelt es sich bei diesem Vorschlag nicht um ein eng gefasstes Problem der künstlichen Intelligenz, sondern um einen umfassenden Ansatz zur Intelligenz. Daher bin ich mir nicht sicher, wie ich dieses grundlegende Problem der künstlichen Intelligenz vom neuen Begriff „AGI“ unterscheiden soll.

Für mich sind AGI und KI dasselbe, aber ich verstehe, dass die Branche dazu neigt, AGI als etwas jenseits von KI zu betrachten. Ich habe mit diesem Verständnis Schwierigkeiten, da ich nicht genau weiß, was AGI ist und wie sie sich von KI unterscheidet. Wenn wir sagen, dass heutige „AGI-ähnliche“ Systeme bestimmte Aufgaben besser bewältigen als die eingeschränkten KI-Systeme der 1970er, 1980er und 1990er Jahre, dann halte ich das für richtig und es ist nur eine natürliche Weiterentwicklung des Fachgebiets. Im Grunde besteht die Essenz künstlicher Intelligenz jedoch darin, Maschinen zu schaffen, die wie Menschen denken und handeln können oder sogar intelligenter sind als Menschen. Ich weiß also nicht, wie ich AGI definieren soll, und da ich es nicht definieren kann, kann ich nicht sagen, ob es sich um ein einheitliches System handelt.

Aus der Perspektive des Gehirns betrachtet, ist es ein Ganzes, und wir können es als ein einzelnes System bezeichnen, aber seine Funktionen sind vielfältig, und es gibt sogar den Broca-Bereich im Gehirn, der für die Sprache zuständig ist, den visuellen Kortex für das Sehen, den motorischen Kortex für die Bewegung usw. Daher weiß ich nicht wirklich, wie ich diese Frage beantworten soll.

Fragesteller 3: Hallo, mein Name ist Yasna. Zunächst möchte ich mich bedanken. Es ist wirklich inspirierend zu sehen, wie eine Frau in diesem Bereich eine führende Rolle einnimmt. Als Forscherin, Pädagogin und Unternehmerin möchte ich fragen: Welche Menschen sollten Ihrer Meinung nach im sich rasant entwickelnden Bereich der künstlichen Intelligenz einen Hochschulabschluss anstreben?

Fei-Fei Li: Das ist eine großartige Frage, und sogar Eltern haben mir das gestellt. Die Graduiertenschule ist eine vier- bis fünfjährige Phase intensiver Neugier.

Man wird von Neugier getrieben, und diese Neugier ist so stark, dass es keinen besseren Ort gibt, ihr nachzugehen als hier. Das ist anders als bei einem Startup, denn dort kann man nicht allein von Neugier getrieben sein. Man muss aufpassen, dass ein Startup nicht nur von Neugier getrieben ist, denn dann werden die Investoren unzufrieden sein. Es konzentriert sich stärker auf das Erreichen von Geschäftszielen, und obwohl ein gewisses Maß an Neugier vorhanden ist, ist es nicht ausschließlich von Neugier getrieben. Und für Doktoranden ist die Neugier, Probleme zu lösen, oder die Fähigkeit, Fragen zu stellen, so wichtig. Ich denke, wer mit dieser starken Neugier in die Graduiertenschule geht, wird diese vier oder fünf Jahre wirklich genießen, und selbst wenn sich die Welt draußen schnell weiterentwickelt, wird man sich dennoch zufrieden fühlen, weil man seiner Neugier gefolgt ist.

Fragesteller 4: Zunächst möchte ich Ihnen dafür danken, dass Sie sich die Zeit genommen haben, Ihre Ansichten mit uns zu teilen. Sie erwähnten, dass Open Source eine wichtige Rolle bei der Entwicklung der Bildintelligenz gespielt hat. Mit der Veröffentlichung und Entwicklung großer Sprachmodelle beobachten wir nun, dass verschiedene Organisationen unterschiedliche Strategien in Bezug auf Open Source verfolgen. Manche Organisationen setzen komplett auf Closed Source, andere nutzen ihr gesamtes Forschungsframework komplett als Open Source, und wieder andere verfolgen einen Kompromissansatz, indem sie Modellgewichte freigeben oder restriktive Lizenzen verwenden usw. Daher möchte ich fragen: Was halten Sie von diesen verschiedenen Open-Source-Ansätzen? Was ist Ihrer Meinung nach der richtige Ansatz? Wie sollte Open Source als KI-Unternehmen funktionieren?

Fei-Fei Li: Ich denke, wenn es verschiedene Open-Source-Varianten im Ökosystem gibt, ist das Gesamtumfeld gesund. Ich bin nicht stur, ob es Open Source oder Closed Source sein muss. Es hängt von der Geschäftsstrategie des Unternehmens ab. Meta (ehemals Facebook) beispielsweise macht sehr deutlich, warum es sich für Open Source entschieden hat. Ihr aktuelles Geschäftsmodell besteht nicht darin, durch Verkaufsmodelle Gewinne zu erzielen, sondern das Ökosystem mithilfe dieser Modelle zu entwickeln und mehr Nutzer für ihre Plattform zu gewinnen. Daher ist Open Source für sie sehr sinnvoll. Und für einige andere Unternehmen, die mit diesen Technologien wirklich Geld verdienen, kann eine Kombination aus Open Source und Closed Source in Betracht gezogen werden, die schichtweise arbeitet. Ich bin daher für diese Ansätze offen.

Fei-Fei Lis 10.000-Wörter-Interview: Räumliche Intelligenz ist die nächste Grenze der KI - PixPin 2025 07 04 14 10 15

▲ Das Open-Source-Lama-Modell von Meta befindet sich im Hugging Face Open-Source-Ranking der großen Sprachmodelle

Ich denke, Open Source sollte grundsätzlich geschützt werden, sei es im öffentlichen Sektor, beispielsweise in der Wissenschaft, oder im privaten Sektor. Wenn es Open-Source-Bemühungen gibt, ist das sehr wichtig. Es ist entscheidend für das Startup-Ökosystem und sehr wichtig für den öffentlichen Sektor. Ich denke, diese Bemühungen sollten geschützt und nicht ignoriert werden.

Fragesteller 5: Hallo, mein Name ist Carl, ich komme aus Estland und habe eine Frage zu Daten. Sie erwähnten den Wandel im maschinellen Lernen weg von datengetriebenen Ansätzen, insbesondere die Fortschritte bei ImageNet. Nun untersuchen Sie Weltmodelle und erwähnten, dass uns räumliche Daten fehlen, die im Internet nicht existieren, sondern nur in unserem Gehirn. Wie lösen Sie dieses Problem? Wohin geht Ihre Forschung? Sammeln Sie Daten aus der realen Welt oder generieren Sie synthetische Daten? Glauben Sie an synthetische Daten? Oder glauben Sie eher an traditionelles Vorwissen? Danke.

Fei-Fei Li: Besuchen Sie mich bei World Labs, dann erzähle ich es Ihnen. Als Unternehmen kann ich nicht zu viel verraten, aber ich denke, es ist wichtig, anzuerkennen, dass wir einen hybriden Ansatz verfolgen. Es ist wirklich wichtig, viele Daten zu haben, aber ebenso wichtig ist es, qualitativ hochwertige Daten zu haben. Wenn man nicht auf die Qualität der Daten achtet, ist das Endergebnis: Müll rein, Müll raus.

Fragesteller 6: Hallo, Dr. Fei-Fei Li, mein Name ist Annie. Vielen Dank für das Gespräch. In Ihrem Buch „Die Welt“ haben Sie über die Herausforderungen gesprochen, die es für Immigrantinnen und Immigranten in MINT-Fächern gibt. Hatten Sie schon einmal das Gefühl, am Arbeitsplatz einer Minderheit anzugehören? Wenn ja, wie haben Sie dieses Dilemma überwunden oder andere davon überzeugt?

Fei-Fei Lis 10.000-Wörter-Interview: Räumliche Intelligenz ist die nächste Grenze der KI - 71Mh4fJXrZL. SY522

Fei-Fei Li: Vielen Dank für Ihre Frage. Ich werde sorgfältig und überlegt antworten, denn jeder von uns hat einen anderen Hintergrund und einzigartige Erfahrungen. Wissen Sie, es spielt fast keine Rolle. Wir alle haben Momente, in denen wir uns als Minderheit oder als Einzige im Raum fühlen. Natürlich kenne ich diese Gefühle.

Manchmal geht es darum, wer ich bin, manchmal darum, wie ich denke, manchmal nur um die Farbe meiner Kleidung – es gibt immer einen Grund. Aber ich möchte euch in dieser Hinsicht ermutigen. Vielleicht liegt es daran, dass ich jung in dieses Land gekommen bin und einiges erlebt habe. Ich habe akzeptiert, eine Immigrantin zu sein. Ich habe fast die Fähigkeit entwickelt, es nicht allzu ernst zu nehmen. Ich bin hier, genau wie jede von euch. Ich bin hier, um zu lernen, zu tun, Dinge zu erschaffen.

Ich möchte jedem von Ihnen sagen, ob Sie gerade etwas anfangen oder bereits etwas tun: Sie werden Momente der Schwäche oder Verwirrung erleben. Ich spüre das jeden Tag, besonders im Unternehmerleben. Manchmal denke ich: „Oh mein Gott, ich weiß nicht, was ich tue. “ Machen Sie sich keine Sorgen, konzentrieren Sie sich einfach darauf. Gehen Sie wie beim Gradientenabstieg Schritt für Schritt zur optimalen Lösung.

#Willkommen beim offiziellen öffentlichen WeChat-Konto von iFanr: iFanr (WeChat-ID: ifanr), wo Ihnen so bald wie möglich weitere spannende Inhalte präsentiert werden.

iFanr | Originallink · Kommentare anzeigen · Sina Weibo