Der ideale Gründer Li Xiang meldet sich erneut zu Wort: Verfolgen Sie nicht Tesla FSD, Ihr Lehrer ist DeepSeek

Im März dieses Jahres stellte Jia Peng, Leiter der Forschung und Entwicklung autonomer Fahrtechnologie bei Li Auto, auf der Frühjahrs-GTC-Konferenz 2025 von NVIDIA ihre neueste Errungenschaft auf der Bühne vor: das große MindVLA-Modell.
Dabei handelt es sich um ein Vision-Language-Action-Modell (VLA) mit 2,2 Milliarden Parametern. Jia Peng sagte weiter, dass sie das Modell erfolgreich im Auto eingesetzt hätten. Im Idealfall ist das VLA-Modell der effektivste Weg, das Problem der Interaktion zwischen KI und der physischen Welt zu lösen.
Im vergangenen Jahr hat sich die End-to-End-Architektur zu einem technologischen Hotspot im Bereich des intelligenten Fahrens entwickelt und Automobilhersteller dazu gezwungen, vom traditionellen modularen Regeldesign auf integrierte Systeme umzusteigen. Automobilhersteller, die einst durch Regeln und Algorithmen führend waren, stehen vor dem Schmerz der Transformation, während Nachzügler die Gelegenheit nutzen, um in Kurven zu überholen.
Ideal ist einer der Vertreter.
Ideal hat im vergangenen Jahr große Fortschritte beim intelligenten Fahren gemacht. Im Juli übernahm das Unternehmen die Führung bei der Umsetzung des nationalen kartenfreien NOA (Navigation Assisted Driving) und führte außerdem eine einzigartige „End-to-End (schnelles System) + VLM (langsames System)“-Architektur ein, die in der Branche große Aufmerksamkeit erregt hat.

Heute Abend, während die zweite Staffel von Ideal AI Talk voranschreitet, haben wir ein tieferes Verständnis für das „Unternehmen für künstliche Intelligenz“, wie Li Xiang es nennt.
Es ist das „große Modell des Fahrers“ und es ist auch Ihr Fahrer.
Li Xiang, CEO von Li Auto, erwähnte VLA zum ersten Mal in der ersten Staffel von AI Talk mit Zhang Xiaojun, Chefautor von Tencent News Technology, im Dezember letzten Jahres. Damals sagte er:
Die idealen Klassenkameraden und das autonome Fahren, an denen wir arbeiten, sind tatsächlich nach Industriestandards getrennt und befinden sich in einem frühen Stadium. Das Mind GPT, das wir durchführen, ist eigentlich ein großes Sprachmodell; Das autonome Fahren, das wir betreiben, wird intern Verhaltensintelligenz genannt, aber wie Li Feifei (Lehrprofessor an der Stanford University und ehemaliger Chefwissenschaftler von Google) es definiert, nennt man es räumliche Intelligenz. Erst wenn man es wirklich im großen Stil macht, wird man wissen, dass beides eines Tages definitiv miteinander verbunden sein wird. Wir nennen es intern VLA (Vision Language Action Model).
Li Xiang glaubt, dass das Basismodell irgendwann definitiv zu einem VLA werden wird. Der Grund dafür ist, dass Sprachmodelle die dreidimensionale Welt nur durch Sprache und Erkenntnis verstehen können, was offensichtlich nicht ausreicht. „Es muss wirklich ein Vektor sein, die Diffusionsmethode (Diffusionsmodell) und die generative Methode (um die Welt zu verstehen) verwenden.“
Man kann sagen, dass die Geburt von VLA nicht nur ein mutiger Versuch ist, Sprachintelligenz und räumliche Intelligenz tiefgreifend zu kombinieren, sondern auch eine Neuinterpretation des Konzepts der „intelligenten Autos“ von Li Auto.

Li Xiang hat es heute Abend im AI Talk weiter definiert: „VLA ist ein großes Fahrermodell, das wie ein menschlicher Fahrer funktioniert.“ Es ist nicht nur eine Technologie, sondern auch ein intelligenter Partner, der auf natürliche Weise mit Benutzern kommunizieren und selbstständig Entscheidungen treffen kann.
Was genau ist ein VLA? Der Kern ist eigentlich ganz einfach: Durch die Integration von visueller Wahrnehmung, natürlichem Sprachverständnis und Fähigkeiten zur Aktionsgenerierung wird das Fahrzeug zu einem „Fahreragenten“, der mit Menschen kommunizieren und selbstständig Entscheidungen treffen kann.

▲ Beim Navigieren durch ETC kann der Fahrer dem System direkt befehlen, den manuellen Kanal zu wählen (unterstütztes Fahren an).
Stellen Sie sich vor, Sie sitzen in einem Auto und sagen beiläufig: „Ich bin heute etwas müde, fahren Sie langsamer.“ Das Fahrzeug versteht nicht nur, was Sie meinen, sondern passt auch die Geschwindigkeit an und wählt sogar eine glattere Route. Dieses natürliche und reibungslose Zusammenspiel ist genau das, was VLA erreichen möchte. Li Xiang enthüllte, dass alle kurzen Anweisungen direkt vom Auto verarbeitet werden, während komplexe Anweisungen vom 3,2 Milliarden Parametermodell der Cloud analysiert werden, um sowohl Effizienz als auch Intelligenz zu gewährleisten.

Ein solches Ziel zu erreichen ist nicht einfach. Das Besondere an VLA ist, dass es die drei Dimensionen Sehen, Sprache und Bewegung verbindet. Hinter einem einfachen Befehl des Benutzers kann es sich um eine Echtzeitwahrnehmung der Umgebung, ein präzises Verständnis sprachlicher Absichten und eine schnelle Anpassung des Fahrverhaltens handeln, die alle drei unverzichtbar sind.
Das Tolle an VLA ist, dass diese drei Elemente nahtlos zusammenarbeiten können.
Von der Vision zur Realität war die Forschung und Entwicklung von VLA ein Niemandsland. Li Xiang sagte offen: „Die Erfassung visueller und Bewegungsdaten ist die schwierigste und kein Unternehmen kann sie ersetzen.“
Um den technischen Hintergrund von VLA zu verstehen, müssen wir uns die Entwicklung von Li Auto beim intelligenten Fahren ansehen.
Li Xiang sagte, dass die frühen Systeme intelligent auf „Insektenebene“ waren, nur eine Million Parameter hatten, durch Regeln und hochpräzise Karten gesteuert wurden und bei komplexen Straßenverhältnissen hilflos waren. Später ermöglichten die End-to-End-Architektur und das visuelle Sprachmodell der Technologie den Sprung auf die „Säugetierebene“, wodurch die Abhängigkeit von Karten beseitigt wurde und die nationale kartenfreie NOA Realität wurde.
Tatsächlich hat dieser Schritt Li Auto an die Spitze der Branche gebracht, aber damit sind sie offensichtlich nicht zufrieden. Nach Ansicht von Li Xiang bedeutet das Aufkommen von VLA, dass die intelligente Fahrtechnologie von Li Auto in eine neue Phase der „menschlichen Intelligenz“ eingetreten ist.

Im Vergleich zu früheren Systemen kann VLA nicht nur die physische 3D-Welt wahrnehmen, sondern auch logisches Denken ausführen und sogar ein Fahrverhalten erzeugen, das dem menschlichen Niveau nahe kommt.
Um ein einfaches Beispiel zu geben: Angenommen, Sie sagen auf einer verstopften Straße: „Suchen Sie einen Ort, an dem Sie umkehren können.“ VLA führt die Anweisung nicht mechanisch aus. Stattdessen werden Straßenzustand, Verkehrsfluss und Verkehrsregeln kombiniert, um den günstigsten Zeitpunkt und Ort für die Kehrtwende zu finden.
Li Xiang sagte, dass sich VLA durch die Generierung von Daten schnell an neue Szenarien anpassen kann. Selbst wenn es zum ersten Mal mit komplexen Straßenbauarbeiten konfrontiert wird, kann es die Reaktion innerhalb von drei Tagen optimieren. Diese Flexibilität und dieses Urteilsvermögen sind die Kernstärken von VLA.
Der ideale Lehrer ist DeepSeek
Die Unterstützung von VLA ist ein komplexes und hochentwickeltes technisches System, das von Li Auto unabhängig entwickelt wurde. Dieses System ermöglicht es dem Auto nicht nur, die Welt zu „verstehen“, sondern auch wie ein menschlicher Fahrer zu denken und zu handeln.
Die erste ist die 3D-Gauß-Darstellungstechnologie, die viele „Gauß-Punkte“ verwendet, um ein 3D-Objekt darzustellen. Jeder Punkt enthält seine eigene Position, Farbe, Größe und andere Informationen. Diese Technologie nutzt riesige reale Daten, um durch selbstüberwachtes Lernen ein leistungsstarkes 3D-Raumverständnismodell zu trainieren. Damit kann VLA die Welt um sich herum wie ein Mensch „verstehen“ und wissen, wo sich Hindernisse befinden und wo sich der passierbare Bereich befindet.

▲Wenn der Speicherparkplatz belegt ist, sucht das System automatisch nach anderen Parkplätzen. Sie können die Anweisungen des Fahrers auch verstehen und über die Schilder an der Wand den „Bereich C3“ finden.
Als nächstes kommt die Hybrid Expert Architecture (MoE), die aus Expertennetzwerken, Gated Networks und Combinern besteht. Wenn die Modellparameter 100 Milliarden Ebenen überschreiten, werden bei der herkömmlichen Methode alle Neuronen in jede Berechnung einbezogen, was eine Verschwendung von Ressourcen darstellt. Das geschlossene Netzwerk in der MoE-Architektur ruft je nach Aufgabe unterschiedliche Experten an, um sicherzustellen, dass die Aktivierungsparameter nicht wesentlich ansteigen.
Während er darüber sprach, lobte Li Xiang auch DeepSeek:
DeepSeek nutzt menschliche Best Practices … Als DeepSeek V3 entwickelt wurde, war V3 eigentlich ein MoE, ein 671B-Modell. Ich denke, MoE ist eine sehr gute Architektur. Es ist gleichbedeutend mit der Zusammenstellung einer Gruppe von Experten, und jeder von ihnen verfügt über Expertenfähigkeiten.
Schließlich führt Ideal einen Mechanismus für spärliche Aufmerksamkeit (Sparse Attention) in VLA ein. Auf menschlicher Ebene passt VLA automatisch die Aufmerksamkeitsgewichtung wichtiger Bereiche an und verbessert so die Argumentationseffizienz des Geräts.
Li Xiang sagte, dass die Ingenieure von Ideal während des Trainingsprozesses dieses neuen Basismodells viel Zeit damit verbracht haben, das beste Datenverhältnis zu finden, eine große Menge an 3D-Daten und Grafikdaten im Zusammenhang mit dem autonomen Fahren zu integrieren und den Anteil kultureller und historischer Daten zu reduzieren.
Von der Wahrnehmung bis zur Entscheidungsfindung nutzt VLA die Schnell-Langsam-Kombination des menschlichen Denkens. Es kann schnell einfache Handlungsentscheidungen, wie z. B. die Vermeidung von Notfällen, ausgeben und durch kurze Denkketten auch „langsames Denken“ durchführen, um komplexere Szenarien zu bewältigen, wie z. B. die vorübergehende Planung einer Route zur Umgehung des Baustellenbereichs. Um die Echtzeitleistung weiter zu verbessern, führt VLA außerdem spekulatives Denken und parallele Decodierungstechnologie ein, um die Rechenleistung des integrierten Chips voll auszunutzen und sicherzustellen, dass der Entscheidungsprozess schnell und nicht chaotisch ist.
Bei der Generierung von Fahrverhalten nutzt VLA das Diffusionsmodell und Reinforcement Learning basierend auf menschlichem Feedback (RLHF). Das Diffusionsmodell ist für die Generierung optimierter Fahrtrajektorien verantwortlich, während RLHF diese Trajektorien den menschlichen Gewohnheiten näher bringt, was sowohl sicher als auch komfortabel ist. Beispielsweise bremst VLA beim Abbiegen automatisch ab oder lässt beim Einfädeln einen ausreichenden Sicherheitsabstand ein. Diese Details spiegeln allesamt tiefe Erkenntnisse über das menschliche Fahrverhalten wider.

Das Weltmodell ist eine weitere Schlüsseltechnologie, die im Idealfall eine hochwertige virtuelle Umgebung für das verstärkende Lernen durch Szenenrekonstruktion und -generierung bietet. Li Xiang gab bekannt, dass World Model die Verifizierungskosten von 170.000 bis 180.000 Yuan pro 10.000 Kilometer auf 4.000 Yuan gesenkt hat. Dadurch kann VLA die Simulation kontinuierlich optimieren und komplexe Szenarien problemlos bewältigen.
Apropos Ausbildung: Der Entwicklungsprozess von VLA verlief recht methodisch. Der gesamte Prozess ist in drei Phasen unterteilt: Pre-Training, Post-Training und Reinforcement Learning. „Vor dem Training ist es wie das Erlernen von Wissen, nach dem Training ist es wie das Erlernen des Autofahrens in einer Fahrschule und intensives Lernen ist wie soziales Üben.“ Sagte Li.

In der Vorschulungsphase erstellte Li Auto ein visuelles Sprachbasismodell für VLA, gefüllt mit umfangreichen visuellen 3D-Daten, hochauflösenden 2D-Bildern und einem fahrbezogenen Korpus, sodass es zunächst lernen konnte, zu „sehen“ und zu „hören“. Dann wurde dem Training ein Aktionsmodul hinzugefügt, um eine Fahrbahn von 4 bis 8 Sekunden zu generieren, und das Modell wurde von 320 Millionen Parametern auf 400 Millionen destilliert.

Das verstärkende Lernen ist in zwei Schritte unterteilt: Verwenden Sie zunächst RLHF, um menschliche Gewohnheiten auszurichten, die Übernahmedaten zu analysieren und Sicherheit und Komfort zu gewährleisten. Verwenden Sie dann eine reine Reinforcement-Learning-Optimierung, um VLA basierend auf G-Wert (Komfort), Kollisions- und Verkehrsregel-Feedback „besser fahren zu lassen als Menschen“. Li Xiang erwähnte, dass diese Phase im Weltmodell abgeschlossen ist und reale Verkehrsszenarien simuliert und die Effizienz weitaus höher ist als bei der herkömmlichen Verifizierung.


Diese Trainingsmethode gewährleistet nicht nur den technologischen Fortschritt, sondern macht VLA auch zuverlässig genug für praktische Anwendungen.
Li Xiang gab zu, dass der Erfolg von VLA untrennbar mit der Inspiration durch Branchen-Benchmarks verbunden ist. Die MoE-Architektur von DeepSeek verbessert nicht nur die Trainingseffizienz, sondern bietet auch wertvolle Erfahrungen für Ideale. Er beklagte: „Wir stehen auf den Schultern von Giganten und beschleunigen die Forschung und Entwicklung von VLA.“ Diese offene Lernhaltung ermöglicht es dem Ideal, im Niemandsland weiter vorzudringen.
Von „Informationstools“ zu „Produktionstools“
Derzeit durchläuft die KI-Branche einen tiefgreifenden Wandel von „Informationstools“ zu „Produktionstools“. Mit zunehmender Reife der Technologie für große Modelle beschränkt sich die KI nicht mehr nur auf die Verarbeitung von Daten und die Bereitstellung von Vorschlägen, sondern verfügt nun auch über die Fähigkeit, selbstständig Entscheidungen zu treffen und Aufgaben auszuführen.
Li Xiang schlug in der zweiten Staffel von AI Talk vor, dass KI in Informationstools (wie die Suche), Hilfstools (wie die Sprachnavigation) und Produktionstools unterteilt werden kann. Er betonte: „In dem Moment, in dem künstliche Intelligenz zum Produktionswerkzeug wird, wird sie regelrecht explodieren.“ Mit zunehmender Reife der Technologie für große Modelle ist die KI nicht mehr auf die Verarbeitung von Daten beschränkt, sondern verfügt nun auch über die Fähigkeit, selbstständig Entscheidungen zu treffen und Aufgaben auszuführen.
Besonders deutlich wird dieser Trend im Konzept der „embodied Intelligence“ – KI-Systemen werden physische Einheiten gegeben und sie können die Umgebung wahrnehmen, verstehen und mit ihr interagieren.

Das VLA-Modell von Li Auto ist eine lebendige Umsetzung dieses Trends. Durch die Integration von visueller, sprachlicher und Bewegungsintelligenz verwandelt es das Auto in einen intelligenten Körper, der autonom fahren und auf natürliche Weise mit Benutzern interagieren kann, wodurch das Kernkonzept der „verkörperten Intelligenz“ perfekt interpretiert wird.
Solange Menschen Berufskraftfahrer einstellen, kann künstliche Intelligenz zum Produktionswerkzeug werden. Künstliche Intelligenz wird regelrecht explodieren, wenn sie zum Produktionswerkzeug wird.
Die Worte von Li Xiang verdeutlichen den Kernwert von VLA – es ist kein einfaches Hilfswerkzeug mehr, sondern ein „Treiberagent“, der selbstständig Aufgaben ausführen und Verantwortung übernehmen kann. Diese Transformation erhöht nicht nur den praktischen Wert von Autos, sondern eröffnet auch Fantasie für die Anwendung von KI in anderen Bereichen.
Li Xiangs Denken über KI nimmt immer eine Perspektive über den Tellerrand hinaus. Er erwähnte auch: „VLA ist kein Mutationsprozess, sondern ein Evolutionsprozess.“ Dieser Satz fasst den technischen Weg des idealen Autos treffend zusammen –
Von frühen regelgesteuerten Lösungen über End-to-End-Durchbrüche bis hin zur heutigen „menschlichen Intelligenz“-Ebene von VLA. Diese Art des evolutionären Denkens macht VLA nicht nur technisch machbarer, sondern stellt auch ein Paradigma dar, von dem die Branche lernen kann. Verglichen mit einigen Versuchen, die Subversion blind zu verfolgen, ist der ideale pragmatische Weg möglicherweise besser für den komplexen chinesischen Markt geeignet.
Von der Technologie bis zum Glauben ist die ideale KI-Erkundung kein reibungsloser Weg. Li Xiang sagte offen: „Wir haben im Bereich der KI viele Herausforderungen erlebt, genau wie die Dunkelheit vor der Morgendämmerung, aber wir glauben, dass wir das Licht sehen werden, wenn wir durchhalten.“ Die Forschung und Entwicklung von VLA steht vor Problemen wie Engpässen bei der Rechenleistung und Datenethik, doch Ideal hat durch selbst entwickelte Basismodelle und Weltmodelle nach und nach den Beginn seiner Technologie eingeläutet.
Li Xiang erwähnte in dem Interview auch, dass der Erfolg von VLA untrennbar mit dem Aufstieg der chinesischen KI verbunden sei.
Er sagte, dass das Aufkommen von Modellen wie DeepSeek und Tongyi Qianwen dazu geführt habe, dass sich Chinas KI-Niveau schnell dem der Vereinigten Staaten annähere. Unter ihnen ist der von DeepSeek vertretene Open-Source-Geist besonders spannend, da er direkt das ideale Open-Source-Starlink-Betriebssystem fördert. Li Xiang sagte: „Dies geschieht nicht aus unternehmensstrategischen Überlegungen. DeepSeek hat uns so viel geholfen, und wir sollten etwas zur Gesellschaft beitragen.“

Bei der Suche nach technologischen Durchbrüchen hat Li Auto die Sicherheits- und ethischen Probleme der KI-Technologie nicht außer Acht gelassen. Die von VLA eingeführte „Super Alignment“-Technologie bringt das Verhalten des Modells durch Verstärkungslernen basierend auf menschlichem Feedback (RLHF) näher an menschliche Gewohnheiten heran. Daten zeigen, dass die Anwendung von VLA den Hochgeschwindigkeits-MPI (mittlere Eingriffsmeilenzahl) von 240 km auf 300 km erhöht hat.
Noch wichtiger ist, dass Li Auto den Aufbau von „KI mit menschlichen Werten“ betont und Ethik und Vertrauen als Eckpfeiler der technologischen Entwicklung betrachtet. Aus einer eher makroökonomischen Perspektive besteht die Bedeutung von VLA darin, dass es die Rolle der Automobilunternehmen neu definiert.
Früher waren Autos das Fortbewegungsmittel im Industriezeitalter; Jetzt entwickeln sie sich im Zeitalter der künstlichen Intelligenz zu „Weltraumrobotern“. Li Xiang erwähnte im AI Talk: „Früher war Ideal im Niemandsland der Autos, aber in Zukunft wird es im Niemandsland der künstlichen Intelligenz sein.“ Diese Transformation von Ideal hat dem Geschäftsmodell der Automobilindustrie neuen Fantasieraum eröffnet.
Natürlich ist die VLA-Entwicklung nicht ohne Herausforderungen. Kontinuierliche Investitionen in Rechenleistung, Datenethik und die Schaffung des Vertrauens der Verbraucher in autonomes Fahren sind alles Probleme, denen sich ideale Autos stellen müssen. Darüber hinaus wird der Wettbewerb in der KI-Branche immer härter. In- und ausländische Giganten wie Tesla, Waymo und OpenAI beschleunigen den Einsatz multimodaler Modelle. Im Idealfall müssen sie bei der Technologie-Iteration und Marktförderung an der Spitze bleiben. „Wir haben keine Abkürzungen, wir können nur tief graben“, wollte Li sagen.
Es besteht kein Zweifel, dass die Implementierung von VLA ein Schlüsselknoten sein wird.
Li Auto plant, den VLA im Juli 2025 gleichzeitig mit dem rein elektrischen SUV Li Li i8 auf den Markt zu bringen und im Jahr 2026 die Massenproduktion zu erreichen. Dies ist nicht nur eine umfassende Prüfung der Technologie, sondern auch ein wichtiger Prüfstein für den Markt.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo
