Ideal MindVLA möchte autonomes Fahren neu definieren und jedes Auto mit einem „dedizierten Fahrer“ ausstatten
Wir hoffen, dass MindVLA autonomen Fahrzeugen menschenähnliche kognitive und adaptive Fähigkeiten verleihen und sie in intelligente Agenten verwandeln kann, die denken können. So wie das iPhone Mobiltelefone neu definiert hat, wird MindVLA auch das autonome Fahren neu definieren.
Im März gab es eine überwältigende Menge an neuen Autos und neuen Technologien. Verschiedene Automobilhersteller jagten einander nach, was den Menschen schwindelig machte und sogar die Illusion aufkommen ließ, dass neue Produkte sofort nach ihrer Veröffentlichung ins Hintertreffen geraten.
Nein, erst kürzlich hat Ideal auf der NVDIA GTC 2025 die neuesten Fortschritte seiner MindVLA-Technologie vorgestellt und behauptet, dass sie „autonomes Fahren neu definieren wird, genau wie das iPhone 4 Mobiltelefone neu definiert hat“.
Abgesehen von den komplexen technischen Prinzipien und Implementierungsmethoden besteht der größte Wert der Ideal MindVLA-Technologie darin, dass sie das Benutzererlebnis des Fahrzeugs auf ein völlig neues Niveau hebt.
Bei dem Austauschtreffen fasste Ideal die Fähigkeiten des neuen intelligenten Fahrsystems in einem Satz zusammen: Dieses neue intelligente Fahrsystem wird zum Vollzeitfahrer für jedermann.
Was kann dieser dedizierte Treiber? Ich dachte an folgende Szenarien: Mich morgens vor meiner Tür aus der Garage abzuholen, mir die Mühe zu ersparen, nach unten in den Keller zu gehen, um das Auto abzuholen, und dann automatisch einen Parkplatz zu finden und zu parken, ohne dass ich nach einem Parkplatz suchen muss; wenn ich zu einem Einkaufszentrum oder Café gehen möchte, finde ich automatisch ein passendes Ziel, ohne dass ich manuell die Navigation auswählen muss. Das Wichtigste ist, dass es meinen Standort orten und mich automatisch abholen kann.
Ideal fasst diese Szenen in drei Worten zusammen: „verständlich“, „sichtbar“ und „auffindbar“.
„Verständlich“ bedeutet, dass Benutzer die Route und das Verhalten des Fahrzeugs durch Sprachbefehle ändern können. Dies erweitert nicht nur die Sprachinteraktion von Auto und Maschine von Kabinenfunktionen wie Klimaanlage und Sitzen auf bestimmte Fahrvorgänge, sondern ermöglicht es dem Benutzer auch, zum Co-Piloten zu werden und dem Auto und der Maschine „beizubringen“, nach links abzubiegen, nach rechts abzubiegen oder schneller zu fahren.
„Sichtbar“ bedeutet, dass MindVLA über hervorragende Allgemeinkenntnisse verfügt und umliegende Ladenschilder und symbolträchtige Orte erkennen kann. Ein ideales Beispiel: Wenn ein Benutzer ein Fahrzeug an einem unbekannten Ort nicht finden kann, muss er nur ein Foto der Umgebung aufnehmen und es an das Fahrzeug senden. Das mit MindVLA ausgestattete Fahrzeug kann den Standort auf dem Foto identifizieren und den Benutzer automatisch finden.
„Find“ wird hauptsächlich in Park- und Park-Roaming-Szenarien verwendet. Das typischste Beispiel ist die Suche nach einem Parkplatz im Keller. Der Benutzer muss dem Fahrzeug nur sagen: „Suchen Sie einen Parkplatz und parken Sie ihn“, und der gesamte Vorgang ist nicht auf Karten oder Navigationsinformationen angewiesen.
Der „Vollzeitfahrer“ scheint in Campus- und Kellerszenen gute Leistungen zu erbringen. Wie stellt Ideal also sicher, dass er auch auf öffentlichen Straßen einsetzbar ist?
Wie wir alle wissen, ist die Straßensituation im Inland sehr komplex. Neben den überall huschenden Elektrofahrzeugen und dem intensiven Spiel zwischen Menschen und Fahrzeugen weist sie auch die folgenden Merkmale auf.
Einer davon ist die weitverbreitete Nutzung von Busspuren. Diese Fahrspuren sind markiert und werden auf vielfältige Weise genutzt, unter anderem durch Textschilder am Boden, Luftschilder und Schilder am Straßenrand. In verschiedenen Bereichen werden unterschiedliche Textformen verwendet, um die Fristen zu erklären, und es gibt oft neue Busspuren oder Schilder, die aufgrund von Bauarbeiten unscharf sind.
Das zweite sind die in den letzten Jahren in Großstädten entstandenen dynamisch anpassbaren Fahrspuren und Gezeitenstreifen sowie die zur vollständigen Ausnutzung des Kreuzungsraums eingerichteten Wartebereiche und Wartebereiche. Der Nutzungszeitpunkt dieser Bereiche wird durch verschiedene Signalleuchten oder LED-Textschilder gesteuert, und die Ausrüstung kann täglich mit neuen Ergänzungen, Ausfällen oder Wartungsarbeiten konfrontiert sein.
Daher müssen autonome Fahrsysteme in China nicht nur komplexe Mensch-Fahrzeug-Interaktionen bewältigen, sondern auch über Textverständnisfähigkeiten, gesundes Menschenverstandsurteil und starke logische Denkfähigkeiten verfügen.
Der kürzlich von Tesla eingeführte FSD wurde wegen seiner schlechten Leistung in diesen Szenarien kritisiert.
Um diese Herausforderungen zu bewältigen, hat Ideal als Lösung ein Dual-System-Framework eingeführt.
Vereinfacht ausgedrückt ist das ideale Modell in zwei Systeme unterteilt: schnelles Denken (System 1) und langsames Denken (System 2). Das Fahrzeugterminal implementiert ein schnelles System durch das End-to-End-Modell. Hierbei handelt es sich um ein einzelnes Modell, das Sensoreingaben direkt in Fahrbahnausgaben umwandelt, ähnlich den intuitiven Reaktionen des Menschen. Das System reagiert auf verschiedene Szenarien, indem es das menschliche Fahrverhalten nachahmt und ist vollständig datengesteuert. Es erfordert keine vom Menschen festgelegten Regeln und ist nicht auf hochpräzise Karten oder Vorinformationen angewiesen. Es verfügt über eine extrem hohe Trainings- und Ausführungseffizienz.
Das langsame System basiert auf einem Visual Language Large Model (VLM) mit einer Parameterskala von 2,2 B. In Szenarien, die Textverständnis, gesundes Menschenverstandsurteil und logisches Denken erfordern, führt VLM eine tiefgreifende Analyse über die Chain of Thought (COT) durch, trifft treibende Entscheidungen und steuert eine schnelle Systemausführung. Das End-to-End-Modell (System 1) und das VLM-Modell (System 2) laufen jeweils auf einem OrinX-Chip.
Kurz gesagt, durch eine solche technische Architektur ist das ideale Auto, das mit der MindVLA-Funktion ausgestattet ist, nicht mehr nur ein Fahrgerät, sondern ein intelligenter Agent, der mit dem Benutzer kommunizieren und die Absichten des Benutzers verstehen kann.
Intelligente oder personalisierte generative Smart-Driving-Lösungen sind zum Konsens verschiedener Automobilhersteller und Zulieferer über die zukünftige Technologieroute geworden. Jikrypton und Zhuoyu erwähnten gestern auch relevante Inhalte auf ihren jeweiligen Technologiekonferenzen.
Da es derzeit keine tatsächlichen Fahrzeuge auf dem Markt gibt, die mit einem solchen System ausgestattet sind, können wir die tatsächliche Wirksamkeit nicht beurteilen. Nach dem Zeitplan der einzelnen Unternehmen wird jedoch erwartet, dass diese Systeme noch in diesem Jahr in Massenproduktion hergestellt werden. Zu diesem Zeitpunkt wird Dongche so schnell wie möglich tatsächliche Testerfahrungen für alle durchführen.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo