Andere haben gerade erst mit dem „End-to-End“-Konzept begonnen, aber Ideal Smart Driving hat es erneut geschafft.
Die autonome Fahrtechnologie hat sich im Laufe der Jahre weiterentwickelt.
Am Tag vor dem Schreiben dieses Artikels kamen zwei Freunde aus der Automobilindustrie zu Aifaner und setzten sich mit uns zum Plausch zusammen. Wir haben über viele Dinge gesprochen, von Produktwerbung bis hin zu Branchenanekdoten, und autonomes Fahren als ein heißer Diskussionszweig in der Branche wurde natürlich zu einem Schwerpunkt unserer Diskussion.
Wenn man auf die Entwicklung des autonomen Fahrens im Laufe der Jahre zurückblickt, gibt es tatsächlich viele Veränderungen, darunter Iterationen von Sensoren, Verbesserungen der fahrzeugseitigen Rechenleistung und den Übergang von hochpräzisen Karten zu belegten Netzwerken usw. Der auffälligste Durchbruch unter diesen Änderungen ist jedoch die Hinzufügung großer Modelle.
Große Modelle machen den Einsatz autonomer Fahrtechnologie in greifbare Nähe gerückt.
Am 23. Oktober begann die offizielle Markteinführung der neuen Generation der intelligenten Dual-System-Fahrlösung „End-to-End + VLM“. Das intelligente Fahren von Li Auto ist seitdem in die Ära der großen KI-Modelle eingetreten.
Denken Sie wie ein Mensch und fahren Sie wie ein Mensch. Die idealen Autos von heute verwirklichen diese Vision.
Was ist VLM, nachdem wir End-to-End endlich verstanden haben?
Was genau ist End-to-End? Von welchem „Ende“ bis zu welchem „Ende“? Ganz zu schweigen von den normalen Verbrauchern, selbst viele Medienschaffende haben es nicht herausgefunden.
Viele Hersteller haben dies erklärt, und die verständlichste Erklärung ist Li Auto:
An einem Ende befinden sich Sensoren: Kameras, Lidar und andere Sensoren. Sie sind wie menschliche Augen für die Eingabe von Umgebungsinformationen verantwortlich. Darüber hinaus gibt es speziell gestaltete Eingabeinformationen wie Fahrzeugposition, Haltung und Navigationsinformationen.
Das andere Ende ist die Fahrbahn: Nach Erhalt der Informationen vom Sensor gibt das System „dynamische Hindernisse“, „Straßenstruktur“, „Belegungsnetz Occ“ und „geplante Flugbahn“ aus. Die ersten drei Wahrnehmungsaufgaben werden dem Benutzer hauptsächlich über den Bildschirm präsentiert, und die vierte „Fahrtrajektorie“ ist es, die wir letztendlich vom Sensor abbilden müssen.
▲Ideales End-to-End-Architekturdiagramm für intelligentes Fahren
Es ist nicht schwer festzustellen, dass der Prozess vom Empfang der Informationen durch den Sensor bis zur Ausgabe der Fahrroute durch das System dem Fahren selbst sehr ähnlich ist – unsere Augen sind für den Empfang der Informationen verantwortlich, und unsere Hände steuern auf natürliche Weise das Lenkrad, um das Fahrzeug zu bewegen auf die richtige Flugbahn.
Ja, basierend auf dem End-to-End-Modell kann das ideale intelligente Fahrsystem der neuen Generation wie ein Mensch fahren.
Seit jeher haben sowohl OEMs als auch selbstfahrende Unternehmen ständig dafür geworben, wie menschenähnlich und „erfahrene Fahrer“ ihre intelligenten Fahrsysteme seien. Allerdings sind einige Szenen, an die „Veteranen-Fahrer“ gewöhnt sind, in der Branche schon lange schwer zu lösen.
Am typischsten ist die Szene im Kreisverkehr. Da die Szene komplex und die Wahrnehmung begrenzt ist, konnten vor Juli dieses Jahres nur wenige Autofirmen wie ein „alter Fahrer“ in den Kreisverkehr ein- und ausfahren.
Jia Peng, Leiter der Forschung und Entwicklung idealer intelligenter Fahrtechnologie, sagte einmal zu Ai Faner und Dong Chehui, dass das Wahrnehmungsmodell für die segmentierte intelligente Fahrlösung, die Wahrnehmung und Kontrolle trennt, im Kreisverkehrsszenario „verschiedene Dinge“ tun muss das Kontrollmodell. Alle möglichen Annahmen.“
Um eine Kehrtwende durchzuführen, müssen Sie die Kehrtwendelinie anpassen. Kehrtwendungen an verschiedenen Kreuzungen sind nicht gleich und die Krümmungen sind unterschiedlich, sodass es schwierig ist, alle Kehrtwendungen an Kreisverkehren mit einem Satz durchzuführen Code. Es gibt zu viele Typen.
Die integrierte End-to-End-Lösung ist anders. Sie verfügt über eine stärkere Fähigkeit, komplexe Straßenstrukturen zu verstehen. Sie kann anhand menschlicher Fahrerdaten verschiedene Kreisverkehrtypen und Ein- und Ausfahrtsverläufe für verschiedene Ein- und Ausfahrten trainieren und unabhängig voneinander geeignete Fahrrouten auswählen .
Auf diese Weise sind die ursprüngliche Straßentopologie und manuell definierte Regeln nicht mehr erforderlich.
Bezüglich der Umrundung der Insel erzählte Jia Peng auch eine „lustige Geschichte“.
Als unsere (Modelldaten) etwa 800.000 Clips (Videoclips) enthielten, konnte es den Kreisverkehr nicht überqueren. Dann stellten wir plötzlich fest, dass wir (nach) 1 Million Clips den Kreisverkehr alleine überqueren konnten Es war 100 Wan (Videoclip), es enthält zufällig einige Kreisverkehrsdaten.
„Das Modell ist in der Tat sehr leistungsfähig“, fügte Jia Peng hinzu. „Es kann alle Daten lernen, die man ihm zuführt. Das ist der Charme des Modells.“
Die heute von Ideal herausgebrachte Vollversion basiert auf dem Modell V4.8.6, der 16. Version, die auf der Grundlage von 4 Millionen Clips iteriert wurde. Im Vergleich zur Vergangenheit wurde die Fähigkeit des neuen Modells, Überholszenarien und Navigationsinformationen zu verstehen, verbessert. Gleichzeitig ist die Hinderniserkennung genauer und die Umleitungsreichweite angemessener.
Daher kann das heutige intelligente Fahrsystem „End-to-End + VLM“ nicht nur Kreisverkehre, sondern auch traditionelle komplexe Szenen wie Kehrtwenden, Kriechen und Spielen im Stau und Kreuzungen gut autonom bewältigen und unterstützt sogar P Dateiaktivierung——
Beim Parken am Straßenrand aktiviert der Nutzer per Doppelklick den Hebel, um das Smart-Driving-System zu aktivieren. Es muss nicht mehr wie bisher in der Fahrspur aktiviert werden.
Nach der Einführung der Funktionen des End-to-End-Modells ist der nächste Schritt das VLM-Modell.
Das VLM-Modell ist ein visuelles Sprachmodell, das erfolgreich ein visuelles Sprachmodell in fahrzeugseitigen Chips einsetzt und dem autonomen Fahren die Möglichkeit gibt, in unbekannten Szenarien logisch zu denken.
Das heißt, es kann wie ein Mensch denken.
Beispielsweise ist ein End-to-End-Modell, das Fahrrouten generieren kann, durchaus in der Lage, Mautstellen zu passieren. Wenn es jedoch vor der Mautstelle steht, weiß es nicht, welche Fahrspur es nehmen soll, und kann es letztendlich nur wähle zufällig eine aus.
Das VLM-Modell kann die komplexe Verkehrsumgebung und die chinesische Semantik der physischen Welt wie Menschen verstehen, ETC-Fahrspuren und künstliche Fahrspuren klar unterscheiden und das End-to-End-Modell dabei unterstützen, richtige Entscheidungen zu treffen.
Tatsächlich gibt es viele ähnliche Szenarien, wie z. B. die Identifizierung von Busspuren und Gezeitenspuren, die Identifizierung von Verkehrszeichen wie Schulabschnitten, die Ein- und Ausfahrt von Haupt- und Nebenstraßen usw. Darüber hinaus kann das VLM-Modell bei Baustellen, Schlaglöchern und sogar Bremsschwellen dies auch gut verstehen, Erinnerungen geben und langsamer fahren.
Bisher verfügt das visuelle VLM-Sprachmodell von Li Auto über 2,2 Milliarden Parameter und verfügt über ein eher menschenähnliches Verständnis der komplexen Verkehrsumgebung in der physischen Welt.
Darüber hinaus wurde in der OTA-Version 6.4 auch die Hochgeschwindigkeits-NOA-Funktion optimiert. In Hochgeschwindigkeits- und Stadtautobahnszenarien kann das System langsame vorausfahrende Fahrzeuge früher erkennen und so Überholvorgänge effizienter und sicherer machen.
Alles in allem hat der benutzerorientierte OTA 6.4 mit Hilfe des End-to-End + VLM-Dualsystems eine neue Ebene der Anthropomorphie erreicht.
Ideal „schnell“ und „langsam“
Aus Sicht der technischen Architektur hat Li Auto in den letzten zwei Jahren drei große Anpassungen erfahren.
Von NPN-Netzwerken, die A-priori-Informationen erfordern, über graphlose NOA auf Basis von BEV- und Belegungsnetzwerken bis hin zur heutigen integrierten End-to-End-Technologieroute.
Die NPN-Architektur der ersten Generation war relativ komplex und umfasste Wahrnehmungs-, Positionierungs-, Planungs-, Navigations-, NPN- und andere Module, die zusammen den städtischen NOA-Vorstoß von Li Auto zu dieser Zeit auf 100 Städte unterstützten.
In der zweiten Generation des kartenlosen NOA führt Li Auto ein durchgängiges Großmodell ein, und die Anzahl der Module wird stark reduziert. Es bleiben nur noch Wahrnehmung und Planung übrig, und es besteht keine Notwendigkeit, auf die Aktualisierung von A-priori-Informationen zu warten .
Dieser ideale Schritt wird es den Automobilherstellern ermöglichen, ihr „Volumen“ nicht mehr auf die langweilige Zahl der eröffneten Städte zu beschränken und das Fahren mit Navigation wirklich zu ermöglichen.
Im Mai dieses Jahres rekrutierte Li Auto 1.000 Benutzer und startete offiziell die öffentliche Betaversion von NOA, auch bekannt als AD Max 3.0. Das damalige Benutzerfeedback übertraf die Erwartungen von Li Auto bei weitem. Nur zwei Monate später führte Li Auto dieses Upgrade für mehr als 240.000 Li Auto AD Max-Benutzer ein.
Allerdings ist die End-to-End-Lösung derzeit immer noch eine segmentierte End-to-End-Lösung. Die Smart-Driving-Lösung der dritten Generation ist wirklich eine integrierte End-to-End-Lösung – von der Eingabe bis zur Ausgabe wird alles von einem Modell implementiert. , ohne irgendwelche Regeln.
In der Vergangenheit waren Ingenieure unabhängig davon, ob es sich um eine kartenbasierte oder eine kartenfreie Lösung handelte, darauf angewiesen, Regeln auf der Grundlage verschiedener Straßenszenarien zu schreiben und zu versuchen, alle Straßenbedingungen und entsprechenden Lösungen umfassend abzudecken, um den Umfang des intelligenten Fahrens zu gewährleisten könnte so breit wie möglich sein.
Im Allgemeinen unterteilen die Hersteller Szenen grob in drei Typen: Hochgeschwindigkeitsszenen, Stadtszenen und Parkszenen. Diese Hauptszenarien können weiter unterteilt werden, und Regulierungsingenieure müssen Code für diese Szenarien schreiben.
Doch angesichts der komplexen Realität ist dieser Ansatz offensichtlich nicht realistisch genug. Das integrierte End-to-End-System kann den Prozess des menschlichen Fahrens erlernen und die Fahrbahn nach Erhalt von Sensorinformationen direkt ausgeben.
Ist Ihnen aufgefallen, dass sich der wichtigste Faktor zur Verbesserung der intelligenten Fahrfähigkeiten derzeit von Ingenieuren zu Daten verlagert hat? Und im Idealfall sind Daten das Unverzichtbarste.
Am 14. Oktober läutete Li Auto das einmillionste Fahrzeug ein, das an seinem Standort in Changzhou in der Provinz Jiangsu vom Band lief, und markierte damit die Geburtsstunde von Chinas erstem Neuwagenhersteller mit einer Million Einheiten. Laut von Li Auto veröffentlichten Daten beträgt der Anteil der AD Max-Benutzer bei Li Auto-Modellen mit einem Preis von mehr als 300.000 Yuan bis zu 70 % –
Jeden Monat können diese Fahrzeuge Ideal mit mehr als einer Milliarde Kilometern an Trainingsdaten versorgen.
Darüber hinaus ist sich Ideal seit langem der Bedeutung von Daten bewusst und hat grundlegende Funktionen wie Toolketten für Daten entwickelt. Beispielsweise hat die Backend-Datenbank von Ideal eine Absatzsuche implementiert, um den Satz „Fußgänger mit Regenschirmen in der Nähe“ zu finden an einem regnerischen Tag an der roten Ampel.“ finden Sie die entsprechenden Daten.
Gerade durch die Nutzung der riesigen Trainingsdaten und der perfekten Kontrollkette hat Ideal Smart Driving in der Branche „aufgeholt“ und mithilfe von End-to-End und VLM sein eigenes „Schnell“ und „Langsam“ gebildet.
Im Idealfall ähnelt diese intelligente Fahrlösung mit zwei Systemen der Theorie schneller und langsamer Systeme des Nobelpreisträgers Daniel Kahneman in „Thinking, Fast and Slow“:
Das menschliche schnelle System verlässt sich auf Intuition und Instinkt, um in 95 % der Szenarien eine hohe Effizienz aufrechtzuerhalten, das menschliche langsame System verlässt sich auf bewusste Analyse und Denken, wodurch eine hohe Obergrenze von 5 % der Szenarien eingeführt wird.
Unter diesen ist End-to-End das „schnelle System“ und VLM natürlich das „langsame System“.
Nach Ansicht von Lang
„Idealer Klassenkamerad, ich möchte hierher.“
Neben Verbesserungen beim intelligenten Fahren bringt OTA 6.4 auch Innovationen bei der Benutzerinteraktion.
Es ist außerdem in zwei Teile unterteilt: „schnell“ und „langsam“.
Als „schnelles System“ entspricht das End-to-End-Modell in der Regel einem Text-Popup-Fenster, das dem Fahrer Echtzeit-Ausführungslogik und Aktionen wie Navigation, Verkehrsregeln, Effizienz und Spiele bereitstellt.
Für das visuelle Sprachmodell VLM „langsames System“ hat Ideal ein neues Grafikfenster vorbereitet. In speziellen Szenarien wird das von vorne wahrgenommene Bild auf die Seite projiziert und im Zusammenhang mit dem Copywriting der Denkprozess und die Ergebnisse des Modells erläutert.
Durch die Zusammenarbeit von Text-Popup-Fenstern und Grafikfenstern kann der Fahrer im Voraus wissen, welche Fahrzeugsteuerungsaktionen das System ausführt. Für Verbraucher, die zum ersten Mal intelligentes Fahren erleben, hilft diese intuitive Informationsanzeige auch dabei, schnell Vertrauen in das intelligente Fahrsystem aufzubauen.
Ich muss zugeben, dass Li Auto die Benutzerbedürfnisse tatsächlich sehr genau versteht.
In unserer Vorstellung von der Zukunft sind intelligentes Fahren und intelligente Kabinen immer eng miteinander verbunden. In der OTA 6.4-Version hat Ideal auch viele Verbesserungen in seinen intelligenten Bereich gebracht.
Erstens integriert der neu hinzugefügte Task Master 2.0 die Funktionen von Ideal Classmates und Mind GPT vollständig. Durch die Unterstützung großer Modelle ist die Leistung von Task Master intelligenter.
Die von Mind GPT unterstützten idealen Klassenkameraden können nicht nur in den beiden Szenarien von Wochenendausflügen mit der Familie und der Beantwortung kleiner täglicher Fragen eine Rolle spielen. In Kombination mit der neu aktualisierten Navigationskarte der Amap AutoSDK 750-Version können die idealen Klassenkameraden „Touch + Voice“ verwenden , sodass Fahrer schnell nach Zielen suchen können.
Zeigen Sie beispielsweise auf einen bestimmten Ort auf der Karte und lassen Sie sich dabei helfen, an der Ladestation nach Ladesäulen beliebiger Marke zu suchen, und Sie können sogar die Leistung angeben.
Kurz gesagt, mit dem neuen Ideal Classmate müssen Sie Ihr Telefon nicht mehr in die Hand nehmen. Sie können den Navigationspfad ganz einfach und auf natürlichste und intuitivste Weise festlegen.
VLM kümmert sich durchgängig um die Steuerung, übernimmt für Sie die Denkarbeit und Sie weisen einfach den Weg.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo