Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren?

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 10

Im Jahr 2013 war autonomes Fahren noch ein sehr innovatives und sexy Konzept, genau wie das aktuelle AGI und das Metaverse vor einigen Jahren. Im Zeitalter der Internetunternehmen veranstaltete Tencent jedes Jahr eine WE-Konferenz, um darüber zu sprechen . Einige der Sterne- und Meeresthemen, wie Genbearbeitung, Gehirn-Computer-Schnittstelle, Weltraumforschung usw.

Das erste Mal kam ich mit dem Konzept des „autonomen Fahrens“ auf der ersten Tencent WE-Konferenz im Jahr 2013 in Kontakt. Damals äußerte ein Gast folgende Ansichten:

  • Technische Probleme sind nicht schwer zu lösen, rechtliche Fragen hingegen schon.
  • Innerhalb von zehn Jahren können Verbraucher selbstfahrende Autos kaufen.
  • Wenn die Genauigkeit der von der Maschine getroffenen Beurteilung 95 % erreicht, ist sie möglicherweise immer noch besser und schneller als der Mensch.

Die Zehn-Jahres-Frist ist gekommen, und diese Worte sind im Allgemeinen wahr geworden, wenn Carrot Run in vielen Städten bereits in großem Umfang unterwegs ist, verfügen High-End-Modelle von Mainstream-New-Power-Marken über intelligente High-End-Fahrfähigkeiten und Teslas FSD V12-Version steht kurz vor der Veröffentlichung. Die autonome Fahrtechnologie ist nicht mehr weit entfernt von der Stufe L2+.

Moment mal, wenn ich dieses Bild herausnehme, wie sollen Sie antworten?
Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - GZ 1
Dies ist ein alltägliches Bild der alltäglichen Verkehrsbedingungen in der Stadt Guangzhou: Nicht nur sind die Fahrspuren für Kraftfahrzeuge mit einer großen Anzahl zweirädriger Elektroroller gefüllt, sondern auch Elektrorollstühle, die mit extrem niedriger Geschwindigkeit fahren, fahren auf den Fahrspuren für Kraftfahrzeuge.

Zu diesem Zeitpunkt spiegeln sich die Vorteile und Herausforderungen des intelligenten Fahrens wider: Der Vorteil besteht darin, dass intelligentes Fahren keine Emotionen hat, nicht wütend wird und nicht unter Straßenrummel leidet, die Herausforderung ist der langsame Elektrorollstuhl und das Zweirad Batterieautos, die über die Autobahn huschen und eindringen. Für intelligentes Fahren ist es ein sehr schwieriges Szenario, es vorherzusagen und zu bewältigen.

Tatsächlich basierten Vorhersagen zur Entwicklung des autonomen Fahrens vor zehn Jahren größtenteils auf einer Logik: Autos und Menschen auf der Straße müssen sich an die Verkehrsregeln halten, an roten Ampeln anhalten und an grünen Ampeln fahren, und es dürfen keine schädlichen Personen auf dem Auto auftauchen Fahrzeugspuren.

Aber wenn Hersteller Autos mit intelligenten Fahrfunktionen an Verbraucher liefern, ist die Situation für die Autos wie oben: Die Straße ist mein Zuhause und Verkehrsregeln werden ignoriert.

Klassische Smart-Driving-Logik: „Wahrnehmung – Planung – Kontrolle“

Die aktuellen Mainstream-Lösungen für intelligentes Fahren, ob hochpräzise Kartenlösungen oder kartenlose Lösungen, sind darauf angewiesen, dass eine große Anzahl von Ingenieuren Regeln auf der Grundlage verschiedener Straßenszenarien schreiben, um alle Straßenbedingungen und entsprechenden Maßnahmen auszuschöpfen und so viel zu erreichen möglichst intelligentes Fahrverhalten.

Allerdings sind die realen Straßenverhältnisse nicht nur kompliziert und können nicht erschöpfend beschrieben werden, sondern die reale Welt verändert sich auch ständig und es tauchen jederzeit neue Straßenszenen auf. Daher war die bisherige Forschung und Entwicklung des intelligenten Fahrens ein „unendlicher Krieg“.

Beispielsweise konnten vor Juli nur wenige Automobilunternehmen den Bereich der Ein- und Ausfahrten in Kreisverkehre erobern, da der Bereich komplex, die Wahrnehmung eingeschränkt und Planung und Entscheidungsfindung schwierig waren.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 1

Um es einfach auszudrücken: Bevor Teslas FSD V12-Version die „durchgängige“ technische Lösung übernimmt, können fast alle intelligenten Fahrlösungen in drei Hauptmodulen zusammengefasst werden: „Wahrnehmung – Planung – Kontrolle“. Diese Reihe von Prozessen deckt a ab Vielzahl von Szenen, wie zum Beispiel die klassische Drittelregel: Autobahnszenen, Stadtszenen und Parkszenen.

Diese großen Szenen können unterteilt und unterteilt werden. Der Lidar, das Millimeterwellenradar, die Kamera und das Positionierungssystem des Autos arbeiten zusammen, um die Straßen-, Umgebungs- und Standortinformationen zu erfassen und aufzuzeichnen. Birds-Eyes-View-Technologie oder OCC-Technologie (Occupancy Network) oder andere Technologien nutzen die von diesen Sensoren erhaltenen Informationen, um eine „virtuelle Projektion der realen Welt“ zu erstellen, die dann vom intelligenten Fahrsystem verstanden werden kann. Weltprojektion“ werden eine sinnvolle Reiseroute und ein Bewegungsplan geplant und dann die Steuerungsentscheidung abgeleitet. Schließlich reagiert das Auto auf die Entscheidung und formt „langsamer fahren, die Richtung nach links ändern, die linke Kehrtspur nehmen.“ Vorausfahren, Notbremsung vermeiden. Wenn ein zweirädriges Batterieauto mitten auf die Straße gerät, fahren Sie weiter und machen Sie eine Kehrtwende. Dies ist ein intelligentes Fahrverhalten.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - OCC 1

▲ Jiyue Auto OCC-Netzwerkbelegungsdiagramm

Wenn intelligentes Fahren die OCC-Besetzungsnetzwerktechnologie verwendet, können wir eine Analogie zum intelligenten Fahrsystem erstellen, das aus Quadraten (Voxeln) besteht. Wenn die Straße vor uns glatt ist. Theoretisch gibt es keine Quadrate auf der Straße, und das Auto kann sich mutig vorwärts bewegen. Wenn sich davor ein kleines, stationäres Quadrat befindet, ist der Eiskübel möglicherweise in die Mitte der Straße gewandert Eine lange, sich langsam bewegende Bar auf der rechten Spur, es könnten nur Fußgänger sein. Wenn es sich um einen sehr großen rechteckigen Block handelt, der sich schnell auf der linken Spur bewegt, könnte es sich um einen großen LKW handeln …

Unter dieser allgemeinen Logik von „Wahrnehmung – Planung (Entscheidung) – Kontrolle“ ist es egal, ob es sich um die vorherige Lösung handelt, die auf hochpräzisen Karten basiert, oder um die nachfolgende kartenlose NOA (automatische Navigationsunterstützung), die mehr auf der Fusion mehrerer Sensoren und hoher lokaler Rechenleistung basiert (Power Driving)-Lösungen weichen nicht von dieser Grundlogik ab. Auch der F&E-Rahmen und die Arbeit der Ingenieure erfüllen in jedem Modul ihre jeweiligen Aufgaben.

Bis zur Entstehung von „End-to-End“.

Was ist „End-to-End“?

Es gibt drei bahnbrechende Ereignisse in der künstlichen Intelligenz, die eine breite gesellschaftliche Diskussion ausgelöst haben.

Das erste Mal war 1997, als IBMs Schachroboter „Deep Blue“ den Schachmeister Garry Kasparov besiegte. Aber wenn man sich „Deep Blue“ zu diesem Zeitpunkt ansieht, wird man das Gefühl haben, dass es nicht so schlau ist Wir sammeln eine große Menge an Eröffnungs- und Endspielaufzeichnungen und verwenden dann effiziente Suchalgorithmen und Bewertungssysteme, um die am besten geeignete Spielweise auszuwählen.

Mit anderen Worten: Wenn Deep Blue Schach spielt, sind die Zwischenentscheidungen für den Menschen erklärbar und logisch klar.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 11

Dann besiegte DeepMinds AlphaGo im Go-Bereich, der komplexer ist als Schach, Li Sedol und Ke Jie und verkündete, dass das Niveau der künstlichen Intelligenz das aller menschlichen Schachspieler bei weitem übertrifft.

Die Logik von AlphaGo besteht nicht darin, Schachaufzeichnungen zu suchen und abzugleichen. Schließlich übersteigt die Anzahl der Spielbretter und Schachfiguren die von Schach und die darin enthaltenen Möglichkeiten sind zu groß. Aber basierend auf dem tiefen Lernen neuronaler Netze kann AlphaGo selbstständig lernen und sich weiterentwickeln und weiß, wie man als nächstes spielt, um dem Sieg näher zu kommen. Für Menschen unterscheiden sich die Spielmethoden von AlphaGo völlig von der menschlichen Denklogik, aber was passierte Die Mitte? Experten für künstliche Intelligenz kennen die Logik.

Dann kam die Entstehung von ChatGPT. Es gibt eine „Black Box“, die selbst Experten für künstliche Intelligenz nur schwer erklären können, was genau zwischen dem Stellen der Frage und dem ChatGPT passiert ist Antwort.

Um dies als Metapher zu verwenden: Intelligente Fahrtechnologie basierte bisher auf der Forschungs- und Entwicklungslogik „Wahrnehmung – Planung (Entscheidung) – Kontrolle“, ähnlich wie die Faltungs-Neuronalen Netze (CNNs) von AlphaGo die zweidimensionale Struktur von verarbeiten können das Schachbrett und das Extrahieren räumlicher Merkmale; Das Wertschöpfungsnetzwerk und das Richtliniennetzwerk können neben Verstärkungslernen und Monte-Carlo-Baumsuchtechnologie auch Planung und Entscheidungsfindung ermöglichen, um die Entscheidungsfindung zu optimieren.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 4

▲ Ideales End-to-End-Architekturdiagramm für intelligentes Fahren

Das „End-to-End“ in der intelligenten Fahrtechnologie ähnelt der großen Sprachmodelltechnologie hinter ChatGPT, von Rohsensordaten (wie Kameras, Millimeterwellenradar, Lidar usw.) bis hin zu endgültigen Steueranweisungen (wie Beschleunigung). , Bremsen usw.) Lenkung usw.). Natürlich ist diese Methode der direkten Fahrzeugsteuerung zu diesem Zeitpunkt noch zu radikal, daher besteht die ideale End-to-End-Lösung darin, nur die Flugbahn auszugeben, nicht jedoch die Steuerung. Es gibt noch viele Einschränkungen und redundante Maßnahmen vor der Fahrzeugsteuerung. Das Ziel dieser Methode besteht darin, die Systemarchitektur zu vereinfachen und die gesamte Aufgabe über ein einziges neuronales Netzwerk oder Modell abzuschließen. Sie beruht nicht mehr auf massiven Szenenregelcodes, sondern auf einer völlig anderen technischen Richtung.

So wie das große Sprachmodell zuvor die große Anzahl von Parametern betonte, hat Tesla auch im multimodalen Modell hinter End-to-End einen solchen Prozess der quantitativen Änderung, der zu qualitativen Änderungen führt, übernommen Technologie auf FSD V12 und Musk Sagen Sie einfach Folgendes:

Das Training mit 1 Million Video-Slices reicht kaum aus; 3 Millionen sind etwas besser; 10 Millionen werden unglaublich sein.

Menschen, die häufig ChatGPT oder andere generative KI-Tools verwenden, werden jedoch feststellen, dass diese Tools unzuverlässig sind und oft selbstbewusst falsche Antworten ausgeben, was als „Illusion“ bezeichnet wird.

Es gibt im Allgemeinen keine katastrophalen Folgen für KI-Tools auf Computern, die Fragen blind beantworten, aber intelligentes Fahren hängt mit der Lebenssicherheit zusammen. Eine „End-to-End“-Lösung für das Fahrverhalten erfordert mehr Überprüfungs- und Versicherungsmaßnahmen. und was noch wichtiger ist, technische Probleme.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 6

Gespräch mit dem Ideal Intelligent Driving Team: „End-to-End“ ist der eigentliche Einsatz von KI für autonomes Fahren

Nachdem wir die lange Hintergrundeinführung durchgearbeitet haben, können wir endlich zum Punkt kommen: Nutzen wir die Gelegenheit, das ideale Smart-Driving-Team zu interviewen und darüber zu sprechen, wie „End-to-End“ von der Theorie zum Fahren übergeht.

Lang Xianpeng, Vizepräsident für Forschung und Entwicklung von Ideal Smart Driving, sagte gegenüber Aifaner und Dongchehui:

Eine wichtige Überlegung bei unserem diesjährigen Frühjahrsstrategietreffen ist, dass wir uns immer auf den Wettbewerb konzentrieren, wie viele Städte es eröffnet hat und welche Indikatoren es dafür gibt Ich bin zum Beispiel besser als Huawei, oder ein bisschen schlechter als Huawei, das entspricht nicht den tatsächlichen Bedürfnissen der Benutzer.

Zurück zu den Fahrbedürfnissen der Benutzer: Die tatsächlichen Benutzerbedürfnisse sind nicht die Frage, wie niedrig der Indikator für die Übernahmequote ist. Was die Benutzer benötigen, ist intelligentes Fahren, um wie ein erfahrener Fahrer zu fahren, und dieses anthropomorphe Bedürfnis beruht auf der ursprünglichen regulären und modularen Forschungs- und Entwicklungsarchitektur ist schwer umzusetzen. Aber das „End-to-End“ einer idealen internen Vorrecherche wird besser funktionieren.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 8

Auf dieser Grundlage hat die ideale intelligente Fahrtechnologielösung innerhalb eines Jahres drei Generationen von Anpassungen durchlaufen: von Graph über NPN (Neuronal Prior Network) über Graphless bis hin zu End-to-End.

Lang Xianpeng erklärt den wesentlichen Unterschied von Ende zu Ende:

Oberflächlich betrachtet ist End-to-End ein einziges großes Modell, das tatsächlich einen Wendepunkt darstellt. Von End-to-End aus können wir tatsächlich künstliche Intelligenz nutzen noch nicht der Fall.

Da es datengesteuert ist und Rechenleistung mit Daten und Modellen kombiniert, handelt es sich um einen hochautomatisierten Selbstiterationsprozess. Dieser Prozess iteriert die Fähigkeiten des Modells oder Systems selbst. Was haben wir also vorher gemacht? Was wir tun, sind alle Arten von Systemfunktionen, wie zum Beispiel die Funktion des Auf- und Abfahrens von der Rampe oder die Funktion des Passierens der Mautstation.

Es gibt einen großen Unterschied zwischen Funktionen und Fähigkeiten.

Tatsächlich handelt es sich bei dem auf der Ideal Intelligent Driving Summer Conference vorgestellten autonomen Fahrsystem der nächsten Generation jedoch um eine „End-to-End + VLM (visuelles Sprachmodell)“-Dual-System-Lösung.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 2

Da die Prämisse darin besteht, intelligentes Fahren wie ein erfahrener Fahrer zu ermöglichen und so anthropomorph wie möglich zu sein, müssen wir darüber nachdenken, wie Menschen Dinge tun. Die theoretische Grundlage hierfür ist „Thinking, The theory of fast and slow systems“ des Nobelpreisträgers Daniel Kahneman "Schnell und langsam":

Das menschliche schnelle System verlässt sich auf Intuition und Instinkt, um in 95 % der Szenarien eine hohe Effizienz aufrechtzuerhalten, das menschliche langsame System verlässt sich auf bewusste Analyse und Denken, wodurch eine hohe Obergrenze von 5 % der Szenarien eingeführt wird.

Das ideale duale End-to-End-System „End-to-End + VLM“ ist ein schnelles System, das Informationen in täglichen Fahrszenarien schnell verarbeiten kann, während das visuelle Sprachmodell von VLM logisch denken kann in komplexen Szenarien.

Wie schnell ist dieses schnelle System?

Jia Peng, Leiter der Forschungs- und Entwicklungsabteilung für ideale intelligente Fahrtechnologie, sagte:

Jetzt beträgt unsere End-to-End-Verzögerung mehr als 100 Millisekunden vom Sensor bis zum Steuerausgang, also weniger als 200 Millisekunden. In der Vergangenheit hatte das Submodul wahrscheinlich mehr als 300 bis fast 400 Millisekunden.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 5

Warum ist dieses langsame System notwendig?

Lang Xianpeng erklärte:

Wir untersuchen derzeit einige seiner (VLM-)Fähigkeiten. Ohne es gäbe es keine Sicherheitsprobleme. Unsere wichtigste unterstützende Rolle beim intelligenten Fahren auf L3-Niveau ist die End-to-End-Funktion, die die Fahrfähigkeit einer Person bei normalem Verhalten darstellt.

Aber wenn es um intelligentes Fahren auf L4-Niveau geht, müssen VLM oder große Modelle eine wichtigere Rolle spielen. Es funktioniert möglicherweise nicht in mehr als 90 % der Fälle, aber diese Inhalte bestimmen, ob das System L3-Niveau oder L4 ist Ein wichtiger Punkt des Levels ist, dass VLM dieses unbekannte Szenario wirklich bewältigen kann.

Das Ideal besteht nicht darin, ein End-to-End-Modell zu verwenden, sondern eine zuverlässigere Dual-System-Lösung einzuführen, um die gesamte Szene abzudecken. End-to-End ist dafür verantwortlich, das Fahrverhalten menschlicher und ähnlicher zu gestalten Ein erfahrener Fahrer unterstützt zwar die Untergrenze, kann die Obergrenze jedoch sogar anheben und wird voraussichtlich ein höheres Niveau des autonomen Fahrens erreichen.

Bei genauerem Hinsehen steuert das ideale End-to-End im Gegensatz zum fundamentalistischen End-to-End, das letztendlich für die Fahrzeugsteuerung verantwortlich ist, das Auto nicht direkt, sondern erreicht die Ebene der Ausgabeflugbahn.

Jia Peng sagte:

Unser End-to-End-Modell erreicht die Flugbahn, und nach der Flugbahn werden einige Sicherheitstaschen hinzugefügt, da das Modell noch einige Dinge zu erledigen hat, bevor es die Obergrenze erreicht, z. B. das Drehen des Lenkrads, das schwer zu beseitigen ist Es.

Im eigentlichen intelligenten Fahrprozess arbeiten die beiden Systeme auch gleichzeitig. Jia Peng erläuterte ausführlich, wie die beiden Systeme zusammenarbeiten:

Diese beiden Systeme laufen in Echtzeit und laufen durchgehend zusammen. Da das Modell kleiner ist, ist seine Frequenz relativ hoch, beispielsweise bei einem Betrieb mit einem Dutzend Hertz. Darüber hinaus verfügt das Modell über eine viel größere Anzahl von Parametern, nämlich 2,2 Milliarden Parameter. Es kann derzeit mit etwa 3 bis 4 Hz laufen und läuft tatsächlich die ganze Zeit.

VLM sendet Entscheidungsergebnisse an Referenzpunkte. Wenn ETC beispielsweise auf die Autobahn fährt, ist es tatsächlich schwierig zu bestimmen, welche Spur ich nehmen soll. VLM war zu diesem Zeitpunkt schon immer da. Wenn Sie ETC wählen möchten, können Sie den manuellen Pfad wählen. Allerdings werden dadurch die Entscheidungsergebnisse und Referenztrajektorien verworfen Diese Informationen werden dann nach der Schlussfolgerung des End-to-End-Modells verwendet.

Tatsächlich handelt es sich bei dem visuellen Sprachmodell von VLM um Hilfsinformationen. Das endgültige Flugbahnergebnis ist das Ergebnis der Modellbegründung und es besteht eine gewisse Wahrscheinlichkeit, dass es übernommen wird.

Warum kann End-to-End eine so große Welle im Bereich des intelligenten Fahrens auslösen? Oder liegt es an den riesigen Möglichkeiten, die dahinter stecken, und an seiner richtungsweisenden Bedeutung für die Suche nach der „ultimativen Antwort“.

Kurz gesagt, in diesem Plan sind alle noch lange nicht an der Grenze ihrer Fähigkeiten angelangt, und Technologieexploration und Ingenieurspraxis haben den Wildnisbereich erreicht.

Jia Peng erläuterte weiter die Prinzipien und Möglichkeiten dualer Systeme:

Tatsächlich sind Menschen duale Systeme, obwohl die Art und Weise, wie Menschen denken, ein duales System ist Als End-to-End-System für logisches Denken fällt mir natürlich VLM ein.

Obwohl VLM das Auto nicht direkt steuert, sorgt es für die Entscheidungsfindung.

Wie wird sich das Ding in Zukunft entwickeln? Möglicherweise haben sich mit der Erhöhung der Rechenleistung, beispielsweise in den Tesla FSD-Versionen 12.3 bis 12.5, die Parameter um das Fünffache erhöht, was ein ausreichend großes Modell unterstützen kann.

Ich denke, dass es in Zukunft zwei Trends geben wird, dass der Modellmaßstab immer noch größer wird. Diese beiden Modelle können zu einem kombiniert werden derzeit relativ locker gekoppelt und kann in Zukunft eng gekoppelt werden.

Zweitens können wir auch aus dem aktuellen Trend zur Entwicklung multimodaler Modelle bei großen Modellen lernen. Sie gehen in Richtung dieser Art von nativer Multimodalität, die sowohl Sprache als auch Sprache, Vision und Lidar beherrscht über die man in Zukunft nachdenken muss.

Unser Paradigma sollte uns dabei unterstützen können, autonomes Fahren (L4-Level) zu erreichen, da wir bereits den Prototyp seiner Anwendung in der verkörperten Intelligenz von Robotern gesehen haben. In Bezug auf den menschlichen Denkprozess könnten diese Dinge das sein, was wir verfolgen möchten . Die ultimative Antwort.

Die ultimative Antwort bedeutet, dass wir diese Theorie und diesen Rahmen nutzen, um echte künstliche Intelligenz zu schaffen.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 12

Doch bevor er über die ultimative Antwort sprach, erklärte Jia Peng, warum nur eine End-to-End-Lösung das intelligente Fahrproblem der „Ein- und Ausfahrt rund um die Insel“ lösen kann:

Wenn es sich um eine segmentierte (intelligente Fahrlösung) handelt, müssen für die Steuerung verschiedene Annahmen getroffen werden, die Kehrtwendelinie muss nicht angepasst werden Das Gleiche und die Krümmung sind alle unterschiedlich, daher ist es für Sie schwierig, alle Kreisverkehre mit einem Codesatz zu umfahren. Es gibt zu viele Typen.

Es gibt auch eine interessante Geschichte über den Kreisverkehr. Als wir (einschließlich der Modelldaten) etwa 800.000 Clips (Videoclips) hatten, kamen wir plötzlich nicht durch den Kreisverkehr. Ich glaube, dass 1 Million (Videoclip) beim Durchfahren des Kreisverkehrs einige Kreisverkehrdaten enthalten.

Das Modell ist in der Tat sehr leistungsfähig. Das ist der Reiz des Modells. Ich denke, wenn Sie unsere aktuelle End-to-End-Version öffnen, werden Sie feststellen, dass ETC es weitergeben kann von selbst, aber das Problem ist, dass es jetzt nicht weiß, welche Straße ich nehmen möchte, ob es die ETC-Straße oder die künstliche Straße ist. Es wird eine zufällige auswählen, wodurch Sie sich unsicher fühlen ist, dass VLM ihm diese Anleitung geben kann, weil VLM chinesische Schriftzeichen und LED-Anzeigen verstehen kann.

Was das Was und Warum des durchgängigen theoretischen Teils betrifft, haben wir nun einen groben Überblick. Nachdem wir die Daten und Modelle haben, geht es erst richtig los, d. h. mit dem Wie.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 7

▲Ideale Werkstatt für die Automobilherstellung

„Das Training eines End-to-End-Modells unterscheidet sich nicht von der Herstellung eines Elixiers.“

Lang Xianpeng erzählte Ai Faner und Dong Chehui eine sehr bizarre Geschichte über das Training eines End-to-End-Modells:

Als wir Anfang des Jahres mit der Arbeit an dem Projekt begannen, stellten wir fest, dass das Modell normal fahren konnte. Beim Warten auf eine rote Ampel verhielt es sich jedoch merkwürdig Spur. Wir wussten nicht warum.

Später stellten wir fest, dass wir beim Training des End-to-End-Modells viele Daten gelöscht hatten, die vor der roten Ampel warteten. Wir hatten das Gefühl, dass die Daten nutzlos waren, nachdem wir mehrere zehn Sekunden oder eine Minute gewartet hatten. Aber später habe ich herausgefunden, dass diese Daten sehr wichtig sind. Sie haben diesem Modell beigebracht, dass man manchmal warten muss, wenn man langsamer wird.

Diese Kurzgeschichte zeigt, dass Daten in hohem Maße die Qualität des Modells bestimmen, die Größe des Modells jedoch begrenzt ist, sodass es tatsächlich eine der Kernaufgaben ist, welche Daten zum Trainieren des Modells zugeführt werden müssen.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 9

Lang Xianpeng gab eine Analogie:

Das Training eines End-to-End-Modells unterscheidet sich nicht von der alten Alchemie. In der Antike konzentrierte sich die Schießpulverraffinierung auf Mononitrat, Disulfid und Holzkohle, und die dabei hergestellten Sprengstoffe waren relativ stark. Auch andere Verhältnisse können das Feuer entfachen.

Für Automobilhersteller, die End-to-End-Modelle trainieren möchten, ist „Alchemie“ jedoch nur eine Metapher und keine spezifische Projektimplementierungsmethode. Wie man die Daten erhält, wie man sie auswählt und wie man sie trainiert, ist alles wissenschaftlich Probleme.

Glücklicherweise hat Ideal einige angeborene Vorteile, zum Beispiel verkaufen sich seine Autos gut und sein Verkaufsvolumen liegt oft an erster Stelle unter den Neuwagenherstellern. Es sind mehr als 800.000 Lideal-Autos auf der Straße, und jedes Mal kommen 40.000 bis 50.000 hinzu Monatlich liefern diese Fahrzeuge mehr als eine Milliarde Kilometer Daten.

Darüber hinaus ist sich Ideal seit langem der Bedeutung von Daten bewusst und hat grundlegende Funktionen wie Toolketten für Daten entwickelt. Beispielsweise hat die Backend-Datenbank von Ideal eine Absatzsuche implementiert, um den Satz „Fußgänger mit Regenschirmen in der Nähe“ zu finden „An einem regnerischen Tag an der roten Ampellinie“ finden Sie die entsprechenden Daten. Dahinter verbergen sich einige kleine Wolkenmodelle, beispielsweise Data-Mining-Modelle und Szenenverständnismodelle.

Lang es nicht möglich sein, es zu trainieren.

Der Wandel der zugrunde liegenden technischen Lösungen bedeutet auch einen Wandel der Arbeitsmethoden. Wenn ein schlimmer Fall entdeckt wird, analysiert das Modell im idealen internen „Triage Desk“-System automatisch, zu welcher Art von Szenarioproblem es gehört, und gibt „Triage-Vorschläge“. Kehren Sie dann zum Modelltraining zurück, um das Problem zu lösen.

Damit verbunden ist auch ein Wandel in der Art und Weise, wie wir arbeiten. Menschen, die ursprünglich bestimmte Probleme gelöst haben, sind nun zu Menschen geworden, die Werkzeuge zur Lösung von Problemen entwickeln.

Um die Effizienz von „Diagnose und Behandlung“ zu verbessern, trainiert Ideal intern mehrere Modelle gleichzeitig. Dieser Prozess kehrt zum Konzept der „Alchemie“ zurück, erklärte Jia Peng:

Es gibt zwei Hauptaspekte beim Modelltraining. Wie viel sollte in ähnlichen Szenarien hinzugefügt werden, um den Fall zu lösen? Der zweite Punkt sind die Hyperparameter des Modells. Wie werden die Modellparameter nach dem Hinzufügen neuer Daten angepasst? Im Allgemeinen werden 5 bis 6 Versionen des Modells gleichzeitig zum Training eingereicht und dann wird geprüft, welche Version das Problem löst Problem und punktet besser.

Das gleichzeitige Training mehrerer Modelle stellt Anforderungen an die Datenbankinfrastruktur und enorme Anforderungen an die Rechenleistung. Zu diesem Zeitpunkt kommt „Geldmacht“ ins Spiel. Der ideale Vorteil besteht darin, dass sich Autos mehr verkaufen und teurer sind. Mit den besten Umsätzen und dem positiven Cashflow unter den Neuwagenherstellern kann es den dahinter stehenden enormen Rechenleistungsaufwand decken.

Lang Xianpeng sagte:

Wir schätzen, dass der jährliche Rechenleistungsaufwand für das Training 1 Milliarde US-Dollar betragen wird, wenn das autonome Fahren der Stufen L3 und L4 erreicht wird. In Zukunft werden wir für Rechenleistung und Daten kämpfen, und wofür wir kämpfen, ist Geld oder Rentabilität.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 3 1

Wenn das End-to-End-Modell den größten Teil der Arbeit in der traditionellen intelligenten Fahrlogik „Wahrnehmung-Planung-Steuerung“ ersetzt, konzentriert sich die arbeitsintensivste Arbeit des idealbezogenen intelligenten Fahrteams auch auf „Kopf und Schwanz“. ", der Kopf sind Daten, das Ende ist Verifizierung.

Zusätzlich zu den beiden Geschwindigkeitssystemen des End-to-End-Modells und dem visuellen Sprachmodell von VLM gibt es im Ideal auch ein System drei, das als experimentelles Modell oder Weltmodell bezeichnet wird Beurteilung des Niveaus des gesamten intelligenten Fahrsystems und der Sicherheit.

Lang Xianpeng verglich dieses Prüfungssystem mit einer Sammlung von drei Fragendatenbanken:

  • Echte Fragenbank: Das richtige Verhalten von Menschen im Straßenverkehr
  • Falsche Fragendatenbank: Während des normalen Testens und Fahrens, Benutzerübernahme, Benutzerausstieg und anderen Verhaltensweisen
  • Simulationsfragen: Ziehen Sie auf der Grundlage aller Daten Schlussfolgerungen aus einer Instanz und generieren Sie virtuelle, ähnliche Szenariotests für bestimmte wiederholte Probleme.

Wenn Sie beispielsweise, wie bereits erwähnt, Ihr intelligentes Fahren wie einen erfahrenen Fahrer verkörpern möchten, muss das Fahrverhalten dieser echten Testbank dem eines erfahrenen Fahrers entsprechen. Die „echte Testbank“ im idealen Testmodell wählt eine interne Punktzahl von 90 oder höher. Das Fahrverhalten von Fahrern, diese Gruppe macht nur 3 % der idealen Autofahrer aus, hängt von der Laufruhe ihres Fahrens, dem Grad der Fahrgefahr usw. ab Aktiviert er oft die automatische Notbremsung AEB, dann wird sein Fahrverhalten zu radikal.

Nach umfangreichen Tests des Versuchsmodells wird es auch eine Testversion für „Early Bird User“ geben. Das bedeutet, dass Tausende von Nutzerautos eine neue Version des Smart-Driving-Systems erhalten, das in realen Szenen und Szenarien eingesetzt werden kann Nicht wahrnehmbarer „Schattenmodus“. Führen Sie reale Überprüfungen und Tests auf der Straße durch, die größer sind als die Testflotte jedes Autoherstellers.

Die von Tausenden von Frühbucherbenutzern getesteten und verifizierten Daten werden automatisch zurückgesendet, automatisch analysiert und automatisch iterativ für eine neue Test- und Bereitstellungsrunde trainiert.

Mit anderen Worten: Datenerfassung, Modelltraining, experimentelle Untersuchungen und Benutzerbereitstellung sind Prozesse voller automatisierter zirkulärer Logik mit sehr geringer menschlicher Beteiligung.

Laut Lang Xianpeng und Jia Peng hat die Branche nach der Umstellung auf „End-to-End + VLM“ einen Punkt nahe dem Niemandsland erreicht. Es herrscht Aufregung darüber, dass die Obergrenze der Systemfähigkeiten nicht mehr zu erkennen ist Derzeit besteht jedoch auch die Notwendigkeit, pragmatisch zu sein. Derzeit gibt nur das End-to-End-Modell die Trajektorie aus, und die Steuerung nach der Trajektorie muss sicher sein. Ein weiteres Beispiel ist die Rechenleistung : Die Anzahl der Ingenieure war zuvor erforderlich, und die Anzahl der Grafikkarten wird in Zukunft benötigt.

Ohne Rechenleistung ist alles Fantasie.

Es gibt keinen Gewinn und Rechenleistung ist nur eine Fantasie.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 3

Lassen Sie uns noch einmal über die „ultimative Antwort“ sprechen: Ideale, Tesla und OpenAI erreichen das gleiche Ziel auf unterschiedlichen Wegen

So wie Musk immer wieder betont hat, dass „Tesla ein KI- und Robotikunternehmen ist, nicht nur ein Autounternehmen“, verglichen Lang Xianpeng und Jia Peng in dem Interview auch das ideale Auto mit einem Roboter auf Rädern und sprachen auch über die Prototypanwendung von verkörperten intelligenten Trägern wie humanoiden Robotern unter Verwendung des „End-to-End + VLM“-Frameworks.

Teslas Optimus-Roboter trägt Musks größere Vision in sich und ist natürlich ein weiterer Träger von FSD, da der Optimus-Roboter relativ wenig Informationen freigibt, aber er verfügt über ein „End-to-End“-Modell, das auf lokalen Umgebungsinformationen durch Kameras und Sensoren basiert und geben Sie dann direkt gemeinsame Steuersequenzen aus.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 13

Darüber hinaus haben die von OpenAI und NVIDIA finanzierten Figure Robots gerade ihren zweiten humanoiden Roboter, Figure 02, veröffentlicht und behaupten, es handele sich um „die fortschrittlichste KI-Hardware der Welt“, bei der das visuelle Sprachmodell VLM eine wichtige Funktion darstellt. Ausgestattet mit jeweils sechs RGB-Kameras an Kopf, Vorder- und Hinterkörper ist Figure 02 in der Lage, die physische Welt durch sein KI-gesteuertes Sichtsystem zu erfassen und zu verstehen. In der offiziellen Beschreibung hat Abbildung 02 „eine übermenschliche Vision“.

Natürlich verfügt es auch über ein großes Sprachmodell, das OpenAI für die Kommunikation mit Menschen bereitstellt.

Gespräch mit dem Ideal Intelligent Driving Team: Was ist die „ultimative Antwort“ auf autonomes Fahren? - LX 14

Ganz ähnlich begann der Optimus-Roboter in der Autofabrik von Tesla zu arbeiten (und zu trainieren), und Abbildung 02 wurde auch in der Autofabrik von BMW getestet und trainiert. Beide sind in der Lage, einige einfache Aufgaben zu erledigen, und sie entwickeln sich ständig weiter.

Obwohl das ideale Auto, der Tesla-Optimus-Roboter und der Figure-Roboter wenig miteinander zu tun zu haben scheinen, sind die zugrunde liegende technische Logik und das Denken über KI tatsächlich unterschiedliche Ansätze für dasselbe Ziel. Dies ist auch der Ursprung der „ultimativen Antwort“. .

Wir haben jahrzehntelang über künstliche Intelligenz gesprochen, und der Fokus hat sich endlich von künstlicher Intelligenz auf Intelligenz verlagert.

Im Plastikgewächshaus des Schicksals träumte jeder Kohl, der mit zu vielen Pestiziden besprüht wurde, einmal davon, ein schadstofffreies Bio-Gemüse zu werden.

# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo