Auch ohne Internetzugang können Roboter endlich die menschliche Kontrolle „loswerden“! Google bringt sein erstes Offline-KI-Gehirn auf den Markt, mit dem man mit nur einem Satz arbeiten kann

Wir haben in Filmen und Fernsehsendungen schon zu viele Roboter außer Kontrolle geraten sehen. Wir kennen auch einige der Lösungen auswendig: Trennen Sie die Internetverbindung, ziehen Sie den Netzstecker und starten Sie den Roboter neu. Mit einem Klick ist er wiederhergestellt.

Aber jetzt funktioniert dieser Prozess möglicherweise nicht mehr so ​​gut.

Google DeepMind hat heute ein neues Robotersteuerungsmodell vorgestellt: Gemini Robotics On-Device. Dieses umfangreiche Modell kann lokal auf dem Roboter ausgeführt werden und integriert visuelle Erkennung, Sprachverständnis und Aktionsausführung.

Sein größtes Highlight ist, dass es menschliche Anweisungen auch dann verstehen und Aufgaben reibungslos erledigen kann, wenn es völlig offline ist.

Auch ohne Internetzugang können Roboter endlich die menschliche Kontrolle „loswerden“! Google bringt sein erstes Offline-KI-Gehirn auf den Markt, mit dem man mit nur einem Satz arbeiten kann - 1 22

Im Vergleich zu großen Modellen wie ChatGPT und Gemini, die gut chatten, schreiben und Fragen beantworten können, stattet Gemini Robotics On-Device den Roboter mit einem echten „Gehirn“ aus, sodass er über ähnliche Verständnis- und Ausführungsfähigkeiten verfügt.

Es handelt sich im Wesentlichen um ein VLA-Basismodell, das speziell für Zweiarmroboter entwickelt wurde. Wie der Name schon sagt, ermöglicht die Kombination aus Vision + Language + Action dem Roboter, zu sehen, zu hören, zu verstehen und sich zu bewegen – seine grundlegenden Fähigkeiten.

Sie können dem Roboter beispielsweise die Aufforderung senden: „Bitte falten Sie dieses Kleidungsstück, packen Sie es in den Rucksack und schließen Sie den Reißverschluss.“ Früher musste man dafür Programme schreiben und die Aktionen im Voraus aufschlüsseln. Jetzt kann Gemini On-Device die Bedeutung dieses Befehls direkt verstehen und ihn dann Schritt für Schritt ausführen.

Auch ohne Internetzugang können Roboter endlich die menschliche Kontrolle „loswerden“! Google bringt sein erstes Offline-KI-Gehirn auf den Markt, mit dem man mit nur einem Satz arbeiten kann - 2.gif

Warum also sollte man es lokal ausführen, wenn es auch über das Internet möglich ist? Die Antwort ist nichts anderes als Geschwindigkeit und Stabilität.

Wenn der Roboter Daten in die Cloud überträgt, auf die Analyse durch den Server wartet und anschließend die Ergebnisse zurückgibt, kommt es zwangsläufig zu Verzögerungen. Bei Aufgaben wie medizinischen Operationen, Katastrophenhilfe und Fabrikautomatisierung liegt die Verzögerungstoleranz bei nahezu Null. Zudem sind die Netzwerkbedingungen vielerorts schlecht oder es besteht überhaupt kein Netzwerk.

Tatsächlich war es im Bereich der KI schon immer eine der schwierigsten Aufgaben, Roboter in die Lage zu versetzen, komplexe und dynamische Aufgaben der realen Welt erfolgreich zu bewältigen.

Aus den öffentlichen Videos geht hervor, dass Gemini On-Device bereits eine Vielzahl gängiger Szenarien bewältigen kann, wie z. B. das Falten von Kleidung, das Schließen von Reißverschlüssen, das Greifen unbekannter Gegenstände und deren Ablegen an bestimmten Orten. All dies ist seinem Lernmechanismus zu verdanken.

Auch ohne Internetzugang können Roboter endlich die menschliche Kontrolle „loswerden“! Google bringt sein erstes Offline-KI-Gehirn auf den Markt, mit dem man mit nur einem Satz arbeiten kann - 3 21

▲ Starke Generalisierungsfähigkeit

Es ist keine langwierige Schulung von Grund auf erforderlich. Entwickler müssen lediglich 50 bis 100 manuelle Demonstrationen durchführen, z. B. die persönliche Steuerung des Roboters zum Falten von Kleidung. Das Modell kann dann schnell lernen und selbstständig arbeiten.

Bei anspruchsvolleren verteilten Aufgaben oder der Ausführung komplexer mehrstufiger Anweisungen übertrifft Gemini Robotics On-Device weiterhin andere aktuelle lokale Alternativen.

Auch ohne Internetzugang können Roboter endlich die menschliche Kontrolle „loswerden“! Google bringt sein erstes Offline-KI-Gehirn auf den Markt, mit dem man mit nur einem Satz arbeiten kann - 4 19

Darüber hinaus ist es sehr anpassungsfähig.

Obwohl Gemini Robotics On-Device ursprünglich auf der von Google selbst entwickelten ALOHA-Doppelarm-Roboterplattform trainiert wurde, kann es mit ein paar Anpassungen auch stabil auf dem Industrieroboterarm Franka FR3 laufen.

Sogar der strukturell andere humanoide Roboter Apollo kann reibungslos laufen, wobei sich dasselbe allgemeine Modell durch ein wenig Lernen an völlig unterschiedliche Körperformen gewöhnt.

Auch ohne Internetzugang können Roboter endlich die menschliche Kontrolle „loswerden“! Google bringt sein erstes Offline-KI-Gehirn auf den Markt, mit dem man mit nur einem Satz arbeiten kann - 5 3

Im Idealfall müssen Entwickler die KI nicht für jeden neuen Roboter neu trainieren. Stattdessen trainieren sie nur einmal ein allgemeines Modell und können es dann durch leichtes Transferlernen auf verschiedenen Roboterplattformen einsetzen. Diese Fähigkeit, „ein Modell für mehrere Anwendungen“ einzusetzen, dürfte die Verbreitung und Anwendung der Robotertechnologie beschleunigen.

Obwohl es ideal ist, hat es natürlich auch seine Mängel.

Mit zunehmender Intelligenz und Autonomie der Roboter steigen auch die Sicherheitsanforderungen. Obwohl Gemini On-Device Aktionen ausführen kann, kann es nicht zuverlässig beurteilen, ob die ihm übertragene Aufgabe sicher ist. Daher muss dem Modell ein „Sicherheitsriegel“ hinzugefügt werden.

Auch ohne Internetzugang können Roboter endlich die menschliche Kontrolle „loswerden“! Google bringt sein erstes Offline-KI-Gehirn auf den Markt, mit dem man mit nur einem Satz arbeiten kann - 6 18

DeepMind schlägt vor, dass Entwickler das Modell mit der API-Schnittstelle von Google Gemini Live verbinden, sodass das System zunächst feststellen kann, ob die Anweisung sinnvoll ist, und dann entscheiden kann, ob sie ausgeführt werden soll. Gleichzeitig können auf Aktionsebene physikalische Einschränkungen wie Kraft, Winkel und Geschwindigkeit festgelegt werden, um Unfälle zu vermeiden.

Darüber hinaus besteht bei den mehrstufigen logischen Planungsfunktionen des Modells noch Verbesserungsbedarf.

Aufgaben, die eine logische und sequentielle Abfolge erfordern, wie das Zubereiten von Sandwiches und das Aufräumen des Desktops, sind für die Software noch nicht geeignet. Dies liegt an der zugrunde liegenden Gemini 2.0-Architektur. Mit dem zukünftigen Upgrade auf 2.5 könnte auch dieser Teil der Funktionalität ergänzt werden.

Eine weitere praktische Herausforderung sind Daten.

Obwohl für den Einstieg nur einige Dutzend Demonstrationen erforderlich sind, ist die beste Demonstration die Verwendung realer Daten, die von echten Menschen beim Bedienen des Roboters erfasst werden, und nicht die virtuelle Simulation. Die Trainingsergebnisse mit diesen Daten sind schneller, genauer und stabiler.

Auch ohne Internetzugang können Roboter endlich die menschliche Kontrolle „loswerden“! Google bringt sein erstes Offline-KI-Gehirn auf den Markt, mit dem man mit nur einem Satz arbeiten kann - 8 13

▲Adresse des technischen Berichts: https://arxiv.org/pdf/2503.20020

Laut Projektleiterin Carolina Parada ist dies das erste Mal, dass Google ein Roboter-KI-Modell veröffentlicht, das völlig unabhängig von der Cloud läuft. Zudem ist es die erste Version, die Entwickler nach ihren eigenen Bedürfnissen optimieren können.

DeepMind hat das Gemini Robotics On-Device SDK und den Modellzugriff derzeit für „vertrauenswürdige Tester“ freigegeben. Wenn Sie als Entwickler an Roboterentwicklung, industrieller Automatisierung oder intelligenten Systemforschung arbeiten, können Sie sich jetzt für eine Testversion bewerben.

Fügen Sie den Bewerbungslink an: https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986

#Willkommen beim offiziellen öffentlichen WeChat-Konto von iFanr: iFanr (WeChat-ID: ifanr), wo Ihnen so bald wie möglich weitere spannende Inhalte präsentiert werden.

iFanr | Originallink · Kommentare anzeigen · Sina Weibo