Ich habe den Weltverständnis-Avatar von Gemini Live getestet. Es war schockierend

Es ist etwas beunruhigend zu hören, wie eine KI in einem unheimlich freundlichen Ton spricht und mich auffordert, die Unordnung auf meinem Arbeitsplatz zu beseitigen. Ich bin einigermaßen stolz darauf, aber ich schätze, es ist an der Zeit, die zufällig verstreuten Geräte zu stapeln und das Kabelchaos aufzuräumen.

Meine Schwester würde auch zustimmen. Aber erst dann in Aktion zu treten, wenn eine KI meinen Tisch „sieht“, das Durcheinander erkennt und Hausfrauen Ratschläge gibt, ist das größere Ganze. Der Gemini AI-Chatbot von Google kann das jetzt. Und noch viel mehr.

Das Geheimnis hier ist ein aktuelles Feature-Update namens Project Astra . Es befindet sich seit Jahren in der Entwicklung und wurde Anfang dieses Monats endlich eingeführt . Die übergeordnete Idee besteht darin, eine alles sehende, alles hörende und offenkundig intelligente KI auf Ihrem Telefon bereitzustellen.

Google vermarktet diese Superkräfte unter einem eher uninspirierten Namen: Gemini Live mit Kamera- und Bildschirmfreigabe. Das Unternehmen wurde in der DeepMind-Abteilung des Unternehmens entwickelt und begann seine Entwicklung als „universeller KI-Assistent“. Schade, dass der endgültige Name nicht so ehrgeizig ist.

Beginnen wir mit der Zugriffssituation. Die Funktion ist jetzt für Benutzer von Pixel 9 und Galaxy S25 verfügbar. Wenn Sie jedoch ein Android-Telefon mit einem dazugehörigen Gemini Advanced-Abonnement haben, können Sie auf das neue Toolkit zugreifen.

Das wären übrigens 20 $ pro Monat. Ich habe es auf den beiden oben genannten Telefonen ausprobiert und jetzt ist es auch auf meinem OnePlus 13 einsatzbereit. Der schönste Teil? Sie müssen keine technischen Hürden überwinden, um darauf zuzugreifen.

Eine Kombination aus Ein-/Aus-/Lautstärketaste oder Wischen über die Bildschirmecke, um Zwillinge herbeizurufen, ist alles, was Sie brauchen. Unabhängig davon, welche App Sie ausführen, können Sie in jeder Ecke des Betriebssystems als Overlay auf die neue Kamera und die Bildschirmfreigabefunktionen zugreifen.

Die Welt um dich herum verstehen

Ich richtete zunächst die Kamera auf ein Gemälde und fragte danach. Gemini Live konnte es genau als Gemälde im Madhubani-Stil erkennen und den kühnen Einsatz von Farben und die Darstellung von Tieren entschlüsseln.

Anschließend gab es mir eine kurze Geschichtsstunde und die Variationen, die sich im Laufe der Jahre entwickelt haben. Die Informationen waren bis auf die kleinste Detailebene korrekt. Zum Glück können Sie sich auch für ein textbasiertes Hin und Her mit Gemini entscheiden, wenn Sie sich an einem Ort befinden, an dem Sprachgespräche umständlich sein könnten.

Was mir am neuen Kamera- und Bildschirmfreigabe-Avatar von Gemini Live am besten gefällt, ist, dass er nicht übermäßig gesprächig ist. Sie können es jederzeit unterbrechen, was den „natürlichen“ Reiz der Gespräche nur noch erhöht.

Ich habe Gemini in verschiedenen Szenarien ausprobiert. Ich war nicht darauf vorbereitet.

Die Antworten, die es liefert, sind in der Regel prägnant, als wollte es Ihnen die Chance (oder sogar einen Anstoß) geben, eine Folgefrage zu stellen, anstatt eine überwältigend lange Antwort zu geben. Es zeichnet sich durch eine ganze Reihe von Themen und visuellen Szenarien aus, es gibt jedoch einige Fallstricke.

Google Lens kann noch nicht verwendet werden, was bedeutet, dass Gemini die Bilder, die es auf dem Bildschirm Ihres Telefons sieht, nicht mit passenden Ergebnissen im Web vergleichen kann. Darüber hinaus kann es nicht in Echtzeit auf Informationen zugreifen, wenn Sie Gemini bitten, die neuesten Entwicklungen zu einem Thema oder einer Persönlichkeit nachzuschlagen.

Ich erkundigte mich nach Pflanzenarten, Restauranteinträgen, dem Sammeln von Daten aus schwarzen Brettern und dem Verständnis meiner ärztlichen Verschreibung für einen kürzlichen Grippeanfall. Gemini schnitt ziemlich gut ab, besser als ich es jemals zuvor bei der Leistung des KI-Chatbots erlebt habe.

Eine Wissensdatenbank freischalten

Als nächstes habe ich Gemini dazu gedrängt, komplexes akademisches Material zu verstehen. Ich habe ein Buch über maschinelles Lernen in den Kamerarahmen gelegt. Gemini Live hat es nicht nur erkannt, sondern mir auch einen Überblick über den Inhalt des Buches und seine Kernthemen gegeben.

Neugierig begann ich durch die Seiten zu blättern und landete auf der Kapitelliste. Die KI erkannte den Fortschritt, hörte auf zu reden und fragte mich, ob mich ein bestimmtes Kapitel interessierte, während ich mir jetzt die Themenliste ansah.

In diesem Moment war ich völlig überrascht.

Ich habe es gebeten, ein paar komplexe Themen aufzuschlüsseln, und die KI hat einen respektablen Job gemacht, indem sie sogar über den Rahmen des On-Page-Materials hinausgegangen ist und Informationen aus ihrer umfangreichen Wissensbank gezogen hat.

Als ich zum Beispiel nach dem Inhalt der Einleitungsseite zu Bhisham Sahnis bahnbrechendem Roman „Tamas“ fragte, hat die KI die Erwähnung des Sahitya Akademi Award richtig aufgegriffen. Anschließend wurden Details erwähnt, die nicht einmal auf der Seite aufgeführt waren, beispielsweise das Jahr, in dem es mit der prestigeträchtigen Literaturauszeichnung ausgezeichnet wurde, und worum es in dem Buch geht.

Auf der anderen Seite war die Wiedergabe der Hindi-Sprache durch Gemini Live schrecklich. Es lag nicht nur am schlechten Akzent, sondern auch an der Tatsache, dass Zwillinge wiederholt reines Kauderwelsch und Nicht-Wörter von sich gaben. Beim Versuch, Urdu, Persisch und Arabisch zu lesen, schnitt es erheblich besser ab, verwechselte jedoch häufig Wörter aus zufälligen Zeilen.

Bei meinem ersten Versuch mit Urdu-Gedichten erkannte es nicht nur den Urdu-Text, sondern lieferte auch eine genaue Zusammenfassung des Gedichts. Die größte Herausforderung war wieder einmal die Erzählung. Eine anglisierte Version des Urdu zu hören tat mir wirklich in den Ohren weh.

Hervorragend an überraschenden Stellen

KI ist ein fantastisches Werkzeug zur Problemlösung, und es gibt zahlreiche Benchmarks, die dies belegen. Ich habe es anhand physikalischer Probleme getestet, die sich mit Thermodynamik, elektrochemischen Gleichungen und statistischen Problemen befassen, die in einem handgeschriebenen Notizbuch auftauchen. Gemini Live hat bei solchen Aufgaben fantastische Arbeit geleistet.

Auch bei kreativen Aufgaben war es hervorragend. Meine Schwester, die Modedesignerin ist, präsentierte eine ihrer Skizzen im Kamerablick und bat um Feedback und Verbesserungen. Gemini Live lobte zunächst das Design, zog Parallelen zur Designideologie einiger Modemarken und gab einige Empfehlungen.

Als ich sie weiter anspornte, beriet die KI meine Schwester auch über die besten Werkzeuge, um handgezeichnete Skizzen in digitale Konzepte umzuwandeln. Diesen Hinweisen folgte das Unternehmen, indem es hilfreiche Informationen zum Software-Stack bereitstellte und wo man Lernmaterial finden konnte.

Als ich ein paar Duracell-Batterien in die Kameraansicht legte, wurden sie nicht nur genau erkannt, sondern mir auch die hyperlokalen E-Commerce-Plattformen angezeigt, die sie mir innerhalb von Minuten liefern können.

Die Dienste – Blinkit und Swiggy Instamart genannt – sind nur in Indien verfügbar und größtenteils städtischen Gebieten vorbehalten. Selbst in einem schwach beleuchteten Raum konnte es beim ersten Versuch ein Paar kabelgebundener Ohrhörer identifizieren.

Situationsbewusstsein ist seine Stärke.

Im Vergleich zu Ihrem üblichen Gemini-Chat oder dem, was Sie im Abschnitt „KI-Übersichten“ der Google-Suche finden, verfolgen die Gemini Live-Konversationen einen vorsichtigeren Ansatz bei der Weitergabe von Wissen, insbesondere wenn es sensibler Natur ist. Mir ist aufgefallen, dass Themen wie Ernährungsempfehlungen und medizinische Behandlung immer vorsichtiger behandelt werden und Benutzer oft dazu gedrängt werden, die richtige Expertenressource zu finden.

Ein paar bekannte Fallstricke

Mein überwältigendes Fazit ist, dass Geminis „Project Astra“-Neugestaltung mächtig beeindruckend ist. Es ist ein Blick in die Zukunft dessen, was Smartphones leisten können. Mit ein paar Verbesserungen, Integrationen und App-übergreifenden Workflows kann die Google-Suche wie ein veraltetes Relikt wirken. Aber im Moment gibt es ein paar eklatante Mängel.

Bei einigen Gelegenheiten ist mir tatsächlich aufgefallen, dass das Speichersystem durcheinander geraten ist. Als die KI aufgefordert wurde, ein Fitnessband in der Kameraansicht zu identifizieren, erkannte sie es korrekt als Samsung Galaxy Fit 3 . Aber als ich eine Folgefrage stellte, wurde das Gerät fälschlicherweise als Fitnessband von Huawei wahrgenommen.

Es kann auch offensichtlich lügen. Und ganz zuversichtlich, würde ich sagen. Als ich ihm beispielsweise sagte, er solle meine Bewertung des tragbaren Geräts zusammenfassen, antwortete die KI, dass Digital Trends es noch nicht überprüft habe. In Wirklichkeit wurde der Artikel vor einer Woche veröffentlicht.

Als nächstes habe ich es gebeten, einige Artikel auf meiner Autorenseite durchzugehen, nachdem ich die Bildschirmfreigabe aktiviert hatte. Zwillinge leisteten gute Arbeit bei der Erklärung der Geschichten, stolperten jedoch gelegentlich über das Verständnis des Kontexts. Beispielsweise wurde fälschlicherweise erwähnt, dass nur Intel und AMD NPUs herstellen können, die sich für das Copilot+-Abzeichen qualifizieren.

In dem Artikel wird hingegen deutlich erwähnt, dass Qualcomm vor der Konkurrenz als erstes Unternehmen diese Kriterien erfüllt hat. Und dass AMD und Intel erst Ende letzten Jahres mit einem neuen Prozessorportfolio endlich auf die gleiche Stufe rücken und die KI-Chip-Basislinie erreichen konnten.

Mitten im Gespräch über einen Artikel stieß ich erneut auf ein Gedächtnisproblem. Anstatt die besprochene Geschichte zusammenzufassen, wurde wieder über den ersten Artikel gesprochen, den es über die Bildschirmfreigabe sah. Als ich es mitten in der Erzählung unterbrach, korrigierte Gemini den Fehler.

Ein weiteres Problem, das mir bei der Erzählung nicht-englischer Sprachen aufgefallen ist, ist, dass Gemini Live mitten in der Erzählung zufällig die Stimme und das Tempo änderte. Es war ziemlich irritierend und die Aussprache war völlig mechanisch und unterschied sich deutlich von den menschenähnlichen englischen Konversationskenntnissen.

Die Probleme der maschinellen Bildverarbeitung sind auch bei stilistischen Schriftarten offensichtlich. In einigen Fällen spuckte es selbstbewusst falsche Informationen aus, und als die KI aufgefordert wurde, sich selbst zu korrigieren, äußerte sie ihre Unfähigkeit, die neuesten Informationen zu diesem Thema zu finden. Solche Szenarien sind selten, aber die Gemini-Fehler bleiben bestehen.

Zusammenfassend halte ich Gemini Live mit Kamera- und Bildschirmfreigabe für einen der größten Fortschritte, die die KI bisher gemacht hat. Es handelt sich bisher um eine der praktisch lohnendsten Implementierungen generativer KI. Alles, was es braucht, ist eine Prise Vielfalt und eine Lösung für sein „selbstbewusstes Lügner“-Syndrom.

Die Dinge sind jetzt definitiv auf dem richtigen Weg, und das mit überwältigender Mehrheit, aber es sind noch ein paar entscheidende Meilensteine ​​davon entfernt, der perfekte KI-Begleiter techno-futuristischer Träume zu sein.