Googles geheime App bietet einen Einblick, wie KI am besten auf einem Telefon eingesetzt wird

September 19, 2025 Eskere Guru

Die Zukunft der KI für Smartphones liegt auf dem Gerät. Oder machen Sie so viele KI-Prozesse wie möglich lokal. Warum? Nun, Sie brauchen keine Internetverbindung, um die Arbeit zu erledigen. Egal, ob Sie einen Chatbot bitten, Korrektur zu lesen und Grammatikfehler zu korrigieren, eine kurze Recherche durchzuführen, Bilder zu bearbeiten oder die Welt um Sie herum durch die Kamera zu erklären.

Zweitens müssen keine Ihrer persönlichen Daten das Gerät verlassen und auf einem Remote-Server verarbeitet werden. Und drittens wird es schneller. Je kleiner ein Modell wird, desto schneller kann es Ergebnisse liefern. Es ist ein Geben und Nehmen. Ein leichtes KI-Modell bedeutet, dass seine Fähigkeiten begrenzt sind.

Größere KI-Modelle wie Gemini oder ChatGPT können Text, Bilder und Audio verstehen und sogar Videos generieren. Diese Modelle sind zwar groß, benötigen aber enorme Rechenleistung auf speziellen Chips. Kurz gesagt: Sie benötigen dafür eine Internetverbindung. Doch es braut sich etwas ziemlich Cooles zusammen, und dieses Etwas kommt von Google.

Worum geht es bei dieser KI-App?

Vor einigen Monaten stellte das Unternehmen eine App namens Google AI Edge Gallery vor. Nachdem sie eine Weile auf GitHub verweilte, fand sie nun endlich ihren Weg in den Play Store . Idealerweise ist sie eine App für Entwickler, die KI-Erlebnisse in ihre Apps integrieren möchten, aber Sie können sie ruhig ausprobieren.

Stellen Sie es sich wie einen Marktplatz oder ein Geschäft vor. Anstatt Apps zu suchen, können Sie KI-Modelle auswählen, die auf Ihrem Telefon ausgeführt werden sollen. Wenn Sie heute ein Android-Telefon wie das Pixel 10 Pro kaufen, basieren alle KI-Funktionen auf Gemini. Sie können Apps wie ChatGPT oder Claude separat herunterladen, aber alle benötigen eine Internetverbindung und senden Ihre Daten an Server.

Die Google AI Edge Gallery wurde speziell für die Offline-Ausführung von KI-Modellen entwickelt. Wenn Sie also ein Bild interpretieren oder einen langen Bericht zusammenfassen möchten, können Sie dies alles offline tun. Und das Beste daran: Sie können dies mit jedem KI-Modell Ihrer Wahl tun, ohne eine spezielle App dafür installieren zu müssen.

Kurz gesagt: Diese App ist eine zentrale Anlaufstelle für KI-Erlebnisse – völlig kostenlos und ohne Internetverbindung. Warum sollte man das tun? Nun, mir fallen da einige Situationen ein.

Wie ist diese App nützlich?

Angenommen, Sie erreichen Ihr Datenvolumen, befinden sich an einem Ort mit eingeschränkter oder gar keiner Internetverbindung oder möchten einer Online-KI einfach keine vertraulichen Berichte übermitteln. Vielleicht wünschen Sie sich eine spezialisierte KI, die nur eine bestimmte Aufgabe übernimmt, wie z. B. das Umwandeln einer PDF-Datei in eine einseitige Übersicht mit Aufzählungszeichen. Oder Sie geben Bilder ein und lassen eine KI darauf basierend wissenschaftliche Texte verfassen.

Für all diese und weitere Szenarien können Sie einfach die Google AI Edge Gallery nutzen, das KI-Modell Ihrer Wahl ausführen und Ihre Aufgaben erledigen. Alle benötigten „kompatiblen“ Modelle können Sie derzeit aus der HuggingFace LiteRT Community -Bibliothek herunterladen.

Hier finden Sie einige leistungsstarke KI-Modelle der Gemma-Reihe von Google. Diese verfügen über multimodale Funktionen, d. h. sie können Text, Bilder und Audio generieren. Sie können jedoch auch mit anderen KI-Modellen experimentieren, beispielsweise mit DeepSeek, SmolVLM, Microsofts Phi-4 Mini und Metas Llama.

Lassen Sie mich nun einen kurzen technischen Überblick geben. Alle für die Google AI Edge Gallery verfügbaren KI-Modelle sind für die Hochleistungs-Laufzeitumgebung LiteRT optimiert, die speziell auf geräteinterne KI-Aufgaben zugeschnitten ist. Wie die oben genannten KI-Modelle ist auch LiteRT eine Open-Source-Laufzeitumgebung für große Sprachmodelle (LLMs).

Wenn Sie mit Tools wie TensorFlow oder PyTorch vertraut sind, können Sie sogar jedes passende „kompakte“ KI-Modell von Ihrem PC importieren. Zunächst müssen Sie die Dateien jedoch in das Dateiformat .litertlm oder .task konvertieren. Dort angekommen, müssen Sie das Paket einfach in den Download-Ordner Ihres Telefons verschieben und es mit wenigen Fingertipps in die Google AI Edge-Galerie importieren.

Wie ist die Erfahrung?

Ich habe hauptsächlich mit dem Gemma 3n-Modell experimentiert, da dieses das vielseitigste von allen ist. Neben Chats kann es auch Bilder verarbeiten und Audio generieren. Sie können wählen, ob ein Modell auf CPU oder GPU läuft, die Abtastrate und die Temperatur anpassen.

Letzteres ist, vereinfacht ausgedrückt, ein Maß dafür, wie vielfältig die Antworten einer KI sein können. Niedrigere Temperaturen führen zu vorhersehbareren, eindeutigeren und etwas repetitiveren Ergebnissen. Höhere Temperaturen führen grundsätzlich zu präziseren Antworten, erfordern jedoch zusätzlichen kreativen Input und ein höheres Fehlerrisiko.

Sie müssen mit diesen Feldern nicht unbedingt zu viel experimentieren. Experimentieren Sie einfach, wie gut ein KI-Modell hinsichtlich der Reaktionsrate auf CPU oder GPU läuft, und behalten Sie es entsprechend bei. Ich habe mit etwa neun Modellen experimentiert, und die Ergebnisse waren gemischt.

Beginnen wir mit den Unterschieden. Ich habe ein Bild meiner Katze geteilt und Gemini gebeten, die Art zu bestimmen. Das hat es in drei Sekunden geschafft. Als die gleiche Abfrage vor Gemma 3n gestellt wurde, dauerte es 11 Sekunden. Die Antwort war korrekt, aber etwas kurz. Wenn Sie präzise Antworten bevorzugen, könnte Ihnen dieser Ansatz sogar gefallen. Gelegentlich können Fehler auftreten, insbesondere bei multimodalen Abfragen. Daher empfiehlt es sich, den Beschleuniger (CPU und GPU) zu ändern und zu prüfen, ob dies die Arbeit beschleunigt.

Auch die Textverarbeitung kann etwas langsam sein. Als ich einen Artikel mit etwa 900 Wörtern einreichte und AliBabas Qwen 2.5-Modell bat, ihn in Stichpunkten zusammenzufassen, dauerte es nur etwa 20 Sekunden, bis es losging. Microsofts Phi-4 mini war zwar deutlich schneller, aber die durchdachte Formatierung von Qwen 2.5 gefiel mir besser.

Das Modell Gemma 3n-E2B war bei dieser Aufgabe am schnellsten und lieferte in weniger als acht Sekunden auch die höchste Antwortqualität. Das leistungsstärkere Modell Gemma-3n-E4B konnte den Ton desselben Artikels bei Ausführung auf der CPU in etwa sieben Sekunden neu formatieren und formalisieren.

Die Audiotranskription ist zwar auf 30-Sekunden-Clips beschränkt, aber einfach fantastisch. Googles Gemma 3n-E2B-Modell machte keinen einzigen Fehler und fasste den transkribierten Audioclip hervorragend zusammen. Und das alles in weniger als 10 Sekunden.

Nicht alle Modelle funktionieren gut mit GPU-Beschleunigung, daher müssen sie über die CPU laufen. Gemma3-1B blieb minutenlang bei der Verarbeitung hängen. Der Versuch, das Beschleunigungsformat zu ändern, stürzte die App ab, insbesondere bei Qwen und Phi-4 mini. Positiv ist, dass Phi-4 mini bei bestimmten Artikelformatierungsaufgaben auf der CPU fast so schnell war wie Gemma.

Ein Blick in die Zukunft

Diese App läuft nicht auf allen Smartphones. Sie benötigt mindestens einen Prozessor mit leistungsstarker NPU oder einen KI-Beschleunigerchip und vorzugsweise 8 GB oder mehr RAM. Ich habe meine Tests auf dem Google Pixel 10 Pro durchgeführt, und es wurde nicht heiß. Außerdem benötigen Sie technisches Wissen, wenn Sie KI-Modelle ausführen möchten, die derzeit nicht in der LiteRT-Galerie verfügbar sind.

Insgesamt ist Googles AI Edge Gallery-App kein wirklicher Ersatz für Gemini oder andere internetfähige Chatbot-Anwendungen auf Ihrem Smartphone. Zumindest noch nicht. Aber sie ist ein Zeichen für die Zukunft. Ein Beispiel dafür ist die HuggingSnap-App , die auf einem Open-Source-Modell basiert, vollständig offline läuft, aber Visual Intelligence- Funktionen auf einem iPhone ermöglicht.

Da mobile Prozessoren auf Hardwareebene immer KI-freundlicher werden und wir mehr KI-Modelle erhalten, die für Aufgaben auf dem Gerät optimiert sind, könnten Apps wie die Google AI Gallery tatsächlich als zentrale Anlaufstelle für nützliche KI-Aufgaben dienen. Eine privatere Anlaufstelle, die vollständig online läuft und für die keine Gebühren anfallen.