Die HuggingSnap-App bietet Apples bestes KI-Tool mit einer praktischen Wendung
Die Plattform für maschinelles Lernen, Hugging Face, hat eine iOS-App veröffentlicht, die die Welt um Sie herum, wie sie von der Kamera Ihres iPhones gesehen wird, verstehen kann. Richten Sie es einfach auf eine Szene oder klicken Sie auf ein Bild, und es wird eine KI eingesetzt, um es zu beschreiben, Objekte zu identifizieren, Übersetzungen durchzuführen oder textbasierte Details abzurufen.
Die App mit dem Namen HuggingSnap verfolgt einen Multi-Modell-Ansatz, um die Szene um Sie herum als Eingabe zu verstehen, und ist jetzt kostenlos im App Store erhältlich. Es basiert auf SmolVLM2, einem offenen KI-Modell, das Text, Bilder und Videos als Eingabeformate verarbeiten kann.
Das übergeordnete Ziel der App besteht darin, den Menschen die Möglichkeit zu geben, etwas über die Objekte und Landschaften um sie herum zu lernen, einschließlich der Erkennung von Pflanzen und Tieren. Die Idee unterscheidet sich nicht allzu sehr von Visual Intelligence auf iPhones , aber HuggingSnap hat seinem Apple-Konkurrenten einen entscheidenden Vorsprung.
Es ist kein Internet erforderlich, um zu funktionieren
Alles, was Sie dazu brauchen, ist ein iPhone mit iOS 18 und schon kann es losgehen. Die Benutzeroberfläche von HuggingSnap unterscheidet sich nicht allzu sehr von der Benutzeroberfläche von Visual Intelligence. Aber hier gibt es einen grundlegenden Unterschied.
Damit Visual Intelligence funktioniert, verlässt sich Apple auf ChatGPT . Denn Siri ist derzeit nicht in der Lage, wie ein generatives KI-Tool wie ChatGPT oder Googles Gemini zu agieren, die beide über eine eigene Wissensdatenbank verfügen. Stattdessen werden alle derartigen Benutzeranfragen und -anfragen an ChatGPT verlagert.
Dafür ist eine Internetverbindung erforderlich, da ChatGPT nicht im Offline-Modus funktionieren kann. HuggingSnap hingegen funktioniert einwandfrei. Darüber hinaus bedeutet ein Offline-Ansatz, dass keine Benutzerdaten jemals Ihr Telefon verlassen, was aus Sicht des Datenschutzes immer eine willkommene Abwechslung ist.
Was können Sie mit HuggingSnap machen?

HuggingSnap basiert auf dem von Hugging Face entwickelten SmolVLM2-Modell . Was kann dieses Modell, das hinter dieser App steckt, also erreichen? Nun ja, eine ganze Menge. Neben der Beantwortung von Fragen basierend auf dem, was die Kamera eines iPhones sieht, kann es auch Bilder verarbeiten, die aus der Galerie Ihres Telefons ausgewählt wurden.
Zeigen Sie ihm beispielsweise ein Bild eines historischen Denkmals und bitten Sie ihn, Ihnen Reisevorschläge zu machen. Es kann den Inhalt einer Grafik verstehen oder das Bild einer Stromrechnung verstehen und Fragen basierend auf den Details beantworten, die es dem Dokument entnommen hat.
Es verfügt über eine leichte Architektur und eignet sich besonders gut für KI-Anwendungen auf Geräten. Bei Benchmarks schneidet es besser ab als Googles konkurrierendes offenes PaliGemma (3B)-Modell und liegt auf Augenhöhe mit Alibabas konkurrierendem Qwen AI-Modell mit Vision-Funktionen.

Der größte Vorteil besteht darin, dass die Ausführung weniger Systemressourcen erfordert, was insbesondere im Zusammenhang mit Smartphones wichtig ist. Interessanterweise verwendet auch der beliebte VLC-Mediaplayer dasselbe SmolVLM2-Modell, um Videobeschreibungen bereitzustellen, sodass Benutzer ein Video mithilfe von Eingabeaufforderungen in natürlicher Sprache durchsuchen können.
Es kann auch die wichtigsten Highlight-Momente aus einem Video intelligent extrahieren. „SmolVLM ist auf Effizienz ausgelegt und kann Fragen zu Bildern beantworten, visuelle Inhalte beschreiben, auf mehreren Bildern basierende Geschichten erstellen oder als reines Sprachmodell ohne visuelle Eingaben funktionieren“, heißt es im GitHub-Repository der App.