Qualcomm möchte diese verrückten KI-Tools zu Ihrem Android-Telefon hinzufügen
Auf dem Mobile World Congress 2024 erweitert Qualcomm sein Portfolio an KI-on-Phone-Tricks, die durch die Chips der Snapdragon-Serie für Android-Telefone ermöglicht werden. Der Chiphersteller hat bereits einige beeindruckende KI-Funktionen für das Flaggschiff Snapdragon 8 Gen 3 vorgestellt, wie etwa sprachaktivierte Medienbearbeitung, Bilderzeugung auf dem Gerät mit Stable Diffusion und einen intelligenteren virtuellen Assistenten, der auf großen Sprachmodellen von Unternehmen wie Meta basiert.
Heute verleiht das Unternehmen diesen KI-Supermächten noch mehr Glanz. Die erste Möglichkeit besteht darin, einen Large Language and Vision Assistant (LLaVa) auf einem Smartphone auszuführen. Stellen Sie es sich als einen Chatbot wie ChatGPT vor, dem Google Lens-Fähigkeiten verliehen wurden . Somit kann die Lösung von Qualcomm nicht nur Texteingaben akzeptieren, sondern auch Bilder verarbeiten.
Sie können beispielsweise ein Bild, das ein Wurstbrett zeigt, pushen und darauf basierende Fragen stellen. Der KI-Assistent, der auf einem großen multimodalen Modell (LMM) basiert, das über 7 Milliarden Parameter verarbeiten kann, teilt Ihnen dann alle Arten von Obst, Käse, Fleisch und Nüssen auf der Tafel mit, die im Eingabebild unten dargestellt ist.
Es kann auch Folgeanfragen verarbeiten, sodass Sie ein fließendes Hin- und Hergespräch führen können. Mittlerweile verfügen auch ChatGPT über mehrmodale Fähigkeiten, was bedeutet, dass das Tool von OpenAI auch Bildeingaben verarbeiten kann. Es gibt jedoch einen entscheidenden Unterschied.
Produkte wie ChatGPT und Copilot sind immer noch stark an eine Cloud-basierte Architektur gebunden, was bedeutet, dass Ihre Daten auf Remote-Servern verwaltet werden. Der Vorstoß von Qualcomm geht in Richtung Verarbeitung auf dem Gerät. Alles geschieht auf Ihrem Telefon, was bedeutet, dass der gesamte Vorgang schneller ist und das Risiko einer Verletzung der Privatsphäre gering ist.
„Dieses LMM läuft mit einer reaktionsschnellen Token-Rate auf dem Gerät, was zu mehr Privatsphäre, Zuverlässigkeit, Personalisierung und Kosten führt“, sagt Qualcomm. Ob der versprochene LLaVa-basierte virtuelle Assistent von Qualcomm als eigenständige App erhältlich sein wird oder kostenpflichtig sein wird, muss noch offiziell bestätigt werden.
Die nächste Ankündigung von Qualcomm befasst sich mit dem kreativen Bereich der Bilderzeugung und -manipulation. Vor nicht allzu langer Zeit demonstrierte Qualcomm die weltweit schnellste Text-zu-Bild-Generierung auf einem Telefon mithilfe der Stable Diffusion-Technologie. Heute gibt das Unternehmen einen ersten Einblick in die LoRA-gesteuerte Bildgenerierung.
LoRA verfolgt bei der Bildgenerierung einen anderen Ansatz als ein reguläres generatives KI-Tool wie Dall.E. LoRA, kurz für Low-Rank Adaptation, ist eine von Microsoft entwickelte Technik. Das Training eines KI-Modells kann recht kostspielig sein, eine hohe Latenz aufweisen und aus Hardware-Sicht besonders anspruchsvoll sein.
Was LoRA bewirkt, ist eine drastische Reduzierung des Modellgewichts. Dieses Ziel wird dadurch erreicht, dass man sich nur auf bestimmte Segmente des Modells konzentriert und die Anzahl der Parameter für Trainingszwecke reduziert. Dadurch sinkt der Speicherbedarf, der Prozess wird schneller und auch der Zeit- und Arbeitsaufwand für die Anpassung eines Text-zu-Bild-Modells sinkt drastisch.
Im Laufe der Zeit wurde die LoRA-Destillationstechnik auf das Stable Diffusion-Modell angewendet, um Bilder aus Textaufforderungen zu generieren. Aufgrund der Effizienzgewinne und der einfacheren Anpassbarkeit von LoRA-basierten Modellen gilt es als maßgeschneiderter Weg für Smartphones. Qualcomm ist dieser Meinung, und selbst der Konkurrent MediaTek hat die gleiche Lösung für generative KI-Tricks auf seinem Flaggschiff -Chip Dimensity 9300 übernommen.
Qualcomm stellt auf dem MWC 2024 noch einige weitere KI-Tricks vor, von denen einige bereits auf dem Samsung Galaxy S24 Ultra zum Einsatz kamen . Dazu gehört die Möglichkeit, die Leinwand eines Bildes mithilfe generativer KI-Füllung und KI-gestützter Videogenerierung zu erweitern. Letzteres ist ziemlich ehrgeizig, insbesondere nachdem man gesehen hat, was OpenAI mit Sora erreicht hat. Es wäre interessant zu sehen, wie Qualcomm es schafft, es auf Smartphones zu übertragen.