Seien Sie nicht zu begeistert von den KI-Funktionen des Samsung Galaxy S24
„Eine neue Ära der mobilen KI.“ So hypt Samsung seine kommende Smartphone-Reihe der Galaxy-S24-Serie . Für sein Unpacked-Event, das später in diesem Monat stattfindet, verspricht das Unternehmen „ein völlig neues mobiles Erlebnis auf Basis von KI“.
Samsung wird nicht der erste Name sein, der in den KI-Hype eintaucht, der von Unternehmen wie ChatGPT und Midjourney ausgelöst wird. Die beiden Smartphone-Silizium-Schwergewichte Qualcomm und MediaTek haben kürzlich eine große Show über die generativen KI-Fähigkeiten ihrer neuesten Flaggschiff- und Mittelklasse-Prozessoren auf dem Gerät abgehalten.
Der Wandel ist offensichtlich. KI wird das Marketing-Schlagwort für Telefone sein. Aber was genau erwartet uns? Wie diese sogenannten „KI-Fortschritte“ einen sinnvollen Mehrwert schaffen werden, bleibt ein Geheimnis. Oder vielleicht handelt es sich einfach nur um einen vorhandenen Trick, der darauf wartet, unter einem anderen Namen oder einer anderen nativen App neu verpackt zu werden.
Samsung kann die Ware liefern oder spektakulär ins Stocken geraten
Beginnen wir mit den Handys der Galaxy S24-Serie. Sie werden mit dem Snapdragon 8 Gen 3-Chip von Qualcomm ausgeliefert. Der Chiphersteller macht einige kühne Behauptungen über die generativen KI-Fähigkeiten seines neuen Top-Chipsatzes. Beispielsweise soll mithilfe der Stable Diffusion AI-Technologie innerhalb einer Sekunde ein Bild aus Textaufforderungen erstellt werden.
Qualcomm hat eine faszinierende technische Erklärung dafür geliefert, wie es die Stable Diffusion-Technologie für den Betrieb auf dem Gerät optimiert hat. Der Konkurrent MediaTek behauptet außerdem, dass die On-Device-KI-Funktionen seines Flaggschiffs Dimensity 9300 dank Stable Diffusion die Text-zu-Bild-Generierung in weniger als einer Sekunde ermöglichen werden.
Derzeit verfügen wir bereits über ein Telefon mit dem neuesten Flaggschiff von Qualcomm. Bei dem fraglichen Gerät handelt es sich um das iQoo 12 , aber es ist interessant zu sehen, dass in den Marketingmaterialien des Telefons keine generativen KI-Tricks erwähnt werden, insbesondere nicht die Art, die von Qualcomm und MediaTek gehypt wird.
Gehen wir davon aus, dass Samsung diese Funktion zur Text-zu-Bild-Generierung anbieten wird. Was wird es am Ende des Tages bewirken? Derzeit wissen wir nicht, ob der Text-zu-Bild-Trick in einer Drittanbieter-App gebündelt wird oder ob Samsung ihn in eine seiner Apps integrieren wird.
Die eigentliche Frage ist, welchen Mehrwert es für unser alltägliches Smartphone-Nutzungsverhalten bringt. Was macht ein durchschnittlicher Käufer eines Galaxy S24 mit Bildern, die mit einer einzigen Textzeile generiert wurden? Vielleicht werden sie diese KI-generierten Bilder nutzen, um Chats etwas Schwung zu verleihen oder in den sozialen Medien für Aufsehen zu sorgen.
Aber hier gibt es immer noch einige Reibungen. Sie müssen diese Bilder aus einer Textzeile generieren, sie lokal speichern (oder direkt in die Zwischenablage kopieren) und diese KI-Bilder dann in die Chat-App Ihrer Wahl einfügen. Die optimalste Lösung wäre, wenn Samsung den Bild-zu-Text-Generierungstrick irgendwie direkt in die Tastatur integrieren würde.
Noch einmal: Warum sich die ganze Mühe machen, wenn Emojis, GIFs und Sticker den Job erledigen können? Außerdem reicht die Ausgabeauflösung von 512 x 512 Pixeln nicht aus, um diese KI-generierten Bilder in eine Studienaufgabe oder Arbeitspräsentation zu integrieren.
Darüber hinaus wird das System wahrscheinlich nicht kostenlos sein. Im Demonstrationsvideo von MediaTek wird erwähnt, dass eine Premium-Option auf dem Tisch ist. Käufer eines Galaxy S24 stoßen bei Erreichen einer bestimmten Anzahl an Ausgängen möglicherweise auf ein Limit für Text-zu-Bild-Tokens. Danach werden sie entweder auf eine langsamere Geschwindigkeitsstufe für die Bilderzeugung herabgestuft oder zur Zahlung einer Abonnementgebühr aufgefordert.
Aber wenn das die Realität ist, dann ist der ganze Punkt strittig, weil wir bereits Lösungen wie Dall-E von OpenAI haben. Sie können es kostenlos zum Generieren von Bildern erwerben oder für ChatGPT Plus bezahlen, um die Vorteile einer schnelleren und detaillierteren Bildgenerierung mit dem neuesten Dall-E 3-Modell zu genießen. Das ist nur einer der vielen Text-zu-Bild-Generatoren, die es gibt.
Laut Qualcomm ist der Snapdragon 8 Gen 3 der „erste, der multimodale Gen-KI-Modelle unterstützt“. Das bedeutet, dass der Chatbot (basierend auf Metas Llama-Modell), der nativ auf einem Telefon läuft, Eingaben in Form von Text und Bildern sowie Sprache akzeptiert. Auch dies ist nicht einzigartig, da ChatGPT-4 diese Funktion bereits bietet, wenn auch hinter einer Abonnementmauer.
Brauchen wir es wirklich?
Eine der vielversprechendsten Funktionen, die Qualcomm bewirbt, ist die KI-Bilderweiterung. Im Wesentlichen können Sie die Leinwand eines Bildes in jede gewünschte Richtung erweitern, und die generative KI auf dem Gerät generiert auf Grundlage Ihrer Textaufforderung auf intelligente Weise Pixel und fügt dem Originalrahmen weitere Objekte hinzu.
Es ist erstaunlich, diesem Trick beizuwohnen – zu sehen, wie sich ein Bild durch das Hinzufügen weiterer Objekte erweitert und der Horizont sich erweitert, als würde ein Malermeister sein Werk retuschieren. Aber Sie möchten das nicht mit Bildern machen, indem Sie auf einem Telefon darauf klicken, um sie als Erinnerung zu speichern. Die Nutzung der generativen KI-Erweiterung ist, als würde man seine Erinnerungen mit gefälschten Bildern und Szenarien verunreinigen, die man nie wirklich erlebt hat.
Die Zusammenfassung ist eine weitere große Chance für die Bereitstellung generativer KI auf dem Gerät auf Telefonen. Es eignet sich hervorragend, um Nachrichten zu lesen und sich über die neuesten Entwicklungen in verschiedenen Bereichen auf dem Laufenden zu halten. Allerdings würde dieser Trick nur dann auffallen, wenn die Reibung minimal ist. Wenn Benutzer beispielsweise einen Nachrichtenartikel auf derselben Browserseite zusammenfassen können, anstatt eine andere App zu öffnen.
Wenn Letzteres der Fall ist, warum wechseln Sie dann nicht einfach zu einer App, die dies bereits tut? Artifact ist beispielsweise eine atemberaubend gestaltete App von Instagram-Mitbegründer Kevin Systrom , die KI nutzt, um Artikel für Sie zusammenzufassen.
Es gibt bereits Apps und Websites, die Nachrichten in Form zusammengefasster Nuggets bereitstellen, wie zum Beispiel Inshorts. Für Ihren Posteingang ist Shortwave eine hervorragende App , die mehr kann, als nur E-Mail-Ketten ohne zusätzliche Kosten für Sie zusammenzufassen.
Die generative KI auf dem Gerät verspricht auch Tricks wie die sprachbasierte Fotobearbeitung. Es klingt erstaunlich praktisch, aber es ist schwer vorstellbar, wie viel Komfort es unserem Leben bringen wird, wenn Filter und granulare Schieberegler mit einem Tastendruck einen ebenso schnellen und lohnenderen Ablauf zum Bearbeiten von Medien auf Telefonen bieten.
Kommen wir als Nächstes zu der Grundsituation, in der es um den Einsatz von KI geht, nur um ein paar generische Chats in Gang zu bringen oder Antworten zu erhalten, die andernfalls eine Recherche im Internet erfordern würden. Wieder einmal werden wir auf qualitative Probleme stoßen.
Die generativen KI-Modelle, die nativ auf Telefonen laufen – wie Metas Llama – sind aufgrund der grundsätzlichen Verfügbarkeit von Ressourcen nicht die fortschrittlichsten ihrer Art. Suchen Sie nicht weiter als bei Google. Auf dem Pixel 8 Pro läuft nur das kleinste der großen Sprachmodelle von Google namens Gemini Nano . Warum nicht über deren spezielle mobile Apps auf etwas wie ChatGPT oder Pi umsteigen, anstatt sich mit einem weniger leistungsfähigen Sprachmodell zufrieden zu geben?
Wo generative KI wirklich sein muss
Im Moment sehe ich, dass die generative KI ihr Bestes gibt, indem sie Smartphone-Aufgaben von der Cloud (und der Anforderung, ständig online sein zu müssen) entkoppelt und eine zusätzliche Prise Sicherheit bietet. Aber um das zu erreichen, müssen diese KI-Tricks auf dem Gerät gleichzeitig als Assistent fungieren, ähnlich wie Google Assistant, Alexa oder Siri.
Oder noch besser: Sie müssen Teil des Assistenten werden. Sagen Sie Ihrem generativen KI-Assistenten, er soll alle Katzenbilder aus Ihrer Bibliothek abholen, sie zu einer Collage verweben und sie an Ihren Vater senden. Oder bitten Sie ihn, die beste Reiseroute für einen Tagesausflug nach Disneyland zu planen, das günstigste Ticket für das nächste Wochenende zu finden und alle diese Details übersichtlich in Google Kalender zu ordnen.
Wenn darüber hinaus ein generatives KI-Tool auf dem Gerät Ihre Daten nicht mehr an die Cloud-Server weiterleitet und alle Vorgänge lokal auf Ihrem Smartphone abläuft, besteht kein Grund zur Sorge um den Datenschutz. Zumindest theoretisch. Im Moment bin ich mir nicht sicher, welche Galaxy-KI-Vision Samsung verkauft, aber es wäre interessant zu sehen, ob Samsung wirklich sinnvolle generative KI-Erlebnisse bieten kann oder nur ein paar kaum praktische, trickreiche Tricks.