Apples größtes Update dieses Jahr steht vor der Tür und die ultimative Form der KI Siri ist mehr Science-Fiction als GPT-4o Vorschau
Siri ist ins Hintertreffen geraten.
Laut dem New York Report dachten sich Apple-Softwarechef Craig Federighi und John Giannandrea, Manager für maschinelles Lernen, dies, nachdem sie letztes Jahr wochenlang ChatGPT getestet hatten, und beschlossen, dem 13-jährigen Sprachassistenten eine umfassende Überarbeitung zu verpassen.
Weniger als einen halben Monat vor der WWDC-Entwicklerkonferenz brachte Technologiereporter Mark Gurman die neuesten Nachrichten über die KI-Version von Siri. Es scheint, dass dieser Sprachassistent, der immer als „künstlich zurückgeblieben“ beklagt wird, tatsächlich Einzug halten wird ein großer Durchbruch.
Die schlechte Nachricht: Einige der größten Features werden dieses Jahr möglicherweise nicht verfügbar sein.
Trotzdem sagte Mark Gurman, dass Apple iOS 18 immer noch als das wichtigste Upgrade in der Geschichte ansieht. Apple WWDC24 findet am 11. Juni um 1 Uhr morgens Pekinger Zeit statt. APPSO bringt Ihnen die neuesten Berichte im Apple Park, also bleiben Sie auf dem Laufenden.
Die lang erwartete, aber vielversprechende Funktion „Steuerungs-Apps“.
Berichten zufolge wird Siri mit der Unterstützung von KI in der Lage sein, Anwendungen weiter zu „steuern“ und eine präzise Steuerung der Anwendungsfunktionen zu erreichen.
Bitten Sie Siri beispielsweise, Dateien von einem Ordner in einen anderen zu verschieben, oder bitten Sie Siri, einen bestimmten Nachrichtenartikel zu öffnen, oder bitten Sie Siri sogar, eine Zusammenfassung des Artikels zu geben.
Obwohl Sie Siri jetzt zum Versenden von Textnachrichten und sogar WeChat verwenden können, wird Siri auf der Grundlage einer KI-Überarbeitung noch weiter gehen und in der Lage sein, zu analysieren, wie Menschen ihre Geräte verwenden, und immer mehr automatische Vorgänge zu erlernen. Apple plant, „Hunderte“ von Befehlen in den von ihm entwickelten Apps zu unterstützen.
▲ Die Siri-Funktion zum Senden von WeChat wurde in iOS 10 implementiert
Es klingt wirklich gut, aber Gurman sagte, dass diese Funktion zunächst auf von Apple entwickelte Apps beschränkt sein wird und nicht in diesem Jahr eingeführt werden muss. Möglicherweise muss sie frühestens bis zum nächsten Update von iOS 18 im nächsten Jahr warten.
Und es gibt auch Neuigkeiten, dass ältere Modelle möglicherweise nur mit A17 Pro iPhone 15 Pro ausgestattet sind und Macs über M1 mehr lokale KI-Funktionen unterstützen können.
Das neue Siri kann zunächst möglicherweise nur einen Befehl gleichzeitig verstehen und ausführen, es wird jedoch erwartet, dass es in Zukunft eine Reihe von Befehlen unterstützt, beispielsweise das Erstellen einer Zusammenfassung der aufgezeichneten Besprechungsaufzeichnung (ebenfalls eine erwartete Funktion). gestartet in iOS 18) und dann per E-Mail Wenn Sie es an Kollegen senden, können Sie auch direkt einige Textanweisungen hinzufügen, und eine Reihe von Vorgängen können von Siri in einem Satz ausgeführt werden.
Es wird erwartet, dass das neue Siri auch mit anderen KI-Funktionen in iOS 18 identisch ist. Es wird ein Beurteilungssystem geben, um zu beurteilen, ob die KI-Aufgabe lokal auf dem Gerät erledigt werden kann oder basierend auf dem in der Cloud ausgeführt werden muss benötigte Rechenleistung.
Wenn wir Siris Entwicklung in den letzten 13 Jahren zusammenfassen wollen, ist „sich um die Schüler kümmern, aber nicht sie fördern“ wahrscheinlich am treffendsten.
Bei der Einführungskonferenz des iPhone 4s im Jahr 2011 hatte Siri seinen letzten Auftritt, der das Publikum und die Welt schockierte. Die damalige Demonstration von Siri sah so aus: Man kann es fragen, wie das Wetter in einer bestimmten Stadt ist oder wie sich eine bestimmte Aktie entwickelt, und man kann eine Erinnerung einrichten, die automatisch angezeigt wird, wenn man das Unternehmen in einer bestimmten Stadt verlässt Der Satz war damals auch ein sehr cooles und futuristisches Feature.
Infolgedessen scheinen die oben genannten Funktionen auch 13 Jahre später immer noch die am häufigsten verwendeten Szenarien für Siri zu sein. Selbst die später unterstützten Home-Control- und Shortcut-Befehle sind im Allgemeinen immer noch Ein- und Ausschaltfunktionen. Tatsächlich hat Siri nie eine qualitative Funktion entwickelt Sprung.
Auch angesichts der Herausforderungen anderer Nachzügler-Sprachassistenten wie Google Assistant, Microsoft Cortana, Samsung Bixby usw. und sogar des immer nützlicher werdenden heimischen Xiaomi „Xiao Ai Classmate“ wollte Apple dennoch keine Fortschritte machen Bis zum Aufkommen von ChatGPT erkennen Sie, dass Siri hinter der Zeit zurückgeblieben ist.
▲ Xiao Ai hat bereits letztes Jahr auf das große Modell zugegriffen
Auch wenn Apple es hin und wieder auf Pressekonferenzen vorzustellen scheint, ist Siri wieder stärker geworden, kann mehr Anweisungen verstehen und mehr Dinge tun. Aber verstehen zu können bedeutet in vielen Fällen nicht, dass es auch möglich ist Es zu können bedeutet nicht, dass es gut gemacht werden kann.
Sagen Sie Siri zum Beispiel, dass ich ein Selfie machen möchte, und Siri hilft Ihnen, die Kamera und die Frontkamera zu öffnen, ohne ein Wort zu sagen, und dann passiert nichts mehr. Der Benutzer muss immer noch die Hand ausstrecken und auf den Auslöser klicken. Selbst manchmal springt Siri nur automatisch zur Kameraanwendung, anstatt in den nach vorne gerichteten Modus zu wechseln.
Wenn es sich um den Bixby-Assistenten von Samsung handelt, wird automatisch der Countdown für Selfies gestartet, und der gesamte Vorgang erfordert keine manuelle Bedienung durch den Benutzer.
Apples Standard-Kameraanwendung selbst verfügt über eine Countdown-Funktion, sodass die Implementierung dieses Prozesses nicht viele KI-Faktoren erfordert, aber Apple sorgt einfach nicht für ein gutes Erlebnis.
Siris Rivale sind Abkürzungen
Ich frage mich, ob Sie jemals die Funktion „Shortcut-Befehle“ verwendet haben?
Nachdem Apple Workflow übernommen hatte, wurde sein Produkt als „Shortcut-Befehl“ in iOS 12 in das iPhone integriert und in macOS 12 auch auf der Mac-Plattform gestartet.
▲ Shortcut-Befehle wurden in die ökologische Kette von Apple integriert
Diese Funktion kann viele erweiterte iOS-Funktionen realisieren, wie z. B. das Ein-Klick-Einstempeln bei DingTalk, die Ein-Klick-Produktion von Live-Fotos und Videos in GIFs und sogar einen automatischen Betrieb, um „den Wecker im Urlaub automatisch auszuschalten“ zu erreichen.
Diese Funktion ist jedoch für unerfahrene Benutzer nicht geeignet. Um einen neuen Shortcut-Befehl zu erstellen, muss der Benutzer in einer der Skriptprogrammierung ähnlichen Oberfläche verschiedene Operationsmodule auswählen und diese mit verschiedenen Logiken wie „wenn… dann“ und „solange… dann“ verbinden, wie z als „Urlaubswecker“ „Diese Art von Verknüpfungsbefehl enthält eine Vielzahl logischer Urteile und automatisierter Vorgänge. Selbst wenn Benutzer ihn gemäß dem Tutorial einrichten, können leicht Fehler gemacht werden.“
Obwohl Apple ein „Quick Command Center“ bereitstellt, über das Sie direkt vorgefertigte Skripte erhalten können, sind die dort bereitgestellten Verknüpfungsbefehle einfach und verfügen selten über Funktionen, die auf die Schwachstellen der Benutzer eingehen.
Diese Funktion ähnelt dem „Good Lock“-Modul von Samsung Galaxy-Mobiltelefonen, das sehr leistungsstarke Anpassungsfunktionen bietet, der Schwellenwert ist jedoch nicht niedrig.
Eine der wichtigsten Fähigkeiten großer KI-Modelle ist die Fähigkeit, natürliche Sprache und logisches Denken zu verstehen. Mit anderen Worten: Wenn der Benutzer zur KI des großen Modells sagt: „Ich habe Feierabend, helfen Sie mir beim Einchecken“, weiß die KI, dass Sie die Vorgänge „DingTalk öffnen“ und „Einchecken“ ausführen möchten ,“ anstatt zu sagen, dass Sie „nicht zugehört“ haben.
Der heutigen Siri fehlt diese Fähigkeit nicht ganz. Siri zu bitten, Sie daran zu erinnern, einen Geburtstagskuchen für Ihre Familie zu kaufen, wenn Sie das Unternehmen verlassen, ist eine Funktion, die auf der iPhone 4s-Konferenz demonstriert wurde. Dahinter steckt auch ein Prozess, bei dem die Sprache des Benutzers verstanden und in relevante Vorgänge umgewandelt wird.
▲ Viele der auf der Siri-Pressekonferenz vorgestellten Funktionen sind auch heute noch die Hauptfunktionen von Siri.
Und Siri sollte mit der Unterstützung großer KI-Modelle weitaus mehr können. Benutzer beschreiben ihre komplexen Bedürfnisse in natürlicher Sprache, wandeln sie in die Logik des Skripts um und führen die entsprechenden Schritte selbst aus. Dies ist der eigentliche „schnelle“ Befehl, ohne dass der Benutzer mit einer komplizierten Programmierung konfrontiert wird.
▲ChatGPT hat mir beigebracht, wie man iOS-Verknüpfungen zum Einstellen von Feiertagsweckern verwendet. Obwohl die Logik klar ist, scheint sie nicht sehr brauchbar zu sein.
Sie können davon ausgehen, dass Siri nicht nur den Benutzern eine natürlichere Anpassung von Vorgängen ermöglicht, sondern auch zu einem „aktiveren“ Assistenten wird.
Wenn Sie das iPhone lange genug verwenden, werden Sie feststellen, dass das iPhone manchmal automatisch Vorschläge anzeigt. Wenn ein Benutzer beispielsweise ein Bluetooth-Headset aufsetzt, wird empfohlen, dass Sie NetEase Cloud Music einschalten, da dies Ihr Nutzungsmuster ist, oder wenn das Telefon spät in der Nacht lädt, reduziert es automatisch die Ladeleistung, um den Akku zu schonen kann immer noch verwendet werden, bevor Sie aufwachen. Das liegt auch daran, dass Sie die Angewohnheit haben, lange vor dem Schlafengehen aufzuladen.
Das sind Ergebnisse des maschinellen Lernens, und es sind auch die KI-Funktionen, an denen Apple gearbeitet hat. Moderne Menschen verbringen jeden Tag viel Zeit mit ihren Mobiltelefonen. Es ist üblich, Mobiltelefone zum Einkaufen, Essen und Arbeiten zu verwenden. Natürlich verstehen Mobiltelefone Ihre Existenz besser als die Spulwürmer in Ihrem Magen.
Stellen Sie sich Apples starkes Situationsbewusstsein vor, gepaart mit den leistungsfähigeren automatischen Betriebsfunktionen von Mobiltelefonen. Die KI-Version von Siri könnte sich tatsächlich in einen echten „persönlichen Assistenten“ verwandeln, der Dinge vorhersagt, bevor Sie sie ihm überlassen auf Ihre Bedürfnisse.
Mithilfe der von Ihnen gebuchten Flugtickets können Sie beispielsweise automatisch das Wetter nach der Ankunft an Ihrem Zielort überprüfen und im Voraus einen Alarm einstellen. Basierend auf Ihren Reisegewohnheiten und der Verkehrslage in Echtzeit können Sie einen Anruf tätigen Wenn Sie am Flughafen ankommen, werden Ihre Flugtickets automatisch angezeigt und die App wird zum Einchecken verwendet. Wenn Sie in der Umgebung ankommen, werden die von Dianping empfohlenen Restaurants für Sie geöffnet ein persönlicher Assistent + Reiseleiter.
Wenn wir diesen reibungslosen Betrieb realisieren wollen, werden wir natürlich darüber nachdenken, was erfordert, dass sowohl Entwickler als auch Apple beide Wege gehen. Allerdings hat die Geschwindigkeit der KI-Entwicklung unsere Vorstellungskraft übertroffen. Vielleicht kann KI in Zukunft menschliche Abläufe direkt nachahmen.
UI, die wir verstehen können, KI lernt auch
Obwohl die intelligente Bedienung des neuen Siri in der Anfangsphase nur Apples eigene Anwendungen unterstützen wird, gehe ich lieber davon aus, dass dies nur der Ausgangspunkt oder die Mitte von Apples KI-Siri-Route und nicht das Ende ist.
Ich glaube, dass das ultimative Ziel von Apples KI darin besteht, dieses Szenario zu verwirklichen: Morgens aufwachen, Siri mit „Siri“ wecken und dann das öffentliche WeChat-Konto „Aifan'er“ öffnen und den neuesten Artikel laut vorlesen lassen. Hören Sie sich als nächstes den Morgenbericht von Ai Faner an, ohne Ihre Hände benutzen zu müssen.
▲ Eine iPhone-Konzept-Telefonhülle von vor vielen Jahren. Die Idee besteht darin, „Siri“ zu verkörpern und die Hände mit der Stimme freizugeben.
„Shortcut-Befehle“ können die Bedienung von Drittanbieter-Apps unterstützen, vor allem weil Apple die API geöffnet hat und Drittanbieter-Anwendungshersteller die Vorgänge in der Anwendung auch in Module aufteilen können, die über Shortcut-Befehle ausgeführt werden können.
Dies hängt jedoch davon ab, ob der Anwendungshersteller bereit ist, relevante Module und Vorgänge bereitzustellen. Wenn die Cainiao-App beispielsweise den Vorgang zum Anzeigen des Abholcodes nicht öffnet, kann sie den Vorgang nicht öffnen, egal wie intelligent Siri ist Cainiao-App zur eigenständigen Anzeige des Abholcodes.
Was wäre, wenn wir noch einen Schritt weiter gehen und es der KI ermöglichen würden, direkt zu verstehen, was ein Abholcode ist und wo sich der Abholcode in der App befindet, und ihn nach Erhalt der Anweisungen selbstständig zu öffnen?
Das klingt vielleicht etwas zu Science-Fiction, aber die Branche unternimmt bereits entsprechende Versuche.
Auf der Microsoft Build 2024 Developers Conference letzte Woche hat Microsoft ein Live-Event veranstaltet: Mit GPT-4o unterstütztes Copliot kann den Inhalt in Echtzeit auf dem Bildschirm betrachten und Spieler zum gemeinsamen Spielen von „Minecraft“ anleiten.
In der Demonstration verwendete Copilot eine sehr sanfte und natürliche Sprache, sogar mit einem Hauch von Emotionen, um die Spieler bei der Herstellung eines Schwertes im Spiel anzuleiten. Dabei kann Copilot die Gegenstände im Spielrucksack identifizieren und den Spieler über die fehlenden Materialien informieren, genau wie ein „Meister“, der Sie durch das Spiel führt.
Dies zeigt, dass der KI-Assistent nicht mehr nur ein Textroboter ist, der „fragt und antwortet“, oder Daten nur im Hintergrund programmieren und verarbeiten kann, sondern wirklich anfangen kann, die UI-Schnittstelle, die wir Menschen sehen, zu verstehen, und das auch kann wissen, wie wir es bedienen.
Die seit einiger Zeit beliebte „KI-Hardware“ Rabbit R1 hat die Bedienoberfläche grundsätzlich aufgegeben und die Nutzung verschiedener Dienste vollständig über den KI-Sprachassistenten abgeschlossen. Die Firma Rabbit gab an, eine Methode namens „“ zu verwenden. Die KI-Modelltechnologie von Large Action Model (LAM) kann menschliche Vorgänge auf dem Server nachahmen, nachdem die Anweisungen des Benutzers verstanden wurden, und die Anweisungen des Benutzers direkt in relevanten Webseiten und Anwendungen ausführen.
▲ Rabbit R1 behauptet, Sprache zu verwenden, um anwendungs- und plattformübergreifende Vorgänge zu erreichen.
Obwohl die Leistung von Rabbit R1 weit von der dargestellten Szene entfernt ist, ist die Vision selbst sehr schön. Die hervorragende Leistung von Robotern wie GPT-4o im visuellen Verständnis lässt die Menschen auch spüren, dass die Zukunft der KI, die den Menschen ersetzt, tatsächlich nicht mehr weit entfernt ist . .
Als Unternehmen mit großer Anziehungskraft bei Entwicklern muss Apple den vollständigen Einsatz von „LAM“ durch das Startup Rabbit nicht nachahmen. Es kann relevante Schnittstellen öffnen und SDKs bereitstellen, um es großen Drittentwicklern zu ermöglichen, es in ihren Anwendungen zu verwenden Operationen, was zu einem ausgereifteren und stabileren Sprachbedienungserlebnis führt.
Apple-bezogene Untersuchungen zeigen, dass sie diese Idee haben. In Verbindung mit Apples Designstandards für die Benutzeroberfläche von Anwendungen kann Siri alles auf dem iPhone-Bildschirm leichter verstehen.
▲ Apple untersucht auch, wie man großen Modellen die Benutzeroberfläche verständlich machen kann
Obwohl die Technologie dem Menschen unterlegen ist, kann Apples Führungsrolle bei der Anzahl der Benutzer und der ökologischen Bauweise zu einem sehr großen Vorteil werden.
9to5Mac prognostiziert und kommentiert Apples bevorstehende Siri- und AI-Updates:
auf der WWDC. Wir sehen vielleicht nichts besonders Revolutionäres, aber die Integration von KI in Systeme und Anwendungen, die täglich von Millionen von Menschen genutzt werden, ist eine Revolution für sich.
Verglichen mit trendiger Hardware wie dem Rabbit R1 sind Smartphones, die jeder hat, möglicherweise der beste Träger für KI.
Der Benutzer muss nicht wissen, dass er eine KI-Funktion nutzt, aber wenn er Siri bittet, ihm bei der Planung einer Reise und der Buchung von Flugtickets zu helfen, beginnt die KI bereits, sein Leben tiefgreifend zu verändern.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo