ChatGPT hört bereits zu und spricht. Bald könnte es auch so sein

November 20, 2024 Eskere Guru

Der erweiterte Sprachmodus von ChatGPT, der es Benutzern ermöglicht, sich in Echtzeit mit dem Chatbot zu unterhalten, könnte laut Code, der im neuesten Beta-Build der Plattform entdeckt wurde, bald die Gabe des Sehens erhalten. Während OpenAI die konkrete Veröffentlichung der neuen Funktion noch nicht bestätigt hat, deutet der von Android Authority entdeckte Code im Beta-Build von ChatGPT v1.2024.317 darauf hin, dass die sogenannte „Live-Kamera“ bald verfügbar sein könnte.

OpenAI hatte die Vision-Funktionen des Advanced Voice Mode für ChatGPT erstmals im Mai vorgestellt, als die Funktion erstmals in der Alphaversion eingeführt wurde. Während einer damals veröffentlichten Demo war das System in der Lage, über die Kameraübertragung des Telefons zu erkennen, dass es einen Hund ansah, den Hund anhand früherer Interaktionen zu identifizieren, den Ball des Hundes zu erkennen und die Beziehung des Hundes zum Ball zuzuordnen (d. h Fetch spielen).

Auch bei den Alpha-Testern kam die Funktion sofort gut an. X-Benutzer Manuel Sainsily nutzte es mit großem Erfolg bei der Beantwortung mündlicher Fragen zu seinem neuen Kätzchen basierend auf dem Video-Feed der Kamera.

Probieren Sie den neuen erweiterten Sprachmodus von #ChatGPT aus, der gerade in der Alpha-Version veröffentlicht wurde. Es fühlt sich an, als würde man einem überaus sachkundigen Freund ein persönliches Gespräch ermöglichen, was in diesem Fall sehr hilfreich war und uns mit unserem neuen Kätzchen beruhigte. Es kann Fragen in Echtzeit beantworten und die Kamera auch als Eingabe verwenden! pic.twitter.com/Xx0HCAc4To
– Manuel Sainsily (@ManuVision) 30. Juli 2024

Anschließend wurde der Advanced Voice Mode im September als Betaversion für Plus- und Enterprise-Abonnenten veröffentlicht , allerdings ohne seine zusätzlichen visuellen Funktionen. Das hielt die Benutzer natürlich nicht davon ab , die stimmlichen Grenzen der Funktion auszuprobieren. Advanced Voice „bietet natürlichere Gespräche in Echtzeit, ermöglicht es Ihnen, jederzeit zu unterbrechen und Ihre Emotionen zu spüren und darauf zu reagieren“, so das Unternehmen .

Das Hinzufügen digitaler Augen würde den Advanced Voice Mode sicherlich von den Hauptkonkurrenten von OpenAI, Google und Meta, abheben, die beide in den letzten Monaten eigene Konversationsfunktionen eingeführt haben.

Gemini Live kann vielleichtmehr als 40 Sprachen sprechen , aber es kann die Welt um sich herum nicht sehen (zumindest bis Project Astra in Gang kommt ) – und auch Metas Natural Voice Interactions, das auf der Connect 2024-Veranstaltung im September erstmals vorgestellt wurde , kann es nicht nutzen Kameraeingänge.

OpenAI gab heute außerdem bekannt , dass der Advanced Voice-Modus nun auch für kostenpflichtige ChatGPT Plus -Konten auf dem Desktop verfügbar ist. Es war eine Zeit lang ausschließlich auf Mobilgeräten verfügbar, kann aber jetzt auch direkt auf Ihrem Laptop oder PC aufgerufen werden.