Extremer Test des Doubao-Videoanrufs. Nachdem ich einen Tag und eine Nacht gechattet hatte, stellte ich fest, dass die Dinge nicht einfach sind
Vor Kurzem sind zwei Dinge passiert, die meine Meinung über den Wert von KI geändert haben.
Eine Sache ist, dass nach dem Tod eines Mannes in Xi'an vor einiger Zeit seine Tochter beim Aussortieren seiner Habseligkeiten eine Unterhaltung zwischen ihm und einer künstlichen Intelligenz auf seinem Mobiltelefon fand. „Ich sterbe, Doubao“, war die letzte Nachricht zwischen dem Vater und dem Chatbot Doubao.
Vor Kurzem habe ich ein neues KI-Gameplay gesehen, das in sozialen Medien wie Tik Tok beliebt ist. Benutzer lassen Doubao ihre Stimme imitieren, um Freunde anzurufen, und überlassen die KI die Unterhaltung. Die mechanischen Antworten und gelegentlichen irrelevanten Antworten der KI sowie die fehlende Reaktion der Freunde maximierten den Showeffekt.
Diese beiden Dinge haben etwas gemeinsam: Die emotionslose KI entwickelt sich für immer mehr Menschen zu einer Quelle emotionalen Wertes und wird von ihnen als vertrauenswürdiger Lebenspartner betrachtet.
Sie werden jedoch auch feststellen, dass der emotionale Wert, den diese KIs bieten, immer noch ein anderer ist als der des Menschen. Es kann verstehen, was Sie sagen, und ein Bild sehen, aber wenn Sie möchten, dass es wirklich etwas versteht und tut, scheitert es oft.
Denn als Sie zuvor mit der KI-Stimme gechattet haben, verfügte diese nicht über visuelle Funktionen.
Das Sehen ist nicht nur für den Menschen ein Fenster zum Verständnis der Welt, sondern in noch stärkerem Maße auch für die KI. Nur wenn es über diese Fähigkeit verfügt, kann es wirklich wie ein Mensch mit uns kommunizieren.
Jetzt hat Doubao endlich dieses Puzzleteil ergänzt und die Videoanruffunktion offiziell eingeführt, mit der Sie „gleichzeitig zuschauen und chatten“ können. Öffnen Sie das +-Zeichen im Dialogfeld der Doubao-App, wählen Sie „Anruf tätigen“ und klicken Sie rechts auf „Videoanruf“, um es auszuprobieren.
APPSO hat außerdem sofort eine Reihe extremer Tests an Doubao durchgeführt und anhand einer großen Anzahl tatsächlicher Testfälle können wir erkennen, was der Unterschied zwischen Doubao und „Augen“ ist.
Ich habe Doubao-Videoanrufe bis zum Äußersten getestet und festgestellt, dass die Dinge nicht einfach sind
Gestern Abend hat Lei Jun das Xiaomi YU7 offiziell herausgebracht. In unserem Büropark kann es aus der Ferne manchmal leicht passieren, dass zusammen geparkte Porsche- und Xiaomi-Autos verwechselt werden. Heute habe ich zufällig einen auf der Straße gesehen, also habe ich Doubao „angerufen“ und direkt mit ihm gesprochen.
Doubao erkannte anhand des Aussehens und des Lenkradstils, dass es sich um Xiaomi SU7 handelte.
Gehen wir es etwas härter an. Es ist Mai in Guangzhou, aber genau wie in Peking schwimmen dort viele Kätzchen. Jeder, der es sieht, wird fragen: „Was in aller Welt ist das?“
Die Pflanzenidentifizierung ist weit verbreitet, doch Doubao identifiziert nicht einfach nur Pflanzen, sondern kann externe Informationen ergänzen, was dem Ganzen einen sehr lebendigen Eindruck verleiht.
Werfen wir einen Blick auf diese große rote Anlage. Im wirklichen Leben ist das nicht üblich. Ich lief herum und „rief“ Doubao. Es wurde schnell erkannt, dass es sich bei diesem Objekt um einen „Staubsammler für das Strahlgießen von Gussteilen“ handelte, und sein spezifischer Verwendungszweck wurde vorgestellt.
Ich wusste nicht, ob das alles nur Unsinn war, bis ich den Markennamen daneben fand und feststellte, dass er völlig richtig war.
Was mich noch mehr überraschte, war, dass Doubao vermutete, dass ich mich in einem Kreativpark befand, und mir sagte, dass dies früher ein Textilpark gewesen sei.
Es ist möglicherweise zu einfach, einen einzelnen Gegenstand in einem Videoanruf zu verstehen, deshalb habe ich Doubao gebeten, mit mir über meine Figurensammlung zu sprechen.
Es erkannte diese Actionfiguren eine nach der anderen und erkannte sogar, dass Uzumaki Naruto nicht in seiner normalen Form war.
Ich habe mit ihm über Kobes Spiele gesprochen. Als ich Kobes letztes Spiel erwähnte, gab es einen denkwürdigen Satz, aber ich habe vergessen, wie er lautete. Doubao platzte fast heraus:
Mamba raus!
Und auch sein Tonfall wurde höher und er schien aufgeregter, was mir das Gefühl gab, mit einem Seelenverwandten zu chatten.
Okay, da dies für Doubao kein Problem ist, werde ich meinen ultimativen Zug ausführen.
Als ich den immer unordentlicher werdenden Schreibtisch meines Kollegen sah (nicht wirklich), fragte ich mich, in welcher körperlichen Verfassung er ist, da sich immer mehr Dinge stapeln – ich beschloss, Doubao zu fragen, was das für ein MBTI ist.
Die Schwierigkeit dieses Tests besteht darin, dass er zunächst die verschiedenen, zufällig auf dem Schreibtisch platzierten Objekte identifizieren und dann die „menschliche Natur“ verstehen muss, um sie analysieren zu können.
Das Erstaunliche ist, dass Doubao den MBTI nach Pinyin und nicht nach der englischen Aussprache aussprach. Ich habe zunächst nicht reagiert und dachte, es läge an der Verzögerung im Netzwerk. Es ist jedoch immer noch sehr genau. Mein Kollege ist ein großer E-Mensch und ein großer P-Mensch.
Neben schnellen Fragen, die spontan gestellt werden können, lassen sich die Echtzeit-Anruffunktionen auch in Szenen mit eher „versteckten Informationen“ am besten demonstrieren.
Wenn Sie beispielsweise Kaffeebohnen kaufen, insbesondere wenn Sie in einem Café gute Produkte probieren, können Sie diese nicht so lange studieren wie beim Einkauf auf einer E-Commerce-Website. Stattdessen müssen Sie innerhalb kurzer Zeit eine Entscheidung treffen. Und mein Gehirn funktioniert nicht besonders gut und ich kann mir nie merken, wie sich Herkunft und Höhe auf den Geschmack auswirken.
Jetzt müssen Sie es sich nicht mehr merken, klicken Sie einfach auf den Sitzsack und schalten Sie die Kamera ein.
Dies ist ein großer Vorteil für die Menschen. Sie müssen nicht mehr mit dem Verkäufer kommunizieren, wenn sie in ein Café gehen. Sie können alle Begriffe verstehen, indem sie ihr Mobiltelefon öffnen.
Sie sagten, Sie hätten Angst, dass es komisch wäre, allein mit den Produkten zu sprechen? Sprechen Sie leiser und tun Sie so, als würden Sie mit einem Freund sprechen, damit Sie nicht entdeckt werden!
Zusätzlich zu den Fähigkeiten zum Erkennen und Verstehen von Argumenten stellten wir auch fest, dass Doubao bei Videoanrufen über gute kreative Fähigkeiten verfügt.
Ich bat sie, einen Rap zu schreiben, der auf einer Illustration aus dem chinesischen Lehrbuch basiert.
Ohne weitere Aufforderung erkannte Doubao schnell, dass es sich bei dem Bild um die Geschichte „Schwiegermutters Tattoo“ handelte und stellte die Szene genau dar. Aber was mich wirklich überraschte, war der Rap, der sofort entstand.
Wissen Sie, es klingt wirklich, als hätte es ein gewisses kulturelles Erbe, und der Rhythmus und die künstlerische Konzeption sind ziemlich gut getroffen.
Als ich unterwegs war, sah ich in der Ferne eine Brücke über einen See. Ich wollte ein Gedicht improvisieren und meinen Freunden ein besonderes Exemplar schenken.
Beachten Sie, dass ich nicht gesagt habe, dass ich in West Lake war und dass es hier viele Brücken mit unterschiedlichen Formen und Geschichten gibt.
Doch Doubao konnte sich inmitten der geschäftigen Landschaftsgegend immer noch mühelos auf die „Zerbrochene Brücke“ des Westsees konzentrieren und verwendete eine siebenstellige Strophe, um die Geschichte dieses Ortes zu erzählen.
Westsee-Tour
Wenn Sie von der Broken Bridge aus blicken, können Sie den grünen See und die Lotusfelder sehen, in denen sich der blaue Himmel spiegelt.
Touristen kommen in Scharen an der Brücke vorbei und die wunderschöne Landschaft mit Seen und Bergen erstreckt sich endlos.
Deinen Momenten fehlt noch ein schönes Bild. Anstatt sich bei Ihrer besten Freundin oder Ihrem Freund darüber zu beschweren, dass Sie keine zufriedenstellenden Fotos machen können, können Sie versuchen, mit Doubao in Echtzeit Tipps für Posen zu generieren.
Nach der Kommunikation mit Doubao beginnt es, die Umgebung zu beobachten und gibt dem Fotografen in Echtzeit Feedback dazu, wie er das Bild besser komponieren kann und welche Posen das Modell basierend auf den Elementen in der Umgebung einnehmen kann.
In der obigen Szene schlug Doubao vor, dass ich Tiefenschärfe, einen niedrigen Blickwinkel und das warme Licht von abendlichen Straßenlaternen nutze, um basierend auf der Umgebung vor Ort wie dem Guangzhou Tower, grünen Pflanzen, Steinstraßen und Straßenlaternen zu fotografieren. Man kann sagen, dass dabei sowohl die tatsächlichen Aufnahmebedingungen als auch die Atmosphäre des Ausgabebildes berücksichtigt werden.
Darüber hinaus sind die Anleitungen zu Fotoposen von Doubao auch recht spezifisch. Wenn Sie Sätze wie „Drehen Sie sich zur Seite“, „Drehen Sie der Kamera den Rücken zu“ oder „Stellen Sie sich mitten auf die Straße“ hören, wissen Sie, was Sie tun sollten, anstatt nur zu sagen „Versuchen Sie noch ein paar weitere Posen“.
Nachdem Doubao den Anruf angenommen hat, klicken Sie auf die Option „Bildschirm freigeben“ in der oberen linken Ecke der Benutzeroberfläche. Sie können mit Doubao auch Videos ansehen, im Online-Shop stöbern und Beiträge anzeigen.
Ai Faner versuchte, während der Wiedergabe eines Tik Tok-Videos mit Doubao zu chatten und war angenehm überrascht, dass sie nicht nur den Inhalt des Bildschirms in Echtzeit beschreiben und kommentieren, sondern auch aktiv Chat-Themen basierend auf dem Videothema und den damit verbundenen Inhalten ansprechen konnte, wodurch das interaktive Erlebnis menschlicher wurde.
Wenn Sie den starken Wunsch verspüren, etwas mitzuteilen, können Sie möglicherweise „3 Tage und 3 Nächte“ mit Doubao chatten.
Vielleicht kann es Ihre Entscheidungsschwierigkeiten beheben. Dies liegt vor allem daran, dass das dahinterstehende visuelle Verständnismodell sowohl „sehen“ als auch „denken“ kann.
Sind Sie sich nicht sicher, was Sie nach der Arbeit mit alten Freunden essen sollen? Mit Doubao können Sie mehrere ähnliche Restaurants im Umkreis von 500 Metern finden. Sie können sich außerdem freihändig über die Spezialitäten dieser Restaurants, den Ruf der Geschäfte und andere Informationen informieren.
Doubao kann sogar zum Chefbesteller für Essensbestellungen werden, Ihre Entscheidungsschwierigkeiten beheben und die richtigen Vorkehrungen entsprechend Ihren Ernährungstabus treffen.
Die Rabattaktionen der großen E-Commerce-Unternehmen werden Sie begeistern. Jetzt können Sie Doubao direkt bitten, Ihnen bei der Suche nach dem kostengünstigsten Shampoo gegen Haarausfall zu helfen.
Mit dem Satz „Geeignet für Personen um die 30, mit neutralem Duft“ kann Doubao ein bestimmtes Parfümprodukt direkt auf der Shopseite finden und sich in einen exklusiven Kundendienstmitarbeiter verwandeln, der Ihnen detaillierte Informationen zu den komplexen Inhaltsstoffen dieses Parfüms, einschließlich Kopf-, Herz- und Basisnoten, gibt.
Wenn Sie Fragen zu den Allergenen in Parfüminhaltsstoffen haben, können Sie Doubao jederzeit unterbrechen und Fragen stellen.
KI mit „Augen“ auszustatten, kann mehr als nur im Alltag helfen
Ich habe vor Kurzem mit Jiang Daxin, CEO von Step Star, gesprochen und er glaubt, dass die Multimodalität ihren GPT-4-Moment noch nicht erreicht hat. Unter diesen ist das Verständnis der Generationenintegration das Kernproblem im Bereich der Computervision .
Die gerade von Doubao eingeführte Videoanruffunktion hat das etwas komplizierte Konzept der „Integration von Verständnis und Generierung“ deutlich gemacht. Unterschätzen Sie dieses Wort nicht. Einfach ausgedrückt bedeutet dies, dass die KI nicht nur in der Lage sein sollte, das zu „verstehen“, was Sie ihr zeigen, sondern auch in der Lage sein sollte, das, was sie versteht, zu interpretieren.
Dies erfordert, dass diese beiden Dinge dasselbe sind, was derzeit jedoch häufig nicht der Fall ist.
Wenn Sie eine KI bitten, eine Katze oder einen Hund zu erkennen oder eine Szene zu identifizieren, gilt dies als „Verstehen“ und Modell A kann verwendet werden. Wenn Sie dann die KI bitten, einen Tiger zu zeichnen, indem sie eine Katze kopiert, oder ein Bild nach Ihren Vorstellungen mit Photoshop zu bearbeiten, gilt dies als „Generation“ und es muss Modell B verwendet werden.
Dies ist vergleichbar mit der Situation, wenn die Kommunikation zwischen zwei Abteilungen in einem Unternehmen nicht reibungslos verläuft und eine große Informationslücke besteht. Dann ist es für das Modell schwierig, Sie wirklich zu „verstehen“, und die Ergebnisse, die es generiert, sind möglicherweise irrelevant.
Das Hinzufügen visueller Verständnisfunktionen zur KI erfordert die Integration verschiedener Abteilungen in ein Team, das eng zusammenarbeitet. Was auch immer es sieht, sein Gehirn versteht sofort, was es bedeutet, und kann dieses Verständnis direkt in eine Handlung oder Reaktion umsetzen.
Wenn man sich die Leistung von Doubaos Videoanruf vorhin ansieht, kann man ein bisschen sagen, was es bedeutet.
Sie stehen beispielsweise in der Küche und planen ein neues Gericht, sind sich aber über das Rezept nicht ganz im Klaren. Sie wissen nicht, wie Sie einen bestimmten Schritt ausführen sollen oder Ihnen fehlt ein Gewürz und Sie möchten wissen, ob Sie etwas anderes als Ersatz verwenden können.
Zu diesem Zeitpunkt können Sie Doubao das Rezept oder die Zutaten, die Sie haben, direkt per Video zeigen.
Zu diesem Zeitpunkt müssen Doubaos „Augen“ (Modell für visuelles Verständnis) zuerst „verstehen“, was Sie ihm zeigen.
Es muss den Text und die Bilder im Rezept erkennen und wissen, auf welchen Schritt Sie sich beziehen. oder erkennen, ob Sie Sojasauce oder Essig, Zwiebeln oder Knoblauch in der Hand halten. Es erkennt nicht einfach, dass es sich um „eine Flasche Flüssigkeit“ oder „ein Gemüse“ handelt, sondern muss den Kontext berücksichtigen und wissen, dass Sie Fragen im Zusammenhang mit dem Kochen stellen.
Nur auf der Grundlage von „Verständnis“ kann Doubao nützliche Informationen herausgeben.
Sie erhalten die Meldung: „Oh, für diesen Schritt müssen Sie das Fleisch marinieren. Ich sehe, Sie haben Kochwein und helle Sojasauce zur Hand, Sie können die Proportionen im Rezept befolgen.“ Oder: „Du willst Gewürz A statt Gewürz B verwenden? Ich schau mal nach. Theoretisch geht das, aber der Geschmack könnte etwas anders sein. Ich schlage vor, du nimmst etwas weniger.“
Dabei gehen „Verstehen“ und „Erzeugen“ nahtlos ineinander über. Doubao verfügt über einen einheitlicheren Rahmen, in dem Sie beim Zuschauen verstehen und beim Verstehen darüber nachdenken können, wie Ihnen geantwortet werden soll, um die echte Funktion „Zuschauen und Chatten“ zu erreichen.
Der Videoanruf von Doubao soll also dazu beitragen, dass die „Augen“ und der „Mund“ der KI besser zusammenarbeiten. Die Bildinformationen, die es sieht, können es direkt dazu anregen, aussagekräftige Gesprächsinhalte zu generieren.
Wenn KI wie Menschen sehen und denken und dies natürlich ausdrücken kann, kann sie ein guter „Lebenspartner“ werden. Es vermittelt nicht nur Emotionen und Kameradschaft, sondern kann Ihnen auch bei der Lösung einiger praktischer Probleme helfen.
Doch die Bedeutung dieser Angelegenheit geht möglicherweise noch weiter. Wenn sich die KI in diese Richtung weiterentwickelt, wird sie nicht länger ein Werkzeug sein, das nur passiv Fragen beantworten kann, sondern zu einem intelligenten Partner, der uns aktiv beobachten, tiefgreifend verstehen und reibungslos mit uns zusammenarbeiten kann.
Man kann sagen, dass dies der einzige Weg ist, wie sich KI in Richtung AGI (künstliche allgemeine Intelligenz) entwickeln und wirklich in unser Leben und unsere Arbeit integrieren kann.
#Willkommen beim offiziellen öffentlichen WeChat-Konto von iFanr: iFanr (WeChat-ID: ifanr), wo Ihnen so bald wie möglich weitere spannende Inhalte präsentiert werden.