Verabschieden Sie sich vom Fake-Look, jetzt können digitale Menschen endlich „denken“ und „kooperieren“

Der Philosoph Andy Clark schlug in „The Natural Cyborg“ vor, dass sich die Beziehung zwischen Mensch und Technologie von der „Verwendung von Werkzeugen“ zur „symbiotischen Evolution“ wandelt.
Digitale Menschentechnologie beschleunigt diesen Prozess: In Ihrer Abwesenheit können digitale Menschen, die durch Ihr Bild und Ihre Stimme geschaffen werden, 24 Stunden am Tag kommunizieren und sich ausdrücken. Zu diesem Zeitpunkt wurde die Existenz des „Menschen“ neu definiert.

Die Stimmen dieser Moderatoren sind begeistert und sie sprechen reibungslos und klar über die Produkte. Wenn man diese perfekten Gesichter und veränderlichen Gesichtsausdrücke und Töne genau betrachtet, kann es schwierig sein, nach der gesamten Live-Übertragung zu erkennen, dass es sich nicht um echte Menschen handelt, sondern um digitale menschliche Anker, die von der KI gesteuert werden.
Daten zeigen, dass virtuelle digitale Menschen 22,7 % des Marktes für digitale menschliche Anwendungen einnehmen und im Bereich E-Commerce-Live-Streaming den ersten Platz einnehmen, und dass ihre Interaktivität und Wiedergabetreue ständig verbessert werden.
Heute stellte Baidu auf der Baidu AI Developer Conference „Create2025“ auch eine neue Generation digitaler Huiboxing-Menschen vor. Auch Baidu-Gründer Robin Li schlug erstmals das Konzept äußerst überzeugender digitaler Menschen vor.
Digitale menschliche Anker sind endlich nicht mehr die „steifen Marionetten“, die sie einst waren, sondern haben eine neue Version eröffnet und bewegen sich in Richtung dessen, was Robin Li sagte: „Jeder ist ein Marketingteam.“
KI-Anker hat endlich gelernt zu „handeln“
„Vergleichbar mit echten Menschen“ hört sich an, als wäre es einfach etwas, was alle digitalen Menschen tun – aber nur wenn man die Fälle tatsächlich sieht, kann man die „Überzeugungskraft“ spüren.


High Fidelity ist nicht überraschend. Was wirklich überrascht, ist, dass digitale Menschen bei so vielen Bewegungen, Ausdrücken und Antworten auf verschiedene Fragen, die jederzeit beantwortet werden müssen, diese reibungslos und ohne Hindernisse erledigen können – Hautpflegeprodukte können im Handumdrehen aufgetragen werden und Demonstrationen können mit einem Handgriff durchgeführt werden.
Hinter dieser Reihe von Aktionen steckt ein Design. Diesmal wurde Huiboxing vom Skriptmodus auf den Skriptmodus aktualisiert. Das detaillierte Skript leitet nicht nur das, was die Charaktere sagen, sondern entwirft auch die Szenen, Emotionen, Töne, Aktionen usw. Dadurch werden Ton, Ausdruck und Bewegungen des digitalen Menschen hochgradig integriert und vereinheitlicht, sodass der digitale Mensch Inhalte reibungslos und fließend kombinieren und gemeinsam Aktionen ausführen kann.

Die Realisierung des Skriptmodus wird durch die „Entscheidungsfähigkeit“ digitaler Menschen unterstützt. Mit anderen Worten: Die digitalen Menschen von heute reproduzieren nicht mehr nur das Bild und die Stimme echter Moderatoren, sondern verfügen auch über eine Reihe von Fähigkeiten. Beispielsweise können Sie anhand der Umgebung des Live-Übertragungsraums Signale wahrnehmen und Überlegungen und Entscheidungen treffen sowie die Fähigkeit entwickeln, den nächsten Schritt umzusetzen.

Diese Fähigkeit ist der Schlüssel zu „hoch überzeugenden“ digitalen Menschen. Der Einsatz digitaler Menschen in Live-Übertragungen ist an sich nicht ungewöhnlich. Es ist auch eine gängige Anwendungsrichtung bei der tatsächlichen Implementierung von KI. Auf großen E-Commerce-Plattformen sind bereits digitale Anker aufgetaucht. Aber um die digitalen Menschen „nicht plastisch“ und „nicht dramatisch“ aussehen zu lassen, hatte ich damals schon mein Bestes gegeben.

Heutzutage, da Anwendungen immer häufiger werden, werden digitale Menschen immer „voluminöser“. Die Schaffung digitaler Menschen für Benutzer auf der Grundlage multimodaler Technologie erfordert in der Regel die Integration mehrerer Modalitäten wie Text, Ton, Vision, Bewegung und sogar Emotionswahrnehmung, was zu komplexen technischen Verknüpfungen führt. Es umfasst modalübergreifende Fusion und Zusammenarbeit, Verständnis und Generierung natürlicher Sprache, Bewegungserfassung und -generierung sowie Echtzeitinteraktion und Verzögerungsoptimierung.
Basierend auf dem Wenxin 4.5 Turbo haben die digitalen Leute von Huiboxing in der Vergangenheit die Peinlichkeit von „Fälschungen auf den ersten Blick“ beseitigt. Die Änderungen und Verbesserungen im Realismus sind nur ein Teil davon – was wirklich entscheidend ist, ist seine Fähigkeit, unabhängig zu denken und Entscheidungen zu treffen, sowie seine Multi-Agenten-Planungsfunktionen.

Diese Funktionen bestimmen wirklich die Erfahrung des Händlers und stellen die technische Stärke dahinter auf die Probe.
Wenn Sie einen von Huiboxing unterstützten Live-Übertragungsraum öffnen, werden Sie sehen, wie der Moderator auf natürliche Weise den Kopf dreht, das Produkt aufnimmt, Details in 360 Grad anzeigt und sogar Gesten und Ausdrücke korrekt sind. Dieser hyperrealistische Effekt lässt Sie sich fragen: „Ist das wirklich KI?“

Dies ist Baidus Definition von „hoher Überzeugungskraft“: In Bezug auf Benutzererfahrung und Live-Übertragungsszenarien können digitale Menschen bereits eine Ausdruckskraft erreichen, die mit echten Menschen vergleichbar ist, und sogar die Konversionsrate kann in einigen Szenarien die von echten Menschen übertreffen.
Ein Mobiltelefon macht Sie zur „Ankerfabrik“
Der Aufstieg digitaler menschlicher Anker ergibt sich aus der Nachfrage nach effizienten und kostengünstigen Betriebsmodellen in der E-Commerce-Live-Übertragungsbranche. Herkömmliche menschliche Moderatoren sind mit hohen Arbeitskosten und begrenzten Arbeitszeiten konfrontiert, während digitale menschliche Moderatoren eine ununterbrochene Live-Übertragung rund um die Uhr ermöglichen können, was die betriebliche Effizienz erheblich verbessert und eine Kostensenkung und Effizienzsteigerung ermöglicht.
Die hier erwähnte „Kostenreduzierung“ bedeutet nicht nur, dass die Arbeitskosten von Moderatoren und Sendeassistenten eingespart werden können, sondern umfasst auch eine Reihe von Lernkosten wie Einrichtung und Tests.
Mit anderen Worten: Plattformen und Technologieunternehmen haben hart daran gearbeitet, die multimodale Technologie zu verbessern, aber die Benutzer müssen sich auch Mühe geben, verschiedene Vorgänge und Verwendungen zu erlernen und zu erforschen. Wenn der Prozess zu umständlich ist, ist er ziemlich abschreckend.
Diesmal ist die neueste mobile Version von Baidu mit einer der vielleicht praktischsten Innovationen in der Live-Übertragungsbranche ausgestattet: der Funktion „Übertragung mit einem Klick starten“ .

Sofern Sie sich mit Ihrer Mobiltelefonnummer registrieren und ein 2-minütiges Video hochladen, kann jeder mit einem Klick auf seinem Mobiltelefon seine eigene digitale Live-Übertragung starten.

Dies ist jedoch nur der Ausgangspunkt. Nach der Stimme des Ankerbildes gibt es auch die Umgebung des Live-Übertragungsraums, insbesondere verschiedene Skripte und Materialien für verschiedene Arten von Produkten … Das sind die „Schwellenwerte“.
„One-Click-Broadcasting“ ist wirklich One-Click. Nachdem Sie Huiboxing über die Baidu-App gefunden haben, können Sie die vier voreingestellten Skripttypen direkt sehen. Natürlich können Sie auch Ihre eigenen schreiben. Diese voreingestellten Skripte sind die beste Referenz.

Stellen Sie sich vor, dass ein Schmuckverkäufer unterschiedliche Stile verwendet, um dasselbe Produkt gleichzeitig in 10 Live-Übertragungsräumen vorzustellen – einen wissenschaftlichen Stil, um das Wissen über Edelsteine zu erklären, einen literarischen Stil, um die Geschichte hinter der Schmuckmarke zu erzählen, einen Verkaufsstil, um die Schwachstellen der Benutzer direkt anzusprechen und direkt Preisnachlässe anzubieten.
Das Anpassen von Skripten basierend auf der Persönlichkeit des Moderators und die Stärkung des Stils des Moderators sind die Stärken von Huiboxing, einschließlich der Modelle Wenxin 4.0, Wenxin 4.5 und DS-R1. Durch ausführliche und einfache Erklärungen wird die Popularisierung von Inhalten verbessert, Nutzer bleiben länger und Conversions im Live-Übertragungsraum werden verlängert, selbst Hotspots im Internet können in Echtzeit verfolgt und aktuelle Hot-Themen in Produkterklärungen integriert werden.

Fairerweise muss man sagen, dass Anker zwar überall zu sehen sind, die Ausdruckskraft jedes Ankers jedoch unterschiedlich ist, was durch seinen Wissensstand und sein Sprachausdrucksniveau begrenzt ist. Der digitale Mensch unterliegt diesen Bedingungen nicht mehr. Ihre Wissensreserven können unbegrenzt sein und ihre Ausdrucksfähigkeiten können sich je nach Situation flexibel ändern.
Eine „kontraintuitive“ Situation besteht darin, dass einige Händler von Gesundheits- und Wellnessprodukten lieber digitale Menschen einsetzen. Ping Xiaoli, Vizepräsident von Baidu und General Manager für Baidu E-Commerce, erwähnte, dass verbotene Wörter auftauchen könnten, weil Live-Moderatoren Versprecher machen könnten. Digitale Menschen können unter der Prämisse der Optimierung eine präzise Kontrolle erreichen. Einige vertikale Inhalte können durch die Einführung einer Wissensdatenbank gelöst werden.
Durch die Konfiguration der entsprechenden Umgebung, die Erstellung von Skripten und die flexible Anpassung der Übertragungsmethode an die Waren und Szenen kann die Hemmschwelle für Live-Übertragungen wirklich und effektiv gesenkt werden. Ob Wissenspopularisierung, Life-Sharing oder emotionale Beratung, es kann perfekt angepasst werden. Jeder Benutzer kann eine wunderschöne Transformation von „Video“ zu „Ankerklon“ erreichen. Dies ist der direkteste und klarste Wert und die deutlichste Bedeutung, die technologische Innovation mit sich bringt.
Live-Übertragung, das beste Szenario für die multimodale KI-Implementierung
Der neueste IDC-Bericht zeigt, dass Baidu Huiboxing hinsichtlich der umfassenden Stärke im Bereich der E-Commerce-Liveübertragung digitaler Menschen an erster Stelle steht. Das ist kein Zufall – Live-Streaming-E-Commerce ist genau das ideale Einsatzszenario für multimodale KI-Technologie. Dabei werden visuelle, auditive und interaktive Erlebnisse perfekt integriert und die vielfältigen Vorteile der KI-Technologie voll ausgenutzt.
Für die Live-Übertragungsbranche, die ohnehin schon ziemlich wettbewerbsintensiv ist, hat die digitale menschliche Technologie drei große Veränderungen mit sich gebracht:
1. Durchbruch im Maßstab
Im vergangenen Jahr hat Huiboxing mehr als 100.000 digitale Anker gezählt, was Händlern dabei geholfen hat, ihre durchschnittliche Conversion-Rate um 31 % zu steigern und die Einführungskosten um 80 % zu senken. Wenn es sich auf der Baidu-Website befindet und von der Plattform unterstützt wird, kann es nahezu kostenlos gestartet werden.
2. Ein neues Modell der Mensch-Maschine-Zusammenarbeit.
Digitale Menschen ersetzen nicht einfach echte Anker, sondern können die ursprüngliche Ankerarbeit abbauen und die ursprünglichen Prozesse integrieren. Bei herkömmlichen Live-Übertragungen müssen Operatoren und Moderatoren sowie Sendeassistenten, Feldcontroller usw. zusammenarbeiten. Digitale Menschen sind gleichbedeutend mit der Zusammenführung dieser Rollen, was für Klein- und Kleinstunternehmen nicht freundlicher sein kann.
3. Gehen Sie zu Amateuren
Nicht jeder ist gut darin, drei oder vier Stunden lang vor der Kamera zu reden. Allerdings hat die Technologie digitaler Menschen dazu beigetragen, dass immer mehr Amateure die Vorteile der KI nutzen können. Es ist nicht mehr nur auf „Videoersteller“ beschränkt, sondern verfügt über einen eigenen „Anker-Avatar“. Auch normale Menschen können ihr eigenes 24-Stunden-Leben ohne Unterbrechung verwirklichen und ihre eigenen Live-Übertragungen durchführen.
Unter den vielen Anwendungsszenarien der multimodalen KI-Technologie dürfte die Live-Übertragung der Bereich sein, der den kommerziellen Wert der Technologie am besten widerspiegelt. Denn kein anderes Szenario kann gleichzeitig so hohe Anforderungen an Bildtreue, natürliche Stimme, Echtzeit-Interaktion und Content-Erstellung stellen.
Dies spiegelt auch wider, dass das größte Highlight von Baidu Huiboxing darin besteht, dass es nicht nur das Problem des „Aussehens wie ein Mensch“ löst, sondern digitalen Menschen auch die Fähigkeit verleiht, zu „denken“ und „zusammenzuarbeiten“. Das bedeutet, dass KI nicht nur den Menschen nachahmt, sondern zu einem intelligenten Agenten wird, der in Live-Übertragungsszenarien selbstständig auf verschiedene Situationen reagieren kann.
Als nächstes steht den Nutzern von Live-Übertragungen eine disruptive interaktive Revolution bevor. Digitale Menschen mit hoher Überzeugungskraft können automatisch reagieren, Videomaterialien an die Atmosphäre des Live-Übertragungsraums anpassen und sogar Aufwärminteraktionen mit echten Menschen simulieren. Dieses intelligente Erlebnis verändert die Erwartungen der Verbraucher an Live-Übertragungen.
Für Praktiker ermöglicht die KI-Unterstützung den Fachleuten, sich auf die Kernwertschöpfung zu konzentrieren. Für Amateure, die immer noch darauf warten, zu sehen, wann Technologie nicht mehr auf ein paar Top-Moderatoren beschränkt ist, sondern zu einem Werkzeug wird, das jeder beherrschen kann, ist das, was Baidu vorantreibt, eine demokratisierte Revolution in der Erstellung von Inhalten und im kommerziellen Ausdruck.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von aifaner: aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo
