Erste Veröffentlichungserfahrung |. Baidu hat zwei neue Modelle zum Benchmarking von DeepSeek auf den Markt gebracht. Ich habe sie gebeten, Wassermelonen zu pflücken und Grillgerichte zu verkaufen.
War es letztes Jahr ohne ein selbst entwickeltes GPT-4-Modell unmöglich, Fortschritte zu machen, so ist die Entwicklungsrichtung der KI in diesem Jahr konkreter geworden – auch ohne ein Deep-Inference-Modell ist es unmöglich.
Dies hat auch eine neue Runde des Wettbewerbs zwischen großen Herstellern in der KI-Erzählung angeregt. Zusätzlich zum Zugriff auf DeepSeek haben Tencent Yuanbao, Alibaba usw. intensiv ihre eigenen Deep-Thinking-Modelle auf den Markt gebracht, um im KI-Zeitalter um Superanwendungen zu konkurrieren.
Baidu ist keine Ausnahme. Seit Anfang des Jahres haben seine Produkte wie Baidu Wenku und Wen Xiaoyan App sukzessive das DeepSeek-R1-Modell integriert.
Natürlich sind selbst entwickelte Modelle und der Zugang zu DeepSeek keine gegensätzlichen Entscheidungen, und es besteht keine Notwendigkeit, eine Entweder-Oder-Entscheidung zwischen beiden zu treffen.
Am zweiten Jahrestag von Wen Xin Yiyans Debüt veröffentlichte Baidu heute offiziell das Wen Xin Large Model 4.5 und APPSO wurde ebenfalls eingeladen, es vorab zu erleben.
Eine kurze Zusammenfassung der „Charakterdesigns“ dieser beiden Modelle:
- Textuelles großes Modell 4.5: Natives multimodales großes Basismodell, gut zum Generieren oder Interpretieren von Bildern und zum Beantworten von Fragen
- Deep Thinking X1: Deep Thinking-Modell, unterstützt den Aufruf mehrerer Tools
Auf der offiziellen Website von Wen Xin Yi Yan wurden zwei Modelle zur kostenlosen Nutzung vorgestellt
https://yiyan.baidu.com
Wie stark ist die multimodale Fähigkeit von Wenxin 4.5 beim Pflücken von Wassermelonen, beim Verstehen von Memes und beim Identifizieren alter Gemälde?
Lassen Sie uns zunächst über Wenxin 4.5 sprechen. Als großes natives multimodales Basismodell hat es mir hinsichtlich der multimodalen Erkennungs- und Verständnisfähigkeiten viele Überraschungen beschert.
Wenn es um den klassischen Auswahlprozess für Wassermelonen geht, bietet Wenxin 4.5 verschiedene Beurteilungskriterien wie Farbe, Streifen, Geräusche, Melonenfelder usw. Als reifer und pragmatischer KI-Melonenbauer traut er sich jedoch nicht, etwas zu sagen.
Die Worte sind grob, aber man kann nur herausfinden, welche Wassermelone am süßesten ist, indem man sie anschneidet und probiert.
Was die Identifizierung von „Memes“ angeht, ist Wenxin 4.5 ebenfalls sehr gut darin. Als es ein Emoticon hinzufügte, um das Wasser zu testen, erkannte es erfolgreich die Identität des Schweinemanns. Als es darum ging, ein anderes Emoticon zu identifizieren, verstand Wenxin 4.5 nicht nur die wörtliche Bedeutung, sondern erfasste auch die Metaphern und Konnotationen dahinter genau.
Hier ist ein kleiner Trick: Zusätzlich zur grundlegenden Freigabefunktion können die Antworten mit einem Klick in Baidu Netdisk gespeichert oder Dokumente automatisch generiert werden. Wenn Sie auf die göttlichen Antworten stoßen, können Sie diese auch jederzeit speichern, und die Betriebsverbindung ist recht reibungslos.
Testen Sie Ihr Verständnis erneut und beginnen Sie mit Denksportaufgaben.
„Gibt es ein Wort, das jeder falsch ausspricht? Was ist das?“ Er beantwortete diese Frage locker, ohne sich darin zu verstricken. Der logische Denkprozess war klar und er stellte auch ein paar Folgefragen, die zum Thema passten.
Welches ist größer, 9,8 oder 9,11? Ein Kinderspiel. Ich habe jedoch mehrmals hintereinander „Wie viele Rs gibt es in Strawberry“ getestet, und die Sicherheit lief über den Bildschirm, fiel aber auch nacheinander um.
Hier kommt eine physikalische Frage, die sowohl die Rechenfähigkeit als auch die Fähigkeit zur Bilderkennung testet. Es analysiert zunächst in aller Ruhe die Struktur, zerlegt dann die Optionen nacheinander und legt schließlich fest die richtige Antwort D fest. Der Prozess ist fundiert und erinnert ein wenig an einen „Repräsentanten des Physikunterrichts“.
In meinem täglichen Leben stoße ich oft auf einige alte Gemälde oder Film-Screenshots unbekannter Herkunft. Die häufigste Art, dies zu tun, besteht darin, begeisterte Internetnutzer im Kommentarbereich um Hilfe zu bitten. Jetzt kann ich es vielleicht Wenxin 4.5 zum Ausprobieren geben.
Auch wenn die Online-Suchfunktion nach dem Test ausgeschaltet ist, können Fragen immer noch präzise beantwortet werden.
Neben Bildern ist auch die Audioerkennung eindeutig. Ich habe zum Beispiel zufällig ein Stück „Sunny Day“ mit meinem Handy aufgenommen und es hat das Lied sofort anhand des Liedtextes erkannt. Allerdings kann man sich darauf nicht verlassen, wenn es um zu unbeliebte und Nischenlieder geht.
Darüber hinaus gibt es an der Zusammenfassungsfähigkeit von Wenxin 4.5 kaum etwas zu bemängeln, sei es das Hochladen von Technologiebranchenberichten oder das 44-sekündige Demonstrationsvideo der neuesten Robotererrungenschaften, die Li Feifei vor einiger Zeit auf der X-Plattform veröffentlicht hat.
Im November letzten Jahres veröffentlichte Baidu die iRAG-Technologie, eine durch den Abruf verbesserte Vincent-Graph-Technologie, die sich auf eine halluzinationsfreie und ultrarealistische Darstellung konzentriert.
Sein Kernprinzip besteht darin, die milliardenschweren Bildressourcen von Baidu Search mit leistungsstarken Grundmodellfunktionen zu kombinieren, um durch den Abruf echter und zuverlässiger Bilddaten eine genaue Referenz für die Bilderzeugung bereitzustellen. Jetzt unterstützt Wenxin 4.5 auch das Generieren von Bildern.
Beispielsweise schwankte der Marktwert von Tesla in letzter Zeit heftig. Also fand ich einen Ausweg für Musk, den reichsten Mann der Welt, und bat Wenxin 4.5, ein Foto von „Musk, der nachts an einem Stand Grillgerichte verkauft“ zu erstellen.
Der Grillstand braucht noch ein Foto, also keine Sorge, er unterstützt auch teilweises Neuzeichnen und die Detailanpassung ist sehr benutzerfreundlich.
Allerdings muss die Textgenerierung noch verbessert werden. Ich wollte beispielsweise ein „Marovian-Zeichen“ für Musk „neu zeichnen“, aber entweder war der Text unscharf und schwer lesbar, oder die Position war falsch ausgerichtet.
Langsames Denken ≠ langsam, X1 eröffnet den richtigen Weg zur Verwendung des Deep-Argument-Modells?
Lassen Sie uns über das heute von Baidu eingeführte Deep-Inference-Modell X1 sprechen. Dies ist offensichtlich ein Modell, das DeepSeek R1 misst.
Der offiziellen Einführung zufolge ist das Textmodell
Wenn Sie es eilig haben, überlassen Sie das Problem Wenxin 4.5, und komplexe und lange Aufgaben werden von X1 erledigt, das über stärkere Fähigkeiten zum tiefgreifenden Denken verfügt.
Nehmen Sie als Beispiel die Empfehlung von Delikatessen aus Guangzhou. Wenxin 4.5 hat nur einige allgemeine Delikatessennamen wie „Reisbrötchen“ und andere oberflächliche Antworten gekritzelt, während X1 sich direkt in einen „fürsorglichen Reiseleiter“ verwandelt hat, der One-Stop-Shop-Namen + Adressen bietet und die Gedanken der Touristen besser versteht.
Angesichts des klassischen Trolley-Problems ist die Denkzeit von X1 nicht zu langsam, die Analyse ist prägnant und die Ergebnisse werden aus der Perspektive verschiedener ethischer Systeme diskutiert. Die Tiefe und Breite sind online.
Kommen wir zu einer komplexeren Frage des logischen Denkens: Auch die Leistung des X1 ist bemerkenswert.
Der Aufruf mehrerer Tools ist eine der Funktionen von Text Center X1.
Beamte sagten, dass X1 die erweiterte Suche, Fragen und Antworten zu Dokumenten, Bildverständnis, KI-Zeichnung, Code-Interpreter und andere Tools freigeschaltet habe.
Ich hatte plötzlich eine Idee und habe ein herzförmiges Bild hochgeladen. Es schien einfach, aber eine ziemliche Herausforderung zu sein. Schließlich erfordert das Extrahieren mathematischer Informationen aus Bildern ein hohes visuelles Verständnis und logische Verarbeitungsfähigkeiten.
Was das Ergebnis betrifft, konnte der Inhalt der Formel erfolgreich extrahiert und die Bedeutung der Formel erklärt werden.
Die Fähigkeit zur komplexen Textgenerierung ist auch ein Highlight von X1. Ich habe X1 zunächst gebeten, ein 500-Wörter-Skript mit dem Thema „Lin Daiyu entwurzelt die Trauerweide“ zu erstellen, behält die Charaktereigenschaften von Lin Daiyu bei und beinhaltet auch dramatische Konflikte und Wendungen.
Unmittelbar danach habe ich X1 weiter gebeten, das Drehbuch aus psychologischer Sicht zu analysieren und auf dieser Grundlage ein neues Drehbuch mit 1.000 Wörtern zu verfeinern.
Die Aufgabe ist dieses Mal offensichtlich komplexer. Die von X1 verwendete Theorie ist zwar nicht besonders tiefgreifend, aber es ist sehr selten, dass ein KI-Modell in kurzer Zeit eine solche interdisziplinäre Interpretation durchführen kann. Natürlich ist es nicht ohne Mängel. Die Wortanzahl entspricht nicht den Anforderungen.
Im Vergleich zu Deepseek, das voller „inflationärer“ sozialwissenschaftlicher Fachsprache ist, ist die Sprachausgabe von X1 offensichtlich zurückhaltender und der Ausdruck ist sanfter und bodenständiger, mit etwas mehr Wärme, die die Herzen der Menschen berührt.
DeepSeek ist gut im umfassenden Denken und strebt nach technischer Tiefe und Breite des Denkens, aber seine Sprache ist etwas entfremdet.
Der Technologie-Blogger Alexander Doria vertrat kürzlich den Standpunkt, dass der nächste Entwicklungszyklus im Bereich der KI „das Modell selbst ist das Produkt“ sein wird. Wer mit dem Modelltraining umgehen kann, wird die Zukunft kontrollieren.
Er zitierte auch die Vorhersage des Databricks-Investors Naveen Rao:
„In den nächsten zwei bis drei Jahren werden Closed-Source-KI-Anbieter die Bereitstellung von API-Diensten einstellen. Nur Open-Source-Modelle werden weiterhin APIs bereitstellen, und Closed-Source-Unternehmen werden sich dem Aufbau einzigartigerer Fähigkeiten zuwenden.“
Rückblickend auf den Inlandsmarkt ist die Leistung von Baidu recht repräsentativ.
Seit der Veröffentlichung von Wenxin Yiyan vor zwei Jahren hat Baidu seine Investitionen in selbst entwickelte Modelle mit einem stetigen Iterationsrhythmus weiter erhöht. Das Debüt von Wenxin 4.5 und X1 ist auch die beste Fußnote zum Trend „Modell als Anwendung“.
Ersteres stützt sich auf Billionen von Parametern, um multimodale Fähigkeiten direkt anzugreifen, während letzteres langsames Denken und den Aufruf mehrerer Tools nutzt, um seine Denkfähigkeiten unter Beweis zu stellen. Dieses differenzierte Funktionslayout entspricht genau den unterschiedlichen Bedürfnissen der Benutzer und verwandelt das Modell selbst von einem rein technischen Kern in ein „Produkt“, das direkt verwendet werden kann.
Rückblickend haben Baidus technologische Anhäufung im Suchzeitalter und seine Transformationsversuche im Zeitalter des mobilen Internets es ihm ermöglicht, an der Spitze zu stehen, aber aufgrund von Rhythmuskontrolle oder Marktwettbewerb auch einige Chancen verpasst.
Angesichts der aktuellen Situation ist Baidu vor zwei Jahren zweifellos der „Prometheus“, der Feuer auf dem chinesischen Markt am besten einzusetzen weiß, wenn man KI mit „Feuer“ vergleicht. Doch wie schon in der Vergangenheit stand Baidu als „Whampoa-Militärakademie“ der chinesischen KI früh auf und eilte zum Abendtreffen.
Dies ist untrennbar mit dem Trend des Ökosystems der KI-Branche verbunden.
Sam Altman, CEO von OpenAI, prognostizierte letzten Monat, dass die Kosten für den Einsatz von KI auf festem Niveau etwa alle 12 Monate um 90 % sinken werden.
Der rasche Kostenrückgang hat die hohen Hürden für das Überleben des Closed-Source-Modells geschwächt und den Burggraben des Technologiemonopols allmählich flacher gemacht. Gleichzeitig ist das Open-Source- und kostenlose Modell aufgrund seiner niedrigen Schwelle und hohen Zugänglichkeit zu einer neuen Möglichkeit geworden, Benutzer anzuziehen und den technologischen Einfluss zu erweitern.
Die schnelle Verbreitung von DeepSeek und Manus in kurzer Zeit zeigt auch, dass es derzeit keine nennenswerten Hindernisse für KI-Produkte gibt. Benutzer werden sich ohne Nostalgie dem besseren Erlebnis zuwenden.
Ob Baidu, andere große Unternehmen oder unabhängige Entwickler, es scheint, dass wir in die rücksichtslose Ära des Aufstiegs des mobilen Internets zurückgekehrt sind.
# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr) wird Ihnen so schnell wie möglich zur Verfügung gestellt.
Ai Faner |. Ursprünglicher Link · Kommentare anzeigen · Sina Weibo