Das Doubao Deep Thinking Model ist offiziell veröffentlicht! Wie o3 kann er „durch das Betrachten von Bildern denken“ und verfügt außerdem über einen Agenten-Ultimate-Move.

Das Doubao Deep Thinking Model ist offiziell veröffentlicht! Wie o3 kann er „durch das Betrachten von Bildern denken“ und verfügt außerdem über einen Agenten-Ultimate-Move. - 2 12

Das Veröffentlichungstempo von KI-Modellen und -Produkten in den letzten zwei Monaten kann nicht als „sich mit jedem Tag ändernd“ beschrieben werden.

Die Popularität der GPT-4o-Graphgenerierung scheint erst gestern zu sein. OpenAI hat seine stärksten Inferenzmodelle o3 und o4 mini veröffentlicht, aber dies ist möglicherweise nicht die wichtigste KI-Veröffentlichung in diesem Monat. DeepSeek R2, Claude 4 von Anthropic und „Grok-3.5“ von Musk werden höchstwahrscheinlich diesen Monat nacheinander veröffentlicht.

Und erst heute hat Byte auch einen kompletten Satz von AI-Familien-Buckets veröffentlicht, darunter Deep-Thinking-Modelle, visuelles Denken, Vincentian-Diagramme, AI-Agenten … und deckt fast die Produkte ab, die in letzter Zeit im KI-Kreis die meiste Aufmerksamkeit erregt haben.

Werfen wir zunächst einen Blick auf die Produkte und Highlights, die Byte dieses Mal veröffentlicht hat:

1. Doubao 1.5 · Deep Thinking-Modell

  • Die Denkfähigkeit zählt zu den besten der Welt
  • Eine geringere Latenz unterstützt anspruchsvolle Anwendungen
  • Multimodales Verständnis und Anwendungsszenarien: unterstützt „Suchen beim Denken“ und „visuelles Denken“

2. Vinzentinisches Diagramm 3.0

  • Bild in 3 Sekunden
  • Natives 2K HD
  • Optimierung des Textlayouts und der Generierung kleiner Schriftarten
  • Verbesserte ästhetische Effekte und Bildstruktur

3. Doubao 1.5 neue Version des visuellen Verständnismodells

  • Genauere visuelle Positionierung
  • Videos intelligenter verstehen

4.KI-Agent

  • Vertikaler Anwendungsagent: Doubao bringt Chinas erste KI-IDE auf den Markt – Trae
  • OS-Agent: Kann Browser, Computer, Mobiltelefone oder andere Agenten bedienen, um komplexe Aufgaben zu erledigen

Die Produkt-Upgrades von Byte erzielen nicht nur Durchbrüche bei den Denkfähigkeiten und dem multimodalen Verständnis, sondern beschleunigen auch die Anwendung von KI in mehr Szenarien durch Agent.

Das Doubao Deep Thinking Model ist offiziell veröffentlicht! Wie o3 kann er „durch das Betrachten von Bildern denken“ und verfügt außerdem über einen Agenten-Ultimate-Move. - 1 11

Tan Dai, Präsident von Volcano Engine, sagte: „Wenn 2024 das erste Jahr von KI-Anwendungen in China ist, dann ist 2025 höchstwahrscheinlich das erste Jahr von KI-Agent-Anwendungen.“

Doubao 1.5 · Deep Thinking-Modell: „Suchen beim Denken“ + „Visuelles Denken“, denken und beobachten wie ein Mensch

Als Kern dieses Upgrades verfügt das Doubao 1.5·Deep Thinking Model über drei wichtige Upgrades: stärkerer Argumentationseffekt, extrem geringe Reaktionsverzögerung und umfassende multimodale Fähigkeiten.

Das Doubao Deep Thinking Model ist offiziell veröffentlicht! Wie o3 kann er „durch das Betrachten von Bildern denken“ und verfügt außerdem über einen Agenten-Ultimate-Move. - 2 12

Beim Test der Denkfähigkeit in Berufsfeldern hat das Doubao-Deep-Thinking-Modell das weltweit erste Niveau erreicht oder liegt nahe daran.

  • Was die mathematische Argumentation betrifft, liegt die Punktzahl im AIME 2024-Test mit der von OpenAI o3-mini-high gleichauf.
  • Im Hinblick auf die Programmierkonkurrenz liegt es im Codeforces pass@8-Test nahe an OpenAI o1.
  • Die Fähigkeit zum wissenschaftlichen Denken liegt im GPQA-Test ebenfalls nahe an o3-mini.

Das Doubao 1.5 Deep Thinking-Modell verwendet eine MoE-Architektur mit einem Gesamtparameter von 200 B, die Aktivierungsparameter betragen jedoch nur 20 B.

Dieses Design kann die Trainings- und Inferenzkosten erheblich reduzieren und gleichzeitig eine starke Leistung gewährleisten und eine extrem niedrige Latenz von 20 Millisekunden erreichen, was bedeutet, dass es besser in verzögerungsempfindlichen Echtzeit-Interaktionsszenarien eingesetzt werden kann.

Technischer Bericht zum Beanbao Deep Thinking Model
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

In der Praxis haben die beiden Funktionen „Suchen während des Denkens“ und „visuelles Denken“ des Doubao Deep Thinking-Modells einige Überraschungen mit sich gebracht, die derzeit im Vergleich zu ähnlichen Produkten ausgeprägter sind.

Die Funktion „Suchen beim Denken“ simuliert den Prozess, bei dem Menschen beim Lösen von Problemen denken und Informationen abrufen. Es bündelt Suche und Argumentation und führt mehrere Suchvorgänge basierend auf den Denkergebnissen jedes Schritts durch, wodurch die Antwort logischer und näher an den Anforderungen wird.

APPSO hatte vor nicht allzu langer Zeit auch eine detaillierte Erfahrung mit Doubaos tiefgreifendem Denken „Suchen beim Nachdenken“.

Am Beispiel des Einkaufsempfehlungsszenarios muss der Benutzer Campingausrüstung für eine dreiköpfige Familie auswählen und dabei mehrdimensionale Faktoren wie Budget, Sicherheit, Tragbarkeit und Wetteranpassungsfähigkeit berücksichtigen.

Das Deep Thinking-Modell von Doubao gibt nicht einfach nur Antworten, sondern führt wie ein Berater mehrere Such- und Denkrunden durch:

  • 1. Die erste Runde der Recherche von Preis- und Leistungsdaten zur Ermittlung des Grundsortiments
  • 2. Die zweite Suchrunde orientiert sich an den Bedürfnissen der Kinder und wählt sichere und geeignete Ausrüstung aus.
  • 3. In der dritten Runde werden Wetterfaktoren berücksichtigt, bitte prüfen Sie diese für eine detaillierte Auswertung.

Der gesamte Prozess ist transparent und Benutzer können sehen, wie das Modell Schritt für Schritt die Lösung aufbaut. Diese Fähigkeit zum „Denken und Suchen“ ist nicht nur auf Einkaufsentscheidungen anwendbar, sondern kann auch auf komplexe Entscheidungsszenarien wie Finanzanalysen und Reiseplanung angewendet werden.

Was die visuelle Denkfähigkeit des Doubao 1.5 Deep Thinking-Modells betrifft, so stimmt es mit OpenAI o3 überein, was es der KI ermöglicht, tiefgreifend auf der Grundlage von Bildern wie Menschen zu denken.

Bei der Aufgabe zur geografischen Standortschätzung identifizierte das Modell beispielsweise nicht nur den See im Bild, sondern bemerkte auch kleine Details wie Salzkristalle am Rande des Sees und umliegender Touristeneinrichtungen und lokalisierte den Standort des malerischen Ortes durch logische Überlegungen genau.

Die Bestellszene im Ausland ist repräsentativer und das Modell muss mehrere komplexe Faktoren gleichzeitig berücksichtigen: Berechnung von Preisumrechnungen in verschiedenen Währungen, Berücksichtigung der Ernährungspräferenzen von älteren Menschen und Kindern und Vermeidung von Zutaten, die Allergien auslösen können usw. Diese Fähigkeit geht weit über herkömmliche Einzelfunktionstools hinaus.

Die Fähigkeit zum visuellen Denken kann in Unternehmensbüroszenen tatsächlich eine wichtige Rolle spielen. Doubao kann komplexe Projektmanagement-Prozessdiagramme interpretieren, wichtige Informationen schnell finden und Fragen streng nach der Logik des Flussdiagramms beantworten.

Es ist ersichtlich, dass unabhängig davon, ob es sich um die Analyse von Finanzberichtsdiagrammen oder Produktbeschreibungsdiagrammen handelt, ein Verständnis auf professionellem Niveau nachgewiesen werden kann.

Doubao Wensheng Abbildung 3.0: Sprung von der Generation zur Schöpfung

Gemini 2.0 und GPT-4os „One Sentence to Generate Pictures“ haben eine neue Welle der Bildgenerierung ausgelöst. Dieses Mal hat Seedream 3.0, ein Beanbao-Bilderzeugungsmodell, Durchbrüche in drei Kernaspekten erzielt: Textsatz, Bildrealismus und hochauflösende Ausgabefunktionen.

Das Doubao Deep Thinking Model ist offiziell veröffentlicht! Wie o3 kann er „durch das Betrachten von Bildern denken“ und verfügt außerdem über einen Agenten-Ultimate-Move. - 3 11

In der Artificial Analysis Arena, der maßgeblichen Bewertung auf dem Gebiet der Vincentian-Grafik, hat Doubao Vincentia 3.0 nicht gegen Topmodelle wie GPT-4o, Imagen 3, Midjourney v6.1 und FLUX 1.1 Pro verloren und gehört zu den Spitzenreitern der Welt.

Das bedeutendste Upgrade von Seedream3.0 ist die direkte Generierung von Bildern mit 2K-Auflösung. Das Byte-Technologieteam verwendet eine gemischte Trainingsstrategie mit mehreren Auflösungen, um es dem Modell zu ermöglichen, sich an verschiedene Verhältnisanforderungen von Mobiltelefonbildschirmen bis hin zu riesigen Postern anzupassen und klare und qualitativ hochwertige Bilder ohne Nachverstärkungsverarbeitung auszugeben.

Diese native hochauflösende Fähigkeit bedeutet großen Komfort für professionelles Design und kommerzielle Anwendungen.

Gleichzeitig wird die Bildwiedergabe mit 1K-Auflösung auf 3 Sekunden reduziert. Diese effiziente Argumentationsfunktion profitiert von einer Reihe technischer Optimierungen, die es den Entwicklern ermöglichen, in Echtzeit ein interaktives Erlebnis zu schaffen, bei dem es darum geht, „das, was Sie denken, das zu bekommen, was Sie bekommen“. Für Szenarien wie Plakatgestaltung und visuelle Kreativität, die eine effiziente Kommunikation mit Partei A erfordern. Diese Geschwindigkeit ist sehr praktisch.

Der Satz kleiner chinesischer Schriftzeichen und langer Texte war schon immer ein Problem in der KI-Malerei. Doubao 3.0 löst nicht nur dieses Problem, sondern verbessert auch die Schönheit des Schriftsatzes auf ein professionelles Niveau. Nehmen Sie als Beispiel die Posterserie „Visual“. Der generierte Inhalt ist detailreich und schön getippt und erreicht kommerzielle Standards.

Das Doubao Deep Thinking Model ist offiziell veröffentlicht! Wie o3 kann er „durch das Betrachten von Bildern denken“ und verfügt außerdem über einen Agenten-Ultimate-Move. - 12 9

In Bezug auf die Porträtgenerierung ist das neue Modell durch Optimierung der Fehlererkennungsdaten und modalübergreifende Codierungstechnologie äußerst realistisch in Bezug auf Hauttextur, natürlichen Ausdruck, Kleidungstextur usw. und eliminiert nahezu die durch KI erzeugte „Verrücktheit“.

Derzeit ist Seedream 3.0 auf Plattformen wie Doubao und Jimeng vollständig geöffnet. Vielleicht möchten Sie es selbst ausprobieren.

Visuelles Verständnismodell: Vom Erkennen zum Verstehen

Das visuelle Verständnismodell von Doubao 1.5 hat vor allem in zwei Richtungen Durchbrüche erzielt: visuelle Positionierung und Videoverständnis.

Das Doubao Deep Thinking Model ist offiziell veröffentlicht! Wie o3 kann er „durch das Betrachten von Bildern denken“ und verfügt außerdem über einen Agenten-Ultimate-Move. - 4 14

In Bezug auf die visuelle Positionierung unterstützt das neue Modell erweiterte Funktionen wie die Positionierung mehrerer Ziele (Identifizierung mehrerer Objekte gleichzeitig), die Positionierung kleiner Ziele (Identifizierung sehr kleiner Objekte) und die universelle Zielpositionierung (nicht durch Kategorien vor dem Training eingeschränkt). Es kann auch eine Punktpositionierungszählung und eine 3D-Szenenpositionierung durchführen. Diese Fähigkeiten bilden eine solide Grundlage für Bereiche wie Robot Vision und autonomes Fahren.

Gleichzeitig hat das Modell umfassende Verbesserungen der Gedächtnisfähigkeit, der Fähigkeit zum Verstehen von Zusammenfassungen, der Fähigkeit zur Geschwindigkeitswahrnehmung und der Fähigkeit zum Verstehen langer Videos erzielt. Auf diese Weise können Benutzer semantische Suchen in Heimüberwachungsvideos durchführen, beispielsweise nach der Frage „Was hat das Kätzchen heute zu Hause gemacht?“ Das System kann relevante Clips finden und anzeigen.

Die Zukunft von AI Agent: Anwendung + Betriebssystem

Der zentrale Durchbruch von Doubao 1.5 spiegelt sich dieses Mal nicht nur in den Modellfähigkeiten wider, sondern, was noch wichtiger ist, es bietet KI-Agenten eine solide Grundlage, um darüber nachzudenken, „welche Probleme KI lösen sollte“, anstatt einfach nur technische Indikatoren zu verfolgen.

Tan Dai ist davon überzeugt, dass die Zusammensetzung des KI-Agenten in vertikale Anwendungsagenten und Betriebssystemagenten unterteilt werden kann.

Das Doubao Deep Thinking Model ist offiziell veröffentlicht! Wie o3 kann er „durch das Betrachten von Bildern denken“ und verfügt außerdem über einen Agenten-Ultimate-Move. - 5 15

Im Bereich Anwendungsagenten hat das Doubao-Team professionelle KI-Assistenten für verschiedene vertikale Szenarien eingeführt, darunter Kundendienstagenten, Datenagenten, Codeagenten usw. Diese Agenten konzentrieren sich auf Aufgaben in bestimmten Bereichen und verfügen über umfassende berufliche Fähigkeiten.

Am auffälligsten ist Trae, die erste KI-IDE in China. Im Gegensatz zu herkömmlichen KI-Plug-ins integriert Trae KI tief in integrierte Entwicklungsumgebungen und weist drei Kernmerkmale auf:

  1. Bereitstellung: orientiert sich an der Bereitstellung von Software und nicht nur an der Generierung von Code, ausgehend von den wesentlichen Anforderungen
  2. Intelligent: Kann Informationen und Absichten verstehen, selbstständig planen und reflektieren und Werkzeuge zur Ausführung von Aufgaben verwenden
  3. Zusammenarbeit: Möglichkeit zur mehrdimensionalen Zusammenarbeit mit Benutzern, um die Qualität des Endergebnisses sicherzustellen

Das Doubao Deep Thinking Model ist offiziell veröffentlicht! Wie o3 kann er „durch das Betrachten von Bildern denken“ und verfügt außerdem über einen Agenten-Ultimate-Move. - 6 11

Dieses Designkonzept ermöglicht es Trae, Entwicklern und Unternehmen dabei zu helfen, Softwareentwicklungsarbeiten schneller und genauer abzuschließen und so einen Sprung von der Code-Snippet-Generierung bis zur vollständigen Softwarebereitstellung zu erreichen.

Der OS Agent stellt ein höheres Maß an KI-Funktionen dar – er ist szenarioübergreifend vielseitig und flexibel und kann Browser, Computer, Mobiltelefone oder andere Agenten bedienen, um komplexe Aufgaben zu erledigen.

Der Kern der OS Agent-Lösung von Volcano Engine besteht aus dem Beanbao-Modell und den veFaaS-Produkten. Anhand von zwei Fällen können Sie seine leistungsstarken Fähigkeiten intuitiv verstehen:

In komplexeren Szenarien kann der OS Agent sogar professionelle Software bedienen. Sie können beispielsweise die professionelle Version von Jianying für die Videobearbeitung und den Soundtrack verwenden oder die Doubao-APP verwenden, um Inhalte zu generieren und diese auf Toutiao zu veröffentlichen; Auf dem Mobiltelefon können Sie die entsprechende APP bedienen, um Aufgaben wie die Buchung von Hochgeschwindigkeitsbahntickets zu erledigen.

Der Kern dieser Funktionen ist das neu veröffentlichte große GUI-Agent-Modell UI-Tars, das visuelles Verständnis des Bildschirms, logisches Denken, Positionierung und Bedienung von Schnittstellenelementen in einem einzigen Modell integriert und so die Einschränkungen herkömmlicher Automatisierungstools, die auf voreingestellten Regeln basieren, durchbricht. UI-Tars hat unter verschiedenen inländischen Modellen in Testsätzen wie OS World die besten Ergebnisse erzielt.

Kürzlich hat OpenAI Yao Shunyu in einem Artikel darauf hingewiesen, dass wir in die „zweite Hälfte“ der KI-Entwicklung eingetreten sind. Im Gegensatz zur ersten Hälfte konzentriert sich die zweite Hälfte nicht mehr ausschließlich auf Modellverbesserungen und technische Metriken, sondern befasst sich stattdessen mit der Definition wirklich wertvoller Probleme und der Messung tatsächlicher Fortschritte.

Es ist schwer zu sagen, ob es angesichts der rasanten und nichtlinearen Entwicklung der KI in der Vergangenheit angemessen war, das Internet in eine obere und eine untere Hälfte zu unterteilen, aber einige Veränderungen finden tatsächlich statt: Modelle werden nicht mehr als Zweck, sondern als Werkzeug zur Lösung praktischer Probleme verwendet.

Dies könnte die sogenannte „pragmatische Romanze“ innerhalb von Byte sein. Liang Rubo, CEO von Byte, betonte dieses Konzept bei der Mitarbeiterversammlung von Byte All Hands zu Beginn des Jahres.

Dies wurde ursprünglich von Zhang Yiming im Jahr 2019 vorgeschlagen. Er glaubt, dass pragmatische Romantik darin besteht, „Fantasie in die Realität umzusetzen, sich der Realität zu stellen und sie zu verändern“.

Dies wird auch Bytes Antwort auf die drastischen Veränderungen in der KI-Branche sein, die durch DeepSeek- und Agent-Produkte hervorgerufen werden.

# Willkommen beim offiziellen öffentlichen WeChat-Konto von Aifaner: Aifaner (WeChat-ID: ifanr). Weitere spannende Inhalte werden Ihnen so schnell wie möglich zur Verfügung gestellt.

Ai Faner | Ursprünglicher Link · Kommentare anzeigen · Sina Weibo