Das neu erschienene Doubao Big Model 1.6 hat mich vor Überstunden bewahrt! Es gibt auch ein Video-Tool, das Veo 3 übertrifft und weltweit führend ist
Inwieweit ist dieses große Modell involviert?
Wenn man auf das Tempo dieses Jahres zurückblickt, hat ByteDance fast jeden Monat neue Ideen und sogar mehr als ein Modell pro Monat. Es wurde ein Modell nach dem anderen auf den Markt gebracht, und diese sind nicht nur neu, sondern verfügen auch über echte Verbesserungen, die die Wettbewerbsschwelle der Branche weiter erhöhen.
Im Januar wurde das Modell Doubao 1.5 Pro auf den Markt gebracht.
Im April wurden das Deep-Thinking-Modell Doubao 1.5, das Wenshengtu-Modell 3.0 und das visuelle Verständnismodell gleichzeitig aktualisiert.
Im Mai werden das Videogenerierungsmodell Seedance 1.0 Lite, das visuelle Deep-Thinking-Modell und das Musikmodell Doubao 1.5 sowie Text, Bilder, Sounds und Bytes benötigt.
Auf der heute von Volcano Engine abgehaltenen Force Power Conference präsentierte die KI-Produktlinie von ByteDance weiterhin Produkte ohne jegliche Metaphysik, wobei der Schwerpunkt auf großen Mengen und sofortiger Nutzung lag.
Neue Modelle wie Doubao Big Model 1.6, das Videogenerierungsmodell Seedance 1.0 pro, DeepResearch, das Branchenberichte schreiben kann, und KI-Cloud-native Dienste wie die Agent-Entwicklungsplattform sind nacheinander erschienen.
Letztendlich verstehen Sie Transformer vielleicht nicht, aber Sie spüren auf jeden Fall, dass diese KI-Produkte den Menschen wirklich etwas bringen können.
Die Highlights des Produkt-Updates sind wie folgt:
Modelle der Doubao 1.6-Serie
- Verbesserte Denkfähigkeiten, die „Denken beim Suchen“ und „Deep Research“ unterstützen
- Hervorragende multimodale Verständnisfähigkeit, besseres Verständnis und Umgang mit realen Problemen
- Die GUI-Bedienung ist intelligenter und interagiert reibungslos mit anderen Tools
- Ausgezeichnetes Preis-Leistungs-Verhältnis
Videogenerierungsmodell Seedance 1.0 pro
- Mehrere Einstellungen und verschiedene Szenenwechsel, wodurch die Menge an Informationen und Erzählung erhöht wird
- Verbesserte Bewegungskontinuität, Bildstabilität und Gesamttextur
Doubao Big Model 1.6: Gut in Prüfungen, in der Lage, Hotels zu buchen und hohe Kostenleistung
Das Highlight dieser Konferenz ist die Doubao Big Model 1.6-Serie, die aus drei Modellen besteht.
Doubao-Seed-1.6: Ein umfassendes „All-in-One“-Modell
Es unterstützt Deep Thinking, multimodales Verständnis und die Bedienung einer grafischen Benutzeroberfläche. Deep Thinking verfügt über drei Modi: Ein, Aus und Automatisch. Im adaptiven Modus entscheidet das Modell automatisch, ob Deep Thinking je nach Schwierigkeitsgrad der Aufgabe aktiviert wird. Das spart Zeit und Token. Darüber hinaus ist es das erste Modell in China, das 256.000 Kontexte unterstützt.
Doubao-Seed-1.6-Denken: Eine erweiterte Version im Hinblick auf tiefes Denken
1.6 – Denken steht im Mittelpunkt dieses Upgrades. Die Denkfähigkeit wurde gestärkt, und das Gerät kann komplexe Aufgaben präziser verstehen und bewältigen. Es gibt weitere Verbesserungen in den Bereichen Kodierung, Mathematik, logisches Denken und Befolgen von Anweisungen. Es unterstützt außerdem 256.000 Kontexte und multimodales Denken.
Doubao-Seed-1.6-flash: Die schnellste Version der 1.6-Serie
Die Latenz ist extrem niedrig, sodass es sich sehr gut für Szenarien eignet, in denen eine geringe Latenz wichtig ist. Das Textverständnis ist besser als bei Doubao 1.5-lite und das visuelle Verständnis ist mit den Topprodukten anderer Hersteller vergleichbar.
Auf der Konferenz wurden für die Modelle der Doubao 1.6-Serie zahlreiche maßgebliche Bewertungsergebnisse bekannt gegeben. Insbesondere die Leistung des Doubao 1.6-Konzepts zählt zu den weltweit besten.
Denkfähigkeit
Prüfungen im Bereich Modellierung sind nichts Neues, aber es kommt selten vor, dass man dabei so gute Ergebnisse erzielt wie an der Peking-Universität oder der Tsinghua-Universität.
Im Bereich der logischen Denkfähigkeit hat Doubao 1.6 im Vergleich zu Vorgängermodellen deutliche Fortschritte gemacht. Bei der neuen nationalen Hochschulaufnahmeprüfung erreichte Doubao in diesem Jahr 144 Punkte in den Mathematikfragen und belegte damit den ersten Platz im Land. Im Haidian-Simulationstest erreichte Doubao 1.6 in diesem Jahr sowohl in den Geistes- als auch in den Naturwissenschaften über 700 Punkte (im Vergleich zu 500 bis 600 Punkten im Vorjahr).
Eine der Besonderheiten von Doubao im Bereich des logischen Denkens besteht darin, dass es nicht nur selbstständig denkt, sondern auch „suchen kann, während man denkt“. Es zerlegt zunächst das Problem, findet die Schlüsselinformationen, führt eine Denkrunde durch und führt dann basierend auf den fehlenden Informationen mehrere Suchrunden durch.
Als Doubao beispielsweise gebeten wurde, „die Verbreitung von Insekten und häufig vorkommenden Arten in der Provinz Guangdong detailliert zu beschreiben und in Form eines Forschungsberichts darzustellen“, befasste sich das Unternehmen zunächst eingehend mit den Formatanforderungen des Forschungsberichts und legte dann rasch den Rahmen für die Sortierung fest. Anschließend war Doubao der Ansicht, dass „der Inhalt durch konkrete Daten und Beispiele untermauert werden muss“, und begann daher, selbstständig nach Daten zur natürlichen Umwelt in der Provinz Guangdong und früheren entsprechenden Forschungsarbeiten zu suchen.
Auf dem Treffen wurde auch erwähnt, dass Doubao derzeit die DeepResearch-Funktion testet. Früher benötigten Fachleute mehrere Stunden oder Tage, um einen professionellen Bericht zu verfassen, Doubao hingegen schafft dies in 5 bis 30 Minuten. Außerdem kann es Informationen automatisch extrahieren und auf einer Webseite zusammenfassen, die die Nutzer einsehen können.
Um Unternehmensbenutzern außerdem die Verwendung der Funktionen „Denken beim Suchen“ und „DeepResearch“ zu erleichtern, wurde auf der offiziellen Website von Volcano Engine ein großes Modellanwendungslabor eingerichtet und der Code als Open Source freigegeben, sodass Benutzer ihre eigenen KI-Anwendungsprototypen erstellen und ihre eigenen intelligenten Einheiten flexibel orchestrieren können.
Multimodale Verständnisfähigkeit
Die gesamte Doubao 1.6-Serie unterstützt nativ multimodale Denkfähigkeiten, wodurch das Modell reale Probleme besser verstehen und bewältigen kann.
Multimodales Verständnis unterstützt Doubaos neueste Funktion „Videoanruf in Echtzeit“. Auf Unternehmensseite kann sie vielseitig eingesetzt werden, beispielsweise bei Produktbewertungen im E-Commerce, der Kennzeichnung autonomer Fahrzeuge, Sicherheitsinspektionen und anderen Szenarien.
Mithilfe des Modells können beispielsweise standardisierte Überprüfungen der von Händlern hochgeladenen Bilder durchgeführt oder Preise ähnlicher Produkte schnell verglichen werden.
Im Automobilbereich können Modelle verwendet werden, um die Fahrtrichtung und Fahrabsicht eines Autos genauer zu erkennen und aus riesigen Mengen an Straßendaten bestimmte Segmente auszuwählen, um nachfolgende Modelle für autonomes Fahren zu trainieren.
In eher Offline-Szenarien kann Doubao die Informationen im Bild genau lokalisieren und zählen und so Aufgaben wie Sicherheitsinspektionen und Ladeninspektionen erledigen.
Lassen Sie Doubao beispielsweise mithilfe von 1.6-Denken prüfen, ob das Nichttragen eines Helms auf einem Höhlenerkundungsfoto potenzielle Sicherheitsrisiken birgt. Durch gründliches Denken kann es nicht nur die Anzahl der auf dem Bild getragenen Helme genau zählen, sondern auch überraschenderweise weiter über die Frage nachdenken: „Ist das Tragen eines Helms sicher?“ und anschließend analysieren, ob die Helme auf dem Bild richtig getragen werden, ob die Kleidung angemessen ist, ob die Beleuchtungsausrüstung vollständig ist, ob der sichere Gehabstand angemessen ist usw. und schließlich die Priorität der Korrektur festlegen.
GUI-Bedienungsfähigkeit
Dank seiner führenden Fähigkeit zum visuellen Deep Thinking und seiner präzisen visuellen Positionierung ermöglicht Doubao 1.6 intelligenten Agenten die reibungslose Interaktion und Bedienung mit Browsern und anderen Tools sowie die effiziente Durchführung von Aufgaben wie der Überprüfung von Hotelreservierungen und der Ticketsortierung.
Die GUI-Bedienung des Modells ersetzt nicht nur das bequeme Klicken mit den Fingern auf die App, sondern kann auch die Einschränkungen herkömmlicher Apps und GUIs durchbrechen, um die grundlegenden Bedürfnisse der Menschen intelligenter und automatischer zu erfüllen.
Kosteneffizienz
Doubao Big Model 1.6 verwendet ein einheitliches Preismodell. Unabhängig davon, ob der Deep-Thinking-Modus aktiviert ist oder nicht, ob es sich um Text oder Bild handelt, ist der Preis der Token derselbe und der Preis basiert auf dem Längenbereich des Eingabekontexts.
Im von den meisten Unternehmen verwendeten Eingabebereich von 0–32.000 beträgt der Preis 0,8 Yuan/Million Token für die Eingabe und 8 Yuan/Million Token für die Ausgabe.
Im Eingabebereich von 32.000 bis 128.000 beträgt der Preis 1,2 Yuan/Million Token für die Eingabe und 16 Yuan/Million Token für die Ausgabe.
Im Eingabebereich von 128.000 bis 256.000 beträgt der Preis 2,4 Yuan/Million Token für die Eingabe und 24 Yuan/Million Token für die Ausgabe.
Aus Sicht der Gesamtkosten liegen die meisten Anforderungseingaben unter 32.000, und das Input-Output-Verhältnis beträgt 3:1. Die Gesamtkosten des Doubao Large Model 1.6 (2,6 Yuan) sind 63 % niedriger als die Gesamtkosten des Doubao Large Model 1.5 Deep Thinking Model und DeepSeek R1 (7 Yuan). Das bedeutet, dass Sie ein neues Modell mit leistungsstärkeren Funktionen und nativer Multimodalität für nur ein Drittel des ursprünglichen Preises nutzen können.
Dieses Mal hat Volcano Engine außerdem eine spezielle Rabattzone eingeführt. Bei Anfragen mit einem Input von 32.000 und einem Output von weniger als 200 Token wird der Preis für das Doubao Large Model 1.6 weiter auf 0,8 Yuan/Million Token für den Input und 2 Yuan/Million Token für den Output reduziert. Dies entspricht den Anforderungen der meisten nicht denkenden Modelle, und Sie können das neue Modell mit besseren Effekten beruhigt nutzen.
Seedance 1.0 pro ist jetzt verfügbar: Sie können Blockbuster-Filme drehen, ohne Geld auszugeben
Zusätzlich zu den Modellen der Doubao Big Model 1.6-Serie stellte Volcano Engine auf dieser Pressekonferenz auch ein neues Videogenerationsmodell Seedance 1.0 Pro vor.
Die erste erwähnenswerte Änderung bei diesem Modell ist der Durchbruch in der Objektivsprache.
Das Modell unterstützt Text- und Bildeingabe und kann hochwertige 1080p-Videos mit nahtlosem Mehrobjektivwechsel generieren. Seedance 1.0 Pro konzentriert sich auf Multi-Action-Anwendungsfälle und freie Kamerabewegungen. Es unterstützt nicht nur die Erstellung von 10-Sekunden-Videos mit 2-3 Objektivwechseln, sondern wechselt auch zwischen Totalen, Halbtotalen und Nahaufnahmen und verbessert so den Informationsgehalt und die Erzählweise des Videos erheblich.
Darüber hinaus behält das neue Modell mit dem mehrdimensionalen Datensatz und dem Feedback-Lernmechanismus, der in der Nachtrainingsphase eingeführt wird, ein sehr hohes Niveau in Bezug auf Bewegungskontinuität, Bildstabilität und Gesamttextur bei.
Das neue Videomodell von Doubao endet nicht mit der Demophase. Ob es um die Erstellung von Produktwerbung, die schnelle Erstellung von Storyboard-Skizzen oder die Möglichkeit für Kunden geht, Spielfiguren und Plot-Videos zu erstellen – Doubaos neues Videomodell nähert sich Schritt für Schritt diesen produktivsten Szenarien.
Die Rangliste von Artificial Analysis, einer unabhängigen Bewertungsagentur, zeigt, dass Seedance 1.0 derzeit sowohl im chinesischen als auch im englischen Ranking das bestplatzierte Modell ist.
In der Wensheng-Videoliste hat Seedance 1.0 einen ELO-Score von 1299 und übertrifft damit Googles Veo 3 Preview, Veo 2 und Kuaishous Keling-Serie. In der Tusheng-Videoliste hat Seedance 1.0 einen ELO-Score von 1343 und übertrifft damit Runway Gen 4, Keling 2.0 usw. und ist unbesiegbar.
Während die Leistung maximiert wird, ist der Preis überraschend bodenständig.
Mit einem Budget von 10.000 RMB können Sie mit Seedance 1.0 Pro 2.725 Videos (5 Sekunden 1080p) erstellen, was der Erstellung von 9.708 Videos (5 Sekunden 720p) mit Seedance 1.0 Lite entspricht. Im Vergleich dazu liegt die Ausgabe von Konkurrenzprodukten wie KeLing v2.1 Master Edition und Veo2 (5 Sekunden 1080p) bei weniger als 1.000.
Zusätzlich zum Videogenerierungsmodell hat Doubao gleichzeitig auch ein umfassendes Echtzeit-Sprachmodell eingeführt, das Anthropomorphismus und semantische Kontrolle auf ein neues Niveau hebt.
Es kann Ton, Lautstärke usw. flexibel an den Kontext anpassen, unterstützt ausdrucksstarke Sprachinteraktionen wie Singen und Flüstern und unterstützt sogar lokale Dialekte, darunter den Sichuan-Dialekt. Während der Live-Demonstration sang das Doubao-Stimmmodell auch „Der Mond repräsentiert mein Herz“. Wissen Sie, das klingt wirklich interessant.
Im Hinblick auf konkrete Anwendungsszenarien hat Doubao neben der Zusammenarbeit mit Mercedes-Benz zur Entwicklung der Sprachinteraktion im Auto auch ein „Podcast-Generationsmodell“ auf Basis von Echtzeit-Sprachtechnologie auf den Markt gebracht, das komplexe Sprachstrukturen wie natürliche Gespräche, Unterbrechungen und Pausen zwischen mehreren Personen unterstützt.
Es kann Eingabeinhalte (Eingabeaufforderung, Weblink, Langtext) automatisch erkennen und dann automatisch ein vollständiges Podcast-Skript + anthropomorphen Audioinhalt generieren. Vom Rhythmus über die Einwürfe bis hin zum Ton eines vor Ort demonstrierten Podcast-Clips ist KI kaum spürbar.
2025 ist das erste Jahr des Agenten. Die tatsächliche Integration eines Agenten in das Unternehmenssystem ist zu einem praktischen Problem für alle Hersteller geworden.
Um die Entwicklung und Anwendung von Agenten besser zu unterstützen, hat Volcano Engine auf einen Schlag ein komplettes Set an KI-Cloud-nativen Full-Stack-Produkten auf den Markt gebracht, von MCP-Diensten, intelligenten PromptPilot-Prompt-Tools, KI-Wissensmanagementsystemen über veRL-Reinforcement-Learning-Frameworks bis hin zu multimodalen Datenseen, AICC-Private-Computing und großen Modell-Anwendungs-Firewalls.
Tan Dai, Präsident von Volcano Engine, betonte die Bedeutung von „Sicherheit“ für Agentic AI und stellte zwei KI-Sicherheitsprodukte vor, die in Kürze auf den Markt kommen: „AICC Confidential Computing“ und „Large Model Application Firewall“.
Unter anderem kann AICC Confidential Computing Unternehmen ermöglichen, Cloud-Dienste sicher und konform zu nutzen, genau wie bei der Verwendung privater Modelle, und gleichzeitig den Argumentationseffekt sicherzustellen.
Die Anwendungsfirewall im Großmodell ist von „Volcano Ark“ abgeleitet und kann Angriffsvarianten mit geringer Latenz und hoher Präzision abfangen, wodurch ein sicherer und zuverlässiger Argumentationsraum für intelligente Unternehmensanwendungen entsteht.
Während der gesamten Pressekonferenz hat Volcano Engine die AGI-Thematik nicht weiter vertieft. Stattdessen brachte das Unternehmen seine Perspektive zurück in die Gegenwart und konzentrierte sich auf KI-Produkte, die bereits heute in Produktionsumgebungen implementiert, eingesetzt und ausgeführt werden können.
In den letzten sechs Monaten hat sich in der Branche immer deutlicher herauskristallisiert, dass die zweite Hälfte der KI eigentlich die erste Hälfte des Produkts ist. Parameterunterschiede werden weiterhin eliminiert, aber die Anrufeffizienz, der Integrationspfad und die Nutzungskosten des Produkts werden die Benutzerbindungsrate bestimmen.
Aus diesem Grund hat Volcano Engine auf der heutigen Pressekonferenz neben dem Doubao Big Model 1.6 und dem Videogenerierungsmodell Seedance 1.0 pro gleichzeitig eine Reihe von Produktfunktionen vorgestellt, die nicht so explosiv klingen, aber äußerst wichtig sind.
Vom Modellaufruf über die Kombination spezifischer Szenarien bis hin zur sicheren und stabilen Ausführung im geschlossenen Kreislauf müssen diese Funktionen miteinander verbunden werden, um ein wirklich nutzbares KI-Produktionssystem zu bilden.
Es ist vielleicht nicht das auffälligste, aber möglicherweise das praktikabelste und dem Thema „Benutzerfreundlichkeit“ am nächsten.
Autor: Wang Xin, Mo Chongyu
#Willkommen beim offiziellen öffentlichen WeChat-Konto von iFanr: iFanr (WeChat-ID: ifanr), wo Ihnen so bald wie möglich weitere spannende Inhalte präsentiert werden.