Am 14. Februar kündigte ByteDance die Veröffentlichung von Doubao Big Model 2.0 an, das drei allgemeine Agent-Modelle und Code-Modelle umfasst: Pro, Lite und Mini. Diese Serie ist systematisch auf die Anforderungen großer Produktionsumgebungen optimiert und zielt darauf ab, das multimodale Verständnis, die Ausführung komplexer Anweisungen und die Fähigkeiten zur Aufgabenverarbeitung über große Entfernungen zu verbessern.
Unter anderem ist Beanbao 2.0 Pro für Deep Reasoning und Long-Link-Aufgaben konzipiert und misst GPT 5.2 und Gemini 3 Pro; Die umfassenden Funktionen von 2.0 Lite übertreffen das Hauptmodell Beanbao 1.8 der vorherigen Generation; 2.0 Mini ist für Szenarien mit geringer Latenz, hoher Parallelität und kostensensiblen Anwendungen konzipiert. Die Code-Version ist speziell für Programmierszenarien konzipiert und kann in Verbindung mit dem KI-Programmierprodukt TRAE verwendet werden.
Doubao 2.0 wurde hinsichtlich der multimodalen Verständnisfähigkeiten umfassend verbessert und erreicht SOTA-Niveaus bei Aufgaben wie visuellem Denken, Wahrnehmung, räumlichem Denken und langem Kontextverständnis. In dynamischen Szenentests wie TVBench und EgoTempo schneidet es gut ab, wobei letzterer besser abschneidet als der menschliche Benchmark. Was das Verständnis langer Videos angeht, hat es in mehreren Streaming-Echtzeit-Frage- und Antwort-Benchmarks gut abgeschnitten.
In Bezug auf LLM- und Agentenfähigkeiten hat Doubao 2.0 Pro in wissenschaftlichen Feldbewertungen wie SuperGPQA und HealthBench mehr als GPT 5,2 erzielt und Goldmedaillen bei IMO, CMO Mathematical Olympiads und ICPC-Programmierwettbewerben gewonnen. Die Inferenzkosten sind etwa eine Größenordnung niedriger als bei den Spitzenmodellen der Branche.
Derzeit ist Doubao 2.0 Pro in der Doubao-App, auf dem PC und in der Webversion verfügbar. Benutzer können es erleben, indem sie den „Experten“-Modus auswählen. Das Code-Modell wurde mit der chinesischen TRAE-Version verbunden. Die Volcano Engine hat gleichzeitig API-Dienste für das Doubao 2.0-Modell eingeführt, die Unternehmen und Entwickler aufrufen können.
