鉅亨網新聞中心
在全球生成式人工智慧(AI)競爭加速之際,字節跳動正式宣布旗下「豆包」大模型邁入 2.0 階段,推出面向代理時代的系統性升級版本。
官方強調,新版本在整體性能上可對標 GPT-5.2 與 Gemini 3 Pro,同時將推理成本降低約一個數量級,為大規模生產環境下的複雜任務執行提供更具競爭力的解決方案。
字節跳動於周六(14 日)公布,豆包 2.0 系列涵蓋 Pro、Lite、Mini 三款通用代理模型,以及專門面向程式開發場景的 Code 模型。
其中,旗艦版本豆包 2.0 Pro 全面對標 GPT-5.2 與 Gemini 3 Pro,在多數視覺理解基準測試中達到業界最高水準,並在國際數學奧林匹克、中國數學奧林匹克與 國際大學生程式設計競賽中取得金牌。
目前,豆包 2.0 Pro 已全面上線,並接入豆包 App、電腦端與網頁版的「專家」模式;Code 版本則整合至 AI 程式設計產品 TRAE。同時,火山引擎也已同步推出面向企業與開發者的 API 服務。
業界分析指出,在真實世界的複雜任務中,大規模推理與長鏈路生成往往消耗大量 token,若能在維持高效能的同時顯著降低成本,將成為模型商業化落地的關鍵。
豆包 2.0 在多模態能力上進行大幅強化,無論是影像理解、感知判斷、空間推演,或長文本脈絡掌握,都展現明顯進步,整體表現躍升至業界前段班水準。
在動態情境辨識方面,該模型於 TVBench 等重要評測中名列前茅,並在 EgoTempo 測試中取得超越人類平均成績的表現,顯示其在解析畫面變化、人物動作與節奏轉換時,具備更高穩定度與準確度。
面對長時間影片內容,豆包 2.0 同樣展現強勁實力,在多項測試中領先其他主流模型,尤其在串流式即時問答相關基準評比中表現突出。
憑藉上述能力,豆包 2.0 得以升級為更具主動性的 AI 助理,不僅能即時分析影像內容、辨識環境變化,還能在互動過程中進行主動提醒與修正,甚至提供陪伴式回饋,讓使用情境從單純回應問題,進化為主動引導與建議,適用於健身指導、穿搭建議等日常陪伴場景。
在推理能力方面,豆包 2.0 Pro 透過強化長尾領域知識,在 SuperGPQA 測試中分數超越 GPT-5.2,並於 HealthBench 奪得第一名。在科學領域整體表現上,則與 Gemini 3 Pro 及 GPT-5.2 相當。
於代理能力與高難度推理評測中,該模型在國際數學奧林匹克、中國數學奧林匹克與國際大學生程式設計競賽中取得金牌成績,並在 Putnam Bench 上超越 Gemini 3 Pro 表現。
在人類的最後考試(Humanity’s Last Exam)測試中,豆包 2.0 Pro 則取得最高棻 54.2 分,於工具調用與指令遵循能力測試中亦表現優異。
更受市場關注的是,字節跳動表示,在維持與頂尖大模型相當效果的同時,豆包 2.0 的 token 定價降低約一個數量級,預計將在大規模推理與長鏈路生成場景中,大幅提升企業導入意願與商業化可行性。
與此同時,基於 OpenClaw 框架與豆包 2.0 Pro,字節跳動已在企業協作平台飛書上打造智慧客服代理。
該代理能透過調用不同技能完成客戶對話,遇到複雜問題時主動邀請真人同事加入群組協作,協助預約上門維修,並於事後主動回訪與推薦產品。
針對程式開發需求,豆包 2.0 Code 建構於 2.0 基礎模型之上,並針對程式設計場景進行專項優化,強化對大型程式碼庫的解析能力與應用生成效率,同時提升模型在代理工作流程中的自我修正與除錯表現。
目前該模型已作為內建核心模型,上線至 TRAE 中國版,並支援圖像理解與推理功能。
在實際案例中,開發者透過 TRAE 搭配豆包 2.0 Code,只需一次提示詞輸入,便能快速搭建「TRAE 春節小鎮 · 馬年廟會」互動專案的基本架構與場景設計;經過約五輪提示後,更是可完成整體專案開發。
該專案包括了 11 位由大型語言模型驅動的 NPC,能依據角色設定自然對話、主動招呼顧客並進行現場議價;AI 遊客也會自行決定造訪攤位、選購商品與互動內容,呈現高度擬真的虛擬市集體驗。相關提示詞與素材已於 GitHub 開源,供開發者測試與延伸應用。
目前,豆包 2.0 Pro 已於豆包 App、電腦端與網頁版推出「專家」模式,開放一般用戶使用;面向企業與開發者,火山引擎亦同步提供豆包 2.0 系列模型的 API 服務。
字節跳動表示,未來將持續以真實應用場景為核心,推動模型能力更新升級,進一步拓展智慧應用的邊界。
下一篇
