A股港股

字節跳動「豆包 2.0」上線！性能對標GPT-5.2、Gemini 3 Pro 但成本更低

鉅亨網新聞中心2026-02-15 19:00

在全球生成式人工智慧（AI）競爭加速之際，字節跳動正式宣布旗下「豆包」大模型邁入 2.0 階段，推出面向代理時代的系統性升級版本。

官方強調，新版本在整體性能上可對標 GPT-5.2 與 Gemini 3 Pro，同時將推理成本降低約一個數量級，為大規模生產環境下的複雜任務執行提供更具競爭力的解決方案。

‌

字節跳動於周六（14 日）公布，豆包 2.0 系列涵蓋 Pro、Lite、Mini 三款通用代理模型，以及專門面向程式開發場景的 Code 模型。

其中，旗艦版本豆包 2.0 Pro 全面對標 GPT-5.2 與 Gemini 3 Pro，在多數視覺理解基準測試中達到業界最高水準，並在國際數學奧林匹克、中國數學奧林匹克與國際大學生程式設計競賽中取得金牌。

目前，豆包 2.0 Pro 已全面上線，並接入豆包 App、電腦端與網頁版的「專家」模式；Code 版本則整合至 AI 程式設計產品 TRAE。同時，火山引擎也已同步推出面向企業與開發者的 API 服務。

業界分析指出，在真實世界的複雜任務中，大規模推理與長鏈路生成往往消耗大量 token，若能在維持高效能的同時顯著降低成本，將成為模型商業化落地的關鍵。

豆包 2.0 在多模態能力上進行大幅強化，無論是影像理解、感知判斷、空間推演，或長文本脈絡掌握，都展現明顯進步，整體表現躍升至業界前段班水準。

在動態情境辨識方面，該模型於 TVBench 等重要評測中名列前茅，並在 EgoTempo 測試中取得超越人類平均成績的表現，顯示其在解析畫面變化、人物動作與節奏轉換時，具備更高穩定度與準確度。

面對長時間影片內容，豆包 2.0 同樣展現強勁實力，在多項測試中領先其他主流模型，尤其在串流式即時問答相關基準評比中表現突出。

憑藉上述能力，豆包 2.0 得以升級為更具主動性的 AI 助理，不僅能即時分析影像內容、辨識環境變化，還能在互動過程中進行主動提醒與修正，甚至提供陪伴式回饋，讓使用情境從單純回應問題，進化為主動引導與建議，適用於健身指導、穿搭建議等日常陪伴場景。

在推理能力方面，豆包 2.0 Pro 透過強化長尾領域知識，在 SuperGPQA 測試中分數超越 GPT-5.2，並於 HealthBench 奪得第一名。在科學領域整體表現上，則與 Gemini 3 Pro 及 GPT-5.2 相當。

於代理能力與高難度推理評測中，該模型在國際數學奧林匹克、中國數學奧林匹克與國際大學生程式設計競賽中取得金牌成績，並在 Putnam Bench 上超越 Gemini 3 Pro 表現。

在人類的最後考試（Humanity’s Last Exam）測試中，豆包 2.0 Pro 則取得最高棻 54.2 分，於工具調用與指令遵循能力測試中亦表現優異。

更受市場關注的是，字節跳動表示，在維持與頂尖大模型相當效果的同時，豆包 2.0 的 token 定價降低約一個數量級，預計將在大規模推理與長鏈路生成場景中，大幅提升企業導入意願與商業化可行性。

與此同時，基於 OpenClaw 框架與豆包 2.0 Pro，字節跳動已在企業協作平台飛書上打造智慧客服代理。

該代理能透過調用不同技能完成客戶對話，遇到複雜問題時主動邀請真人同事加入群組協作，協助預約上門維修，並於事後主動回訪與推薦產品。

針對程式開發需求，豆包 2.0 Code 建構於 2.0 基礎模型之上，並針對程式設計場景進行專項優化，強化對大型程式碼庫的解析能力與應用生成效率，同時提升模型在代理工作流程中的自我修正與除錯表現。

目前該模型已作為內建核心模型，上線至 TRAE 中國版，並支援圖像理解與推理功能。

在實際案例中，開發者透過 TRAE 搭配豆包 2.0 Code，只需一次提示詞輸入，便能快速搭建「TRAE 春節小鎮 · 馬年廟會」互動專案的基本架構與場景設計；經過約五輪提示後，更是可完成整體專案開發。

該專案包括了 11 位由大型語言模型驅動的 NPC，能依據角色設定自然對話、主動招呼顧客並進行現場議價；AI 遊客也會自行決定造訪攤位、選購商品與互動內容，呈現高度擬真的虛擬市集體驗。相關提示詞與素材已於 GitHub 開源，供開發者測試與延伸應用。

目前，豆包 2.0 Pro 已於豆包 App、電腦端與網頁版推出「專家」模式，開放一般用戶使用；面向企業與開發者，火山引擎亦同步提供豆包 2.0 系列模型的 API 服務。

字節跳動表示，未來將持續以真實應用場景為核心，推動模型能力更新升級，進一步拓展智慧應用的邊界。

‌