科技

Google發布Gemini 3 Deep Think重大更新推理能力全球僅7人能贏它

鉅亨網新聞中心2026-02-13 15:50

Google(GOOGL-US) DeepMind 周四 (12 日) 宣布對其專門化推理模式 Gemini 3 Deep Think 進行重大升級，據官方部落格指出，這次更新象徵著人工智慧在解決現代科學、研究與工程挑戰方面進入了全新維度，不僅在多項頂尖基準測試中刷新世界紀錄 (SOTA)，更在實際科研應用中展現出超越人類專家的洞察力。

cover image of news article — Google發布Gemini 3 Deep Think重大更新推理能力全球僅7人能贏它(圖:shutterstock)

全方位刷新基準：全球僅 7 人能贏的實力

‌

升級後的 Gemini 3 Deep Think 在邏輯推理與演算法領域表現驚人。在知名的演算法競賽平台 Codeforces 上，其 Elo 評分達到了震撼的 3455 分，達到世界冠軍級別。這意味著在該平台上，全球僅有 7 位人類選手能擊敗它，遠超前代模型與競爭對手。

此外，Deep Think 在多項嚴苛的學術基準測試中樹立了新標竿：

• Humanity’s Last Exam (HLE)：在不使用工具的情況下，取得 48.4% 的成績，挑戰了現代前沿模型的極限。

• ARC-AGI-2：以 84.6% 的前所未有高分讓該基準測試趨於飽和，並獲得 ARC 獎項基金會驗證。

• 學科奧林匹克：在 2025 年國際數學奧林匹克 (IMO)、物理奧林匹克及化學奧林匹克的筆試部分，均展現出金牌水準的性能。

糾正人類專家疏漏

Deep Think 的價值不僅限於測試分數，它已開始推動實際的科學發現。羅格斯大學數學家 Lisa Carbone 在研究高能物理論文時，利用 Deep Think 進行審查，結果模型成功發現了一個連人類同行評審都未能察覺的微小邏輯漏洞。這顯示 AI 已從「輔助工具」演變為能與頂尖科學家協作的深度夥伴。

在硬核工程領域，Deep Think 同樣展現了強大實力：

• 材料科學：杜克大學 Wang Lab 利用其優化複雜晶體生長方法，成功設計出大於 100 μm 的薄膜配方，攻克了以往難以達成的精確目標。

• 物理建模： Google 研發主管 Anupam Pathak 指出，Deep Think 能將手繪草圖直接轉化為可 3D 打印的實體模型文件，使物理零部件建模速度提升十倍。