menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon

科技

DeepSeek上新推Math-V2!以「自驗證」推理破局在IMO 2025奪金 普特南數學競賽接近滿分

鉅亨網編譯陳韋廷

在太平洋彼岸工程師們準備切火雞慶祝感恩節時,DeepSeek 周四 (27 日) 晚間悄然上線 DeepSeekMath-V2,此舉如同在 AI 領域投下一顆重磅炸彈,引發了廣泛關注。

cover image of news article
DeepSeek上新推Math-V2!以「自驗證」推理破局在IMO 2025奪金 普特南數學競賽接近滿分(圖:Shutterstock)

DeepSeekMath - V2 在數學競賽領域展現了驚人實力,在 IMO 2025 和 CMO(中國數學奧林匹克)2024 中都達到了金牌水準,在北美最頂尖、最負盛名的大學本科生數學競賽普特南 (Putnam)2024 競賽中更拿下 118 分,只差滿分 120 兩分的成績。這一系列成果充分證明,自驗證數學推理是一條可行的研究路徑。


專家指出,開源權重、IMO 金牌水平、超越 GPT-5,再次鞏固 DeepSeek 作為「開源燈塔」地位。在算力受限的背景下,DeepSeek 再次證明不需要龐大的 GPU 集群,也能用演算法奇蹟在最硬核的數學賽道上,教閉源巨頭們「做人」。它在上述嚴苛的基準測試中,交出了一份與 GPT-5 和 Gemini 2.5 Pro 平起平坐,甚至更勝一籌的完美答卷。

過去一年,大語言模型透過基於最終答案正確性的強化學習,在 AIME 和 HMMT 等定量推理競賽中取得了長足進步,但這種方法面臨根本性限制。追求更高的答案準確率,並不能解決推理過程中的核心問題,許多數學任務如定理證明需要嚴謹的逐步推導,無法應用基於最終答案的獎勵機制。

為了突破深度推理的極限,驗證數學推理的全面性和嚴謹性至關重要,特別是對於沒有已知解決方案的開放性問題,自驗證是擴展測試時計算量的關鍵。

Math-V2 透過一系列步驟實現自驗證數學推理,首先訓練一個準確且忠實的大模型驗證器用於定理證明,然後將驗證器作為獎勵模型來訓練證明生成器,激勵生成器在最終定稿前主動識別,並解決自身證明中的問題,還通過擴展驗證計算來自動標註難以驗證的新證明,生成訓練數據以進一步提升驗證器。

在評測結果方面,Math-V2 在 IMO - ProofBench 展現強大的定理證明能力,在 IMO 2025 中成功解出 6 道題中的 5 道,達到「金牌」水準,普特南競賽中 12 道題做對了 11 道,最終得分 118 分。

專家認為,最大的殺手鐧是開源,模型權重公開下載,採用 Apache 2.0 協定,這讓高校研究人員、企業開發者都可以在本地部署 Math-V2 這個「數學天才」,不用擔心資料隱私和使用限制。

DeepSeek Math-V2 一上線,全球各路技術播客和達人紛紛上手試用,雖然有不同看法,但都對其強大能力感到驚訝。

科技部落客、英國程式大老 Simon Willison 快速對 DeepSeek Math-V2 的發布做了技術層面解讀,強調這是一個開放權重模型。他也刻意提到,OpenAI 和谷歌的同等模型有將近 700G,相較之下 DeepSeek Math-V2 要小得多。

BinaryVerse 發布的播客亦稱 DeepSeekMath-V2 在某些數學推理基準上超越現有的閉源大模型,但同時也提到,模型「對常識問答或通用場景並非全面領先」。

Hacker News 等社群也紛紛對模型指標和能力發表個人看法,不少人驚訝 DeepSeek Math-V2 的強大能力,但也有人質疑大量推理算力帶來的優異指標是否可遷移到常規使用情境,還有許多評論強調「驚艷但令人不安」的速度,討論模型在更廣義推理與安全性方面的意義。

DeepSeek 在算力硬體處於劣勢情況下,透過演算法創新彌補算力不足,證明在通往 AGI 的道路上,開源模型並沒有掉隊,甚至正在反超,為 AI 從業者帶來了最好的時代。


section icon

鉅亨講座

看更多
  • 講座
  • 公告


    Empty
    Empty