menu-icon
anue logo
熱門時事鉅亨號鉅亨買幣
search icon


美股

OpenAI「最強大推理AI模型」o3-pro推出!能力輾壓o1-pro、Gemini、Claude

鉅亨網編譯莊閔棻


OpenAI 於週二(10 日)正式推出最新 AI 模型 「o3-pro」,並宣稱這是他們目前為止最強大的推理 AI 模型,超越 o1-pro、Gemini 2.5 Pro 與 Claude 4 Opus。

cover image of news article
OpenAI推出「最強大推理AI模型」o3-pro。(圖:Shutterstock)

o3-pro 是先前已發布的 o3 推理模型的升級版本,具備更精準的邏輯思考能力,特別適用於物理、數學與程式設計等嚴謹的應用領域。


這款 AI 模型即日起已向 ChatGPT Pro 和 Team 用戶開放使用,企業和教育用戶則預計於下週獲得使用權限。此外,o3-pro 也同步整合進入 OpenAI 的開發者 API。

根據 OpenAI 公布,o3-pro 價格只有 o1-pro 的 87%,每百萬個輸入字符僅(token)20 美元、輸出字符 80 美元。百萬個輸入字符約等同 75 萬個字,略高於小說《戰爭與和平》的總字數。

根據 OpenAI 公開的更新日誌,在專家評測中,o3-pro 在各項表現均超越原版 o3,特別在科學研究、教育教學、程式設計輔助、商業應用以及寫作支援方面表現亮眼。

專家一致給予更高評分,認為 o3-pro 的清晰度、全面性、指令遵循度、準確度方面表現更加優秀。

(圖:OpenAI)
(圖:OpenAI)

更值得注意的是,在 AIME 2024 數學能力測驗、GPQA、Codeforces 三大測試中,o3-pro 也拿下了最高分,碾壓 o1-pro 和 o3。

(圖:OpenAI)
(圖:OpenAI)

另外,在更嚴格的「4/4 可靠性」評估標準中,o3-pro 在數學、程式設計、博士級科學問答中,也大幅超越 o1-pro 和 o3。

(圖:OpenAI)
(圖:OpenAI)

根據 OpenAI 的內部測試資料,在 AIME 2024 數學能力測驗中,o3-pro 成績更是擊敗了 Google (GOOGL-US) 的 Gemini 2.5 Pro;而在博士級科學知識測試 GPQA Diamond 中,則超越了 Anthropic 最新的旗艦 AI 模型 Claude 4 Opus。

此外,o3-pro 支援多種強大工具,例如網頁搜尋、PDF 和文件分析、視覺推理處理、Python 語言運算、回應個人化(透過記憶功能)等。這些功能使 o3-pro 在科學教育與商業決策等高階場景中擁有更高實用性。

不過 OpenAI 也指出,目前 o3-pro 的回應速度比前一代 o1-pro 稍慢,且臨時聊天功能暫時停用,也尚不支援圖像生成與 Canvas 協作功能。



Empty