menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon


科技

GPT-5與Claude工作能力驚人!AI測試結果已逼近人類專家水準

鉅亨網編輯林羿君 綜合報導


OpenAI 發布了一項新的基準測試,用於比較其 AI 模型與各行業專業人士的工作表現,結果顯示,GPT-5 模型以及競爭對手 Anthropic 的 Claude Opus 4.1「已經接近行業專家的工作品質」。

cover image of news article
GPT-5與Claude工作能力驚人!AI測試結果已逼近人類專家水準。(圖:shutterstock)

這項名為 GDPval 的全新基準測試,設計理念根植於美國 GDP 貢獻最大的九大產業,涵蓋了從醫療、金融、製造業到政府部門等廣泛領域。測試鎖定 44 種不同的職業,從軟體工程師、護士到媒體記者,力求模擬真實世界中的專業工作場景。


測試結果顯示,其最新一代模型 GPT-5-high(高算力版本)在 40.6% 的情況下,被評為優於或與行業專家表現相當。這項測試不僅是 OpenAI 邁向通用人工智慧(AGI)的重要一步,更為外界提供了量化衡量 AI 能力的新視角。

測試結果令人振奮,但同時也凸顯了挑戰。其主要競爭對手 Anthropic 公司的 Claude Opus 4.1 模型則以 49% 的勝率,在首輪測試中略勝一籌。OpenAI 對此解釋稱,部分原因是 Claude 在生成圖表時的視覺美觀度更高,而非純粹的效能領先。

OpenAI 表示,在其首版 GDPval-v0 測試中,邀請了資深行業專家擔任評審,對比 AI 生成的工作成果與人類專業人士的產出,並評選出更優者。

舉例來說,一項任務要求投資銀行專業人士為「最後一公里配送業」撰寫競爭格局分析報告,並將其與 AI 產生的報告進行匿名對比。最終,AI 模型在所有 44 個職業中戰勝人類報告的「勝率」被平均計算,作為其綜合表現的依據。

儘管 GPT-5 的表現引人注目,OpenAI 也坦承,GDPval-v0 目前僅涵蓋了專業工作中極為有限的部分——即生成報告。大多數職業的工作內容遠不止於此,而是充滿了複雜的互動、溝通與決策。

對此,OpenAI 承諾未來將不斷迭代 GDPval,開發更全面的測試,以涵蓋更多樣化的產業和更具互動性的工作流程。

OpenAI 首席經濟學家 Aaron Chatterji 強調,GDPval 的意義並非預示著 AI 將立即取代人類,而是證明了 AI 能夠作為強大的輔助工具,為專業人士賦能。他指出:「隨著模型在某些任務上變得越來越熟練,人們可以將部分工作交給 AI,從而有更多時間專注於更有價值、更具創造性的工作。」

OpenAI 評估負責人 Tejal Patwardhan 也對 GDPval 的進展速度表示鼓舞。她透露,僅僅 15 個月前發布的 GPT-4o 模型,其勝率僅為 13.7%,而 GPT-5 的成績幾乎提升了 3 倍。這顯示了 AI 技術在極短時間內的巨大飛躍,並預示著未來 AI 在專業領域的表現將持續快速提升。

文章標籤

section icon

鉅亨講座

看更多
  • 講座
  • 公告


    Empty
    Empty