AJI
蘋果近期發表一項具指標性的 AI 研究報告,震撼揭露目前市場上號稱具備「推理能力」的 AI 模型,如 Claude Thinking、DeepSeek-R1、o3-mini,實際上只是進行「進階記憶遊戲」,根本談不上真正的邏輯推理。為了避開常見的訓練資料污染問題,蘋果研究團隊自訂了一組從未出現在資料集中的 邏輯謎題,用來測試 AI 模型是否具備真正的 理解與推理能力。
蘋果近期發表一項具指標性的 AI 研究報告,震撼揭露目前市場上號稱具備「推理能力」的 AI 模型,如 Claude Thinking、DeepSeek-R1、o3-mini,實際上只是進行「進階記憶遊戲」,根本談不上真正的邏輯推理。為了避開常見的訓練資料污染問題,蘋果研究團隊自訂了一組從未出現在資料集中的 邏輯謎題,用來測試 AI 模型是否具備真正的 理解與推理能力。