AI王座一夜易主!馬斯克Grok 4.1雙冠封王 Gemini 2.5 Pro被壓在地上摩擦
鉅亨網新聞中心
AI 王座一夜易主!馬斯克 Grok 4.1 悄悄上線,一夕之間登頂 LMArena,Gemini 2.5 Pro 卻被壓在地上摩擦。主打情商智商在線,算力再擴增一個數量級。

馬斯克帶著 xAI 投下一顆重磅炸彈-Grok 4.1 正式上線,而且對所有人免費。有趣的是,Grok 4.1 主打的也是「智商情商雙在線,正面對決 GPT-5.1。」
據「新智元」,Grok 4.1 這次總共放出了兩大版本:Grok 4.1 Thinking 和 Grok 4.1。在 LMArena 排行榜上,Grok 4.1 Thinking 拿下了 1483 Elo 的成績,以絕對實力加冕全球大模型之王。
Thinking 版比 Gemini 2.5 Pro 高出整整 31 分。即便是非推理模式的 Grok 4.1,直接殺進榜單第二。
不僅如此,Grok 4.1 情緒智商同樣爆表,具備了更高的情緒智能、同理心和人際互動能力。在 EQ-Bench 上,以 1586 Elo 成績登頂。
在寫作上,Grok 4.1 比上一代 Elo 提升 600 分。而且,幻覺率比之前模型暴降 3 倍。Grok 4.1 之所以可以快速進化,xAI 團隊將其後訓練階段的 RL 規模,又擴大了一個數量級。
但沒想到,在 GoogleGemini 3.0 降臨之前,馬斯克來了一波大的。如今, Grok 4.1 已在網頁端和 iOS、Android 中免費上線。目前還是 beta 版本。
在創意表達、情緒交流和合作互動上,Grok 4.1 表現出色。它能精準捕捉細微的意圖,讓對話更自然、更有溫度。
同時,Grok 4.1 整體人格更加一致,既保持了上一代那種犀利、可靠的智慧表現,又增添幾分親和力。
在 Colossus 大規模 RL 算力引擎上,xAI 將重點放在了風格、個性、助人程度和對齊性的優化。
為此,他們也發展了一個全新的方法,利用前沿 AI 智慧體推理模型作為獎勵模型,自動、大規模評估和優化 Grok 4.1 回答品質。
在前兩周,xAI 悄悄推送了 Grok 4.1 早期版本,並在真實場景中展開密集的「盲測」成對評估。與上一代相比,人們在 64.78% 的情況下,更傾向於使用 Grok 4.1。
最強通用能力
最重要的是,相較於 Grok 4,Grok 4.1 在人類偏好評估中,刷新業界 SOTA。
在 LMArena 的 Text Arena 中,Grok 4.1 Thinking 模式(代號:quasarflux)以 1483 Elo 一舉衝上第一,比最高的非 xAI 模型高出 31 分。它的非推理模式(代號:tensor),無需使用思考 Token 就能即時回應,拿下了 1465 Elo,位居第二。
值得一提的是,Grok 4.1 在不思考的情況下,就能超越所有其他模型開啟全推理後的表現。相比之下,Grok 4 的總體排名是第 33 名,差距顯著。
xAI 研究員 Dustin Tran 表示,關閉推理後,輸出 Token 數從約 2300 掉到 850,即便如此,Grok 4.1 也排在了榜單前面。
EQ 升級、創意寫作
不僅如此, Grok 4.1 在情緒智慧上也達到了一個新高度。在 EQ-Bench3 上,Grok 4.1 拿下了 1586 Elo 高分。
EQ-Bench 是一個由大語言模型評判的測試,主要衡量模型的主動情緒智能、理解、洞察力、同理心以及人際交往能力。測試集包含 45 個具有挑戰性的角色扮演場景,大部分由 3 輪預設提示詞構成。基準會從多個維度評分,並透過成對比較計算來標準化 Elo 排名。
再來看創意寫作,Grok 4.1 在 Creative Writing v3 基準上,比上一代高出 600 分。具體來說,團隊讓模型圍繞 32 個不同的寫作提示,進行 3 輪創作,並根據評分標準和模型對戰 Elo 進行評分。
在幻覺方面,Grok 4.1 幻覺速率比上一代暴降 3 倍。使用搜尋工具的快速(非推理)模型能給出迅捷答案,但因為推理深度有限、工具調用次數受限,容易在事實問題上出錯。
- 全球陷入搶銅大戰 為何各國開始「囤銅」?
- 掌握全球財經資訊點我下載APP
延伸閱讀
- 特斯拉馬斯克揭「永續豐裕」願景!Optimus機器人、Grok 5 AI模型與自研AI晶片
- 馬斯克的AI百科全書來了!Grokipedia周一上線 收錄超過88.5萬篇文章
- 為xAI理解宇宙鋪路!馬斯克證實正打造Grok版百科全書 以取代維基百科
- 馬斯克曝2050多星球藍圖:這才是投資人最該賭的大未來
- 講座
- 公告
上一篇
下一篇