美股

AI王座一夜易主！馬斯克Grok 4.1雙冠封王 Gemini 2.5 Pro被壓在地上摩擦

鉅亨網新聞中心2025-11-18 11:10

AI 王座一夜易主！馬斯克 Grok 4.1 悄悄上線，一夕之間登頂 LMArena，Gemini 2.5 Pro 卻被壓在地上摩擦。主打情商智商在線，算力再擴增一個數量級。

馬斯克帶著 xAI 投下一顆重磅炸彈－Grok 4.1 正式上線，而且對所有人免費。有趣的是，Grok 4.1 主打的也是「智商情商雙在線，正面對決 GPT-5.1。」

‌

據「新智元」，Grok 4.1 這次總共放出了兩大版本：Grok 4.1 Thinking 和 Grok 4.1。在 LMArena 排行榜上，Grok 4.1 Thinking 拿下了 1483 Elo 的成績，以絕對實力加冕全球大模型之王。

Thinking 版比 Gemini 2.5 Pro 高出整整 31 分。即便是非推理模式的 Grok 4.1，直接殺進榜單第二。

不僅如此，Grok 4.1 情緒智商同樣爆表，具備了更高的情緒智能、同理心和人際互動能力。在 EQ-Bench 上，以 1586 Elo 成績登頂。

在寫作上，Grok 4.1 比上一代 Elo 提升 600 分。而且，幻覺率比之前模型暴降 3 倍。Grok 4.1 之所以可以快速進化，xAI 團隊將其後訓練階段的 RL 規模，又擴大了一個數量級。

但沒想到，在 GoogleGemini 3.0 降臨之前，馬斯克來了一波大的。如今， Grok 4.1 已在網頁端和 iOS、Android 中免費上線。目前還是 beta 版本。

在創意表達、情緒交流和合作互動上，Grok 4.1 表現出色。它能精準捕捉細微的意圖，讓對話更自然、更有溫度。

同時，Grok 4.1 整體人格更加一致，既保持了上一代那種犀利、可靠的智慧表現，又增添幾分親和力。

在 Colossus 大規模 RL 算力引擎上，xAI 將重點放在了風格、個性、助人程度和對齊性的優化。

為此，他們也發展了一個全新的方法，利用前沿 AI 智慧體推理模型作為獎勵模型，自動、大規模評估和優化 Grok 4.1 回答品質。

在前兩周，xAI 悄悄推送了 Grok 4.1 早期版本，並在真實場景中展開密集的「盲測」成對評估。與上一代相比，人們在 64.78% 的情況下，更傾向於使用 Grok 4.1。

最強通用能力

最重要的是，相較於 Grok 4，Grok 4.1 在人類偏好評估中，刷新業界 SOTA。

在 LMArena 的 Text Arena 中，Grok 4.1 Thinking 模式（代號：quasarflux）以 1483 Elo 一舉衝上第一，比最高的非 xAI 模型高出 31 分。它的非推理模式（代號：tensor），無需使用思考 Token 就能即時回應，拿下了 1465 Elo，位居第二。

值得一提的是，Grok 4.1 在不思考的情況下，就能超越所有其他模型開啟全推理後的表現。相比之下，Grok 4 的總體排名是第 33 名，差距顯著。

xAI 研究員 Dustin Tran 表示，關閉推理後，輸出 Token 數從約 2300 掉到 850，即便如此，Grok 4.1 也排在了榜單前面。

EQ 升級、創意寫作

不僅如此， Grok 4.1 在情緒智慧上也達到了一個新高度。在 EQ-Bench3 上，Grok 4.1 拿下了 1586 Elo 高分。

EQ-Bench 是一個由大語言模型評判的測試，主要衡量模型的主動情緒智能、理解、洞察力、同理心以及人際交往能力。測試集包含 45 個具有挑戰性的角色扮演場景，大部分由 3 輪預設提示詞構成。基準會從多個維度評分，並透過成對比較計算來標準化 Elo 排名。

再來看創意寫作，Grok 4.1 在 Creative Writing v3 基準上，比上一代高出 600 分。具體來說，團隊讓模型圍繞 32 個不同的寫作提示，進行 3 輪創作，並根據評分標準和模型對戰 Elo 進行評分。

在幻覺方面，Grok 4.1 幻覺速率比上一代暴降 3 倍。使用搜尋工具的快速（非推理）模型能給出迅捷答案，但因為推理深度有限、工具調用次數受限，容易在事實問題上出錯。