menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon

美股

AI王座一夜易主!馬斯克Grok 4.1雙冠封王 Gemini 2.5 Pro被壓在地上摩擦

鉅亨網新聞中心

AI 王座一夜易主!馬斯克 Grok 4.1 悄悄上線,一夕之間登頂 LMArena,Gemini 2.5 Pro 卻被壓在地上摩擦。主打情商智商在線,算力再擴增一個數量級。

cover image of news article
馬斯克Grok 4.1上線即衝榜單第一(圖:Shutterstock)

馬斯克帶著 xAI 投下一顆重磅炸彈-Grok 4.1 正式上線,而且對所有人免費。有趣的是,Grok 4.1 主打的也是「智商情商雙在線,正面對決 GPT-5.1。」


據「新智元」,Grok 4.1 這次總共放出了兩大版本:Grok 4.1 Thinking 和 Grok 4.1。在 LMArena 排行榜上,Grok 4.1 Thinking 拿下了 1483 Elo 的成績,以絕對實力加冕全球大模型之王。

Thinking 版比 Gemini 2.5 Pro 高出整整 31 分。即便是非推理模式的 Grok 4.1,直接殺進榜單第二。

不僅如此,Grok 4.1 情緒智商同樣爆表,具備了更高的情緒智能、同理心和人際互動能力。在 EQ-Bench 上,以 1586 Elo 成績登頂。

在寫作上,Grok 4.1 比上一代 Elo 提升 600 分。而且,幻覺率比之前模型暴降 3 倍。Grok 4.1 之所以可以快速進化,xAI 團隊將其後訓練階段的 RL 規模,又擴大了一個數量級。

但沒想到,在 GoogleGemini 3.0 降臨之前,馬斯克來了一波大的。如今, Grok 4.1 已在網頁端和 iOS、Android 中免費上線。目前還是 beta 版本。

在創意表達、情緒交流和合作互動上,Grok 4.1 表現出色。它能精準捕捉細微的意圖,讓對話更自然、更有溫度。

同時,Grok 4.1 整體人格更加一致,既保持了上一代那種犀利、可靠的智慧表現,又增添幾分親和力。

在 Colossus 大規模 RL 算力引擎上,xAI 將重點放在了風格、個性、助人程度和對齊性的優化。

為此,他們也發展了一個全新的方法,利用前沿 AI 智慧體推理模型作為獎勵模型,自動、大規模評估和優化 Grok 4.1 回答品質。

在前兩周,xAI 悄悄推送了 Grok 4.1 早期版本,並在真實場景中展開密集的「盲測」成對評估。與上一代相比,人們在 64.78% 的情況下,更傾向於使用 Grok 4.1。

最強通用能力

最重要的是,相較於 Grok 4,Grok 4.1 在人類偏好評估中,刷新業界 SOTA。

在 LMArena 的 Text Arena 中,Grok 4.1 Thinking 模式(代號:quasarflux)以 1483 Elo 一舉衝上第一,比最高的非 xAI 模型高出 31 分。它的非推理模式(代號:tensor),無需使用思考 Token 就能即時回應,拿下了 1465 Elo,位居第二。

值得一提的是,Grok 4.1 在不思考的情況下,就能超越所有其他模型開啟全推理後的表現。相比之下,Grok 4 的總體排名是第 33 名,差距顯著。

xAI 研究員 Dustin Tran 表示,關閉推理後,輸出 Token 數從約 2300 掉到 850,即便如此,Grok 4.1 也排在了榜單前面。

EQ 升級、創意寫作

不僅如此, Grok 4.1 在情緒智慧上也達到了一個新高度。在 EQ-Bench3 上,Grok 4.1 拿下了 1586 Elo 高分。

EQ-Bench 是一個由大語言模型評判的測試,主要衡量模型的主動情緒智能、理解、洞察力、同理心以及人際交往能力。測試集包含 45 個具有挑戰性的角色扮演場景,大部分由 3 輪預設提示詞構成。基準會從多個維度評分,並透過成對比較計算來標準化 Elo 排名。

再來看創意寫作,Grok 4.1 在 Creative Writing v3 基準上,比上一代高出 600 分。具體來說,團隊讓模型圍繞 32 個不同的寫作提示,進行 3 輪創作,並根據評分標準和模型對戰 Elo 進行評分。

在幻覺方面,Grok 4.1 幻覺速率比上一代暴降 3 倍。使用搜尋工具的快速(非推理)模型能給出迅捷答案,但因為推理深度有限、工具調用次數受限,容易在事實問題上出錯。


文章標籤

section icon

鉅亨講座

看更多
  • 講座
  • 公告



    Empty
    Empty