menu-icon
anue logo
馬來西亞房產鉅亨號鉅亨買幣
search icon


科技

成本暴降90%!阿里巴巴新模型超狂 用30億參數跑出800億頂級效能

鉅亨網新聞中心


阿里巴巴通義實驗室發表新一代基礎模型架構 Qwen3-Next,並基於此架構訓練出 Qwen3-Next-80B-A3B-Base 模型。這款新模型擁有高達 800 億個參數,但僅需啟動其中 30 億個參數,實現了效能與成本的最佳平衡,為大模型發展樹立新標竿。

cover image of news article
成本暴降90%!阿里巴巴新模型超狂 用30億參數跑出800億頂級效能。(圖shuuterstock)

Qwen3-Next-80B-A3B 模型不僅訓練成本極低,僅需 Qwen3-32B 模型約 9.3% 的 GPU 計算資源,針對超過 32k 的上下文,推理吞吐量可達到 Qwen3-32B 的 10 倍以上。


此外,新模型原生支援 262,144 個 token 上下文長度,並可擴展至驚人的 1,010,000 個 token,遠超業界平均水平。

指令與思維模型效能卓越

基於 Qwen3-Next-80B-A3B-Base 模型,阿里通義同時開源了指令模型(Instruct)與思維模型(Thinking)。其中,指令模型效能已能與參數規模更大的 Qwen3-235B-A22B-Instruct-2507 旗艦模型相媲美。而思維模型在多項基準測試中,表現更是優於 Google 的閉源模型 Gemini-2.5-Flash-Thinking,展現出強勁的推理與邏輯能力。

Qwen3-Next 的核心突破源於多項關鍵技術的融合與創新:

混合注意力機制: 採用 Gated DeltaNet 和 Gated Attention 的組合,有效處理超長上下文,並在性能和效率上超越單一架構。

高稀疏度 MoE 結構: 透過極低的啟動專家比率(1 比 50),大幅降低運算成本,同時保持模型強大的容量。

多 Token 預測(MTP): 透過訓練推理一致的多步驟訓練,顯著提升了投機採樣的接受率,進而加速推理過程。

開放生態 賦能開發者

Qwen3-Next 模型現已在魔搭社群和 Hugging Face 開源,供全球開發者免費使用。開發者不僅可以透過 Qwen Chat 直接體驗,亦可藉由阿里雲百煉、NVIDIA API Catalog 等平台進行應用開發。此次開源不僅展現了阿里在模型架構上的深厚技術實力,也再次印證其在推動開源社群發展上的承諾。

Qwen3-Next 的發佈,代表著大模型在「降本增效」方面取得的里程碑式進展。透過啟動 30 億參數便能媲美大規模模型的性能,阿里通義為業界提供了一條在性能與效率之間尋找更佳平衡點的有效路徑,未來也將持續優化此架構並開發 Qwen3.5 模型,持續引領大模型技術的創新與落地。



Empty