科技

DeepSeek發表新模型並同步開源成本僅GPT-4o的1/20

鉅亨網新聞中心2025-01-06 16:10

據陸媒《21 世紀經濟報導》，近日，量化巨擘幻方量化的子公司深度求索（DeepSeek）發表了全新系列模型 DeepSeek-V3，並同步開源，在 AI 圈引發熱議。

cover image of news article — DeepSeek發表新模型並同步開源成本僅GPT-4o的1/20(圖:shutterstock)

有評論稱，DeepSeek-V3 不僅霸榜開源模型，更在效能上與全球頂尖閉源模型 GPT-4o 和 Claude-3.5-Sonnet 不相上下。特別是，模型的訓練成本僅約 558 萬美元，僅為 GPT-4o 的二十分之一，資源運用效率極高。國外獨立評測機構 Artificial Analysis 測驗評價其「超越了迄今為止所有開源模式」。

‌

深度求索 (DeepSeek) 是一家總部位於杭州的中國初創公司，由量化投資巨頭幻方量化創辦。據報導，DeepSeek-V3 擁有 6710 億個參數，僅用兩個月的時間和 558 萬美元的成本就完成了訓練，其成本效益遠優於其他大型科技公司開發的模型。

據報導，DeepSeek-V3 主要有幾項獨特的技術創新：

混合專家 (MoE) 架構：DeepSeek-V3 採用 MoE 架構，通過稀疏激活機制，僅激活 37 億個參數，顯著降低了計算量，同時提升了模型的處理能力。
多頭潛在注意力 (MLA) 機制：MLA 架構能降低 5%—13% 的推理視訊記憶體，進一步優化模型的訓練效率和生成速度。
FP8 混合精度訓練框架：該框架降低了內存佔用，加快了計算速度，並與 MLA 架構結合，減少了資料量，降低記憶體佔用，使得在硬體性能受限的情況下，依然能夠高效完成大規模模型的訓練。
DualPipe 算法：該算法有效降低了跨節點通信的開銷，進一步降低了訓練成本。
資料壓縮、選擇性處理、知識蒸餾：DeepSeek 採用資料壓縮、選擇性處理、知識蒸餾等技術，優先處理重要資料，簡化次要資料，提高訓練效率。

報導稱，這些技術創新使得 DeepSeek-V3 在性能上可與頂尖的閉源模型（如 GPT-4o 和 Claude-3.5-Sonnet）相媲美，同時在成本控制上實現了突破。DeepSeek-V3 的訓練成本僅為 GPT-4o 的二十分之一，被譽為 AI 界的「拼多多」。

然而，DeepSeek-V3 的橫空出世也引發了一些質疑。一些業內人士指出，DeepSeek 團隊成員此前並未發表過有影響力的論文或參與過知名的實戰項目。DeepSeek-V3 的卓越性能是否真的源於其技術創新，或者是否存在其他因素，例如利用現有模型進行訓練，還有待進一步驗證。

DeepSeek 創辦人梁文鋒 2024 年 7 月接受媒體採訪時說，矽谷習慣將中國 AI 公司視為 follow 的角色，當一個中國公司以創新貢獻者的身份，加入到他們遊戲裡去，而且表現優異時，他們就很震驚。

梁文官認為，更多的投入不一定會產生更多的創新，否則大廠可以把所有的創新包辦了。研究和技術創新將永遠是 DeepSeek 第一優先。值得注意的是，根據業界專家測算，DeepSeek 在 V2、V3 上並不虧錢。

V3 獲得矽谷一批知名 AI 大佬的讚。 Lepton AI 創辦人、阿里巴巴原副總裁賈揚清表示，DeepSeek 是智慧和實用主義的體現：在有限的運算資源和人力條件下，透過聰明的研究產生最好的結果。這是一句相當中肯的評價。

免費體驗5萬美元模擬交易投資全球資產
掌握全球財經資訊點我下載APP

‌

文章標籤

量化 AI訓練技術創新 deepseek 大模型 GPT

鉅亨講座

看更多

講座
公告

DeepSeek發表新模型並同步開源 成本僅GPT-4o的1/20

文章標籤

鉅亨講座

‌

‌

‌

‌

DeepSeek發表新模型並同步開源成本僅GPT-4o的1/20