熱門時事
快速掌握近期熱門話題
DeepSeek 全新系列模型 DeepSeek-V4 的預覽版本,4月24日 正式上線並同步向全球開源。此次發佈象徵著開源模型在推理能力,以及長文本處理領域邁向了新的里程碑。
DeepSeek-V4 系列根據應用場景分為「專家模式」DeepSeek-V4-Pro 與「快速模式」DeepSeek-V4-Flash 兩個版本,全系列皆標配高達 100 萬字的超長上下文處理能力,並提供思考與非思考模式供用戶彈性切換。
在性能評測方面,旗艦級的 DeepSeek-V4-Pro 展現了驚人的知識儲備與邏輯推理實力。根據官方數據,其在世界知識評測中不僅大幅領先所有同類開源模型,表現更直逼頂尖閉源模型 Gemini-Pro-3.1。
在數學、STEM 領域及競賽型代碼測評中,V4-Pro 的成績更是傲視目前已公開的所有開源模型,取得了比肩全球頂級閉源模型的卓越成就。
針對高頻率、高效率需求設計的 DeepSeek-V4-Flash,雖然在世界知識儲備上略遜於 Pro 版本,但其推理能力依然保持在相近的高水準。得益於更小的模型參數與更精簡的啟動機制,V4-Flash 能夠提供更迅速、更具經濟效益的 API 服務,為開發者與企業應用提供了極具吸引力的選擇。
本次更新最受矚目的亮點之一在於 Agent 能力的飛躍式提升。DeepSeek-V4-Pro 在 Agentic Coding(代理編碼)評測中已達到開源界最佳水平,其在自動化生成簡報(PPT)內頁等任務中表現優異。
據悉,DeepSeek 公司內部已將 V4 作為核心的開發輔助模型。內部員工反饋指出,V4 在程式碼任務與文件生成方面的品質優於市場主流的 Sonnet 4.5,其交付品質已接近 Opus 4.6 的非思考模式,展現了強大的工程實踐價值。
DeepSeek-V4 的開源不僅是技術上的輸出,更展現了該團隊致力於推動 AI 基礎設施普及化的決心。
黃仁勳最擔心的事發生了?DeepSeek V4捨輝達 轉用華為晶片
DeepSeek 新一代 AI 模型 V4 預覽版針對「華為」晶片架構進行優化,象徵中國在關鍵算力基礎上加速擺脫對外依賴;而輝達執行長黃仁勳先前已警告,一旦中國 AI 模型全面轉向本土晶片運行,恐對美國帶來「可怕的結果」,相關發展正牽動全球科技與資本市場神經。
此次 DeepSeek 與華為合作深化,與過去高度依賴輝達 (NVDA-US) 晶片形成對比。華為表示,其 Ascend 晶片已參與 V4 部分訓練過程,顯示中國 AI 模型逐步轉向本土硬體體系。
這一發展對全球 AI 產業格局具有指標意義。在美國出口管制與中國政策推動下,企業正加速降低對外國技術依賴,轉向自研與國產替代方案。
黃仁勳近日在 Dwarkesh podcast 上發出警告,若中國開發者轉向本土平台,可能削弱公司在中國市場的生態優勢。
他強調:「DeepSeek 並非微不足道的進步。如果有一天 DeepSeek 首度在華為晶片上發佈,那將是對我們國家 (美國) 而言一個可怕的結果。」他指出,全球的 AI 模型若非在美國硬體上運行,對美國將是壞消息。
如今,隨著 DeepSeek 選擇優先適配華為晶片,市場對此趨勢的關注持續升溫。
「國芯+國模」:DeepSeek-V4引領中國產AI算力底座走向多元化
這次發布與以往最大的不同在於,DeepSeek-V4 不再僅依賴輝達的 CUDA 框架,而是成功在華為昇騰 NPU 上完成了細粒度專家並行方案的驗證。這象徵著中國 AI 產業正朝著「國產算力 + 國產大模型」的閉環生態邁進,走向算力底座邁向多元化。
多款中國產晶片實現「Day 0」適配!
目前,華為昇騰超節點全系列產品已全面支持 DeepSeek-V4,並實現了極速推理:Pro 模型延遲僅 20ms,Flash 模型則達 10ms。
除了華為,沐曦、寒武紀、摩爾線程、天數智芯等多家中國產晶片廠商也宣佈支持新模型。
在軟硬體協同方面,由智源研究院牽頭的 FlagOS 已完成 DeepSeek-V4-Flash 在海光、沐曦、平頭哥真武、昆侖芯等 8 款以上中國產晶片的全量適配。
沐曦股份聯合創始人楊建表示,這次適配讓中國產 GPU 成為創造知識時代的生產力工具,目前包含 Minimax、階躍星辰、Kimi、智譜 GLM 等模型,皆能基於中國產 GPU 算力實現具備性價比的推理任務。
百萬字上下文成標配 算力、顯存需求大降
技術層面上,DeepSeek-V4 實現了結構性的創新突破。該模型開創了一種全新的注意力機制,通過在 Token 維度進行有效壓縮,並結合獨家的 DSA(DeepSeek Sparse Attention)稀疏注意力技術,實現了領先全球的長上下文處理能力。這項技術不僅大幅降低了計算資源與顯存需求,更讓 1M(百萬)級別的上下文處理正式成為 DeepSeek 官方服務的標準配備。
這項技術不僅大幅降低了計算資源與顯存需求,更讓 1M(百萬)級別的上下文處理正式成為 DeepSeek 官方服務的標準配備。
三大神技重塑長上下文效率
DeepSeek-V4 的強大源於底層架構的結構性創新,尤其是解決了傳統注意力機制在長文本場景下算力與顯存需求飆升的痛點。其核心技術包括:
- 混合注意力機制 (CSA + HCA): 這是 V4 最核心的創新。CSA(壓縮稀疏注意力) 以較低倍率壓縮 KV 緩存並結合稀疏檢索,確保中段細節;HCA(重度壓縮注意力) 則以極高倍率 (如 128 倍) 壓縮信息,專注全局邏輯。這種「長短結合」的策略,使模型在處理百萬 token 時,單 token 推理計算量僅為前代的 27%,KV 緩存占用縮減至 10%。
- 流形約束超連接 (mHC): 升級傳統的殘差連接,將信號傳播約束在穩定流形上,確保深層網路的穩定性與表達力。
- Muon 最佳化器: 引入全新的最佳化技術,使兆級參數模型的訓練過程收斂更快且更穩定。
此外,V4 採用了 On-Policy Distillation(OPD) 技術,透過蒸餾多個領域專家模型來提升學生模型的表現,並引入 Generative Reward Model(GRM) 讓模型能自我評核與優化。
開啟百萬上下文平民化時代 DeepSeek V4因性能躍升與定價革命再受矚目
DeepSeek 再次展現了極致的成本控制能力,其定價策略對開發者極具殺傷力:
- V4-Flash: 輸出價格僅為 每百萬 token 0.28 美元。這比 OpenAI 的 GPT-5.4 Nano 更低,且僅約為 Claude Opus 4.7 價格的 1%。
- V4-Pro: 輸出價格為 3.48 美元,遠低於 Claude Opus 的 25 美元及 GPT-5.4 的 15 美元,是目前前沿大模型中成本最低的選項之一。
DeepSeek 更暗示,隨著下半年國產算力硬體 (如昇騰 950) 的大規模上市,V4-Pro 的價格仍有進一步下調的空間。
算力適配與開源影響
值得注意的是,DeepSeek-V4 是全球首個在 國產算力底座 (如華為昇騰 NPU) 上完成訓練與推理的兆參數級模型,實現了 1.50 至 1.73 倍的加速比。雖然目前昇騰適配代碼尚未完全開源,但寒武紀等平台已透過 vLLM 框架完成適配並開源至 GitHub。
DeepSeek-V4兩天兩度降價 全球AI定價體系面臨崩塌
DeepSeek 上周日 (26 日) 宣布全系列 API 輸入緩存命中價格永久降至原價的十分之一,V4-Flash 模型降至百萬 Tokens 要價 0.02 元(人民幣,下同),V4-Pro 模型降至 0.1 元。若疊加此前開啟的 2.5 折限時特惠,V4-Pro 實際價格僅為 0.025 元。
相比之下,美國 OpenAI 的 GPT-5.5 模型緩存輸入價格約為 3.4 元,每次對話成本恐是 DeepSeek-V4 的 32 倍。
極具競爭力的價格迅速拉動了市場需求。根據 OpenRouter 報告,上周六 (25 日)DeepSeek-V4-Pro 調用量達到 136 億 Token,較前一日增長近四倍。
儘管在整體智能指數測試中與頂尖閉源模型仍有差距,但其性價比優勢極為突出,例如完成測試的成本僅為美國 Anthropic 公司 Claude Opus 4.7 模型的約四十分之一。
美國總統普與中國國家主席習近平預計周四在北京舉行「川習會」,這是川普時隔 9 年再度啟程訪問中國,雙方預計將針對全球地緣政治、科技半導體貿易以及台灣問題展開經貿與主權的關鍵交鋒。
綜合此前媒體報導,本次川習會的核心觀察焦點:
- 台灣問題與軍售:習近平已預告台灣將是本次高峰會的核心議題。經濟學人分析雙方可能在台灣問題、對台軍售等項目上談成未形諸文字的「影子交易」,台灣與華府政界正高度關注川普是否會為了更大規模的經貿協議而做出退讓。
- 半導體貿易與 AI 供應鏈:川普已證實輝達執行長黃仁勳正隨行搭乘空軍一號前往中國。美方預計要求習近平開放市場,市場則聚焦雙方能否在人工智慧(AI)晶片限制與中國稀土礦供應鏈之間達成突破性共識。
- 地緣政治與伊俄變局:在全球陷入美伊戰爭震盪期的背景下,川普在出訪前夕強硬表示不需要中國協助處理伊朗問題。雙方高層此前已同意任何國家均不得對相關海域的通行船隻收取通行費,以此管控分歧。
美國總統川普於週六(2/28)證實,美軍已在伊朗展開「重大作戰行動」,使中東局勢急遽升溫。川普說,伊朗正在研製威脅美國的長程飛彈。此次襲擊要摧毀伊朗的飛彈工業,消滅伊朗海軍,確保伊朗不能獲得核武。
五角大廈表示,美國將此次對伊朗的行動命名“史詩怒火”。
28日,以色列總理那坦雅胡宣布,美國和以色列發動軍事行動的目標是推翻伊朗政權。
在美國與以色列對伊朗發動聯合軍事打擊後,伊朗於週六(28 日)向以色列發射飛彈展開報復,導致以色列全境拉響防空警報、醫療體系進入最高戒備;德黑蘭多處政府與軍事設施遭襲,伊方高層強硬放話「結局不再由以色列掌控」。
川普稱,伊朗正在研發可威脅美國的遠程飛彈,此次行動旨在摧毀其飛彈工業、打擊伊朗海軍,並確保伊朗無法獲得核武。
他強調,主要目的是「消除伊朗政權對美國人民的威脅」,並警告伊朗永遠不可能擁有核武器。
美國總統川普週末在自家社群平台發文,宣稱伊朗最高領袖哈米尼已經身亡,並形容此舉是對伊朗人民以及全球受害者的「正義」。川普表示,哈米尼無法躲避美方高度先進的情報與追蹤系統,在與以色列密切合作下,美方成功鎖定並殲滅包括哈米尼在內的多名伊朗領導人。
第三次石油危機?
《路透社》3/2 援引伊朗媒體報導,一名伊朗伊斯蘭革命衛隊高階官員稱,荷姆茲海峽已關閉,伊朗將向任何企圖通過海峽的船隻開火。
荷姆茲海峽是全球最重要的石油運輸通道,連接沙烏地阿拉伯、伊朗、伊拉克、阿聯等海灣主要產油國與阿曼灣及阿拉伯海,全球約 20% 石油日消耗量都要經過該海峽。
伊朗除了使用飛彈和無人機直接攻擊船隻,還可能在海峽中布設水雷。美國情報單位估計,伊朗已儲備多達 6,000 枚水雷,包括漂流水雷、吸附式水雷、底雷和系泊水雷。
據《伊朗學生通訊社》周一報導,伊朗伊斯蘭革命衛隊指揮官賈巴里在一檔電視直播中說,任何企圖通過荷姆茲海峽的船隻都會被擊毀,「我方不會允許一滴石油從該地區流出」。
據伊朗《法爾斯通訊社》周二(3 日)報導,伊朗伊斯蘭革命衛隊海軍副司令穆罕默德 · 阿克巴爾扎德表示,荷姆茲海峽已完全處於伊朗海軍的控制之下,十多艘油輪在這片海域被炮彈擊中。
阿克巴爾扎德說,革命衛隊海軍多次警告荷姆茲海峽處於戰爭狀態,任何船隻都可能被炮彈或無人機擊中。但仍有十多艘油輪無視警告,已被炮彈擊中。
阿克巴爾扎德強調,在伊朗宣布荷姆茲海峽禁止航行後,油輪、商船和漁船已無法通過海峽。
DeepSeek 全新系列模型 DeepSeek-V4 的預覽版本,4月24日 正式上線並同步向全球開源。此次發佈象徵著開源模型在推理能力,以及長文本處理領域邁向了新的里程碑。
DeepSeek-V4 系列根據應用場景分為「專家模式」DeepSeek-V4-Pro 與「快速模式」DeepSeek-V4-Flash 兩個版本,全系列皆標配高達 100 萬字的超長上下文處理能力,並提供思考與非思考模式供用戶彈性切換。
在性能評測方面,旗艦級的 DeepSeek-V4-Pro 展現了驚人的知識儲備與邏輯推理實力。根據官方數據,其在世界知識評測中不僅大幅領先所有同類開源模型,表現更直逼頂尖閉源模型 Gemini-Pro-3.1。
在數學、STEM 領域及競賽型代碼測評中,V4-Pro 的成績更是傲視目前已公開的所有開源模型,取得了比肩全球頂級閉源模型的卓越成就。
針對高頻率、高效率需求設計的 DeepSeek-V4-Flash,雖然在世界知識儲備上略遜於 Pro 版本,但其推理能力依然保持在相近的高水準。得益於更小的模型參數與更精簡的啟動機制,V4-Flash 能夠提供更迅速、更具經濟效益的 API 服務,為開發者與企業應用提供了極具吸引力的選擇。
本次更新最受矚目的亮點之一在於 Agent 能力的飛躍式提升。DeepSeek-V4-Pro 在 Agentic Coding(代理編碼)評測中已達到開源界最佳水平,其在自動化生成簡報(PPT)內頁等任務中表現優異。
據悉,DeepSeek 公司內部已將 V4 作為核心的開發輔助模型。內部員工反饋指出,V4 在程式碼任務與文件生成方面的品質優於市場主流的 Sonnet 4.5,其交付品質已接近 Opus 4.6 的非思考模式,展現了強大的工程實踐價值。
DeepSeek-V4 的開源不僅是技術上的輸出,更展現了該團隊致力於推動 AI 基礎設施普及化的決心。
黃仁勳最擔心的事發生了?DeepSeek V4捨輝達 轉用華為晶片
DeepSeek 新一代 AI 模型 V4 預覽版針對「華為」晶片架構進行優化,象徵中國在關鍵算力基礎上加速擺脫對外依賴;而輝達執行長黃仁勳先前已警告,一旦中國 AI 模型全面轉向本土晶片運行,恐對美國帶來「可怕的結果」,相關發展正牽動全球科技與資本市場神經。
此次 DeepSeek 與華為合作深化,與過去高度依賴輝達 (NVDA-US) 晶片形成對比。華為表示,其 Ascend 晶片已參與 V4 部分訓練過程,顯示中國 AI 模型逐步轉向本土硬體體系。
這一發展對全球 AI 產業格局具有指標意義。在美國出口管制與中國政策推動下,企業正加速降低對外國技術依賴,轉向自研與國產替代方案。
黃仁勳近日在 Dwarkesh podcast 上發出警告,若中國開發者轉向本土平台,可能削弱公司在中國市場的生態優勢。
他強調:「DeepSeek 並非微不足道的進步。如果有一天 DeepSeek 首度在華為晶片上發佈,那將是對我們國家 (美國) 而言一個可怕的結果。」他指出,全球的 AI 模型若非在美國硬體上運行,對美國將是壞消息。
如今,隨著 DeepSeek 選擇優先適配華為晶片,市場對此趨勢的關注持續升溫。
「國芯+國模」:DeepSeek-V4引領中國產AI算力底座走向多元化
這次發布與以往最大的不同在於,DeepSeek-V4 不再僅依賴輝達的 CUDA 框架,而是成功在華為昇騰 NPU 上完成了細粒度專家並行方案的驗證。這象徵著中國 AI 產業正朝著「國產算力 + 國產大模型」的閉環生態邁進,走向算力底座邁向多元化。
多款中國產晶片實現「Day 0」適配!
目前,華為昇騰超節點全系列產品已全面支持 DeepSeek-V4,並實現了極速推理:Pro 模型延遲僅 20ms,Flash 模型則達 10ms。
除了華為,沐曦、寒武紀、摩爾線程、天數智芯等多家中國產晶片廠商也宣佈支持新模型。
在軟硬體協同方面,由智源研究院牽頭的 FlagOS 已完成 DeepSeek-V4-Flash 在海光、沐曦、平頭哥真武、昆侖芯等 8 款以上中國產晶片的全量適配。
沐曦股份聯合創始人楊建表示,這次適配讓中國產 GPU 成為創造知識時代的生產力工具,目前包含 Minimax、階躍星辰、Kimi、智譜 GLM 等模型,皆能基於中國產 GPU 算力實現具備性價比的推理任務。
百萬字上下文成標配 算力、顯存需求大降
技術層面上,DeepSeek-V4 實現了結構性的創新突破。該模型開創了一種全新的注意力機制,通過在 Token 維度進行有效壓縮,並結合獨家的 DSA(DeepSeek Sparse Attention)稀疏注意力技術,實現了領先全球的長上下文處理能力。這項技術不僅大幅降低了計算資源與顯存需求,更讓 1M(百萬)級別的上下文處理正式成為 DeepSeek 官方服務的標準配備。
這項技術不僅大幅降低了計算資源與顯存需求,更讓 1M(百萬)級別的上下文處理正式成為 DeepSeek 官方服務的標準配備。
三大神技重塑長上下文效率
DeepSeek-V4 的強大源於底層架構的結構性創新,尤其是解決了傳統注意力機制在長文本場景下算力與顯存需求飆升的痛點。其核心技術包括:
- 混合注意力機制 (CSA + HCA): 這是 V4 最核心的創新。CSA(壓縮稀疏注意力) 以較低倍率壓縮 KV 緩存並結合稀疏檢索,確保中段細節;HCA(重度壓縮注意力) 則以極高倍率 (如 128 倍) 壓縮信息,專注全局邏輯。這種「長短結合」的策略,使模型在處理百萬 token 時,單 token 推理計算量僅為前代的 27%,KV 緩存占用縮減至 10%。
- 流形約束超連接 (mHC): 升級傳統的殘差連接,將信號傳播約束在穩定流形上,確保深層網路的穩定性與表達力。
- Muon 最佳化器: 引入全新的最佳化技術,使兆級參數模型的訓練過程收斂更快且更穩定。
此外,V4 採用了 On-Policy Distillation(OPD) 技術,透過蒸餾多個領域專家模型來提升學生模型的表現,並引入 Generative Reward Model(GRM) 讓模型能自我評核與優化。
開啟百萬上下文平民化時代 DeepSeek V4因性能躍升與定價革命再受矚目
DeepSeek 再次展現了極致的成本控制能力,其定價策略對開發者極具殺傷力:
- V4-Flash: 輸出價格僅為 每百萬 token 0.28 美元。這比 OpenAI 的 GPT-5.4 Nano 更低,且僅約為 Claude Opus 4.7 價格的 1%。
- V4-Pro: 輸出價格為 3.48 美元,遠低於 Claude Opus 的 25 美元及 GPT-5.4 的 15 美元,是目前前沿大模型中成本最低的選項之一。
DeepSeek 更暗示,隨著下半年國產算力硬體 (如昇騰 950) 的大規模上市,V4-Pro 的價格仍有進一步下調的空間。
算力適配與開源影響
值得注意的是,DeepSeek-V4 是全球首個在 國產算力底座 (如華為昇騰 NPU) 上完成訓練與推理的兆參數級模型,實現了 1.50 至 1.73 倍的加速比。雖然目前昇騰適配代碼尚未完全開源,但寒武紀等平台已透過 vLLM 框架完成適配並開源至 GitHub。
DeepSeek-V4兩天兩度降價 全球AI定價體系面臨崩塌
DeepSeek 上周日 (26 日) 宣布全系列 API 輸入緩存命中價格永久降至原價的十分之一,V4-Flash 模型降至百萬 Tokens 要價 0.02 元(人民幣,下同),V4-Pro 模型降至 0.1 元。若疊加此前開啟的 2.5 折限時特惠,V4-Pro 實際價格僅為 0.025 元。
相比之下,美國 OpenAI 的 GPT-5.5 模型緩存輸入價格約為 3.4 元,每次對話成本恐是 DeepSeek-V4 的 32 倍。
極具競爭力的價格迅速拉動了市場需求。根據 OpenRouter 報告,上周六 (25 日)DeepSeek-V4-Pro 調用量達到 136 億 Token,較前一日增長近四倍。
儘管在整體智能指數測試中與頂尖閉源模型仍有差距,但其性價比優勢極為突出,例如完成測試的成本僅為美國 Anthropic 公司 Claude Opus 4.7 模型的約四十分之一。
美國總統普與中國國家主席習近平預計周四在北京舉行「川習會」,這是川普時隔 9 年再度啟程訪問中國,雙方預計將針對全球地緣政治、科技半導體貿易以及台灣問題展開經貿與主權的關鍵交鋒。
綜合此前媒體報導,本次川習會的核心觀察焦點:
- 台灣問題與軍售:習近平已預告台灣將是本次高峰會的核心議題。經濟學人分析雙方可能在台灣問題、對台軍售等項目上談成未形諸文字的「影子交易」,台灣與華府政界正高度關注川普是否會為了更大規模的經貿協議而做出退讓。
- 半導體貿易與 AI 供應鏈:川普已證實輝達執行長黃仁勳正隨行搭乘空軍一號前往中國。美方預計要求習近平開放市場,市場則聚焦雙方能否在人工智慧(AI)晶片限制與中國稀土礦供應鏈之間達成突破性共識。
- 地緣政治與伊俄變局:在全球陷入美伊戰爭震盪期的背景下,川普在出訪前夕強硬表示不需要中國協助處理伊朗問題。雙方高層此前已同意任何國家均不得對相關海域的通行船隻收取通行費,以此管控分歧。
美國總統川普於週六(2/28)證實,美軍已在伊朗展開「重大作戰行動」,使中東局勢急遽升溫。川普說,伊朗正在研製威脅美國的長程飛彈。此次襲擊要摧毀伊朗的飛彈工業,消滅伊朗海軍,確保伊朗不能獲得核武。
五角大廈表示,美國將此次對伊朗的行動命名“史詩怒火”。
28日,以色列總理那坦雅胡宣布,美國和以色列發動軍事行動的目標是推翻伊朗政權。
在美國與以色列對伊朗發動聯合軍事打擊後,伊朗於週六(28 日)向以色列發射飛彈展開報復,導致以色列全境拉響防空警報、醫療體系進入最高戒備;德黑蘭多處政府與軍事設施遭襲,伊方高層強硬放話「結局不再由以色列掌控」。
川普稱,伊朗正在研發可威脅美國的遠程飛彈,此次行動旨在摧毀其飛彈工業、打擊伊朗海軍,並確保伊朗無法獲得核武。
他強調,主要目的是「消除伊朗政權對美國人民的威脅」,並警告伊朗永遠不可能擁有核武器。
美國總統川普週末在自家社群平台發文,宣稱伊朗最高領袖哈米尼已經身亡,並形容此舉是對伊朗人民以及全球受害者的「正義」。川普表示,哈米尼無法躲避美方高度先進的情報與追蹤系統,在與以色列密切合作下,美方成功鎖定並殲滅包括哈米尼在內的多名伊朗領導人。
第三次石油危機?
《路透社》3/2 援引伊朗媒體報導,一名伊朗伊斯蘭革命衛隊高階官員稱,荷姆茲海峽已關閉,伊朗將向任何企圖通過海峽的船隻開火。
荷姆茲海峽是全球最重要的石油運輸通道,連接沙烏地阿拉伯、伊朗、伊拉克、阿聯等海灣主要產油國與阿曼灣及阿拉伯海,全球約 20% 石油日消耗量都要經過該海峽。
伊朗除了使用飛彈和無人機直接攻擊船隻,還可能在海峽中布設水雷。美國情報單位估計,伊朗已儲備多達 6,000 枚水雷,包括漂流水雷、吸附式水雷、底雷和系泊水雷。
據《伊朗學生通訊社》周一報導,伊朗伊斯蘭革命衛隊指揮官賈巴里在一檔電視直播中說,任何企圖通過荷姆茲海峽的船隻都會被擊毀,「我方不會允許一滴石油從該地區流出」。
據伊朗《法爾斯通訊社》周二(3 日)報導,伊朗伊斯蘭革命衛隊海軍副司令穆罕默德 · 阿克巴爾扎德表示,荷姆茲海峽已完全處於伊朗海軍的控制之下,十多艘油輪在這片海域被炮彈擊中。
阿克巴爾扎德說,革命衛隊海軍多次警告荷姆茲海峽處於戰爭狀態,任何船隻都可能被炮彈或無人機擊中。但仍有十多艘油輪無視警告,已被炮彈擊中。
阿克巴爾扎德強調,在伊朗宣布荷姆茲海峽禁止航行後,油輪、商船和漁船已無法通過海峽。
DeepSeek 全新系列模型 DeepSeek-V4 的預覽版本,4月24日 正式上線並同步向全球開源。此次發佈象徵著開源模型在推理能力,以及長文本處理領域邁向了新的里程碑。
DeepSeek-V4 系列根據應用場景分為「專家模式」DeepSeek-V4-Pro 與「快速模式」DeepSeek-V4-Flash 兩個版本,全系列皆標配高達 100 萬字的超長上下文處理能力,並提供思考與非思考模式供用戶彈性切換。
在性能評測方面,旗艦級的 DeepSeek-V4-Pro 展現了驚人的知識儲備與邏輯推理實力。根據官方數據,其在世界知識評測中不僅大幅領先所有同類開源模型,表現更直逼頂尖閉源模型 Gemini-Pro-3.1。
在數學、STEM 領域及競賽型代碼測評中,V4-Pro 的成績更是傲視目前已公開的所有開源模型,取得了比肩全球頂級閉源模型的卓越成就。
針對高頻率、高效率需求設計的 DeepSeek-V4-Flash,雖然在世界知識儲備上略遜於 Pro 版本,但其推理能力依然保持在相近的高水準。得益於更小的模型參數與更精簡的啟動機制,V4-Flash 能夠提供更迅速、更具經濟效益的 API 服務,為開發者與企業應用提供了極具吸引力的選擇。
本次更新最受矚目的亮點之一在於 Agent 能力的飛躍式提升。DeepSeek-V4-Pro 在 Agentic Coding(代理編碼)評測中已達到開源界最佳水平,其在自動化生成簡報(PPT)內頁等任務中表現優異。
據悉,DeepSeek 公司內部已將 V4 作為核心的開發輔助模型。內部員工反饋指出,V4 在程式碼任務與文件生成方面的品質優於市場主流的 Sonnet 4.5,其交付品質已接近 Opus 4.6 的非思考模式,展現了強大的工程實踐價值。
DeepSeek-V4 的開源不僅是技術上的輸出,更展現了該團隊致力於推動 AI 基礎設施普及化的決心。
黃仁勳最擔心的事發生了?DeepSeek V4捨輝達 轉用華為晶片
DeepSeek 新一代 AI 模型 V4 預覽版針對「華為」晶片架構進行優化,象徵中國在關鍵算力基礎上加速擺脫對外依賴;而輝達執行長黃仁勳先前已警告,一旦中國 AI 模型全面轉向本土晶片運行,恐對美國帶來「可怕的結果」,相關發展正牽動全球科技與資本市場神經。
此次 DeepSeek 與華為合作深化,與過去高度依賴輝達 (NVDA-US) 晶片形成對比。華為表示,其 Ascend 晶片已參與 V4 部分訓練過程,顯示中國 AI 模型逐步轉向本土硬體體系。
這一發展對全球 AI 產業格局具有指標意義。在美國出口管制與中國政策推動下,企業正加速降低對外國技術依賴,轉向自研與國產替代方案。
黃仁勳近日在 Dwarkesh podcast 上發出警告,若中國開發者轉向本土平台,可能削弱公司在中國市場的生態優勢。
他強調:「DeepSeek 並非微不足道的進步。如果有一天 DeepSeek 首度在華為晶片上發佈,那將是對我們國家 (美國) 而言一個可怕的結果。」他指出,全球的 AI 模型若非在美國硬體上運行,對美國將是壞消息。
如今,隨著 DeepSeek 選擇優先適配華為晶片,市場對此趨勢的關注持續升溫。
「國芯+國模」:DeepSeek-V4引領中國產AI算力底座走向多元化
這次發布與以往最大的不同在於,DeepSeek-V4 不再僅依賴輝達的 CUDA 框架,而是成功在華為昇騰 NPU 上完成了細粒度專家並行方案的驗證。這象徵著中國 AI 產業正朝著「國產算力 + 國產大模型」的閉環生態邁進,走向算力底座邁向多元化。
多款中國產晶片實現「Day 0」適配!
目前,華為昇騰超節點全系列產品已全面支持 DeepSeek-V4,並實現了極速推理:Pro 模型延遲僅 20ms,Flash 模型則達 10ms。
除了華為,沐曦、寒武紀、摩爾線程、天數智芯等多家中國產晶片廠商也宣佈支持新模型。
在軟硬體協同方面,由智源研究院牽頭的 FlagOS 已完成 DeepSeek-V4-Flash 在海光、沐曦、平頭哥真武、昆侖芯等 8 款以上中國產晶片的全量適配。
沐曦股份聯合創始人楊建表示,這次適配讓中國產 GPU 成為創造知識時代的生產力工具,目前包含 Minimax、階躍星辰、Kimi、智譜 GLM 等模型,皆能基於中國產 GPU 算力實現具備性價比的推理任務。
百萬字上下文成標配 算力、顯存需求大降
技術層面上,DeepSeek-V4 實現了結構性的創新突破。該模型開創了一種全新的注意力機制,通過在 Token 維度進行有效壓縮,並結合獨家的 DSA(DeepSeek Sparse Attention)稀疏注意力技術,實現了領先全球的長上下文處理能力。這項技術不僅大幅降低了計算資源與顯存需求,更讓 1M(百萬)級別的上下文處理正式成為 DeepSeek 官方服務的標準配備。
這項技術不僅大幅降低了計算資源與顯存需求,更讓 1M(百萬)級別的上下文處理正式成為 DeepSeek 官方服務的標準配備。
三大神技重塑長上下文效率
DeepSeek-V4 的強大源於底層架構的結構性創新,尤其是解決了傳統注意力機制在長文本場景下算力與顯存需求飆升的痛點。其核心技術包括:
- 混合注意力機制 (CSA + HCA): 這是 V4 最核心的創新。CSA(壓縮稀疏注意力) 以較低倍率壓縮 KV 緩存並結合稀疏檢索,確保中段細節;HCA(重度壓縮注意力) 則以極高倍率 (如 128 倍) 壓縮信息,專注全局邏輯。這種「長短結合」的策略,使模型在處理百萬 token 時,單 token 推理計算量僅為前代的 27%,KV 緩存占用縮減至 10%。
- 流形約束超連接 (mHC): 升級傳統的殘差連接,將信號傳播約束在穩定流形上,確保深層網路的穩定性與表達力。
- Muon 最佳化器: 引入全新的最佳化技術,使兆級參數模型的訓練過程收斂更快且更穩定。
此外,V4 採用了 On-Policy Distillation(OPD) 技術,透過蒸餾多個領域專家模型來提升學生模型的表現,並引入 Generative Reward Model(GRM) 讓模型能自我評核與優化。
開啟百萬上下文平民化時代 DeepSeek V4因性能躍升與定價革命再受矚目
DeepSeek 再次展現了極致的成本控制能力,其定價策略對開發者極具殺傷力:
- V4-Flash: 輸出價格僅為 每百萬 token 0.28 美元。這比 OpenAI 的 GPT-5.4 Nano 更低,且僅約為 Claude Opus 4.7 價格的 1%。
- V4-Pro: 輸出價格為 3.48 美元,遠低於 Claude Opus 的 25 美元及 GPT-5.4 的 15 美元,是目前前沿大模型中成本最低的選項之一。
DeepSeek 更暗示,隨著下半年國產算力硬體 (如昇騰 950) 的大規模上市,V4-Pro 的價格仍有進一步下調的空間。
算力適配與開源影響
值得注意的是,DeepSeek-V4 是全球首個在 國產算力底座 (如華為昇騰 NPU) 上完成訓練與推理的兆參數級模型,實現了 1.50 至 1.73 倍的加速比。雖然目前昇騰適配代碼尚未完全開源,但寒武紀等平台已透過 vLLM 框架完成適配並開源至 GitHub。
DeepSeek-V4兩天兩度降價 全球AI定價體系面臨崩塌
DeepSeek 上周日 (26 日) 宣布全系列 API 輸入緩存命中價格永久降至原價的十分之一,V4-Flash 模型降至百萬 Tokens 要價 0.02 元(人民幣,下同),V4-Pro 模型降至 0.1 元。若疊加此前開啟的 2.5 折限時特惠,V4-Pro 實際價格僅為 0.025 元。
相比之下,美國 OpenAI 的 GPT-5.5 模型緩存輸入價格約為 3.4 元,每次對話成本恐是 DeepSeek-V4 的 32 倍。
極具競爭力的價格迅速拉動了市場需求。根據 OpenRouter 報告,上周六 (25 日)DeepSeek-V4-Pro 調用量達到 136 億 Token,較前一日增長近四倍。
儘管在整體智能指數測試中與頂尖閉源模型仍有差距,但其性價比優勢極為突出,例如完成測試的成本僅為美國 Anthropic 公司 Claude Opus 4.7 模型的約四十分之一。