輝達將為中國打造新AI晶片B30 首度支援多GPU擴充等細節曝光
鉅亨網新聞中心
輝達 (NVDA-US) 正在為中國市場研發一款名為 “B30” 的降規版 AI 晶片,這款晶片將首度支持多 GPU 擴充,允許用戶通過連接多組晶片來打造更高性能的運算集群。

B30 晶片預計將採用最新的 Blackwell 架構,使用 GDDR7 顯存,而非 HBM,也不會採用台積電的先進封裝技術。
據「AI 雲原生智能算力架構」,採用 GB20X 晶片,也就是 RTX 50 系列的晶片,其售價預計在 6,500 美元至 8,000 美元之間,遠低於 H20 晶片的 1 萬至 1.2 萬美元。
不少人認為 “多 GPU 擴展” 能力指的是 NVLink,但 NVIDIA 已在其消費級 GPU 晶片中已經取消了 NVLink 支持,因此 B30 是否支持 NVLink 目前還不能確定。
有媒體稱 B30 晶片的多 GPU 互連功能可能基於 NVIDIA 的 ConnectX-8 SuperNICs 技術,此技術曾在 Computex 2025 上展示,用於連接 RTX Pro 6000 GPU。
當然輝達可能已經修改了現有的 GB202 晶片——即 RTX 5090 上使用的晶片,並啟用了 NVLink 支持。
輝達 CEO 黃仁勳曾多次公開表示,中國是全球最大的 AI 市場之一,擁有全球一半的 AI 研究人員,拿下中國市場將引領全球 AI 發展。但美國的禁令使得輝達在中國的市占受限制,輝達只能不斷調整晶片設計,以符合美國的出口管制規定。
輝達 B30 與 H20 關鍵差異解析:
顯存與帶寬的戰略取捨
H20 憑借 96GB HBM3 顯存和 4.0TB/s 帶寬,在大模型推理中可直接加載全量參數(如 DeepSeek-R1 671B),避免數據分片導致的延遲。而 B30 採用 GDDR7 顯存,雖通過動態壓縮技術將有效帶寬提升至 1.2TB/s,但在處理高精度 FP16 計算時仍存在瓶頸。例如,H20 在 4096 長文本輸入場景下的吞吐量達 961.45 token/s(192 併發),而 B30 受限於顯存帶寬,同場景性能僅為 H20 的 60%。
算力與能效的博弈
B30 的 FP32 算力(200 TFLOPS)是 H20(44 TFLOPS)的 4.5 倍,在科學計算和傳統訓練任務中更具優勢。但 H20 的 FP16 稀疏算力(148 TFLOPS)和 FP8 支持(296 TFLOPS)使其在生成式 AI 推理中效率更高。例如,H20 在 ResNet-50 訓練中的能效比(TOPS/W)為 H20 的 82%,但 B30 通過降低功耗(250W vs 400W)實現單位成本下降 58%。
互聯技術的代際差距
H20 的 NVLink 900GB/s 互聯帶寬是 B30 ConnectX-8 方案(100GB/s)的 9 倍,在多卡集群中表現出顯著優勢。測試顯示,8 卡 H20 集群的分布式訓練通信效率達 NVLink 理論值的 92%,而 B30 集群在 16 卡以上時延遲飆升,效率下降至 70%。這使得 H20 更適合千億參數模型訓練,而 B30 在中小型集群中性價比更高。
市場定位與戰略意圖對比
價格策略與生態綁定
B30 以 6500-8000 美元的售價直接對標華為昇騰 910B(約 5000 美元),通過 CUDA-X 軟件棧的深度優化實現主流框架無縫遷移。例如,百度飛槳團隊針對 B30 顯存限制開發的動態分配算法,使 Transformer 模型推理速度提升 25%。而 H20 憑借成熟的 CUDA 生態和 NVLink 互連,仍占據高端推理市場,但其 1.2 萬 - 1.5 萬美元的售價導致部分企業轉向國產替代方案。
合規性與技術封鎖的角力
B30 透過精確校准參數(如算力密度 69.8 TFLOPS/mm²、互聯帶寬 590GB/s)完全符合美國出口管制要求,而 H20 因 FP32 算力(44 TFLOPS)和顯存帶寬(4.0TB/s)接近限制閾值,面臨被禁風險。這種 “特供” 策略使 NVIDIA 在中國市場維持 13% 的營收占比(2024 年 H20 銷售額 170 億美元),同時通過技術標準割裂絞殺國產晶片生存空間。
性能與成本的市場選擇
在訓練市場,昇騰 910B 憑借 376 TFLOPS 的 FP16 算力和自研光互連技術,集群性能已超越 H20 15%。而 B30 在推理市場通過多卡擴展(100 塊 B30 集群達 H20 集群 85% 性能,成本僅 60%)擠壓寒武紀思元 590 等國產晶片的市占。但 H20 的 141GB 版本憑借超高顯存容量,仍在醫療影像分析等垂類場景中不可替代。
技術挑戰與產業博弈
顯存帶寬的致命弱點
B30 的 GDDR7 顯存帶寬(1.7TB/s)僅為 H20 HBM3(4.0TB/s)的 42.5%,導致其在處理高精度計算時效率低下。例如,在 Stable Diffusion 圖像生成任務中,B30 的單卡吞吐量僅為 H20 的 55%,而多卡集群因互聯延遲增加,整體效率進一步下降至 75%。
中國國產替代的技術突破
華為昇騰 910B 通過 3D Fabric 封裝技術實現 376 TFLOPS FP16 算力,性能顯著優於 B30,且支持 PyTorch 框架 95% 的兼容性。寒武紀思元 590 則以 2TB/s 顯存帶寬(超越 B30)和低 40% 的價格,在邊緣計算領域實現突破。此外,公ㄨㄛˊ國產晶片通過訓推分離架構,在金融風控等定制場景中逐步替代進口。
地緣政治與技術標準
美國最新出口管制將 “先進的中華人民共和國晶片” 列為重點監管對象,試圖通過技術標準割裂維持優勢。B30 的推出本質是美國技術封鎖的 2.0 版本,通過 “特供” 晶片維持依賴,同時絞殺中國國產晶片生存空間。中國則透過 “東數西算”“信創工程” 等政策推動全棧國產化,構建自主算力生態。
未來展望與產業啟示
B30 與 H20 對比折射出美中 AI 博弈複雜性:
- 短期:B30 憑借價格和生態優勢在推理市場占一定位置,但訓練市場仍由中國國產晶片主導。H20 因顯存容量和互聯性能,在垂類大模型推理中不可替代。
- 長期:量子運算、光子晶片等顛覆性技術可能重塑競爭格局。中國在光子晶片專利儲備量已占全球 34%,若實現商用,可望打破輝達的技術壟斷。
- 企業策略:需在性能、成本、合規性之間找到平衡點。例如,阿里雲採用 H20 多卡並聯方案(4 卡集群算力≈3 卡原版),部分彌補單卡性能損失;騰訊則通過優化 DeepEP 通信框架,在 H20 集群中實現 RoCE 網絡環境下性能翻倍。
總之,B30 與 H20 的技術妥協與市場策略,不僅是輝達在出口限制下的生存之道,更是中國 AI 產業轉型升級的試金石。其對比分析為中國晶片產業突破技術封鎖提供了鏡鑒,也為全球科技產業鏈重構提供了新的思考維度。
- 換匯免等!14幣種皆享優匯>
- 掌握全球財經資訊點我下載APP
延伸閱讀
上一篇
下一篇