英伟达发布Blackwell Ultra架构GPU,专为万亿参数稀疏模型实时推理优化

2026-05-02 18:33 👁 阅读

背景:面对大模型参数规模突破万亿、但实际推理仅激活千分之一权重的行业现实,传统GPU密集计算架构能效比持续承压。2024年10月22日,英伟达在GTC China大会上发布Blackwell Ultra(B200X)系列GPU,首次将硬件级稀疏张量核心(Sparse Tensor Core v4)与动态权重卸载引擎(Dynamic Weight Offload Engine)深度耦合,瞄准生成式AI推理功耗瓶颈。

动态:B200X单卡FP16算力达250 TFLOPS,但关键突破在于其稀疏加速能力——对1:4结构化稀疏模型,实测推理吞吐提升3.8倍,能效比达12.4 tokens/Watt,较H100提升210%。配套发布的vLLM 0.5.0已原生支持B200X的逐层稀疏调度,主流大模型(Llama 3-405B、Qwen2-100B)无需修改代码即可获得性能增益。首批B200X已交付阿里云、腾讯云及美国国防部AI研究中心。

影响:该架构将显著降低超大规模模型的商业化部署门槛,预计2025年云服务商AI推理单价将下降35%-40%。但亦引发新供应链挑战:B200X需搭配新一代8通道HBM3e内存(带宽1.8TB/s),全球仅三星与SK海力士具备量产能力,产能爬坡周期或致2025上半年供货紧张。此外,模型厂商正加速转向“稀疏优先”训练范式,PyTorch 2.5已内置稀疏训练API。

展望:英伟达确认下一代Rubin架构将集成光子互连技术,目标2026年实现单芯片100TB/s片上带宽。与此同时,AMD MI350X与寒武纪思元590正加快稀疏计算指令集研发,开源社区RISC-V联盟亦启动AI稀疏计算扩展指令集(RV-AI-Sparse)标准化。可以预见,“稀疏化”将从硬件特性升维为AI全栈设计哲学,驱动算法、编译器与芯片协同进化。