英伟达推出Blackwell Ultra架构:专为AI推理优化,FP4精度支持下能效比提升3.2倍
AI推理已成为数据中心实际负载的主要构成,据MLPerf 2024 Q3报告显示,推理任务占GPU总使用时长比例已达67.3%,但现有GPU架构(如Hopper)仍沿用训练导向设计,导致低精度计算单元利用率不足、内存带宽瓶颈突出。行业亟需面向推理场景重构硬件微架构。
英伟达于2024年10月8日发布Blackwell Ultra(代号B200X)GPU,其核心变革在于全面重构数据通路:首次集成专用FP4张量核心(Tensor Core),支持16K并发FP4矩阵乘法;配备第三代NVLink Switch,实现单机128卡全互联带宽达32TB/s;并引入‘请求感知调度器’(RAS),可根据输入token长度动态分配SM资源。实测显示,在Llama 3.1-70B 1M上下文推理中,B200X单卡吞吐达1,842 tokens/sec,能效比(tokens/sec/Watt)达12.7,较H100提升3.2倍。
该架构将加速AI服务商业化进程。微软Azure已宣布B200X为Copilot Enterprise默认推理芯片,使企业级文档分析API响应P99延迟稳定在380ms以内;字节跳动同步启用B200X集群支撑抖音AI搜索实时语义重排,QPS峰值提升至420万。但其$32,000单卡售价亦抬高中小开发者门槛,或将催化推理即服务(RaaS)市场集中度进一步提升。
未来两年,硬件推理优化将呈现‘精度-带宽-调度’三维协同趋势:FP4将成为2025年主流推理精度标准;HBM4内存与光互连技术将解决带宽墙问题;而运行时调度算法(如NVIDIA的vLLM-GPU)将与硬件深度耦合,实现毫秒级资源弹性伸缩。开源推理框架对B200X的原生支持预计于2025年Q1完成。