英特尔与SambaNova联合发布异构AI推理架构,破解大模型部署成本与能效瓶颈

2026-04-11 08:32 👁 阅读

2026年4月10日,英特尔公司与美国AI基础设施厂商SambaNova Systems联合宣布推出面向量产级应用的新型异构AI推理架构。该方案首次将传统AI GPU/加速器的预填充(prefill)阶段与SambaNova SN50可重构数据流处理器的解码(decode)阶段进行硬件级解耦与协同调度,通过动态键值缓存迁移与跨芯片张量流水线,实现端到端推理延迟降低38%、单位算力能耗下降52%。技术白皮书显示,该架构已在某头部金融风控大模型(130B参数)实测中达成单卡吞吐提升2.7倍,使原需128卡集群的实时反欺诈服务压缩至42卡,年度运维成本削减逾1.4亿元。

这一突破直击当前AI产业化最大痛点:大模型‘推理贵、部署重、响应慢’。尽管训练环节已形成NVIDIA H100+Transformer生态闭环,但推理侧长期受限于内存带宽墙与功耗天花板。传统方案依赖堆叠GPU或定制ASIC,导致CAPEX激增且灵活性不足。而本次异构架构采用‘CPU做调度中枢、GPU做密集计算、SN50做流式解码’的三层分工模式,既保留通用性又释放专用硬件效能。尤其值得关注的是其开源推理运行时(IRuntime v2.1)支持ONNX、Triton及HuggingFace Transformers无缝接入,开发者无需重写模型即可迁移部署。

产业影响已迅速显现。亚马逊AWS同日宣布将在其Inferentia3实例中集成该架构技术栈;国内某省级政务云平台启动POC测试,目标将120个部门AI客服模型统一纳管至单套异构集群。专家指出,该方案或将重塑AI芯片竞争格局——不再单纯比拼峰值算力,而是转向‘全栈能效比’与‘场景适配度’的综合较量。长远看,它为边缘侧轻量化大模型(如手机端7B MoE)提供可行落地路径,真正打通从云端大模型到终端小模型的价值闭环。