英特尔与SambaNova联合发布异构AI推理架构,开启量产级AI芯片新范式
2026年4月10日,英特尔公司与美国AI基础设施企业SambaNova Systems联合宣布推出面向大规模商用部署的异构AI推理新架构。该方案打破传统单一芯片主导模式,创新性地将AI推理流程解耦为预填充(Prefill)、键值缓存(KV Cache)与解码(Decoding)三大阶段,并分别由不同硬件单元协同执行:通用AI GPU或加速器负责高并发预填充任务,SambaNova SN50可重构数据流处理器专精于动态键值缓存管理,而英特尔至强CPU集群则承担低延迟、高精度的序列解码。这一分阶段异构调度机制,在真实业务负载测试中实现平均推理时延降低38%,能效比提升2.1倍,且支持千卡级集群无缝扩展。
该架构的技术突破根植于对大模型实际运行瓶颈的深度洞察。研究发现,当前主流LLM服务中超过65%的计算资源消耗在重复键值缓存读写与内存带宽争抢上,而非核心矩阵运算。SambaNova SN50通过其独创的‘流式张量路由’架构,将缓存访问延迟压缩至纳秒级,并支持多模型共享缓存池,显著缓解显存墙问题。英特尔则依托第四代至强可扩展处理器的高级内存带宽管理与内置AI加速指令集,确保解码阶段毫秒级响应稳定性。双方已与三家头部云服务商签署首批落地协议,预计2026年Q3起在金融风控、政务问答、医疗问诊等高实时性场景规模化部署。
产业界普遍认为,该合作标志着AI芯片竞争正从‘单点算力军备竞赛’迈向‘系统级工程协同时代’。此前英伟达主导的CUDA生态虽具先发优势,但封闭性与高成本制约边缘与垂直行业渗透。此次英特尔开放x86生态兼容性,SambaNova提供全栈可编程接口,共同构建了首个真正支持‘模型即服务(MaaS)’灵活编排的开源友好型推理底座。分析师指出,这或将加速AI基础设施去中心化进程,并为中小企业降低大模型应用门槛提供关键支点——当推理不再是‘奢侈品’,AI普惠才真正具备落地根基。