探微芯联发布Scale-Up超节点通信互联方案,填补国产高性能AI芯片间高速互连空白

2026-04-02 19:56 👁 阅读

2026年3月30日,专注AI芯片互连技术的探微芯联正式发布“星链-X”系列Scale-Up超节点通信互联完整解决方案,成功实现单节点内128颗国产AI加速芯片间的200TB/s全互联带宽与亚微秒级端到端延迟,关键指标达到国际同类产品先进水平,彻底打破国外厂商在高端AI芯片互连IP领域的长期垄断。该方案由自研“天枢”高速串行总线、“玄策”智能路由交换矩阵与“伏羲”统一内存池管理软件栈三大部分构成,支持PCIe 6.0、CXL 3.0及专有HBI(High Bandwidth Interconnect)多协议融合,可灵活适配昇腾、寒武纪、壁仞等主流国产AI芯片架构,已在鹏城实验室“云雀”万卡集群完成千节点级压力验证。

在大模型训练与推理日益走向“更大规模、更长序列、更多模态”的背景下,芯片间通信已成为制约算力释放的首要瓶颈。传统Scale-Out(横向扩展)架构依赖以太网或InfiniBand,存在带宽墙、延迟高、协议栈开销大等问题;而现有国产芯片多采用封闭式片间互连,导致多卡协同效率低下,万亿参数模型训练效率不足理论峰值的35%。“星链-X”通过创新的“拓扑感知路由算法”与“零拷贝内存虚拟化”技术,将跨芯片数据搬运延迟降至280纳秒,同时支持动态带宽分配与故障自愈,使大模型训练中的AllReduce通信耗时下降62%,长文本推理的KV缓存跨芯片同步效率提升4.8倍。

该方案的产业化价值在于其“开箱即用”的生态友好性。探微芯联已与华为、百度飞桨、智谱GLM等11家主流大模型框架及芯片厂商签署兼容性认证协议,并开源基础驱动与性能分析工具。一位参与“云雀”集群调优的工程师表示:“过去优化一个千亿模型的分布式训练,30%时间花在通信调优上;现在接入‘星链-X’后,框架自动识别硬件拓扑并生成最优通信策略,工程师可将精力聚焦于模型结构创新。”业内普遍认为,该方案的成熟,标志着我国AI算力基础设施正从“单点突破”迈向“系统领先”,为国产大模型在金融风控、气象预报、生物医药等对实时性与精度要求极高的领域大规模落地,提供了坚实可靠的底层通信保障。