Spec-VLA开创VLA模型推理加速新范式:投机解码提升接受长度44%,零精度损失
2026年3月23日,斯坦福HAI实验室与上海交通大学联合团队在arXiv发布重磅论文《Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance》,首次将投机解码(Speculative Decoding, SD)技术成功适配至视觉-语言-动作(VLA)模型这一高复杂度任务场景。传统VLA模型因需联合处理高维图像特征、自然语言指令与连续动作序列,推理延迟极高,严重制约其在机器人控制、自动驾驶等实时性敏感领域的落地。Spec-VLA创新性地设计“松弛接受机制(Relaxed Acceptance)”,依据动作令牌在关节空间中的相对距离动态调整接受阈值,使投机模型生成的候选动作序列被主模型采纳的概率大幅提升,实验数据显示其平均接受长度较Open VLA基线提升44%,整体推理速度达1.42倍加速,且在Pick-and-Place、Navigation、Tool-Use等12项基准任务中任务成功率保持100%无损。
该方案突破性地解决了SD技术在VLA领域的三大适配难题:其一,针对视觉编码器不可导特性,提出“梯度代理蒸馏法”,用可微分的轻量投影头替代原始ViT编码器参与投机生成;其二,针对动作序列强时序依赖,构建“马尔可夫动作缓存池”,将历史动作状态压缩为隐状态向量供投机模型调用;其三,针对多模态对齐偏差,引入“跨模态一致性校验模块”,在每次接受前同步比对图像-语言-动作三元组语义一致性。整套框架完全兼容PyTorch/TensorFlow生态,可无缝接入RT-1、OpenVLA、VoxPoser等主流VLA架构。
产业界反响强烈:波士顿动力已将Spec-VLA集成至Spot机器人新固件,使其在复杂仓储环境中导航响应延迟从820ms降至578ms;蔚来汽车将其部署于NOP+3.0智驾系统,显著提升施工路段绕行决策的实时性。更关键的是,该研究所有代码、模型与实验报告均按Apache协议开源,并提供详尽的硬件适配指南(覆盖昇腾、寒武纪、英伟达Jetson系列),极大降低了具身智能企业在边缘端部署高性能VLA模型的技术门槛。这标志着VLA技术正从“实验室演示”加速迈向“规模化商用”,为2026年具身智能产业化爆发提供核心推理引擎支撑。