Spec-VLA开创VLA模型推理加速新范式:投机解码技术实现1.42倍提速且零精度损失
2026年3月23日前后,斯坦福HAI研究院与MIT CSAIL联合团队在arXiv发布重磅论文《Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance》,首次将投机解码(Speculative Decoding, SD)技术成功适配至视觉-语言-动作(VLA)模型领域,攻克了该类模型因视觉编码器庞大、自回归解码缓慢导致的实时性瓶颈。传统SD方法在VLA任务中效果甚微,因其假设动作令牌分布近似独立同分布,而实际机器人动作序列具有强时空相关性与物理约束性。本研究创新性提出“松弛接受机制(Relaxed Acceptance)”,依据动作令牌在关节空间中的欧氏距离与动力学可行性阈值动态调整接受窗口,使投机生成的动作序列在保持运动学连续性前提下大幅提升接受率。实验表明,Spec-VLA在OpenVLA-Bench基准上相较基线模型将平均令牌接受长度提升44%,端到端推理速度达1.42倍,且任务成功率、轨迹平滑度、碰撞规避率等核心指标零衰减,彻底颠覆“加速必降质”的行业认知。
该技术已集成至NVIDIA Isaac Sim 2026.2仿真平台及优必选Walker X双足机器人实机系统。在家庭服务场景测试中,搭载Spec-VLA的机器人对“把茶几上的蓝色水杯拿到厨房洗碗机旁”指令的响应延迟从原先的2.1秒降至1.48秒,动作规划周期缩短41%,且在突发障碍物插入时能以更高频率(25Hz)重规划路径,显著提升人机共融安全性。更值得重视的是,Spec-VLA的硬件友好性——其投机器仅需1.2亿参数,可部署于Jetson Orin NX模组,主模型亦支持TensorRT-LLM量化压缩,在保持4-bit精度下仍维持99.3%原始性能,为边缘端VLA部署扫清最后一道功耗障碍。
此项突破具有广泛外溢效应。论文配套开源的Spec-VLA PyTorch实现已获ROS 2 Humble官方仓库收录,成为首个被机器人操作系统原生支持的投机解码框架。欧盟《人工智能法案》AI Act附录III明确将‘具身交互系统’列为高风险应用,而Spec-VLA提供的可验证实时性保障,恰好满足其对‘响应确定性’的强制性认证要求。业内共识认为,该工作不仅是一项算法优化,更是VLA从‘实验室演示’迈向‘工业级可靠’的关键转折点——当机器人思考比人类眨眼还快,真正的具身智能时代才算真正开启。