Spec-VLA:投机解码框架首次适配视觉-语言-动作模型,推理加速1.42倍且零成功率损失

2026-04-07 09:22 👁 阅读

随着具身智能与机器人自主决策需求激增,视觉-语言-动作(Vision-Language-Action, VLA)模型正成为AI前沿关键赛道。然而,现有VLA系统普遍受限于视觉语言模型(VLM)庞大的参数量与自回归解码机制,导致动作预测延迟高、边缘部署困难,严重制约其在实时交互场景(如家庭服务机器人、工业协作者)中的落地。2026年3月,由CMU与DeepMind联合团队在ICLR 2026提交的论文《Spec-VLA: Speculative Decoding for Vision-Language-Action Models with Relaxed Acceptance》首次将投机解码(Speculative Decoding, SD)范式系统性迁移至VLA任务,突破性地解决了传统SD在动作令牌生成中接受率低、提速微弱的核心瓶颈。

该研究创新性提出“松弛接受机制”(Relaxed Acceptance),不再严格要求候选动作令牌与目标分布完全匹配,而是基于动作令牌在语义空间中的相对距离动态设定接受阈值——例如抓取动作与放置动作在操作序列中具有强时序邻近性,即便token-level概率偏差较大,仍可被判定为有效接受。实验表明,在OpenVLA基准下的7类真实机器人任务(包括ALFRED、RT-2、VoxPoser)中,Spec-VLA将平均令牌接受长度提升44%,端到端推理延迟降低29.6%,整体吞吐量达1.42倍加速,且在所有任务中保持100%原始成功率,验证了其在严苛物理交互场景下的鲁棒性。

更值得关注的是,该框架完全兼容现有VLA架构,无需重训基础模型,仅需轻量级草稿模型(draft model)即可部署。研究团队已将全部代码、训练脚本及评估工具链以Apache 2.0协议开源,并提供面向NVIDIA Jetson AGX Orin平台的量化部署示例。这一进展不仅为VLA模型迈向边缘实时化扫清关键技术障碍,更标志着多模态推理优化正从‘通用压缩’转向‘任务感知加速’新范式——即依据下游动作语义结构设计专用解码策略。产业界已迅速响应,UBTECH与云深处科技均确认将在2026年Q3新一代具身智能体固件中集成Spec-VLA推理引擎。