Spec-VLA:首套面向视觉-语言-动作模型的投机解码框架实现1.42倍推理加速

2026-04-09 18:03 👁 阅读

随着具身智能与机器人自主决策需求激增,视觉-语言-动作(Vision-Language-Action, VLA)模型正成为大模型演进的关键前沿。然而,现有VLA系统普遍受限于视觉语言模型(VLM)庞大的参数量与自回归解码机制,导致动作令牌生成延迟高、端侧部署困难,严重制约其在实时交互场景(如家庭服务机器人、AR远程协作)中的落地。2026年3月23日,由MIT CSAIL与UC Berkeley联合团队在ICLR 2026 Spotlight论文中正式发布Spec-VLA——全球首个专为VLA任务定制的投机解码(Speculative Decoding, SD)框架,首次突破SD在动作预测任务中提速效果微弱的技术瓶颈。

该研究核心创新在于提出“松弛接受机制”(Relaxed Acceptance),针对VLA动作序列中相邻令牌间存在强时序相关性但语义容错率较高的特点,放弃传统SD中严格的逐令牌匹配策略,转而基于动作令牌在轨迹空间中的相对距离动态设定接受阈值。实验表明,在OpenVLA基准下的Pick-and-Place、Navigation等6类任务中,Spec-VLA将平均令牌接受长度提升44%,端到端推理速度达1.42倍加速,且任务成功率零损失(±0.2%波动内)。尤为关键的是,该框架完全兼容现有VLA主干架构,无需重训模型,仅需轻量级草稿模型(Draft Model)即可部署。

Spec-VLA的开源实践进一步强化其产业价值:全部代码、预训练草稿模型及标准化评测脚本均按Apache 2.0协议开放,并配套详尽的硬件适配指南(涵盖NVIDIA Jetson AGX Orin与Apple M3 Ultra平台)。业内专家指出,此举标志着VLA推理正从“能力优先”迈向“效率可控”新阶段;未来半年内,预计至少5家头部机器人公司将在其下一代导航控制器中集成该技术。值得注意的是,该成果亦暴露出当前VLA评估体系的局限性——现有基准多聚焦单步动作准确率,而忽视长程动作连贯性与能耗比,这或将推动IEEE P2851标准工作组加速制定VLA实时性评测新范式。