蚂蚁数科发布低成本具身智能数据采集框架AoE
近日,蚂蚁数科天玑实验室联合中国科学院自动化研究所、浙江大学、北京大学、北京智源人工智能研究院,联合研发并发布了Always-on Egocentric(AoE)低成本具身智能数据采集框架。该框架仅需一台普通手机搭配一个成本低于20美元的颈挂式支架,即可替代动辄数万美元的专业采集设备,实现具身智能高质量数据的规模化采集,相关技术论文已在Arxiv平台发布,为行业突破数据采集瓶颈提供了全新解决方案。
具身智能的核心是让AI系统像人类一样感知和操控物理世界,而第一人称视角的交互数据则是训练这类AI的“核心燃料”。长期以来,行业内数据采集始终面临“低成本、大规模、高精度”难以兼得的“不可能三角”困境:传统遥操作设备成本高昂且局限于实验室,可穿戴动捕设备笨重且价格不菲,互联网被动视频则需大量人工清洗才能用于训练,这些问题严重抬高了具身智能的研发门槛,制约了技术规模化落地。
AoE框架的核心突破的在于重构了数据采集模式,将“人+手机”转化为可持续运行的移动数据节点,让具身数据从少数高成本实验室节点,走向更广泛、真实的现实世界场景。其硬件载体是一款符合人体工学的颈挂式支架,通过机械夹具、磁吸等双重固定方式将手机稳固于胸前,以贴近人类第一人称的视角,完整记录人与环境的自然交互过程。这套硬件组合成本不足20美元,仅为传统专业设备的千分之一,却能保持毫米级轨迹精度和90%以上的手部关键点识别准确率,同时支持数千台设备并发采集与云端自动化处理,大幅降低了采集门槛与边际成本。
低成本采集只是起点,AoE框架还创造性破解了“长视频转化为训练数据”的行业痛点,构建了端云协同的全自动化处理管线。在端侧,手机部署的轻量级视觉模型可实时识别手物交互行为,仅在人手接触或操作物体时触发录制,避免无效视频占用存储空间和处理资源;隐私保护方面,所有推理和原始数据均存储在本地,上传前会自动模糊人脸、屏幕等敏感信息,并通过音频提示告知周围人员,兼顾采集效率与隐私安全。
采集到的有效视频片段上传云端后,会经过六阶段自动化处理:通过手机出厂内参完成相机校准,利用Qwen3-VL大模型将长视频切分为带语义标签的原子动作片段,结合深度模型与SLAM算法恢复空间信息,通过HaWoR模型重建3D手部关节点,再经数据增强和质量控制环节,最终自动生成标准化的训练数据,全程无需人工介入,实现了从原始视频到可用训练数据的闭环转化。
实测数据充分验证了AoE框架的实用价值。在Unitree G1人形机器人执行“关笔记本电脑”任务中,仅依靠50条传统遥操作数据时,任务成功率仅为45%;而引入200条AoE采集的数据后,成功率跃升至95%。消融实验进一步显示,在采集数据稀疏时,AoE数据可发挥“启动学习”的冷启动作用;随着机器人采集数据增加,AoE数据仍能持续提升模型性能。此外,在“推碗倒种子”等长程双手任务中,AoE数据也有效提升了模型的协调控制能力,仅在“叠围巾”任务中因硬件延迟未出现提升,印证了数据本身的高质量价值。
从行业布局来看,AoE框架的发布,完善了蚂蚁数科在具身智能领域的三层能力栈:采集层以AoE为核心构建低成本分布式采集体系,模型层有LingBot系列开源模型提供技术支撑,应用层则通过投资相关企业推动技术落地。作为数据采集环节的“源头活水”,AoE框架的推出,不仅为中小开发者和企业提供了普惠式的数据生产方案,更将推动具身智能在服务机器人、工业操作、智能家居、金融服务等多个领域的规模化落地,加速行业从实验室研发走向实际应用的进程。
蚂蚁数科天玑实验室相关负责人表示,未来将持续优化AoE框架的技术性能,拓展更多采集场景,同时通过公开技术思路、完善数据产线,与行业伙伴携手降低具身智能研发门槛,共同推动AI技术扎根真实场景、创造产业价值。
