近日,蚂蚁集团旗下具身智能公司灵波科技宣布,全面开源其具身基座模型LingBot-VLA的真机后训练工具链。开发团队可基于这套工具链,使用自有数据将LingBot-VLA快速迁移到自有机器人和具体任务中。这是继今年1月开源模型权重之后,灵波科技在具身智能工程化落地上迈出的关键一步。
当前具身智能领域开源模型持续增多,但把模型真正部署到自己的机器人上,仍需要完成大量适配工作。不同机器人在机械臂构型、末端执行器、传感器配置和控制接口等方面存在差异,开发团队往往需要围绕真机部署开展大量定制化工程。这套工程链路往往是各团队的核心know-how,过去鲜有完整开放。
灵波科技此次开源的工具链,正是针对这一痛点,覆盖了真机适配过程中的四个关键环节:
模型同时提供含深度信息与不含深度信息两个版本,开发团队可根据自身硬件条件灵活选择。
LingBot-VLA的底层能力来自于一组罕见的大规模真机数据集:约20000小时真实机器人操作数据,覆盖AgileX Cobot Magic、Galaxea R1Pro/R1Lite、AgiBot G1、Realman RS-02、乐聚Kuavo 4 Pro、青龙机器人、ARX Lift2以及Bimanual Franka共9种主流双臂机器人构型。
这些数据全部通过真实机器人遥操作采集,而非仿真生成。研究团队设计了半自动化标注流水线:人工标注员按原子动作对多视角视频进行切分,再利用Qwen3-VL等大模型生成精确的自然语言指令描述,最终转化为(多视角图像,语言指令,动作序列)三元组。这意味着模型从"小时候"就见识了不同机械臂的运动方式、不同摄像头的视角、不同夹爪的特性,为跨本体泛化打下了坚实基础。
更关键的是,团队首次在真实机器人领域系统性验证了VLA模型的Scaling Law。通过将预训练数据量从3000小时阶梯式增加至20000小时,实验表明模型性能随数据量增加持续提升,且在20000小时时仍未观察到饱和迹象。
LingBot-VLA最让开发者心动的数字,可能是"150条"。
实验表明,仅需150条演示数据,LingBot-VLA即可实现高质量的任务迁移。在Agibot G1平台上,仅用80条示范数据进行后训练,其表现就已超越使用130条完整数据训练的π0.5。而且随着数据量增加,LingBot-VLA与π0.5的性能差距进一步拉大。
在训练效率方面,得益于底层代码库对FSDP分布式训练、混合精度、算子融合等的深度优化,LingBot-VLA在8卡GPU配置下实现了单卡每秒261个样本的吞吐量,训练效率达到StarVLA、OpenPI等主流框架的1.5至2.8倍。以往需要一个月完成的实验,现在可能一到两周就能搞定。
在权威评测中,LingBot-VLA的表现已经说明了一切。
在上海交通大学开源的GM-100真机基准(100项真实操作任务)测试中,LingBot-VLA在AgileX、Agibot G1、Galaxea R1Pro三个真实机器人平台上,跨本体泛化平均成功率达到17.30%(引入深度信息后),相比π0.5的13.0%提升了4.3个百分点;任务进度得分达到35.41%,相比π0.5提升了7.76%。
在RoboTwin 2.0仿真基准测试中,面对高度随机化的复杂环境(光照、杂物、背景波动),LingBot-VLA的清洁场景成功率达到88.56%,随机场景成功率依然维持在85.34%,操作成功率比π0.5提升了近10个百分点。
目前,LingBot-VLA已与星海图、松灵、乐聚等机器人厂商完成多机型适配验证,证明了模型在不同构型机器人上的跨本体迁移能力。
目前,LingBot-VLA的完整代码库已在GitHub开源(github.com/Robbyant/lingbot-vla),模型权重同步发布于Hugging Face和ModelScope。开源内容包含模型权重、数据处理工具、高效微调代码、离线评测系统、部署方案以及技术报告,旨在推动具身智能技术的标准化发展,让更多开发团队能以更低成本快速适配自有场景。
从20000小时真机数据的预训练,到150条示教数据的高效迁移,再到1.5至2.8倍的训练加速,灵波科技用这套开源工具链证明了一件事:具身智能的规模化落地,不再只是实验室里的愿景,而是一条可以走通的工程路径。
关注
214文章
31571浏览量
224127关注
1文章
3852浏览量
52308免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com