近期,阿里巴巴正式发布千问具身智能大模型 Qwen-Robot系列 ,包含三大核心模型: Qwen-RobotManip(VLA操作模型)、Qwen-RobotNav(VLN移动模型)和Qwen-RobotWorld(世界模型) 。这是千问大模型家族首个完整的具身智能模型系列——分别为机器人装上灵巧的手、认路的脚和会思考的大脑,既可单独部署,也能协同运转,为不同形态机器人提供了"通用底座"。
Qwen-RobotManip:让机器人真正能动手。 这是一款VLA(视觉-语言-动作)操作模型,核心突破在于用一套80维统一动作表征为不同硬件定义通用"肢体语言",让模型学的是物理规律而非特定动作序列。同时放弃绝对坐标依赖,基于摄像头画面中的相对位置生成操作指令,换硬件只需少量反馈即可快速适配。该模型基于超过38,100小时完全开源数据训练,在RoboChallenge真机多任务评测中,其两个版本包揽榜单前两名,完成了拧水龙头、插网线、双臂倒薯条等30项高难度任务。
Qwen-RobotNav:让机器人能认路、会跑腿。 基于Qwen-VL构建的VLN移动导航模型,将语言指令导航、目标搜索、自动驾驶等五大任务族统一到同一框架,复杂任务无需手动切换模型。引入任务自适应观察机制,记忆策略可根据任务类型灵活调整,解决了传统模型记忆僵化的问题。已有搭载该系统的宇树Go2四足机器人完成自主巡逻和寻物导航任务。
Qwen-RobotWorld:让机器人会思考、能预演。 作为具身智能世界模型,基于物理规律认知,可推理并模拟机器人下一时刻的动作与状态,为真实行动提供预演基础。同时能生成视频数据缓解具身智能训练数据短缺问题,在动作执行前预推演轨迹,提升操作精度。
全球具身智能行业正处于从实验室研发向真实场景商业化跨越的临界点,核心门槛是机器人能否在陌生环境中听懂指令、稳定执行。Qwen-Robot系列的解题思路是"视觉语言能力接入控制系统"——通过标准化接口,把VL能力分别接入操作控制、移动控制和世界预测,实现跨场景、跨机型的通用化。
就在上月(5月20日),阿里刚发布旗舰模型 Qwen3.7-Max ,在Arena全球大模型盲测中超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,位列国产第一,接近GPT、Claude、Gemini最强水平。Qwen-Robot系列正是将这一认知引擎从数字世界延伸至物理世界的关键一步。
目前已有多家机器人企业启动技术对接,预计年内将出现首批搭载该系统的商用产品,工业巡检、物流分拣、家庭服务等场景有望率先受益。不过,大模型在虚拟环境中的预测与真实物理世界毫秒级精密控制之间,仍存在产业公认的落地鸿沟,实际表现还需量产检验。
关注
215文章
31858浏览量
225222免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com