阿里巴巴 Qwen 团队发布了 Qwen-Robot Suite,包含导航、操作和世界模型三类基础模型,面向机器人软件层而非硬件本体。这套系统试图为具身智能提供通用底座,覆盖移动、抓取和物理环境理解等核心能力。
三个模型分工明确
这套产品由 Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld 组成。前者负责移动与导航,第二个负责机械臂等设备的操作,第三个用于模拟物理世界,帮助机器人理解动作后果与环境变化。
阿里将其描述为一套“全栈具身智能”方案。三个模型可以单独使用,也可以组合运行。报道提到,阿里目前在少数同时覆盖芯片、云、模型、服务平台和应用的公司之一,机器人是其 AI 布局向现实场景延伸的一部分。
操作模型瞄准动作差异
机器人操作的一大难点,是不同设备对动作的表达方式并不一致。比如 Franka 机械臂依赖关节角度控制,ALOHA 双臂机器人则更多使用夹爪位置和朝向,人形机器人还要处理全身坐标。
为解决这些差异,阿里称其利用开源机器人数据集和人类视频,合成了约 3.81 万小时训练数据,没有依赖专有数据采集。按文中说法,Qwen-RobotManip 在 RoboChallenge Table30-v1 基准测试中排名第一,较此前方法提升约 20%。
世界模型覆盖 860 万组数据
Qwen-RobotWorld 是这套系统中更核心的一部分。它被定义为语言条件驱动的视频世界模型,可把自然语言作为统一动作接口,让机械臂、自动驾驶系统和移动导航代理调用同类指令。
阿里称,其训练语料包含 860 万组视频与文本配对、约 2 亿帧画面,覆盖操作、自动驾驶、室内导航以及人类动作向机器人迁移等任务。其中,操作数据包含 590 万个样本、1300 多种技能和 20 多种机器人形态。
按报道披露,Qwen-RobotWorld 在 EWMBench 和 DreamGen Bench 上排名第一,也在 WorldModelBench 和 PBench 上领先开源模型。文中还称,该模型在牛顿定律、质量守恒、流体运动和重力等物理一致性测试中表现突出。
商用时间表尚未披露
报道同时指出,这些产品本质上是软件模型,而不是完整机器人。它们需要运行在 AgileX、Franka、Universal Robots、宇树科技等硬件平台上。
从演示环境走向家庭或更复杂现实场景,仍有明显距离。传感器噪声、执行器漂移和大量边缘情况,依然是实际部署中的主要障碍。阿里目前也未披露定价、正式上线时间,以及除试点项目外的客户开放范围。