阿里发布Qwen-Robot套件，押注具身智能

分类：快讯 | 时间：2026-06-17 18:58 | 关注

　　阿里巴巴 Qwen 团队发布了 Qwen-Robot Suite，包含导航、操作和世界模型三类基础模型，面向机器人软件层而非硬件本体。这套系统试图为具身智能提供通用底座，覆盖移动、抓取和物理环境理解等核心能力。

　　三个模型分工明确

　　这套产品由 Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld 组成。前者负责移动与导航，第二个负责机械臂等设备的操作，第三个用于模拟物理世界，帮助机器人理解动作后果与环境变化。

　　阿里将其描述为一套“全栈具身智能”方案。三个模型可以单独使用，也可以组合运行。报道提到，阿里目前在少数同时覆盖芯片、云、模型、服务平台和应用的公司之一，机器人是其 AI 布局向现实场景延伸的一部分。

　　操作模型瞄准动作差异

　　机器人操作的一大难点，是不同设备对动作的表达方式并不一致。比如 Franka 机械臂依赖关节角度控制，ALOHA 双臂机器人则更多使用夹爪位置和朝向，人形机器人还要处理全身坐标。

　　为解决这些差异，阿里称其利用开源机器人数据集和人类视频，合成了约 3.81 万小时训练数据，没有依赖专有数据采集。按文中说法，Qwen-RobotManip 在 RoboChallenge Table30-v1 基准测试中排名第一，较此前方法提升约 20%。

　　世界模型覆盖 860 万组数据

　　 Qwen-RobotWorld 是这套系统中更核心的一部分。它被定义为语言条件驱动的视频世界模型，可把自然语言作为统一动作接口，让机械臂、自动驾驶系统和移动导航代理调用同类指令。

　　阿里称，其训练语料包含 860 万组视频与文本配对、约 2 亿帧画面，覆盖操作、自动驾驶、室内导航以及人类动作向机器人迁移等任务。其中，操作数据包含 590 万个样本、1300 多种技能和 20 多种机器人形态。

　　按报道披露，Qwen-RobotWorld 在 EWMBench 和 DreamGen Bench 上排名第一，也在 WorldModelBench 和 PBench 上领先开源模型。文中还称，该模型在牛顿定律、质量守恒、流体运动和重力等物理一致性测试中表现突出。

　　商用时间表尚未披露

　　报道同时指出，这些产品本质上是软件模型，而不是完整机器人。它们需要运行在 AgileX、Franka、Universal Robots、宇树科技等硬件平台上。

　　从演示环境走向家庭或更复杂现实场景，仍有明显距离。传感器噪声、执行器漂移和大量边缘情况，依然是实际部署中的主要障碍。阿里目前也未披露定价、正式上线时间，以及除试点项目外的客户开放范围。

温馨提示：内容仅供参考