Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型
通义实验室重磅发布Qwen-VLA,一款划时代的通用视觉-语言-动作(VLA)模型,它以前沿的Qwen3.5-4B作为核心的视觉语言引擎,并辅以1.15B参数的DiT动作解码器。这款模型凭借其创新的统一动作轨迹预测框架,巧妙地将操作、导航及轨迹预测这三大关键任务融于一体,实现了前所未有的模型集成度。更令人瞩目的是,它采用了本体感知提示条件化技术,使得用户只需调整文本描述,便能轻松驾驭多达11种不同类型的机器人平台,极大地提升了通用性和易用性。
Qwen-VLA的问世,标志着具身智能领域的一大飞跃,它不仅在各项基准测试中表现出色,超越了众多专用模型,更在零样本动态操作方面取得了26.6%的成功率,预示着具身智能正从单一技能的专家,迈向能够应对复杂多变的通用行动者新时代。
Qwen-VLA的亮点功能
- 全能型任务整合:告别过去繁琐的专用模型割裂局面,Qwen-VLA以单一模型能力覆盖操作、导航、轨迹预测等核心任务,提供无缝的跨任务控制体验。
- 即插即用的跨平台兼容性:无论是WidowX、Franka Panda,还是Mobile ALOHA、Galaxea R1等11种各具特色的机器人平台,Qwen-VLA都能轻松适配。无论单臂、双臂还是移动底座配置,仅需修改文本提示,即可实现平台的快速切换,真正做到“即插即用”。
- 强大的零样本开放世界泛化能力:在面对未曾见过的颜色、实例、位置、背景或指令时,Qwen-VLA依然能保持高成功率,无需针对新环境进行额外的训练,展现出卓越的适应性。
- 动态物体操作的突破:即便没有专门的动态训练数据,Qwen-VLA也能实现对中物体的零样本操作。在DOMINO基准测试中,其26.6%的成功率已然超越了专门为此优化的微调模型。
- 长时程导航的精准执行:通过任务自适应的token分配机制,Qwen-VLA能够为长指令保留更丰富的历史信息,从而在VLN-CE基准的R2R和RxR测试中分别取得57.5%和59.6%的优异成绩,领先于专用导航模型。
Qwen-VLA背后的技术原理
- 统一动作轨迹预测框架的创新:传统具身智能模型将操作、导航和轨迹预测视为孤立任务,限制了跨任务的迁移能力。Qwen-VLA洞察到这三者在计算结构上的同构性——均为“观察场景 + 理解指令 → 预测未来动作序列”的模式。因此,它采用统一建模的方式,将Qwen3.5-4B的视觉语言能力与1.15B的DiT动作解码器深度融合。模型在同一训练流程中,通过多任务数据共同监督,实现了视觉定位和空间推理能力的跨任务迁移。
- 本体感知提示条件化的精妙设计:针对机器人硬件差异带来的挑战,Qwen-VLA摒弃了为每种本体定制分支的传统方案。它巧妙地将硬件差异编码为结构化文本提示,作为唯一的平台接口。这些提示包含了机器人型号、臂数、关节配置、控制频率等关键信息,并由VLM进行处理。在推理阶段,只需替换提示中的硬件描述字段,即可在不同平台间切换,大大简化了跨本体的适配过程。
- 文本到动作DiT预训练(T2A)的高效策略:在训练过程中,面临VLM已预训练而DiT需从零开始的挑战。Qwen-VLA的解决方案是冻结VLM,仅单独训练DiT,且不输入图像,仅依赖文本。这一策略使DiT能够率先掌握动作分布、文本-动作对齐以及本体条件化能力。该阶段的计算成本仅为多模态训练的十分之一,且消融实验表明,使用20%合成数据与80%真实数据组合,并且不输入图像,反而能取得最佳效果(71.1%成功率),并在2000步内达到性能峰值。
如何解锁Qwen-VLA的强大潜力
- 环境准备的简便性:只需从GitHub克隆官方仓库,安装必要的依赖项,然后下载预训练权重,即可轻松启动。
- 模型推理的直观操作:根据实际的机器人硬件配置生成相应的本体提示,将图像、指令和提示信息输入模型,即可获得可执行的动作序列,并将其发送给机器人完成任务,通过闭环控制实现持续迭代。
- 模型训练的进阶之路:对于有更深层次需求的用户,可以遵循T2A → CPT → SFT → RL的四阶段训练流程,逐步提升模型的动作生成、视觉感知、任务适配以及闭环优化能力。
- 跨平台部署的灵活性:在切换机器人平台时,只需调整提示中的硬件描述字段。若需适配全新的本体,只需在SFT阶段采集少量数据进行微调即可。
Qwen-VLA的核心竞争优势
- 通用性远超专用性:在5个仿真基准测试中,单一的Qwen-VLA模型有3个超越了同类最佳的专用模型。
- 轻量级跨本体适配:无需针对每种机器人重新进行模型训练,仅需修改文本提示即可实现平台的无缝切换。
- 高效的预训练策略:T2A阶段的计算成本仅为多模态训练的十分之一,有效避免了对VLM预训练成果的干扰。
- 强大的OOD泛化能力:在真实世界测试中,平均OOD成功率高达76.9%,显著优于其他模型。
- 动态场景零样本操作的突破性进展:在DOMINO基准测试中,零样本操作成功率达到26.6%,远超专门微调的PUMA模型。
Qwen-VLA的官方资源入口
- 项目官网:https://qwen.ai/blog?id=qwenvla
- GitHub仓库:https://github.com/QwenLM/Qwen-VLA
- arXiv技术论文:https://arxiv.org/pdf/2605.30280
Qwen-VLA与其他竞品的深度对比
| 维度 | Qwen-VLA | π₀.₅ (Physical Intelligence) |
|---|---|---|
| 架构底座 | Qwen3.5-4B VLM + 1.15B DiT 解码器 | 基于流匹配的 VLA 架构 |
| 任务统一性 | 操作+导航+轨迹预测三任务统一 | 专注操作任务 |
| 跨本体方式 | 文本提示条件化,无需改架构 | 需针对不同本体微调或适配 |
| 支持平台数 | 11 种(WidowX、ALOHA、Franka 等) | 主要支持少量主流平台 |
| 预训练策略 | T2A 无视觉预训练(计算成本 1/10) | 端到端多模态联合训练 |
| 动态操作 | 零样本 26.6%(DOMINO) | 零样本 7.5% |
| OOD 泛化 | 真实世界平均 76.9% | 41.5% |
| 导航能力 | VLN-CE R2R 57.5%,超越专用导航模型 | 不支持 |
| 开源程度 | 论文+代码+权重全开源 | 部分开源 |
| 训练效率 | T2A 阶段计算成本为多模态 1/10 | 标准多模态训练成本 |
Qwen-VLA的广泛应用场景
- 多任务工业机器人:在复杂的装配线环境中,同一模型能够胜任抓取、搬运以及导航至不同工位的多重任务,无需为每个环节部署的模型,大幅提升效率。
- 服务机器人跨场景部署:家用机器人可以在厨房完成精细操作,在客厅实现自主导航,在走廊进行路径规划,任务类型间的切换流畅自然,用户体验得到极大提升。
- 科研教育平台的加速器:研究人员可以摆脱为每种机器人重新训练模型的繁琐,只需调整文本提示,即可快速在新硬件平台上验证算法创意,极大地加速了研究进程。
- 动态环境下的精准操作:在物流仓储等动态场景,如抓取传送带上的移动包裹,Qwen-VLA无需针对特定动态场景采集训练数据,即可实现精确操作。
- 长时程复杂指令的智能遵循:对于博物馆导览机器人等需要执行多步骤长指令的任务,例如“先去A展厅拍照,然后绕过人群前往B展厅”,Qwen-VLA能够准确理解并执行,展现出强大的理解和规划能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


