Qwen-VLA

Qwen-VLA – 阿里通义推出的通用视觉-语言-动作模型

通义实验室重磅发布Qwen-VLA，一款划时代的通用视觉-语言-动作（VLA）模型，它以前沿的Qwen3.5-4B作为核心的视觉语言引擎，并辅以1.15B参数的DiT动作解码器。这款模型凭借其创新的统一动作轨迹预测框架，巧妙地将操作、导航及轨迹预测这三大关键任务融于一体，实现了前所未有的模型集成度。更令人瞩目的是，它采用了本体感知提示条件化技术，使得用户只需调整文本描述，便能轻松驾驭多达11种不同类型的机器人平台，极大地提升了通用性和易用性。

Qwen-VLA的问世，标志着具身智能领域的一大飞跃，它不仅在各项基准测试中表现出色，超越了众多专用模型，更在零样本动态操作方面取得了26.6%的成功率，预示着具身智能正从单一技能的专家，迈向能够应对复杂多变的通用行动者新时代。

Qwen-VLA的亮点功能

全能型任务整合：告别过去繁琐的专用模型割裂局面，Qwen-VLA以单一模型能力覆盖操作、导航、轨迹预测等核心任务，提供无缝的跨任务控制体验。
即插即用的跨平台兼容性：无论是WidowX、Franka Panda，还是Mobile ALOHA、Galaxea R1等11种各具特色的机器人平台，Qwen-VLA都能轻松适配。无论单臂、双臂还是移动底座配置，仅需修改文本提示，即可实现平台的快速切换，真正做到“即插即用”。
强大的零样本开放世界泛化能力：在面对未曾见过的颜色、实例、位置、背景或指令时，Qwen-VLA依然能保持高成功率，无需针对新环境进行额外的训练，展现出卓越的适应性。
动态物体操作的突破：即便没有专门的动态训练数据，Qwen-VLA也能实现对中物体的零样本操作。在DOMINO基准测试中，其26.6%的成功率已然超越了专门为此优化的微调模型。
长时程导航的精准执行：通过任务自适应的token分配机制，Qwen-VLA能够为长指令保留更丰富的历史信息，从而在VLN-CE基准的R2R和RxR测试中分别取得57.5%和59.6%的优异成绩，领先于专用导航模型。

Qwen-VLA背后的技术原理

统一动作轨迹预测框架的创新：传统具身智能模型将操作、导航和轨迹预测视为孤立任务，限制了跨任务的迁移能力。Qwen-VLA洞察到这三者在计算结构上的同构性——均为“观察场景 + 理解指令 → 预测未来动作序列”的模式。因此，它采用统一建模的方式，将Qwen3.5-4B的视觉语言能力与1.15B的DiT动作解码器深度融合。模型在同一训练流程中，通过多任务数据共同监督，实现了视觉定位和空间推理能力的跨任务迁移。
本体感知提示条件化的精妙设计：针对机器人硬件差异带来的挑战，Qwen-VLA摒弃了为每种本体定制分支的传统方案。它巧妙地将硬件差异编码为结构化文本提示，作为唯一的平台接口。这些提示包含了机器人型号、臂数、关节配置、控制频率等关键信息，并由VLM进行处理。在推理阶段，只需替换提示中的硬件描述字段，即可在不同平台间切换，大大简化了跨本体的适配过程。
文本到动作DiT预训练（T2A）的高效策略：在训练过程中，面临VLM已预训练而DiT需从零开始的挑战。Qwen-VLA的解决方案是冻结VLM，仅单独训练DiT，且不输入图像，仅依赖文本。这一策略使DiT能够率先掌握动作分布、文本-动作对齐以及本体条件化能力。该阶段的计算成本仅为多模态训练的十分之一，且消融实验表明，使用20%合成数据与80%真实数据组合，并且不输入图像，反而能取得最佳效果（71.1%成功率），并在2000步内达到性能峰值。

如何解锁Qwen-VLA的强大潜力

环境准备的简便性：只需从GitHub克隆官方仓库，安装必要的依赖项，然后下载预训练权重，即可轻松启动。
模型推理的直观操作：根据实际的机器人硬件配置生成相应的本体提示，将图像、指令和提示信息输入模型，即可获得可执行的动作序列，并将其发送给机器人完成任务，通过闭环控制实现持续迭代。
模型训练的进阶之路：对于有更深层次需求的用户，可以遵循T2A → CPT → SFT → RL的四阶段训练流程，逐步提升模型的动作生成、视觉感知、任务适配以及闭环优化能力。
跨平台部署的灵活性：在切换机器人平台时，只需调整提示中的硬件描述字段。若需适配全新的本体，只需在SFT阶段采集少量数据进行微调即可。

Qwen-VLA的核心竞争优势

通用性远超专用性：在5个仿真基准测试中，单一的Qwen-VLA模型有3个超越了同类最佳的专用模型。
轻量级跨本体适配：无需针对每种机器人重新进行模型训练，仅需修改文本提示即可实现平台的无缝切换。
高效的预训练策略：T2A阶段的计算成本仅为多模态训练的十分之一，有效避免了对VLM预训练成果的干扰。
强大的OOD泛化能力：在真实世界测试中，平均OOD成功率高达76.9%，显著优于其他模型。
动态场景零样本操作的突破性进展：在DOMINO基准测试中，零样本操作成功率达到26.6%，远超专门微调的PUMA模型。

Qwen-VLA的官方资源入口

项目官网：https://qwen.ai/blog?id=qwenvla
GitHub仓库：https://github.com/QwenLM/Qwen-VLA
arXiv技术论文：https://arxiv.org/pdf/2605.30280

Qwen-VLA与其他竞品的深度对比

维度	Qwen-VLA	π₀.₅ (Physical Intelligence)
架构底座	Qwen3.5-4B VLM + 1.15B DiT 解码器	基于流匹配的 VLA 架构
任务统一性	操作+导航+轨迹预测三任务统一	专注操作任务
跨本体方式	文本提示条件化，无需改架构	需针对不同本体微调或适配
支持平台数	11 种（WidowX、ALOHA、Franka 等）	主要支持少量主流平台
预训练策略	T2A 无视觉预训练（计算成本 1/10）	端到端多模态联合训练
动态操作	零样本 26.6%（DOMINO）	零样本 7.5%
OOD 泛化	真实世界平均 76.9%	41.5%
导航能力	VLN-CE R2R 57.5%，超越专用导航模型	不支持
开源程度	论文+代码+权重全开源	部分开源
训练效率	T2A 阶段计算成本为多模态 1/10	标准多模态训练成本

Qwen-VLA的广泛应用场景

多任务工业机器人：在复杂的装配线环境中，同一模型能够胜任抓取、搬运以及导航至不同工位的多重任务，无需为每个环节部署的模型，大幅提升效率。
服务机器人跨场景部署：家用机器人可以在厨房完成精细操作，在客厅实现自主导航，在走廊进行路径规划，任务类型间的切换流畅自然，用户体验得到极大提升。
科研教育平台的加速器：研究人员可以摆脱为每种机器人重新训练模型的繁琐，只需调整文本提示，即可快速在新硬件平台上验证算法创意，极大地加速了研究进程。
动态环境下的精准操作：在物流仓储等动态场景，如抓取传送带上的移动包裹，Qwen-VLA无需针对特定动态场景采集训练数据，即可实现精确操作。
长时程复杂指令的智能遵循：对于博物馆导览机器人等需要执行多步骤长指令的任务，例如“先去A展厅拍照，然后绕过人群前往B展厅”，Qwen-VLA能够准确理解并执行，展现出强大的理解和规划能力。

阅读原文