Qwen3.7-Plus – 阿里通义推出的智能体多模态大模型
Qwen3.7-Plus:引领新一代多模态智能体
通义千问震撼推出其最新力作 Qwen3.7-Plus,一款划时代的多模态大模型,它将视觉与语言的界限彻底打破,构建了一个统一的智能体基座。这款模型不仅能够敏锐地感知现实世界的复杂场景,更能精妙地解读屏幕内容并娴熟地操控图形用户界面(GUI)。基于视觉参考,它能够生成高质量的代码,实现移动应用端到端的导航操作,并能融合网络知识,精准解答视觉相关的问题。Qwen3.7-Plus 在一个单一的智能体循环中,实现了图形用户界面(GUI)与命令行界面(CLI)交互的无缝融合。作为一款全能型的编码智能体与生产力助手,该模型能够处理从前端原型设计到复杂软件工程,再到多步骤工作流自动化的全方位任务,并且具备卓越的跨框架泛化能力。
Qwen3.7-Plus 的核心能力概览
- 融合多模态交互的智能体:它能够统一处理图像、视频、屏幕内容、网页信息以及文本输入,并在 GUI、CLI 和工具环境中完成复杂任务的闭环。
- 强大的视觉智能体:通过整合视觉理解、代码解释器和搜索增强技术,它能够攻克视觉谜题,解答真实世界问题,并进行复杂的逻辑推理。
- 视觉到代码的转化利器:能够将图像或视频转化为 SVG、网页和交互式前端代码,实现从视觉灵感到可执行代码的端到端转化。
- 精通 GUI 操作的智能体:深入理解移动端和桌面端界面,能够精准定位控件,规划任务,并执行多步骤操作。
- 洞察真实世界与推理能力:覆盖对真实场景、文档图表、光学字符识别(OCR)、视频以及驾驶场景的深度理解。
Qwen3.7-Plus 的技术基石
- 视觉感知与推理的深度融合:在 BabyVision、MathVision、HiPhO 等极具挑战性的视觉推理基准上,Qwen3.7-Plus 展现出惊人的实力,其对图像细节、空间关系、物理常识和多步逻辑的综合理解能力令人瞩目。特别是在 BabyVision 任务上,相比前代模型有了显著飞跃,这表明该模型在模拟人类早期视觉认知和空间推理方面拥有更强的泛化潜力。
- 实现视觉到代码的无缝转换:通过集成代码解释器,Qwen3.7-Plus 能够将视觉问题转化为可计算的表示,自主编写并执行代码来解决问题、进行搜索或验证。在诸如找不同、补图块、华容道、迷宫和拼图等任务中,模型能够精准识别图像内容,进行空间建模、路径搜索、状态推演以及结果校验。
- 驱动 GUI 自动化与多步交互:该模型能够识别屏幕内容,精准定位关键 UI 元素,理解用户意图,并高效完成多步骤交互操作。在 ScreenSpot Pro、OSWorld-Verified 和 AndroidWorld 等评测中的显著提升,标志着其从“看懂界面”迈向“操作界面”乃至“构建界面”的重大跨越。
- 以搜索增强的多模态知识问答:Qwen3.7-Plus 将视觉输入与外部知识检索巧妙结合。它首先从视觉输入中提取关键实体、场景、文字和上下文线索,然后通过搜索获取外部知识,最终将视觉证据与检索结果融会贯通,给出精准答案。
- 精湛的视频理解与驾驶场景感知:该模型显著增强了对短视频和长视频中、动作、时序和语义关系的处理能力。同时,在 LingoQA、SURDS 和 VLADBench 等驾驶相关评测中的优异表现,充分证明了其对动态场景、交通参与者和空间关系的深刻理解。
如何驾驭 Qwen3.7-Plus 的强大力量
- 便捷访问官方平台:用户可以通过阿里云百炼或 Qwen Studio 官网轻松访问模型服务。
- 灵活选择模型版本:在模型市场中选择 Qwen3.7-Plus,并根据具体需求配置调用参数。
- 输入丰富多模态内容:支持上传图像、视频、屏幕截图或网页链接,并结合文本指令进行交互。
- 高效执行多样化任务:根据实际场景选择对应的能力模式(如 Visual Agent、GUI Agent、Visual Coding 等),模型将自动完成感知、推理与执行的闭环。
Qwen3.7-Plus 的突出优势
- 完整的 Agent 闭环能力:将“看、想、写、做、验”整合进统一的智能体工作流,能够端到端地自动化处理复杂的软件任务,实现从理解到交付的全流程。
- 卓越的跨框架泛化能力:无论通过 Claude Code、OpenClaw、Qwen Code 还是其他框架进行部署,都能保持稳定且优异的表现。
- 视觉编程领域的佼佼者:在 QwenVision2Code 评测中得分 1772.0,仅次于 GPT-5.4 的 1884.0,远超 Claude-Opus-4.6(1518.0)和 Gemini-3.1 Pro(1632.0)。
- 强大的 GUI 操作能力:在 ScreenSpot Pro(79.0)和 AndroidWorld(81.0)评测中均位居第一梯队,展现出对界面理解和操作的卓越性能。
- 长时自主运行的可靠性:已有案例表明,该 Agent 可持续稳定运行超过 11 小时,累计生成代码量超过 10,000 行,触发调用超过 1,000 次,展现出非凡的稳定性和高效性。
Qwen3.7-Plus 的应用场景拓展
- 智能化软件开发全链路:从需求文档生成、代码编写、测试用例创建,到 GUI 自动化测试、版本迭代演进,覆盖 APP 开发的整个生命周期。
- 桌面应用的高保真复刻:自主理解原生应用 UI 布局与功能细节,生成对应源码并接入真实 API,实现高精度的应用复制。
- 高效的视觉内容生成:将设计参考图转化为可执行的 SVG、网页或交互式前端代码,显著降低从视觉到代码资产的成本。
- 富有洞察力的多模态知识问答:结合图像、视频与网络搜索,能够准确回答开放世界中的视觉问题,例如地点识别、背景分析、商品信息查询等。
- 自动驾驶与具身智能的基石:深度理解动态驾驶场景、交通参与者和空间关系,为真实世界的多模态智能体和具身智能场景提供强大支撑。
| 对比维度 | Qwen3.7-Plus | GPT-5.4 |
|---|---|---|
| 定位 | 多模态交互混合智能体基座模型 | 通用多模态大模型 |
| Vision Arena 排名 | 全球第5 / 中国第一 | 未进入前7 |
| ScreenSpot Pro (GUI定位) | 79.0 | 67.4 |
| AndroidWorld (移动端操作) | 81.0 | 未测试 |
| QwenVision2Code (视觉编程) | 1772.0 | 1884.0 |
| BabyVision (视觉推理) | 70.4/64.7 | 53.1 |
| RealWorldQA (真实世界问答) | 86.9 | 83.8 |
| Terminal Bench 2.0 (终端编码) | 70.3 | 未测试 |
| SWE-bench 多语言 | 75.8 | 77.5 |
| 视频理解 VideoMMMU | 88.0 | 89.5 |
| 多模态搜索 MMSearchPlus | 41.4 | 19.7 |
| 核心优势 | GUI操作、视觉推理、长时Agent闭环、跨框架泛化 | 视觉编程、视频理解、通用语言任务 |
| 适用场景 | 复杂软件工程自动化、桌面/移动端GUI操作、多模态Agent工作流 | 通用内容生成、视觉参考转代码、多语言翻译 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...


