阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

导读: 阿里巴巴重磅发布并全面开源其深度研究Agent模型——通义DeepResearch,该模型在多项权威基准测试中表现卓越,超越了OpenAI和DeepSeek等业界领先模型。此次开源不仅包含模型、框架和解决方案,还一同公开了核心技术报告,预示着AI研究正在迈入“研究员”时代。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

通义DeepResearch震撼登场,刷新AI研究新高度

昨日,阿里巴巴在其AI领域再掀波澜,正式对外开放了其首个深度研究Agent模型——通义DeepResearch。该模型凭借其300亿参数(激活30亿)的配置,在多项权威评测榜单上取得了令人瞩目的成绩,甚至在号称“人类最后考试”的人类最后考试(HLE)榜单中,以32.9%的得分力压DeepSeek-V3.1(29.8%)和OpenAI的Deep Research(26.6%),荣登全球第一。在OpenAI提出的高难度BrowseComp榜单上,通义DeepResearch也以43.4%的准确率领跑开源模型。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

此次开源的诚意十足,不仅提供了模型本身,还包括了其背后的框架和解决方案,开发者们可以在Hugging Face、GitHub等平台便捷地获取。开源项目迅速吸引了全球AI社区的关注,GitHub项目已获得超过7.2k的星标,Hugging Face联合创始人兼CEO Clem Delangue以及斯坦福NLP实验室等知名科技人士也纷纷转发点赞,足见其影响力。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

项目地址:https://github.com/Alibaba-NLP/DeepResearch

Hugging Face模型地址:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B

ModelScope模型地址: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B

技术博客:https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

超越“问答”范式,AI步入“研究员”时代

我们早已习惯了AI的“问答”模式,但当面对复杂问题时,AI能否像人类专家一样进行深度研究?通义DeepResearch给出了肯定的答案。它彻底革新了传统的交互方式,进化为一位真正的“研究员”。面对棘手难题,它能够自主规划研究路径,模拟专家的工作流程:深度搜寻、多源交叉验证、结构化归纳,最终生成一份详实的研究报告。这份报告不仅论据有据、过程清晰可复现,结论也更具说服力。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

通义DeepResearch能够将宏大问题巧妙分解为一系列逻辑清晰的子任务,并自主调用代码分析、论文检索、网页访问等工具,通过层层递进、自主循环的方式完成整个研究链路。无论是作为资深研究员还是高效私人助手,它都能胜任。

真实场景演示:房产销售情况查询

假设需要查询特定房产的销售情况,例如“我住在夏威夷的珍珠城,位于瓦胡岛上。我知道附近有两处房产于2022年售出,分别是Akaikai Loop 2072号和Komo Mai Drive 2017号。请找出这两处房产中2022年售价更高的那套,并告诉我其成交金额。” 通义DeepResearch会进行如下思考:

  1. 拆解指令,明确任务目标。
  2. 联网搜索,获取2022年房产销售记录及相应价格。
  3. 在多个信息源中进行反复核查与确认。

通过调用“联网搜索”工具,通义DeepResearch准确完成了任务,展现了其在生活规划和日常决策中的强大能力。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

专业领域探索:法律纠纷分析

在法律领域,面对“原告要求退还出资,但自己又欠了一屁股债,还有很多债权人”的复杂情况,通义DeepResearch也能提供专业的分析。它会主动调用法条、案例、学术观点等工具,进行深度信息搜集,并构建详尽的分析报告。整个过程缜密且可追溯,为用户提供可靠的法律支持。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

跨学科难题攻克:星座数学模型

即使是博士级别的跨学科难题,如“在一个小片天区内,每颗亮于某一特定星等的恒星,都与其最近的邻居(按二维欧几里得距离计算)连接一条边。假设恒星在天空中均匀分布,那么平均每个星座(即连通子图)包含多少颗恒星?” 通义DeepResearch也能通过深度搜索、反复验证,并借助Python解释器、谷歌学术等工具,最终给出详细且富有洞见的报告。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

技术解析:通义DeepResearch的“超级研究大脑”是如何炼成的

数据合成:构建智能体训练的“教材”

高质量数据是AI模型的核心,通义DeepResearch团队构建了一套完备的“智能体合成数据”体系,贯穿预训练和后训练全过程。其目标是摆脱对昂贵、稀缺的人工标注数据的依赖,通过机器生产高质量、大规模的训练数据。

智能体增量预训练数据合成

在预训练阶段,团队引入了“Agentic CPT”(增量预训练)概念,并构建了AgentFounder方法,用于合成能够持续进化和扩展的智能体预训练数据。通过整合海量知识文档、网页数据、知识图谱以及模型思考轨迹,构建了一个庞大的“开放世界知识记忆库”。在此基础上,模拟真实场景生成海量“问题-答案”对。此外,还合成了规划、推理和决策三种类型的“动作数据”,提升了模型的离线探索能力和决策水平。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

全自动高质量数据合成

在后训练阶段,团队开发了一套全自动合成数据生成方案,产出比人工标注更高质量的数据。从WebWalker到WebSailor V2,该方案不断迭代,提升数据质量和规模。为生成复杂问答对,流程包含:从真实网站提取信息,保证数据真实性;策略性隐藏关键信息,增加问题难度;将回答难度建模为可控的“原子操作”,精准控制复杂度;利用集合论形式化建模信息搜索问题,解决合成数据答案验证难题。同时,还开发了专门生成跨科学知识、多步推理的“博士级”研究难题的自动化流程。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

两种推理模式:应对长任务挑战

通义DeepResearch模型支持两种推理模式:ReAct Mode和Heavy Mode,以应对不同复杂度的任务。

经典模式:ReAct Mode

在标准任务中,模型采用经典的ReAct(思考-行动-观察)模式,配合128K的超长上下文,能够进行多轮次快速交互,高效解决问题。这是原生模型Agentic能力的直接体现。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
深度模式:Heavy Mode

面对极端复杂、需要长远规划的研究任务,Heavy Mode启动。模型将庞大任务分解为“研究轮次”,每轮仅提取上一轮精华结论,构建精简工作空间进行分析和整合。这种“综合-重构”的迭代过程,确保Agent在执行超长期任务时始终保持清晰的“认知焦点”和高质量的推理能力。此外,Research-Synthesis框架允许多个IterResearch Agent并行研究,整合报告和结论,进一步提升答案的全面性和准确性。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

AI智能体自我进化:端到端训练技术革新

团队打通了“Agentic CPT→ SFT→ Agentic RL”端到端全链路,提出了两阶段的智能体增量预训练,引领了智能体训练新范式。基于ReAct框架的强化学习环节,展现了其深厚的系统工程能力。

算法优化与策略梯度

在算法层面,基于GRPO定制优化,严格遵循on-policy训练范式,采用token级策略梯度损失函数,并结合留一法降低优势估计方差。为避免“格式崩溃”,进行负样本筛选,并增大批次和组规模以维持较小方差,提供充足监督信号。动态指标显示,奖励持续上升,策略熵保持高水平,模型在持续探索进化。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

基础设施:构建强化学习的“护城河”

团队强调,数据质量和训练环境的稳定性是决定强化学习项目成败的关键。他们构建了一套全栈式基础设施,包括:经济高效的仿真训练环境,利用离线和自定义工具套件;为智能体提供快速鲁棒交互的工具沙盒;实时优化数据集的自动数据管理;以及基于rLLM的On-policy异步框架,实现多个智能体实例并行交互。这些措施共同构成了智能体强化训练的“闭环”,为解决复杂任务的AI智能体训练树立了全新范式。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

落地应用:赋能高德地图与通义法睿

通义DeepResearch团队在研发过程中成果斐然,每月一篇新作,均斩获SOTA。其研究成果已成功赋能阿里旗下多个产品。

高德“小高老师”:智能导航与本地生活助手

高德地图的“小高老师”背后,就有通义DeepResearch的强大支持。通义团队与高德深度合作,构建了精通地图领域的复杂“POI推理Agent”,能够一键满足用户在导航和本地生活场景下的各种复杂需求,如地理区域、参与者约束、交通约束、时间约束、POI属性等多维度信息。例如,用户可以轻松找到“西湖边上评分4.5以上的浙菜馆,有儿童餐,且从地铁站步行不超过1公里”,AI会提供最合适的推荐并规划路线。在高德V16版本中,它还为Citywalk等场景提供了详细的时间规划和餐饮、景点推荐。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定
阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

通义法睿:法律领域的智能研究员

在法律领域,通义DeepResearch能力深度融合进“通义法睿”,一个原生的法律智能体。它集问答、案例检索、合同审查、文书起草于一身。通过Agentic架构和迭代式规划,通义法睿能够执行多步查询,依托真实判例、法规和解读,提供可追溯分析。在与OpenAI、Claude等模型的PK中,通义法睿在答案要点质量、案例引用质量、法条引用质量三大核心维度上均表现更优。

阿里王牌Agent横扫SOTA,全栈开源力压OpenAI!博士级难题一键搞定

通义DeepResearch的开源,为AI社区带来了福音,使得人人都有可能构建专属的深度研究智能体。它证明了轻量级模型在“深度研究”领域的强大潜力,并揭示了合成数据与强化学习结合是未来模型训练的重要方向。我们有理由相信,基于通义DeepResearch的下一代爆款应用即将诞生。

阅读原文
© 版权声明
蝉镜AI数字人

相关文章

蝉镜AI数字人

暂无评论

暂无评论...