WebDancer团队 投稿
量子位 | 公众号 QbitAI
能够完成多步信息检索任务,涵盖多轮推理与连续动作执行的智能体来了。
通义实验室推出WebWalker(ACL2025)续作自主信息检索智能体WebDancer。
WebDancer 通过系统化的训练范式——涵盖从数据构建到算法设计的全流程——为构建具备长期信息检索能力的智能体提供了明确路径。
同时,该框架也为在开源模型上复现Deep Research系统提供了可行的指导。团队将进一步在更开放的环境中、结合更多工具,持续拓展和集成Agentic能力whatsapp网页版登录,推动通用智能体的落地与演进。


i问财电脑版v3.0.0全新升级,功能更强大,使用更便捷!
一、背景:信息检索的新需求与挑战
在信息爆炸的时代,传统的搜索引擎已难以满足用户对深层次、多步骤信息获取的需求。从医学研究到科技创新,从商业决策到学术探索,复杂问题的解决需要深入的信息挖掘和多步推理能力。这催生了对能够自主思考、自主决策的智能体的需求。
然而,构建这样的智能体面临诸多挑战:
二、突破训练数据难获得问题
在自主信息检索领域,高质量的训练数据至关重要。然而,现有的数据集如2WIKI,HotpotQA多为浅层次问题,难以支持复杂多步推理的训练需求。
为解决数据稀缺问题,WebDancer提出了两种创新的数据合成方法:
ReAct框架与思维链蒸馏
ReAct框架是WebDancer 的基础。一个ReAct轨迹包含多个思考-行动-观察 (Thought-Action-Observation) 循环。智能体生成Thought(自由形式的思考),Action(结构化的行动,用于与环境工具互动),并接收Observation(来自环境的反馈)。这个过程迭代进行,直到任务完成,最终行动是 answer。可能的行动包括search,visit和answer。
思考链 (Chain-of-Thought, CoT) 对于智能体的执行至关重要,它使得高层工作流规划、自我反思、信息提取和行动规划成为可能。
论文探索了构建短CoT和长CoT的方法。对于短CoT,直接使用强大的模型(如 GPT-4o)在ReAct框架下生成轨迹。对于长CoT,则顺序地向推理模型 (LRM) 提供历史行动和观察,让其自主决定下一步行动,并记录其中间推理过程作为当前的Thought。
在获得问答对后,WebDancer利用ReAct框架,结合闭源的GPT-4o和开源的QwQ模型,进行长短思维链的蒸馏,生成高质量的agentic数据。这种方式简洁高效,满足了对Agentic Model的需求。
数据过滤与质量提升
为了确保数据质量,WebDancer采用了多阶段的数据过滤策略:
这些严格的过滤策略,确保了训练数据的高质量,为智能体的高效学习提供了保障。
三、解决开放网络环境难训练
在开放环境中训练智能体是一项极具挑战性的任务。网络环境的动态变化和部分可观测性,使得智能体需要具备强大的适应能力和泛化能力。
为应对这些挑战,WebDancer采用了两阶段的训练策略:
WebDancer通过动态采样机制,优先采样那些未被充分利用的数据对,确保数据的高效利用,增强了智能体的泛化能力。
强化学习阶段的高计算成本和时间开销一直是开放环境训练的一大难题。WebDancer通过优化算法和硬件资源的高效利用,显著降低了强化学习的成本。
四、实验与结果
WebDancer的创新策略在多个信息检索基准测试中得到了充分验证。
GAIA 数据集
GAIA数据集旨在评估通用人工智能助手在复杂信息检索任务上的表现。WebDancer在GAIA数据集上的表现尤为突出,在不同难度的任务中均取得了高分,展现了其强大的泛化能力。
WebWalkerQA 数据集
WebWalkerQA数据集专注于深度网络信息检索。WebDancer在该数据集上的表现同样出色,尤其是在中等难度和高难度任务中,其性能提升更为明显。
表现最佳的模型在GAIA基准测试中达到了61.1%的Pass@3分数,在WebWalkerQA基准测试中达到了54.6%的Pass@3分数。
BrowseComp 数据集
在更具挑战性的BrowseComp(英文)和BrowseComp-zh(中文)数据集上,WebDancer同样展现出了强大的性能whatsapp web,进一步证明了其在处理复杂信息检索任务方面的鲁棒性和有效性。
五、深入分析:Agent模型的训练
实验一分析:
强化学习(RL)在提升普通指令模型(Instruction Model)性能方面表现显著,尤其在提升Pass@1采样准确率方面效果突出,其效果甚至可接近Pass@3。
然而,对于如QwQ这类以推理为核心的模型,RL的提升效果相对有限whatsapp登录,主要体现在采样结果的稳定性上。这一差异可能与agentic 任务中决策轨迹较长、推理过程更复杂有关。
实验二分析:
Agentic数据的质量远比数量更为关键。
团队在QwQ模型上仅使用约6000条高质量、具备长思维链的训练数据,就在GAIA任务中取得了优异的效果,表明精细构造的思维轨迹在复杂任务中的价值远高于海量但粗糙的数据。
实验三分析:
长短思维链的模式在不同类型模型之间并不具备良好的可迁移性。
尽管长思维链对指令模型和推理模型均能带来性能提升,但其同时也显著增加了非法生成(如重复内容)的概率,尤其在参数规模较小的模型上更为严重。这表明在设计长思维链训练数据时,需要在有效性与体验感之间做好平衡。
六、未来展望
版权声明
本文仅代表作者观点,不代表百度立场。
本文系作者授权百度百家发表,未经许可,不得转载。



