0

0

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

心靈之曲

心靈之曲

发布时间:2025-05-19 15:26:01

|

1006人浏览过

|

来源于php中文网

原创

强化学习(rl)结合真实搜索引擎可以显著提升大模型的检索和推理能力。然而,这一方法面临两大挑战:搜索引擎返回的文档质量不稳定,导致训练过程中的噪音和不稳定性;rl 训练需要频繁部署,产生大量 api 开销,限制了可扩展性。

针对这些问题,阿里通义实验室推出了开源解决方案 ZeroSearch,这是一个无需与真实搜索引擎交互的强化学习框架。实验表明,ZeroSearch 只需使用 3B 参数的 LLM 作为检索模块,就能有效提升搜索能力,并大幅节省 API 成本。

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

ZeroSearch 让 LLM 实现自给自足的搜索进化

研究团队通过模拟搜索环境和渐进式抗噪训练,使 LLM 不再依赖昂贵的搜索引擎 API。

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

轻量微调:将 LLM 转变为“搜索引擎模拟器

使用少量标注数据对 LLM 进行微调,使其能够根据指令生成两种类型的文档——有用结果和噪声干扰。

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

通过收集与真实搜索引擎交互的数据,ZeroSearch 对 LLM 进行轻量级监督微调。在此过程中,模型学会生成与真实搜索引擎风格相似的文档,并能根据提示词生成相关或噪声文档。这种能力使模型在训练过程中能够动态调整文档质量,从而更好地模拟真实检索场景。

课程化抗噪训练:像打游戏升级一样训练模型

训练初期返回高质量文档,后期逐渐混入噪声(噪声比例按指数曲线上升)。ZeroSearch 引入了课程式学习机制,逐步降低生成文档的质量,使模型从简单的检索场景逐步过渡到更具挑战性的任务。这种策略不仅提升了模型的推理能力,还显著增强了训练的稳定性和效果。

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

随着训练的进行,模型逐渐适应更复杂的检索任务,最终能够在高质量和低质量文档中找到平衡。

强化学习闭环:自产自销的搜索生态

ZeroSearch 通过模拟搜索引擎,完全消除了与真实搜索引擎交互的 API 费用,使得大规模强化学习训练变得更加经济可行。此外,ZeroSearch 兼容多种强化学习算法,包括 PPO(近端策略优化)和 GRPO(群体相对策略优化)。这些算法为模型提供了不同的优化策略,使得 ZeroSearch 能够在不同的模型和任务中表现出色。实验表明,GRPO 在训练稳定性方面表现更好,而 PPO 则在某些任务中提供了更高的灵活性。

实验结果及结论

ZeroSearch 的零 API 成本优势不仅体现在经济上,还体现在训练的灵活性和可扩展性上。

ZeroSearch vs. 现有方法

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

在图中,我们可以清晰地看到 ZeroSearch 在多个问答数据集上的表现。无论是单跳(Single-Hop)还是多跳(Multi-Hop)问答任务,ZeroSearch 都显著优于现有的基线方法,包括直接提示、RAG 和 Search-R1 等。这表明 ZeroSearch 不仅在简单任务中表现出色,还能在复杂的多跳问答任务中发挥强大的检索能力。

Vinteo AI
Vinteo AI

利用人工智能在逼真的室内环境中创建产品可视化。无需设计师和产品照片拍摄

下载

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

上图展示了 ZeroSearch 和 Search-R1(使用真实搜索引擎)在 LLaMA-3.2-3B 模型上的奖励曲线对比。ZeroSearch 的学习曲线更加平滑且最终性能优于 Search-R1,表明其在训练过程中的稳定性和优越性。

不同模型规模的性能

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

可以看到使用7B 参数的检索模块就能达到与谷歌搜索相当的性能,而14B 参数的检索模块甚至能够超越谷歌搜索。这表明 ZeroSearch 不仅适用于小型模型,还能在大型模型中发挥更大的潜力,为 LLM 的检索能力提升提供了广阔的空间。

强化学习算法的兼容性

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

比较了在 Qwen-2.5-3B 和 LLaMA-3.2-3B 模型上,使用 PPO 和 GRPO 算法的 ZeroSearch 性能,可以看到 ZeroSearch 与 PPO 和 GRPO 两种强化学习算法的兼容性。实验结果表明,GRPO 在训练稳定性方面表现更好,而 PPO 则在某些任务中提供了更高的灵活性。这表明 ZeroSearch 能够适应不同的强化学习算法,为研究人员提供了更多的选择。

通过模拟搜索引擎,ZeroSearch 完全消除了 API 成本,同时通过课程式学习策略逐步提升模型的推理能力。这一创新不仅解决了现有方法中的成本和稳定性问题,还为未来的智能化检索提供了新的思路。

论文链接:

https://www.php.cn/link/df406179fe73acb98a8f45606449d731

参考链接:

https://www.php.cn/link/b6b53a1b9cde5ef3c37aea1ff7b16477

— 完 —

量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。

也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

403

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1994

2024.08.16

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

372

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

2325

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

432

2024.05.20

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

11

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

79

2026.01.18

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

109

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

153

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Pandas 教程
Pandas 教程

共15课时 | 0.9万人学习

ECMAScript6 / ES6---十天技能课堂
ECMAScript6 / ES6---十天技能课堂

共25课时 | 1.9万人学习

php-src源码分析探索
php-src源码分析探索

共6课时 | 0.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号