0

0

通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

心靈之曲

心靈之曲

发布时间:2025-05-19 15:26:01

|

1006人浏览过

|

来源于php中文网

原创

强化学习(rl)结合真实搜索引擎可以显著提升大模型的检索和推理能力。然而,这一方法面临两大挑战:搜索引擎返回的文档质量不稳定,导致训练过程中的噪音和不稳定性;rl 训练需要频繁部署,产生大量 api 开销,限制了可扩展性。

针对这些问题,阿里通义实验室推出了开源解决方案 ZeroSearch,这是一个无需与真实搜索引擎交互的强化学习框架。实验表明,ZeroSearch 只需使用 3B 参数的 LLM 作为检索模块,就能有效提升搜索能力,并大幅节省 API 成本。

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

ZeroSearch 让 LLM 实现自给自足的搜索进化

研究团队通过模拟搜索环境和渐进式抗噪训练,使 LLM 不再依赖昂贵的搜索引擎 API。

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

轻量微调:将 LLM 转变为“搜索引擎模拟器

使用少量标注数据对 LLM 进行微调,使其能够根据指令生成两种类型的文档——有用结果和噪声干扰。

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

通过收集与真实搜索引擎交互的数据,ZeroSearch 对 LLM 进行轻量级监督微调。在此过程中,模型学会生成与真实搜索引擎风格相似的文档,并能根据提示词生成相关或噪声文档。这种能力使模型在训练过程中能够动态调整文档质量,从而更好地模拟真实检索场景。

课程化抗噪训练:像打游戏升级一样训练模型

训练初期返回高质量文档,后期逐渐混入噪声(噪声比例按指数曲线上升)。ZeroSearch 引入了课程式学习机制,逐步降低生成文档的质量,使模型从简单的检索场景逐步过渡到更具挑战性的任务。这种策略不仅提升了模型的推理能力,还显著增强了训练的稳定性和效果。

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

随着训练的进行,模型逐渐适应更复杂的检索任务,最终能够在高质量和低质量文档中找到平衡。

强化学习闭环:自产自销的搜索生态

ZeroSearch 通过模拟搜索引擎,完全消除了与真实搜索引擎交互的 API 费用,使得大规模强化学习训练变得更加经济可行。此外,ZeroSearch 兼容多种强化学习算法,包括 PPO(近端策略优化)和 GRPO(群体相对策略优化)。这些算法为模型提供了不同的优化策略,使得 ZeroSearch 能够在不同的模型和任务中表现出色。实验表明,GRPO 在训练稳定性方面表现更好,而 PPO 则在某些任务中提供了更高的灵活性。

实验结果及结论

ZeroSearch 的零 API 成本优势不仅体现在经济上,还体现在训练的灵活性和可扩展性上。

ZeroSearch vs. 现有方法

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

在图中,我们可以清晰地看到 ZeroSearch 在多个问答数据集上的表现。无论是单跳(Single-Hop)还是多跳(Multi-Hop)问答任务,ZeroSearch 都显著优于现有的基线方法,包括直接提示、RAG 和 Search-R1 等。这表明 ZeroSearch 不仅在简单任务中表现出色,还能在复杂的多跳问答任务中发挥强大的检索能力。

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

上图展示了 ZeroSearch 和 Search-R1(使用真实搜索引擎)在 LLaMA-3.2-3B 模型上的奖励曲线对比。ZeroSearch 的学习曲线更加平滑且最终性能优于 Search-R1,表明其在训练过程中的稳定性和优越性。

不同模型规模的性能

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

可以看到使用7B 参数的检索模块就能达到与谷歌搜索相当的性能,而14B 参数的检索模块甚至能够超越谷歌搜索。这表明 ZeroSearch 不仅适用于小型模型,还能在大型模型中发挥更大的潜力,为 LLM 的检索能力提升提供了广阔的空间。

强化学习算法的兼容性

 通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索 API

比较了在 Qwen-2.5-3B 和 LLaMA-3.2-3B 模型上,使用 PPO 和 GRPO 算法的 ZeroSearch 性能,可以看到 ZeroSearch 与 PPO 和 GRPO 两种强化学习算法的兼容性。实验结果表明,GRPO 在训练稳定性方面表现更好,而 PPO 则在某些任务中提供了更高的灵活性。这表明 ZeroSearch 能够适应不同的强化学习算法,为研究人员提供了更多的选择。

通过模拟搜索引擎,ZeroSearch 完全消除了 API 成本,同时通过课程式学习策略逐步提升模型的推理能力。这一创新不仅解决了现有方法中的成本和稳定性问题,还为未来的智能化检索提供了新的思路。

论文链接:

https://www.php.cn/link/df406179fe73acb98a8f45606449d731

参考链接:

https://www.php.cn/link/b6b53a1b9cde5ef3c37aea1ff7b16477

— 完 —

量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。

也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~

一键关注 点亮星标

科技前沿进展每日见

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

489

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2862

2024.08.16

什么是搜索引擎
什么是搜索引擎

搜索引擎是一种互联网工具,用于帮助用户在网上查找信息。搜索引擎的目标是提供最准确、最有价值的搜索结果,使用户能够快速找到所需的信息。本专题为大家提供搜索引擎相关的各种文章、以及下载和课程。

480

2023.08.02

有哪些目录搜索引擎
有哪些目录搜索引擎

目录搜索引擎有Google、Bing、Yahoo、Baidu、DuckDuckGo等。想了解更多目录搜索引擎的相关内容,可以阅读本专题下面的文章。

6159

2023.11.06

搜索引擎营销的主要模式
搜索引擎营销的主要模式

搜索引擎营销的主要模式包括:1. 竞价排名(ppc);2. 搜索引擎优化(seo);3. 本地搜索营销;4. 购物广告;5. 视频广告;6. 展示广告;7. 社交媒体营销;8. 移动广告。想了解更多搜索引擎营销的相关内容,可以阅读本专题下面的文章。

472

2024.05.20

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

28

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

68

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

164

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

84

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Pandas 教程
Pandas 教程

共15课时 | 1.1万人学习

ECMAScript6 / ES6---十天技能课堂
ECMAScript6 / ES6---十天技能课堂

共25课时 | 2.1万人学习

php-src源码分析探索
php-src源码分析探索

共6课时 | 0.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号