AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

王林

发布时间：2023-09-22 20:13:03

1024人浏览过

来源于51CTO.COM

转载

提示词中加上“深呼吸”，ai大模型数学成绩就能再涨8.4分！

谷歌DeepMind团队最新发现，用这个新“咒语”（Take a deep breath）结合大家已经熟悉的“一步一步地想”（Let’s think step by step），大模型在GSM8K数据集上的成绩就从71.8提高到80.2分。

而且这个最有效的提示词，是AI自己找出来的。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

有人开玩笑说，当你深呼吸后，散热风扇的转速就会提高

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

有些人认为，新入职的高薪工程师们也应该冷静下来，因为他们的工作可能不会持续太久

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

相关论文《大语言模型是优化器》，再次引起轰动。

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

具体来说，大模型自己设计的提示词在Big-Bench Hard数据集上最高提升50%。

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

也有人的关注点在“不同模型的最佳提示词不一样”。

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

在论文中，不仅仅是提示词设计这一任务，还测试了大模型在线性回归和旅行商问题等经典优化任务上的能力

模型不同，最佳提示词也不同

优化问题无处不在，基于导数和梯度的算法是强大的工具，但现实应用中也经常遇到梯度不适用的情况。

为解决这个问题，团队开发了新方法OPRO，也就是通过提示词优化（Optimization by PROmpting）。

不再是通过形式化定义优化问题并用程序求解，而是通过自然语言描述优化问题，并要求大型模型生成新的解决方案

一图流总结，就是对大模型的一种递归调用。

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

每一步优化中，以之前生成的解决方案和评分作为输入，大模型生成新的方案并评分，再将其添加到提示词中，供下一步优化使用。

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

论文主要使用谷歌的PaLM 2和Bard中的text-bison版本作为评测模型。

作为优化器，我们将使用四种模型，包括GPT-3.5和GPT-4

研究结果显示，不同的模型设计出的提示词风格以及适用的提示词风格也各不相同

此前在GPT系列上的AI设计出的最优提示词是“Let’s work this out in a step by step way to be sure we have the right answer.”

AiBiao.cn

一句话自动生成图表

下载

这个提示词使用APE方法设计，论文发表在ICLR 2023上，在GPT-3（text-davinci-002）上超过人类设计的版本“Let’s think step by step”。

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

在谷歌系的PaLM 2和Bard上，APE版本在这次作为基准测试中表现不如人类版本

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

OPRO方法设计出来的新提示词中，“深呼吸”和“拆解这个问题”对PaLM来说效果最好。

对于text-bison版的Bard大模型来说，更倾向于提供更详细的提示词

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

此外，该论文还展示了大型模型在数学优化器方面的潜力

线性回归作为连续优化问题的示例。

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

旅行商问题作为离散优化问题的示例。

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

仅仅通过提示，大模型就能找到不错的解决方案，有时甚至匹敌或超过手动设计的启发式算法。

然而，团队也认为大模型还无法替代传统基于梯度的优化算法。当问题规模较大时，例如节点数量较多的旅行商问题，OPRO方法的表现并不理想

团队提出了对未来改进方向的想法。他们认为目前的大模型还无法有效地利用错误案例，仅仅提供错误案例无法让大模型捕捉到错误的原因

一个有前景的方向是结合关于错误案例的更丰富的反馈，并总结优化轨迹中高质量和低质量生成提示的关键特征差异。

这些信息有可能帮助优化器模型更有效地改进过去生成的提示，并有可能进一步减少进行提示优化所需的样本数量

论文放出大量最优提示词

论文来自谷歌与DeepMind合并后的部门，但作者以原谷歌大脑团队为主，包括Quoc Le、周登勇。

共同一作为康奈尔大学博士毕业的复旦校友Chengrun Yang，和UC伯克利博士毕业的上交大校友陈昕昀。

团队还在论文中提供了许多实验中得到的最佳提示词，包括电影推荐、恶搞电影名字等实用场景。如果有需要的朋友，可以自行参考

AI自主设计提示词，谷歌DeepMind发现数学“深呼吸”能让大模型涨8分！

论文地址：https://arxiv.org/abs/2309.03409

如何提高英文论文润色质量利用Claude 3.5模仿母语表达习惯

tofai批量下载素材怎么做 tofai一键保存网页图片【攻略】

如何写出走心且不俗气的节日祝福语利用文心一言定制分对象文案

人工智能怎么加载预训练BERT_人工智能调用BERT做文本分类教程

AI绘画StableDiffusion模型怎么下载安装_AI绘画SD模型本地部署详细教程

相关专题

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

486

2023.08.14

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2799

2024.08.16

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

Golang 工程化架构设计：可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则，涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术，帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

2026.02.28

Golang 性能分析与运行时机制：构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面，深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略，并结合实际案例剖析 Go 程序的运行时行为，帮助开发者掌握构建高性能应用的关键技能。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板