GPT-4写代码能力提升21%！MIT新方法让LLM学会反思，网友：和人类的思考方式一样

WBOY

发布时间：2023-04-04 12:45:01

1352人浏览过

来源于51CTO.COM

转载

这是美国东北大学联合mit发表的最新论文中的方法：reflexion。

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

GPT-4再度进化！

加上一个简单方法，就能让GPT-4这类大语言模型学会自我反思，性能直接提升30%。

在此之前，大语言模型回答出错，经常是二话不说，直接先道歉，然后emmmmmm，继续乱猜。

现在，它不会这样了，有了新方法的加成，GPT-4不仅会反思自己哪里错了，还会给出改进策略。

比如说它会自动分析为什么“陷入循环”：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

或者说反思一下自己有缺陷的搜索策略：

这是美国东北大学联合MIT发表的最新论文中的方法：Reflexion。

不仅适用于GPT-4，也适用于其他大语言模型，让它们学会人类特有的反思能力。

目前该论文已经发表在预印平台arxiv上。

这把直接让网友直呼“AI进化的速度已经超过我们适应的能力了，我们要被毁灭了。”

甚至有网友为开发人员发来“饭碗警告”：

用这种方法写代码的时薪是要比普通开发人员便宜的。

利用二元奖励机制实现反思

正如网友所言，Reflexion赋予GPT-4的反思能力和人类的思考过程差不多：

可以简单用两个字来概括：反馈。

在这个反馈过程中，又可以分为三大步：

1、评估：测试当前生成答案的准确性
2、自我反省的产生：错误识别——实现修正
3、执行一个迭代反馈循环

在第一步评估的过程中，首先要经历的是LLM（大语言模型）的自我评估。

也就是说LLM在还没有外部反馈时，首先要自己对答案进行反思。

那如何进行自我反思？

研究团队使用了一个二元奖励机制，为LLM在当前状态下执行的操作赋值：

Play.ht

根据文本生成多种逼真的语音

下载

1代表生成的结果OK，0则表示生成的结果不太行。

而之所以采用二元而非多值或连续输出这类更具描述性的奖励机制，原因和没有外部输入有关。

要在没有外部反馈的条件下进行自我反思，必须将答案限制在二元状态下，只有这样，才能迫使LLM做出有意义的推断。

在自我评估结束之后，如果二元奖励机制输出为1，则不启动自我反思装置，若为0，LLM则会开启反思模式。

在反思的过程中，模型会触发一个启发性函数h（如下），类比人类思考过程，h起到的作用就像是监督一样。

不过，同人类思考一样，LLM在反思的过程中同样也有局限性，这在函数中的Ω和ε中就能体现。

Ω表示重复连续动作的次数，一般会将这个数值设置为3，这表示反思过程中若重复一个步骤三次，会直接跳到下一个步骤。

而ε则表示在反思的过程中允许执行的最大操作数量。

既然有监督，那修正也必须执行，修正过程的函数是这样子的：

其中，自我反思模型是通过“特定领域的失败轨迹和理想反射对”训练而来的，并不允许访问数据集中给定问题的特定领域的解决方案。

这样一来，LLM在反思的过程中便能够迸发出更多有“创新性”的东西。

反思之后性能提升近30%

既然GPT-4这类LLM都能够进行自我反思了，那具体效果究竟如何？

研究团队在ALFWorld和HotpotQA基准上对这种方法进行了评估。

在HotpotQA的100个问答对测试中，使用Reflexion这种方法的LLM显示出了巨大的优势，再经过多轮反思重复提问之后，LLM的性能提升了接近30%。

而没有使用Reflexion，在重复问答之后，性能没有任何变化。

在HotpotQA的134个问答对测试中，可以看出在Reflexion的加持下，LLM经过多轮反思后，准确率一度达到97%。

在另外一篇博客中，团队成员也晒出了他们这种方法在GPT-4上的效果，测试范围是编写代码。

结果也显而易见，用了Reflexion，GPT-4的编程能力直接提升了21%。

关于GPT-4已经会“思考”了，你怎（huang）么（le）看（ma）？

论文地址：https://arxiv.org/abs/2303.11366

GPT-4写代码能力提升21%！MIT新方法让LLM学会反思，网友：和人类的思考方式一样

DeepSeek V2模型新功能详解，比第一代强在哪里？

龙虾机器人真的免费吗？收费模式与定价详解

龙虾机器人付费版值得买吗 Claude Pro会员功能详解

Clawdbot为什么被频繁讨论 Clawdbot话题走红原因

Microsoft Copilot开源：开发者迎来AI编码新纪元

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何使用XGBoost和InluxDB进行时间序列预测下一篇：隐语开源首个工业级多方安全数据分析系统SCQL：像写SQL一样「易用」隐私计算

作者最新文章

微信朋友圈能定时发送吗微信朋友圈定时发送功能开启方法

2026-01-09 08:15

微信朋友圈草稿箱怎么用微信朋友圈定时发送隐藏技巧

2026-01-10 08:41

微信朋友圈定时发送是真的吗微信朋友圈预约发布实现方法

2026-01-15 10:19

微信定时发朋友圈怎么弄微信朋友圈自动推送设置流程

2026-01-21 04:27

微信如何定时发朋友圈微信朋友圈自动定时发送设置步骤【汇总】

2026-01-23 10:22

微信怎么设置自动发朋友圈微信朋友圈定时托管操作详解

2026-02-03 04:49

2026微信定时发朋友圈教程微信朋友圈延迟发送设置技巧

2026-02-04 08:23

mysql如何获取系统时间_mysql now与sysdate区别

2026-03-02 11:02

mysql如何进行内连接_mysql inner join匹配逻辑

2026-03-06 07:33

mysql如何清空表数据_mysql truncate table性能优势

2026-03-06 10:03

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

111

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

228

2026.03.04

AI安装教程大全

2026最全AI工具安装教程专题：包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好，附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新，收藏这一篇就够了，让AI安装不再报错！

2026.03.04

Swift iOS架构设计与MVVM模式实战

本专题聚焦 Swift 在 iOS 应用架构设计中的实践，系统讲解 MVVM 模式的核心思想、数据绑定机制、模块拆分策略以及组件化开发方法。内容涵盖网络层封装、状态管理、依赖注入与性能优化技巧。通过完整项目案例，帮助开发者构建结构清晰、可维护性强的 iOS 应用架构体系。

137

2026.03.03

C++高性能网络编程与Reactor模型实践

本专题围绕 C++ 在高性能网络服务开发中的应用展开，深入讲解 Socket 编程、多路复用机制、Reactor 模型设计原理以及线程池协作策略。内容涵盖 epoll 实现机制、内存管理优化、连接管理策略与高并发场景下的性能调优方法。通过构建高并发网络服务器实战案例，帮助开发者掌握 C++ 在底层系统与网络通信领域的核心技术。

2026.03.03

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

Golang 工程化架构设计：可维护与可演进系统构建

Go语言工程化架构设计专注于构建高可维护性、可演进的企业级系统。本专题深入探讨Go项目的目录结构设计、模块划分、依赖管理等核心架构原则，涵盖微服务架构、领域驱动设计(DDD)在Go中的实践应用。通过实战案例解析接口抽象、错误处理、配置管理、日志监控等关键工程化技术，帮助开发者掌握构建稳定、可扩展Go应用的最佳实践方法。

2026.02.28

Golang 性能分析与运行时机制：构建高性能程序

Go语言以其高效的并发模型和优异的性能表现广泛应用于高并发、高性能场景。其运行时机制包括 Goroutine 调度、内存管理、垃圾回收等方面，深入理解这些机制有助于编写更高效稳定的程序。本专题将系统讲解 Golang 的性能分析工具使用、常见性能瓶颈定位及优化策略，并结合实际案例剖析 Go 程序的运行时行为，帮助开发者掌握构建高性能应用的关键技能。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板