0

0

哄一哄可以让GPT-3准确率提高61%!谷歌和东京大学的研究令人震惊

WBOY

WBOY

发布时间:2023-04-27 17:19:08

|

1984人浏览过

|

来源于51CTO.COM

转载

一觉醒来,机器学习社区炸了锅。

因为最新研究发现,只要对GPT-3说一句“让我们一步一步地思考”,就能让它正确回答出以前不会的问题。

比如下面这个例子:

16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

(问题不难,但要注意这是零样本学习,也就是说AI训练阶段从没见过同类问题。)

如果要求GPT-3直接写出“答案是几”,它会给出错误答案:8。

但加上让我们一步一步地思考这句“咒语”后,GPT-3就会先输出思考的步骤,最后给出正确答案:4!

而且这并不是巧合,研究团队在论文中做了充分的验证。

上面的问题出自经典的MutiArith数据集,专门考验语言模型做数学题的能力,GPT-3本来在零样本场景下准确率仅有17%。

这篇论文中总结了9个最有效的提示词,其中换着花样让GPT-3逐步思考的前6个都让准确率暴涨到70%以上。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

甚至一句最简单的“Let’s think”(让我们想一想)都能涨到57.5%。

这感觉,就像是幼儿园阿姨在哄小朋友……

这个技巧似乎也不需要对GPT-3做魔改,已经有人在OpenAI官方Demo上成功复现,甚至换成中文也行。

英文题干中文提示,GPT-3给出正确中文答案。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

最早把这篇论文转发到社交网络的谷歌研究员表示,新的all you need增加了。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

看到这里,各路大佬纷纷脑洞大开,玩起了梗。

如果鼓励AI“你能行的,我相信你”会怎样?

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

威胁AI一下说“时间不多了”或者“你头上有把枪”又会如何?

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

对AI说“开车稳一点”会成为自动驾驶解决方案吗?

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

还有人提出,这简直和科幻故事《银河系漫游指南》的剧情一样,实现通用人工智能的关键是知道如何正确地向AI提问。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

那么,这种神奇现象究竟怎么回事?

语言大模型是零样本推理者

发现这个现象的是谷歌大脑与东京大学的合作研究,探索了语言大模型在零样本场景下的表现。

论文标题《语言大模型是零样本推理者》还致敬了GPT-3的《语言模型是少样本学习者》。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

所用方法属于Chain of Thought Prompting (思维链路提示,以下简称CoT),今年一月刚由谷歌大脑团队提出。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

最早的CoT应用于少样本学习,在提问的同时给一个分步骤回答的示例来引导AI。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

这次的最新研究提出零样本CoT,主要改动是简化了示例的部分。

  • 第一步,把题干改写成“Q:xxx,A:xxx”的形式,其中触发句A可以提取出语言模型的思考过程。
  • 第二步属于额外实验,增加了“答案是……”的提示促使语言模型给出最终答案。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

这样做最大的好处是通用,不再需要对不同问题类型提供专用的示例。

论文中对各类问题做了充分实验,包括12项测试:

  • 6个数学问题测试集,SingleEq、AddSub、SVAMP和更有挑战的MultiArith, AQUA-RAT, GSM8K。
  • 2个常识推理测试集,CommonsenseQA和StrategyQA。
  • 2个符号推理测试集,Last Letter Concatenation和Coin Flip。
  • 以及BIG-bench中的日期理解问题、跟踪乱序物体任务。

与普通的零样本学习相比,零样本CoT在其中10项中取得更好效果。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

△右侧值为额外实验结果

在比较有难度的MultiArith和GSM8K数学测试中,用GPT-3最新版本Text-davinci-002 (175B)做了更深入实验。

如果给8次尝试机会取最好结果,还能进一步提升准确率至93%。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

在错误结果分析中研究人员还发现,很多问题中其实AI的推理过程是正确的,只是答案无法收敛至唯一确定时会给出多个备选。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

论文的最后,研究团队提出这项研究不仅可以作为零样本CoT的基线,更希望让学界认识到在构建微调数据集和少样本提示模版之前,充分发掘语言大模型零样本能力的重要性。

研究团队来自东京大学松尾研究室。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

负责人松尾丰教授,同时是软银董事会中的第一位人工智能专家。

PixVerse
PixVerse

PixVerse是一款强大的AI视频生成工具,可以轻松地将多种输入转化为令人惊叹的视频。

下载

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

团队成员中的客座教授顾世翔来自谷歌大脑团队,顾世翔本科师从三巨头之一Hinton,博士毕业于剑桥大学。

加点“魔法”已经成为AI圈新潮了

零样本CoT究竟为何起作用还有待探索。

不过有人实验得出,这种办法似乎只对GPT-3(text-davinci-002)比较有效,他尝试了001版本,发现收效甚微。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

他列出了一个自己做的例子。

提问:请将machine,learning中每个单词的最后一个字母连起来。

GPT-3在提示下给出的答案是连起来了两个单词中的所有字母。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

对此,作者之一顾世翔回复表示,其实“咒语”对初始版、改良版的GPT-3都有效果,这些结果在论文中也有体现。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

也有人发出质疑,表示难道深度学习变成了一场找“神奇咒语”的游戏?

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

同时,我们在吐槽队伍里又看到了马库斯的身影。

他也列出了一个失败的例子,GPT-3在“咒语”加持下也没弄明白,莎莉的牛到底会不会起死回生……

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

不过值得注意的是,类似这种稍微给AI加点小魔法,提升效果立竿见影的例子已经不稀奇了。

有网友分享,自己用GPT-3时加几个中间命令,确实能得到更满意的结果。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

此前谷歌和MIT的研究人员发现,无需更改底层架构,只要训练语言模型会像程序员debug时那样“打断点”,模型读代码、做算术的能力唰唰唰地就上去了。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

原理也非常简单,就是在计算步骤较多的程序里,让模型把每一步都编码成文本,并将它们记录到一个称为“便签”的暂存器中。

由此一来,模型的计算过程变得更加清晰有序,性能自然大幅提升。

还有本项实验中用来测试的Instruct GPT-3,也是一个典型的例子。

只需让GPT-3从人类反馈中强化学习,它就能明显改善答非所问的情况。

具体来看就是先用一些人类的示范回答微调模型,然后收集某个问题的几组不同输出数据,人工对几组答案进行排序,并在此数据集上训练奖励模型。

最后,使用RM作为奖励函数,近端策略优化(PPO)算法微调GPT-3策略,以强化学习方法最大化奖励。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

包括引爆这次话题的推特博主Aran,正是当初发现加一句“虚幻引擎”就能让AI生成图像画质飞升的那位。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

前谷歌机器人大佬Eric Jang此前也发现,强化学习也能运用类似的思维来提升计算效率。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

也有人表示,这种用在AI上的技巧,不正是自己平常动脑时会用的吗?

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

实际上,此前Bengio就从脑科学入手,提出AI的运转模式应该像人类动脑模式一样。

人类的认知任务可以分为系统1认知和系统2认知。

系统1认知任务,是指那些无意识完成的任务。比如你可以马上辨别出手里拿的是什么东西,但是却无法和别人解释,自己是怎么完成这个过程的。

系统2认知任务,是指人类大脑需要按照一定步骤完成的认知。比如做一道加减法运算,你可以很清楚地解释最终答案是如何得出的。

而这次加的“咒语”,正是让AI更进一步,学会按步骤来思考。

面对这样的趋势,有学者认为“提示工程正在取代特征工程”。

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

那么“提示词猎人”会成为下一代NLP研究者的外号么?

哄一哄能让GPT-3准确率暴涨61%!谷歌&东京大学研究震惊四座

论文地址:​​https://www.php.cn/link/cc9109aa1f048c36d154d902612982e2​

参考链接:

[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993

[2]https://evjang.com/2021/10/23/generalization.html

相关文章

谷歌浏览器
谷歌浏览器

谷歌浏览器Google Chrome是一款可让您更快速、轻松且安全地使用网络的浏览器。Google Chrome的设计超级简洁,使用起来得心应手。这里提供了谷歌浏览器纯净安装包,有需要的小伙伴快来保存下载体验吧!

下载

相关标签:

ai

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

46

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

178

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

51

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

92

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

532

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

171

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号