0

0

AI做题家卷疯了!高数考试正确率81%,竞赛题成绩超过计算机博士

WBOY

WBOY

发布时间:2023-04-11 23:10:11

|

1742人浏览过

|

来源于51CTO.COM

转载

高数考不好,不知道是多少人的噩梦。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

如果说你高数考得还不如AI好,是不是就更难以接受了?

没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水平。

课程范围从初级微积分到微分方程、概率论、线性代数都有,题目形式除了计算、甚至还有画图。

图片

这件事最近还登上了微博热搜。

图片

△“仅”得81分,对AI的期待也太高了吧

现在,谷歌那边又传来了最新大消息:

不止数学,我们的AI甚至在整个理工科上,都已经拿到最高分啦!

看来在培养“AI做题家”这件事上,科技巨头们已经卷出了新高度。

图片

谷歌这个最新AI做题家,参加了四门考试。

数学竞赛考试MATH,以往只有三届IMO金牌得主才拿过90分,普通的计算机博士甚至只能拿到40分左右。

至于别的AI做题家们,以前最好成绩只有6.9分……

但这一次,谷歌新AI却刷到了50分,比计算机博士还高。

综合考试MMLU-STEM,内含数理化生、电子工程和计算机科学,题目难度达到高中甚至大学水平。

这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了20分左右。

图片

小学数学题GSM8k,直接将成绩拉升到78分,相比之下GPT-3还没及格(仅55分)。

就连MIT本科和研究生学的固体化学、天文学、微分方程和狭义相对论等课程,谷歌新AI也能在200多道题中,答出将近三分之一。

图片

最重要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子——

它像一个文科生一样只背书不做题,却掌握了更好的理工科解题技巧。

值得一提的是,论文一作Lewkowycz还分享了一个论文中没写到的亮点:

我们的模型参加了今年的波兰数学高考,成绩比全国平均分还要高。

图片

看到这里,有的家长已经坐不住了。

如果告诉我女儿这件事,我怕她用AI做作业。但如果不告诉她,就没有让她对未来做好准备!

图片

在业内人士看来,只靠语言模型,不对算数、逻辑和代数做硬编码达到这种水平,是这项研究最惊艳的地方。

图片

那么,这是怎么做到的?

AI狂读arXiv上200万篇论文

新模型Minerva,基于Pathway架构下的通用语言模型PaLM改造而来。

分别在80亿、600亿和5400亿参数PaLM模型的基础上做进一步训练。

Minerva做题与Codex的思路完全不同。

Codex的方法是把每道数学题改写成编程题,再靠写代码来解决。

而Minerva则是狂读论文,硬生生按理解自然语言的方式去理解数学符号。

在PaLM的基础上继续训练,新增的数据集有三部分:

主要有arXiv上收集的200万篇学术论文,60GB带LaTeX公式的网页,以及一小部分在PaLM训练阶段就用到过的文本。

图片

通常的NLP数据清洗过程会把符号都删掉只保留纯文字,导致公式不完整,比如爱因斯坦著名的质能方程只剩下了Emc2。

图片

但谷歌这次把公式都保留,和纯文本一样走一遍Transformer的训练程序,让AI像理解语言一样去理解符号。

与之前的语言模型相比,这是Minerva在数理问题上表现更好的原因之一。

但与专门做数学题的AI相比,Minerva的训练中没有显式的底层数学结构,这带来一个缺点和一个优点。

缺点,是可能出现AI用错误的步骤得到正确答案的情况。

优点,是可以适应不同学科,即使有些问题无法用正规的数学语言表达出来,也可以结合自然语言理解能力解出来。

到了AI的推理阶段,Minerva还结合了多个最近谷歌开发的新技术。

先是Chain of Thought思维链路提示,今年一月由谷歌大脑团队提出。

具体来说就是在提问的同时给一个分步骤回答的示例来引导。AI在做题时就可以采用类似的思考过程,正确回答本来会答错的题目。

Lyrics Generator
Lyrics Generator

免费人工智能歌词生成器和人工智能歌曲作家

下载

图片

再有是谷歌和MIT合作开发的Scrathpad草稿纸方法,让AI把分步计算的中间结果临时存储起来。

图片

最后还有Majority Voting多数表决方法,也是今年3月才发表的。

让AI多次回答同一个题目,选择答案中出现频率最高的。

图片

所有这些技巧全用上以后,5400亿参数的Minerva在各种测试集中达到SOTA。

甚至80亿参数版的Minerva,在竞赛级数学题和MIT公开课问题中,也能达到GPT-3最新更新的davinci-002版本水平。

图片

说了这么多,Minerva具体都能做出哪些题目?

对此谷歌也开放出了样例集,一起来看一下。

数理化生全能,连机器学习都会

数学上,Minerva可以像人类一样按步骤计算数值,而不是直接暴力求解。

图片

对于应用题,可以自己列出方程式并做简化。

图片

甚至还可以推导证明。

图片

物理上,Minerva可以求中性氮基态(Z = 7)电子的总自旋量子数这样的大学水平题目。

图片

生物和化学上,Minerva凭借语言理解能力也可以做各种选择题。

以下哪种点突变形式对DNA序列形成的蛋白质没有负面影响?

图片

以下哪种是放射性元素?

图片

以及天文学:为什么地球拥有很强的磁场?

图片

在机器学习方面,它通过解释“分布外样本检测”的具体含义,从而正确了给出这个名词的另一种说法。

图片

……

不过,Minerva有时也会犯一些低级错误,比如把等式两边的√给消了。

图片

除此之外,Minerva会出现的推理过程错误但结果对的“假阳性”情况,比如下面这种,有8%的可能性。

图片

经过分析之后,团队发现主要的错误形式来自计算错误和推理错误,只有小部分来自题意理解错误和在步骤中使用了错误的事实等其他情况。

其中计算错误可以轻易通过访问外部计算器或Python解释器解决,但其他种类的错误因为神经网络规模太大就不太好调整了。

图片

总的来看,Minerva的表现让很多人感到惊艳,纷纷在评论区求API(可惜谷歌目前并没有公开计划)。

图片

有的网友想到,加上前几日让GPT-3解题正确率暴涨61%的“哄一哄”大法,它的准确率或许还可以再提高?

图片

不过作者的回应是,哄一哄方法属于零样本学习,再强恐怕也比不上带4个例子的少样本学习。

图片

还有网友提出,既然它可以做题,那么能不能反过来出题?

图片

事实上用AI给大学生出题这件事,MIT已经联合OpenAI在做了。

他们把人类出的题和AI出的题混在一起,找学生来做问卷调查,大家也很难分清一道题是不是AI出的。

图片

总之现在的情况,除了搞AI的在忙着读这篇论文以外。

学生们盼着有一天能用AI做作业。

图片

老师们也盼着有一天能用AI出卷子。

图片

论文地址:https://storage.googleapis.com/minerva-paper/minerva_paper.pdf

Demo地址:https://minerva-demo.github.io/

相关论文:Chain of Thought https://arxiv.org/abs/2201.11903Scrathpads https://arxiv.org/abs/2112.00114Majority Voting https://arxiv.org/abs/2203.11171

参考链接:

https://ai.googleblog.com/2022/06/minerva-solving-quantitative-reasoning.html

https://twitter.com/bneyshabur/status/1542563148334596098

https://twitter.com/alewkowycz/status/1542559176483823622​

相关专题

更多
高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

65

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

123

2026.01.16

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

33

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

39

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

19

2026.01.15

windows查看wifi密码教程大全
windows查看wifi密码教程大全

本专题整合了windows查看wifi密码教程大全,阅读专题下面的文章了解更多详细内容。

85

2026.01.15

浏览器缓存清理方法汇总
浏览器缓存清理方法汇总

本专题整合了浏览器缓存清理教程汇总,阅读专题下面的文章了解更多详细内容。

20

2026.01.15

ps图片相关教程汇总
ps图片相关教程汇总

本专题整合了ps图片设置相关教程合集,阅读专题下面的文章了解更多详细内容。

11

2026.01.15

ppt一键生成相关合集
ppt一键生成相关合集

本专题整合了ppt一键生成相关教程汇总,阅读专题下面的的文章了解更多详细内容。

47

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号