PNAS最新研究：81%解题率，神经网络 Codex 推开高等数学世界大门

WBOY

发布时间：2023-04-09 15:51:06

1668人浏览过

来源于51CTO.COM

转载

近日，一项新研究发布于PNAS，再次刷新了神经网络的能力。这次神经网络被用来解决了高等数学题，而且还是麻省理工数学课程难度的数学题！

在这项新研究中，研究团队证明了 OpenAI 的 Codex 模型可以进行程序合成从而解决大规模的数学问题，并通过小样本学习自动解决数据集中 81%的数学课程问题，并且 Codex 在这些任务的表现上达到了人类水平。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

原文链接：https://www.pnas.org/doi/10.1073/pnas.2123433119

艺映AI

艺映AI - 免费AI视频创作工具

下载

这项研究的出现，颠覆了人们普遍认为神经网络无法解决高等数学问题的共识。研究团队指出，Codex 之所以能做到实现这样的能力，正是因为团队进行了一大创新，过去那些不成功的研究只使用了基于文本的预训练，而此次现身的 Codex 神经网络不仅要基于文本进行预训练，并且还对代码进行了微调。

研究的问题数据集选用来自 MIT 的六门数学课程和哥伦比亚大学的一门数学课程，从七门课程中随机抽取 25 个问题：MIT的单变量微积分、多变量微积分、微分方程、概率与统计概论、线性代数和计算机科学数学和哥伦比亚大学的 COMS3251 计算线性代数。

同时，研究团队使用了一个用于评估数学推理的最新高级数学问题基准 MATH，用 MATH 来检测OpenAI Codex 的能力，MATH 从6大数学板块：初级代数，代数，计数和概率，中级代数，数论，和初级微积分中各抽取15个问题。

图注：研究中使用的课程问题数据集和MATH基准测试

研究显示，Codex 解决了问题数据集和 MATH 数据集中的 265 个问题，其中有 213 个是自动解决的。

1 创新何所在

在 Transformer 发布后，基于 Transformer 的语言模型在各种自然语言处理 (NLP) 任务，包括在零样本和少样本语言任务中取得了巨大成功。但是因为 Transformer 仅在文本上进行了预训练，所以这些模型基本上不能解决数学问题，GPT-3就是一个典型例子。

后来，通过小样本学习（few-shot learning）和思维链 (Chain-of-thought， CoT) 提示，GPT-3 的数学推理能力得到了提高；然而，在没有代码的情况下，即便有小样本学习和 CoT 提示， GPT-3 在大学水平数学问题和 MATH 基准测试中仍然无能为力。

过去关于解数学题的研究，可能在相对简单的数学水平上有一定成绩。举个例子，基于协同训练输出来验证或预测表达式树的技术，比如MAWPS 和 Math23k，能够以超过 81% 的准确率解决小学级别的数学问题，但是其不能解决高中、奥林匹克数学或大学难度的课程。协同训练与图神经网络 (GNN) 相结合以预测算术表达式树，能够以高达 95% 的准确率解决机器学习中的大学水平问题。但是这项工作也仅限于数字答案，并且产生了过拟合，不能推广到其他课程。

而这项工作的最大创新点之一就是，不仅对Codex 这种Transformer 模型进行了文本上的预训练，还在代码上进行了微调，使得其可以生成大规模解决数学问题的程序。