0

0

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back

王林

王林

发布时间:2024-07-26 19:25:15

|

579人浏览过

|

来源于机器之心

转载

对于 ai 来说,奥数不再是问题了。

本周四,谷歌 DeepMind 的人工智能完成了一项壮举:用 AI 做出了今年国际数学奥林匹克竞赛 IMO 的真题,并且距拿金牌仅一步之遥。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back

上周刚刚结束的 IMO 竞赛共有六道赛题,涉及代数、组合学、几何和数论。谷歌提出的混合 AI 系统做对了四道,获得 28 分,达到了银牌水平。

本月初,UCLA 终身教授陶哲轩刚刚宣传了百万美元奖金的 AI 数学奥林匹克竞赛(AIMO 进步奖),没想到 7 月还没过,AI 的做题水平就进步到了这种水平。

IMO 上同步做题,做对了最难题

IMO 是历史最悠久、规模最大、最负盛名的青年数学家竞赛,自 1959 年以来每年举办一次。近来,IMO 竞赛也被广泛认为是机器学习领域的一项重大挑战,成为衡量人工智能系统高级数学推理能力的理想基准。

在今年的 IMO 竞赛上,由 DeepMind 团队研发的 AlphaProof 和 AlphaGeometry 2 共同实现了里程碑式的突破。

其中,AlphaProof 是一种用于形式化数学推理的强化学习系统,而 AlphaGeometry 2 是 DeepMind 几何求解系统 AlphaGeometry 的改进版本。

这一突破表明具有先进数学推理能力的通用人工智能 (AGI) 有潜力开启科学技术新领域。

那么,DeepMind 的 AI 系统是如何参加 IMO 竞赛的?

简单来说,首先这些数学问题被手动翻译成形式化的数学语言,以便 AI 系统理解。在正式比赛中,人类参赛选手分两节(两天)提交答案,每节限时 4.5 小时。AlphaProof+AlphaGeometry 2 组合成的 AI 系统在几分钟内就解决了一个问题,但花了三天时间来解决其他问题。虽然如果严格按照规则来说的话,DeepMind 的系统超时了。有人推测,这里面可能涉及大量的暴力破解。

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back

谷歌表示,AlphaProof 通过确定答案并证明其正确性解决了两道代数问题和一道数论问题。其中包括本次竞赛中最难的问题,在今年的 IMO 上只有五名参赛者解决了。而 AlphaGeometry 2 证明了一道几何问题。

AI 给出的解:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/imo-2024-solutions/index.html

IMO 金牌得主、菲尔兹奖得主 Timothy Gowers 和两届 IMO 金牌得主、IMO 2024 问题选择委员会主席 Joseph Myers 博士根据 IMO 评分规则,对该组合系统给出的解决方案进行了评分。

六个问题中的每一个问题满分 7 分,总分最高 42 分。DeepMind 的系统最终得分为 28 分,意味着解决的 4 个问题都获得了满分——相当于银牌类别的最高分。今年的金牌门槛为 29 分,正式比赛的 609 名选手中有 58 人获得了金牌。

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back

该图显示了谷歌 DeepMind 的人工智能系统在 IMO 2024 上相对于人类竞争对手的表现。在总分为 42 分的情况下,该系统获得了 28 分,达到了与比赛银牌获得者相同的水平。另外,今年 29 分是能拿金牌的。

AlphaProof:一种形式化推理方法


在谷歌使用的混合 AI 系统中,AlphaProof 是一个以形式语言 Lean 来证明数学陈述的自训练系统。它结合了预训练语言模型与 AlphaZero 强化学习算法。

其中,形式语言为形式化地验证数学推理证明的正确性,提供了重要优势。在此之前,这在机器学习中的使用一直受限,因为人工编写数据数量非常有限。

相比之下,基于自然语言的方法尽管可以访问更多量级的数据,但会产生看似合理而不正确的中间推理步骤与解法。

谷歌 DeepMind 通过微调 Gemini 模型自动将自然语言问题陈述翻译为形式陈述,在这两个互补领域之间建立了一座桥梁,从而创建了一个包含不同难度形式问题的大型库。

百度AI搜
百度AI搜

百度全新AI搜索引擎

下载

给到数学问题,AlphaProof 会生成候选解题方案,然后通过搜索 Lean 中可能的证明步骤来证明它们。找到并验证的每个证明方案,都用来强化 AlphaProof 的语言模型,增强其解决后续更具挑战性问题的能力。

为训练 AlphaProof,谷歌 DeepMind 在 IMO 比赛前几周内证明或反证明了涵盖广泛难度与主题的数百万个数学问题。比赛期间还应用了训练 loop,以强化自生成竞赛题变体的证明,直到找到完整的解决方案。

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so backAlphaProof 强化学习训练 loop 过程信息图:约一百万个非形式化数学问题被形式化网络翻译成形式化数学语言。然后,求解器网络搜索问题的证明或反证,通过 AlphaZero 算法逐步训练自己解决更具挑战性的问题。

更具竞争力的 AlphaGeometry 2

AlphaGeometry 2 是今年登上《自然》杂志的数学 AI AlphaGeometry 的重大改进版本。它是一个神经 - 符号混合系统,其中的语言模型基于 Gemini,并在比其前身多一个数量级的合成数据上从头开始训练。这有助于该模型解决更具挑战性的几何问题,包括有关物体运动以及角度、比例或距离方程的问题。

AlphaGeometry 2 采用的符号引擎比上一代产品快两个数量级。当遇到新问题时,新颖的知识共享机制可实现不同搜索树的高级组合,以解决更复杂的问题。

在今年的比赛之前,AlphaGeometry 2 可以解决过去 25 年中所有 IMO 几何历史问题的 83%,而其前身的解决率仅为 53%。在 IMO 2024 中,AlphaGeometry 2 在收到问题 4 的形式化后 19 秒内就解决了它。

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back

问题 4 的示例,要求证明∠KIL 与∠XPY 的和等于 180°。AlphaGeometry 2 提议在直线 BI 上构造点 E,使得∠AEB = 90°。点 E 有助于赋予线段 AB 中点 L 以意义,从而创建许多对相似三角形,如 ABE ~ YBI 和 ALE ~ IPC,以证明结论。

谷歌 DeepMind 还报告说,作为 IMO 工作的一部分,研究人员还试验了一种基于 Gemini 和一种最新的自然语言推理系统,希望实现高级的问题解决能力。该系统不需要将问题翻译成正式语言,并且可以与其他 AI 系统相结合。在今年的 IMO 赛题的测试中「显示出了巨大的潜力」。

谷歌正在继续探索推进数学推理的 AI 方法,并计划很快发布有关 AlphaProof 的更多技术细节。

我们对未来充满期待,数学家们将使用 AI 工具探索假设,尝试大胆的新方法来解决长期存在的问题,并快速完成耗时的证明元素——而像 Gemini 这样的 AI 系统将在数学和更广泛的推理方面变得更加强大。

研究团队

谷歌表示,新研究得到了国际数学奥林匹克组织的支持,此外:

AlphaProof 的开发由 Thomas Hubert、Rishi Mehta 和 Laurent Sartran 领导;主要贡献者包括 Hussain Masoom、Aja Huang、Miklós Z. Horváth、Tom Zahavy、Vivek Veeriah、Eric Wieser、Jessica Yung、Lei Yu、Yannick Schroecker、Julian Schrittwieser、Ottavia Bertolli、Borja Ibarz、Edward Lockhart、Edward Hughes、Mark Rowland 和 Grace Margand。

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back

其中,Aja Huang、Julian Schrittwieser、Yannick Schroecker 等成员也是 8 年前(2016 年)AlphaGo 论文的核心成员。8 年前,他们基于强化学习打造的 AlphaGo 声名大噪。8 年后,强化学习在 AlphaProof 中再次大放异彩。有人在朋友圈感叹说:RL is so back!

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back

AlphaGeometry 2 和自然语言推理工作由 Thang Luong 领导。AlphaGeometry 2 的开发由 Trieu Trinh 和 Yuri Chervonyi 领导,Mirek Olšák、Xiaomeng Yang、Hoang Nguyen、Junehyuk Jung、Dawsen Hwang 和 Marcelo Menegali 做出了重要贡献。

谷歌AI拿下IMO奥数银牌,数学推理模型AlphaProof面世,强化学习 is so back

此外,David Silver、Quoc Le、哈萨比斯和 Pushmeet Kohli 负责协调和管理整个项目。

参考内容:

https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

503

2023.08.14

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

2927

2024.08.16

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

49

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

88

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

272

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

59

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

99

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

105

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

230

2026.03.05

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号