连续反转！DeepMind遭俄罗斯团队质疑：我们该如何证明神经网络懂物理世界？

PHPz

发布时间：2023-04-12 09:55:06

1153人浏览过

来源于51CTO.COM

转载

最近科学界又出现一场争论，故事的主角是DeepMind位于伦敦的研究中心于2021年12月发表的一篇Science论文，研究人员发现神经网络可以用来训练并构建比以前更精确的电子密度和相互作用图，能够有效解决传统泛函理论中的系统误差。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

论文链接：https://www.science.org/doi/epdf/10.1126/science.abj6511

文中提出的DM21模型准确地模拟了复杂的系统，如氢链、带电的DNA碱基对和二元过渡态。对量子化学领域来说，可以说是开辟了一条通往精确的通用函数且可行的技术路线。

DeepMind的研究人员还放出了DM21模型的代码，方便同行复现。

仓库链接：https://github.com/deepmind/deepmind-research

按照道理来说，论文和代码都公开，还是发表在顶级期刊上，实验结果和研究结论基本上是可靠的。

但时隔八个月，来自俄罗斯和韩国的八位研究人员也在Science上发表了一篇科技评论，他们认为DeepMind原始研究中存在问题，即训练集和测试集可能存在重叠部分，导致实验结论不正确。

论文链接：https://www.science.org/doi/epdf/10.1126/science.abq3385

MaxAI

MaxAI.me是一款功能强大的浏览器AI插件，集成了多种AI模型。

下载

如果质疑属实，那DeepMind这篇号称化学界重大技术突破的论文，神经网络取得的改进可能都得归功于数据泄露了。

不过DeepMind的反应也很迅速，在该评论发表的同一天，立刻写了一篇回复表示反对，并表示强烈谴责：他们提出的观点要么不正确，要么与论文的主要结论以及对DM21总体质量的评估无关。

论文链接：https://www.science.org/doi/epdf/10.1126/science.abq4282

著名物理学家费曼曾说过，科学家就是要尽快证明自己是错误的，唯有如此才能进步。

虽然这次讨论的结果还没有定论，俄罗斯团队也没有进一步发表反驳文章，但该事件对人工智能领域的研究可能会产生更深远的影响：即该如何证明自己训练得到的神经网络模型，真正理解了任务，而非只是记忆pattern？

研究问题

化学是21世纪的中心科学（确信），比如设计具有指定特性的新材料，如生产清洁电力或开发高温超导体，都需要在计算机上对电子进行模拟。

电子是控制原子如何结合形成分子的亚原子粒子，也负责固体中的电流流动，了解电子在分子内的位置可以大大有助于解释其结构、性质和反应性。

1926年，薛定谔提出薛定谔方程，能够正确地描述波函数的量子行为。但用该方程来预测分子中的电子则显得力不从心，因为所有的电子都相互排斥，需要跟踪每个电子位置的概率，即使对于少量电子来说也是一项非常复杂的任务。

1960 年代出现了一项重大突破，当时Pierre Hohenberg和Walter Kohn意识到没有必要单独跟踪每个电子。相反，知道任何电子在每个位置的概率（即电子密度）就足以准确计算所有相互作用。

在证明了上述理论后，Kohn获得诺贝尔化学奖，从而创立了密度泛函理论（density functional theory， DFT）

尽管 DFT 证明mapping存在，但50多年来，电子密度和相互作用能之间映射的确切性质，即所谓的密度泛函仍然未知，必须进行近似求解。

DFT本质上还是一种求解薛定谔方程的方法，其准确性取决于它的交换相关（exchange-correlation）部分。虽然DFT涉及一定程度的近似，但它是研究物质在微观层面如何以及为何以某种方式表达的唯一实用方法，因此已成为所有科学领域中使用最广泛的技术之一。

多年来，研究人员提出了400多种精确度不同的近似函数，但所有这些近似都存在系统误差，因为它们无法捕捉精确泛函的某些关键数学特性。

一说到学习近似函数，这不就是神经网络在干的事吗？

DeepMind在这篇论文里就是在分子数据和具有分数电荷和自旋的虚构系统上训练一个神经网络DM 21 (DeepMind 21)，成功学习到了一个没有系统错误的泛函，能够避免离域误差(delocalization error)和自旋对称性破缺（spin symmetry breaking），可以更好地描述广泛的化学反应类别。

从原理上来说，任何涉及电荷移动的化学物理过程都容易出现离域误差，任何涉及键断裂的过程都容易出现自旋对称性破缺。而电荷运动和键断裂是许多重要技术应用的核心，但这些问题也可能导致描述最简单分子（如氢）的官能团出现大量定性失败。

模型搭建采用的是多层感知器（MLP），输入为被占领的Kohn-Sham（KS）轨道的局部和非局部特征。

目标函数包含两个：一个是用于学习交换相关能本身的回归损失，另一个是确保函数导数在训练后可用于自洽场（self-consistent field, SCF）计算的梯度正则化项。

对于回归损失，研究人员用一个固定密度的数据集，代表了2235个反应的反应物和产物，通过最小二乘法目标，训练网络从这些密度映射到高准确度的反应能量，其中1161个训练反应代表了小型主族H-Kr分子的原子化、电离、电子亲和力和分子间结合能，1074个反应代表了H-Ar原子的关键FC和FS密度。

训练后得到的模型DM21能够在大型主族基准的所有反应上自洽地运行，产生更准确的分子密度。

真SOTA还是数据泄露？

DeepMind在训练DM21时，采用的数据是分数电荷系统，比如带有半个电子的氢原子。

为了证明DM21的优越性，研究人员在一组拉伸二聚体（stretched dimers）上，称为bond-breaking benchmark(BBB)组，进行测试。比如两个氢原子相距很远，总共有一个电子。

实验结果发现DM21泛函在BBB测试集上表现出出色的性能，超越了迄今为止所有测试的经典DFT泛函和DM21m（与 DM21 训练相同，但在训练集中没有分数电荷）。

然后DeepMind在论文中宣称：DM21已经了解分数电荷系统背后的物理原理。

但仔细观察就会发现BBB组中，所有二聚体都变得与训练组中的系统非常相似。实际上，由于电弱相互作用的局部性，原子相互作用仅在短距离处强，在此之外，两个原子的行为基本上就好像它们没有相互作用。

俄罗斯科学院泽林斯基有机化学研究所的研究组长Michael Medvedev解释说，在某些方面，神经网络就像人类一样，他们更喜欢因为错误的原因得到正确的答案。因此，训练神经网络并不难，但你很难证明它已经学习了物理定律，而非只是记住正确的答案。

因此，BBB 测试集不是一个合适的测试集：它不测试 DM21 对分数电子系统的理解，对此类系统的 DM21 处理的其他四个证据的彻底分析也没有得出决定性的结论：只有它在 SIE4x4 集上的良好精度可能是可靠的。

俄罗斯的研究者也认为，在训练集中使用分数电荷系统并不是DeepMind工作中唯一的新颖之处。他们通过训练集将物理约束引入神经网络的想法，以及通过对正确化学势的训练来赋予物理意义的方法，未来可能会广泛用于神经网络DFT 泛函的构建。

DeepMind回应

对于Comment论文声称的DM21对于训练集外预测分数电荷（FC）和分数自旋（FS）条件的能力在论文中没有得到证明，这是基于训练集与断键基准BBB有约50%的重叠，以及其他泛化例子的有效性和准确性得出的结论。

DeepMind不同意该分析，并认为所提出的观点要么不正确，要么与本文的主要结论和对DM21总体质量的评估不相关，因为BBB并不是论文中所展示的FC和FS行为的唯一例子。

训练集和测试集之间的overlap是机器学习中值得关注的一个研究问题：记忆意味着一个模型可以通过复制训练集中的例子在测试集上表现更好。

Gerasimov认为DM21在BBB上的表现（包含有限距离的二聚体）可以通过复制FC和FS系统的输出（即原子在无限分离极限时与二聚体匹配）得到很好的解释。

为了证明DM21的泛化超出了训练集，DeepMind研究人员还考虑H2+（阳离子二聚体）和H2（中性二聚体）的原型BBB例子，可以得出结论：确切的exchange-correlation函数是非局部的；随着距离的增加，返回一个常数记忆的值会导致BBB预测出现显著错误。

GPT‑5.4— OpenAI推出面向专业工作的旗舰AI模型

人工智能怎么构建智能客服机器人_人工智能基于Rasa搭建对话系统

怎么用ai生成图片_ai人工智能生成图片的操作方法【详解】

人工智能如何评估模型准确率_人工智能计算PrecisionRecall指标教程

人工智能怎么加载预训练BERT_人工智能调用BERT做文本分类教程

相关专题

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

117

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

350

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

109

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

243

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

684

2026.03.04