原子、分子、复合物级性质预测均最佳，清华分子预训练框架登Nature子刊

WBOY

发布时间：2024-09-21 08:14:02

1048人浏览过

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

原子、分子、复合物级性质预测均最佳，清华分子预训练框架登nature子刊

编辑 | KX

AI 已广泛用于药物发现和材料设计中的分子筛选。当前的自监督分子预训练方法往往忽略了分子的基本化学特性和物理原理。

为了解决这个问题，来自清华大学的研究人员提出了一种称为分数去噪（Fractional denoising，Frad）的分子预训练框架，以学习有效的分子表示。通过这种方式，噪声变得可自定义，允许纳入化学先验，从而大大改善分子分布建模。

实验表明，Frad 始终优于现有方法，在力预测、量子化学特性和结合亲和力任务中，取得最先进的结果。改进的噪声设计提高了力准确性和采样覆盖范围，这有助于创建物理一致的分子表示，最终实现卓越的预测性能。

相关研究以「Pre-training with fractional denoising to enhance molecular property prediction」为题，于 9 月 18 日发布在《Nature Machine Intelligence》上。

原子、分子、复合物级性质预测均最佳，清华分子预训练框架登Nature子刊

论文链接：https://www.nature.com/articles/s42256-024-00900-z

AI 用于分子性质预测的挑战

分子性质预测是药物发现和材料设计等各个领域的一项关键任务。传统方法，包括第一性原理计算和湿实验室实验，需要巨大的成本，从而阻碍了具有所需特性的分子的高通量筛选。科学家认为深度学习方法可以降低成本和大幅加速筛选过程。

深度学习分子性质预测方法面临的主要困难是标记分子数据的稀缺性。为了缓解这一困难，已经提出了各种自监督分子预训练方法来利用未标记分子数据中的内在信息。

不幸的是，直接借用计算机视觉和自然语言处理中流行的预训练任务可能不适合分子，因为它们忽略了分子的基本物理原理。

相比之下，在预训练中应用去噪可以解释为等效的力学习，但有限的噪声分布会给分子分布带来偏差。这里的挑战在于有效地模拟全面的分子分布，同时保留力学习的基本物理解释。

Frad：分数去噪的分子预训练框架

鉴于模拟真实分子分布的难度，清华团队选择通过将有关分子分布的化学先验引入噪声设计来更全面地表征分布，由于噪声分布的限制，这在以前的方法中是被禁止的。

因此，研究人员提出了一种称为分数去噪（Frad）的分子预训练框架，证明其具有力学习解释。

具体而言，给定一个平衡分子构象，添加化学感知噪声（CAN）和坐标高斯噪声（CGN）的混合噪声并获得噪声构象。训练模型以从噪声构象中预测 CGN。「分数」（fractional）是指恢复引入的全部噪声的一小部分。特别是，CAN 是可定制的，使 Frad 能够结合化学先验来优化分子分布建模。

受描述分子构象变化的化学先验的启发，研究人员提出了两个版本的 CAN。具体来说，旋转噪声（RN）被用来捕捉单键的旋转，而振动和旋转噪声（VRN）被用来反映各向异性的振动。

Frad 框架的整个流程如下图所示。给定一个平衡分子构象 xeq，添加 CAN 和 CGN 的混合，其中平衡构象是指分子势能面局部最小值处的结构。

然后，训练模型从噪声构象（即 Frad）中预测 CGN，因为它恢复了一部分引入的噪声。具体来说，利用等变图神经网络 (GNN) 从噪声构象中提取特征，然后噪声预测头根据这些特征预测 CGN。

研究使用 TorchMD-NET 作为骨干模型，从 3D 分子输入中获得等变特征。具体来说，理论分析表明，无论 CAN 分布如何，该任务都具有力学习解释，而 CAN 分布会影响力目标和采样分布。因此，精心设计 CAN 以与真实的分子构象分布保持一致，与现有的去噪方法相比，可以实现更精确的力目标和更广泛的采样分布。

在微调过程中，研究人员从预训练权重初始化等变 GNN，随后为每个单独的下游任务量身定制不同的属性预测头。预训练的 GNN 权重以及预测头中的参数在下游标签的监督下继续更新。

原子、分子、复合物级性质预测均最佳，清华分子预训练框架登Nature子刊

图示：Frad 框架概述。（来源：论文）

AIBox 一站式AI创作平台

AIBox365一站式AI创作平台，支持ChatGPT、GPT4、Claue3、Gemini、Midjourney等国内外大模型

下载

Frad 提升了性质预测性能

为了评估 Frad 在预测分子性质方面的有效性，进行了一系列具有挑战性的下游任务，包括原子级力预测、分子级量子化学性质预测和蛋白质-配体复合物级结合亲和力预测。

Frad 模型与已建立的基线进行了系统比较，包括预训练方法以及未经预训练的性质预测模型。

原子级力预测

首先，评估了 Frad 在各种分子动力学数据集（即 MD17、ISO17 和 MD22）中预测力的表现。

Frad 在八种分子中的七种上的表现都优于基线。特别是与 Frad 方法具有相同主干的去噪预训练方法，即 3D-EMGP 和 Coord 相比，Frad 的优越性显而易见。这凸显了在去噪中引入化学先验以准确模拟分子分布的必要性。在训练集的大小有限的情况下，Frad 预训练始终能大幅度增强主干模型 TorchMD-NET，表明 Frad 有效地学习了分子的内在原理并具有出色的泛化能力。

对于大训练集设置中的苯，在 Frad 的微调过程中出现了过拟合现象，而这在其他分子中并没有观察到。这可能是由于苯的结构相对固定，导致低维特征容易出现过拟合。

ISO17 和 MD22 上的结果如表 1 所示。骨干模型 TorchMD-NET 的性能通过 Frad 预训练不断提高。

原子、分子、复合物级性质预测均最佳，清华分子预训练框架登Nature子刊

分子级量子化学性质预测

为了验证 Frad 是否能在不同性质上取得有竞争力的结果，研究人员在 QM9 数据集中的 12 个任务上评估了 Frad(RN) 和 Frad(VRN)。表 2 总结了 Frad 的结果以及预训练和监督基线。

原子、分子、复合物级性质预测均最佳，清华分子预训练框架登Nature子刊

总体而言，Frad 超越了监督和预训练方法，并在 12 个目标中的 9 个目标上取得了最先进的结果。此外，在 11 个目标上基于骨干模型 TorchMD-NET 取得了显著的改进，表明 Frad 预训练学到的知识对大多数下游任务都有帮助。

此外，在表格下半部分明显优于去噪预训练方法。特别是，Frad 在所有 12 个任务中都达到或超过了使用相同骨干 TorchMD-NET 的 Coord 方法的结果，表明引入的分布化学先验有助于多类性质。还注意到 VRN 和 VN 的性能相当。以此推测，对于 QM9 数据集中对输入构象不太敏感的任务（与力预测任务相比），各向异性振动噪声的建模可能并不重要。

复合物结合亲和力预测

蛋白质-配体结合亲和力 (LBA) 预测旨在预测蛋白质和配体之间的相互作用强度。研究人员在 ATOM3D 数据集中评估了 Frad 在 LBA 任务上的表现。

在 ATOM3D 预处理之后，Frad 从蛋白质中提取结合口袋，并利用口袋-配体复合物结构作为输入来预测结合亲和力值。结果显示在表 3 中。

原子、分子、复合物级性质预测均最佳，清华分子预训练框架登Nature子刊

Frad 击败了针对蛋白质表示量身定制的基于序列和基于结构的基线，表明 Frad 是一种适用于小分子和蛋白质的通用表示学习方法。预训练基线 SE(3)-DDM 不评估训练集和测试集之间涉及 60% 蛋白质序列同一性的分割设置，是一种等变 Coord 方法，可对成对原子距离上的高斯噪声进行去噪。同样，Frad 超越了传统的去噪方法，再次表明了引入化学先验的重要性。

未来工作

未来研究的几个探索方向如下：

首先，增加预训练数据量有可能显著提高整体性能。由于获得精确的分子构象成本高昂，目前使用的预训练数据集仍然比二维和一维分子数据集小得多。将来会有更多 3D 分子数据可用。
其次，目前的重点是使用 3D 输入进行属性预测。通过与其他预训练方法相结合，可以生成一个能够跨数据模态处理分子任务的模型。
最后，如何为典型的分子类别设计 CAN 值得研究，例如核酸、蛋白质和材料，以便 Frad 可以有效地应用于更广泛的领域，并加快药物和材料的发现。

通过这些改进，Frad 有可能成为适用于各种分子任务的强大分子基础模型。从而催化药物发现和材料科学等领域的突破。

如何写出具有深度见解的毕业论文综述利用Claude梳理领域研究演进历程

JoyAI-LLM-Flash— 京东开源的混合专家架构大模型

千问AI怎么写读书笔记_通义千问书籍精华总结与心得生成方法【经验】

Clawdbot在音乐理论中的应用：分析和弦进行与生成旋律动机

DeepSeek开源社区和资源汇总，从入门到精通

相关专题

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2918

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

177

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

102

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

530

2026.03.04

热门下载

网站特效

网站源码

网站素材

前端模板