0

0

生成超10万bp的DNA序列,北理工邵斌团队生成式DNA大语言模型,登Nature子刊

碧海醫心

碧海醫心

发布时间:2024-11-18 16:56:53

|

721人浏览过

|

来源于机器之心

转载

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

生成超10万bp的dna序列,北理工邵斌团队生成式dna大语言模型,登nature子刊

作者 | 邵斌团队
编辑 | ScienceAI
2024 年 10 月 30 日,北京理工大学邵斌教授团队在《Nature Communications》杂志上发表了题为:《A long-context language model for deciphering and generating bacteriophage genomes》的最新研究成果,实现了首个生成式 DNA 大语言模型,megaDNA。
该模型利用无标注的噬菌体(感染细菌的病毒)基因组数据进行预训练,不仅能准确预测噬菌体的必需基因,更能够生成长达 10 万碱基对的崭新基因组片段,即像写作自然语言一样生成 DNA 序列。
另外,模型在学习过程中获得的嵌入层信息(embedding),还能应用于蛋白质功能预测、基因调控研究,以及无标注 DNA 片段分类等多个下游任务。

生成超10万bp的DNA序列,北理工邵斌团队生成式DNA大语言模型,登Nature子刊

文章链接:https://www.nature.com/articles/s41467-024-53759-4
背景介绍
什么是「生成式」语言模型?简单来说,就是以 GPT 为代表的语言模型。自 transformer 架构提出以来,发展出了语言模型的两个流派,一个是 BERT 模型,采用类似完形填空的方式来训练;一个是 GPT 模型,采用词语接龙的方式来进行训练。
可以想见,后者更接近普通人说话或者写作的过程,即逐字地构建句子和段落,因而它具备更强大的生成能力,也是目前大语言模型的主流架构。生成式任务一方面与人类语言和沟通的形式天然一致,因为遣词造句是交流的基础。另一方面,词语接龙本身是一类比较难的任务,能够完成这类任务的语言模型实际上已经很好地掌握了序列数据中所蕴含的信息和概念。
为什么要开发针对 DNA 序列的大语言模型?
我们知道人类的语言是一种序列信息,而生命的语言 DNA 也是一种序列信息。生成式大语言模型在人类语言处理和生成上取得了巨大的成功,成为我们阅读,学习和写作的有力助手。
我们就想能否把这套方法应用在生命的序列上,即在生命的语言 DNA 上训练大语言模型,从而帮助我们解读 DNA 编码的信息,设计出具有特定功能的 DNA 片段,甚至构建具有医疗或者工业应用价值的新型微生物。
倘若我们能像写作有意义的文字一样编写具有功能的 DNA 序列,像阅读论文一样从 DNA 编码中获取有价值的信息,那么这样的模型将具有巨大的学术和应用价值。
模型架构
训练基于 DNA 序列的语言模型既有优势,也有挑战。优势在于训练数据的规模。历史的经验表明,语言模型的训练效果高度依赖于训练数据的规模大小,数据越多,模型可以做的更大,训练的效果也会越好。
随着 DNA 测序技术的飞速发展,DNA 序列积累的速度非常快,比如一个完整人类基因组的测序成本已经从本世纪初的约一亿美元下降到现在的几百美元。而这些大规模数据还没有得到有效的应用,对机器学习来讲无疑是很大的一个「富矿」。
然而,训练这类 DNA 语言模型也存在困难,主要挑战是生成式语言模型难以应用于长序列,输入序列越长而显存消耗越大。而对于 DNA 序列,即使是简单的噬菌体(针对细菌的病毒)也往往长达几万个碱基对,传统的 transformer 模型难以对其进行处理。
从去年开始,语言模型的输入长度问题得到了极大关注,研究者提出了很多解决这一问题的技术。
我们借鉴了最新的长读长语言模型的研究结果,即目前在 Meta 工作的大语言模型专家 Yu Lili 博士提出的多层 Transformer 结构。
我们模型设计了三层的 Transformer 结构,用来处理不同精度的 DNA 信息,最终实现了大约 10 万个碱基对的输入长度,这个长度虽然小于人类基因组或者细菌基因组的长度,但已经足够覆盖噬菌体的基因组了。因此,我们使用完整的噬菌体基因组序列作为模型的输入来进行训练。并且,我们采集了大约 10 万个高质量噬菌体基因组序列,训练后得到 megaDNA 模型。

EasySub – AI字幕生成翻译工具
EasySub – AI字幕生成翻译工具

EasySub 是一款在线 AI 字幕生成器。 它提供AI语音识别、AI字幕生成、AI字幕翻译,本来就很简单的视频剪辑。

下载

生成超10万bp的DNA序列,北理工邵斌团队生成式DNA大语言模型,登Nature子刊

图示:模型概述。(来源:论文)
从头生成基因组DNA序列
以 GPT 为代表的生成式语言模型最重要的能力之一是产生全新的具有丰富内涵的文字序列。我们利用 megaDNA 模型生成了一千条崭新的基因组 DNA 序列,并利用软件 geNomad 对序列进行系统评估。
这些人工生成的基因组序列平均长度为 4.3 万碱基对,包含 67 个预测基因,这些特征与训练数据中的真实噬菌体基因组高度相似。其中 22% 的序列被识别为有尾噬菌体目(Caudoviricetes)。
在表达调控方面,这些序列具有完整的可能发挥功能的基因表达系统,包括典型的细菌启动子序列(-35 和-10 区),其 5 端非翻译序列的转录活性显著高于随机 DNA。同时在起始密码子 ATG 前具有富含 A 和 G 碱基的核糖体结合位点(RBS)。通过 EMSFold 进行结构预测,结果显示这些预测的基因能够形成有效的蛋白质折叠结构。
在功能方面,预测基因编码了噬菌体所需的关键功能蛋白,涵盖尾部结构、DNA 代谢、头部组装以及细胞裂解等功能。值得一提的是,这些生成的基因组序列以及预测基因跟已有的训练数据具有极低的序列相似性。
必需基因的无监督预测
megaDNA 模型的另外一个应用是之前模型或者生物信息学软件很难实现的,就是必需基因的预测。必需基因的含义在于如果这些基因丧失了功能,噬菌体就不能完成完整的复制的过程。
实验上确定必需基因十分繁琐而耗时,通常需要对每个基因进行敲除实验来观察噬菌体能否正常复制。而我们的模型能够在不经过任何调整和额外训练的情况下,对必需基因进行计算预测。
我们在 lambda 噬菌体这种大家广泛研究的模式生物上做了验证,针对基因组序列进行了基因敲除的模拟实验,对基因组不同位置片段进行突变,利用语言模型计算序列损失,并与实际的 CRISPR 基因敲除实验结果进行直接比对。
计算发现模型预测的高突变损失区域与实验验证的必需基因高度重合,相应的预测准确度(AUROC)达到 0.86。
进一步思考,我们的模型可以在几万个噬菌体基因组上得到应用,极大提升找寻对应必需基因的效率。
结论
综上,该研究展示了生成式语言模型在基因组序列分析和生成上的巨大潜力,为噬菌体基因组注释和功能序列设计开辟了全新的路径。
虽然目前生成的基因组片段还未能实现噬菌体的完整生命功能(如有效自我复制)。但该研究及后续工作为从头设计以噬菌体为代表的完整生物体基因组奠定了新的计算基础,有望在医疗、农业、食品安全等多个领域取得广泛应用。
北京理工大学准聘教授邵斌(前 Broad Institute 计算科学家)为文章的第一作者兼通讯作者。上海独立研究者闫嘉伟博士为该工作提供了重要支持。
代码:https://github.com/lingxusb/megaDNA

相关专题

更多
lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

204

2023.09.15

python lambda函数
python lambda函数

本专题整合了python lambda函数用法详解,阅读专题下面的文章了解更多详细内容。

190

2025.11.08

Python lambda详解
Python lambda详解

本专题整合了Python lambda函数相关教程,阅读下面的文章了解更多详细内容。

47

2026.01.05

http与https有哪些区别
http与https有哪些区别

http与https的区别:1、协议安全性;2、连接方式;3、证书管理;4、连接状态;5、端口号;6、资源消耗;7、兼容性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1984

2024.08.16

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

43

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

84

2026.01.16

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

24

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

35

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

16

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.8万人学习

Django 教程
Django 教程

共28课时 | 3.2万人学习

MySQL 教程
MySQL 教程

共48课时 | 1.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号