0

0

医药探索中的人工智能

PHPz

PHPz

发布时间:2023-04-12 10:04:02

|

1745人浏览过

|

来源于51CTO.COM

转载

译者 | 崔皓

审校 | 孙淑娟

开篇

本文探讨了TypeDB帮助科学家们实现医学上的下一个突破,并且会通过指导性的代码例子和视觉效果展示结果。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

医药探索中的人工智能

生物技术领域存在大量的炒作都集中于革命性药物发现上。毕竟,过去十年是该领域的黄金时代。与之前的十年相比,2012年到2021年这段时间批准的新药增加了73%--比之前的十年增加了25%。这些药物包括治疗癌症的免疫疗法、基因疗法,当然还有科威德疫苗。从这些方面可以看出制药业做得很好。

但其呈现的趋势也越来越令人担忧。药物发现的成本和风险正变得令人望而却步。截至到当前,新药推向市场的平均费用在10亿至30亿美元,平均时间在12至18年。同时,一种新药的平均价格已经从2007年的2千美元飙升到2021年的18万美元。

这就是为什么许多人把希望寄托在人工智能(AI)(如统计机器学习)上,以帮助加速新药的开发,从早期目标识别到试验。虽然已经利用各种机器学习算法确定了一些化合物,但这些化合物仍处于早期发现或临床前的开发阶段。人工智能彻底改变药物发现的承诺仍然是令人兴奋但尚未实现的承诺。

什么是人工智能?

为了实现这一承诺,理解人工智能的真正含义就显得至关重要了。近年来,人工智能这个词已经成为相当热门的词汇,没有多少技术含量。那么,什么才是真正的人工智能?

人工智能,作为一个学术领域,从20世纪50年代起就已经存在了,随着时间的推移,分支成各种类型,代表不同的学习方式。佩德罗-多明戈斯教授在《算法大师》一书中对这些类型进行了描述(他称它们为 "部落"):连接主义者、符号主义者、进化主义者、贝叶斯主义者和模拟主义者。

在过去的十年里,贝叶斯主义者和连接主义者受到了公众的广泛关注,而符号主义者则不同。符号学派在进行逻辑推理的规则集的基础上,创造出真实的世界表征。符号人工智能系统没有其他类型的人工智能所享有的巨大宣传,但它们拥有其他类型所缺乏的独特而重要的能力:自动推理和知识表示。

对生物医学知识的表现

事实上,知识表现的问题正是药物发现中最大的问题之一。现有的数据库软件,如关系数据库或图形数据库,很难准确地表示和理解生物学错综复杂的问题。

药物探索所表述的问题很好地说明了要为不同的生物医学数据源(如Uniprot或Disgenet)建立统一的模型。在数据库层面,这意味着创建数据模型(有些人可能把这些称为本体),描述无数复杂的实体和关系,如蛋白质、基因、药物、疾病、相互作用等之间的关系。

这就是TypeDB,一个开源的数据库软件,旨在实现的目标--使开发者能够创建高度复杂领域的真实表现,计算机可以利用它来获得洞察力。

TypeDB的类型系统是基于实体关系的概念,代表了TypeDB中存储的数据。这使得它足以捕捉复杂的生物医学领域知识(通过类型推理、嵌套关系、超关系、规则推理等),使科学家获得洞察力并加速药物开发时间。

一家大型制药公司的例子说明了这一点,该公司使用语义网标准为一个疾病网络建模奋斗了五年多,但在迁移到TypeDB之后,仅用三周时间就成功实现了这一目标。

例如,一个用TypeQL(TypeDB的查询语言)编写的、描述蛋白质、基因和疾病的生物医学模型看起来如下:

define 

protein sub entity, 
owns uniprot-id,
plays protein-disease-association:protein,
plays encode:encoded-protein; 

gene sub entity, 
owns entrez-id,
plays gene-disease-association:gene,
plays encode:encoding-gene; 

disease sub entity, 
owns disease-name, 
plays gene-disease-association:disease,
plays protein-disease-association:disease;

encode sub relation,
relates encoded-protein,
relates encoding-gene;

protein-disease-association sub relation,
relates protein,
relates disease;

gene-disease-association sub relation,
relates gene,
relates disease; 

uniprot-id sub attribute, value string;
entrez-id sub attribute, value string;
disease-name sub attribute, value string;

关于一个完整的工作实例,可以在Github上找到一个开源的生物医学知识图。这是从各种著名的生物医学资源加载数据,如Uniprot、Disgenet、Reactome和其他。

有了存储在TypeDB中的数据,你可以运行查询,问一些问题,如:哪些药物会与SARS病毒有关的基因相互作用?

为了回答这个问题,我们可以使用TypeQL中的以下查询。

match 
$virus isa virus, has virus-name "SARS"; 
$gene isa gene; 
$drug isa drug; 
($virus, $gene) isa gene-virus-association; 
($gene, $drug) isa drug-gene-interaction;

运行这个将使TypeDB返回符合查询条件的数据。并可以在TypeDB Studio中可视化,如下所示,这将有助于了解哪些相关药物可能值得进一步调查。

通过自动推理,TypeDB也可以推断出数据库中不存在的知识。这是通过编写规则来完成的,这些规则构成了TypeDB中模式的一部分。例如,一个规则可以推断出一个基因和一种疾病之间的关联,如果该基因编码的蛋白质与该疾病有关。这样的规则将被写成:

Typeface
Typeface

AI创意内容创作助手

下载
rule inference-example:
when {
(encoding-gene: $gene, encoded-protein: $protein) isa encode;
(protein: $protein, disease: $disease) isa protein-disease-association;
} then {
(gene: $gene, disease: $disease) isa gene-disease-association;
};

然后,如果我们要插入以下数据:

TypeDB将能够推断出基因和疾病之间的联系,即使没有插入到数据库中。在这种情况下,以下关系基因-疾病-关联将被推断出来。

match
$gene isa gene, has gene-id "2";
$disease isa disease, has disease-name $dn; ;
(gene: $gene, disease:$disease) isa gene-disease-assocation;

通过机器学习加速目标探索

有了TypeDB对生物医学数据(符号)进行表示,再加上机器学习的上下文知识就可以让整个系统变得更加强大,从而增强洞察力。例如,可以通过药物探索管道发现有希望的目标。

寻找有希望的目标的方法是使用链接预测算法。TypeDB的规则引擎允许这样的ML模型执行,该模型通过推理推断对事实进行学习。这意味着从对平面的、无背景的数据学习转向对推理的、有背景的知识学习。其中一个好处是,根据领域的逻辑规则,预测可以被概括到训练数据的范围之外,并减少所需的训练数据量。

这样一个药物发现的工作流程如下:

1. 查询TypeDB,创建上下文知识的子图,利用TypeDB的全部表达能力。

2. 将子图转化为嵌入(embedding),并将这些嵌入到图学习算法中。

3. 预测结果(例如,作为基因-疾病关联之间的概率分数)可以被插入TypeDB,并用于验证/优先考虑某些目标。

有了数据库中的这些预测,我们可以提出更高层次的问题,利用这些预测与数据库中更广泛的背景知识。比如说:什么是最有可能成为黑色素瘤的基因目标,这些基因编码的蛋白质在黑色素细胞中如何表达?

用TypeQL写,这个问题看起来如下:

match 
$gene isa gene, has gene-id $gene-id;
$protein isa protein; 
$cell isa cell, has cell-type "melanocytes";
$disease isa disease, has disease-name "melanoma";
($gene, $protein) isa encode; 
($protein, $cell) isa expression; 
($gene, $disease) isa gene-disease-association, has prob $p; 
get $gene-id; sort desc $p;

这个查询的结果将是一个按概率分数排序的基因列表(如图学习者预测的):

{$gid "TOPGENE" isa gene-id;}
{$gid "BESTGENE" isa gene-id;}
{$gid "OTHERTARGET" isa gene-id;}
...

然后,我们可以进一步研究这些基因,例如通过了解每个基因的生物学背景。比方说,我们想知道TOPGENE基因编码的蛋白质所处的组织。我们可以写下面的查询。

match 
$gene isa gene, has gene-id $gene-id; $gene-id "TOPGENE"; 
$protein isa protein;
$tissue isa tissue, has name $name;
$rel1 ($gene, $protein);
$rel2 ($protein, $tissue);

在TypeDB Studio中可视化的结果,可以显示这个基因编码的蛋白质在结肠、心脏和肝脏中的表达:

医药探索中的人工智能

结论

世界迫切需要创造治疗破坏性疾病的解决方案,希望通过人工智能的创新建立一个更健康的世界,在这个世界中每种疾病都可以被治疗。人工智能作用于药物探索仍处于起步阶段,但是如果一旦实现将会让生物学释放出新的创新浪潮,并使21世纪真正成为属于它的纪元。

在这篇文章中,我们看了TypeDB是如何实现生物医学知识的符号化表示,以及如何改善ML来为药物探索做出贡献的。在药物探索中应用人工智能的科学家们使用TypeDB来分析疾病网络,更好地理解生物医学研究的复杂性,并发现新的和突破性的治疗方式。

译者介绍

崔皓,51CTO社区编辑,资深架构师,拥有18年的软件开发和架构经验,10年分布式架构经验。

原文标题:Artificial Intelligence in Drug Discovery,作者:Tomás Sabat

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

76

2026.03.13

Python异步编程与Asyncio高并发应用实践
Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开,深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例,帮助开发者掌握 Python 在高并发场景中的高效开发方法,并提升系统资源利用率与整体运行性能。

117

2026.03.12

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

350

2026.03.11

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

63

2026.03.10

Kotlin Android模块化架构与组件化开发实践
Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开,重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析,帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系,提升团队协作效率与项目迭代速度。

109

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

108

2026.03.06

Rust内存安全机制与所有权模型深度实践
Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开,深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例,分析内存安全保障原理与零成本抽象优势,并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学,掌握在高性能与安全性并重场景中的工程实践能力。

243

2026.03.05

PHP高性能API设计与Laravel服务架构实践
PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开,重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景,深入分析性能瓶颈定位与优化思路,帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

684

2026.03.04

AI安装教程大全
AI安装教程大全

2026最全AI工具安装教程专题:包含各版本AI绘图、AI视频、智能办公软件的本地化部署手册。全篇零基础友好,附带最新模型下载地址、一键安装脚本及常见报错修复方案。每日更新,收藏这一篇就够了,让AI安装不再报错!

179

2026.03.04

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
光速学会docker容器
光速学会docker容器

共33课时 | 2.1万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号