CML是基于XML的化学标记语言,由Peter Murray-Rust等人开发,用于机器可读地表示分子结构、反应和光谱等化学信息;它通过、、等标签定义化学实体,如水分子可用原子坐标和键连接关系精确描述;相比SMILES,CML在复杂数据交换、数据库存储和软件兼容方面具有优势,被广泛应用于化学信息学领域。

XML(可扩展标记语言)是一种用于定义文档结构的文本格式,它通过标签来组织数据,具有良好的可读性和跨平台兼容性。在科学领域,特别是化学中,利用XML的结构化特性可以精确描述分子、反应和实验数据。
CML是什么?
化学标记语言(Chemical Markup Language, CML) 是基于XML的一种专门用于表示化学信息的标准。它由Peter Murray-Rust等人开发,旨在以机器可读的方式存储和交换化学数据。CML能描述分子结构、光谱、晶体结构、反应过程等复杂内容。
CML使用一系列预定义的标签和属性来表示化学概念,例如
如何用CML表示分子?
一个分子在CML中通常包含原子列表和键连接关系,通过坐标或连接表形式表达其结构。
基本结构如下:
-
:定义一个分子,赋予唯一标识 -
:包含所有原子的信息,每个 可指定元素符号、坐标等 -
:定义原子之间的化学键,用原子ID和键级(单键、双键等)表示
示例:水分子(H₂O)的CML表示
这个例子中,氧原子位于原点,两个氢原子与其形成单键,构成典型的水分子几何结构。
CML的优势与应用
CML支持多种化学数据类型的表达,适用于数据库存储、文献发布、软件间数据交换。它的结构化特点便于程序解析,也利于搜索引擎索引化学内容。
现代化学软件如JChemPaint、Avogadro、Open Babel都支持CML格式读写。科研论文中的补充材料也常使用CML提供可机读的分子数据。
基本上就这些。CML把化学信息从图像或文本中解放出来,让计算机真正“理解”分子结构。虽然现在SMILES字符串更流行于简单表示,但CML在复杂场景下仍不可替代。










