解决问题
蛋白模拟
小小编程
机器学习
要看文献
成长思考
自娱自乐
化学分子指纹
type
status
date
slug
summary
tags
category
icon
password
“AI 不会取代药物化学家,但使用 AI 的药物化学家会取代那些不使用 AI 的药物化学家”。
指纹(或描述符)是将化学分子转换为一致形式的数字或位串表示的强大工具。
指纹算法可简单快速地将化学结构或性质转换为高度压缩的表示形式,从而有效加快计算机筛选过程。化学表示的选择直接影响计算高通量筛选 (HTS) 方法的准确性和应用范围。

指纹的类型
1.基于字典的(结构键)指纹
基于字典的分子指纹是通过将分子结构与预定义的字典进行比对来生成的。字典中包含了各种预先确定的官能团、子结构基序、片段等特征。对于给定的分子,若其存在字典中的某种特征,则在对应的指纹向量位置设为 1,若不存在则设为 0,最终形成一个由 0 和 1 组成的二进制向量来表示该分子的特征。


常见类型
(1)PubChem (PubChemFP)
该指纹具有881个子结构,由 PubChem 数据库开发,基于分子中是否存在预定义的子结构进行编码,使用一组标准的子结构集合,常用于分子相似性计算和 QSAR 建模。
(2)MACCS(MACCSFP)
MACCS采用SMARTS编码的子结构,根据子结构种类数量不同有两个变种:一种是166,另一种是960。 较短的是最常用的,因为它的长度相对较小(仅166位),但涵盖了药物发现和虚拟筛选时的大多数感兴趣的化学特征。大部分软件中的MACCS指纹用的是短版本,而较长的960版本则很少见,大部分软件包不能计算。
(3)Mini FingerPrint (MFP)
(4)Barnard Chemistry Information(BCI)指纹
同样是基于预定义的结构特征集合来生成分子指纹,在化学信息学的相关研究和应用中也有一定的使用。
(5)SMILES FingerPrint(SMIFP):
通过对 SMILES 字符串进行处理和分析,提取其中的特征信息来生成指纹,能够从 SMILES 表示的分子结构中快速提取特征,用于分子的比较和分析。
2.圆形分子指纹 Circular fingerprints
圆形指纹也是一种哈希的拓扑指纹,但它们与基于路径的指纹不同之处在于:不是在分子中寻找路径,而是记录每个从原子出发直到指定半径内的环境。
![Circular Fingerprint示意图[9]:以一个重原子为中心,搜寻在特定半径范围(有的实现用直径)内的结构特征,比如力场的原子类型,官能团,片段等等各种信息](attachment:d597951c-671b-415d-b7b8-6b7b361ac393:image.png?t=1b72283d-6dad-8070-ad71-ea26cfb98326)
- Molprint2D
MolPrint2D是由Bender等(2004)开发,常用于QSAR研究与比较分子的相似性。OpenBabel与jCompoundMapper提供了MolPrint2D指纹生成方法。
- ECFP
从Morgan算法衍生出来的扩展连接指纹(Extended-Connectivity Fingerprints,ECFP)已经成为事实上圆形分子指纹的行业标准方法,专门设计用于构效关系研究。 ECFP指纹在使用的时候,根据设定的直径不同会产生可变长度的指纹。最常用的是直径为4的ECFP4,还有直径为6的ECFP6,一些基准测试显示两者之间的性能差异很小。 此外,还有一些变体比如ECFC还记录了ECFP特征的频率计数,而不仅只是是否出现。多种软件都提供了ECFP或Morgan算法,比如Pipe-line Pilot, Chemaxon的JChem, CDK和RDKit。注意,在RDkit中称为Morgan Fingerprint,路径长度用半径表示而不是直径,因此在RDkit的半径2相当与ECFP的直径4指纹。根据Gregory Landrum的测试,Morgan指纹与ECFP在相似性比较上没有显著差异。
根据Rogers与Hahn的研究,一般来说,直径小的ECFP4足够适合于相似性搜索与分子聚类;而直径更大的ECFP得益于其包含更多的分子结构细节,因此适合于机器学习进行活性预测等,但限于计算量,通常用ECFP6与ECFP8。
- FCFP(Functional-Class Fingerprints)
FCFP是ECFP的一种变体,它进一步被抽象:它不是索引环境中的特定原子,而是索引该原子的作用。因此,具有相同或相似功能的不同原子或基团在该指纹里是没有区别的,这使它们可以作为一种药效团指纹。还有其它的FCFC变体,类似于ECFC对ECFP的变化。支持ECFP指纹的主要软件包基本也支持FCFP。
3.拓扑(基于路径)指纹 Topological (path-based) fingerprints
基于拓扑或路径的指纹通过分析从一个原子开始直至到达指定数量键的路径(通常为线性)上所有的分子片段,然后对每一个路径中的进行哈希(Hasing)产生指纹。此类指纹适用于任意一个分子,并可以调整其长度,可以用于快速的子结构搜索与分子过滤。哈希的指纹意味从比特位出发无法追踪到结构特征。同样的比特位可以对映不同的结构特征,称为“比特位冲突”(bit collision)。Daylight指纹(Daylight fingerprint)[7]是此类型指纹中最突出的代表。它们由多达2048的比特位组成,编码了分子达到给定长度的所有可能的连接途径。大多数软件可实现此类指纹,有的软件可以达到更高的位数或使用非线性连接路径,例如OpenEye的Tree指纹(Tree fingerprint)。

化学拓扑性质来源于化学图,数学上表示为,其中,是节点(原子)集合,为边(化学键)集合。2D分子结构通常基于其拓扑性质表示,例如2D连接表,它是MOL和SDF的化合物格式的基本单元

常见的拓扑指纹类型有:(1) atom pairs (APs), (2) topological torsion (TT), (3) Daylight fingerprints.
4.药效团指纹图 Pharmacophore fingerprint
- 首先对分子中的药效团特征进行识别和定义,常见的药效团特征包括氢键供体、氢键受体、疏水基团、芳香环、正电中心、负电中心等。
- 确定药效团特征之间的空间关系或拓扑距离,以特定的算法或规则对这些药效团特征及其相互关系进行编码,将分子的药效团信息转化为一种数字或二进制形式的向量,最后以图形的方式展示出来。如以不同的颜色、形状或符号表示不同类型的药效团特征,用线条或距离表示它们之间的关系。比如SYBYL软件包中的Tuplet就可以编码分子的3D药效团。

5.蛋白质-配体相互作用指纹图
用于通过分析和提取受体和配体之间的结合模式或物理化学特征来表示分子内相互作用。这种指纹图谱可以使用有关分子对接或基于结构的实验数据的信息,将 3D 蛋白质-配体相互作用转换为 1D 位串,随后用于比较蛋白质-配体相互作用的特异性。
常见的蛋白质-配体相互作用指纹类型有:(1) structural interaction fingerprints (SIFts), (2) structural protein–ligand interaction fingerprints (SPLIFs), (3) protein–ligand extended connectivity (PLEC) fingerprints.
6.基于形状的指纹
基于形状的分子指纹(Shape-based fingerprints),对于根据参考配体,进行基于形状和构象相似性的小分子虚拟筛选而言,是一种非常有效的特征。
常见的基于形状的分子指纹有:(1) rapid overlay of chemical structures (ROCS), (2) ultrafast shape recognition (USR).
7.强化分子指纹
提到的经典类型的指纹具有独特的算法、功能和应用,可以根据化学信息学的进步进行修改,从而产生所谓的“增强指纹”。
8.多种分子指纹
不同类型的描述符的组合将捕获化合物的多个特征,这可能会提高某些算法或模型中活性预测的性能。这种同时组合多个指纹描述符的方法称为多指纹。
- UNITY 2D
UNITY 2D是SYBYL软件包UNITY模块使用的一种指纹图谱,它组合了基于子结构与连接路径片段两种方法,长度为988比特位。
- MP-MFP
Ling Xue等人设计开发的MP-MFP指纹包含了171比特位,其中110比特位编码化学子结构,61位编码了性质描述符。

应用
(1) 虚拟筛选;
(2) 化学空间的多样性评估;
(3) 作为判别模型的特征;
(4) 用于计算上的分子从头设计;
(5) 合成可及性和反应预测(从反应物的分子指纹出发,应用神经网络进行反映预测);

(6) 骨架跳跃(scaffold hopping);
(7) 代谢产物识别;
(8) 毒性预测。
基于指纹图谱虚拟筛选的软件
- OEChem TK/OpenEye
OpenEye的OEChem TK可以生成166位的MACCS,LINGO,Circular,Path(与Daylight类似)和Tree(与Dayligth类似的非线性、“树”片段)指纹,提供了C ++,Java,Python和C#接口。
- JChem/ChemAxon
支持ECFP及其全部的变种ECFC, FCFP,FCFC以及药效团指纹图谱。
- Open Babel
开源软件,支持MOLPRINT2D、166-bit MACCS、 Daylight样指纹FP2、FP3,提供了C++, Python、Perl、Ruby与Java等接口。
- RDKit
也是一款免费、开源的化学信息学工具包,支持多种指纹:MACCS(166-Bit)、与Daylight类似拓扑指纹、Atom Pairs( 分子中每个原子对基于原子环境和最短路径分离),Morgan指纹,Torsion指纹(基于拓扑两面角描述符)和Layered指纹。RDKit提供了C++,Python,Java以及C#等API。
- CDK
支持ECFP, Estate, LINGO,MACCS, Daylight类似指纹图谱。
- Indigo
免费的开源化学信息学工具包,包含了几个哈希指纹及其组合,提供了C ++、Java、Python和C#等开发接口。
- Cinfony
整合了Open Babel, RDKit, CDK, JChem与Indigo的全部功能。
- ChemFP
用Open Babel, RDKit与OEChem做为后端进行计算。
- Canvas/Schrodinger
MACCS,MOLPRINT2D, ECFP与线性路径指纹。
- MOE
TGD, TGT,MACCS, 2D与3D的四点药效团指纹,EigenSpectrum形状指纹。
- jCompoundMapper
这是一款开源命令行软件,使用CDK支持多种指纹,包括MOLPRINT2D,原子对和药效团指纹等。 此外,它还提供了几种机器学习工具。
- Pipeline Pilot
Pipeline Pilot本身是一款具有数据流工具,它可以计算各种指纹,包括MACCS、ECFP及其变体。
- SYBYL-X
SYBYL-X采用其自己的UNITY 2D指纹进行数据库搜索。
- FLAP
FLAP是MolDiscovery开发是一种虚拟筛选软件,FLAP的指纹编码了分子的四点药效团特征信息,可用于配体-配体、配体-受体和受体-受体的比较。
- MayaChemTools
MayaChemTools是用Perl写的程序,可以计算多种分子指纹,包括ECFP,MACCS,基于路径的指纹等等; 它也可以直接用于指纹的相似性搜索。
Loading...
Last update: 2025-03-15
🎉终于搭建完成🎉
-- 感谢您的支持 ---
👏欢迎阅读👏