首页 理论教育 化学相似性系综法预测蛋白

化学相似性系综法预测蛋白

时间:2022-02-14 理论教育 版权反馈
【摘要】:在科研及工业领域的药物靶标研究中,配体相似性的预测方法成为初筛过程中必不可少的辅助工具,常用于大规模快速寻找和发现新的药物作用靶点及药物先导化合物。化学相似性系综法,就是在这时产生的。二维的分子指纹和相似性系数用于计算和比较两个配体化合物(药物)的相似性。后来,继续挖掘应用价值,SEA方法延伸到预测已知药物的多靶点问题。这些蛋白配体相互作用关系,共包含53092个配体小分子和14732个人类蛋白。

药物靶标关系的确定是现代药物研发中至关重要的一步,用计算方法建立模型,对于节约早期研究成本、锁定研究目标、减少盲目性、增加针对性的药物研发具有重要意义。在药物靶标相互关系的预测方法中,基于配体(指药物、小分子化合物、离子等)化学相似性的预测方法可谓是最古老的一种方法。这种方法是利用配体相似性,整理靶标蛋白之间的药理学特征和关联性,它的基础假设是具有化学相似性的配体,也具有相似的生物学活性,即可以结合相似的靶标。

在科研及工业领域的药物靶标研究中,配体相似性的预测方法成为初筛过程中必不可少的辅助工具,常用于大规模快速寻找和发现新的药物作用靶点及药物先导化合物。但是由于精准度不够高,不能成为定性、定量的依据,也一度使这种方法的独立应用受到限制。近年来,化学基因组学的兴起,使人们重新认识到配体小分子化学信息的重要性,并且多年来累积的药物 靶点相互作用信息,也为预测新的药物靶标关系奠定了很好的基础。研究者的目光又从蛋白配体微观结构的解析转到配体化学信息的挖掘上,并取得了重要的成绩。化学相似性系综法(simi-larityensembleapproach,SEA),就是在这时产生的。

SEA方法基于比较蛋白所有配体组成集合的相似性,这种方法最开始应用于比较两个蛋白的相关性。二维的分子指纹和相似性系数用于计算和比较两个配体化合物(药物)的相似性。一系列相似性系数经过一定数学变换得到Z-score和E-value,用以评价配体集合之间的相似性,即靶标蛋白之间的相关性。后来,继续挖掘应用价值,SEA方法延伸到预测已知药物的多靶点问题。在本节中,运用SEA方法和公开的数据库资源在大范围内探索蛋白配体的相互作用关系,总共涵盖了53092个配体小分子和14732个人类蛋白,并使用了两种不同编码类型的指纹表示配体小分子,进一步为中药有效成分寻找蛋白靶标,说明了SEA法对于预测新的药物靶标关系具有一定的效力。

9.1.1 模型建立

9.1.1.1 数据集

1)蛋白配体互作关系信息

STITCH数据库中存储了大量的蛋白 配体相互作用关系,共收录了超过5000万条蛋白靶标与配体小分子相互关系的信息,涵盖了961个NCBI分类数据库的物种,其中与人类相关的蛋白配体相互作用关系约有89万条。这些相互作用关系大致可分为三部分来源:①55746对蛋白配体相互作用关系来自两个实验数据库,即PDSPKi Database和Protein Data Bank(PDB);②43419对蛋白配体相互作用关系来自其他数据库的资源整合,诸如KEGG、Reactome、NCI-Nature Pathway Interaction Database、Drug Bank和MATADOR数据库;③803516对蛋白 配体相互作用关系是基于一种简单的共发生分析方案和一种更复杂的自然语言处理方法在MEDLINE和OMIM数据中进行文本挖掘而获得。这些蛋白配体相互作用关系,共包含53092个配体小分子和14732个人类蛋白。在三种数据来源中,通过文本挖掘方式获得的对应关系最多,占据了STITCH数据库中“配体蛋白”对应关系的80%以上。

2)配体小分子结构信息

配体小分子的化学结构数据来自Pub Chem数据库(http://pubchem.ncbi. nlm.nih.gov/)。本研究将每个配体小分子用两种不同类型的二维分子指纹编码:一种是基于化学结构碎片编码的分子指纹MACCSkey;另一种是基于三点药效团信息(药效团三角形)编码的分子指纹Gpi DAPH3(graph-basedthreepointphar-macophores)。两种分子指纹使用软件MOE2008.10计算获得。

分子指纹MACCSkey是由166位(bit)编码组成,每一位代表着一种预定义的子结构(化学结构碎片),如果该子结构在某分子中存在,其分子指纹对应的位就是1,否则就是0。MACCSkey指纹编码小分子如图9-1所示。

图9-1 MACCSkey指纹编码小分子

分子指纹Gpi DAPH3是基于药效团三角形编码的指纹,用一组整数代表一个小分子化合物,其中每一个整数编码唯一一个药效团三角形。首先为分子中每个原子分配一个原子类型,共计算了8个药效团性质,分别是DAPH和pi系统下的DAPH(D代表氢键供体,A代表氢键受体,P代表中性原子,H代表疏水原子),然后计算各药效团之间的最近距离。三个原子组合成一个药效团三角形,不重复的药效团三角形被保留。将药效团三角形转化成数字信息,构建成的字符串向量即为分子指纹。Gpi DAPH3指纹编码小分子如图9-2所示。

两个配体小分子之间的结构相似性通过Tanimoto系数(又称广义Jaccard系数)计算得到。Tanimoto系数的计算公式如下:

TC=NAB/(NA+NB-NAB

该公式表示的是分子A和分子B的公共特征占A、B所有特征的数目比例。

3)配体集合的建立

2007年,Keiser等人首先定义了“配体集合”(ligandset)的概念,规定每一个靶标(蛋白)和它所对应的已知配体组成一个配体集合,这样整个蛋白配体相互作用关系数据库就被分割成与蛋白数目相等的若干个配体集合。利用SEA方法对商用数据库MDDR中的246个靶标蛋白之间的相互作用关系作了比较,发现由配体集合建立的蛋白蛋白相互作用关系,相较于由序列信息建立的蛋白 蛋白相互作用关系更具有药理学依据。本研究利用SEA方法预测了更大范围内蛋白配体的相互作用关系,对于公共数据库STITCH中提供的14732个蛋白与53092个配体小分子的相互作用关系,构建了配体集合,通过比较某一给定的小分子化合物与某一靶标蛋白配体集合的相似性得分,来判断该化合物与蛋白之间的相互作用关系。

图9-2 Gpi DAPH3指纹编码小分子(彩图见第399页)

9.1.1.2 SEA方法

SEA方法是由蛋白氨基酸序列相似性比较的BLAST算法启发而得。BLAST算法选用的比较对象是2个蛋白的氨基酸序列信息,而SEA方法则是将其中的氨基酸序列信息替换成了2个蛋白所能结合的已知配体的整合信息(配体集合信息)。支持这种概念上替换的理论基础是,如果2个蛋白所能结合的配体小分子在化学结构上有一定程度的近似,那么这2个蛋白也就必然存在着药理学或药物代谢层面上的关系,而这种关系往往不能通过简单的蛋白序列相近程度上的打分而判断,例如,5羟色胺类药物能够同时被5 羟色胺受体亚型5 HT1,2,47和5 HT3A代谢,但这两者分属于G蛋白偶联受体和离子通道蛋白,而且在蛋白的序列和结构上并没有相似性。因此,SEA方法提供了一个新的研究蛋白的方向,与传统的通过蛋白序列相似度打分得到的蛋白在生物进化层面上的亲缘关系不同,通过SEA方法所构建出的蛋白亲缘关系更偏向于对同类型小分子的结合或代谢。相对于前者而言,SEA方法所得到的蛋白亲缘关系网络图对于研究药物代谢以及药物潜在靶标能够提供更多的参考意义。SEA方法并没有停留在比较两种蛋白的相似性,还进一步推广到比较某一给定小分子化合物与某一靶标蛋白配体集合的相似性得分,从而判断该化合物能否与这个靶标蛋白相互结合,成为一种可以预测药物靶标的潜在作用关系的新方法。

1)Rawscore及参数确定

从STITCH数据库的53092个配体小分子中,随机抽取若干个小分子,每次抽取数目在5~500之间,组合成一个随机配体集合。然后,将随机抽取的2个配体集合中的配体进行两两相似性比较,计算Tanimoto系数。将所有大于TC阈值(TC取值0.01~0.99,每0.01为一个步长)的组合结果的Tanimoto系数累加,即为Rawscore。两次抽取的随机配体集合中配体数目的乘积,定义为Setsize。也就是说,如果随机抽取一个配体集合A中的配体为A1,A2,…,Am,另一个配体集合B中的配体为B1,B2,…,Bn,配体集合A与B的相似性通过比较集合中配体组合的相似性而获得。配体集合A与B的相似性比较的结果Rawscore与Set size计算公式如下:

重复上诉步骤多次(1000次),可以获得多组(Setsize,Rawscore)的值,并由此画图可以得到一条Rawscore关于Setsize的曲线,利用最小二乘法进行拟合,从而获得需要的参数μ(x)。与之类似的是,由Rawscore的标准差关于Setsize的曲线,得到参数σ(x)。

参数μ(x)与σ(x)的函数形式如下:

μ(x)≈Ax, rawscore的均值

σ(x)≈Bx C, rawscore的标准差

2)Z-score及TC阈值的确定

Z-score计算公式如下:

z=rs(S1,S2)-μ[n(S1,S2)]

σ[n(S1,S2)]

rs(S1,S2)=rawscoreofset S1vs.set S2

n(S1,S2)=size(S1)×size(S2

计算所有不同TC值(TC取值0.01~0.99,每0.01为一个步长)下的Z-score分布情况,利用卡方检验(chi-squaretest)选择其中最符合极值分布的TC值作为TC阈值。卡方检验计算公式如下:

XN=SUM{(observed-expected)2/(observed+expected)}

P-value计算公式为

P(Z>z)=1-exp(-e-zπ/sqrt(6)-Γ′(1)

式中:Γ′(1)是欧拉常数(Euler-Mascheroniconstant),约等于0.577215665。

E-value计算公式为

E(z)=P(z)Ndb

式中:Ndb是数据库搜索时集合的容量。需要注意的是,当Z-score>28时,P(Z>z)超过了大多数计算语言的数值精度,因此,可以根据泰勒展开式(Taylorexpan-sion)使用数值近似来代替,公式如下:

x=-exp[-zπ/sqrt(6)-Γ′(1)]

P(Z>z)=-(x+x2/2+x3/6)

9.1.1.3 模型的评价方法

目前对于二分类预测模型预测效果的评价方式一般采用ROC曲线,ROC曲线的全称是受试者工作特征曲线(receiver operating characteristic curve,ROC),又称为感受性曲线(sensitivity curve)。得此名的原因在于曲线上各点反映了相同的感受性,它们都是对同一信号刺激的反应,只不过是在几种不同的判断标准下所得的结果而已。ROC曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线。一个分类模型(分类器)是将一个实例映射到一个特定类的过程,分类器的结果可以是一个实数(连续输出),这些分类器中类的边界必须通过一个阈值检测,如通过血压来检测一个人是否患有高血压,或者它可以作为一个离散的标签表明的类。一个二分类预测问题,其结果要么是真(P)要么为假(N),在二分类器中有4类可能的输出:如果输出的预测是P而真实的结果也是P,那么称为真阳性(TP);然而如果真实的结果是N,则称为假阳性(FP);相反来说,一个真阴性(TN)发生在预测结果和实际结果都为N的时候,而假阴性(FN)是当预测输出时N而实际值是P的时候。

另一个重要的衍生指标ROC曲线则源自于ROC空间,ROC空间是以错误命中率(FPR)为横轴,以正确命中率(TPR)为纵轴形成的二维空间或坐标系,用来刻画TP和FP之间的折衷关系。离散或二值输出的分类器对应于ROC空间中的单个点,其中对应左上角点的分类器性能优于对应右下角点的分类器,点(0,1)代表离散输出分类器的最优分类,而对于连续输出的分类器,可通过阈值的选择获得一系列离散输出的分类器,从而对应于ROC空间中的一条ROC曲线,其中位于左上角的ROC曲线所对应的分类器性能优于位于右下角的ROC曲线所对应的分类器,从点(0,0)沿纵轴至点(0,1),再沿横轴至点(1,1)的ROC曲线代表着连续输出分类器的最优分类。然而,上述ROC曲线间经常存在交叉,单纯的“优于”或“支配”的关系通常并不存在,自然无法相互比较,因此取而代之的是用标量型的ROC曲线下的面积(AUC)来实现分类算法间的性能比较。AUC值越高对应越好的分类性能:0.5对应随机猜测性能,1对应最优性能。同时,AUC依然保持了ROC曲线的众多优点,如能刻画分类算法的整体性能,独立于类先验分布、类错分代价以及分类阈值,并能刻画分类算法的概率或排序输出特性等。

模型预测结果使用不同的参数衡量,分别计算AUC、准确率、精密度、召回率、敏感度、特异度和F分数,数学计算公式如下:

ACC=(TP+TN)/(TP+TN+FP+FN)

PRE=TP/(TP+FP)

REC=TP/(TP+FN)

SEN=TP/(TP+FN)

SPE=TN/(FP+TN)

式中:TP、TN、FP、FN分别表示真阳性、真阴性、假阳性和假阴性。

9.1.2 模型计算结果

9.1.2.1 SEA模型的参数

首先用Gpi DAPH3指纹建立SEA模型,确定Tc阈值下的参数μ(x)与σ(x)。根据9.1.1.3描述的方法,确认Tc阈值为0.42时,模型得到最好的预测结果,此时参数μ(x)与σ(x),由重复1000次实验获得的样本点采用最小二乘法拟合得到,如图9-3所示。

图9-3 Gpi DAPH3指纹计算获得的参数

(a)μ(x)拟合曲线;(b)σ(x)拟合曲线其中,Raw Score和setsizes由9.1.1.2中所述方法定义。

同样地,用MACCSkey指纹建立化学相似性系综模型,确定Tc阈值下的参数μ(x)与σ(x)。根据之前描述的方法,确认Tc阈值为0.50时模型得到最好的预测结果,此时参数μ(x)与σ(x),由重复1000次实验获得的样本点采用最小二乘法拟合得到,如图9-4所示。

图9-4 MACCSkey指纹计算获得的参数

(a)μ(x)拟合曲线;(b)σ(x)拟合曲线其中,Raw Score和setsizes由9.1.1.2中所述方法定义。

9.1.2.2 SEA模型的预测结果

根据9.1.1.3描述的方法和公式,计算E值,用ROC曲线评价该模型对于蛋白配体相互作用的预测能力,分别计算AUC、准确率、精密度、召回率、敏感度、特异度和F分数,结果如表9-1和图9-5所示。从结果中可以看出,在正负样本数量1∶1的平衡模型中,用Gpi DAPH3指纹和MACCSkey指纹分别建立的SEA模型,AUC分别可以达到0.6608和0.8344。表9-1中所列的准确率、精密度、召回率、敏感度和特异度的值分别在F分数达到最大值时取得。

表9-1 不同指纹构建的化学相似性系综模型结果

图9-5 不同指纹构建的化学相似性系综模型的ROC曲线

可以发现,用MACCSkey指纹建立的SEA模型,相比于用Gpi DAPH3指纹建立的模型,在预测效果上更有优势。接下来使用MACCSkey指纹建立的SEA模型预测17味中药成分与STITCH数据库中的蛋白之间的关系,并建立预测的药物靶标关系网。

9.1.3 新的药物靶标关系的预测

为了进一步测试SEA方法预测药物 靶标相互关系的能力,使用一个中药案例进行说明。从TCMDatabase@Taiwan数据库中获得17味中药,如表9-2所列,共包含585个不重复的中药成分。

表9-2 来自台湾中药数据库的17味中药

选择前201个成分靶标对应关系的预测结果,共包含40个化合物和66个蛋白,构建的网络如图9-6所示。在预测结果中,56个(27.9%)是STITCH数据库中已经存在的配体蛋白对应关系,145个(72.1%)是新预测到的中药成分 蛋白对应关系。

图9-6 预测的中药成分靶标关系网络图(彩图见第400页)

我们发现,预测结果中的小分子化合物根据结构特征可以分为三类:含有长碳链的化合物、含有类固醇母核的化合物和其他化合物。整个网络中,已包含在STITCH数据库中的对应关系占27.9%(56/201),新预测的对应关系占72.1% (145/201)。

图9-7和表9-3分别列出了预测到的部分节点化合物的结构,以及预测到的部分节点蛋白。可以看到,很多线形的含有长碳链的分子,与之对应预测得到的蛋白大部分是脂肪代谢相关蛋白,例如脂肪酶、脂肪氧合酶、脂肪酰胺水解酶、脂肪酸去饱和酶等。另外一类是带有典型四环的类固醇母核的分子,与之对应预测得到的蛋白大部分是和类固醇代谢相关蛋白,例如皮质类固醇结合球蛋白、羟甾醇脱氢酶、细胞色素P450类固醇羟化酶等。以及极少数不能归属这两类的分子。

图9-7 部分预测到的节点化合物的结构

(a)线性含有长链的分子;(b)带有典型四环的类固醇母核的分子;(c)极少数不能归属这两类的分子

表9-3 部分预测到的节点蛋白

从中可以看出,上述预测结果都与化合物结构密切相关,这也是我们研究的出发点:基于配体结构相似性预测药物的蛋白靶标。虽然这些预测结果不错,大多是底物与催化酶的关系,显然并不是我们想要的与疾病治疗相关的药物靶点。如果扩大E值的筛选范围,可能会得到更多有意义的预测结果,但也同时带来了更多的干扰性结果。也就是说,好的结果可能被一些意义不大的结果(例如底物和酶)掩盖了。

9.1.4 讨论

SEA方法从2007年建立之初,到现在已有5篇论文先后在顶级杂志发表,引起了业界的广泛关注。它的两个创新点:一是“配体集合”(ligandset)的建立,规定每一个靶标和它所对应的配体组成一个集合,这样整个数据库就被分成若干个集合(配体集合)。如果要判断一个化合物是不是作用于某个蛋白靶标,要与这个蛋白所对应的配体集合里的所有配体进行比对,不像传统方法仅通过与某个配体相似就建立与靶标的关系,而是根据综合得分作为评判标准。第二个创新点是研究者提出的统计学方法。根据候选药物与配体集合中所有配体的相似性比对结果,作者建立了一套打分系统,作为评判标准。这里用到的统计学处理其实是移植了蛋白序列比对的BLAST方法。

SEA方法优秀的预测准确率和可靠的实验验证结果是引起广泛关注的主要原因,但是其应用范围一直比较狭窄。研究者共调查了商业数据库中3000多个FDA认证的药物与200多个药物靶标之间的关系。本章研究运用SEA方法和公开数据库资源,在更大范围内探索了蛋白配体的相互作用关系,拓展了SEA方法的应用范围。研究共涵盖了53092个配体小分子和14732个人类蛋白,选用的蛋白不仅包含少量已知的药物靶标,而且包含已获得较多配体信息(>5个配体)的人类蛋白;选用的配体也不限于少量的上市药物,而是包含药物、小分子化合物、离子等可作为蛋白配体的小分子。在本章蛋白配体相互关系的预测中,使用了Gpi-DAPH3和MACCSkey两种不同编码类型的指纹表示配体小分子,预测结果的AUC分别达到了0.6608和0.8344。可以发现,基于MACCSkey指纹建立的SEA模型仍然保持了较好的预测效果。在F 分数达到最大值时,准确率、精密度、召回率、敏感度和特异度值分别达到0.8434、0.8883、0.8850、0.8850和0.7496,说明SEA方法具有较好的拓展功能。在为中药成分寻找蛋白靶标的研究中进一步说明了SEA方法对于预测新的药物 靶标关系具有一定效力。但是,由于预测范围的扩大、预测精度的下降,不仅带来了更多的假阳性与假阴性结果,也带来了很多不想获得的干扰结果,使得本章建立的SEA模型指导实验的初筛能力有所降低。分析原因可能是,本研究选用的STITCH数据库中,单个蛋白的已知配体信息不如商用数据库中的信息充分。也就是说,SEA方法可能更适合于预测已知的蛋白配体交联信息较多的小规模数据集。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈