首页 百科知识 基于化学倾向性的蛋白

基于化学倾向性的蛋白

时间:2022-08-24 百科知识 版权反馈
【摘要】:随后的特征选择,初步揭示了配体蛋白关系确立的本质联系。实验结果进一步显示了本章模型的优势,10个预测到的药物候选物中有7个获得文献或实验支持,并且发现了4个新的DAO抑制剂,进一步印证了基于化学倾向性的支持向量机模型对于预测药物前体和靶标具有良好的效果。已知的蛋白 配体相互作用关系同样来自STITCH数据库。每个小分子用一组166位长度的二维分子指纹MACCSkey表示其结构信息。这样构建的特征向量称为化学倾向性特征向量。

上述SEA模型,在大规模数据集上预测了蛋白 配体的相互作用关系显示了一定的能力。但同时也看出,该方法可能更适合于预测蛋白配体交联信息较多的小型数据集,显然这与现实情况不太符合,尤其是对于扩展靶标的预测范围不利。尽管越来越多的潜在药物靶标和配体被发现,针对不同的靶标从数百万的小分子化合物中筛选合适的活性配体,仍然是一个巨大的挑战。

近年来,机器学习方法吸引了大量注意力,成为预测药物 靶标相互关系领域中的一种高通量的方法,取得了显著成果。各种各样的监督和半监督学习模型在药物靶标相互关系的预测中得到应用。支持向量机模型是一种监督学习模型,对预测药物靶标相互作用关系,显示出了很好的效果。最普遍的方法是将预测问题转变成为一个二分类问题,这样可以很容易地用支持向量机工具建模。在这类模型中,一个合适的核函数和一个合适的特征向量是解决问题的关键,可以轻松将数据空间映射到高维空间而不增加计算的复杂度

在本章中,基于化学倾向性信息建立了一个支持向量机模型。特征的构建和筛选是本章建模的关键。特征的构建延续了第2章的理念,抛弃了蛋白结构信息,完全使用蛋白已知配体的化学信息构建特征向量。332个特征分别取自配体的指纹信息以及已知的蛋白配体相互关系,这样构建的特征向量被称之为化学倾向性特征向量。本章模型对于预测蛋白配体相互作用关系显示了出色的结果,超过了SEA模型的预测结果。五倍交叉检验和独立检验都显示出很好的结果。随后的特征选择,初步揭示了配体蛋白(药物靶标)关系确立的本质联系。进而,应用本章模型筛选了精神分裂症靶点D氨基酸氧化酶(D-aminoacidoxidase,DAO)的抑制剂,并进行了实验。实验结果进一步显示了本章模型的优势,10个预测到的药物候选物中有7个获得文献或实验支持,并且发现了4个新的DAO抑制剂,进一步印证了基于化学倾向性的支持向量机模型对于预测药物前体和靶标具有良好的效果。

9.2.1 模型建立

9.2.1.1 数据库与数据预处理

本章共使用了3个数据库。已知的蛋白 配体相互作用关系同样来自STITCH数据库。这些蛋白 配体相互作用关系,共包含53092个配体小分子和14732个人类蛋白,其中12395个蛋白序列信息在Ensembl蛋白数据库中获得。配体小分子的结构数据来自Pub Chem数据库。每个小分子用一组166位长度的二维分子指纹MACCSkey表示其结构信息。

STITCH数据库中来源于实验数据库和其他数据库的蛋白配体对应关系(除文本挖掘获得的对应关系)作为本章研究的正样本。为了降低样本的冗余度,首先用BLAST方法根据蛋白序列进行聚类得到6524类蛋白,从每类中随机选择一个蛋白及其已知配体作为正样本用于后续建立模型;剩余的蛋白及其已知配体作为独立测试集的正样本备用。

建立预测模型所用的正样本是6524个蛋白对应的蛋白配体相互作用关系,共48536个正样本。与之对应的负样本,是从除STITCH数据库中存在的蛋白配体对应关系中随机挑选的,保持负样本中的蛋白与正样本一致。独立测试集的正样本是剩余蛋白对应的蛋白配体相互作用关系,共35126个正样本。负样本的挑选方式与建立预测模型一致。对于建立预测模型和独立测试集,分别构造了4种比例的正负样本数量关系,分别是1∶1、1∶2、1∶3和1∶4。

9.2.1.2 特征向量与模型构建

构造SVM模型的特征向量是决定预测结果准确率的关键因素。本章研究分三个步骤构建特征向量。首先,用分子指纹MACCSkey表示一个配体小分子的特征向量,用166位0、1字符串代表一个配体小分子,每一位代表一个特定化学结构片段的存在(用1表示)或缺失(用0表示)。第二步,用已知的配体信息代表一个蛋白的特征向量。通常认为,一个蛋白的序列信息隐含了这个蛋白所有的功能信息。从某种程度上讲,这种假设是正确的。但是,一个有机生命体如何将蛋白序列信息转化为功能信息实现生命机能,仍然是一个待解之谜。现在,越来越多的研究者开始用化学观点审视蛋白质,开发的方法使用已知的配体信息预测蛋白质的功能或行为,正如之前介绍的SEA方法。本研究同样用经验性的已知配体信息代表一个蛋白质,用166位数字串表示一个蛋白质的特征向量,每一位对应配体小分子的166位0、1字符串。计算一个蛋白质的特征向量在某位上的取值,是用这个蛋白的已知配体的特征向量在该位上的平均取值表示,相当于这个蛋白的已知配体小分子在该位上出现1的期望,如图9-8(a)所示,计算公式如下:

第三步,将蛋白的特征向量与配体小分子的特征向量组合,用332位的数字串代表一个蛋白配体相互作用关系,如图9-8(b)所示。这样构建的特征向量称为化学倾向性特征向量。

用于建立模型的正样本和负样本都用化学倾向性特征向量表示后,使用软件libsvm3.11建立支持向量机模型,选择C SVC类型,RBF为核函数,经过grid. py优化参数c(cost)为32,参数g(gama)为0.0078125。

图9-8 特征向量的表示与计算

(a)由已知配体的MACCSkey指纹计算得到蛋白的特征向量;(b)由蛋白的特征向量与配体小分子的特征向量组合得到蛋白 配体相互作用关系的特征向量

9.2.1.3 特征选择与模型简化

在本章中,332位基于化学倾向性构建的特征向量,并不是每一个向量对于构建支持向量机模型、衡量蛋白配体相互作用关系同等重要。选出与蛋白 配体相互作用关系更为密切的特征向量,对于简化模型和深刻认识蛋白配体相互作用的内在关系很有价值。因此,采用基于互信息差异(mutual information difference, MID)的最大关联与最小冗余方法(maximum relevance minimum redundancy, m RMR)进行特征选择,对所有的332位特征排序,分别选择前50、100、150和200的特征,为建立简化的模型备用。

由于代表蛋白配体相互作用关系的332位特征向量是成对构建的,即第n位(n≤166)与第n+166位分别代表了蛋白的所有已知配体对于该位(某化学结构碎片)的期望,与对应的配体小分子对于该位(某化学结构碎片)的存在或缺失。成对的特征向量对于预测未知的蛋白配体相互作用关系或许是重要的,因此有必要将这个约束条件加入到特征选择中,对之前选择的前50个和前100个特征向量进行成对扩展,分别得到47对和91对特征向量,为建立简化的模型备用。

9.2.2 模型计算结果

9.2.2.1 模型的五倍交叉验证结果

首先,用五倍交叉验证评价模型对于蛋白 配体相互作用预测的能力,分别计算了AUC、准确率、精密度、召回率、敏感度、特异度和F 分数,结果如表9-4所示。从中可以看到,在正负样本数量1∶1的平衡模型中,AUC达到0.9914,敏感度达到0.9642,特异度达到0.9571。不论在STITCH数据库中还是真实情况中,负样本即不存在的蛋白 配体对应关系要远多于正样本,所以在平衡模型中仅有与正样本相同数量的一小部分推测的负样本(随机选择的不存在的蛋白 配体对应关系)被建模,很可能是不符合真实情况的。因此另外构建了三个非平衡的模型,正负样本数量比例分别为1∶2、1∶3和1∶4。基于支持向量机的模型分配给每一对蛋白配体相互作用关系一个分数,分数越高代表这对蛋白 配体的相互作用关系属于正样本,即真实存在的可能性越大。最优化的分数阈值在F分数达到最大值时取得。在最优化的分数阈值下得到的准确率、精密度、召回率、敏感度和特异度,用来评价模型对蛋白 配体相互作用关系的预测能力。从图9-9中可以看到,已经建立的支持向量机模型能够很好地对四种正负样本比例的训练集合进行分类。从正负样本1∶1到1∶4的模型,特异度从0.9571增长到0.9815,但在1∶3和1∶4的模型中,特异度变化不显著。AUC和准确率与特异度同方向变化,而精密度、召回率、敏感度和F 分数与特异度呈反方向变化。本章研究中,为了使模型更多地涵盖负样本的信息,以获得更高的特异度,选择正负样本1∶4的模型作为基于化学倾向性的支持向量机模型(SVM CPF),用于后续的实验预测。

表9-4 不同正负样本比例模型的五倍交叉验证结果

图9-9 ROC曲线:不同正负样本比例模型的五倍交叉验证结果(彩图见第400页)

9.2.2.2 独立测试验证结果

用独立测试集进一步验证模型对于蛋白 配体相互作用关系的预测能力。独立测试集包含35126对已知的蛋白配体对应关系作为正样本,负样本是推测的除STITCH数据库中存在的蛋白配体对应关系,同样构造正负样本数目比例不同的4个独立测试集。表9-5和图9-10分别显示了模型对于不同独立测试集的预测结果和ROC曲线。可以看到,独立测试的验证结果与五倍交叉验证的结果一致,说明本章提出的方法对于预测蛋白 配体相互作用关系是有效的。这种模型不仅可以用于已知靶点的药物筛选,也可以用于搜索药物候选物的可能靶点。

表9-5 不同独立测试集的验证结果

图9-10 ROC曲线:不同独立测试集的验证结果(彩图见第400页)

9.2.2.3 特征选择结果

为了区别不同特征的重要性,根据最大关联与最小冗余方法(m RMR)筛选得到的前50、前100、前150和前200个特征,重新建立了4个简化的支持向量机模型。从图9-11(a)的交叉验证结果中可以看到,由排名前50个特征重建的模型对于蛋白配体相互作用关系预测结果的ROCAUC只有0.8426,比使用332个全部特征的模型结果低15%。随着特征向量的增长,重建模型的预测结果不断改善,前200个特征重建的模型预测结果的AUC达到0.9652,低于全部特征模型的2.6%。但是,重建模型达到150个特征后,预测结果改善缓慢。同样的结果在图9-11(b)的独立测试中也可以看到。

由于蛋白配体相互作用关系的特征向量是成对构建的,因此成对的特征选择可能对于预测蛋白配体相互作用关系是很重要的。尝试用之前选择的前50个和前100个特征向量进行成对扩展,分别得到47对和91对特征向量重新建立预测模型,五倍交叉验证结果如图9-11和图9-12所示。可以看到,47对特征构建的模型对于蛋白配体相互作用的预测结果AUC达到0.9753,好于前200个特征的模型,说明成对的特征选择很必要。91对特征构建的模型预测结果AUC达到0.9869,几乎与使用332个全部特征构建的模型预测结果一致。这说明,使用最大关联与最小冗余方法(m RMR)在约束条件下的特征选择,相对于自动的特征选择,预测结果要好一些。这里采用的约束条件是第n位(n≤166)与第n+166位特征,只要其一被选择出,另一个也被强制选择出来。用91对特征构建的模型预测结果与全体特征的模型相比,几乎没有损失预测准确性(AUC仅相差0.5%),这也说明选择出来的91对特征对于蛋白 配体相互作用关系的建立和维持至关重要。91对特征的详细信息如表9-6所示。

图9-11 ROC曲线(彩图见第401页)

(a)特征选择后简化模型的五倍交叉验证结果;(b)特征选择后简化模型的独立测试结果

图9-12 比较不同特征选择模型的预测结果的ROCAUC

表9-6 166位MACCS指纹和91个选中的特征(用粗斜体标出)

(续表)

注:A任意原子;Q非碳非氢原子;X卤素:F、Cl、Br、I。

—单键═,双键,T叁键,%芳环键,$环键,!链键(非环键)。

未注明:任意类型的键。

44其他:指除H、C、N、O、Si、P、S、F、Cl、Br、I以外的原子。

166FRAGMENTS:指结构中包含2个或以上的片段。

9.2.2.4 重要的化学倾向性特征分析

在药物发现领域,一项重要的前期工作就是大规模筛选药物候选者,以及聚类和区分不同靶标的药物候选者。基于化合物库和分子指纹的相似性搜索方法已经被广泛认可和使用。为了使相似性搜索变得更加准确和高效,需要选择好的化合物描述符。通常的做法是使用基于二进制关键词库的化合物分子结构表示法。MACCSkey就是一种常用的二维分子指纹。已有文献证实,MACCSkey编码的3类化合物分子结构信息(原子性质、原子间化学键的性质以及原子所在的拓扑环境),都与蛋白配体相互作用关系有着密切联系,这些相互作用关系包括疏水相互作用、静电相互作用、空间位阻作用、色散作用以及氢键结合作用。从蛋白配体相互关系预测模型中优选出的91对特征,包含化合物分子描述符91个,可以认为是MACCSkey指纹中每类分子结构信息的典型代表,是与蛋白配体相互作用的形成关系更为密切的化合物分子特征。用筛选出的化合物分子描述符,可以更加高效地进行药物候选者的大规模筛选,以及更加有效地区分不同靶标的药物候选者。

从表9-5中可以看出,选择出来的91个特征作为配体化合物的分子描述符,可能与蛋白配体相互作用有着更为密切的联系,如在这些化合物分子结构特征中,O原子是否多于1个,小分子化合物是否带电荷以及—CH3甲基是否多于1个排在了所有性质的前三。在91个特征中,有21个特征与O原子相关,7个特征与N原子相关,分别描述了原子个数、原子化学键原子的性质以及原子环境信息。另一大类是对小分子化合物中环状结构的描述,在91个特征中有9个描述了小分子中环状结构的相关性质。还有很重要的一类性质是—CH3甲基,筛选出来的8个特征与之相关。这些性质的存在或缺失对建立和维持蛋白 配体相互关系起着非常关键的作用。图9-13说明了O原子、N原子、—CH3甲基、电荷以及环结构在已知的蛋白配体结晶结构中可以普遍观察到,这些性质可能与蛋白 配体相互作用力场的形成有密切的联系。

图9-13 一些带有配体的蛋白结晶结构(彩图见第401页)

9.2.3 实验验证结果:DAO抑制剂的筛选

DAO是治疗或预防神经精神病(如精神分裂症)的药物新靶点,用计算方法系统筛选DAO抑制剂,对于降低实验耗费十分有利。用本节建立的蛋白 配体相互作用关系预测模型在STITCH数据库中筛选DAO的配体化合物,从中寻找可能的DAO抑制剂。

9.2.3.1 实验方法简介

人源的DAO(NCBI编码NP_001908.3;Ensembl编码ENSP00000228476)存在在STITCH数据库中,已有的配体小分子156个。现在将STITCH化学分子数据库中的5万多个小分子化合物用3.2.2节得到的模型筛选DAO的配体,选择得分前100的筛选结果。从中去除掉一些显然不能成为DAO抑制剂的配体,如离子、气体、自由基等,剩余34个化合物作为预测得到的可能的DAO抑制剂。其中10个化合物从Sigma公司购买,作为实验材料备用。另外,已知苯甲酸钠(sodium benzoate)是一种公认有效的DAO抑制剂,它的IC50=80μmol/L,作为阳性对照。

重组的人类DAO在大肠杆菌BL21(DE)中获得高表达,使用蛋白纯化仪(GE公司生产)进行金属螯合层析,超滤离心管(Millipore公司生产)进行酶浓缩。为了保持DAO的活性,在酶催化单元中加入辅因子黄素腺嘌呤二核苷酸(FAD,0.03%)。然后加入重组的DAO(约10U/ml)到反应混合液中。反应混合液包含磷酸缓冲液(135mmol/LNa Cl、4.7mmol/LKCl、10mmol/L Na2HPO4、2mmol/LNa H2PO4,p H值7.4)、过氧化物酶(5U/ml)、邻苯二胺(OPD,0.03%)、D 脯氨酸(40mmol/L)以及预测得到的单一小分子化合物,浓度分别为80μmol/L和300μmol/L。整个反应体系在37℃保温10min,用分光光度法在波长453nm下测定产物2,3 二氨基酚嗪(2,3 diaminophenazine, DAP)的吸光度。相应的DAO活性通过与缓冲液对照组比较计算过氧化氢的产量而获得。

9.2.3.2 实验结果分析

10个预测得到的小分子化合物与阳性对照苯甲酸钠在相同浓度下测试DAO的相对活性,结果如图9-14所示,在低浓度(80μmol/L)下,化合物4、5和10能够显著地抑制DAO活性,抑制率分别为19.97%、30.84%和87.17%。在高浓度(300μmol/L)下,另外四个化合物2、7、8和9也显示了DAO抑制剂活性,相比对照组的抑制率分别达到为79.03%、51.05%、21.69%和16.94%。令人惊奇的是,化合物10显示了非常优秀的DAO抑制剂活性,甚至超过公认的DAO抑制剂苯甲酸钠。

图9-14 实验验证预测到的DAO抑制剂在不同浓度下的抑制效果

(a)DAO抑制剂浓度80μmol/L;(b)DAO抑制剂浓度300μmol/L Cb代表缓冲液对照组;Cd代表二甲基亚砜对照组;B代表阳性对照苯甲酸钠;1~10分别代表10个预测到的DAO抑制剂。与Cw和Cd组比较,*P<0.05,**P<0.01,***P<0.001。

可以看到,在10个预测到的小分子化合物中,经过实验验证有7个是DAO抑制剂,预测模型的阳性预测率(positive predictive value,PPV)达到70%。其中,化合物2和5是已知的DAO配体,在STITCH数据库可以检索到。化合物8是山梨酸钾(potassium sorbate),已有研究表明它是一种DAO抑制剂,其半数抑制浓度IC50=2.6mmol/L。除此之外,本研究新发现了4个新的DAO抑制剂,分别是化合物4、7、9和10。化合物2是烟酰胺腺嘌呤二核苷酸磷酸(辅酶Ⅱ, NADP),化合物4和5是NADP的衍生物,它们可能占据了黄素腺嘌呤二核苷酸(FAD)的位点,从而发挥了DAO抑制剂的作用。化合物10显示出了优秀的DAO抑制剂活性,它是一种已知的抗肿瘤药,本研究可能发现了它的一种新作用,可作为一种DAO抑制剂治疗精神疾病。通过超几何检验进行显著性分析,结果显示相比随机抽样结果,模型预测结果的P<10-5。这说明本研究提出的模型对于大范围预测蛋白配体相互作用关系非常有效。化合物2、4、5、7、8、9的IC50测定结果及化学结构如图9-15所示。

图9-15 化合物2、4、5、7、8、9的IC50的测试曲线及化学结构

9.2.4 讨论

本章建立的模型抛弃了常常使用的蛋白序列信息,而使用基于已知配体的化学倾向性信息作为蛋白的特征。配体特征由MACCSkey指纹直接定义。蛋白和配体都有166位特征,两者结合作为样本的特征向量。如果蛋白 配体的组合在STITCH数据库中有注释,就作为正样本,否则作为负样本。这样就为蛋白 配体相互作用关系构建了一个有监督的二分类模型。

通常认为,蛋白氨基酸序列蕴含的遗传信息决定了蛋白的一切性质和功能。在这方面,一些研究者做了很多努力,然而氨基酸序列如何编码蛋白功能仍然是一个未解之谜。另一些研究者致力于获取蛋白口袋的三维结构和性质。但是,蛋白三维结构的确定本身就是一个极大的挑战。本章研究仅仅使用蛋白的已知配体的指纹构建蛋白的特征,其优势在于降低了蛋白序列信息带来的过多噪声,尤其是对于那些缺乏三维结构及作用位点信息的蛋白。

事实上,预测未知的药物靶标相互关系可被区分为四个类型:①已知的药物与已知的靶标;②新的化合物与已知的靶标;③已知的药物与新的蛋白;④新的化合物与新的蛋白。这里已知的药物(靶标)是指训练集中包含的药物(靶标),而新的蛋白(化合物)是指训练集中不包含的蛋白(化合物)。如果一个蛋白或配体不与训练集中的任何配体或蛋白具有相互关系,那么这个蛋白或配体就称为蛋白配体关系网络中的孤点,如图9-16中的T和D。

许多方法致力于研究第①类问题,探索那些已知的蛋白配体关系网中缺失的相互关系。通过引入配体的化学相似性,新的药物与已知的靶标可以预测,例如SEA方法。然而,大部分虚拟筛选和机器学习方法不能够预测第③和④类问题,也就是说,无法解决孤点蛋白的问题。在本章研究中,独立测试集包含了训练集以外的蛋白,恰好对应了第③和④类问题。如果将整个独立测试集按照已知的配体和新的配体分开考虑,得到第③类问题的预测准确率可以达到95.2%(53762/56458),第④类问题的预测准确率可以达到92.8%(12806/13794)。独立测试集的出色表现说明本章建立的模型具有一定的鲁棒性,能适应预测更大范围的蛋白和配体相互关系,包括孤点蛋白与配体。分析原因可能是,在构建模型的最初采用BLAST方法首先将蛋白进行分类,保证独立测试集中的蛋白在训练集中至少存在一个同家族的蛋白。

图9-16 未知药物靶标相互关系的四个类型

采用大规模数据建立的基于化学倾向性的支持向量机模型,对于药物靶标关系的预测达到了很好的效果。这类模型应用的一个重要方向是为医药工业中疾病的治疗靶标挖掘更多新的配体(通常是抑制剂),作为药物候选物。本章提出的模型用于在STITCH数据库中寻找精神分裂症治疗靶标DAO的抑制剂。10个预测到的药物候选物中7个得到了实验验证,更重要的是发现了4个新的DAO抑制剂,具有进一步实验研究的价值。另一个应用方向是为新发现的化合物寻找药用价值。这类化合物往往只知道结构和简单的理化性质,例如从中药中分离到的成分。本研究提出的模型有助于初探这些新化合物的靶标。

尽管我们的模型对于预测蛋白配体相互作用关系表现出很好的效果,支持向量机方法的缺点也是显而易见的。支持向量机模型就像一个黑箱,无法了解蛋白配体的内在联系与生物化学等特征之间的定量关系。而且,支持向量机模型把分类问题映射到高维空间,获得出色预测效果的同时也带来了计算复杂度,两者之间需要权衡。因此,尽管可以作为一种有效的预测工具,我们却很难在蛋白 配体相互作用的理论上产生突破和创新

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈