首页 百科知识 人类细胞色素酶中单核苷酸多态性的精准预测

人类细胞色素酶中单核苷酸多态性的精准预测

时间:2022-08-24 百科知识 版权反馈
【摘要】:在广博的人类基因中,SNPs变得越发重要,尤其是在药物学中。因此,SNPs成为医学和药学中研究疾病发生和药物反应的重点。因此,个体的基因信息可以用来决定最适合于个体的药物及其剂量,以避免不必要的不良反应。这是因为这一家族与大部分药物代谢有关,而且其大部分变异也导致了多态的药物代谢。根据人类细胞色素P450等位基因命名委员会的相关数据,在这些序列中,提取出243个SNPs。

近年来,很多研究者都在CYP450的变异方面获得一定的进展。在广博的人类基因中,SNPs变得越发重要,尤其是在药物学中。SNPs在DNA序列上的变异,有些会使编码的氨基酸发生改变,影响翻译的蛋白质的变化,从而引发疾病。这些功能性的变异也会形成个体间的差异。因此,SNPs成为医学和药学中研究疾病发生和药物反应的重点。在CYP450家族的SNPs对于酶活性有着重要的影响。对于患者而言,不同的CYP450基因型就决定了不一样的代谢类型,比如不良代谢、正常代谢、过度代谢和极度代谢等。因此,个体的基因信息可以用来决定最适合于个体的药物及其剂量,以避免不必要的不良反应。此外,SNPs还是大部分绝症的诱因,如乳癌、肺癌和深静脉血栓(deepvenousthrombosis,DVT)。出于SNPs的重要性,开发出快速而又准确地寻找SNPs位点的方法就成了迫切的需求。尽管建立序列本身是个复杂而又困难的任务,但生物信息学分析由于对于大数据对象的处理具有天然的优势而显示出强大的实力。

本节内容将展示作者的一项工作,一种可以精确预测人类CYP450中SNPs的算法。由于SNPs发生在DNA层,所以之前的研究多数是在DNA序列上来进行预测,但是考虑到DNA序列的信息有限以及变异从DNA到蛋白质的中心法则,本算法将主要工作开展在蛋白质层。因为对于那些非编码的DNA序列而言,蛋白质序列无法显示其变异信息,因此,这里讨论的主要是发生在编码DNA序列上的SNPs。该研究考虑了一些氨基酸基本属性对于SNPs的影响,比如氨基酸类型、组成、物理和化学性质等;同时也考虑了一些进化信息,比如位置特异打分矩阵(PSSM)和系统发育熵值。并且首先将蛋白质构型中的可用密码子数目作为一个新特性来预测SNPs。而为了消除正负数据集(SNPs数据集和非SNPs数据集)之间的不平衡造成的模型偏移,该算法使用了一种基于模糊集理论的平衡数据集的机器学习方法。

8.4.1 实验方法

8.4.1.1 构建模型所采用的数据集

在本研究中,主要使用CYP2家族作为研究对象。这是因为这一家族与大部分药物代谢有关,而且其大部分变异也导致了多态的药物代谢。人类CYP2子家族(2A6、2A13、2B6、2C8、2C9、2C19、2D6、2E1、2F1、2J2、2R1、2S1、2W1)的蛋白质序列获取自NCBI(http://www.ncbi.nlm.nih.gov)。根据人类细胞色素P450等位基因命名委员会(http://www.cypalleles.ki.se)的相关数据,在这些序列中,提取出243个SNPs。在拿出这些SNPs之后,序列中剩下的6184个位点就是非SNPs。这样,原始数据集(243个SNPs和6184个非SNPs)就可以拆分成训练数据集(163个SNPs加上6104个非SNPs)和测试数据集(剩余的80个SNPs和80个非SNPs)。训练数据集用来优化支持向量机的参数,训练支持向量机分类器和预测模型。测试数据集用来评估整个支持向量机方法的最终表现。

8.4.1.2 特征提取

蛋白质通过其特定的结构来表现它的功能,这也就蕴含着,相邻的氨基酸位点可能会对潜在的SNPs造成影响。在这种情况下,氨基酸组成信息和两翼序列的物化性质(11个氨基酸残基,前后各取5个加上本身)就拿来用做预测的两个属性(S1和S2)。S1编码了11个氨基酸残基子序列的氨基酸组成,用数值1~20来代表20个不同的氨基酸(见表8-2)。一个两翼序列编码的例子如图8-1所示。

除了相邻效应以外,同时采用了对象位点的氨基酸类型(T1)和首次提出的对象位点的可用密码子数目(T2)作为新特征来预测SNP。

1)T1

T1的编码方式是将氨基酸残基分成三种类别:H、R、K、E、D作为带电的;Q、T、S、N、C、Y、W作为极性的;然后,G、F、L、M、A、I、P、V作为疏水的。三种类别在编码中分别用1、2、3来表示。

图8-1 氨基酸组成性质编码的一个例子。带下划线的10个氨基酸组成了两翼序列。这10个残基和中心的一个预测目标位点残基,通过表8-2的数字替换进行编码

表82 预测SNP模型中抽取的DNA特征

D1:编码了预测位点周边核苷酸序列的组成:腺嘌呤(adenine,A)、胸腺嘧啶(thymine,T)、鸟嘌呤(guanine,G)和胞嘧啶(cytosine,C)分别被转换成1、2、3和4。

D2:编码了预测位点周边位点核苷酸序列中每个碱基是否为SNP的情况:是SNP,则编码为1;不是SNP,则编码为0。

提出这个属性的原因是SNPs存在连锁不平衡现象(linkage disequilibrium, LD),即某个SNP的存在与周围SNPs具有相关性的一种现象。连锁不平衡指的是不同遗传标志间存在的非随机组合。因为群体大小的有限和群体历史,这种非随机组合在基因组中普遍存在。连锁不平衡现象在群体遗传学参数估计、基因精细定位、关联分析等方面存在广泛的应用。从本质上说,关联分析检测的就是遗传标志与性状之间的连锁不平衡。SNPs做完一种稳定高密度的遗传变异,已经成为连锁不平衡研究中最好的遗传标志。在最近的几年,连锁不平衡成为SNPs相关研究的一个热点,并且是SNPs表型研究的一个有力方法。因为SNPs与连锁不平衡的密切关系,通过在目标预测位点周围的SNPs位点来显示与连锁不平衡的关系,并因此更好地挖掘SNPs潜在的相关性,增加预测的准确性。

D3:编码在目标预测位点Cp G岛的出现情况。当目标位点为胞嘧啶(cyto-sine,C),以及其下游邻近位点为鸟嘌呤(guanine,G)的时候,就把目标位点编码为1;如果目标位点不出现这种情况,则编码为0。

2)T2

T2主要是基于简并理论来编码对象残基的可用密码子数目。密码的简并性是指在基因翻译中,不止一个密码子可以被用来匹配同一个氨基酸,这是因为密码子的数目要大于氨基酸的数目。我们只需要21种密码子(20个氨基酸和一个休止符),但是当3个位点一组形成一个密码子,4的3次方(4是指A、U、G、C)就产生64种可能的密码子。表8-3列出了密码子和对应的氨基酸。从表中可见, 6个密码子的氨基酸有3种(丝氨酸、精氨酸、亮氨酸),4个密码子的氨基酸有5种(甘氨酸、丙氨酸脯氨酸苏氨酸、缬氨酸),3个密码子的氨基酸有1种(异亮氨酸),2个密码子的氨基酸有9种(半胱氨酸、氨羰丙氨酸、天冬氨酸、赖氨酸谷氨酸、谷酰胺、组氨酸苯丙氨酸、酪氨酸),2种氨基酸(蛋氨酸、色氨基酸)用1个密码子加3个休止符编码。在这个属性里,氨基酸的可用密码子数目(1、2、3、4和6)代表对应氨基酸。

考虑到SNP和进化之间紧密的联系,我们同时利用进化信息(E1和E2)来预测SNP位点。E1是从位置特异性打分矩阵(position-specificscoringmatrix, PSSM)中获得的属性值。PSSM是通过将目标序列在NCBI中非冗余的蛋白库里进行PSI-BLAST进行比对得到。图8-2显示了目标预测位点编码成20维PSSM属性的过程。

表8-3 氨基酸对应的密码子

首先,使用预测位点所在的蛋白质序列和NCBI中非冗余蛋白质数据库(2009年6月版本)进行PSI-BLAST比对。对于每个序列,最早的PSSM数据是一个n×20的矩阵,其中,n是蛋白质序列的长度,20是20种氨基酸的位置特异性保守性打分值(包括自己对自己的保守性打分)。这个矩阵代表了20种氨基酸于蛋白质序列上每个残基的可能性值和进化信息向量。

其次,为了增加预测位点上下游的信息,使用了滑动窗口,通过周围相关残基的PSSM打分来整合相关残基与中心残基的依赖性和相关性。在滑动窗口的PSSM(smoothed PSSMprofile)中,使用大小为5的滑动窗口来加入位点周围的进化信息。具体来说,对于在位置i的氨基酸残基ai,构建了一个特征向量Vi=w×20,其中w是滑动窗口的大小。对于其中的每一个预测位点,滑动窗口中的值被加和成一个数值,即意味着残基ai的每一个行向量都代表了滑动窗口中周围行向量的总和。

E2是氨基酸的进化熵值(phylogeneticentropy)(或者说是信息量,informa-tioncontent)。在我们的研究中,整合了SITF信息与经典的系统熵值函数,得到Ci值来评估变异的可能性。Ci=f(i)lnf(i),其中f(i)是在位置i的SITF值。

SIFT(sortingintolerant from tolerant)是一个代表保守性的值,表示了在某个位点氨基酸的变化。它通过对输入序列与其他序列进行多序列比对。根据氨基酸在所排布的不同位置的出现情况,SIFT给予一个0~1之间的值来表示在这种排布下所能观察到的氨基酸频率以及估计的不能观察到的频率的加权平均。

8.4.1.3 基于模糊集理论的平衡数据集方法

如前所述,我们的数据集包括243个SNP和6184个非SNP。因此,SNP和非SNP数据的比例接近1∶26,是极度不平衡的。在支持向量机训练中,这样的不平衡问题通常会导致向大样本类的训练偏差,因为算法本身可能被大类所充斥而忽略了小类。这就是说,分类器在这种情形下不可能对于这两类给出正确的划分。为了克服这个问题,大量的新技术研究用来调整数据集的大小。Under-sampling就是其中一个很普遍的方法,它通过在大类中选择一些数据来匹配小类从而减少了大类的数据个数。但是这种方法有个缺陷,那就是无法保持大类整个的特性。还有很多方法是基于Under-sampling思想的,比如自组织映射(selforganizing map,SOM)神经网络和修正的提升过程(Data Boost)。另一种被广泛使用的方法是over-sampling,那就是重复小数据集多次来获得一个可以与大数据集相匹配的数据量。但是这种数据的重复可能会导致过度学习。分组训练就属于过采样的类型,它将整个大类数据分成很多个小组,然后用每个小组的数据去与小类的数据进行训练。最近,一些新的方法被提出,这些方法考虑了整类数据集中分布的情况,从而利用这种分布来产生新的数据样本。比起前述两种方法,这种方法更好而且更有意义。但问题的关键在于通常无法知道整个数据集的潜在分布。

图8-2 产生氨基酸PSSM属性特征(E1)过程

最早的PSSM通过对蛋白序列进行PSI-BLAST得到,然后通过滑动窗口来整合目标预测位点周围的特异性打分来得到滑动窗口的PSSM。最后,滑动窗口的PSSM通过S型函数进行归一化

在我们的研究中,采用了一种基于模糊集理论的新方法来平衡数据集(见图8-3),并不去假设大类和小类的分布情况,而是通过模糊集理论建立了类的概率模糊隶属函数。对于大类数据,隶属函数是基于统计中心极限定理的高斯方程,然后通过α裁剪来减少数据集大小。而对于小类数据,隶属函数是Li等所提出的MTD方程(mega-trend diffusionfunction),可用来增加数据集大小。在将数据集平衡之后,通过创建新的特性来进行维度扩展,用以收集在大数据集裁剪过程的丢失信息。这些新特性通过大类和小类所对应的模糊隶属函数来计算。

图8-3 基于模糊集理论来平衡数据集方法

为了得到平衡的数据集,非SNP数据集(大数据集)通过构建高斯方程和α裁剪来减少数据集大小,SNP数据集(小数据集)通过构建MTD方程来进行构建虚拟数据,从而扩展小数据集。这两步之后,大数据剪裁中丢失的数据信息通过属性拓展来进行收集。

为了表明此模糊集理论的平衡方法的优势,采用最简单的特征组合(仅有序列特征S1和S2),在同一数据集上分别用模糊集学习方法和分组训练方法进行预测模型构建。采用分组训练方法,发现敏感度、特异度和准确率分别是65.57%、66.32%和66.31%;而采用模糊集理论的平衡方法,发现敏感度、特异度和准确率分别提升至82.5%,67.5%和75%(独立测试结果见图8-4)。从图8-4中可以很明显地发现,模糊集理论的平衡方法是要优于分组训练。

8.4.2 实验结果与讨论

在蛋白质层面进行SNP位点预测,可以转化为预测每一个氨基酸位点是否是SNP,即一个二类预测问题,整个方法的工作流程如图8-5所示。

图8-4 分组训练平衡方法和基于模糊集理论的平衡方法构建的预测模型表现的比较

在这个柱状图中,比较了敏感度、特异度和准确率。浅色柱子表示分组训练平衡方法构建的预测模型的预测表现,深色柱子表示基于模糊集理论平衡方法构建的预测模型的预测表现。

图8-5 预测人类CYP450中SNPs的工作流程

首先在人类CYP450中搜集SNPs和非SNPs。对于每个位点,抽取用来构建模型的特征;然后用基于模糊集理论的平衡方法来平衡SNPs和非SNPs数据;最后进行SVM训练和独立测试。

为了表示目标残基,从序列提取了不同类别的特征,包括两翼序列特征、目标位点特征和进化信息,表8-4给出了所有特征及其简单描述。关于这些特征的详细描述已经在实验方法部分中提及。

表8-4 氨基酸对应的密码子

在实验中,构建了16种特征组合来研究不同特征的重要性,同时可以发现最优的预测分类器。6种特征(S1、S2、T1、T2、E1和E2)在实验中构成了四大类和16种不同的组合。第一大类通过在两翼序列特征(S1和S2)上增加目标位点特征(T1和T2)构成。在这个处理之后,第一大类中可以得到4种特征集,分别是S1+S2、S1+S2+T1、S1+S2+T2和S1+S2+T1+T2。这4种组合被认为是“基本组合”,因为接下来的16种组合都是在这4种组合的基础上增加新的特征而形成。为了使阐述更清晰,把这4种基本组合分别用C1、C2、C3和C4表示。在第二大类中,PSSM(E1)加入到基本组合中,从而形成4个特征集,S1+S2+E1(C5)、S1+S2+T1+E1(C6)、S1+S2+T2+E1(C7)和S1+S2+T1+T2+E1(C8)。在第三大类中,系统熵值(E2)加入到基本组合中组成4个新的特征集S1+S2+E2(C9)、S1+S2+T1+E2(C10)、S1+S2+T2+E2(C11)和S1+S2+T1+T2+E2(C12)。在第四个大类中,把PSSM(E1)和系统熵值(E2)同时加入到基本组合中,组成特征集S1+S2+E1+E2(C13)、S1+S2+T1+E1+E2(C14)、S1+S2+T2+E1+E2(C15)和S1+S2+T1+T2+E1+E2(C16)。

8.4.2.1 序列和目标特性组合(基本组合)的预测模型表现

序列特征是用来进行预测的经典属性。大量研究都是通过分析序列做出成功预测的,比如预测赖氨酸的甲基化作用和乙酰化,micro RNA的转移起始位点和人类转移因子的相互作用等。对于预测SNP而言,上文所述的SCYPPred是一个仅仅基于两翼序列特征(S1和S2)来进行预测的在线工具,其准确率为66.7%。这一事实传递了这样一个信息,在SNP预测中,序列特征是有用且有意义的。因此,所有的混合特征集都会包含这两个特征。

除了序列特征之外,提出了目标位点特征作为基本组合特征,是因为SNP是一种只会发生在一个碱基对的点突变。氨基酸类型性质(T1)是根据R集团残基而形成的。R集团不同的大小和组成导致氨基酸在蛋白质中扮演不同的角色并显示不同的功能。举例来说,蛋氨酸作为甲基供体而存在就是因为它包含硫集团。如图8-6(a)所示,增加氨基酸类型特征(T2)之后,预测的表现敏感度从82.5%增长到92.5%,准确率从75%增长到80%。

可用密码子数目(T2)作为目标位点特性第一次用于预测中。我们提取此特性的想法源自于密码简并性。简并性使得点变异更具有可容忍性,而且导致了同义的SNP。一些研究已经指出了简并性和变异之间的联系。在Wang L的研究中,在细菌压抑状态规则中的简并性提供了另一种对于一般进化挑战的解决方案。而最近Castle JC的研究报道,在编码区中密码子的第3个位点SNPs的比例较高而且保守型最低,而在第2个位点中发现的SNPs最少,表明氨基酸编码的密码子的简并性以及简并性与SNPs的关系。因此,密码简并可作为一个特征来预测这个位点是否是SNP。如图8-6(b)所示,混合特征集S1+S2+T1相比S1+S2,敏感度从67.5%增长到93.4%,准确率从75.0%增长到87.5%。

此外,我们把T1和T2同时增加到序列特征中组成而混合特征集。这个特征集取得的预测效果如图8-6(c)所示,该预测模型能获得91.3%的敏感度, 85.0%的特异度和88.1%的准确率。所有模型表现的统计值都有所增长。因此可以得出结论,T1和T2对于预测SNP有积极的作用,在未来的预测中可以将其考虑进去。

图8-6 只用两翼序列特征(S1+S2)预测模型和同时用两翼序列特征(S1+S2)与目标预测位点特征(T1和T2)预测模型的预测能力比较

8.4.2.2 PSSM特性(E1)在SNP预测中的表现

PSSM是进化信息的一种形式,它提供了相对于单一序列特征而言更广泛的信息。PSSM是一个概率矩阵,其中行是蛋白质序列中的位点,列是20种氨基酸。矩阵中每一个值表示了某种氨基酸出现在序列该位点的概率。对于一个给定序列,代表着残基的保守性。在大量的预测研究中,PSSM体现了重要的价值,如蛋白质 RNA交互残基预测、转移因子绑定位点预测、防冻蛋白质序列和ATP绑定残基预测。在我们的工作中,把PSSM结合到4种基本混合特征集来训练支持向量机模型。如图8-7所示,PSSM加到S1+S2、S1+S2+T1和S1+S2+T1+T2时,能提高预测效果。这其中最好的特征集是S1+S2+T1+T2+E1,这个模型能达到91.25%的敏感度、93.75%的特异度以及92.5%的准确率。值得注意的是,在实验中,PSSM加入到S1+S2+T2特征集后,并没有提升预测的准确率。一个可能的原因是因为PSSM有400维的数据,远大于S1+S2+T2组合的26维。在这种情况下,S1+S2+T2特征的分类能力极有可能被埋没了。另一个原因是T2作为每一个氨基酸的可用密码子数目与变异和进化是相关的,因此,进行SNP预测的过程中T2和PSSM在表达进化信息时可能会存在交叉部分。

图8-7 基本特征集预测模型和基本特征集加上PSSM(E1)预测模型的预测能力比较

8.4.2.3 系统熵值(E2)在SNP预测中的表现

进化信息可以增强模型的表现能力。但是对于PSSM而言,它所拥有的巨大维数将使其占据整个特征集中的主要部分,从而降低了其他特征对于最后预测的贡献。有两种方法可以用来克服这种问题。第一种方法是对其他特征通过数学变化来扩展维度,使得其他特征和PSSM具有接近的维度大小。这种方法的缺点是所有过程仅仅是追求一种数学上的均等而忽略所有特征之间的潜在联系。另一种方法是启用另一种维度小于PSSM的进化特征。这种方法不仅能提供一种类似于PSSM预测表现,而且还减少了大维度特征对于整个预测结果的影响。在这一节中,我们选择第二种方法,用进化熵值(E2)取代PSSM(E1)加入基本组合组成混合集来训练模型。位点熵值是基于Shannon信息论熵值(Shannon熵值)来评估残基的保守性。Shannon熵值及其引申形式广泛应用于衡量多样性和保守性的研究中。Zhang等提出了通过计算Shannon熵值来预测催化残基的Ent WOP:

图8-8 基本特征集预测模型和基本特征集加上进化熵值(E2)预测模型的预测能力比较

令人惊讶的是,S1+S2+T2+E2特征集相对于S1+S2+T2表现出了更差的预测效果,这似乎说明E2具有负作用这一事实。但是对于混合特征集S1+S2+T1+T2+E2,又可以获得93.8%的敏感度、88.8%的特异度和91.3%的准确率这样好的预测结果。由此表明,T1、T2、E1和E2之间存在着极其复杂的联系。

8.4.2.4 系统熵值(E2)和PSSM(E1)结合到基本特征集后的预测表现

上文已经证实了PSSM(E1)和系统熵值(E2)能增加模型的预测能力,但是并不确定两个特征组合起来对模型的性能会产生怎样的影响。所以,我们把E1和E2一起加入到基本组合中,形成新的4个混合特征集来训练支持向量机模型。图8-9是基本特征集的预测模型和加入E1+E2特征集的预测效果比较。显而易见,当E1和E2加到S1+S2上时,极大地提高了预测效果,但是对于其他3个特征集组合而言,并无特别效果。在图8-9(a)中引起的预测能力提高很容易解释,可能的原因就是S1和S2作为最基本的特征本身所拥有的信息很有限,在SNP预测中并不足以代表整个蛋白质序列的所有特点。然而从图8-9(d)来看,E1+E2并不体现出E1和E2效果的叠加。从这一点来看,就像之前讨论的一样,再次确认了T1、T2、E1和E2之间存在复杂的相互关系这一事实。

图8-9 基本特征集预测模型和基本特征集同时加上PSSM(E1)和进化熵值(E2)预测模型的预测能力比较

8.4.2.5 最精确的训练模型

表8-5总结了四大类混合特征集通过支持向量机得到的预测模型的预测表现。从表中可以看到,目标位点特征(T1、T2)和单个的进化信息(E1或者E2)对于SNP分类器的准确率有较大提高。排名前3位的模型是:S1+S2+T1+T2+E1混合特征集,准确率92.5%;S1+S2+T1+E1混合特征集,准确率91.9%;S1+S2+T1+T2+E2混合特征集,准确率91.3%。很明显,其中准确率最高是92.5%。至于最优的模型需综合比较其敏感度和特异度,当然还有预测准确率的数值。其次,通过ROC曲线来研究其综合性能(见图8-10)。通过比较发现,其中有3个模型显示出相似的预测能力。因此,可以通过分析特征集之间的不同来找到最优的那个。特征评估的一个重要原则是特征简单而易于获取,因而S1+S2+T1+T2+E2最终成为皇冠上的明珠,因为这个模型的所有特征都是低维度的,通过简单计算就可得到。相比较而言,PSSM(E1)拥有近400维的数据,其计算量非常庞大。

在追求准确率、敏感性度和特异度等预测优劣标准的同时,也将多度拟合(over-fitting)这个问题考虑进我们的预测过程。多度拟合主要由两方面原因造成。第一个是因为数据集太小。在我们的工作中,原始数据集有243个SNP (正数据集)和6184个非SNP(负数据集),然后通过模糊集平衡方法生成的最终用于训练的数据集是800个正数据和800个负数据。正负两种数据集都不小。而第二种可能造成过拟合的原因是使用了太多的特征而造成过度学习,而我们的最优预测模型并没有太多的特征维数。表8-5显示了每一个特征的维数,从表中可以明显发现最优预测模型(S1+S2+T1+T2+E2)只有28维数据。在整个研究过程中,我们分析了16种特征组合,其维度从26~428。最终的评价机制在考虑预测性能的同时也考虑了预测模型特征维度的多少。例如,大维度的特征(E1,PSSM)就可能有此缺陷,前文也有相关的详细表述。

图8-10 前3名预测模型的ROC曲线(彩图见第393页)

表8-5 16种特征组合包含的特征以及每个特征组合的预测模型表现

(续表)

8.4.2.6 与其他方法的比较

在过去的几十年中,大多数关于SNP预测的研究都把重心放在SNPs的功能上,如SIFT、Poly Phen和SNAP等。SIFT主要是预测一个氨基酸的替换是否影响蛋白质的功能,Plyphen则是预测氨基酸的替换对于人类蛋白质结构和功能的可能影响,而SNAP则是发现了代理SNP。极少数方法是用来预测SNPs的发生和出现,也就是预测一个位点是否会成为一个SNP。而且仅有的几个对于SNPs发生的预测方法,通常其准确率在50%~70%。在本章中,我们的预测模型在准确率上迈进了一大步,达到了92.5%。我们将结果与其他SNP发生预测算法进行了比较,包括基于DNA序列的方法和基于蛋白质序列的方法(见表8-6)。其中,基于DNA序列的方法包括了6种模式识别算法(Align ACE、ANN、Motif Sam-pler、YMF、Weeder和Projection)以及2种机器学习技术(Random Forests和KNNs)。基于蛋白质序列的方法主要是我们在前期工作中提出的SCYPPred。

我们的SNP预测模型能达到92.5%的准确率,相比于以往最优的75.6%,获得了16.9%的提升。这个模型的高准确率提示,氨基酸类型(T1)、可用密码子数目(T2)、PSSM(E1)和系统熵值(E2)这些特征在提高准确率方面有着重要作用。更值得注意的是,基于模糊集理论的平衡数据集方法能有效防止大数据类的过度拟合,进一步地提高了模型的预测性能。相信这种快速而又准确的SNP预测模型能给多态性研究和药物研究带来有用的信息和指导作用。

表8-6 我们的模型与其他预测SNP方法的比较

(续表)

8.4.3 结论

本研究中我们开发了一种有效的计算模型来预测SNP。它通过提取目标残基和两翼蛋白质序列的一些特征来进行支持向量机训练而得到。这些特征囊括了经典的氨基酸类型、序列组成、物理化学性质和位置特异打分矩阵(PSSM),还有一些新构造的特征,比如进化熵值和氨基酸可用密码子数目。另外,通过组合了不同的特征得到了16个混合特征集来分别建立预测分类器。在训练支持向量机分类器的过程中,采用了一种基于模糊集理论的方法消除由于正负数据集不平衡而造成的模型偏移的影响。最终,通过支持向量机训练得到了一个性能良好的预测模型,具有91.25%的敏感度、93.75%的特异度、92.5%的准确率以及0.925的AUC值。相较于其他基于DNA序列和蛋白质序列的方法,我们的模型有了较大的提高。通过研究也可以看出,我们提取的特征,特别是氨基酸类型、可用密码子数目、PSSM和系统熵值能有效提高SNP预测的表现。准确而可靠的预测模型对于SNP研究、基因组变异研究,还有药物研究均具有重要的参考价值。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈