首页 理论教育 蛋白质结构预测

蛋白质结构预测

时间:2022-02-14 理论教育 版权反馈
【摘要】:蛋白质结构预测的目的就是为了得到尚未被X射线衍射或NMR测定的蛋白质的结构,以方便进行下一步的分子模拟。二级结构预测主要靠的就是分析蛋白质序列,空间结构预测的方法则多种多样。蛋白质二级结构的预测实际上就是从蛋白质序列中找出可能α螺旋、β折叠和β转角等区域。通过对大量已知结构的蛋白质进行统计,为每个氨基酸残基确定其二级结构倾向性因子。

蛋白质结构预测的目的就是为了得到尚未被X射线衍射或NMR测定的蛋白质的结构,以方便进行下一步的分子模拟。

蛋白质结构预测分为二级结构预测和空间结构预测。二级结构预测主要靠的就是分析蛋白质序列,空间结构预测的方法则多种多样。

2.3.1 二级结构预测

蛋白质二级结构的预测实际上就是从蛋白质序列中找出可能α螺旋、β折叠和β转角等区域。而我们已经知道一些α螺旋、β折叠和β转角的序列特征,因此可以直接比对相似性来判断,也可以使用人工智能的方法来判别。

2.3.1.1 Chou-Fasman方法

Chou-Fasman方法是一种基于单个氨基酸残基统计的经验参数方法,由Chou和Fasman在20世纪70年代提出。通过统计分析,获得每个残基出现于特定二级结构构象的倾向性因子,进而利用这些倾向性因子预测蛋白质的二级结构。

每种氨基酸残基出现在各种二级结构中倾向或者频率是不同的,如Glu主要出现在α螺旋中;Asp和Gly主要分布在转角中;Pro也常出现在转角中,但是绝不会出现在α螺旋中。因此,可以根据每种氨基酸残基形成二级结构的倾向性或者统计规律进行二级结构预测。另外,不同的多肽片段有形成不同二级结构的倾向。例如:肽链Ala(A)-Glu(E)-Leu(L)-Met(M)倾向于形成α螺旋,而肽链Pro(P)-Gly(G)-Tyr(Y)-Ser(S)则不会形成α螺旋。

通过对大量已知结构的蛋白质进行统计,为每个氨基酸残基确定其二级结构倾向性因子。在Chou-Fasman方法中(见表2-1),这几个因子是Pα、Pβ和Pt,它们分别表示相应的残基形成α螺旋、β折叠和转角的倾向性。另外,每个氨基酸残基同时也有四个转角参数,f(i)、f(i+1)、f(i+2)和f(i+3)。这四个参数分别对应于每种残基出现在转角第一、第二、第三和第四位的频率,例如,脯氨酸约有30%出现在转角的第二位,然而出现在第三位的概率不足4%。表2-1中显示了Chou-Fasman预测方法中所用到的各种参数,其中参数值Pα、Pβ和Pt是分别在原有相应倾向性因子的基础上乘以100而得到的。

根据Pα和Pβ的大小,可将20种氨基酸残基分类,如谷氨酸丙氨酸是最强的螺旋形成残基,而缬氨酸、异亮氨酸则是最强的折叠形成残基。除各个参数之外,还有一些其他的统计经验,如脯氨酸和甘氨酸最倾向于中断螺旋,而谷氨酸则通常倾向中断折叠。

在统计得出氨基酸残基倾向性因子的基础上,Chou和Fasman提出了二级结构的经验规则,其基本思想是在序列中寻找规则二级结构的成核位点和终止位点。在具体预测二级结构的过程中,首先扫描待预测的氨基酸序列,利用一组规则发现可能成为特定二级结构成核区域的短序列片段,然后对于成核区域进行扩展,不断扩大成核区域,直到二级结构类型可能发生变化为止,最后得到的就是一段具有特定二级结构的连续区域。下面是4个简要的规则。

表2-1 20种常见氨基酸的Chou-Fasman参数

1)α螺旋规则

沿着蛋白质序列寻找α螺旋核,相邻的6个残基中如果有至少4个残基倾向于形成α螺旋,即有4个残基对应的Pα>100,则认为是螺旋核。然后从螺旋核向两端延伸,直至四肽片段Pα的平均值小于100为止。按上述方式找到的片段长度大于5,并且Pα的平均值大于Pβ的平均值,那么这个片段的二级结构就预测为α螺旋。此外,不容许Pro在螺旋内部出现,但可出现在C末端以及N端的前三位,这也用于终止螺旋的延伸。

2)β折叠规则

如果相邻6个残基中若有4个倾向于形成β折叠,即有4个残基对应的Pβ>100,则认为是折叠核。折叠核向两端延伸直至4个残基Pβ的平均值小于100为止。若延伸后片段的Pβ的平均值大于105,并且Pβ的平均值大于Pα的平均值,则该片段被预测为β折叠。

3)转角规则

转角的模型为四肽组合模型,要考虑每个位置上残基的组合概率,即特定残基在四肽模型中各个位置的概率。在计算过程中,对于从第i个残基开始的连续4个残基的片段,将上述概率相乘,根据计算结果判断是否是转角。如果f(i)× f(i+1)×f(i+2)×f(i+3)大于7.5×10-5,四肽片段Pt的平均值大于100,并且Pt的均值同时大于Pα的均值以及Pβ的均值,则可以预测这样连续的4个残基形成转角。

4)重叠规则

假如预测出的螺旋区域和折叠区域存在重叠,则按照重叠区域Pα均值和Pβ均值的相对大小进行预测,若Pα的均值大于Pβ的均值,则预测为螺旋;反之预测为折叠。

Chou-Fasman预测方法原理简单明了,二级结构参数的物理意义明确,该方法中二级结构的成核、延伸和终止规则基本上反映了真实蛋白质中二级结构形成的过程。该方法的预测准确率在50%左右。

2.3.1.2 序列同源比较

通过序列比较发现相似的序列,根据相似序列具有相似结构的原理,将相似序列(或者序列片段)所对应的二级结构作为预测的结果。

序列同源比较在预测二级结构方面包括两个过程,一是学习过程,二是预测过程。在学习阶段,用一个滑动窗口(例如长度为15)扫描已知结构的训练序列,序列个数为几百个,并且这些序列彼此之间的相似性很小。通过窗口扫描形成大量的短片段(称为训练片段),记录这些片段中心氨基酸残基的二级结构。在预测阶段,利用同样大小的窗口扫描给定的序列U,将在每一个窗口位置下的序列片段U′与上述训练片段相比较,找出50个最相似的训练片段。假设这些相似片段中心残基各种二级结构的出现频率分别为fa、fb和fc,用它们预测片段U′中心残基的二级结构,可以取频率最高的构象态作为U′中心残基的二级结构,或者直接以fa、fb和fc反映U′中心残基各种构象态可能的分布。

2.3.1.3 人工神经网络方法

人工神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。人工神经网络以其具有自学习、自组织、较好的容错性和优良的非线性逼近能力,受到众多领域学者的关注。

人工神经网络的最简单单元是人工神经元,人工神经元与生物神经元的类比如图2-3所示。

图2-3 人工神经元与生物神经元的类比

单个人工神经元又被称为感知器模型,是在1957年提出的。x1,x2,x3,…是输入,y为输出,w1,w2,w3,…为输入权值,θ为阈值。满足以下函数关系:

式中:f是特性函数,常用的特性函数如图2-4所示。

图2-4 常用的特性函数

单个人工神经元(感知器)几乎没什么用处,因此提出了神经网络的概念。前向多层神经网络是大量神经元并行处理,可以解决任意复杂的非线性分类问题。

前向多层神经网络需要训练,训练的意思是首先需要一些已知的训练样本(特定输入得特定输出),先给神经网络各层的权值、阈值分配随机值,然后将训练样本输入,看输出与目标输出的误差,修改权值和阈值,使误差减小直到满足要求。最后需要一些测试样本来测试一下神经网络的性能。

反向传播算法(Back-Propagation)是最早提出的训练前向多层神经网络的方法,因此前向多层神经网络也被称为BP网络,如图2-5所示,至今仍是使用最广泛的人工神经网络。

图2-5 BP网络

在二级结构预测方面,BP网络也是先找一系列训练数据,训练时BP网络能自动提取出α螺旋、β折叠和β转角的序列特征,然后对新的序列进行预测。

2.3.1.4 支持向量机SVM

支持向量机(SVM)是数据挖掘中的一个新方法,能非常成功地处理回归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广到预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。目前国际上支持向量机在理论研究和实际应用两方面都正处于飞速发展阶段。它广泛应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器,它们也可以认为是提克洛夫规则化(Tikhonov regularization)方法的一个特例。这族分类器的特点是能够同时最小化经验误差与最大化几何边缘区,因此支持向量机也称为最大边缘区分类器。

通常希望分类的过程是一个机器学习的过程。这些数据点是n维实空间中的点,希望能够把这些点通过一个n-1维的超平面分开。通常这个称为线性分类器。有很多分类器都符合这个要求。但是希望找到分类最佳的平面,即使得属于两个不同类的数据点间隔最大的那个面,该面也称为最大间隔超平面。如果能够找到这个面,那么这个分类器就称为最大间隔分类器。

支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。建立方向合适的分隔超平面使两个与之平行的超平面间的距离最大化。其假定为,平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。

所谓支持向量是指那些在间隔区边缘的训练样本点。这里的“机(machine,机器)”实际上是一个算法。在机器学习领域,常把一些算法看作是一个机器。

支持向量机(Support Vector Machines,SVM)与神经网络类似,都是学习型的机制,但与神经网络不同的是SVM使用的是数学方法和优化技术。

支持向量机是由Vapnik领导的AT和TBell实验室研究小组在1963年提出的一种新的非常有潜力的分类技术,SVM是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域。由于当时这些研究尚不十分完善,在解决模式识别问题中往往趋于保守,且数学上比较艰涩,这些研究一直没有得到充分的重视。直到20世纪90年代,统计学习理论(Statistical Learning Theory,SLT)的实现和由于神经网络等较新兴的机器学习方法的研究遇到一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等,使得SVM迅速发展和完善,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。从此迅速地发展起来,现在已经在许多领域(生物信息学、文本和手写识别等)都取得了成功的应用。

SVM的关键在于核函数。低维空间向量集通常难于划分,解决的方法是将它们映射到高维空间。但这个办法带来的困难就是计算复杂度的增加,而核函数正好巧妙地解决了这个问题。也就是说,只要选用适当的核函数,就可以得到高维空间的分类函数。在SVM理论中,采用不同的核函数将导致不同的SVM算法。

支持向量机的用法和人工神经网络一样。

2.3.2 空间结构预测

2.3.2.1 蛋白质同源建模

蛋白质同源建模是蛋白质三维结构预测的主要方法。PDB数据库有许多已知的蛋白质结构(通过X射线衍射或NMR等测定),拿未知结构的蛋白质序列去搜索,序列同源分析找到一个已知结构的同源蛋白质,以该蛋白质的结构为模板,为未知结构的蛋白质建立结构模型。从上述方法介绍也可以看出,预测新结构是借助于已知结构的模板而进行的,选择不同的同源蛋白质,则可能得到不同的模板,因此最终得到的预测结果并不唯一。

但是,值得注意的是,许多序列很相似的蛋白质不一定结构很相似,甚至差很远,这就会导致很大的错误。

如果能够找到一系列与目标蛋白相近的蛋白质的结构,得到更多的结构模板,则能够提高预测的准确性。通过多重序列比对,发现目标序列中与所有模板结构高度保守的区域,同时也能发现保守性不高的区域。将模板结构叠加起来,找到结构上保守的区域,为要建立的模型形成一个核心,然后再按照上述方法构建目标蛋白质的结构模型。对于具有60%等同部分的序列,用上述方法建立的三维模型非常准确。若序列的等同部分超过60%,则预测结果将接近于实验得到的测试结果。

同源建模的结果好坏必须使用分子模拟来验证,详细内容可以参见本书第5章。

2.3.2.2 从头设计

如果没有已知结构的同源蛋白质,就没办法同源建模,这时只能采用从头设计的方法,即直接根据序列本身来预测其结构。在1994年之前,还没有一个从头算方法能够预测蛋白质的空间结构。从那以后,人们陆续提出一些方法,表明了今后进一步研究可能的方向。有些研究小组运用距离几何方法得到了非常有希望的结果。将简化的力场与动态优化策略相结合,虽然得到的结果不算太精确,但很有意义,表明这样的工作非常有希望突破。从头预测方法一般由下列3个部分组成:①一种蛋白质几何的表示方法。由于表示和处理所有原子和溶剂环境的计算开销非常大,因此需要对蛋白质和溶剂的表示形式作近似处理,例如,使用一个或少数几个原子代表一个氨基酸残基;②一种能量函数及其参数,或者一个合理的构象得分函数,以便计算各种构象的能量。通过对已知结构的蛋白质进行统计分析,可以确定蛋白质构象能量函数中的各个参数或者得分函数;③一种构象空间搜索技术。必须选择一个优化方法,以便对构象空间进行快速搜索,迅速找到与某一全局最小能量相对应的构象。其中,构象空间搜索和能量函数的建立是从头预测方法的关键。

以上的力场、能量函数等都涉及分子模拟的根本原理,可参见本书第5章内容。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈