首页 理论教育 反相折叠方法

反相折叠方法

时间:2022-02-14 理论教育 版权反馈
【摘要】:这就是反相折叠法的基本思想。反相折叠的方法也称为串线法或折叠识别法。这些评价方法都是通过统计分析已知晶体结构的蛋白质分子得到。建立以知识为基础的势函数统计分析后得到的,当然不同的反相折叠定义的势函数形式是不相同的。对数据中的所有折叠方式均计算模型蛋白的适应性得分,根据得分大小确定模型蛋白的正确折叠方式。

同源模拟需要较高的同源关系,那么,对于许多同源性较差(氨基酸序列彼此相似度低于30%)的蛋白质,该如何进行结构模拟呢?

蛋白质的序列虽然千差万别,但是其结构却属于为数不多的几种折叠方式。这是因为在自然进化过程中折叠方式的保守型远远大于序列的保守性。因此有些蛋白质的序列虽然同源性较差,但具有相似的折叠方式和功能,拥有极为类似的三维结构。对于这些蛋白质,蛋白质序列和结构之间的匹配来源于此目标序列的折叠类型以及相应的三维结构。这就是反相折叠法的基本思想。

反相折叠(inverse folding)的方法也称为串线法(threading)或折叠识别法(folding recognition)。

“串线(threading)”算法:串线结构分析是试图把未知的氨基酸序列和各种已存在的三维结构相匹配,并评估序列折叠成那种结构的合适度。串线法最适用于折叠(fold)的识别,而不是模型的建立。它是快速用未知序列的氨基酸侧链替换已知序列中的氨基酸位置。Jones等首先从蛋白质结构数据库中挑选蛋白质结构建立折叠子数据库,以折叠子数据库中的折叠结构作为模板,将目标序列与这些模板一一匹配,通过计算打分函数值判断匹配程度,根据打分值给模板结构排序,其中打分最高的被认为是目标序列最可能采取的折叠结构。Threading方法的难点在于序列与折叠结构的匹配技术和打分函数的确定(Jones等,1992)。

反相折叠的方法很多(Finkelstein 1991,Thornton 1991,Godzik 1992, Maiorov 1992,Sippl 1992,Bryant 1993),他们的核心就是如何建立有效的方法来定量评价序列和结构之间的匹配关系。这些评价方法都是通过统计分析已知晶体结构的蛋白质分子得到。

折叠识别法原理:将一条序列分段与许多不同的蛋白质结构(或结构的片段)进行比对,计算出此序列最有可能折叠成为哪一个结构,将氨基酸序列折叠成空间立体结构,由空间组合的计分方法计算不同的排列组合得分,依得分的高低,判断序列折叠成为某一立体结构的概率,这种计算序列与结构之间的排序过程称为穿针引线(threading)。

1)折叠数据库的准备

折叠数据库中蛋白质需要满足如下要求:包含尽量多的折叠模式;蛋白质的结构得到精确解析;两个蛋白(代表两种不同折叠方式)的序列同源性越低越好,结构相似性越低越好,序列同源性最高不能超过35%;典型的折叠数据库中含有100~200种折叠方式。

2)建立以知识为基础的势函数

建立以知识为基础的势函数统计分析后得到的,当然不同的反相折叠定义的势函数形式是不相同的。比如在Profile-3D中,就采用了简单的残基在不同化学环境中分布的比率。在拓扑指纹方法(topology fingerprint approach)中(Godzik 1992),就采用了式(5-14)所示的势函数:

式中:i,j和k分别为氨基酸的序号;Ai,Aj和Ak分别在这些位置上的氨基酸残基种类;ΓAi为蛋白质A中i位置上残基的按照溶剂可及表面包埋/暴露的分类;CAij为第i和j位上的残基是否接触的信息;E1(Ai)、E2(Ai,Aj)和E3(Ai,Aj,Ak)为能量参数,通过统计分析得到。

3)折叠模式的确定

采用上述势函数对序列和蛋白质的匹配情况进行评估,得出其适应性得分(compatibility score)。对数据中的所有折叠方式均计算模型蛋白的适应性得分,根据得分大小确定模型蛋白的正确折叠方式。

如何计算一种折叠方式的适应性得分呢?需要采用一种优化方法确定模型蛋白的残基和折叠位点的对应关系,每一种对应关系相应地有一个适应性得分,经过优化使得适应性得分最高、模型蛋白的残基和折叠位点达到最佳匹配。其实在一般的反相折叠方法中,其匹配速算法和一般序列比对的方法基本相同,常用的优化方法有双动态规划算法(doubule dynamic programming,DDP)以及迭代算法等。DDP方法非常类似于基于三位结构的自动叠加方法,请参考同源蛋白预测部分。DDP方法需要构造两类矩阵:H(highlevelmatrix)和L(low levelmatrix)。Hij为模型蛋白的残基i在折叠位点j的得分矩阵元,根据Hij采用那个DDP优化方法就可以得出此折叠方式的适应性得分。但是,如何计算构建Hij?Hij中每个元素的数值就等于相应的Li′j′得分。i残基占据了折叠位点j后,其他残基占据剩下的折叠位点,从而形成了Li′j′矩阵元,根据Li′j进一步采用DDP方法优化得出最佳匹配模式,将最佳匹配模式的得分作为残基i占据位点j的最终得分,此得分也就是H矩阵的矩阵元素Hij的数值。

根据模型蛋白的折叠方式,将具有此折叠方式的蛋白质作为参考蛋白,依据与同源蛋白质类似的方法建立最终模型。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈