数据获得方法

时间：2023-02-14 理论教育版权反馈

【摘要】：考虑到不同二级结构的蛋白质折叠与不同氨基酸属性相关，所以在研究mRNA序列对蛋白质折叠的影响时，首先需要获得蛋白质序列中不同的二级结构片段。在研究蛋白质编码序列对其折叠速率的影响以及研究蛋白质折叠速率与其编码序列中同义密码子使用之间相关性的问题中，首先需要已知各蛋白质折叠速率的实验值，我们所研究的蛋白质的折叠速率的实验值取自蛋白质折叠速率研究的相关实验工作。

1）蛋白质二级结构的获得

考虑到不同二级结构的蛋白质折叠与不同氨基酸属性相关，所以在研究mRNA序列对蛋白质折叠的影响时，首先需要获得蛋白质序列中不同的二级结构片段。预测蛋白质二级结构的方法和软件很多，由于HNN只是根据片段的局部信息来预测其二级结构的，所以我们选择HNN在线软件来获得文章中的α螺旋和β折叠片段。HNN是在Qian和Sejnowski［43］所提出的较权威的预测方法的基础上进行改进的一种方法，它的网址是http：//npsa-pbil. ibcp.fr/cgi-bin/npsa＿automat.pl。因为对于α螺旋来讲，它一圈的平均长度为3.6个碱基，所以我们选择α螺旋和β折叠片段的最小长度均为4个碱基，忽略掉小于4个碱基的片段。

2）蛋白质折叠速率实验值的获得

在研究蛋白质编码序列对其折叠速率的影响以及研究蛋白质折叠速率与其编码序列中同义密码子使用之间相关性的问题中，首先需要已知各蛋白质折叠速率的实验值，我们所研究的蛋白质的折叠速率的实验值取自蛋白质折叠速率研究的相关实验工作。

3）蛋白质折叠速率理论值的计算

对未知折叠速率的氨基酸片段的相关研究中，需要计算氨基酸片段的折叠速率。我们计算中采用的是Gromiha提供的折叠速率预测模型［22］。

4）蛋白质编码序列的获得

蛋白质序列取自PDB库，蛋白质相对应的编码序列取自EMBL库，两个数据库均有各自的命名方式，在PDB库中没有提供与EMBL库的交叉引用。因此，我们只能通过其他提供交叉引用的数据库来建立PDB库和EMBL库之间的联系。具体做法如下：首先在PDB库中找到蛋白质的“structure summary page”；第二，通过它们的“外部连接项”找到该蛋白质在“OCA Browser”中的位置；第三，通过OCA的序列起源信息找到该蛋白质在SWISS-PROT中的位置；最后，利用SWISS-PROT库提供的与EMBL的交叉引用找到该蛋白质的编码序列。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈