首页 理论教育 生物信息学研究范畴

生物信息学研究范畴

时间:2022-05-14 理论教育 版权反馈
【摘要】:简单地说,生物信息学的研究范畴包括两方面:数据库与相应的算法。这对从事生物信息学及其软件开发的人员来说无疑会增加许多重复性的工作,造成极大的人力资源浪费。数据库的格式代表数据库的形式,而其具体内容则是生物信息学及生物学工作者所关心的。与一级数据库类似,构建二级数据库的主要目的也是将有关生物信息学研究的成果保存下来,供后人使用,从而达到后人不需要重复前人的工作。

18.2 生物信息学研究范畴

简单地说,生物信息学的研究范畴包括两方面:数据库与相应的算法。两者之间的关系是:两者缺一不可,因此,只有两者有机地结合才能构成一门完整的生物信息学学科。

由于现代生物学中获取生物学数据的实验方法日益更新,人们获得海量的生物学数据。如何让广大生物学工作者有效地利用这些数据,最大限度地减少大量重复性的工作,早已为广大生物学工作者所关注。但光有数据共享显然是不够的,因为如何充分利用这些数据还取决于这些数据的“可操作性”,具体地就是计算机能顺利地读取和识别这些数据。如果不同人测定同一种生物大分子如DNA序列所得到的数据以不同的格式存放,则人们就要编制出不同的相关软件来读取。这对从事生物信息学及其软件开发的人员来说无疑会增加许多重复性的工作,造成极大的人力资源浪费。为此,人们将描述同一类生物大分子同一类性质的数据以某种固定的格式保存在相应的计算机存储器中,这在生物信息学中被称之为生物大分子数据库。比如,蛋白质三维结构数据库,Genbank核酸序列数据库等均以某种固定格式存储在计算机的存储器中。

数据库的格式代表数据库的形式,而其具体内容则是生物信息学及生物学工作者所关心的。因此,一个生物大分子数据库必须说明它的功能和特点。

以上我们从构建数据库的形式与内容的角度简要地说明了生物大分子数据库的基本特点。而从数据库代表知识的原始性来看,则生物大分子数据库可分为原始数据库或一级数据库和二级数据库。一级数据库是指来源于生物学实验测定的原始生物学数据并通过简单归类整理和注释而集成的数据库。一般的,一级数据库构建是一个比较漫长的过程,比如蛋白质结构数据库PDB到目前为止已有三十多年,而其中的数据现在还一直在更新,它的最大特点是可以让实验工作者不需要重新测定这类数据。比如,某个蛋白质的三维结构已被搜集在PDB库中,则一般来说就不需要对它重新测定。二级数据库是在一级数据库的基础上,应用适当的生物信息学或其他方法对一级数据进行计算、整理、归类,将最终结果集成一个相应的数据库,比如SCOP数据库就是对PDB数据库中的蛋白质按“类、折叠方式、超家族及家族”进行分类而构成的二级数据库;HSSP数据库的一个主要内容就是对相关蛋白质进行序列比对,将比对结果构建相应的数据库。与一级数据库类似,构建二级数据库的主要目的也是将有关生物信息学研究的成果保存下来,供后人使用,从而达到后人不需要重复前人的工作。比如BLOCKS数据库就是一系列多重序列比对数据块,人们根据它构建了BLOSUM得分矩阵以及提取保守序列模式。

18.2.1 序列数据库

生物大分子序列数据库主要是蛋白质序列数据库与基因序列数据库,最常用的序列数据库便是Swissprot,它们主要可从网站:http://www.expasy.org/中找到。

该数据库由SIB(Swiss Institute of Bioinformatics,瑞士生物信息研究所)管理。Swiss-Prot建于1986年,从1987年开始,主要由瑞士Geneva大学医学生化系(现为瑞士生物信息研究所)和EMBL数字图书馆(现为欧洲生物信息研究所EBI)建立。Swiss-Prot是一个经典的蛋白质序列数据库。它力求提供高水准的蛋白质注释(主要包括蛋白质功能的描述、功能区结构、翻译后修饰、变种等),尽可能与其他数据库整合在一起,同时尽可能减少其冗余度。与其他数据库相比,它至少有如下三个特点:

(1)它包括核心数据和注释部分。其中核心数据包括蛋白质本身序列;参考文献;分别(主要包括蛋白质的来源)。而注释部分主要包括:蛋白质功能;翻译后的修饰;功能模块和位点如钙连接区域,ATP接合位点,Z-指纹(zinc fingers)等;蛋白质二级结构,四级结构如同类二聚体(homodimer),异类三聚体等;与其他蛋白质的相似性;与此缺失有关的疾病;序列冲突(sequence conflicts),变种等。

(2)最小的冗余度。

(3)与60个不同数据库的整合。

TrEMBL是Swiss-Prot数据库的计算机注释的增补部分,包括EMBL中没有被Swiss-Prot所收载的核苷酸序列翻译的增补部分。截止2007年2月20日,UniProtKB/Swiss-Prot 51.7共收载了259 034条序列条目,包括94 408 644个氨基酸残基,涉猎152 164篇文献。

而在2007年3月6日公布的UniProtKB/TrEMBL 35.0版,则收载了3 874 166个蛋白质序列条目,共有1 260 291 226个氨基酸残基。

18.2.2 结构数据库

确切地说,现有的生物大分子结构数据库只有一个即PDB数据库。其他的生物大分子结构数据库都是在PDB数据库基础上分化而来的,如SCOP数据库,CATH数据库等就是在PDB数据库基础上通过人工或自动分类产生的。因此,在结构数据库中,我们着重介绍PDB数据库。

PDB(Protein Data Bank)即蛋白质结构数据库,是国际上惟一的生物大分子结构数据库。它于1971年由美国Brookhaven国家实验室建立。PDB蛋白质数据库所收集的生物大分子三维结构主要通过X-射线衍射和核磁共振(NMR)实验测定,包括结构数据、文献、一级二级结构信息。目前PDB数据库的维护由结构生物信息学研究合作组织(Research Collaboration for Structural Bioinformatics,RCSB)负责管理,主要成员为Rutger大学,圣地亚哥超级计算中心(San Diego Supercomputer Center)和美国标准化研究所(National Institutes of Standards and Technology,NIST)。PDB数据库可在“www.rcsb.org”网站上获取。

img228

图18-1 PDB数据库中的文件名格式

1)PDB数据库的基本格式

PDB数据库的文件如图18-1所示。

下面是一个典型的PDB数据库格式的描述。

PDB中所有的分子空间结构信息文件的格式基本上都是一样的。文件由若干记录组成,每一记录有80个字符(包括空格)。开头的6个字符标明该记录的名称,现将各记录的意义分别叙述如下:

HEADER——该记录列出分子所属功能类,正式收入PDB日期以及该分子的判别码。

OBSLTE——该记录列出已被新分子文件取代的一些旧的分子的有关信息。

COMPND——该记录列出分子名。

SOURCE——该记录说明分子来源。

AUTHOR——该记录列出提供坐标者的姓名。

REVDAT——该记录列出文件历次修改的日期等有关信息。

SPRSDE——该记录列出说明此文件取代旧文件的有关信息。

JRNL——该记录引用与确定该分子空间结构有关的主要文献。

REMARK——该记录为关于该分子文件的其他信息。其中:REMARK1专用于列出与该结构有关的其他文献,REMARK2和REMARK3分别是关于晶体结构的分辨率及精华的信息。

SEQRES——列出蛋白质一级结构。

HET——列出非标准基团或残基的信息,主要是指除标准20个氨基酸残基以外的基团信息。具体格式如下:1—3列是“HET”;8—10列是非标准基团表示符;13列是链表示符号;14—17列顺序号;18列是插入码;21—25列是非标准基团中的原子数目;31—70列为注释。

HELIX——列出分子中有关α螺旋的信息。1—6是“HELIX”;8—10是顺序号;12—14螺旋表示符;16—18残基名;20链表示符;22—25残基序号;26插入码;28—30残基名;32链表示符;34—37残基序号;38插入码;39—40螺旋类别;41—70注释。

SHEET——列出分子中有关β折叠的信息,其格式如下:1—5为SHEET;8—10股号;12—14折叠表示符;15—16股数;18—20残基名;22链表示符;23—26残基序列号;27插入码;29—31残基名;33链表示符;34—37残基序号;38插入码;39—40类型判别码;42—45原子名;46—48残基名;50链表示符;51—54残基序号;55插入码;57—60原子名;61—63残基名;65链表示符;66—69残基序号;70插入码。

TURN——列出分子中有β转角(发夹结构)的信息。

SSBOND——列出分子中有关二硫键的信息。

SITE——列出重要功能部位。1—4SITE;8—10序号;12—14功能部位表示符;16—17组成功能部位的残基数;18—61组成功能部位的四个残基的位置信息。当然如果某功能部位由四个以上残基组成,则可以增加SITE记录以包含全部残基的位置信息,但增加的记录其功能部位表示符(12—14列)就与原来记录一致。

CRYST——该记录列出关于晶体结构的单晶胞参数及空间群标识。

ORIGX——该记录列出将下交坐标变换为用户送交坐标的参数。

SCALE——由正交坐标变换为分数坐标的参数。

MATRIX——列出代表非晶体学对称性的变化参数。

TVECT——列出无限共价连接结构的变换向量。

ATOM——列出标准基团的各原子的坐标。这是PDB的核心。其格式如下:1—4 ATOM;7—11原子序列号;13—16原子名;18—20残基名;22链表示符;23—26残基序列号;31—38原子X坐标;39—46原子的Y坐标;47—54原子Z坐标;55—60占有率;61—66温度因子。

SIGATM——列出原子参数的标准差;ANISOU——列出各向异性温度因子。

SIGUIJ——列出各向异性温度因子的标准差;TER——列出链的末端残基。

有时某个蛋白质结构因为某些原因会插入一些不是该蛋白质结构的氨基酸残基,其对应的原子就不是“ATOM”,而是“HETATM”,表明这些原子是外来原子,不是蛋白质本身的。

2)PDB数据库中有关蛋白质结构的获取

蛋白质结构数据的获取有下列几条途径。第一种描述如下:

(1)打开“www.rcsb.org”网站,可得如图18-2的界面,输入所需要的蛋白质代码如“1g0v”,然后点击“Site Search”按钮,得到下一个界面。

img229

图18-2 输入有关的PDB代码,然后点击“Site Search”按钮

(2)再点击左上面的“Download Files”,得到的界面如图18-3所示。

img230

图18-3 点击按钮“PDB File”就可下载相关的蛋白质结构(如本图所示)

(3)点击图18-3中的“PDB File”就可以得到你所需要的PDB结构。这里在图18-3的右边有相应的蛋白质结构图。

第二种主要是在Linux操作系统中可以比较方便地使用,具体命令如下:$wgetqftp://ftp.rcsb.org/pub/pdb/data/structures/all/pdb/pdb1g0v.ent.Z。

通过这个命令可以得到蛋白质文件:pdb1g0v.ent.Z,然后解压缩即:$gunzip pdb1g0v.ent.Z,就可以得到文本文件的蛋白质结构文件。

第三种则是通过匿名用户登录“www.rcsb.org”网页,然后应用“get”命令下载你所要的文件。

通过上述方式,可以得到所需要的蛋白质结构。

18.2.3 分子疾病数据库

分子疾病数据库主要是描述与疾病有关的生物大分子与小分子数据库,由于疾病种类繁多,在分子疾病数据库这一小节中,仅列出相关的数据库名。如表18-1所示。

表18-1 分子疾病数据库

img231

18.2.4 生物信息学算法

生物信息学实质就是数学算法,一般的,所有的数学算法均是生物信息学算法,但是,各种数学算法其本身的特点及应用范围与生物学本身特点决定了有些算法在生物学中应用范围及频率较高,有些则应用频率相对较低。

比如人工神经网络方法早在1988年就有人将其用于蛋白质二级结构的预测,我们早在20世纪90年代初也比较系统地作了这方面的研究。在三级结构预测中的应用主要是用于预测模型的质量,如一致性预测中的Pcons1,折叠识别法中的GenTHREADER等。

再如最优化方法,像共轭梯度法,拟牛顿法等在蛋白质天然构象预测中可以用于最低能量构象。而最优化方法中的动态规划法则被用于生物大分子序列分析如蛋白质、核酸的比对中,由此派生出一系列生物大分子序列比对方法,而且已成为生物信息学的支柱算法,因此本章重点介绍生物信息学中的配对序列比对方法。

1)配对序列比对方法(Pairwise Sequence Alignment)

序列比对方法不仅是蛋白质天然构象预测中一种最基本的方法,而且也是生物大分子序列分析的基本手段。它在蛋白质天然构象预测中所起的作用就是寻找待预测蛋白质与模板蛋白质之间的保守区。从这个意义上来说,序列比对方法在这两个领域中所起的作用是一样的。因此,这里首先介绍为什么要进行生物大分子序列分析。

众所周知,生物大分子包括DNA、RNA和蛋白质。虽然它们的结构组成及其在生物体内的功能不同,但它们有一个共同的特点:均为有限的小分子单元通过不同的排列组合方式完成。DNA由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)四种基本碱基通过一定的排列方式组成。RNA则由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和尿嘧啶(T)四种基本碱基排列组合而成。而蛋白质则由20个基本氨基酸按一定的排列方式通过肽键组合而成。理论上,通过不同的排列方式它们可以形成不同的DNA、RNA和蛋白质分子。比如,对一条100个长的DNA链,理论上可以形成4100约1.6×1060条链,但实际生物体内,尽管其长度要远远大于100,但相应的DNA链数要比这个数字小得多,而且非常有限。同样的,RNA与蛋白质也存在这种情况。即地球上存在的生物大分子数目是非常有限的。产生这种状况的主要原因是“蛋白质的结构与功能的进化”。换言之,生物的复杂性是通过现有的生物大分子的修饰与重组形成,而不是通过不断产生新的生物大分子形成的。

在核酸控制下的蛋白质生物合成过程有其保守的一面,比如一种氨基酸残基可有不止一种三联体的密码。但自然界各种条件经常会有或多或少的变化,势必会影响到DNA的突变从而引起蛋白质序列中某些氨基酸被取代、丢失或插入。这样新一代的蛋白质与其母蛋白质相比既有与其相同的一面,通常称之为同源性(homology),即它们具有共同的祖先;又有不同的一面,通常称之为分化(divergence)。一般地,将与母蛋白相同的区域叫保守区(conserved region,图18-4中有“*”号的区间),不同的区域叫可变区(variant region图18-4中没有“*”号的区间)。

img232

图18-4 两个蛋白质的比对

HBGH人血红蛋白γ链 HBBH人血红蛋白β链

而且生物学界普遍认为保守区一般代表该类蛋白质的功能区域,也是两个蛋白质同源性的基础。所以如何寻找两个不同生物大分子的保守区是生物大分子序列分析的核心。在许多分子生物学实验研究工作中,经常会发现新的生物大分子,接下来生物学工作者所关心的是它的生物学性质包括功能、结构等是否与已经发现的生物大分子相同、相似或不同,据此推断它的结构、功能、进化等生物学性质。这就是通常所说的同源性分析,它可以说是现阶段整个生物信息学的主要基础之一。典型的例子就是癌症与细胞无节制繁殖之间的关系:人们将与癌症有关的基因同与细胞生长相关的蛋白质序列进行比较,发现二者之间有很强的相关性,据此可以推断癌症与细胞生长是有关的。因此,进行生物大分子的序列分析是一项非常有意义的工作,主要表现为:

①保守位点和活性位点分析。对一组序列进行同源性分析,在各个序列中都保守的位点就是可能的活性位点,据此设计实验,以最终确定其中的活性位点。

②在序列分析基础上建立蛋白质之间的进化关系。许多蛋白质之间的关系不是完全无关的。某个蛋白质可能是另一个的突变体,或者它们来源于一个共同的祖先,这类蛋白质称为同源蛋白质,建立它们之间的进化关系是非常必要的。

③在序列分析基础上进行蛋白质二级结构预测。现在许多蛋白质结构预测方法如PSIPRED,STRIPLEX等先是利用多重序列分析得到位置专一化的得分矩阵(Position Specific Score Matrix,PSSM),然后再作预测。

④应用序列分析预测蛋白质三维构象(或天然构象)。在蛋白质天然构象预测的三大类方法即比较模型法(Comparative Modeling),折叠识别法(Folding Recognition)及从头预测法中,前两种均以序列分析法为基础进行预测。而且其精度较高,所得到的模型现已被用于药物设计等相关领域。

⑤应用序列分析法还可预测蛋白质的折叠模式。

总之,序列分析在生物信息学中的地位是举足轻重的。现在生物信息学之所以受到人们的重视,主要的贡献之一便是序列分析。生物大分子序列分析按分子来分有DNA、RNA和蛋白质。但一般而言,DNA序列所获取的有用信息与蛋白质序列相比要少得多。其主要原因是DNA序列的非编码区分化得很快,以致很难检测到其同源性。对分化超过200万年的DNA序列,就很难找到其同源性。相反,蛋白质则相对比较稳定,对10亿年前分化的蛋白质也能检测其同源性。因此,相比较而言,对蛋白质进行同源序列分析更具有实际意义。

序列比对法主要是基于动态规划法比较两个蛋白质序列之间的相似性。它是生物序列同源性和相似性确定的基本方法。最早提出的是Needlemen-Wunsch方法,尔后Smith-Waterman对此作了改进,建立了局部比对方法。序列比对方法可以说是整个生物信息学的基本方法。由于Smith-Waterman在配对序列比对方法中是一种比较常用的方法,它涉及比对方法中的一些常用的基本概念,而且现在常用的启发式比对法如FASTA及BLAST法均建立在它的基础上,因此我们这里重点介绍Smith-Waterman算法及相关的基本比对概念。

(1)比对,全局比对和局部比对的基本概念

比对(alignment)有的文献中也称之为联配、对比。但从目前国内所发表的文献,以“比对”相对比较流行。在计算机科学中则称之为不精确匹配(inexact matching)。所谓比对,就是将两个序列的末端、中间和始端插入空格,使得这两个序列中第一个序列的每个字符(或空格)与第二个序列的每个字符(或空格)相匹配。如图18-5。

img233

图18-5 两个序列比对示意图

在序列比对模式中,每两个字符的比对和字符与空格的比对都有一个对应的分数(或称之为权重)。在比对中,一个字符对应于一个空格分别称之为插入(insert)和删除(delete)。显然,有插入就有删除。因此在英文文献中将它们合并在一起称之为“indel”,我们这里将它翻译为“插删”。对不同字符的插删其得分是相同的。通过比对,我们可以得到两个序列之间的比对得分。这个得分代表了这两个序列之间的生物学相似性。

全局比对(global alignment)是将在两个序列中插入空格(包括序列的首末两端)使得它们的长度完全一致,然后将两个序列中的一个放在另一个上面使得一个序列中的每个字符(包括空格)与另一个序列的字符(或空格)相匹配。全局比对的特点是将两个序列所有字符都考虑进去。图18-6就是一个典型的全局比对例子。

img234

图18-6 两个序列的全局比对

img235

图18-7 局部比对

局部比对(local alignment)是在所给的两个序列S、T及它们的字符标记i、j中(包括空格,比如i=1,2,…,10,j=1,2,…,15),是寻找下标i和j的一个子集(包括空格,比如S2,3,4,5,6,7,8,9=α,T1,2,3,4,5,6,7,8=β)以期找到两个序列中相似性最高的片段。它不一定要将两个序列中所有的字符(如DNA中的碱基,蛋白质中的氨基酸残基)全部用上,只要找到其中最相似的片段就达到目的了。图18-7就是一个典型的局部比对例子。

以上介绍的是几种比对的定义。虽然不同的比对算法不一,但它们都是建立在数学中的动态规划算法基础上。另一个共同点是它们都需要一个得分矩阵。接下来我们首先介绍蛋白质序列比对中常用的得分矩阵,然后将上述几种比对方式对应的动态规划算法作详细的介绍。由于这里侧重于这个方法在生物学中的应用,因此对相应的基本概念仅作简单说明,对相应的数学证明则不作介绍。我们所关心的是:在拿到两个序列后,如何用局部或全局比对方法计算出这两个序列的相似性。如果读者能将该算法应用某种计算机语言(BASIC,C,PERL等语言)编成相应的算法程序,就比较完美了。事实上,有关比对的算法免费软件网上可以找到,如果读者仅仅是要比较两个序列,则可直接从网上下载或直接在某个相关的网页上进行比对,则能在较短时间内得到比对的结果。如果读者想改进这个方法,提高精度或速度,则对算法的计算过程要比较清楚。

(2)蛋白质序列比对中常用的得分矩阵

因为DNA序列的分化速度比较快而相应的比对所获取的信息要少得多,所以生物序列分析中一般以蛋白质序列分析、比对占多数,因而,这里仅介绍与蛋白质有关的常用得分矩阵。

现在常用的得分矩阵主要有两类,一类是PAM(全称是Percent Accepted Mutation,我们将它译成“可接受突变百分比”),最早由Dayoff于1968年建立,以后作了改进,形成PAM得分矩阵系列。一个PAM(X)的矩阵构建如下:首先选一组关系非常密切的蛋白质(closely related proteins),这组蛋白质在进化上的分化总量为X,然后计算每个氨基酸残基被其他氨基酸残基所取代的频率,就得到相应的PAM(X)矩阵,PAM250是PAM系列中最有代表性的得分矩阵。

另一类是BLOSUM(Blocks Substitution Matrix,我们将它译成“块替代矩阵”),它是由Henikoff S和Henikoff JG于1992年建立。具体计算如下:先选取一组蛋白质,将它进行多重比对,然后根据比对的结果计算每个氨基酸残基被其他残基所替代的频率。在进行序列多重比对(Multiple Sequence Alignment,MSA)时,如果选残基数相等百分比大于50%的序列进行计算,则得到的矩阵称为BLOSUM50,大于62%的即为BLOSUM62。因此BLOSUM矩阵不止一个,通常称之为BLOSUM系列。在BLOSUM系列矩阵中,最为常用的,最有代表性的是BLOSUM62矩阵。

图18-8和18-9分别为BLOSUM62得分矩阵和PAM250得分矩阵。

img236

图18-8 BLOSUM 62得分矩阵

img237

图18-9 PAM 250得分矩阵

有了比对、全局比对、局部比对及得分矩阵的基本概念,我们接下来重点讨论局部比对的计算问题。

(3)蛋白质局部比对算法

顾名思义,局部比对就是要从两个序列中各自找出两个相似性最高的子序列片段。在许多情况下,如果从整体上看,两个序列并不怎么相似或者说它们通过全局比对得到的最大相似性得分数不大,但它们中的一些局部片段是很相似的。这就要求我们只要将这部分局部的片段找出来就达到了目的,而不需要考查它们的整体相似性。这在现代生物学中是很有意义的。比如,在蛋白质序列中,有一部分序列片段主要是与它的生物学功能有关,而另一部分片段则对该蛋白质的功能影响较小。因此,对两个类似这样的蛋白质,我们没有必要考虑它们整个蛋白质的比对而确定它们的相似性,我们只需要知道它们部分片段是否相似就可以了。这样就可以更加有针对性地比较两个蛋白质序列或DNA序列。典型的在DNA序列中,它有代码区(外显子exons)和非代码区(内含子introns)。一般地,代码区能最终翻译成蛋白质,代表基因的功能,因此它不易突变,其主要目的是能保证该基因(或蛋白质)功能的稳定性,而非代码区即内含子则比较容易突变,因此如果应用局部比对技术比较两个不同种类的DNA,则找到的序列最相似的那段片段就有可能是基因了。同样的,在蛋白质中,功能区与其他部分相对比较保守,因此应用局部比对技术比较两个不同来源的蛋白质,进而据此推断它们的功能。

局部比对的计算与全局比对相比,其主要不同点是:应用全局比对的计算方法进行计算时,当计算到有分数值小于或等于零时,就将此分数值强制设定为零。而当回溯时碰到某个单元可为零时,就停止回溯,显然其比对结果中的子序列不一定要从原比对序列开始,也就是说可以是两个序列中的中间某个片段。这正体现了局部比对的精神。

它的基本算法精神为:首先根据两条长度分别为m,n的序列构成一个m×n的矩阵A,然后将第一条序列中的每个单元(蛋白质中的氨基酸残基、核酸中的碱基)与另一条序列的每个单元依据三种可能方式延伸比较:其一是全部是序列中相邻的两个单元;其二是第一条序列是相邻单元,第二条序列取空位;其三是第一条序列对应的位置上是空位,第二条序列对应的位置上是相邻的序列单元。根据得分矩阵分别计算这三种方式的得分,取最高者为最后得分,然后一步一步按这种方式延伸下去,直至两条序列上所有的单元均比较过为止。如果最终的得分取矩阵A最后一行与最后一列中的最大值,则为全局比对,如果在所有的矩阵元中取,则一般为局部比对。

为使读者对其有比较深的印象,我们以一个具体的例子并用图示法说明,具体见图18-10。根据初始条件(由得分矩阵获得)我们可得到图18-10(A)。然后应用前面描述的迭代方式计算相应各单元比对的得分总数即图18-10(B)。最后通过回溯得到其比对结果即图18-10(C)。由此可知,所得到的比对结果中的两个序列均为原序列中的片段。这也就是前面提到的局部比对与全局比对的主要区别,也正是局部比对的意义之所在。已有人证明:局部比对计算所需的时间和内存与全局比对基本相同。

局部比对与全局比对的另外一个不同点是在计算过程中,初始条件设置为0,在迭代过程中将小于零的得分也设置为零,因此它所得到的比对结果可以在两个待比较的序列中任何地方开始,也可以在任何地方结束。序列S=ACCTGA和T=CATGTAT之间的各碱基之间对应得分即σ

img238

图18-10 局部比对结果

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈