首页 百科知识 生物信息学数据库检索

生物信息学数据库检索

时间:2022-02-19 百科知识 版权反馈
【摘要】:Entrez,美国国家生物技术信息中心NCBI开发的集成检索系统综合了GenBank,Popset等核酸序列数据库、蛋白质序列数据库如SWISS-PROT、PIR,MMDB、PDB等、序列分析数据库BLAST以及孟德尔遗传疾病数据库OMIM,基因组数据库Genome database、结构数据库PDB,MMDB数据库等。这些库互相链接,形成了一个获取、分析、处理生物信息数据的集成系统,大大方便了生物医学专家递交、检索、分析生物信息的工作。

第三节 生物信息学数据库检索

目前网上主要通过一些集成检索系统来实施生物信息数据库检索,主要的集成检索系统有Entrez系统,由美国生物技术信息中心研制http://www.ncbi.nlm.nih.gov,SRS系统(Sequence Retrieval System)http://srs.ebi.ac.uk/欧洲分子生物学实验室开发,本节主要介绍Entrez系统检索。

Entrez,美国国家生物技术信息中心NCBI开发的集成检索系统综合了GenBank,Popset等核酸序列数据库、蛋白质序列数据库如SWISS-PROT、PIR,MMDB、PDB等、序列分析数据库BLAST以及孟德尔遗传疾病数据库OMIM,基因组数据库Genome database、结构数据库PDB,MMDB数据库等。同时,在该系统中也可检索PubMed书目文献数据。

这些库互相链接,形成了一个获取、分析、处理生物信息数据的集成系统,大大方便了生物医学专家递交、检索、分析生物信息的工作。

一、Entrez检索方法

如要获取核酸序列报告,方法是,在NCBI主页上选择“All Databases”数据库,再点击“Nucleotides”(系统主要对Core Nucleotides数据库,而不对包含表达标签核酸序列EST和基因组概览序列GSS数据库进行检索)。在检索框中输入检索词,系统提供检索规则(图7-3-1):

图7-3-1 NCBI检索界面

主题检索,如:16SRNA(系统默认16SAND RNA检索);短语检索,如:“16SRNA”(两个检索词外加“ ”);著者检索,如:johnson d;存取号检索,如:AF123456;分子量检索,如:002002[Molecular Weight];排序检索,如:AF114696:AF114714[ACCN];截词检索(右截词);复合(布尔)检索,HIV AND protease,运算符要大写。

选择限制检索(Limit),Entrez有字段限制:Accession(序列存取号)、E.C./RN Number(由美国化学文摘社和酶协会授予的酶号和化学物质登记号)、Feature Key(有关基因的特征词)、Gene Symbol(基因的标准名称)、Journal Title(期刊名)、Keywords(由数据库控制的关键词)、Organism(器官与组织)、Protein Name(蛋白质名称)、SeqId(核酸链序列号)、Substance name(物质名称)、Text Words(文本词)、Title Words(题名词)等20多个字段。特定分子类型限定(Genomic RNA/DNA,mRNA/rRNA),基因位置限定(Gene location),特定序列片段限定(Segmented Sequences)数据库选择,数据更新日期限定30天~10年。排除限定(exclude):系统提供一些特定内容供排除检索,如EST,STS,GSS,Work draft,patent等。Entrez执行检索键为GO。

如要检索有关人类抗癌基因的核酸序列,在其检索框中,输入human antioncogene,点击“Go”。第一次显示相关信息目录中,选择序列存取号为:M98056的记录,进一步显示报告,选择记录格式第二次显示详细内容,其格式有:GenBank Report,FasTA Report格式等。图7-3-2为Genebank格式核酸序列报告。可将原序列复制(选中后,用windows编辑),在BLAST程序中待输入对比,查找相似性序列对比报告。

二、BLAST序列分析工具

BLAST是从相同和不同的有机体中,提供对比核酸或蛋白质序列。其对比的意义在于如果基因A与基因B有相当的相似性或同源性(不同序列之间具有共同祖先,与序列相似性有关),那么基因A可能具有类似基因B的功能。通过寻找不同基因的相同序列片段,可以推断最新测定的基因功能、预测基因家族的新成员、探索基因的进化关系。在基因组测序的工作中,序列相似性检索可以预测蛋白质代码和翻译产物的功能和定位

图7-3-2 核酸序列报告

【例1】 查找human pdgf抗癌基因的相似序列。

检索步骤:①在NCBI主页中,点击“BLAST”图标,进入BLAST主页。点击“Basic BLAST Search”,进入Basic BLAST界面。②选择“blastn”核酸序列类似性对比程序。③选择数据库,其中nr(为序列不重复的GenBank,EMBL,DDBJ,PDB数据库对比)。BLAST提供检索的数据库有13种(Database下拉菜单),④在“Enter here your input data as”下方的检索框中粘贴Nucleotides获取的序列。进行检索。⑤显示结果(图7-3-3)。

类似性图谱:以彩色图谱表示类似性程度:黑色——类似性积分小于40;蓝色——40—50;绿色——50—80;玫瑰红——80—200;大红——≥200。滑动鼠标在彩色图谱栏,图谱上方的显示框即显示基因名称。

图7-3-3 BLAST检索结果

类似性积分表:按积分从高到低排列序列,内容包括序列数据库及序列的标识符、基因名称、统计学分析的分数值。如果希望了解详细背景资料,可以点击序列标识符,即可进入该数据库,显示相关信息。

序列对排:逐一将输入的序列片断与数据库类似性序列片断对排,如图7-3-4为其中之一。

图7-3-4 BLAST相似性对比报告中的序列对排表

此例human pdgf核酸序列相似性检索,在序列对排中可以发现序列数据库标识符为NM006207.1片段局部对准相似性为100%。MEDLINE文献相关内容为:在染色体8p21.3—p22位上分离肿瘤抑制基因与pdgf受体基因具有同源性,著者为Fujiwara Y。

三、NCBI Structure数据库检索

为研究蛋白质三维(3D)结构集成的两个数据库:分子模型数据库(MMDB),提供关于各种蛋白质的结构信息;蛋白质域数据库(CDD),提供在proteins(CDs)内保存的功能领域序列和结构对准表达目录。这两个数据库让科学家检索和观看结构,从结构上查找特定蛋白质的相似蛋白质,并且辨认功能位点。

MMDB的结构确立是采用X射线辐射结晶学和核磁共振技术处理,建立记录数据后,通过核查并在原子坐标和主要序列之间形成协议,使记录有效地连接检索,并且对准显示介入其他NCBI数据库。

MMDB图像显示借助的是交互式三维模型图的工具软件Cn3D。使用Cn3D图像显示软件展示蛋白质立体动态的空间结构。该软件可以详细检索和突出结构的细节,譬如配合基绑定的位点。可以根据序列或在相关序列中相似性结构显示多序列对准3D领域,或CDD家族的成员。Cn3D图像显示操作简便,分析性能好。

Structure可以确定蛋白质的整体形状和大小;在整体结构上找出特定残基;找出特定残基紧密相邻的残基;拓展或测试关于酶机制化学假设;找出或预预测配合基可能的绑定位点;解释变异;寻找蛋白质表面正负电荷;找出特定蛋白质的疏水或亲水地区;从结构同源性推断未知的结构蛋白质的相关产物3D构造;结构可以通过BLAST进行对比,从而可以发现蛋白质域和邻族结构。

Structure检索步骤:第一步:在“Entrez Sturcture”检索框中允许直接输入的检索词包括:PDB代码,蛋白质名称,著者,或期刊名。如查找来自死海古菌的铁硫氧化还原蛋白的三维结构。可输入检索词:死海古菌haloarcula marismortui或铁氧化还原蛋白ferredoxin或蛋白质代码1doi。第二步:得出检索初步结果,也许出现多个指定的蛋白质存在的记录,它们反映了不同的实验性技术情况,并且出现或缺乏各种各样的配合基或金属离子。记录可能包含全长分子的不同片段。另外,还有许多突变体蛋白质结构,用户要注意筛选。检索结果同时包含了PDB记录,包括实验性描述,PDB代码。第三步:显示结构概略页,观察次要结构“Secondary Structure”按钮;第四步:点击按钮“View3D”(须下载Cn3D软件),观看完整蛋白质3D结构。

四、OMIM(Online Mendelian Inheritance in Man)

孟德尔遗传数据库由美国Johns Hopkins大学建立。现也属NCBI集成系统中的一个库。它主要报道人类基因和遗传缺陷相关疾病的文字信息、图片和参考文献,被称为人类基因及其相关疾病与遗传特征的百科全书。如:要查找血友病基因图谱,可在OMIM主页的检索框中输入血友病关键词hemophilia,系统返回结果,为该疾病的相关亚型的目录内容,包括名称、基因编号、染色体位点等。进一步点击基因编号可得到完整研究文献,包括疾病定义及描述、术语命名、临床特征以及细胞学、遗传学、生化等其他特征、临床处理治疗等方案(图7-3-5)。

五、NCBI基因组数据库

美国国家生物技术信息中心NCBI整合的Genome数据库借助“Map Viewer”(图形显示器软件),让用户观看数据库内带有综合遗传和自然图的各种有机体基因组、全部染色体、序列集成数据。Genome借助“Map Viewer”可显示:特定有机体基因组中是否存在某基因?侧翼上有什么标记?染色体上有哪些基因,怎样排列显示?该区域对应的序列数据;特定染色体区域;该区域的细胞遗传学和序列图谱。

图7-3-5 Mendelian Inheritance in Man中血友病A的详细内容

Genome的“Map viewer”的主要功能有:在所感兴趣的基因区域,获得基因组序列;已知物理或遗传图谱数据,可用显示器在该区域中查找代表疾病基因;用显示器查找或显示基因、分析基因;开发转录模型;寻找基因家族成员;查找基因编码蛋白质等。

【例2】 Genome检索:已知基因代号FMR1的全长序列(cDNA),获取其3′端和5′端的基因区域序列。

在分子生物学研究中,很多情况下,研究者可能只有cDNA序列,如果需要获得一个基因的3′或5′端的核酸序列,或者因其他分析需要了解基因内区时,由于公共数据库基因组序列没有这些注释,或者仅在所感兴趣一个范围内,检索会有困难。在“Map Viewer”工具上,则可以很容易说明、观看和下载。

在“Map Viewer”的主页,从生物体名称的下拉菜单选择Search Homo sapiens(human),在检索框中输入FMR1,然后点击“Go”.在检索结果页中,有4个匹配记录条款,3个不同的图谱绘制了FMR1,它们是Genes_cyto基因细胞图谱,Genes_seq基因序列图谱,and Morbid病理图谱。选择Genes_seq基因序列图谱,可以看到FMR1基因的结构。在基因序列图谱的右边,有链接“sv”,点击可显示FMR1的3′5′端的序列(图7-3-6)。

图7-3-6 基因组检索FMR1基因3′,5′端序列结构

六、引物设计

所谓引物是指在聚合反应中作为底物引发聚合产物的短序列统称为引物。PCR反应中扩增一个已知序列DNA,对其引物须有一定的满足条件,才能有效地扩增模板序列,这些条件有:①引物长度为20个碱基;②引物序列与被扩增的序列不具有同源性;③引物中G+C碱基的含量以40%~60%为宜等。设计满足PCR扩增条件的引物称为最佳引物设计。

根据引物设计的条件,进行计算机的程序处理,可以方便地进行自动引物设计。目前国际上有许多设计最佳引物的软件,有Web界面,也有单位发行的软件包,它们的功能各有特色,优点各异。探针和引物设计相关网站有:PrimerPremier5.0http://www.premierbiosoft.com/primerdesign/primerdesign.html;primer3美国WHITEHEAD INSTITUTE主建http://frodo.wi.mit.edu/cgi-bin/primer3/primer3_www.cgi。

七、蛋白质结构预测

蛋白质结构预测原理:生物体的基因组规定了所有构成该生物体的蛋白质,基因规定了蛋白质的氨基酸序列。蛋白质折叠成特定的空间构象具有相应的活性和生物学功能。了解蛋白质空间结构可以认识蛋白质的功能,认识蛋白质是如何执行其功能的。蛋白质预测的常用途径如下。

1.从氨基酸组成辨识蛋白质ExPASy(http://www.expasy.ch/tools/)提供了工具包,进行一级结构分析 将预测序列与SWISS-PROT库中的蛋白质相比,筛选相似性序列;用MaxHom方法作多序列的一致性分析(multiple sequence alignment)。可用PHD方法作神经网络预测(neural network predictions)将此多序列进行一级性分析,然后再作预测精确性的评估分析。

2.预测蛋白质的物理性质 PROPSEARC(http://www.embl-heidelberg.de/prs.html/)。

3.蛋白质二级结构预测ExPASy(http://www.expasy.ch/tools/),(PredictProtein:http://cubic.bioc.columbia.edu/predictprotein/)PHD-蛋白质结构预测(PHD-PredictProtein)。

4.蛋白质的三维结构预测 蛋白质序列数据库数据积累的速度非常快,但是已知结构的蛋白质相对比较少。用X光晶体衍射和NMR核磁共振技术测定蛋白质的三维结构,以及用生化方法研究蛋白质的功能等实验方法确定蛋白质结构的过程非常复杂,效率不高、代价较大。无法适应蛋白质序列数量飞速增长的需要。因此,近几十年来许多科学家致力于研究用理论计算的方法预测蛋白质的三维结构和功能,生物信息学数据库根据这些理论,建立了计算机分析程序。

应用预测蛋白质三维结构的网站SWISS-MODEL:http://www.expasy.ch/swissmod/SWISS-MODEL.html可以建立蛋白质分子模型。通过http://expasy.cn获取序列(可在检索框中输入蛋白质名称如:FAS antigene ligand或识别号如:p41047),从蛋白质序列数据库获取序列,复制序列;选择First Approach Model,粘贴序列递交提问。等待几十秒,下载显示软件后,显示三维预测图像。

习题

1.利用NCBI基因组数据库查找恶性疟疾plasmodium falciparum的基因图谱。

2.利用NCBI,查找人类抗癌基因(human antioncogene)的核酸序列报告,写出序列号和碱基数,并拷贝原序列。

3.利用NCBI,对上题中的原序列进行相似性对比,写出数据库表识为gb|M61007.1|的基因定义。

4.利用OMIM,查找Nijmegen Breakage Syndrome描述文献(基本概念、基因位置、基因符号和2000年著者Kleier撰写文章刊登的期刊)。并在Map Viewer中找到其基因图谱位置。

5.利用MMDB,获取crystal structure of P53tetramerization domain蛋白质结构图,写出蛋白质PDB的表识符,显示图形。

(李晓玲)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈