首页 百科知识 生物信息学数据库种类

生物信息学数据库种类

时间:2022-06-21 百科知识 版权反馈
【摘要】:由欧洲生物信息研究所主管。SWISS—PROT的数据主要有蛋白质功能信息及图谱、已知的同源序列,差异性等。这是生物大分子三维空间结构原子坐标数据库,以蛋白质分子为主,也包括部分核酸分子和少量多糖分子的结构数据。基因组数据库是分子生物信息学数据库中的重要组成部分,数据库主要收录基因组结构、基因单位、基因组图谱等信息。目前由各国基因组研究中心组建,分布在世界各地的信息中心、研究机构。

第二节 生物信息学数据库种类

一、核酸序列数据库

1.Genbank 由美国国家卫生研究院下设的国家生物技术信息中心(National Center for Biotechnology Information,NCBI,http://www.ncbi.nlm.nih.gov)负责管理。它的内容包括了世界上所有已公布的核酸序列和有关注释。数据每日更新,序列数据呈指数级增长。每条序列有详细的注释,包括代码(locus)、基因定义(definition)、序列存取号(accession)、核酸编号(NID)、关键词(keywords)、参考文献(references),种属来源(source organism)、DNA的互补链(CDS)、等位基因(allele)、对应肽(Mat-peptide)以及特性表(feature table)等。特性表中给出编码区(coding region)、转录单位(transcription units)、突变或修饰部位(sites of mutation or modifications)、重复序列(repeats),以及由编码区翻译所得的氨基酸序列、原序列(origin)。

GenBank是国际核酸序列数据库合作委员会(International Nucleotide Sequence Database Collaboration)的一员。这个组织中的成员还有欧洲分子生物实验室(EMBL)和日本核酸数据库(DDBJ)。这3个成员每天相互交换各自数据库新建立的序列记录。用户还可以用NCBI提供的Banklt等软件向Genbank提交新测定的序列。

2.Embl 欧洲分子生物实验室(European Molecular Biology Laboratory,EMBL,http://www.embl-heidelberg.de)与GenBank相似,收集所有公布了的序列并详细注释。由欧洲生物信息研究所主管。库中内容每日更新。

3.DDBJ 日本核酸数据库,(DNA DataBank of Japan DDBJ http://www.nij.ac.jp)日本静冈市日本国立遗传学研究所日本DNA数据库。

二、蛋白质序列数据库

1.SWISS-PROT 蛋白质序列数据库,由瑞士日内瓦大学负责管理http://www.Expasy.ch。SWISS—PROT的数据主要有蛋白质功能信息及图谱、已知的同源序列,差异性等。另外,该库与核酸库EMBL,蛋白质功能位点库PROSIE,蛋白质三维结构库PDB等互连。

2.PIR 蛋白质序列信息资源库,Protein Information Resource http://www-nbrf.georgetown.edu/pir/由美国,德国和日本几个单位合作管理。它有很强的蛋白识别和其他查询功能。

三、蛋白质结构数据库

1.PDB(Protein Data Bank) 蛋白质数据库http://www.ncbi.nlm.nih.gov/entrez由美国Brookhaven国家实验室管理。这是生物大分子三维空间结构原子坐标数据库,以蛋白质分子为主,也包括部分核酸分子和少量多糖分子的结构数据。除原子坐标外,该库还包括了注释等相关信息,如著者、文献、一级结构序列、二级结构信息、二硫键位置、晶胞参数、温度因子等。PDB的数据每星期更新。

2.MMDB(Molecular Modelling DataBase) 分子模型数据库,是PDB数据库的一部分,由NCBI管理。通过Cn3D三维图形软件显示分子三维结构(图7-2-1)。

在结构图上滑动鼠标,可以转动结构图使其呈现动态立体显示。通过系统设置,还可显示除二级结构外的球棍状、线框状等其他空间状态结构。

3.SCOP(Structural Classification of Proteins) 为英国医学研究会(MRC)剑桥分子生物学实验室开发的蛋白质结构分类数据库,(http://scop.mrc-lmb.cam.ac.uk/scop)按照蛋白质之间结构相似性,按类(class)、折叠家族(fold families)、超家族(superfamilies)、家族(families)等层次来组织蛋白质结构数据。有人称它为衍生数据库,因为它对原始数据进行了更为专业化的分类和整理,特别便于用户查询。如用户通过输入一个序列或蛋白质的关键词,就可以获得一组与之有显著序列相似性的三维结构,根据库中某一蛋白质结构,可以找出与之结构相似的其他蛋白质。这对于药物设计具有重要意义,如假设需要设计某个A酶抑制剂,经检索从SCOP库中发现了一个与A酶结构相近的B酶,而B酶的抑制剂研究已很深入,就可以参考B酶抑制剂的结构来设计A酶抑制剂,从而加快药物设计和开发的速度。

img177

图7-2-1 MMDB Cn3D显示的铁氧化还原蛋白(在死海高盐环境下蛋白质分子适应的结构)

四、基因组数据库

基因组数据库是分子生物信息学数据库中的重要组成部分,数据库主要收录基因组结构、基因单位、基因组图谱等信息。目前由各国基因组研究中心组建,分布在世界各地的信息中心、研究机构。如:

1.美国NCBI基因组数据库Genome 美国国家生物技术信息中心NCBI主建,(http://www.ncbi.nlm.nih.gov)。基因组数据库提供叠连图、整合遗传学图等多种形式观察各种基因组、完整染色体(图7-2-2)。数据库提供6个种类的有机体:Archaea(古菌),Bacteria(细菌),Eukaryotae(真核生物),Viruses(病毒),Viroids(拟病毒),Plasmids(质粒)和包括完整染色体、细胞器和质粒的基因组装配草图。

2.美国人类基因组数据库GDB(Johns Hopkins大学) 1990建立,通过基因组识别号、基因组名称、关键词、DNA序列号的检索入口,提供了基因组结构、人物、文献、生物学数据、基因组图谱包括细胞遗传图、连锁图、叠连群图等检索。

3.英国人类基因图谱数据库(HGMPGenomeWeb http://www.hgmp.mrc.ac.uk/genomeWeb/)。

4.美国人类基因组信息基础构架 (Human Genome Resource http://www.ncbi.nlm.nih.gov/genome/guide/human)。由于当前研究者面对的挑战是太多来自于人类基因组计划和很多小工程产生的拼接数据分析,NCBI建立了集基因数据库、孟德尔遗传数据库(OMIM)、分子探针、基因组序列、图谱显示器等为一体整合的、一站式的基因组信息基础构架(图7-2-2)。

img178

图7-2-2 NCBI基因组Map Viewer显示的果蝇基因图谱

五、生物信息学分析数据库

除了大量数据库以外,生物信息学还有许多生物信息分析工具,包括BLAST(序列相似性对比工具);PRIMER(引物设计);蛋白质结构、功能预测数据库。

1.BLAST(Basic Local Alignment Search Tool) 是NCBI设计的网上进行DNA和蛋白质序列的快速、高敏感的局部对准相似性检索工具,是目前网上著名的生物信息中心都提供的常用工具。通过输入新近克隆并测定的或已知的序列,可以与数据库中拥有的相似序列比较,测定序列的相关生物学特性。另外,序列的相似性与基因的同源性(不同序列之间具有共同祖先),有密切的关系,序列的相似性比较,对确定新的基因、确定疾病的病因、进行基因诊断、治疗疾病以及了解基因起源具有重要的意义。

2.PRIMER 3 PCR引物计算机设计工具,国际上有许多设计最佳引物的软件,有基于Web界面,也有单位发行的软件包,它们各具特色,优点各异。

3.蛋白质结构预测数据库 所谓蛋白质结构预测是指从蛋白质的氨基酸序列预测其二级、三维空间结构。因为蛋白质的生物学功能在很大程度上与其空间结构有关,所以进行蛋白质的结构预测对于理解蛋白质结构与功能的关系,进而在此基础上进行生物工程研究以及基于结构的药物设计具有重要意义。主要的网上数据库有PredictProtein(http://cubic.bioc.columbia.edu/predictprotein),提供有蛋白质二级结构预测数据库;SWISS-MODEL:http://www.expasy.ch/swissmod/SWISS-MODEL.html提供蛋白质的三维结构预测程序。

4.蛋白质功能预测 欧洲分子实验室EMBI的IntroPro程序在domain的水平上可以对未知功能的蛋白质序列预测功能。IntroPro目前代表结构域分析最完全的资源,它把许多蛋白质功能域相关的资源,如PROSITE,PRINTS,Pfam and ProDom19,整合在一起,提供功能、细胞内定位、为细胞中特定蛋白最重要的代谢功能提供信息摘要。

六、生物信息学知识库等

1.OMIM(Online Mendelian Inheritance in Man) 孟德尔遗传数据库,由美国Johns Hopkins大学建立。现也属NCBI集成系统中的一个库。它主要报道人类基因和遗传缺陷文字信息、图片和参考文献,被称为人类基因及其相关疾病与遗传特征的百科全书。在NCBI的主页下,有进入按钮,并与许多数据库有链接。

2.CGAP(The Cancer Genome Anatomy Project) 肿瘤基因组图谱知识库美国国立癌症研究所为解剖肿瘤细胞分子而建立。

七、我国生物信息学相关网站

我国生物信息学相关网站大多提供了生物信息学相关知识信息、重要工具和数据库的链接,如北京大学生物信息网(http://www.cbi.pku.edu.cn),中国科学院(http://www.cshq.ac.cn),中国科学技术部(http://www.most.gov.cn863),国家高技术研究发展计划(http://www.863.org.cn),上海生命科学研究院(http://www.sibs.ac.cn),国家人类基因组南方研究中心(http://www.chgc.sh.cn)等。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈