生物信息学概念

时间：2023-05-14 理论教育版权反馈

【摘要】：简言之，生物信息学是一门管理分子生物学信息的学科，它有许多实际应用。生物信息学产生的外部环境因素很多，可以说现有的自然科学对生物信息学的产生都起到了一定的推动作用。很自然，生物学也分化出了“计算生物学”与“生物信息学”。

18.1　生物信息学概念

18.1.1　生物信息学的定义

牛津词典于1978年收录“生物信息学”这一名词。由于生物信息学是一门正在兴起的热门学科，不同的研究工作者根据他们自己的理解对“生物信息学”下了不同的定义，但基本内容是相同的。这里我们选取美国国立卫生研究院（National Institute of Health，NIH）的定义:研究、开发及应用出相应的计算工具，这些工具能用于处理分析生物学、医学、行为或健康方面的数据，包括获取、储存、组织、归档、分析这些数据并将它们可视化。

这是NIH比较严格的定义。而在牛津词典中，对生物信息学是这样描述的:生物信息学是正在概念化的基于分子（从物理化学角度而言）的生物学。它应用信息学技术（信息技术由应用数学、计算机科学及统计学分化而来）在大规模的水平上理解、组织与这些分子相关的信息。简言之，生物信息学是一门管理分子生物学信息的学科，它有许多实际应用。

结合NIH的定义及牛津词典的解释，我们可知:生物信息学是应用数学及计算机技术处理生物分子信息的一门学科，是生物学与计算机、数学等相交而产生的一门新兴学科。

同样是计算机及数学在生物学中的应用的另一门学科计算生物学，它比生物信息学要略早，但其性质与内容与生物信息学有许多相似之处，NIH对它的定义是:开发和应用数据分析、数学建模及计算模拟技术以用于研究生物学、行为学及社会系统的一门学科。

由它们的定义我们不难发现:生物信息学与计算生物学均是计算机、数学等学科在生物学中的应用的一门学科，而且它们都属新兴学科，发展速度很快，导致计算生物学中的许多建模方法往往为生物信息学所采用；反之，生物信息学的成果如序列比对等在计算生物学中也得到广泛应用。因此，计算生物学与生物信息学二者没有严格的界限，存在着一种“你中有我，我中有你”的状态。所以，国外许多科研院所将它们合二为一，统称之为:计算生物学与生物信息学（Computational Biology and Bioinformatics，简称为CBB），如美国耶鲁大学的生物化学与生物物理学系、计算机科学系、医学信息学中心、麻醉生理系、遗传系、细胞分子生物学和发育生物学系于2005年联合推出了CBB博士学位课程。

基于此，本书根据我们对计算生物学及生物信息学的理解，将CBB定义为:以计算机为平台，利用数学（包括信息学、统计学）方法、化学方法、计算机科学方法等为手段探索生命科学奥秘的一门学科。

18.1.2　生物信息学的产生与发展

1）生物信息学产生的外部环境

生物信息学产生的外部环境因素很多，可以说现有的自然科学对生物信息学的产生都起到了一定的推动作用。在这些众多的自然科学中，以计算机科学的推动作用最直接也最显著，因为生物信息学的平台就是计算机，离开计算机就不可能有生物信息学这门新学科诞生。

事实上，计算机科学的出现，使现有的自然科学与社会科学的所有学科产生了分化，如从“语言学”中分化出“计量语言学”；从“经济学”中分化出“计量经济学”；从“数学”中分化出“计算数学”；从“物理学”中分化出“计算物理学”；从“化学”中分化出“计算化学”，“化学计量学”等。很自然，生物学也分化出了“计算生物学”与“生物信息学”。在这里，计算机起的是“平台”作用。所以说计算机推动生物信息学的产生最直接也最显著。像生物学数据的管理、归档与分析等都需要计算机这个强大的工具来承担。

计算数学中的优秀算法为生物信息学提供了良好的“工具基础库”。最优化算法、稳马尔科夫链方法、Monte Carlo优化法、基因算法、动态规划法、人工神经网络算法等优秀数学算法为建立优秀的生物信息学方法提供了很好的保障。

化学为生物信息学提供了良好的“描述语言”环境。像分子生物学中的生物大分子的命名与描述均来自于化学。酶的催化反应，生物大分子构象等的描述主要来自于现代有机化学，如国际理论和应用化学联合会（International Union of Pure and Applied Chemistry，IUPAC）于1969年对蛋白质高级结构的不同层次作了界定。此外，计算化学的方法可以直接应用到生物信息学中。

2）生物信息学诞生的内部因素

计算机科学、数学及化学为生物信息学的产生及发展提供了良好的外部环境，但生命科学本身发展的需要是生物信息学“面世”的根本原因，主要表现在分子生物学诞生和“人类基因组计划”的提出、实施及完成这两方面。

（1）分子生物学的诞生。1866年，奥古斯丁教义僧人Gregor Mendel通过一系列实验，推断生物体中存在一种物质“genes”（基因）。从那时开始，人们一直认为是一种染色蛋白运载遗传信息。1944年，Avery和McCarty在活的有机体内证实脱氧核糖核酸（即DNA）是遗传物质的主要载体。到了1953年，James Watson和Francis Crick测定了DNA的三维结构并据此发现了遗传物质的复制方法。这标志着分子生物学的诞生。此外，Edman于1950年建立了蛋白质序列测定方法即Edman降解法。尔后，英国科学家Sanger等人于1953年完成了牛胰岛素的氨基酸序列测定；到了20世纪50年代末期，美国科学家Stanford Moore等完成了牛胰核糖核酸酶的全序列分析。不久，人们对血红蛋白四个亚基作了全序列测定。此外，早在1858年，Kendrew应用X－衍射分析技术获得了肌红蛋白（myoglobin）的三维结构。具体测定时，首先要获得衍射点，然后需要计算机进行复杂的运算。所有这些，标志着分子生物学由其萌芽到逐步成熟，同时也为生物信息学的诞生埋下了生根发芽的种子。

从那以后，有关生物大分子的序列与空间结构不断被人们所测定，相关的生物学数据累积也越来越多，导致应用人工方法很难准确、快速、有效地对它们进行分析，人们也就自然而然地想起了应用“效率高，运算速度快”的计算机。这样计算机也就自然而然地走进了生物学范畴。表现突出的是许多科学仪器的研制以生命科学为中心开展，这就导致生物学数据的累积以加速度的状态在向前发展。

（2）“人类基因组计划”的提出、实施及完成。生物信息学从最早的生物学“后台”、“配角”逐步走向生物学的“前台”，在生物学中扮演为“广大观众所喜爱的主角之一”的直接“催化剂”是“人类基因组计划”的提出、实施及完成。为此，这里有必要介绍一下人类基因组计划的基本情况。

人类基因组计划（Human Genome Project，HGP）与“曼哈顿”原子弹计划和“阿波罗”登月计划并称为自然科学史上的“三大计划”，其核心内容是测定人类23个染色体的DNA碱基序列。其提出、进展及最后完成的基本时间表如下:

1985年美国能源部的健康与环境研究所副所长Charles DeLisi首先提出人类基因组计划。

1990年HGP启动，目标是在15年内投资30亿美元完成该计划。

1996年在Bermuda，参与HGP的成员同意将测定的数据向公众开放，即Bermuda共识（Bermuda Principles）。

1998年Craig Ventner成立公司，目标是在三年内完成序列测定，这就是后来的Celera公司。

1999年公共计划组回应Ventner的挑战:修改其第一个草图完成时间的目标。

1999年12月第一个人类染色体（第22号）的序列测定完成并公布。

2000年6月，公共计划和Celera领导人在白宫与时任总统的克林顿一起宣布HGP的完成；这是人类第一次宣布“人类基因组计划”完成。这次公布的是人类基因组草图，当时由于美国Celera与公共计划为抢占第一发布时间展开激烈竞争，导致该基因草图存在许多错误和遗漏。但是它已经能解答很多秘密，比如它明确地告诉世人，地球上人与人之间99.99%的基因密码是相同的，人与人之间的差异仅为万分之一。

值得一提的是，1999年9月我国积极加入人类基因组研究计划，成为继美、英、日、德、法之后第六个国际人类基因组计划参与国，负责测定的区域位于人类3号染色体短臂上，该区域的遗传大小约占人类整个基因组的1%。2000年4月底，我国科学家出色地完成了任务。

2001年2月第一张人类基因草图在Nature和Science杂志上发表。

2003年人类公布了人类基因组更为精细的图谱，其结果相对比较准确，陈述更为科学。国际人类基因组用了3年时间将2000年公布的草图进行纠错补漏，一点点地丰满起来，那些令人头疼的缝隙从原来的15万个减少到最后的341个。但是这一幅图仍然不是完美的，关键的问题是在1号染色体上依然还存在一些漏洞和不精确的地方。

2006年5月18日，英美科学家宣布完成了人类1号染色体的基因测序图，这表明人类最大和最后一个染色体的测序工作已经完成，历时16年的人类基因组计划终于画上了句号。事实上，1号染色体的测序工作难度很高。这是因为1号染色体是人类最大的染色体，约占人类整个基因组的8%，比最短的21号染色体长6倍，再加上测序工作又稍晚，所以直到现在才得以结束。然而1号染色体可能成为最有价值的染色体之一，因为它与癌症、帕金森氏症和老年痴呆症等大约350种疾病相关，所以1号染色体测序的完成对疾病的治疗具有巨大的潜在价值。

人类基因组计划完成后得到如下数据:

①完成人类23对染色体碱基序列的测定，包括3 164 700 000碱基。如果以“Micro Soft Word”5号字体来书写（一页包括44行×80字符即3 520个字符），需要的页数＝899 062.5页，如果每1千页装订成1本书，则可装订成约900本书。我们不难想象这是一个什么样的天文数字。