首页 理论教育 单核苷酸多态性与精准医学

单核苷酸多态性与精准医学

时间:2022-02-14 理论教育 版权反馈
【摘要】:随着人类基因组研究的纵深发展,对人类基因组多态性及变异的研究十分必要,而SNP被认为是人们疾病易感性和药物反应的决定性因素,也是精准医学的关键切入点。很多SNPs对细胞功能没有影响,但是科学家们认为有些SNPs能使人们更容易患病或者影响他们对药物的反应。这些核酸多态性中的某些可以使个体倾向于得病,譬如糖尿病、高血压和癌症,或者影响疾病的状态。

细胞色素P450酶在人群中广泛存在着遗传多态性现象,所谓遗传多态性(ge-netic polymorphism)是指一个或多个等位基因发生突变而产生遗传变异,在人群中呈不连续多峰分布。遗传多态性是人类长期进化过程中为适应环境,通过突变改造药物代谢酶类基因,以产生相应的酶蛋白来对付环境中外来化合物。其中, SNPs是遗传多态性的一种常见形式,也是基因组中存在的一种数量非常丰富的变异形式,占人类基因组中遗传多态性的90%以上。全人类只有一个共同的基因组,但每个个体中所含有的某些基因会出现细微差别,这些差别中包含了人类各种生物学现象的奥秘,如对疾病的易感性、寿命的长短、药物遗传多样性等。随着人类基因组研究的纵深发展,对人类基因组多态性及变异的研究十分必要,而SNP被认为是人们疾病易感性和药物反应的决定性因素,也是精准医学的关键切入点。

SNPs是指当基因组序列中一个核苷酸(A、T、C、G)变化时的DNA序列变异。譬如,一个SNP可能使DNA序列从AAGGCTAA变到ATGGCTAA。在人群中必须至少发生1%,这样的变异才能称为SNP。SNPs组成了90%的人类基因组变异,在30亿个碱基对中每500~1000个碱基对发生一次。其中,2/3的SNPs是thymine(T)代替cytosine(C)。SNPs能发生在编码区基因也能发生在非编码区基因。很多SNPs对细胞功能没有影响,但是科学家们认为有些SNPs能使人们更容易患病或者影响他们对药物的反应。

即使人类DNA序列的99%以上都是相同的,DNA序列的变异也能在人类对药物,如细菌、病毒毒素和化学物质等环境因子、药物和其他治疗手段的反应性上起主要影响。这使SNPs对生物药学研究和发展药物药剂有价值。SNPs在进化上稳定(在代与代之间改变不多)使得他们更容易进行种群研究。

SNPs可能存在于基因的编码序列、非编码序列或两者之间的区域。由于退化的遗传密码,在编码区的SNPs不一定改变它所产生的蛋白质氨基酸序列。导致相同的多肽序列的两种形式的SNP称为同义SNP(有些时候称作沉默的突变);如果产生的多肽有不同的氨基酸序列,这种SNP称作异义SNP。异义SNP的改变可能是错义的,也可能是无义的。错义突变导致不同的氨基酸序列,无义突变导致编码提前终止。在非蛋白质编码区的SNPs可能对基因剪接、转录因子结合和非编码RNA序列有影响。

人类DNA序列的变化能影响人产生疾病和对病原体、化学物质、药物和疫苗等物质的影响。SNPs也被认为是确定个性化医疗概念的关键点。同类之间基因组的比较区域是生物医学研究中最重要的;在植物和养殖中,SNPs的研究也很重要。SNPs是研究疾病基础的有用资源。这些变异可以作为精细遗传学图和基因组范围连接研究的标志。这些核酸多态性中的某些可以使个体倾向于得病,譬如糖尿病、高血压和癌症,或者影响疾病的状态。微观上,SNPs对编码区的意义(同义、错义、移码),与非转录区和非编码区的调控功能有关。宏观上,SNPs能用于基因组制图、种族遗传学和连锁不平衡性分析、医学中疾病易感性研究、药物基因组学、临床耐药研究和遗传育种研究。

8.3.1 SNPs的发现与寻找

SNPs的发现和筛选一般是通过测序。SNPs的发现是从确定的不同点中分离序列的错误之处,然后评定这个错误在选定的序列总数之间的频率,分离出这些同源序列,最后确定基因型

生物信息学的工具也用来发现SNPs和对SNPs进行分析,并且起着关键作用。用计算机的方法来识别SNPs和预测它们是中性的还是有害的,用统计学的方法来注释含有SNPs的基因。从互联网上可以得到的工具使研究者能在基因上、基因图或物理图位置上或表达图上检索他们感兴趣的有关SNPs。下面介绍三个比较公认的在线分析工具:Poly Phred、Polybayes和novo SNP。

8.3.1.1 Poly Phred

Poly Phred(http://droog.gs.washington.edu/polyphred/)通过追踪荧光序列来比较不同的个体,从而识别单个核苷酸置换的杂合位点。

Poly Phred不是单独地应用,Poly Phred的功能与其他三个程序整合:Phred (Brent Ewingand Phil Green)、Phrap(Phil Green)和Consed(David Gordonand Phil Green)。Poly Phred用基于细胞、Phred提供的峰值和Phrap提供的序列来识别潜在异常结合体。标记潜在异常结合体,然后用Consed工具来迅速检测。

8.3.1.2 Polybayes

Polybayes(http://genome.wustl.edu/tools/software/polybayes.cgi)是冗余DNA序列中发现SNPs的自动分析的计算机程序。它是在私人和公共数据库的指数增长的序列数据中发现基因变异的一个普适和可依赖的工具。Poly Bayes程序主要输出所产生的一系列候选多态位点,这些带着SNP可能值的位点表明在精确地预测了随后的确认实验中的真阳性率。这个软件简单地整合了Phred/Phrap/Consed基础结构中,SNP信息标记的多重序列可以通过Consed序列浏览器直接观测到。Poly Bayes由华盛顿大学基因组测序中心开发,使用之初,它就广泛应用于基于序列的SNP发现项目中。这个软件整合了3个基于序列的SNP发现的算法

(1)多重序列算法:开发了一个固定方法,即在能得到可信赖的固定序列(如基因组参考序列)使得计算的多重序列有效地创造。

(2)Paralog识别:用或然区别算法来识别可能的序列paralogs(从两个根本不同的基因起源获得的高度相似性的序列)。如果无法识别,不同序列中的paralo-gous序列能导致错误的SNP预测,因此Paralog有利于尽快地把它们从分析中除去。

(3)SNP检测:使用一个新的、全部或然的SNP检测算法来计算SNP的可能性(SNP值)。SNP值:代表真的序列变化的许多序列在给定位点差异于序列错误的比值。这个计算基于严密的贝叶斯统计公式,它重视序列长度、每个序列的碱基、有关的碱基量值(如Phred追踪分析程序产生的值或者Phrap片段汇编语言)、区域中碱基的组成,以及预期的演绎多态率。排除数据量的限制或启发式考虑的需求,通过计算碱基量值,通过严密统计方法获得所有数据是可能的。

8.3.1.3 novo SNP

novo SNP(http://www.molgen.ua.ac.be/bioinfo/novosnp/)是一个在测序工程中查找SNPs和smallindels(indels涉及DNA的变异,指由于基因翻译时移码框变异产出灾难性结果的一个或两个碱基对)的程序。novo SNP有助于在测序工程中找到变异体(SNPsandshort INDELs),用一个参照序列和很多序列追踪文件作为输入,产生一系列带有特征值的可能变异体。novo SNP可以更简单地筛选、分类和核对从视觉上找到的变异体。

8.3.2 SNPs的测定与评价

评价SNPs的功能效应、物种间的保守性,以及蛋白质的氨基酸性质、结构、跨膜区和信号肽等。SNPs的评价资源有很多,SIFT、Poly Phen、Pmut、SNPs3D、PANTHERPSEC、Topo SNP、MAPP等。

SIFT是sortingintolerantfromtolerant的简写,把相似序列并排,计算基于aa类的值,同时考虑环境因素的影响,但是并不使用结构。

SNP功能分析的一个关键问题是分析某个特定的SNP是否为有害(deleteri-ous)的,或者说是否为可以容忍(tolerated)的变异。SNP可以从多方面影响基因产物的功能,其中最显著的作用是使得变异后的基因产物失去部分或者全部功能;SNP也可以使得变异后的基因产物产生新的功能。以下按照SNP的分类分别介绍各类SNP功能分析的生物信息学方法。

8.3.2.1 错义SNP功能分析

错义SNP(ns SNP)功能分析的一个重要问题是预测一个特定的ns SNP是否是有害的。以往一般采用一系列离散或连续的特征来构造预测模型,这些特征可大致分为基于序列和基于结构,包括SNP位点的氨基酸物理和化学特征、SNP位点和附近区域的序列保守性、蛋白质结构特征、进化特征等。预测方法分为基于序列的方法、基于蛋白质结构特征的方法、混合方法。

1999年,Cargill等人发现,与疾病密切相关的ns SNP多为保守性ns SNP。该小组用BLOSUM62矩阵的分数来描述一个SNP的保守性,并提出了用这种保守性作为一种简易的方法有效区分有害和无害ns SNP。该方法虽然有一定的效果,但是由于它没有考虑ns SNP位点的上下文,所以预测精度不高。Ng和Henikof致力于研究基于序列同源性的有害ns SNP预测方法。2001年,他们发现重要的氨基酸位点在蛋白质家族序列里是比较保守的,所以在这些保守位点的氨基酸替换很可能会影响蛋白质功能。基于该假设,他们采用与位置相关的打分矩阵(PSSM)来描述序列保守性信息,构造了有效预测有害ns SNP的软件SIFT。SIFT的预测精度比BLOSUM62矩阵有显著提高。根据SIFT的预测结果,db SNP数据库所有的ns SNP中有25%可能影响蛋白质功能。值得注意的是,应用SIFT的前提是必须有足够的同源序列,如果同源序列数量不足,其预测精度会下降,甚至无法进行预测。

2001年,Sunyaev等人最早提出基于蛋白质三维结构信息预测有害ns SNP的方法,并根据该方法研制成预测软件Poly Phen。据估计,有20%的ns SNP会危害蛋白质功能,一个普通人大概有几千个ns SNP有可能会危害蛋白质功能。该研究组采用的特征包括蛋白质结构、蛋白质相互作用和进化信息,其中蛋白质结构信息包括溶剂可及性、SNP位点在Beta链或活动区域的位置等。该方法预测的敏感度(sn)和专一度(sp)都较高,但是如果没有可靠的蛋白质结构信息,该方法就无法进行预测。同年,Chasman等人报道了一种基于蛋白质结构预测有害ns SNP的方法,共采用了16种不同的结构和序列特征,其中一些特征是首次使用。最引人注目的是该小组提出了一套预测有害ns SNP的一般统计学方法,检验每个特征对预测结果的贡献、特征与特征之间的相关性,并且进行了主成分分析。他们预测26%~32%的自然ns SNP对蛋白质功能有影响。Fay等人则采用一种严格的进化方法预测有害ns SNP,该小组估计的有害ns SNP数目比先前估计的要少。

序列特征和蛋白质结构特征在预测有害ns SNP这一问题上各有优缺点。2002年,Saunders等人综合测试了序列特征和蛋白质结构特征对预测有害ns SNP的性能。在测试了多种序列特征和蛋白质结构特征后,发现预测精度最高的特征组合是C密度这一溶剂可及性特征和用SIFT软件预测得到的分数。该小组指出,序列特征和蛋白质结构特征往往是互补的。最近,Karchin等人在报道了用来预测有害ns SNP的32种最有效的特征。

8.3.2.2 同义SNP和非编码区SNP功能分析

同义SNP(s SNP)虽然不改变基因编码的蛋白质,但是仍然具有不可忽视的作用,特别在影响基因外显子剪切(exonsplicing)方面。外显子剪切增强子(exon splicing enhancers,ESEs)是一些位于外显子内部的短序列片段,它们通过细胞剪切机制增强外显子的识别率。一旦SNP发生在某个ESE时,这些增强子可能会影响m RNA的剪切过程,导致遗漏外显子。事实上,ESE确实和与疾病相关的SNP有关联,例如,与BRCA1和BRCA2这两个癌症基因密切相关的SNP,研究发现它们确实落在这两个基因内部的ESE片段。最近,Fairbrother等人把存在SNP的ESE片段与大猩猩基因组的对应片段进行比较分析后发现,这些SNP在遗传上确实存在选择压力

对于非编码区SNP,虽然其功能研究意义重大,但是由于该区域的SNP数据难以收集,所以这一问题以往没有得到如ns SNP研究那样的重视。生物信息学在该领域的一个重要问题是要构造出能够准确预测影响基因表达调控的非编码区SNP。目前大部分的工作着重于找出并记录位于调控区的SNP位点,只有少数对这些SNP作功能分析的研究报道。例如,Cowles等人用杂交老鼠的子一代研究非编码区SNP对反式调控的影响。他们发现,在观察的69个基因中,有4个基因由于其非编码区的SNP导致基因表达水平的显著影响。Pastinen等人研究了129个基因,发现23个基因的表达差异与等位基因有关。另外,在启动子区的SNP功能分析也有一些研究报道。Hoogendoorn等人通过筛选在启动子区的SNP来识别可能影响基因功能的SNP板块(haplotype)。他们发现在测试的启动子区SNP中大约1/3会显著地影响基因表达水平。然而,预测给定的非编码区SNP对基因表达影响的生物信息学方法还少有报道。目前仅有一些研究人员通过预测SNP是否落在重要的调控元件里来大致估计该SNP是否会影响基因的表达水平。例如,Pupa SNPFinder、Consite等工具均提供了非编码区SNP的功能分析。

8.3.3 SNPs的注释

8.3.3.1 人类SNP/突变数据库

1)SNP数据库

SNP数据库(db SNP,http://www.ncbi.nlm.nih.gov/projeets/SNP/)由美国国家生物技术信息中心(NCBI)与美国国立人类基因组研究所在1998年9月合作构建。其数据主要来源于由人类基因组计划预测得到的SNP,以及私人或研究机构研究者提交的实验结果。db SNP收录了与疾病相关的突变和中性突变等,每一条记录都包括有突变点附近的DNA序列信息、检测该突变点的实验条件、出现该突变群体的特征描述,以及群体或个人基因分型得到的频率信息。

2)人类基因组突变数据库

人类基因组突变数据库(HGVbase,http://hgvbase.cgb.ki.se/)由欧洲生物信息研究所(EBI)、欧洲分子生物学实验室(EMBL),以及瑞典卡罗林研究所联合构建。HGVBase的两大特点是易于理解和高准确率,数据来源于文献、其他数据库和本实验室的工作结果及直接提交。HGVBase主要收录了基因内的DNA多态和短小的插入、缺失突变。数据库内每一条记录包括有SNP上下游各25个核苷酸序列,在人群中的等位频率、编码区、启动子和剪接位点;还有对于Gen Bank和其他数据库的链接。

3)人类基因突变数据库

人类基因突变数据库(HGMD,http://www.hgmd.cf.no.uk/)是由位于英国的卡尔地夫医学遗传研究所构建。HGMD主要收录了包括在编码区、调控区和剪接区域的点突变,还包括插入、缺失、复制及重复,最近加入了疾病相关的多态。突变信息主要包括染色体定位、突变类型列表和相关的表型列表,并将基因内所有突变定位到HGMD的参考序列上;此外还链接到OMIM、GDB、Gen Atlas和相关单一位点突变数据库。

4)其他SNP数据库

除以上提到的数据库外,还有不少存放SNP数据的大型数据库,如Swiss-Prot蛋白质数据库中包含了丰富的与蛋白质对应的SNP数据;基因组数据库(GDB)存放了大量中性突变数据;Hap Map Consortium数据库是主要的SNP单倍型数据存放地;人类孟德尔遗传数据库(OMIM)存有丰富的关于人类基因和基因突变的数据。这些数据库的SNP数据均可以在网上查询。

8.3.3.2 SNP功能注释工具

位于美国加州大学圣克鲁兹分校的Golden Path基因组浏览器提供了一个功能强大的在线可视化基因组浏览系统。它允许用户对一个基因组的任何部分以任意刻度来浏览,并且提供了丰富的生物学注释标记。它的SNP原始数据直接来自NCBIdb SNP数据库,对SNP的注释一部分来自该浏览器的工作人员,一部分在世界上其他研究机构中收集得到。对于每个SNP,它提供SNP在基因组的位置、附近的DNA序列信息、数据来源、等位基因类型、简单的功能描述等信息。

由EMBL—EBI和Sanger研究所共同维护的Ensembl基因组注释系统也集成了访问十分友好的SNP注释子系统。Ensembl的SNP数据库提供多个物种的SNP数据库,研究者不但可以用Ensembl的SNPView子系统直观地以图形化的方式浏览某SNP条目的多种属性,而且可以用Bio Mart系统对感兴趣的SNP数据进行数据挖掘。

此外,还有不少SNP功能注释工具也提供网上服务,这些工具主要集中于ns SNP的功能注释。例如,美国加州大学圣佛朗西斯科分校的研究小组构建的LS—SNP系统对来自db SNP数据库的28043个ns SNP作了功能注释。研究者能以SNP、基因、蛋白质、通路的方式对SNP注释数据进行浏览。另外,哈佛大学Kohane实验室开发的SNPper系统,印第安纳大学Mooney实验室构建的Mut DB数据库,芝加哥伊利诺伊大学Liang等人构建的Topo SNP注释系统等,均提供了侧重点不同的SNP注释服务。

8.3.4 Hap Map

国际Hap Map计划的目的是获得描述基因序列变化的一般方式的人类基因组haplotype图谱。Haplotype图谱基于SNPs的等位基因相互接近从而一起遗传。Hapmap识别绘图中有信息量的SNPs,减少大量基因型中SNPs的数目。这项计划中的样本来自亚洲、欧洲和非洲,基础原理是SNP的分型和单体型haplo-type。

(1)SNP的分型。例如:某些人染色体上某个位置的碱基是A,而另一些人染色体的相同位置上的碱基则是G。同一位置上的每个碱基类型叫做一个等位位点。除性染色体外,每个人体内的染色体都有两份。一个人所拥有的一对等位位点的类型被称作基因型(genotype)。对上述SNP位点而言,一个人的基因型有3种可能性,分别是AA、AG或GG。基因型这一名称既可以指个体的某个SNP的等位位点,也可以指基因组中很多SNPs的等位位点。

(2)单体型haplotype。人类基因组中,相邻近的SNPs等位位点倾向于以一个整体遗传给后代。位于一条染色体上或某一区域的一组相关联的SNP等位位点称作单体型(haplotype)。如果一个单体型有n个变异位点,理论上就可能有n10种可能的单体型。实际上,大多数染色体区域只有少数几个常见的单体型(它们代表了一个群体中人与人之间的大部分多态性)。一个染色体区域可以有很多SNP位点,但是只用少数几个标签SNPs就能够提供该区域内大多数的遗传多态模式,这样将大大减少用于基因型与疾病关联分析中的SNPs—基于板块理论。

Hap Map是全球计划,全球组成了一个团队去绘制这个图谱。一期Hap Map计划于2001年结束,二期Hap Map计划于2007年结束。

二期Hap Map计划确定了来自四个不同地区人群中的270个个体中超过3100000的单核苷酸多态位点,其中25%~35%的单核苷酸多态位点在所调查的人群中是普遍存在的。据估计,这个图谱能以0.9~0.96的概率找到通用的多态性位点,这个概率视人群而定。证明目前商业用的基因组范围内的确定基因型的产品能以0.8~0.95的概率找到通用的二期SNP位点(在非洲人之外的人群中),研究的潜在获得者可以由输入获得。这些数据同时说明新的不均衡关联的结构。我们发现一个人群中10%~30%的人至少有一个源于同一个祖先的基因标志,并且多达1%的通用的多态位点是不能标志的,这可能是因为这些位点在基因重组的最活跃的位置。发现基因的重组频率在不同功能的基因之间有显著差异。最后,证明了同义SNP和非同义SNP之间增大的差别,这些差别是由于不同人群所受的自然选择压力的不同而产生的。

国际Hap Map计划使得高质量、高通量、基因组范围内的关联分析成为现实。Hap Map对于世界范围内的人群的疾病关联分析是一项非常有用的资源。另外,标准的基因型专门小组的费用降低和SNPs密度的升高使得疾病关联分析的焦点从候选基因的方法转向全基因组分析的方法。随着技术的发展,用于改善分析的新的统计学方法会不断提高全基因组关联分析的准确程度和可靠程度,比如说用于确定和修正人群形成和关联的genotype calling软件和imputation of untyped variants软件。在这种环境下,考虑Hap Map计划的前途非常重要。目前,更多人群中的样本用于发展起始的Hap Map计划,其中包括即将测序的来自另外7个人群中的样本,这些样本提供了稀有多态类型的信息,并且帮助实现了其他人群中全基因组的关联分析。许多研究小组致力于确定其他类型的基因多态性,比如说,结构多态性和Hap Map样本中的分子表型多态性。最终,全基因组测序可以提供一种技术使得确定SNPs和结构上的多态性成为可能。但是,在那之前,甚至是在那之后,Hap Map计划会是理解人类基因多态性结构与多态性和表型的关系的无价的资源。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈