千米小说网

千米小说网>基因到底有多强大? > 第五章 大海捞针(第1页)

第五章 大海捞针(第1页)

第五章大海捞针

众所周知,这世上有已知的已知,也就是那些我们意识到我们知道的事物;还有已知的未知,即我们知道有些东西我们还不知道;殊不知,这世上还有未知的未知—有些事,我们不知道自己不知道。

—唐纳德·拉姆斯菲尔德

唐纳德·拉姆斯菲尔德当年的这番言论招致了不少冷嘲热讽,但我始终觉得他说的也并非毫无道理,抛开政治立场等因素不谈,这段话的确道出了世界的真谛。世界之大,充满了未知,而驱使我们不断前进的,不是已知的世界,而是那更广阔的未知世界。世界如此,医学亦如是。在我看来,拉姆斯菲尔德最后提到的“未知的未知”还可以进一步细分为两类:我们完全闻所未闻的事物,和我们以为自己知道但其实不然的事物。医学的世界里,这样的“未知的未知”到底还有多少呢?每每想到这儿,我就彻夜难眠。

2011年对我来说是特别的一年,不知不觉间,临床遗传学家这一身份已陪伴我走过了十余载。那年的某一天,我和迈克尔·巴克利(MichaelBuckley)像往常一样闲聊,他是我的良师,也是益友。我怎么也没有想到,那次再平常不过的闲聊,竟会成为我职业生涯的重要转折点。迈克尔是澳大利亚最顶尖的遗传病理学家之一。他的实验室,也就是我现在工作的地方,是澳大利亚重要的罕见遗传病诊断中心。记得那天聊着聊着,我提到有时很希望自己也是一名遗传病理学家,迈克尔听罢,笑着对我说现在成为一名遗传病理学家也未尝不可。说者无心,听者有意,是啊,未尝不可!这句朋友间的玩笑话一下子将我点醒,我与遗传病理学的故事就这样开始了。但要成为一名合格的遗传病理学家绝不只是说说而已,此后数年间,我一边接受检验医学专业培训,一边兼顾本职工作,同时还参加了大大小小的考试,只为早日实现这一目标。现在,我既是一名临床遗传学家,也是一名遗传病理学家,每日往返于医院和实验室之间,一边为我的病人安排基因检测,一边还要为外院送检样本撰写检测报告[81]。

我与遗传病理学结缘实属偶然,却可谓恰逢其时。在我刚开始接受专业培训的时候,一种全新的基因检测技术就已经在酝酿之中。接下来的几年里,这一愿景终于成了现实,遗传病理学步入了全新的时代。能够成为这场变革的亲历者和见证者,我何其有幸。

你应该还记得人类全基因组测序成本的大幅下降吧?当年需要耗费数十亿美元的全基因组测序,如今只需要不到1000美元。从遥不可及到触手可及,全基因组测序究竟经历了什么?詹姆斯·沃森和克雷格·文特尔是最早的两位接受全基因组测序的人。第三位则是一位名叫丹·斯多埃塞斯库(DanStoicescu)的瑞士富商。医药化学博士出身的斯多埃塞斯库创办自己的生物技术公司取得了巨大成功,相比于把挣来的钱花在购买豪车或私人飞机上,他选择了测序自己的全基因组。为斯多埃塞斯库测序的是美国生物技术公司Knome,当时这项服务的报价是35万美元。这在当时看来性价比极高,毕竟就在前一年,测序沃森基因组所花费的成本几乎是它的三倍。不想到了第二年,Knome这项全基因组测序服务的价格就跌到了10万美元。这也就意味着,在那段时间购买基因检测服务要有极大的勇气或完全不在乎钱的心态才行。

相较于全基因组测序,Knome公司的外显子组测序服务可能没有那么引人注目,但论重要性,它其实更胜一筹。外显子是真核生物基因组中参与编码蛋白质的片段,基因组中全部外显子的总和即为外显子组(exome)。在人类基因组中,外显子组序列仅占1%—2%,因而与需要读取全部序列的全基因组测序相比,外显子组测序的成本要低得多。此外,鉴于目前已知的大部分致病突变都集中在外显子组中,只对外显子组进行测序也可以达到诊断疾病的目的。

2009年10月5日,一位叫丹尼尔·麦克阿瑟(Dahur)的美国科学家在《连线》(WIRED)杂志上发表了一篇关于Knome推出价格24500美元的个人外显子组测序服务的文章。仅仅5年后,麦克阿瑟就以其主导的人类外显子组整合数据库(theExation,ExAC)项目在遗传学界名声大噪。人类外显子组整合数据库收集了超过6万人的外显子组数据,两年后的2016年,人类外显子组整合数据库的升级版—基因组整合数据库(GionDatabase,gnomAD)问世,它整合了超过125000份人类外显子组数据和15000份全基因组数据并面向全世界免费开放,可以说是解读基因检测结果最不可或缺的一大工具。

回望2009年,外显子组测序的临床应用似乎遥不可及。它高昂的价格让一般人望而却步,因而仍是富人和极少数资金雄厚的研究实验室的专利。即使随着时间的推移,人们意识到这种测序方法应用于临床诊断只是时间早晚的问题,但到底还要等多久还很难说。

今天,外显子组测序已不再是遥不可及的梦想,技术进步是最大的“幕后功臣”。这要从人类基因组计划说起,当年该计划所使用的是第一代测序技术—桑格法测序,这种方法须先将待测序的DNA片段进行扩增,再通过一系列测序反应得到可以读取的短小DNA片段,通常一次可以读取几百个碱基。如果你的测序量不是很大,桑格测序法不失为一种很有效的测序方法。一般情况下,一个基因大约包含10—20个外显子。如果用这种方法进行外显子组测序,你需要将这10—20条DNA片段进行扩增、测序,再将测得的序列与已知基因组序列进行比对,工作量很大,但不是不可以完成。这有点像给了你一本体量浩大的书,但只要求你校对各章节的标题。你甚至可以用这种方法对整个基因组进行测序(即校对整本书),毕竟人类基因组计划最早采用的就是这种测序方法,但这是一项耗资数十亿美元、历时数年的浩大工程,哪怕在今天也是如此。且不说用第一代测序技术测序整个人类基因组,即使测序一个人的外显子组都是令人望而生畏的挑战—你要扩增、测序并读取30万条DNA片段。

由此可以看出,如果想让这种大规模测序真正变得触手可及,须另辟蹊径。目前,至少有六种技术可以实现大规模测序,其原理都是化学反应。尽管不同技术所利用的化学反应不尽相同,但它们的核心是一样的:一次读取尽可能多的DNA片段。这类测序技术被称为大规模平行测序(massivelyparallelsequeng,MPS),又称下一代测序(ionsequenGS)、第二代测序。开创这一代测序技术先河的是现已不复存在的454生命科学公司(454LifeSce,以下简称454公司)[82]。这个名字的由来是个谜,有传言称该公司最初所在的街道号是454号,还有一种说法提到454华氏度是金钱燃烧的温度。

言归正传,454公司的创立者是乔纳森·罗斯伯格(J),生物科技领域的史蒂夫·乔布斯。1993年,还是一名学生的罗斯伯格创办了他的第一家基因组公司,也就是454公司的母公司。其后,他又创立了多家基因科技公司,其中最有影响力的两家当数RainDance(这个名字起得好多了)和Io。

罗斯伯格步履不停,加速基因测序技术创新的背后,是一个父亲对孩子深沉的爱。他的大女儿患有一种罕见遗传病,二儿子诺亚在出生后不久就出现了呼吸困难的症状,他的医生却找不到原因。尽管后来孩子没有大碍,但这件事一直让罗斯伯格耿耿于怀:如果儿子的医生当时能做快速基因检测,就能在第一时间判断像他儿子这样的孩子是否患有遗传病了。从那时起,探寻快速基因检测的方法就成了罗斯伯格的心愿。他也确实实现了这一目标—我工作的实验室里就有一台Io研发的IonProton测序仪,可以通过快速外显子组测序诊断婴儿是否患有遗传疾病。

在其他更先进、更快速及更便宜的测序仪问世之前,454公司的产品一直是新一代基因测序技术的领军者。詹姆斯·沃森的基因组测序就是由该公司完成的。此外,进化遗传学家斯万特·帕博[83]绘制出第一份尼安德特人(hal)[84]基因组草图,用的也是454公司的测序仪。这份基因组草图表明,在某种程度上,尼安德特人并没有完全灭绝—由于杂交繁殖,大多数人类都或多或少带有尼安德特血统,约五分之一的尼安德特人基因组在现代人的基因组中“存活”了下来。[85]

要对尼安德特人的基因组进行测序并不容易,因为可供检测的DNA十分有限—经过数万年历史残存的少量珍贵DNA。此外,这些DNA样本已经支离破碎且已发生降解,极少量现代人的DNA都可能对其造成污染。要对这样的基因组进行测序,其难度可想而知。

说到这里,就不得不提到现代遗传学最伟大的无名英雄之一—没错,我所说的正是NA12878。它听上去可能不像个人名,但在检验遗传学领域却无人不知、无人不晓。它确实不是一个真正意义上的“人”,而是一个“瓶子里的基因组”。事实上,这样的“瓶子里的基因组”有很多,NA12878只是其中之一,但它无疑最有名且使用最广泛。这瓶基因组的主人是1980年生活在美国犹他州的一位女性。关于她,我们知道的并不多,只知道那时她的父母都还健在,以及她是11个孩子的母亲(6个儿子和5个女儿)。她和父母同意将他们的DNA广泛应用于科学研究,也同意研究人员采集和使用她孩子们的DNA(至于他们当时是否到了可以自己做决定的年龄,我们尚不清楚)。研究人员在实验室中培养了一些从她身上采集的细胞,以此得到了“取之不尽、用之不竭”的细胞,并从中提取了大量DNA。

研究人员对这些DNA样本进行了一遍又一遍的测序,可以说,我们所了解的关于一个人基因组的一切都源自NA12878。就这样,它成了遗传学的黄金标准。正如世界上所有的“千克”和“米”,最早都以密封存放于法国巴黎国际计量局总部的国际千克原器和国际米原器为基准那样,几乎世界上所有的基因组实验室都以这位女性的基因组作为参考标准。你可以购买成管的NA12878DNA样本(所谓“瓶子里的基因组”就是这么来的),作为标准参照物。以我们实验室为例,我们每月都会对她的外显子组进行两次测序,作为评估测序质量的标准,以保证我们测序的高准确性。之所以选择以NA12878为样本进行测序,是因为我们对其基因组的每一个区域都了如指掌,一旦测得的结果与已知序列有任何出入,我们就知道一定是测序出了差错。如果说沃森、文特尔和斯多埃塞斯库分别是全世界第一、第二和第三位完成基因组测序的人,那NA12878样本的主人无疑是世界上被测序次数最多的人,在这一点上,她以极大的优势获胜。一个人,一个决定,一管血液样本,40年过去了,NA12878,每每有人提起她的“名字”,我都会想她是否还在。如果她还健在,她又是否知道,自己40年前的一个无私之举,改变了多少人的命运?

过去十年间,新一代测序技术已从科幻小说中才有的高科技变成触手可及的现实,如今又步入了临床时代,其对遗传学的影响无疑是颠覆性的—能亲眼见证这一切的喜悦之情无以言表。当我还只是一名临床医生的时候,我见过太多患有智力障碍或其他复杂并发症的孩子,尽管我们怀疑这可能是由遗传导致的,但囿于当时有限的检测手段,我们很难做出准确诊断。偶尔运气好的话,我们能根据孩子表现出的症状做出诊断。但大多数情况下,他们的症状并不典型,我们只能把能做的检查都做一遍,绞尽脑汁把各种可能的病因都想一遍,如果还找不出病因,我们还会查询各大数据库,甚至求助于“畸形学俱乐部”(详见第七章)……但即便是这样,我们仍然一无所获。

为了解决这一难题,遗传学的一个全新研究分支应运而生—经验再发风险(empiricerisks)。原理其实很简单,就是着重观察那些患有某种遗传病的孩子的家族,看这些家族中的其他孩子有没有相同的情况—通过统计患病和未患病孩子的数量得到一个比值。这样,如果今后再接诊患有这种遗传病的孩子,我们就能够利用该数值估计他(她)未来的弟弟或妹妹患病的可能性。以遗传性智力障碍为例,各研究得到的数值不尽相同,但多集中在5%—10%之间。如果下一个孩子有10%的概率出现智力障碍,大多数考虑要不要再生一个孩子的夫妇都会面临两难选择,毕竟10%的概率说高不高,说低也不低。如果是你,你会冒这个险吗?即使你选择冒这个险,你可能也要过很久才能知道这个孩子是否也有智力障碍。

如今,我们的诊断能力有了显著提高—这倒不是因为我们的业务水平有了多大的提升,而要归功于更为先进的检测手段。以染色体检查为例,我们过去用旧的方法检测遗传性智力障碍,检出率可能只有5%,现在即使是更为严重的疾病,检出率也能达到50%左右,而对于一些特定群体,这一比例甚至可能更高。此外,我们还发现很多儿童的遗传病都是基因的新生突变(denovomutations,DNMs)导致的,即这种突变是孩子新发的,其父母并不携带该突变。这是个好消息,因为它意味着孩子将来的弟弟妹妹患上相同疾病的可能性很小。

这种可能性并非为零,这与一种叫镶嵌性嵌合(mosaicism)的现象有关。如果这个概念对你而言有些抽象,你不妨想象一下由不同颜色的瓷砖镶嵌而成的地板是什么样子。所谓的镶嵌性嵌合与之类似,如果一个人携带某种基因突变,而这种突变仅存在于他的一部分体细胞中,另一些细胞中并没有,这种现象就是镶嵌性嵌合,这样的人就被称为镶嵌体(mosaic)。正如第三章所述,从某种意义上说,我们每一个人都是镶嵌体,因为细胞分裂过程不可避免地会出错。通常情况下,除了很小一部分错误可能会引发癌症外,这些错误几乎不会对我们产生影响。然而,如果这种突变是在受精卵形成之初的几次细胞分裂中发生的,它最终可能存在于一个人体内相当一部分细胞中,有时甚至可能导致遗传病的发生。相比之下,如果一个人的每一个体细胞都带有这种突变(即非镶嵌性嵌合),其表现出的症状往往较轻,而且可能只累及身体的某一部位。以皮肤症状为例,镶嵌性嵌合导致的皮肤病临床特征非常显著,通常肉眼就可以判断。这类患者的皮损比较特别,往往有沿布拉什科线(linesofBlaschko)呈旋涡状分布的特点。所谓的布拉什科线与皮肤的形成有关,反映了胚胎发育过程中表皮细胞迁移和增殖的路径,在正常的体表并不显现[86]。

上面我们说到了突变发生在体细胞中的情况,如果是生殖细胞突变,且突变发生在配子发生的较晚阶段,情况又会有所不同:这种突变最终可能只会影响一小部分细胞。如果父母一方的睾丸或卵巢中有少量携带这种突变的细胞,他(她)就会产生不止一个携带该突变的配子,尽管基因检测并没有检出这种致病基因突变,其多个子代都可能因继承该突变基因而发病。这种生殖腺(睾丸和卵巢)中仅部分细胞携带突变基因的嵌合状态,被称为生殖腺嵌合(gonadalmosaicism)。如果父母生殖腺中的大部分细胞都有两个正常的基因拷贝,那他们生出第二个患病孩子的概率很低,但如果这种突变存在于父母的每一个体细胞中,这一概率就会大大提升。

实际上,这种由生殖腺嵌合导致的一个家庭中不止一个孩子患遗传病的情况十分少见—我只碰到过几例—但这也意味着我们无法完全排除这种可能性,即使我们没有在父母身上检测到导致第一个孩子患病的基因突变,我们也不能保证他们的下一个孩子就一定健康。

读到这里,你可能会有这样的疑问:既然有这么多已知的遗传病,为什么我们以前诊断不出来呢?原因其实是多方面的。首先,有一些遗传病确实是近几年才发现的,借助外显子组测序技术,我们得以发现很多过去没有发现的遗传病,而且发现的步伐日益加快。举个例子,如果我们做了外显子组测序却仍没有找到答案,最好的办法之一就是先把它“搁置一旁”,等过个一年半载再回过头来重新对原始数据进行分析。这时,我们经常会欣喜地发现那些曾经令我们一头雾水的数据都变得清晰明朗起来,做出诊断自然也就不在话下了。

还有一个原因是,很多我们过去认为十分罕见的遗传病,其实远比我们想象的常见,但也更复杂多变,加大了诊断的难度。当然,也不乏确实极其罕见的遗传病,不仅任何医生都不可能对所有这些遗传病了然于胸,我们日常使用的诊断数据库也并不完善。

现在,我们主要利用新一代测序技术进行外显子测序,或者同时对多个特定基因进行检测—后者叫作基因检测组合(genepanel)。利用这种基因组合进行检测的原理很简单:如果你知道与某种遗传病相关的基因只有10个,似乎就没有必要测序2万多个基因。我们有时就会采用这种检测方法:我们对每一个基因进行了测序,但只分析我们感兴趣的那部分基因,其他都忽略不计(我会在第十章分享我们做这一检测的经历)。不过相信过不了几年,等测序成本再降一点,我们就会彻底抛弃外显子组测序,甚至抛弃基于基因组合的测序,直接做全基因组测序。毕竟目前来看,与外显子组测序相比,全基因组测序更有助于我们诊断疾病,且未来随着技术进步,还可能发挥更大的作用。那时,很多我们现在所做的染色体检查可能也失去了存在的意义,因为基因组里有我们所需的一切信息,且更为详细。

那岂不是万事俱备,只欠东风了吗?未来,借助全基因组测序,一切问题都将迎刃而解。但是—你也猜到会有一个“但是”了吧?事情并没有这么简单,我们还面临诸多挑战,其中最大的挑战就是应对未知。

何以见得?这还要从2008年发表在《自然》杂志上的“DNA之父”詹姆斯·沃森的全基因组图谱说起。当时,研究沃森基因组的研究人员发现了所谓的“异常”,并尝试解释这一发现。现在再回过头看,我可以很负责任地说他们的解读完全错误。

事情的来龙去脉是这样的:当时,研究人员发现沃森携带了10种已知的常染色体隐性遗传病的致病变异。这类遗传病的致病基因是位于常染色体(即第1—22号染色体)上的一对等位基因,且基因性状为隐性,只有在纯合状态(两个基因同时发生变异)时才会发病。像沃森那样只有其中一个基因发生变异的个体不会发病,只是该致病基因的携带者。此外,除了这10种当时已知的常染色体隐性遗传病的致病变异,沃森很可能还携带了其他不为我们所知的变异。长期以来,基于对一代堂表亲及其他近亲婚配生子可能产生后果的研究,科学家们推测,我们每个人其实都携带了一两种隐性遗传病的致病基因。有趣的是,对鱼类的研究也得出了非常相似的结论[87]。所以问题就在于,为何沃森会携带多达10种的隐性致病基因呢?说那篇论文的作者尝试“解释”这一发现或许有些夸张了,因为他们的原话其实是:“他(沃森)可能只是碰巧携带了这么多……或许其他人也是如此。”

在接下来的几年里,这一问题的答案才慢慢浮出水面。原来,沃森携带的那10种基因变异虽然在当时被科学界视作致病突变,但随着研究的不断深入,研究人员发现它们中的大多数其实与遗传病并无关联。以今天的标准来看,那10种所谓的致病变异中只有1种真正致病[88],其余9种其实都是“无辜躺枪”的无害变异。

这到底是怎么回事呢?人类基因组高度变异的特性是问题的根源。如果把你的基因组与我的进行比较,你会发现两者的不同之处多达300万个,同样的,我们每一个人的基因组与“参考”基因组相比,也有数百万个不同之处。从这种意义上说,世上根本不存在“标准”人类基因组—如果说当今世界有77亿人口,那么可能就有76。5亿不同的人类基因组(要考虑同卵双胞胎基因组相同的情况)。所谓的“参考”基因组固然可以作为参考依据,但并非唯一标准。换言之,与它有出入未必就异常—事实上,我们基因组中的变异几乎都无害,只有很少一部分可能会导致遗传病。很多变异都位于基因与基因之间,有的变异虽然发生在基因内部,但因为不在基因的编码区,所以也不会影响蛋白质的合成。当我们对一个人的外显子组进行测序时,往往会发现40000个位于基因编码区的变异。其中一些变异十分常见,也有一些很罕见,甚至还有一些独一无二。即使在今天,如果我们对你的外显子组进行测序,我们也会发现大量从未见过的变异,这点几乎可以肯定,除非你的家族成员(尤其是你的父母)此前做过外显子组测序。

假如你要为一个可能患有某种单基因遗传病(即由一个基因突变导致的遗传病)的人做外显子组测序,你首先要做的,就是在那40000个可引起蛋白质功能改变的基因突变中,筛选出那一两个你认为可能的致病突变作为重点分析的对象。说这是大海捞针一点也不为过。

已完结热门小说推荐

最新标签