当年454公司为詹姆斯·沃森做全基因组测序的时候,很多人连外显子组测序都还没做过,更不可能有可供参考的大型外显子组和基因组数据库。研究人员在沃森基因组中找到的那10种隐性突变,此前都在患有遗传病的人身上发现过,并且在过去十多年发表的论文中都有报告。恕我直言,由于种种原因,这些报告无一例外都是错误的。例如,研究人员发现沃森的RPGRIP1基因上有一处突变,而该基因与一种严重的遗传性眼病密切相关。他的RPGRIP1基因的一个拷贝发生了突变,导致氨基酸序列第547位的丙氨酸(alanine)变为丝氨酸(serine),另一个拷贝则完全正常。
其实早在2003年,一组来自巴基斯坦的研究人员就曾报告过这种基因突变。当时,这些研究人员注意到当地一个家族中有8个来自同一大家庭的成员都患有一种退行性眼病,基因检测结果显示,他们RPGRIP1基因的两个拷贝都发生了突变。此外,该研究团队还在该家族另外两个小一点的家庭中发现了同样的情况。那时,要证实某种新发现的变异确实与疾病相关,而不是正常的变异,最标准的方法就是随机选取100个来自相同族群的健康人进行基因检测(相当于“族群对照组”),看他们是否也携带这种变异。这种检验方法的原理很简单,以该研究涉及的RPGRIP1基因为例,对100位受试者的这一基因进行测序,就能得到200份该基因的拷贝,如果发现这些健康的受试者普遍携带这种变异,就有理由认为这种变异与疾病并无关联。当时,这些研究人员为节约成本,没有直接读取RPGRIP1基因的序列,而是使用了一种廉价的筛查检测—现在看来,该筛查检测肯定无效,因为研究人员没有在对照组的任何一个受试者中检测到这种变异。
除了选用了错误的检测方法,该巴基斯坦研究小组得出这一结论也无可厚非。毕竟丙氨酸和丝氨酸虽说谈不上天差地别,但两者的化学性质还是有所不同。何况能在12个(来自三个不同家庭的)患有相同疾病的人中找到同样的基因突变,通常可以充分表明这种突变与疾病间存在关联。
到2005年,一个荷兰的研究小组发布了关于该突变的最新研究报告,表明该突变属于一种十分常见的变异,因而不可能与罕见遗传性眼病有关,但显然测序沃森基因组的团队当时并没有注意到这一信息。多亏了丹尼尔·麦克阿瑟和他的团队,如今我们知道这种变异其实在世界大部分地区都很常见:基因组整合数据库中近一半的欧洲族裔携带一个或两个这种变异基因的拷贝,(在该数据库包含的140000份各种族裔的基因组样本中)RPGRIP1基因的两个拷贝都存在这种突变的有近7000份。如此常见的变异显然不可能引发某种罕见遗传病,如果你测序的对象是像沃森那样的欧洲族裔,发现这种变异就更不足为奇了。
然而在过去的十年间,诸如此类的错误似乎成了遗传学领域不得不面对的严峻现实。诚然,巴基斯坦研究小组选用的检测方法考量不足(南亚人携带这种变异的概率几乎和欧洲人一样高,所以如果该研究小组当时选对了检测方法,肯定会在那100位对照组受试者中检测到这种变异),但综观这段时期遗传学领域公开发表的文献便不难发现,这其实是个普遍存在的问题。对遗传学研究而言,族群数据固然重要,但它并不代表一切—无害而常见的变异常有,无害却罕见的变异也不少。
说到这种误将无害的遗传变异归为致病突变的现象,心脏病遗传学领域可谓“重灾区”。2012年和2shospitalet医院的莫滕·奥勒森(MortenOlesen)教授领导的研究小组梳理了遗传性心肌病及遗传性心律失常相关的医学文献,并将这些文献中涉及的致病变异与外显子组变异数据库(theExomeVariantServer,EVS)中的相关数据进行比对。致病变异与外显子组变异数据库是世界首个公共外显子组数据库,尽管它只包含6500个外显子组样本,但在2011年首次发布的时候无疑是个信息宝库。一番比对研究之后,奥勒森团队发现这些心脏病遗传学文献错漏百出,里面很多所谓的“致病突变”都是人群中再常见不过的变异。他们计算了一下,如果所有的这些“致病突变”都属实,就意味着有14的人会患上肥厚型心肌病,16的人会患上扩张型心肌病,130的人会患上长QT综合征。事实真的如此吗?答案显而易见:很多所谓的有害变异,其实都无关痛痒。
这可能还不是最糟的,因为不仅很多变异都被错误地贴上了“致病”的标签,大量的基因也未能幸免。如果只有偶尔的一两份研究报告将某个基因与某种不相干的疾病联系在一起可能还好,但问题在于它们无处不在。在缺乏科学依据的情况下,这些基因就被冠以“某某疾病致病基因”频频出现在文献中,甚至应用于各类疾病的基因检测中。就这一问题而言,心脏病遗传学也深受其害,B2和KQ1基因就是两个很好的例子。肥厚型心肌病的基因检测包中通常都会包含这两个基因,殊不知,它们与这种疾病的联系其实微乎其微。这也就意味着,那些想要通过这一检测寻找病因的人,最终得到的答案很可能是:他们携带的Q1突变就是导致他们心脏病的根源。噩梦也许才刚刚开始,这个家族很多人的命运也可能因为这一基因检测而改变,对于那些目前没有任何心脏不适的人而言尤其如此。他们中的一些人其实也有患这种遗传性心脏病的风险,却可能因为没有查出这两种“致病基因”而放松警惕;另一些人明明没有患病风险,却可能因查出“致病基因”而担惊受怕。
其实一直以来,犯错都是遗传学领域的常态,因为关于基因,关于遗传病,我们还有太多的未知。受此影响,世界范围内人们对基因检测的态度也发生了转变,开始变得慎之又慎。虽说分析基因检测数据时谨慎点总没错,但有时过于谨慎也未必是件好事。解读基因检测数据可能犯的错误无非两大类:误把无害变异当成有害变异,误把有害变异当成无害变异。不同错误产生的后果自然也不同。先说第一种情况,如果我们因误诊告诉一对父母他们还未出世的孩子患有某种遗传病,就可能造成严重后果。胎儿可能会接受不必要的治疗,我们对其父母下一个孩子患病概率的判断可能也是错的。这样一来,这对父母做下一胎产前基因诊断的时候,就可能因查出了相同的变异而不得不放弃腹中健康的孩子,或者可能因为该变异的检测结果呈阴性,而未能及时发现胎儿真正存在的问题。而如果我们没能在第一时间辨别出致病的变异,就属于第二种情况。这会让那些真正有需要的胎儿错失接受干预治疗的机会。此外,对于那些被医生告知“再生出一个患严重遗传病的孩子的概率很低”的父母而言,这意味着这颗“定心丸”失效了,他们的下一个孩子可能还会患病。所以,不论是第一种还是第二种错误,其后果都不堪设想。如果读到这里的你也不由得开始担心起来,对要不要再生一个孩子多了几分顾虑,就代表你正在丧失所谓的“生育信心”,而这又意味着你可能失去再拥有一个健康孩子的机会。
因此,对于我们遗传学家而言,把握好“度”至关重要:判断一种变异是否与疾病相关时,既不能操之过急,也不能畏首畏尾。从这种意义上说,遗传学就是恰到好处的科学。
要准确把握好这个“度”并不容易,有时甚至可以说十分困难。假如有足够的族群数据可以证明某一变异确实十分常见,做出判断也许不难。同样的,如果某种变异频频发生在患有疾病的人身上,却从未发生在一般人群之中,那么答案也显而易见。
最难把握的恰恰是介于这两种情况之间的变异。
你也许会想,何不把这一难题交由计算机来解决呢?你不是第一个这么想的人。思索片刻,脑中突然灵光一现:“有了!编写一个能辨别变异好坏的计算机程序不就解决了吗?”一直以来,有这种想法的人比比皆是。目前已有多种可用于基因变异有害性预测的计算机程序,其中大多数都是针对错义突变(misseion)研发的。所谓错义突变,指编码某种氨基酸的密码子发生碱基替换,导致其编码的氨基酸种类发生改变。这种氨基酸的替换可能会影响蛋白质的功能,但有时又不会产生任何影响或者影响甚微,因而很难判断它们是致病性突变还是无害突变。(相比之下,密码子发生碱基替换变成终止密码子的突变,辨别起来一般要容易得多。[89])为了开发出能准确预测错义突变的程序,设计者们可谓各显神通,采用的算法有的是利用化学变化,有的则是基于氨基酸序列的进化保守性[90]进行评估。到目前为止,我们已掌握了很多生物的基因组数据。因此,以丙氨酸变为丝氨酸的错义突变为例,如果你对这种错义突变感兴趣,想检验一下亲手设计的程序,不妨用你那灿然一新的程序看一看与人类的相似度由高到低的生物相关蛋白质的同一位置对应的是什么,或者看看(人和其他动物)功能类似的蛋白质的同一区域。
如果你用这种方法分析沃森携带的RPGRIP1变异,那么得到的仍会是一个模棱两可的答案:类人猿和猴子在该位点对应的氨基酸都是丙氨酸,此外,大部分啮齿动物,以及骆驼、奶牛、虎鲸、大象、蝙蝠、土豚和犰狳等都是如此。松鼠、金毛鼹鼠、虎皮鹦鹉和鸭子在该位点对应的氨基酸却有所不同,甚至星鼻鼹在该位点的氨基酸竟然是沃森“同款”的丝氨酸!这可以算是除了同为温血、体表有毛的四肢动物,它与沃森的又一共同点了。当然,能获得诺贝尔奖的星鼻鼹可不多。言归正传,总的来说,沃森RPGRIP1蛋白序列上的这一突变氨基酸在物种进化上并不具有明显的保守性,因而不足以证明这种错义突变会破坏RPGRIP1蛋白的功能(虽然没有相关族群数据做支撑,但也不影响)。
有的时候,这种利用氨基酸进化保守性进行判断的方法非常好用。例如,我们曾在一位患有严重癫痫的儿童体内发现了一种蛋白质变异,令人惊异的是,该蛋白序列上的突变氨基酸(本应为脯氨酸)在所有我们测序过的生物中都一样,从哺乳动物一直向前追溯至牡蛎和变形虫都是如此。由此看来,这一切都是自然使然。从变形虫为代表的原生动物开始,历经腔肠动物、扁形动物……最终到我们人类的出现,是一段跨越了数亿年的进化之旅。既然在如此漫长的时光里,大自然都认为这种蛋白质的这一特定位点上的氨基酸只能是脯氨酸,这个位置可能就非脯氨酸莫属。
一不小心又扯远了,还是回到设计你的计算机程序上来。其实,你不必非要在利用化学原理和利用进化保守性之间选一个,完全可以将两者结合起来。或者你也可以换个思路,从他人设计的程序上汲取灵感,打造一款集众家之长于一身的程序[91]。第一步大功告成,接下来就是用大量已知的有害或无害变异来校准你的新程序,校准完成后再用另一批已知变异进行验证。剩下的就是给你的程序起个响亮的名字,并以论文的形式把它介绍给大家……
付出了这么多努力之后,你设计出了一款比现有程序稍微好那么一点的程序。当然了,你肯定不会这么写,但这似乎是你能期望的最好情况了。而且“稍微好那么一点”其实真的不算什么。就拿市面上那20多款预测变异有害性的程序来说,随便哪一款都能在一个人身上找出数百甚至数千种可能有害的变异,其准确性可想而知。相比之下,这些程序在识别无害变异上的表现尚可,但别忘了一点,人类基因组中大部分的变异都无害,反倒是那一小部分有害变异难以辨别,所以这也算不上什么了不起的成就。
到目前为止,还没有一款程序能准确预测突变的有害性,其背后的原因归根结底还是这一任务本身的复杂性。说得形象点,你需要做的就是把变异分成两大类,装进两个不同容器中:一个巨大的集装箱里装满了无害或轻度有害的变异,还有一个精致的黄金蛋杯用来装那一两个有害的变异。假如你有39999个苹果和1个橙子,要从这40000个水果中挑出那唯一的橙子并不难。但要从40000个变异中找出有害变异就完全是另一个概念了,这40000个变异毫无规律可循,你根本想象不到一个氨基酸的改变究竟可能引发什么样的问题。
所以,我们现在有族群数据—很实用,但并不全面[92];有预测软件—比没有强一点;还有医学文献可以参考—里面漏洞百出。怎么看起来好像都不堪重用?
好在天无绝人之路,一些从其他渠道获取的信息有时也可以派上用场。其中最有参考价值的要数从一线医生口中得到的信息。或者,如果你想通过基因检测找出某个人患严重癫痫的原因,你在他的某个基因中发现了一个变异,但这个基因只与一种皮肤病有关,那这一变异很可能就不是你要找的答案。除此之外,某种变异在一个特定家族中的传递情况如何、是否会影响蛋白质关键功能的发挥,也是可供参考的信息。
把所有这些可用的信息拼凑在一起,你就应该能够得出一个比较合理的答案了[93]。对基因变异进行分类可以说是我日常工作中最具挑战性又最有趣的部分,尽管碰到那种生死在此一举的选择时要背负极大的压力。和世界上大多数实验室一样,我们也会将评估的变异分为五大类:第一类是无害变异(Benign),这类变异通常十分常见(如沃森携带的RPGRIP1变异),我们可以肯定它们无害。第二类是可能无害的变异(LikelyBenign),虽然有大量证据表明这些变异无害,但又不能完全排除它们有害的可能,所以归为第二类。第五类是致病变异(Pathogenic),即那些我们几乎可以确定会导致疾病的变异。第四类是可能致病的变异(LikelyPathogenic),有足够的证据表明这类变异可以致病,但又不足以将它们归为第五类。对“可能无害”和“可能致病”这两类变异而言,它们与我们的判断相反的概率很高(理论上高达10%)。
位于中间的就是第三类,意义不明的变异(Variantsnifice,VUS),顾名思义,就是那些我们无法确定好坏的变异。这类变异一直以来都被形象地称为“遗传学的两难境地”。如果没有足够的证据表明某种变异“可能致病”或“可能无害”,或者证据之间相互矛盾,那这种变异就属于意义不明的变异。最重要(往往也最难判断)的,是那些在“意义不明”和“可能致病”之间徘徊不定的变异。不管是把前者错判为后者,还是反过来,其结果都不堪设想。夜深人静的时候,我时常会陷入自我怀疑:“我有没有误把哪个意义不明的变异判断成了可能致病的变异,误导了病人和她的医生?”“我是不是把哪个可能致病的变异当成了意义不明的变异,让原本还有其他选择的病人和医生变得束手无策?”又是一个不眠夜。
[81] 你为自己安排的复杂检测撰写检测报告可能失之偏颇,因为你的主观偏见可能会影响你的判断,导致你遗漏意料之外的发现,或是让你过分看重符合你预想的检测结果。
[82] 454生命科学公司已于2007年被罗氏集团(Roche)收购。—译者注
[83] 斯万特·帕博(SvanteP??bo,1955—),又译为施温提·柏保,瑞典著名生物学家、进化遗传学家,古遗传学领域的开创者之一。—译者注
[84] 尼安德特人是大约12万—3万年前居住在欧亚大陆的古人类,属于晚期智人,因其化石发现于德国尼安德河谷而得名。—译者注
[85] 从那以后我们才知道,原来我们的基因组中还有其他古代人类的痕迹,包括丹尼索瓦人(Denisovans)。2008年,研究人员在俄罗斯丹尼索瓦洞穴中发现了他们的一根指骨和一颗牙齿,故将他们命名为丹尼索瓦人。
[86] 你也可以把每一个拥有两条X染色体的人(包括大多数女性)都看作镶嵌体,因为两条X染色体中任意一条上的某个基因变异都只会在那条特定X染色体处于激活状态的细胞中表现出来。因此,患有一些X连锁遗传性皮肤病的女性,其皮损就会呈现沿布拉什科线分布的特点。这样的皮肤病包括戈尔茨综合征(Goltzsyndrome)及名字极富画面感的色素失禁症(iiapigmenti)。
[87] 为了开展这一研究,研究人员将从野外捕获的鱼放在一起,让它们进行近亲**繁殖。这样的研究在人类遗传学领域是不被允许的。
[88] 所谓“致病”是只有在该基因的另一个拷贝也携带这种变异的情况下才会致病。如果一个人只有一个基因拷贝携带这种变异,另一个拷贝完全正常,那么他就不会发病。
[89] 这种编码某种氨基酸的密码子变成了不编码任何氨基酸的终止密码子的突变称为无义突变(ion),其结果是肽链合成提前终止,产生过短、通常没有功能的蛋白质,进而可能导致肿瘤及多种遗传病。因此,无义突变大多为致病性突变。—译者注
[90] 在探究某种蛋白质的功能时,通常会分析构成这种蛋白质的各个氨基酸在不同物种间是否保持一致,这就是所谓的“进化保守性”。一般而言,一种氨基酸的进化保守性越高,说明其对蛋白质的功能越重要,这些氨基酸的突变具有致病性的可能性也更高。—译者注
[91] 或者,为什么不呢?你也可以将这种氨基酸的改变与假设的人类和大猩猩的共同祖先进行比较。这可不是我编的,目前市面上最为成功的变异有害性预测程序之一—CADD就是以此为基础设计的。
[93] 现在,我们有各种各样的评估体系可供参考。其中最受欢迎、使用最广的当数由美国医学遗传学与基因组学学会(Ameriedietiomics,ACMG)于2015年发布的新版指南,它虽称不上完美,却无比实用。一提起这份指南,整个遗传学领域无人不知、无人不晓,即便那些没有亲自用过的人,也一定听过它的大名。