如何看待大数据基因的问题

20世纪初,人类基因组计划(HGP)发布了第一份人类基因草案。人类基因组大约有30亿个碱基对,这意味着每个人的基因组有超过3Gb的数据。该项目与上世纪的曼哈顿计划(原子弹制造)和阿波罗登月计划并称为三大科学工程,是本世纪具有里程碑意义的科学工程。

15年后,基因组测序技术的飞速发展已经超出了人们的想象。十年前,这项技术还只是实验室里一个“迷人”但昂贵的研究工具。现在,它已经逐渐进入医学领域,成为一项略显“尖端”的诊断技术。这项技术也引领生物医学领域进入了大数据时代。

此前有预测称,当个人基因组测序成本降至65438美元+0,000元时,标志着我们的医学将进入个性化医学时代。现在,这个目标已经基本实现了。随着这项技术的快速发展和成本的扁平化,它开始给我们带来巨大的数据,包括基因组学、蛋白质组学等组学的出现,以及大量的数据。

1.海量数据的生成

在过去的七八年里,我们存储的个人基因组数据量已经达到了106,这是多么的惊人,而这仅仅是个开始。每年Illumina的HiSeq X 10测序仪可以完成超过18000人的基因组测序。测序系统已经分布在世界顶尖的测序中心,每天都会产生大量的数据。2014年,英国也启动了“十万人基因组计划”,而美国和中国宣布将完成多达一百万人的基因组数据收集。

基因测序数据正以更快的速度翻倍。2015之后,根据历史累计测序数据,每7个月翻一倍,Illumina仪器测序得到的数据每12个月翻一倍;如果只看摩尔定律,每18个月,数据量可以翻倍。这种情况会带来一个巨大的“数据黑洞”。图片来自nature.com。

上面说的只是大数据时代的一个缩影,现在还有其他数据。例如,随着基因组计划的发展,人类蛋白质组计划和基因测序结果在医学领域的应用逐渐被提出,它们也是大数据的“积木”。所谓的人类蛋白质组计划旨在研究所有人类基因产生的蛋白质。关于这一点,我们来看一个研究者的故事。

美国斯坦福大学的迈克尔?迈克尔·斯奈德。

迈克尔·斯奈德是斯坦福大学的分子遗传学家。当他怀着好奇心测量自己的基因组时,他得到了一些“惊喜”。他发现自己是ⅱ型糖尿病易感基因的携带者,尽管之前在自己身上没有发现任何这种疾病的危险因素,包括肥胖、家族史等等。在接下来的14个月中,斯奈德持续监测其体内相应RNA的活性和蛋白表达。在一次呼吸道病毒感染后,他发现自己体内的蛋白质表达发生了变化,相应的生物通路被激活。后来他被诊断为糖尿病。似乎这种疾病是由这种病毒感染引发的。此后,当他患有莱姆关节炎时,他还监测了他体内蛋白质表达的变化。此时他的研究已经产生了多达50Gb的数据,这还只是关于他个人的研究数据。当他把研究扩大到100人,把研究对象扩大到13“组学”(包括蛋白质组、肠道菌群转录组等。),其实按照他的计划,要想真正预测疾病,就要把研究对象增加到百万患者。那么,它会带来多少数据呢?

各种电子设备的普及,健康数据记录App的出现,给这个时代带来了海量的数据,也给医学界带来了可观的研究对象。在过去的几十年里,医生如果想观察病人的心血管健康状况,往往会给他们做这样一个小测试:让他们在平缓稳定的道路上行走6分钟,并记录他们的行走距离。该测试不仅可用于预测肺移植受体的存活率,还可用于检测肌肉萎缩的发展,甚至用于评估心血管患者的健康状况。这种小测试已经在很多医学研究中使用,但在过去,在最大的医学研究项目中,这样的参与者很少达到1000人。

智能手机中健康相关应用的出现使研究人员能够从大量人群中获取数据。图片来自nature.com。

然而,这种情况近年来有了很大的改变。在2015年3月进行的一项心血管研究中,研究人员尤安·阿什利在两周内获得了6000人的测试结果,这要归功于数百万人现在拥有智能手机和健身追踪器。截至6月,仅依靠一款名为“我的健康计数”的苹果应用,就有4万人参与了这项研究(见上图)。通过这个应用程序,Ashley甚至可以招募来自世界各地的参与者,并获得他们的测试结果。那样的话,他会得到什么数据?面对这种情况,许多研究人员表示,这些海量数据可能会淹没现有的分析渠道,对数据存储提出前所未有的“高”要求。

2.“大数据”时代的挑战

在人群基因组研究的大潮下,虽然更多的人只关注整个基因组的外显子部分,即基因组中可以编码和产生蛋白质的部分,但它占整个基因组的1-5%,可以把需要分析的数据量减少到原来的1%。但即使在这种情况下,数据的年产量仍然可以达到4000万Gb。这就带来了第一个问题,如何存储这么大的数据量?

虽然这只是这个领域最基本的问题,但还是需要巨大的资源来解决。这是近年来互联网上最常见的一个词——云出现的机会。这么大的数据量不能只存储在固定设备上,需要借助互联网,也就是所谓的“云存储”。另外,这些数据带来的处理危机也是巨大的,计算机的处理能力也会限制其应用。这个问题最初的解决还是要靠“云”,也就是现在所说的“云计算”。

即使处理海量数据的存储问题,我们也会有另一个头疼的问题——这些数据说明了什么?目前,基因组学的临床研究往往侧重于识别个体基因组中可能破坏基因功能的“小错误”,即所谓的单核苷酸变异(SNPs)。即使这些突变往往存在于仅占基因组65,438+0%的外显子区域,但平均来看,仍有近65,438+03,000个,其中2%已被预测会受到影响。

自从奥巴马提出“精准医疗”概念后,这个方向一直蓬勃发展。即使有了测序技术和分析工具,有了电子健康记录这个“好帮手”,这种医疗方式的理想和现实还是有巨大的差距。这个领域还有很多障碍。例如,即使电子健康记录的普及和新疗法的成功开发,也经常需要为临床医生提供持续的培训,以帮助他们在做出医疗决策之前了解足够详细的信息。

此外,电子健康档案的不享受(即涉及患者隐私的问题)为精准医疗的实现设置了很大的障碍。很多情况下,治疗患者个体病例的具体信息往往掌握在患者和治疗机构手中。如果没有到达研究人员手中,将无法根据这些信息改进一些治疗方法,因此将无法实现对个体的“个体化医疗”。这些问题往往反映出生物医学领域需要信息处理专家的介入和帮助。遗憾的是,生物信息学家在学术领域只占少数席位,在医学领域就更不用说了,需要给他们提供更多的职位和机会。

3.“大数据”带来的机遇

挑战必然带来机遇,这可以体现在生物医学领域的很多方面,如诊断方法的更新、疾病的分类、医学领域药物开发的新方向、医学领域疾病治疗的新方法,甚至生物学基础研究领域的新工具。

2013安吉丽娜·朱莉的故事在全世界引起了轰动。为了降低患乳腺癌的风险,她进行了预防性的双乳房切除术,而这个决定是在她检测出自己携带了一个风险基因——BRCA基因后才做出的。这种基因会带来重大的患病风险。约55-65%的乳腺癌患者携带有害的BRCA1基因突变,45%携带BRCA2突变。对于朱莉来说,虽然她只携带了之前的基因,但这足以让她做出预防性手术的决定。这个故事举了一个生动的例子,就是如何把个体测序得到的数据和临床诊断联系起来。就好像人类正在从自己的基因组中寻找这些失落的宝藏,帮助自己预防一些恶性疾病,但这只是这个时代带来的一个好处,而且只占很小一部分。

以糖尿病为例,疾病分类不准确对早期预防和后期治疗非常不利。此前,医学界已经知道有一百多种可能导致糖尿病的方式,涉及胰腺、肝脏、肌肉、大脑甚至脂肪的不同变化。现代基因研究表明,不同类型的糖尿病有许多致病基因。这个时候,如果把糖尿病的这些不同亚型混为一谈,人们就很难理解为什么同样基因突变的患者,面对同样的治疗方案,会有完全不同的治疗效果。

正如生物化学家Alan Attie所说,“从致病基因到体重、血糖水平等表型的出现,往往有很多步骤,每一步都可能发生基因突变,最终会削弱基因与表型之间的联系”。所以只看表现型(也就是临床症状),只看突变基因,只会得到片面的结果。只有将两者有机地结合起来,才能加深对疾病的认识,更准确地对疾病进行分类,从而更容易“对症下药”。

美国国立卫生研究院(NIH)曾经启动了一个大型项目,建立了癌症基因组亚多拉斯(TCGA),该项目对所有癌症相关的基因突变进行了分类,并保存了250万Gb的数据,极大地提高了研究人员对各种类型癌症的认识。但也只是这样,对于提供过组织样本的患者来说,并没有给他们的临床体验带来太大的改变。

与癌症治疗相关的另一个方面是个人电子健康记录及其病例的具体信息。对于许多研究人员来说,如果我们能够从医院或个人那里获得这些信息,我们就可以有效地改进癌症治疗计划。一般来说,只有在测序大数据的基础上,才能掌握患者的介入记录(来自个人电子健康档案)和临床特征(来自医疗机构的临床和病理记录),从而最终“升级”肿瘤的临床治疗方案。

医药研发也能从大数据中获益良多,这是可以理解的。在药物研发的世界里,基因技术公司更倾向于进行长期的生物学研究,并将其与临床数据联系起来,让药物对每个人“对症下药”,甚至帮助制药公司做出更大胆的研发决策,进行个性化定制免疫治疗研究。

以微生物菌群的研究为例。现在有人提出了这样的想法:我们什么时候才会想要研发出可以改变体内微生物菌群的药物?我们肠道、皮肤表面、环境中的这几十亿个微生物,不仅影响我们是否生病,还影响药物对疾病的疗效。目前研究微生物菌群得到的数据大多只是针对一小部分人,但这是否也意味着一个好的研究方向呢?毕竟,我们仍然缺乏一些稳定的测试方法,这些方法可以以可持续的方式改变微生物菌群,并对疾病的发展产生有意义的影响。

大数据会给免疫学研究带来什么?首先,有以下“组学”可以对免疫学研究产生有益的影响,包括基因组、微生物组、表观基因组、转录组、代谢组学、途径、细胞和蛋白质组。具体来说,比如对某个特定B细胞或T细胞的所有抗体抗原分子的分析,这些分析结果(尤其是结合了可以识别相应抗体的抗原决定簇的技术),可以将临床诊断、抗体药物研发、疫苗研发提升到一个新的高度,可以为自身抗原肽结合抗体提供新的见解。

有了荆棘的指引,歌声好听的夜莺往往会被吸引过来。大数据给我们带来挑战的同时也带来了机遇,尤其是对于一些恶性疾病(如癌症)的治疗。单一类型的肿瘤往往伴随着多种基因突变,但投入更多的时间和金钱,就会获得更多的治疗靶点。当大数据分析的准确率越来越高,对整个疾病过程的理解也会越来越深入。有了“大数据分析”这个武器,就会产生更精准的治疗方案,帮助人们做出更好的选择。