科研争分夺秒的背后,是对计算能力的争夺。
古代DNA研究的力量
古DNA是指从古人类、动植物遗骸和古生物化石中提取的古生物分子。如果能从古生物化石和考古样本中获得最原始的远古DNA信息,并与现代人类、动物和植物的基因信息进行对比,就能直接回答人类、动物和植物的起源和迁徙、文明的传播和碰撞、历史纷争等问题。
20世纪80年代,考古学家和分子生物学家将古DNA研究引入传统考古学,形成了国际考古学研究的前沿领域——分子考古学。古DNA研究作为科学考古的重要手段,在解决人类起源与迁徙、动植物驯化与驯化、农业起源与早期发展等重大考古问题中发挥了重要作用。
进入21世纪,随着第二代测序技术的普及,古DNA研究迎来了黄金发展期。中国的科学家也在分子考古的浪潮中大放异彩。
早在1998,吉林大学考古系就与生命科学学院合作,成立了国内第一个考古DNA实验室,开展古DNA研究。如今,古DNA实验室已初步建立了中国边疆地区的古DNA基因库,拥有古人类和古动植物样本1万余份,居全国之首。
据吉林大学边疆考古研究中心副主任蔡大伟介绍,正是凭借这些雄厚的资源,近年来,吉林大学考古学院不断创新,突破古DNA优势,带动了考古领域的多项重要进展。
比如对丝绸之路沿线不同时期动物样本的全基因组分析,重构了家养动物群体传播的时空框架,展现了更多东西方文化交流中丝绸之路大通道的历史细节;测定和分析了约3800年前第一种古小麦的全基因组序列,探索了现有地方小麦品种的栽培起源、扩散和遗传改良。本文报道了中国北方55个古代个体的全基因组数据,探讨了新石器时代农业革命以来中国北方的种群互动,为探索中华文明的起源、形成和发展提供了重要证据。
制约古代DNA研究的问题
尽管古代DNA研究进展迅速,但困难仍然不小。
蔡大伟解释说,古代DNA研究主要分为两部分。
第一部分是通过实验手段从远古生物遗骸中提取DNA,完成扩增过程。生物体死亡后,其细胞内的遗传物质立即开始降解,给DNA的提取和扩增带来很大阻力。而且研究难免会遇到现代基因“污染”的问题。
第二部分是测序和数据分析。因为古代DNA的基因序列片段比现代DNA短,所以古代DNA的测序比现代DNA复杂。以人类为例,人类基因组由30亿个碱基对组成。考古学家在获得古代人类DNA片段的序列信息后,需要借助生物信息学的手段对这些片段进行比对和组装,还原成像现代人类DNA一样完整、高质量的全基因组。
“这个过程就像完成一个巨大的拼图。没有强大的计算机软硬件支持,这是不可能完成的任务。”吉林大学生命科学学院副院长、前沿考古研究中心教授崔银秋直言。
蔡大伟指出,早期的研究人员使用通用的计算设备,比如CPU来做基因组装,发现这个过程非常漫长。“一般来说,完成一个古人类的全基因组样本分析至少需要两周时间。”
“我们希望把尽可能多的时间花在科学问题的分析和结果的解释上,而不是花在基础数据的处理和计算上。”崔银秋表示,这需要高性能计算、人工智能等新一代技术来帮助科学家加速这一分子考古的进程。
AI计算如何加速分子考古?
那么,计算能力如何帮助加速基因拼图重建的整个过程呢?
浪潮人工智能与高性能产品线总经理刘军以与吉林大学考古DNA实验室的合作为例进行了介绍。浪潮采用定制化的芯片加速方案,加速古生物基因序列的比对和组装,然后利用人工智能的方法和手段,帮助科学家找到感兴趣的变异基因。该方案可以帮助考古学家在9.64小时内完成全基因组分析,在48分钟内完成全外显子组分析,比基于CPU的方案快39倍。
“这意味着我国科学家可以在原来四十分之一的时间内完成古人类全基因组的比对和拼接。”刘军强调说。
我们都知道,因为DNA是可以复制的,尤其是从父母传给子女的时候,只要突变不是致命的,这些突变就会被复制并遗传给下一代。因此,突变随着时间的推移而积累,这使得科学家能够找到基因进化的特定链,也可以通过积累的突变来估计时间。
“问题是,这些重要的突变基因在哪里?在漫长的历史长河中,他们经历了怎样的进化?”刘军坦言,从这样的追寻过程中,我们可以真实清晰地追溯人类是如何走过这几百万年的进化史的。
“然而,拼接后的基因组序列非常长,用传统方法寻找其上某个特定基因的突变过程极其困难,犹如大海捞针。”刘军说,只有借助人工智能计算方法和手段,科学家才能在基因海洋中找到自己最感兴趣的基因和重要的突变基因。
刘军认为,“从这个角度来看,我们正在为这门古老的学科创造一种实用的工具,就像科学史上的显微镜和望远镜一样”。通过AI计算,服务科学家可以详细获得过去无法获得的客观证据,从而实现对历史真相的洞察。
刘军还特别提到,在AI计算与考古研究结合的过程中,也反过来打开了计算研究的眼界。“我们要看得远、看得深,科学的未来要靠什么样的计算技术来迎接挑战。”