信息生成基础-排序原理
回顾测序的历史,先后形成了三种测序方法,从20世纪70年代的桑格测序到90年代的第二次测序,再到长度更长的第三次测序,都为快速高效地获取基因序列提供了技术支持。
Sanger在1970s发展的双脱氧终止反应可以完成1000bp的最长序列。由于该技术用于测序准确率高达99.999%,因此已在人类基因组计划中用于完成基因组测序(改良桑格法)。然而,它不适合测序大基因组,因为它的通量低(一次只能检测一个序列)和成本高。
桑格法的主要思想是构建四个反应体系(A、T、G、C),分别加入引物、DNA聚合酶、四种dNTP和一定比例的ddNTP(带放射性标记)。由于ddNTP的加入,互补链的合成被终止。当然,ddNTP的组合是随机的,但是在一定时间内,ddNTP会组合所有站点。虽然会有ddNTP和dNTP结合在同一个位点,但在凝胶电泳和放射自显影试验中只会检测到d dNTP,通过碱基互补推导出待测序列。
PCR实验出现在1983,所以如果要建立这四个反应体系,不一定要有多个模板链。这么多模板链除了扩增还能有什么别的方法?或者说,如何获取这些模板链?
第二代测序有不同的平台,包括罗氏454测序仪、Illumina Solex/Hiseq和ABI固相,其中Illumina Hiseq的市场份额较大(75%)。其开发的PE双端测序法的主要特点是通过桥PCR扩增大大提高了通量。
一些必须理解的名词
建造图书馆
超声波将DNA分子断裂成300-800bp长的序列片段(人类基因组为300-500bp),用酶压平,然后在3’端加上一个A碱基(因为接头的3’端有一个突出的T),再在两端加上互补的接头,然后通过PCR扩增达到一定的浓度,形成单链DNA文库。
链接器有两个主要功能,1。实现了高效率的桥式放大;2.可以实现双端测序。
桥接PCR的关键在于设计待测序列的5’和3’接头以及流通池泳道的互补接头。桥PCR的过程可以通过扩增正义链来理解,主要包括以下步骤:
总之,因为接头的设计和互补配对的特性,只能保留有义链进行测序。
测序的原理是边合成边测序,通过一次加入一个荧光碱基并检测荧光信号,然后立即淬灭,再完成下一轮碱基信号检测。双端测序的顺序是先测序有义链,再测序索引序列,最后测序反义链序列。
每一轮有义链的排序步骤:
所有正义链测序后,合成称为洗脱,然后开始索引测序检测。首先,通过索引1的引物结合位点被测序,合成产物被洗脱。然后,正义链的p5与泳道上的P5’互补以完成index2的测序,并且产物被洗脱。
洗去index2产物后,仍然是桥扩增得到双链,然后变性得到原来的正向链和新的反向链,去掉测得的正向链。然后,与正向测试一样,首先连接引物,但连接位点是引物结合位点2,测试后获得反向链序列。
从产生荧光信号到识别碱基序列的过程主要包括七个步骤:图像校正(即空间校正)、聚类识别、荧光校正(即光学校正)、成像/预处理(即化学校正)、碱基识别、PF(Illumina default Pass Filtering algorithm)和质量评估。
其中,摄像机识别碱基的工作原理:一个CCD摄像机(1)用于识别每个簇并确定其坐标;(2)分别提取A、G、C、T四个波长下每个聚类的信号强度值。此外,拍照过程相当耗时,一个周期产生的信号大约需要40分钟才能完成照片采集。用相机的扫描功能会更快。
总之,根据设计的接头和引物结合位点,可以一次性完成正义链、索引链和反义链的测序。当然,获得测序数据后的质控涉及到其他知识,质控结果的解读也需要仔细研究。
三个视频了解测序原理