信息生成基础-排序原理

刘-测序的世界

回顾测序的历史，先后形成了三种测序方法，从20世纪70年代的桑格测序到90年代的第二次测序，再到长度更长的第三次测序，都为快速高效地获取基因序列提供了技术支持。

Sanger在1970s发展的双脱氧终止反应可以完成1000bp的最长序列。由于该技术用于测序准确率高达99.999%，因此已在人类基因组计划中用于完成基因组测序(改良桑格法)。然而，它不适合测序大基因组，因为它的通量低(一次只能检测一个序列)和成本高。

桑格法的主要思想是构建四个反应体系(A、T、G、C)，分别加入引物、DNA聚合酶、四种dNTP和一定比例的ddNTP(带放射性标记)。由于ddNTP的加入，互补链的合成被终止。当然，ddNTP的组合是随机的，但是在一定时间内，ddNTP会组合所有站点。虽然会有ddNTP和dNTP结合在同一个位点，但在凝胶电泳和放射自显影试验中只会检测到d dNTP，通过碱基互补推导出待测序列。

PCR实验出现在1983，所以如果要建立这四个反应体系，不一定要有多个模板链。这么多模板链除了扩增还能有什么别的方法？或者说，如何获取这些模板链？

第二代测序有不同的平台，包括罗氏454测序仪、Illumina Solex/Hiseq和ABI固相，其中Illumina Hiseq的市场份额较大(75%)。其开发的PE双端测序法的主要特点是通过桥PCR扩增大大提高了通量。

一些必须理解的名词

建造图书馆

超声波将DNA分子断裂成300-800bp长的序列片段(人类基因组为300-500bp)，用酶压平，然后在3’端加上一个A碱基(因为接头的3’端有一个突出的T)，再在两端加上互补的接头，然后通过PCR扩增达到一定的浓度，形成单链DNA文库。

链接器有两个主要功能，1。实现了高效率的桥式放大；2.可以实现双端测序。

桥接PCR的关键在于设计待测序列的5’和3’接头以及流通池泳道的互补接头。桥PCR的过程可以通过扩增正义链来理解，主要包括以下步骤:

总之，因为接头的设计和互补配对的特性，只能保留有义链进行测序。

测序的原理是边合成边测序，通过一次加入一个荧光碱基并检测荧光信号，然后立即淬灭，再完成下一轮碱基信号检测。双端测序的顺序是先测序有义链，再测序索引序列，最后测序反义链序列。

每一轮有义链的排序步骤:

所有正义链测序后，合成称为洗脱，然后开始索引测序检测。首先，通过索引1的引物结合位点被测序，合成产物被洗脱。然后，正义链的p5与泳道上的P5’互补以完成index2的测序，并且产物被洗脱。

洗去index2产物后，仍然是桥扩增得到双链，然后变性得到原来的正向链和新的反向链，去掉测得的正向链。然后，与正向测试一样，首先连接引物，但连接位点是引物结合位点2，测试后获得反向链序列。

从产生荧光信号到识别碱基序列的过程主要包括七个步骤:图像校正(即空间校正)、聚类识别、荧光校正(即光学校正)、成像/预处理(即化学校正)、碱基识别、PF(Illumina default Pass Filtering algorithm)和质量评估。

其中，摄像机识别碱基的工作原理:一个CCD摄像机(1)用于识别每个簇并确定其坐标；(2)分别提取A、G、C、T四个波长下每个聚类的信号强度值。此外，拍照过程相当耗时，一个周期产生的信号大约需要40分钟才能完成照片采集。用相机的扫描功能会更快。

总之，根据设计的接头和引物结合位点，可以一次性完成正义链、索引链和反义链的测序。当然，获得测序数据后的质控涉及到其他知识，质控结果的解读也需要仔细研究。

三个视频了解测序原理