二代测序 | zero

第二代测序（Next-generation sequencing，NGS）又称为高通量测序，其开创性的引入了可逆终止末端，从而实现边合成边测序，在DNA复制过程中通过捕捉新添加的碱基所携带的特殊标记来确定DNA序列。

二代测序有两个重要特点：1．高通量，二代测序能一次并行对几十、几百万条DNA分子进行测序；2．读长短，测序过程随着读长增长，基因簇复制的协同性降低，会导致测序质量下降，二代测序的读长不超过500bp。因此基因组、宏基因组需要被打断成小片段再测序，测序完毕后再拼接。

总的说来，第一代测序技术的主要特点是测序读长可达1000bp，准确性高达99.999%，但其测序成本高，通量低等方面的缺点，严重影响了其真正大规模的应用。经过不断的技术开发和改进，以Roche公司的454技术、illumina公司的Solexa，Hiseq技术和ABI公司的Solid技术为标记的第二代测序技术诞生了。第二代测序技术大大降低了测序成本的同时，还大幅提高了测序速度，并且保持了高准确性，以前完成一个人类基因组的测序需要3年时间，而使用二代测序技术则仅仅需要1周，但在序列读长方面比起第一代测序技术则要短很多。目前主流的二代测序平台是illumina，下文主要介绍illumina平台的测序原理。

Single-Read测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段，**引物序列连接到DNA片段的一端**，然后末端加上接头，将片段固定在flow cell上生成DNA簇，上机测序单端读取序列。该方式建库简单，操作步骤少，常用于小基因组、转录组、宏基因组测序。

Paired-end文库制备是指在构建待测DNA文库时在**两端的接头上都加上测序引物结合位点**，在第一轮测序完成后，去除第一轮测序的模板链，用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增，以达到第二轮测序所用的模板量，进行第二轮互补链的合成测序。

第一步：构建DNA文库

利用超声波把待测的DNA样本打断成小片段，目前除了组装之外和一些其他的特殊要求之外，主要是打断成200-500bp长的序列片段，并在这些小片段的两端添加上不同的接头，构建出单链DNA文库。

1．末端修饰。打断的片段是随机断裂，其末端可能是不平的。因此，建库第一步是补齐不平的末端。补平之后，需要在3’端加A碱基

2．添加接头。经过末端修饰后的DNA片段3’末端具有突出的A尾，而接头具有突出的T尾，可以使用连接酶将接头添加到DNA片段两端，形成“Y”形接头。

3．PCR扩增。添加了接头的DNA片段，可通过与接头互补的引物来扩增，富集文库

左边的是直接在fragment DNA的两端直接加上full Y-adapter, adapter中已经包括了和P5/P7 oligo互补的序列, index, 以及Read1/Read2的测序引物。

右边的那种是先在fragment DNA的两端加上PE adapter, 然后再引入和P5/P7 oligo互补配对的序列以及index序列。

一句话总结，这两种不同的indexing strategy的差别在于引入index序列的时机和方式不一样。

其实右边的图并不是画的特别形象，具体的的可以参看下面这张图

在这里我们能够清楚地看到，这种接头添加过程中，fragment DNA两端是先连上PE adapter, 然后再通过PCR引入的region complementary to P5/P7 sequence, index, and sequencing biding sites.

1)P5和P7是不同的，它们分别和flowcell上的接头互补和相同。

2)index1和index2也是不同的，与P5相连的是index2，与P7相连的是index1

关于index，也叫barcodes，因为一个lane可以同时测多个样品，为了避免混淆样品的read products，每种样品的DNA由一种index修饰，这样测序得到的reads都是具有index标记的，在测序结果中，依据之前标签与样品的对应关系，就可以获得对应样品的数据。而这里的index1和index2是为了区分paired-end测序得到的双端reads。

第二步：桥式PCR

Flowcell是用于吸附流动DNA片段的槽道，当文库建好后，这些文库中的DNA在通过flowcell的时候会随机附着在flowcell表面的lane上。每个Flowcell有8个lane，每个lane的表面都附有很多接头，这些接头能和建库过程中加在DNA片段两端的接头相互配对（这就是为什么flowcell能吸附建库后的DNA的原因），并能支持DNA在其表面进行桥式PCR的扩增。

1.Flowcell上随机分布了两种不同的寡核苷酸序列，分别与P5互补（即P5’），与P7一致（即P7）。

2.待测sequence通过P5与folwcell上的P5’序列杂交互补，以待测sequence为模板进行互补链（即reverse strand）的延伸，互补链的两端为P5’和P7’。

3.通过聚合酶生成杂交片段的互补片段，然后加入NaOH碱溶液后，双链分子变性，原始模板链（左边的链）被流动池中的液体洗去

4.加入中性液体用于中和碱溶液，Reverse strand的P7’与Flowcell上的P7杂交互补，进行链的合成，聚合酶参与下，生成互补链，最终形成双链桥,这就是我们所熟知的桥式PCR

5.接下来合成的双链被解链，再分别与Flowcell上的接头杂交互补，延伸，解链，杂交，延伸，解链…如此重复35个循环

6.桥式PCR完成后，使用NAOH将双链解链，并利用甲酰胺基嘧啶糖苷酶（Fpg）对8-氧鸟嘌呤糖苷（8-oxo-G）的选择性切断作用，选择性地将P5’与链的连接切断，留下与Flowcell上P7连接的链，也就是Forward strand。同时游离的3’端被阻断，防止不必要的DNA延伸

第三步：测序

首先，在Flowcell中加入荧光标记的dNTP和酶，由引物起始开始合成子链。但是dNTP存在 3’端叠氮基会阻碍子链延伸，这使得每个循环只能测得一个碱基。合成完一个碱基后， Flowcell 通入液体洗掉多余的dNTP和酶，使用显微镜的激光扫描特征荧光信号。

测序引物（sequencing primer）结合到靠近P5的测序引物结合位点1（sequencing primer binding site 1）上，在系统中加入四种dNTP和DNA聚合酶。这里的dNTP有两个特点：它是有荧光基团标记的，每种碱基标记的荧光基团不一样；它的3’末端连了一个叠氮基，这个叠氮基能够阻断后面的碱基与它相连

因此在聚合酶的作用下，与Forward strand相应位置碱基配对的dNTP就会结合到新合成的链上，而由于叠氮基的存在，后面的dNTP无法继续连接。这时用水将剩余的dNTP和酶给冲掉，将Flowcell进行扫描，扫描出来的荧光对应的碱基的配对碱基即是该链该位置的碱基。同时在这个Flowcell上有成千上万个cluster也在进行同样的反应，因此一个循环就能同时检测多个样本（这也是高通量的核心所在）。这个循环完成后，加入化学试剂把叠氮基和标记的荧光基团切掉，进行下一个循环（碱基的连接、检测与切除）。如此重复直至所有链的碱基序列被检测出，也就是Forward read 序列。