基因组结构变异的检测方法：修订间差异

2025年5月31日 (六) 11:46的版本

1.RP（read pair）

原理：

利用双端测序（Paired-End Sequencing）数据中读段对的空间关系异常来推断大片段变异。

一般来说我们是无法直接获得每一对read1和read2之间真实的插入片段长度的，但通过序列比对，计算它们彼此之间比对位置上的距离却可以间接获得这个长度。正常情况下这个长度应该等于我们测序时的插入片段长度的，如果出现了数据偏离，就可以判断在read上出现了变异（线性变异，特指deletion和insertion）

而通过比对read1和read2之间的序列位置关系，还能够发现更多非线性的序列变异。比如，序列倒置（Inversion），因为，按照PE的测序原理（其实就是中间有插入片段版本的illumina测序），read1和read2与参考基因组相比对，正好是一正一负，要么是read1比上正链，read2比上负链，要么是反过来，而且read1和read2都应处于同一个染色体上，如果不是这种现象，那么就很可能是序列的非线性结构性变异所致（倒位和易位）

缺陷：

检测deletion时，如果变异的碱基对数量较小，难以检测出来（因为我们用RP检测的时候会要求插入片段长度的变化具有统计意义上的显著性，所以它所能检测到的片段长度就会受插入片段长度的标准差SD所影响）
所能检测的insertion长度不能超过插入片段，因为我们去计算插入片段长度时是要把得到的read1-插入片段-read2放回基因组里去比对的，但如果insertion片段太长了，那么read根本不会匹配上基因组，也就是说，你根本不知道这里会有一段序列

2.SR（split read）

原理＆和RP区分

算法核心和上文RP类似，都是利用非正常的PE测序结果的比对数据进行。

RP中的非正常比对，通常是read1和read2在距离或者位置关系上存在着不正常的情形，而它的一对PE read都是能够“无伤”地进行比对的；但SR一般是指这两条PE的read，有一条能够正常比对上参考基因组，但是另一条却不行的情形。

这时候比对软件会尝试把这条没能够正常比上基因组的read在插入片段长度的波动范围内，使用更加宽松的局部比对（waterman）方法，尝试搜索这条read最终可能比对得上的位置。如果这条read有一部分能够比上，那么软件会对其进行软切除，标记能成功比对的片段（但未能成功比对的片段也会留在read里）

这个过程有时候可能不会太顺利，甚至会发生多次切除再比对的情况，所以，你会看到一条read有时候竟然有很多个软切除的比对结果。而这种情况下就可以使用SR方法的用武之地。并且软切除保留原序列的方式对于后续应用SR很重要，因为，它们往往不会只是依赖原有的比对结果，而是会对这条read进行重新局部比对（如果没有保留的话，信息的丢失就会导致大量的假阴性结果）

SR和RP之间最主要的区别就是，RP的两个read是完整的，而SR的read大部分是撕裂开的

优缺点

SR的一个优势在于，它所检测到的SVs断点能精确到单个碱基，但是也和大多数的RP方法一样，无法解决复杂结构性变异的情形。而且对于SR来说，它要求测序的read要更长才能体现它的优势，如果read太短，许多变异都会不可避免地被漏掉，而且SR的检测功效在基因组的重复区域也会比较差。

一点小问题……

虽然上面的表格里显示SR只能用来检测deletion和duplication，但根据我查到的结果，这种方法是可以用来检测6种变异的，不过它确实区分不了散在重复和串联重复（一个小小的问题，不知道有没有佬可以解答）

@@ 第1行： / 第1行： @@
-[[文件:基因组结构变异的检测方法.webp|替代=|无|有框|建议点开看大图]]
+[[文件:基因组结构变异的检测方法.webp|替代=|无|有框|总结表格]]
 === 1.RP（read pair） ===
@@ 第14行： / 第14行： @@
 # 检测deletion时，如果变异的碱基对数量较小，难以检测出来（因为我们用RP检测的时候会要求插入片段长度的变化具有统计意义上的显著性，所以它所能检测到的片段长度就会受插入片段长度的标准差SD所影响）
 # 所能检测的insertion长度不能超过插入片段，因为我们去计算插入片段长度时是要把得到的read1-插入片段-read2放回基因组里去比对的，但如果insertion片段太长了，那么read根本不会匹配上基因组，也就是说，你根本不知道这里会有一段序列
+=== 2.SR（split read） ===
+==== 原理＆和RP区分 ====
+算法核心和上文RP类似，都是利用非正常的PE测序结果的比对数据进行。
+RP中的非正常比对，通常是read1和read2在距离或者位置关系上存在着不正常的情形，而它的一对PE read都是能够“无伤”地进行比对的；但SR一般是指这两条PE的read，有一条能够正常比对上参考基因组，但是另一条却不行的情形。
+这时候比对软件会尝试把这条没能够正常比上基因组的read在插入片段长度的波动范围内，使用更加宽松的局部比对（waterman）方法，尝试搜索这条read最终可能比对得上的位置。如果这条read有一部分能够比上，那么软件会对其进行软切除，标记能成功比对的片段（但未能成功比对的片段也会留在read里）
+这个过程有时候可能不会太顺利，甚至会发生多次切除再比对的情况，所以，你会看到一条read有时候竟然有很多个软切除的比对结果。而这种情况下就可以使用SR方法的用武之地。并且软切除保留原序列的方式对于后续应用SR很重要，因为，它们往往不会只是依赖原有的比对结果，而是会对这条read进行重新局部比对（如果没有保留的话，信息的丢失就会导致大量的假阴性结果）
+SR和RP之间最主要的区别就是，RP的两个read是完整的，而SR的read大部分是撕裂开的
+==== 优缺点 ====
+SR的一个优势在于，它所检测到的SVs断点能精确到单个碱基，但是也和大多数的RP方法一样，无法解决复杂结构性变异的情形。而且对于SR来说，它要求测序的read要更长才能体现它的优势，如果read太短，许多变异都会不可避免地被漏掉，而且SR的检测功效在基因组的重复区域也会比较差。
+==== 一点小问题…… ====
+虽然上面的表格里显示SR只能用来检测deletion和duplication，但根据我查到的结果，这种方法是可以用来检测6种变异的，不过它确实区分不了散在重复和串联重复（一个小小的问题，不知道有没有佬可以解答）
+[[文件:SR适用的变异类型.png|无|有框|'''SR适用的变异类型''']]