跳转到内容

基因组结构变异的检测方法:修订间差异

来自osm&bio
Aaaa留言 | 贡献
无编辑摘要
Aaaa留言 | 贡献
无编辑摘要
第1行: 第1行:
[[文件:基因组结构变异的检测方法.webp|替代=|无|有框|建议点开看大图]]
[[文件:基因组结构变异的检测方法.webp|替代=|无|有框|总结表格]]


=== 1.RP(read pair) ===
=== 1.RP(read pair) ===
第14行: 第14行:
# 检测deletion时,如果变异的碱基对数量较小,难以检测出来(因为我们用RP检测的时候会要求插入片段长度的变化具有统计意义上的显著性,所以它所能检测到的片段长度就会受插入片段长度的标准差SD所影响)
# 检测deletion时,如果变异的碱基对数量较小,难以检测出来(因为我们用RP检测的时候会要求插入片段长度的变化具有统计意义上的显著性,所以它所能检测到的片段长度就会受插入片段长度的标准差SD所影响)
# 所能检测的insertion长度不能超过插入片段,因为我们去计算插入片段长度时是要把得到的read1-插入片段-read2放回基因组里去比对的,但如果insertion片段太长了,那么read根本不会匹配上基因组,也就是说,你根本不知道这里会有一段序列
# 所能检测的insertion长度不能超过插入片段,因为我们去计算插入片段长度时是要把得到的read1-插入片段-read2放回基因组里去比对的,但如果insertion片段太长了,那么read根本不会匹配上基因组,也就是说,你根本不知道这里会有一段序列
=== 2.SR(split read) ===
==== 原理&和RP区分 ====
算法核心和上文RP类似,都是利用非正常的PE测序结果的比对数据进行。
RP中的非正常比对,通常是read1和read2在距离或者位置关系上存在着不正常的情形,而它的一对PE read都是能够“无伤”地进行比对的;但SR一般是指这两条PE的read,有一条能够正常比对上参考基因组,但是另一条却不行的情形。
这时候比对软件会尝试把这条没能够正常比上基因组的read在插入片段长度的波动范围内,使用更加宽松的局部比对(waterman)方法,尝试搜索这条read最终可能比对得上的位置。如果这条read有一部分能够比上,那么软件会对其进行软切除,标记能成功比对的片段(但未能成功比对的片段也会留在read里)
这个过程有时候可能不会太顺利,甚至会发生多次切除再比对的情况,所以,你会看到一条read有时候竟然有很多个软切除的比对结果。而这种情况下就可以使用SR方法的用武之地。并且软切除保留原序列的方式对于后续应用SR很重要,因为,它们往往不会只是依赖原有的比对结果,而是会对这条read进行重新局部比对(如果没有保留的话,信息的丢失就会导致大量的假阴性结果)
SR和RP之间最主要的区别就是,RP的两个read是完整的,而SR的read大部分是撕裂开的
==== 优缺点 ====
SR的一个优势在于,它所检测到的SVs断点能精确到单个碱基,但是也和大多数的RP方法一样,无法解决复杂结构性变异的情形。而且对于SR来说,它要求测序的read要更长才能体现它的优势,如果read太短,许多变异都会不可避免地被漏掉,而且SR的检测功效在基因组的重复区域也会比较差。
==== 一点小问题…… ====
虽然上面的表格里显示SR只能用来检测deletion和duplication,但根据我查到的结果,这种方法是可以用来检测6种变异的,不过它确实区分不了散在重复和串联重复(一个小小的问题,不知道有没有佬可以解答)
[[文件:SR适用的变异类型.png|无|有框|'''SR适用的变异类型''']]

2025年5月31日 (六) 11:46的版本

总结表格

1.RP(read pair)

原理:

利用双端测序(Paired-End Sequencing)数据中读段对的空间关系异常来推断大片段变异。

一般来说我们是无法直接获得每一对read1和read2之间真实的插入片段长度的,但通过序列比对,计算它们彼此之间比对位置上的距离却可以间接获得这个长度。正常情况下这个长度应该等于我们测序时的插入片段长度的,如果出现了数据偏离,就可以判断在read上出现了变异(线性变异,特指deletion和insertion)

而通过比对read1和read2之间的序列位置关系,还能够发现更多非线性的序列变异。比如,序列倒置(Inversion),因为,按照PE的测序原理(其实就是中间有插入片段版本的illumina测序),read1和read2与参考基因组相比对,正好是一正一负,要么是read1比上正链,read2比上负链,要么是反过来,而且read1和read2都应处于同一个染色体上,如果不是这种现象,那么就很可能是序列的非线性结构性变异所致(倒位和易位)

缺陷:

  1. 检测deletion时,如果变异的碱基对数量较小,难以检测出来(因为我们用RP检测的时候会要求插入片段长度的变化具有统计意义上的显著性,所以它所能检测到的片段长度就会受插入片段长度的标准差SD所影响)
  2. 所能检测的insertion长度不能超过插入片段,因为我们去计算插入片段长度时是要把得到的read1-插入片段-read2放回基因组里去比对的,但如果insertion片段太长了,那么read根本不会匹配上基因组,也就是说,你根本不知道这里会有一段序列

2.SR(split read)

原理&和RP区分

算法核心和上文RP类似,都是利用非正常的PE测序结果的比对数据进行。

RP中的非正常比对,通常是read1和read2在距离或者位置关系上存在着不正常的情形,而它的一对PE read都是能够“无伤”地进行比对的;但SR一般是指这两条PE的read,有一条能够正常比对上参考基因组,但是另一条却不行的情形。

这时候比对软件会尝试把这条没能够正常比上基因组的read在插入片段长度的波动范围内,使用更加宽松的局部比对(waterman)方法,尝试搜索这条read最终可能比对得上的位置。如果这条read有一部分能够比上,那么软件会对其进行软切除,标记能成功比对的片段(但未能成功比对的片段也会留在read里)

这个过程有时候可能不会太顺利,甚至会发生多次切除再比对的情况,所以,你会看到一条read有时候竟然有很多个软切除的比对结果。而这种情况下就可以使用SR方法的用武之地。并且软切除保留原序列的方式对于后续应用SR很重要,因为,它们往往不会只是依赖原有的比对结果,而是会对这条read进行重新局部比对(如果没有保留的话,信息的丢失就会导致大量的假阴性结果)

SR和RP之间最主要的区别就是,RP的两个read是完整的,而SR的read大部分是撕裂开的

优缺点

SR的一个优势在于,它所检测到的SVs断点能精确到单个碱基,但是也和大多数的RP方法一样,无法解决复杂结构性变异的情形。而且对于SR来说,它要求测序的read要更长才能体现它的优势,如果read太短,许多变异都会不可避免地被漏掉,而且SR的检测功效在基因组的重复区域也会比较差。

一点小问题……

虽然上面的表格里显示SR只能用来检测deletion和duplication,但根据我查到的结果,这种方法是可以用来检测6种变异的,不过它确实区分不了散在重复和串联重复(一个小小的问题,不知道有没有佬可以解答)

SR适用的变异类型