基因组结构变异的检测方法

来自osm&bio
跳转到导航 跳转到搜索
总结表格

1.RP(read pair)

原理:

利用双端测序(Paired-End Sequencing)数据中读段对的空间关系异常来推断大片段变异。

一般来说我们是无法直接获得每一对read1和read2之间真实的插入片段长度的,但通过序列比对,计算它们彼此之间比对位置上的距离却可以间接获得这个长度。正常情况下这个长度应该等于我们测序时的插入片段长度的,如果出现了数据偏离,就可以判断在read上出现了变异(线性变异,特指deletion和insertion)

而通过比对read1和read2之间的序列位置关系,还能够发现更多非线性的序列变异。比如,序列倒置(Inversion),因为,按照PE的测序原理(其实就是中间有插入片段版本的illumina测序),read1和read2与参考基因组相比对,正好是一正一负,要么是read1比上正链,read2比上负链,要么是反过来,而且read1和read2都应处于同一个染色体上,如果不是这种现象,那么就很可能是序列的非线性结构性变异所致(倒位和易位)

缺陷:

  1. 检测deletion时,如果变异的碱基对数量较小,难以检测出来(因为我们用RP检测的时候会要求插入片段长度的变化具有统计意义上的显著性,所以它所能检测到的片段长度就会受插入片段长度的标准差SD所影响)
  2. 所能检测的insertion长度不能超过插入片段,因为我们去计算插入片段长度时是要把得到的read1-插入片段-read2放回基因组里去比对的,但如果insertion片段太长了,那么read根本不会匹配上基因组,也就是说,你根本不知道这里会有一段序列

2.RD(read depth)

有时也叫read count,是目前检测基因组拷贝数变异(CNV)的主要方法,在肿瘤基因组数据分析中用的比较多。

原理:

RD的原理基于read覆盖深度。全基因组测序(WGS)得到的覆盖深度呈现出来的是一个泊松分布,因为基因组上任意一个位点被测到的几率都是很低的,在很大量的测序read条件下,对其覆盖作图,我们就能得到一个很典型的正态分布。

RD方法的核心假设是:基因组某个区域的测序覆盖深度与其拷贝数(Copy Number)成正比。

拷贝数减少(如杂合缺失、纯合缺失): 该区域的覆盖深度会显著低于基因组背景深度。

拷贝数增加(如重复、扩增): 该区域的覆盖深度会显著高于基因组背景深度。

目前有两种利用Read depth信息检测CNV的策略。一种是通过检测样本在参考基因组上read的深度分布情况来发现CNV,这类适用于单样本,也是用的比较多的一个方法;另一种则是通过识别并比较两个样本在基因组上存在丢失和重复倍增的区域,以此来获得彼此相对的CNV,适用于有多个样本配对的场景(如肿瘤-正常样本)

缺陷:

基于检测原理,拷贝数没有变化的倒位、易位以及难以和背景噪声区分的小插入无法被检测。同时这种方法的分辨率有限,对GC偏差敏感(因为测序深度会强烈地受GC偏差的影响,需要事先矫正)

同时注意,由于这种方法常用于检测肿瘤,而肿瘤细胞中非整倍体和多倍化都较为常见,计算前需要先估计整体倍性,否则推断的拷贝数状态会错误。

3.SR(split read)

原理&和RP区分

算法核心和上文RP类似,都是利用非正常的PE测序结果的比对数据进行。

RP中的非正常比对,通常是read1和read2在距离或者位置关系上存在着不正常的情形,而它的一对PE read都是能够“无伤”地进行比对的;但SR一般是指这两条PE的read,有一条能够正常比对上参考基因组,但是另一条却不行的情形。

这时候比对软件会尝试把这条没能够正常比上基因组的read在插入片段长度的波动范围内,使用更加宽松的局部比对(waterman)方法,尝试搜索这条read最终可能比对得上的位置。如果这条read有一部分能够比上,那么软件会对其进行软切除,标记能成功比对的片段(但未能成功比对的片段也会留在read里)

这个过程有时候可能不会太顺利,甚至会发生多次切除再比对的情况,所以,你会看到一条read有时候竟然有很多个软切除的比对结果。而这种情况下就可以使用SR方法的用武之地。并且软切除保留原序列的方式对于后续应用SR很重要,因为,它们往往不会只是依赖原有的比对结果,而是会对这条read进行重新局部比对(如果没有保留的话,信息的丢失就会导致大量的假阴性结果)

SR和RP之间最主要的区别就是,RP的两个read是完整的,而SR的read大部分是撕裂开的

优缺点

SR的一个优势在于,它所检测到的SVs断点能精确到单个碱基,但是也和大多数的RP方法一样,无法解决复杂结构性变异的情形。而且对于SR来说,它要求测序的read要更长才能体现它的优势,如果read太短,许多变异都会不可避免地被漏掉,而且SR的检测功效在基因组的重复区域也会比较差。

SR适用的变异类型

4.AS(de novo assembly 从头组装)

其实我们会发现,上面不管什么检测方法,都会受限于read的长短。那怎么去打破这个局限呢?加长read的长度啊

现有的加长read长度的方法有两种,一种是长read测序,另一种就是从头组装,de novo assembly。这两种方法有各自的优势和缺点,长read测序会用到三代测序技术,错误率高,也会造成较高的纠错成本;而AS则对数据量有较高的要求,而且重复区域也会对组装造成很大困难,受局限于短序列,我们组装出来的基因组可能会不完整片段化,导致无法进行精准的基因组比较。

但从理论上来讲,三代测序和de novo assembly 的方法应该是基因组结构性变异检测上最有效的方法,它们都能够检测所有类型的结构性变异,在不考虑成本的情况下(反正写生竞卷子应该不会要我们考虑成本吧)(应该吧应该吧)AS是最有效的方法。