跳转到内容
主菜单
主菜单
移至侧栏
隐藏
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
osm&bio
搜索
搜索
外观
创建账号
登录
个人工具
创建账号
登录
查看“︁基因组结构变异的检测方法”︁的源代码
页面
讨论
大陆简体
阅读
查看源代码
查看历史
工具
工具
移至侧栏
隐藏
操作
阅读
查看源代码
查看历史
常规
链入页面
相关更改
页面信息
外观
移至侧栏
隐藏
←
基因组结构变异的检测方法
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
[[文件:基因组结构变异的检测方法.webp|替代=|无|有框|总结表格]] === 1.RP(read pair) === ==== 原理: ==== 利用双端测序(Paired-End Sequencing)数据中读段对的空间关系异常来推断大片段变异。 一般来说我们是无法直接获得每一对read1和read2之间真实的插入片段长度的,但通过序列比对,计算它们彼此之间比对位置上的距离却可以间接获得这个长度。正常情况下这个长度应该等于我们测序时的插入片段长度的,如果出现了数据偏离,就可以判断在read上出现了变异(线性变异,特指deletion和insertion) 而通过比对read1和read2之间的序列位置关系,还能够发现更多非线性的序列变异。比如,序列倒置(Inversion),因为,按照PE的测序原理(其实就是中间有插入片段版本的illumina测序),read1和read2与参考基因组相比对,正好是一正一负,要么是read1比上正链,read2比上负链,要么是反过来,而且read1和read2都应处于同一个染色体上,如果不是这种现象,那么就很可能是序列的非线性结构性变异所致(倒位和易位) ==== 缺陷: ==== # 检测deletion时,如果变异的碱基对数量较小,难以检测出来(因为我们用RP检测的时候会要求插入片段长度的变化具有统计意义上的显著性,所以它所能检测到的片段长度就会受插入片段长度的标准差SD所影响) # 所能检测的insertion长度不能超过插入片段,因为我们去计算插入片段长度时是要把得到的read1-插入片段-read2放回基因组里去比对的,但如果insertion片段太长了,那么read根本不会匹配上基因组,也就是说,你根本不知道这里会有一段序列 === 2.SR(split read) === ==== 原理&和RP区分 ==== 算法核心和上文RP类似,都是利用非正常的PE测序结果的比对数据进行。 RP中的非正常比对,通常是read1和read2在距离或者位置关系上存在着不正常的情形,而它的一对PE read都是能够“无伤”地进行比对的;但SR一般是指这两条PE的read,有一条能够正常比对上参考基因组,但是另一条却不行的情形。 这时候比对软件会尝试把这条没能够正常比上基因组的read在插入片段长度的波动范围内,使用更加宽松的局部比对(waterman)方法,尝试搜索这条read最终可能比对得上的位置。如果这条read有一部分能够比上,那么软件会对其进行软切除,标记能成功比对的片段(但未能成功比对的片段也会留在read里) 这个过程有时候可能不会太顺利,甚至会发生多次切除再比对的情况,所以,你会看到一条read有时候竟然有很多个软切除的比对结果。而这种情况下就可以使用SR方法的用武之地。并且软切除保留原序列的方式对于后续应用SR很重要,因为,它们往往不会只是依赖原有的比对结果,而是会对这条read进行重新局部比对(如果没有保留的话,信息的丢失就会导致大量的假阴性结果) SR和RP之间最主要的区别就是,RP的两个read是完整的,而SR的read大部分是撕裂开的 ==== 优缺点 ==== SR的一个优势在于,它所检测到的SVs断点能精确到单个碱基,但是也和大多数的RP方法一样,无法解决复杂结构性变异的情形。而且对于SR来说,它要求测序的read要更长才能体现它的优势,如果read太短,许多变异都会不可避免地被漏掉,而且SR的检测功效在基因组的重复区域也会比较差。 ==== 一点小问题…… ==== 虽然上面的表格里显示SR只能用来检测deletion和duplication,但根据我查到的结果,这种方法是可以用来检测6种变异的,不过它确实区分不了散在重复和串联重复(一个小小的问题,不知道有没有佬可以解答) [[文件:SR适用的变异类型.png|无|有框|'''SR适用的变异类型''']] === 3.RD(read depth) === 有时也叫read count,是目前检测基因组拷贝数变异(CNV)的主要方法,在肿瘤基因组数据分析中用的比较多。 ==== 原理: ==== RD的原理基于read覆盖深度。全基因组测序(WGS)得到的覆盖深度呈现出来的是一个泊松分布,因为基因组上任意一个位点被测到的几率都是很低的,在很大量的测序read条件下,对其覆盖作图,我们就能得到一个很典型的正态分布。 RD方法的核心假设是:基因组某个区域的测序覆盖深度与其拷贝数(Copy Number)成正比。 拷贝数减少(如杂合缺失、纯合缺失): 该区域的覆盖深度会显著低于基因组背景深度。 拷贝数增加(如重复、扩增): 该区域的覆盖深度会显著高于基因组背景深度。 目前有两种利用Read depth信息检测CNV的策略。一种是通过检测样本在参考基因组上read的深度分布情况来发现CNV,这类适用于单样本,也是用的比较多的一个方法;另一种则是通过识别并比较两个样本在基因组上存在丢失和重复倍增的区域,以此来获得彼此相对的CNV,适用于有多个样本配对的场景(如肿瘤-正常样本) ==== 缺陷: ==== 基于检测原理,拷贝数没有变化的倒位、易位以及难以和背景噪声区分的小插入无法被检测。同时这种方法的分辨率有限,对GC偏差敏感(因为测序深度会强烈地受GC偏差的影响,需要事先矫正) 同时注意,由于这种方法常用于检测肿瘤,而肿瘤细胞中非整倍体和多倍化都较为常见,计算前需要先估计整体倍性,否则推断的拷贝数状态会错误。
该页面嵌入的页面:
模板:学科分类
(
查看源代码
)
返回
基因组结构变异的检测方法
。
搜索
搜索
查看“︁基因组结构变异的检测方法”︁的源代码
添加话题