构建系统发生树常用方法

来自osm&bio
跳到导航 跳到搜索

基于字符的建树方法

最大简约法

最大简约法示意图
    最大简约法(maximum parsimony method,MP):系统发生分析中最简单的方法之一(要考手建树也只能考这个)。简约性原理认为,最简单的解释,即需要最少的没有依据的假设条件的解释,应该优于需要更多缺乏证据的假设条件的复杂假说。最大简约法依据的原则是,在针对一组分类群所能想象出来的所有系统发生树中,最接近真实系统发生的树就是所要求的进化改变数最多少的那棵系统发生树。注意图中仅含有一个非同源相似变化的树的状态改变数目,比带有多个非同源相似变化的树的状态改变数目少得多。因此,按照简约原则,拥有最少进化改变的树在特征状态上也拥有最少的非同源相似改变,即在没有其他独立证据的情况下,它要求我们只能假定最少的“额外”进化改变。

最大似然法

   最大似然法(maximum likelihood method,ML):基于不同性状进化物种的分化后的进化是独立的之假说,以特定模型分析数据使每个拓扑结构的似然值最大。在经过一个漫长的进化阶段后,会出现许多长分支,显然一个进化谱系中的任何DNA位点都可能发生了多重核苷酸替换(多击,multiple hit),用最大简约法会被引入歧途得到错误的进化树,而最大似然法可以计算出多击出现在哪里,更好的估算出分支的长度。与最大简约法不同之处在于其采用标准的概率模型分析序列中的各种变异。因而对于比对结果中每一位置序列的改变都要加以考虑,这种方法要穷尽 所有可能的树,因而运算极大。主要适用于序列数目较少的情况。

贝叶斯推断

   贝叶斯推断(Bayesian method):利用前概率与似然值得出后概率视为树成立的可能性,其与最大似然法的差异在于,在给定的模型和数据下,它把观察到一个特定树的概率最大化。

[1]

基于距离的建树方法

UPGMA法

   UPGMA法(Unweighted Pair-Group Method with Arithmetic means,非加权组平均法):将差异最小的点为节点依次合并。

最小二乘法

   最小二乘法(least square method,LS):使两序列差异的实际值与理论值之差的平方最小化。

邻接法

   邻接法(Neighbour-joining method,NJ):以星状树起始,计算各分支长度,并逐个合并使其总长度最小化。其与Fitch-Margoliash法的差别之处在于比较哪两个分类单元组队后树的枝长总 和最小。

Fitch-Margoliash 法

   Fitch-Margoliash法(FM):找出关系最近的组,并用剩余的组与已配对组之间进行比较,算出已配对组之间的距离,之后用此配对组作为一个整体对其他组生成新的距离矩阵,重复上述步骤,最后找出最合适的树。

[1]

建树步骤

  1. 选择合适的分子序列,DNA比蛋白质更加精准
  2. 多序列比对,注意特殊的保守位点
  3. 选择适合的建树方法
  4. 系统发育树的评估
  • 抽样重复检验:主要有自展检验、折刀法
  • 内枝检验

[2]

建树软件

PHYLIP

PHYLIP(the phylogeny inference package),由美国华盛顿大学(University of Washington)开发,包括分子序列、距离矩阵、基因频率、离散字符、进化树绘制等程序组。可选择简约法(DNAPARS)、似然法(DNAML、DNAMLK)、距离法(DNADIST)建树,文件保存为outfile(记录文件)和outtree(树文件)。Index

PAUP*

PAUP*[Phylogenetic Analysis Using Parsimony (and Other Methods)]最初为PAUP,David Swofford教授制作的,可输入多种文件,进行多种方式的建树。Index另有一可视化版本AWTY。

MEGA

MEGA(molecular evolutionary genetics analysis)由美国亚利桑那州立大学Kumar教授编写,提供了多种方法。有几个主要模块(4.0版):通过网络进行数据搜索、遗传距离的估计、多序列比对、系统发育树的构建、进化假说检验等。新版本为X版。Index

TREE-PUZZLE

TREE-PUZZLE是利用最大似然法进行建树,还包括统计测试。Index

MrBayes

MrBayes是采用贝叶斯法进行建树,还可推导进化速率。Index

PhyML

PhyML(PHYlogenetic inference using maximum likelihood),PhyML采用爬山算法,比传统的最大似然法相比更加快捷,由Guindon推出,在ATGC bioinformatics platform上Index [2]

RAxML

RAxML (Random Axelerated Maximum Likelikhood) 能使用多线程或并行化使用最大似然法构建进化树。Index(PS:此网站上还含有多个软件等)

PAML

PAML(Phylogenetic Analysis by Maximum Likelihood),PAML是一款利用最大似然法对DNA或蛋白质序列进行系统发育分析的软件包,该软件包由著名华裔科学家、英国皇家科学学院士、伦敦大学统计遗传学教授杨子恒开发并免费提供给学术研究使用。 Index

IQ-tree

IQ-TREE主要由来自奥地利维也纳大学(Universität Wien)的越南学者Bùi Quang Minh等人开发。支持大数据,速度快等Index[3]

PhyloSuite

由中国科学院水生生物研究所领衔开发,PhyloSuite门槛低,并配有相关资料、教程,可使初学者快速入门系统发育分析。更重要的是PhyloSuite针对基于基因组、转录组以及细胞器基因组(线粒体基因组、叶绿体基因组等)等的多基因联合分析,进行了一系列优化设计:①灵活的序列提取功能,可以快速从海量数据中挖掘到需要的信息;②新增多基因串联功能,可与下游分析完美结合。主要由博士研究生张东等人完成。download on github[4]

BEAST

BEAST是用于使用MCMC(马尔科夫链蒙特卡洛方法,Markov Chain Monte Carlo)对分子序列进行贝叶斯分析的跨平台程序,为一个开源项目。Index

BEAST2

BEAST2是用于使用MCMC(马尔科夫链蒙特卡洛方法,Markov Chain Monte Carlo)对分子序列进行贝叶斯分析的跨平台程序,是奥克兰大学领导的独立项目。Index [5]

注意

  • 需要注意的是,一般来说,基于字符的建树法准确度高于基于距离的建树法,但基于距离的建树法比基于字符的建树法更快。
  • 个数:对于N个分类群来说,共有Y=1×3×5×...×(2N-5)=(2N-5)!/[2N-2×(N-2)!]个无根树,有X=1×3×…×(2N-3)=(2N-3)!/[2N-1×(N-1)!]个有根树。
  • 系统树:利用结点和分支方式来表示特定类群之间演化(谱系)关系的树形图。
  • 理论基础:达尔文的共同祖先学说
  • 建树目的:构建生物体之间的谱系关系;估计生命体谱系分化的时间。
  • 节点:
  1. 内部节点:表示灭绝的祖先
  2. 外部节点:表示操作分类单元 (operational taxonomic units,OTU)可以表示物种、比物种更高的分类阶、也可以是一个物种的不同种群、不同个体、还可以是一个基因位点的不同等位基因。
  • 拓扑结构:二岔/多歧 单系群

[1]

  1. 1.0 1.1 1.2 由干锅鸡助教和恺凌编写,由时子延审核校对,毛蕊花糖整理
  2. 2.0 2.1 陈铭.2018.生物信息学.3版.北京:科学出版社
  3. 新一代建树工具IQ-Tree介绍-简书
  4. 水生所研发出系统发育分析新平台PhyloSuite
  5. 四种建树方法比较