构建系统发生树常用方法

来自osm&bio
毛蕊花糖留言 | 贡献2020年4月27日 (一) 18:16的版本
跳转到导航 跳转到搜索

基于字符的建树方法

最大简约法

    最大简约法(maximum parsimony method,MP):系统发生分析中最简单的方法之一(要考手建树也只能考这个)。简约性原理认为,最简单的解释,即需要最少的没有依据的假设条件的解释,应该优于需要更多缺乏证据的假设条件的复杂假说。最大简约法依据的原则是,在针对一组分类群所能想象出来的所有系统发生树中,最接近真实系统发生的树就是所要求的进化改变数最多少的那棵系统发生树。注意图中仅含有一个非同源相似变化的树的状态改变数目,比带有多个非同源相似变化的树的状态改变数目少得多。因此,按照简约原则,拥有最少进化改变的树在特征状态上也拥有最少的非同源相似改变,即在没有其他独立证据的情况下,它要求我们只能假定最少的“额外”进化改变。

最大似然法

   最大似然法(maximum likelihood method,ML):基于不同性状进化物种的分化后的进化是独立的之假说,以特定模型分析数据使每个拓扑结构的似然值最大。在经过一个漫长的进化阶段后,会出现许多长分支,显然一个进化谱系中的任何DNA位点都可能发生了多重核苷酸替换(多击,multiple hit),用最大简约法会被引入歧途得到错误的进化树,而最大似然法可以计算出多击出现在哪里,更好的估算出分支的长度。

贝叶斯推断

   贝叶斯推断(Bayesian method):利用前概率与似然值得出后概率视为树成立的可能性,其与最大似然法的差异在于,在给定的模型和数据下,它把观察到一个特定树的概率最大化。

基于距离的建树方法

UPGMA法

   UPGMA法(Unweighted Pair-Group Method with Arithmetic means,非加权组平均法):将差异最小的点为节点依次合并。

最小二乘法

   最小二乘法(least square method,LS):使两序列差异的实际值与理论值之差的平方最小化。

邻接法

   邻接法(Neighbour-joining method,NJ):以星状树起始,计算各分支长度,并逐个合并使其总长度最小化。

Fitch-Margoliash 法

   Fitch-Margoliash法(FM):找出关系最近的组,并用剩余的组与已配对组之间进行比较,算出已配对组之间的距离,之后用此配对组作为一个整体对其他组生成新的距离矩阵,重复上述步骤,最后找出最合适的树。

注意

  • 需要注意的是,一般来说,基于字符的建树法准确度高于基于距离的建树法,但基于距离的建树法比基于字符的建树法更快。
  • 个数:对于N个分类群来说,共有Y=1×3×5×...×(2N-5)=(2N-4)!/2×(N-2)!个无根树。
  • 系统树:利用结点和分支方式来表示特定类群之间演化(谱系)关系的树形图。
  • 理论基础:达尔文的共同祖先学说
  • 建树目的:构建生物体之间的谱系关系;估计生命体谱系分化的时间。
  • 节点:
  1. 内部节点:表示灭绝的祖先
  2. 外部节点:表示操作分类单元 (operational taxonomic units,OTU)可以表示物种、比物种更高的分类阶、也可以是一个物种的不同种群、不同个体、还可以是一个基因位点的不同等位基因。
  • 拓扑结构:二岔/多歧 单系群

[1]

  1. 由干锅鸡助教和恺凌编写,由时子延审核校对,毛蕊花糖整理