第五章 种群结构

来自osm&bio
长河留言 | 贡献2025年3月8日 (六) 09:34的版本 →‎使用 FST 测量种群分化
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索

种群分化

种群、亚种群subpopulation和群落deme

如第 2 章所述,从分子种群遗传数据集得出的推论可能对所采样的精确个体非常敏感,尤其是个体是否全部来自同一种群。我所说的种群是指一群自由杂交的二倍体个体;该术语对自交或无性谱系的定义更具争议性。虽然它们有时可以用来表示略有不同的事物,但亚种群或群落这些术语通常与种群含义相同,我将交替使用它们。除了在特定情况下,一般会避免使用含义更丰富的术语种族和亚种。

物种可以细分为任意数量的种群,无论它们是完全分离的(即它们不交换任何迁徙者)还是仅部分分离的(即它们交换一些迁徙者)。正如没有特定的遗传距离阈值来区分不同的物种一样,也没有特定的阈值来将两组个体称为不同的种群。正如下面将要讨论的那样,从分子数据中实际识别种群的问题可以归结为识别自由杂交的个体群体的问题——但完全随机交配的理论理想在现实生物中很少甚至从未实现。此外,种群可能已经分离了不同的时间,或者它们之间的关系可能存在某种系统发育结构(例如,种群 A 和 B 彼此之间的关系比它们与 C 之间的关系更密切)。

图 5.1 两个种群的例子,每个种群的等位基因 A 和 a 都是多态的。种群 1 中 A 等位基因的频率为 p1,种群 2 中为 p2(请注意,p1 的总和不必为 1)。

如果亚种群尚未达到迁移-漂移平衡,则用于推理的模型的许多假设可能会被违反。如果亚种群没有完全杂交,任何改变种群内等位基因频率的进化力量(突变、选择、漂移、迁移)都可能导致它们之间的这些频率差异(图 5.1)。然后这些种群被称为分化的(我通常将“分化”一词保留为物种之间的差异)。

分化导致群体之间的种群结构,这仅仅意味着种群内的个体往往比种群之间的个体更紧密相关。显然,昨天才完全停止交换移民的种群并没有自由杂交,但它们也不会表现出任何结构。

这个关于种群的简单讨论引出了两个非常重要的问题:(1)我们如何衡量种群之间的差异?(2)我们如何在实践中定义种群?虽然我将在第 9 章中讨论推断人口人口历史的许多方法,但上述问题对人口遗传数据分析的重要性要求我们在此解决这些问题。此外,人口结构研究比分子数据的出现早了几十年,并且在某种程度上独立于推断人口历史的其他方法而发展。因此,它值得进行充分的讨论,特别是考虑到目前用于测量人口差异和定义人口的许多方法。我们依次处理这些主题;但是,通过首先了解 Wahlund 效应,可以更好地理解我们两个问题的答案。

Wahlund 效应

Hardy-Weinberg 平衡下的基因型频率的简单预期(第 1 章)提供了一个强有力的零假设,我们可以据此检验随机交配假设的偏离情况。一个基因座或种群可能脱离哈代-温伯格平衡的原因有很多,并非所有原因都涉及非随机交配甚至自然选择(Waples 2015)。然而,种群结构可能导致偏离 HWE,因为它会在种群之间产生强烈的非随机交配。当对多个亚群进行采样而不知道底层结构时,就会偏离 HWE:即使所有单个亚群本身都在 HWE 中,总体“种群”也可能远离 HWE 预期。这种偏离预期的形式总是相同的——观察到的杂合子个体比 HWE 下的预期要少。这种杂合子缺陷被称为 Wahlund 效应,以瑞典遗传学家 Sten Gösta William Wahlund 的名字命名,他首次描述了这种采样类型的后果(Wahlund 1928)。要了解杂合子不足的原因,请考虑图 5.1 中的两个种群。我们将种群 1 中 A 等位基因的频率表示为p1,将种群 1 中 a 等位基因的频率表示为 q1(我们在这里使用此符号,以免将等位基因 A1 与种群 1 和 2 混淆)。在种群 1 中,p1 = 0.8 和 q1 = 0.2,而在种群 2 中,p2 = 0.8,q2 = 0.2(请注意,p1 + p2不必等于 1,因为这些是来自两个不同种群的相同等位基因的频率)。如果我们从每个种群中抽取了相同数量的个体,则两个种群的平均等位基因频率,即种群结构 p,为 0.5,因此预计所有个体中有 50% (=2) 在 HWE 下是杂合的。但是,样本中观察到的杂合子比例将约为 32%,这比预期值低得多。

通过进行更多这样的计算,您会注意到,与 Hardy-Weinberg 期望值的偏差幅度与等位基因频率的差异成正比:与等位基因频率差异很大的种群相比,等位基因频率相似的种群在分组时与 HWE 的偏差非常小。因为我们经常要处理两个以上的亚群,所以种群间等位基因频率差异的一个有用度量是频率方差 σ2。因此,一般来说,Wahlund 效应对预期每种基因型的频率可以表示为:

其中p和q再次表示种群中等位基因的平均频率,pAA,pAa,paa表示基因座上三种不同二倍体基因型的频率。等位基因频率的方差越大,纯合子越多,杂合子越少,当种群固定为替代等位基因时,获得的最大方差(=0.25)导致没有观察到杂合子。这些关系表明,种群间等位基因频率的方差可能是量化与 HWE 偏差的一种好方法,因此也是衡量种群间分化程度的一种好方法。我们将看到,对方差的轻微修改是衡量种群分化的理想方法,它将理论预测与数据联系起来。

测量种群分化

使用 FST 测量种群分化

给定一个物种内多个种群的多个个体样本,我们希望能够说出这些种群的差异有多大。 暂且不论我们计算这些差异的确切方式,实际上有多种其他方法来总结分化。 我们可以询问多个种群之间的平均细分量,或询问所有种群之间的成对关系。 我们也可能拥有非常不同的数据类型,从单个多态性位点(或多个未链接位点)的等位基因频率到编码或非编码区域中的完整单倍型序列。 处理两个或两个以上亚群的方法大致相同,但测量单个位点与整个序列的分化的许多不同方法通常不同; 因此,我们首先讨论单个多态性位点的分化。

在上述关于 Wahlund 效应的讨论中,我们看到,种群间等位基因频率的差异是衡量分化的自然方式,并且它与基因型频率的理论预期很好地相关。然而,等位基因频率的差异本身并不是一个非常有用的统计数据,因为它的值高度依赖于平均等位基因频率。假设每代都对等位基因进行二项式抽样,平均等位基因频率为 p = 0.5 的基因座在种群间表现出的差异将比从完全相同的个体中抽样但 p = 0.01 的基因座高得多。这意味着很难比较不同基因座之间或不同种群组之间的差异。为了用最大可能的方差来标准化方差,我们可以定义一个新的分化统计量:

其中 σ2 是等位基因 A 在种群中频率的观测样本方差,p是等位基因 A 在种群中的平均频率,q是等位基因 a 在种群中的平均频率(=1 − p)。图 5.1 中显示的种群的值为 0.09/0.25 = 0.36。该度量首先由 Wright(1931、1943、1951)提出,他将其定义为亚群之间的分化量,并表明它对任何频率的中性等位基因都具有相同的预期值。就我们的目的而言,下标“ST”并不是真正必要的,但它将此度量与此处未涵盖的类似 HWE 偏差度量(具体而言,FIS ,其中“I”代表“个体”,“S”代表“亚群”,“T”代表“总群体”,这是 Wright 的原始符号)区分开来。作为群体分化的度量,它具有一些非常好的特性。它的范围在 0 到 1 之间,0 表示没有分化,1 表示不同亚群中替代等位基因的完全固定。有很多不同的方法可以理解 FST 到底代表什么,但我们可以通过简单的代数将其与 Wahlund 效应联系起来:

该方程表示,当没有分化(FST = 0)时,杂合子不存在缺少,但当完全分化(FST = 1)时,杂合子完全缺失。因此,FST 可以被认为是 Wahlund 效应大小的量度。或者,人们可以将其视为一组种群中总变异量的量度,该量度由种群间方差而不是种群内方差来解释,或者作为亚种群内等位基因与总种群之间的相关性(Holsinger and Weir 2009)。

FST已成为一种使用分子数据量化种群分化的非常流行的方法。然而,计算“FST”的方法有很多种。与估计核算多样性参数θ的多种方法一样(第 3 章),也有许多不同的方法来计算FST -like的统计数据。与核苷酸多样性测量的另一个相似之处是FST通常(且容易混淆)用于表示参数和统计数据——即既是与人口模型相关的理论construct,又是从数据中估计该参数的精确方法。更令人困惑的是,一个常见的 FST 类统计数据也被表示为 θ(Cockerham 1969;Weir 和 Cockerham 1984)!参数和统计数据的这种混合可以追溯到 Wright 对 FST 的原始定义,我不会尝试理清符号或引入我自己的新符号来区分相互竞争的用法(在本章中,我也不得不以两种方式使用该术语)。但是,应该意识到,用于量化种群内和种群间相对变异量的许多不同统计数据和参数都称为 FST。

如果在亚群中采样的染色体数量相同,则公式 5.2 是在“固定fixed”效应模型(下文进一步解释)下估计 FST 的无偏方法。如果样本量不相等,则计算此统计数据的更好方法是:

其中对于 K 个亚群,亚群 i 的样本量 ni ,样本等位基因频率 pi ,整个数据集的平均样本量 n 和平均样本等位基因频率p(Weir 1996)。请注意,如果所有亚群的样本量相同(即所有 ni 都相等),则此公式简化为公式 5.2。

从同一组种群中的分离点计算出的 FST 值存在相当大的差异。这是因为产生种群结构的进化过程(见下文)具有很大的随机成分,导致 FST 的实际值范围很广。在看似严格的关于潜在种群结构的假设下,Lewontin 和 Krakauer (1973) 表明,变换后的 值应为 χ 2分布,自由度为 K − 1(其中 K 是亚种群的数量)。尽管更复杂(但不一定更现实),但已经得出了 FST 方差的预期(例如,Nei 和 Chakravarti 1977;Weir 等人 2005), χ 2 近似值似乎非常符合从自然种群收集的数据。图 5.2 显示了四个人类种群中从整个基因组计算出的 FST 分布。请注意,FST 中存在很大的方差,并且它与具有三个自由度的 χ 2分布非常相似(Weir 等人,2005 年)。

Cockerham(1969 年)指出,上面给出的计算方法仅考虑了种群内个体的采样。如果研究目标是一组固定的种群,那么这种“固定”效应模型是完全合适的。固定效应模型也更适用于种群数量有限的情况——例如人类。但是,如果我们试图将从一小部分种群中获取的 FST 值与更大的种群联系起来,那么我们还必须考虑与不仅种群内个体采样相关的随机性,而且还要考虑物种内种群的采样。 Weir 和 Cockerham (1984) 随后展示了 FST 类参数如何对人类基因组产生影响。他们称之为 θ的参数可以在这种“随机”效应模型下进行估计,以便使用方差分析 (ANOVA) 方法更好地整合多级抽样。当然,随机效应模型更合适的条件也是非常理想化的:所有亚种群必须彼此平等相关,并且具有相同的种群规模,并且所有亚种群之间的迁移率必须相同(相当于无限岛模型;参见第 1 章)。满足这些条件的物种可能很少。此外,当从大量亚群中抽取大量样本时,随机效应模型会收敛到固定效应模型(Weir 1996)。因此,固定效应估计量(公式 5.2 或 5.4)可能适用于许多研究。

Wright 原始公式的首次修改之一是由 Nei (1973) 进行的,他引入了一种当一个基因座有两个以上等位基因时计算 FST 的方法。 Nei 将他的统计量称为 GST

(当只有两个等位基因时,它相当于统计量 FST

),并将其定义为:

是根据所有子群体中的所有个体的所有 i 个等位基因的频率计算得出的总采样群体(个体)中的预期杂合度:

= − −∑ (5.6)

是从每个采样子群体(每个子群体都有自己的样本大小 nS

)分别计算得出的预期杂合度的平均值:

请注意,数量 HT

有时被称为 DST

(Nei 1973)。

这些杂合度的定义与以下定义非常相似公式 3.1 给出了这些值,但现在它们是根据种群结构的层次结构定义的。根据图 5.1 中所示的种群计算出的 GST 值为 (0.526 − 0.356)/0.526 = 0.323,与使用公式 5.2 获得的值相似。在测量具有两个以上等位基因的位点的种群分化时出现的一个问题是 GST 不考虑等位基因的身份。因此,两个种群可能不共享任何等位基因,但种群结构不会有 GST = 1。要了解原因,请注意,当 HS 不为 0 时,GST 会小于 1,即使分化可能已经完成(即没有共享等位基因)。种群分化度量对种群内变异的依赖性是本文描述的许多统计数据的共同点,将在下一节进一步讨论。为了克服对其最大可能值的依赖,Hedrick (2005) 提出了一个标准化统计量 G′ST,类似于第 4 章介绍的标准化连锁不平衡系数 D′。然而,G′ST 本身存在许多问题,不能与 FST 的参数期望相关(Whitlock 2011)。对于具有许多等位基因的基因座(例如微卫星),我们可以通过明确考虑突变过程,从而考虑等位基因之间的突变距离来克服 GST 的局限性。对于采用逐步突变模型并假设岛屿模型的微卫星位点,Slatkin (1995) 表明,他所称的 RST 统计量可用作参数 FST 的估计量。该统计量的计算方法如下:

是所有亚群所有样本中单个位点上观察到的等位基因的重复次数(或等位基因大小,当不知道确切的重复次数时)的方差,VS

是每个亚群内重复次数的平均方差。我们之前已经看到过使用微卫星等位基因大小方差的统计量,qV(公式 3.23);为了保持一致性,我们将继续使用那里引入的符号,但请注意,“S”通常用于表示公式 5.8(Slatkin 1995)中的方差。我们还可以看到,使用等位基因频率(公式 5.2、5.4 和 5.5)测量种群分化与使用等位基因大小(公式 5.8)测量种群分化之间存在令人愉悦的对称性:两者都基于种群内和种群之间的方差差异。RST 通常比 GST 更准确地推断微卫星,至少在逐步突变模型成立时如此。当它不成立时,RST 也可能有偏差(Balloux 等人,2000 年)。为了从全序列数据计算 FST

,我们可以使用一个基因座上的位点杂合性总和(Nei 1982):

根据公式 3.2 计算,使用跨亚群的所有样本组合,而 pS

是分别对每个亚群进行相同计算的平均值(数量 pT

有时也称为

)。因此,统计量 gST

类似于

的多位点版本,因此,正如 Nei(1982,第 172 页)所述,“显然,pT

对应于 HT

”在单位点分析中(显然)。Slatkin

(1991)表明 gST

是岛屿模型的 Wright 参数 FST

假设的估计量。已经提出了类似的统计数据来衡量从完整序列数据(通常是单倍型)进行的种群分化,包括对单个位点的多个突变的校正。Lynch 和 Crease(1990)提出了一种测量方法,他们称他们的统计数据为 NST。两者的一个重要区别是,前者在计算 pT 值时包括来自同一亚群的序列之间的比较,而后者则没有(请参阅下文的类似测量)。这意味着 NST 不是 FST 的估计量,尽管 NST 会收敛到大量采样种群(Lynch 和 Crease 1990)。Excoffier、Smouse 和 Quattro(1992)又增加了一项新内容,他们基于序列之间的单倍型差异引入了 Weir 和 Cockerham(1984)的 ANOVA 框架的扩展;他们的统计数据表示为 fST。 Excoffier、Smouse 和 Quattro 的分子变异分析 (AMOVA) 方法与其他使用全序列数据的方法不同,它不使用位点杂合性的总和,而是需要完整的单倍型。这是因为它考虑了数据集中所有单倍型对之间的核苷酸差异数量,然后将得到的距离矩阵转换为层次方差分量。因此,fST 通常应用于线粒体 DNA (mtDNA) 数据,尽管实际上可以为微卫星等位基因生成类似的距离矩阵,并且 fST 也可以用于这种数据(Michalakis 和 Excoffier 1996)。与标准方差分析不同,在 Weir 和 Cockerham (1984) 的 ANOVA 方法和 Excoffier、S小鼠和 Quattro (1992) 的 AMOVA 方法中,方差分量(因此 )可以为负数,而不必全部加起来为 1;在所有分析中,将负值设置为 0 是标准做法。有关这些种群分化测量方法之间的差异和相似之处的讨论,请参阅 Excoffier (2007)。种群分化的替代测量方法及其相关统计数据只是总结种群分化的一种方式。已经提出了替代方法(有时也会使用),这些方法基于私有等位基因(仅在一个种群中出现的等位基因;Slatkin 1985)、共享等位基因(Bowcock 等人 1994)、等位基因频率的绝对差异(或其平方根变换值;Cavalli-Sforza 和 Edwards 1967)、基因座上没有重组时的基因树拓扑结构(Slatkin 和 Maddison 1989;Hudson、Slatkin 和 Maddison 1992)以及种群间纯合性的差异(Nei 1972)。最后一个测量值(称为 Nei 的 D)一直是用于等位酶和微卫星数据的遗传距离的特别流行的测量值,对于这些基因座,可能有许多等位基因。 Nei (1972) 将一对种群的某个基因座的统计量定义为:

种群结构 分别是种群 X 和 Y 中某个基因座的第 i 个等位基因的频率。在这些计算中,JX 表示种群 X 中所有等位基因的预期总纯合度(假设随机交配),JY 表示种群 Y 中所有等位基因的预期总纯合度,JXY 表示如果种群 X 和 Y 具有完全相同的等位基因频率,则所有等位基因的预期总纯合度。如果两个种群在相同的样本频率下具有相同的等位基因,则 D = 0。种群之间等位基因频率的差异越大,D 值就越大。与 FST 之类的统计数据不同,Nei 的 D 取决于基因座的突变率。虽然独立于突变率似乎使 FST 和相关统计数据更加可靠,但在解释这些测量值在不同基因座之间的差异时,仍然存在重要的警告。

上述所有类似 FST 的统计数据的一个非常重要的方面是,它们受到亚群内变异水平的强烈影响(Charlesworth 1998;Jakobsson、Edge 和 Rosenberg 2013)。 因此,我们将它们称为相对分化测量。 相反,种群分化的绝对测量大多独立于种群内多样性水平;绝对测量也称为遗传距离。 对种群内变异水平的依赖意味着类似 FST 的统计数据的值会因标记类型(SNP、微卫星等)的不同而不同,这仅仅是因为标记间的平均杂合度不同(例如,Moyle 2006)。对种群内多样性的依赖还意味着,从基因组中多样性较多或较少的部分采集的相同类型的标记将提供截然不同的分化水平视图。例如,来自重组减少的区域(由于连锁选择,这些区域的多样性通常会降低)的 FST 将高于正常重组的区域,原因仅仅是核苷酸多样性的总体水平不同(Charlesworth、Nordborg 和 Charlesworth 1997;Charlesworth 1998;Noor 和 Bennett 2009;Cruickshank 和 Hahn 2014)。为了解决这个问题,Nei(1973)提出计算两个种群序列之间成对差异的平均数量,不包括种群内序列之间的所有比较。我将把这个统计数据称为 dXY,尽管在文献中它也被称为 pXY(和 Li 1979)、DXY(Nei 1987)和 pB(Charlesworth 1998)。这种绝对的分化测量与所比较的两个种群内的多样性水平无关(但取决于突变率)。它的计算方法如下(Nei 和 Li 1979;Nei 1987,等式 10.20):分别是种群 X 中第 i 个单倍型和种群 Y 中第 j 个单倍型的频率,kij 是每个种群中单倍型对之间的核苷酸差异数。这个等式类似于我们计算种群内单倍型间平均差异数的方式(等式 3.3),尽管这里我们只计算种群之间的差异。的方差在 Nei (1987, eq. 10.24) 中给出。请注意,dXY 也可以从非相位数据中计算出来,其中 xi 表示等位基因频率,kij 为 1 或 0,具体取决于等位基因在单个位点是否不同。然后将各个位点的值相加以获得全基因座测量值。dXY 也可以使用来自每个种群的单个序列来计算,因为它具有与发散统计量 d 相同的期望值(参见第 7 章)。是一系列基于 dXY 的相对分化测量指标,应用广泛。在两个种群 X 和 Y 中,我们将种群内的多样性水平称为 dX,分别用样本 X 中的 p 和样本 Y 中的 p 计算。Nei 和 Li (1979) 将两个种群之间的“净”核苷酸差异测量 da(他们称之为 d)定义为:

该统计数据(通常也称为 Da

)旨在仅捕获自种群分裂以来积累的差异。它通过减去分裂前积累的差异(见图 7.1)来实现,假设祖先变异水平等于两个当前种群中发现的变异的平均值。因此,da 是一个相对测量指标,因为它的值会受到种群内变异量的强烈影响。 (令人困惑的是,Nei [1987] 在不同的地方将此统计数据称为 da、d 和 Dm。)我们还可以将种群或物种之间的固定差异数表示为 df(例如,Ellegren 等人,2012 年)。固定差异数也是一个相对度量,因为它依赖于种群内的变化。要了解这些绝对和相对度量如何产生不同的结果,请考虑图 5.3 中给出的示例。图 5.3A 显示了具有平均重组率的区域中某个基因座的两个种群的一个假设谱系历史(有关基因谱系的详细讨论,请参阅第 6 章)。种群内多样性水平与每个种群样本最近的共同祖先的时间成正比,因此相对于其历史的种群间部分而言较高。在这种情况下, 较高,而 da 相应较低,因为它们依赖于种群内变异。另一方面,图 5.3B 显示了来自低重组区域的基因座的假设谱系历史,该基因座取自与图 5.3A 完全相同的种群和个体。由于连锁选择,在这种情况下,种群内最近的共同祖先的时间非常近。这意味着 dX 较低,而 da 相应较高;dXY 在两个图中完全相同。这样,da 可以为来自同一种群的基因座提供非常不同的结果,因为两个基因座依赖于种群内变异,而一个则不依赖。因此,Charlesworth (1998, p.538) 建议,相对分化测量“不一定适合于我们想要比较种群内变异水平非常不同的基因座”。

许多种群分化测量依赖于相对多样性水平的最后一个含义是,它们可能会受到确定偏差的影响。要理解原因,请回想一下确定的主要原因

种群结构

种群 X

种群 Y

种群 X

图 5.3 演示 dX 之间的差异

(B) 都显示了与两个种群(X 和 Y)的四个采样染色体(A、B、C 和 D)相关的示例谱系。统计数据 dX 分别测量种群 X 和 Y 中样本之间的平均核苷酸差异数。 dXY 测量种群 X 中每个样本与种群 Y 中每个样本之间的平均核苷酸差异数,不进行种群内的比较。da 表示 dXY 之间的差异(公式 5.12 和 5.13),df 表示固定差异的总数。(A)和(B)之间的重要区别在于,两个面板之间的 dX 存在差异,但 dXY 没有差异。为简单起见,两个面板中的谱系具有相同的高度,每个图中种群 X 和 Y 内的融合时间也相同。情况不一定如此,但它使区分此处描述的各种度量变得更容易。存在偏见的原因是,中频多态性更有可能在小型“发现”个体样本中观察到。这意味着,种群频率接近 0.5 的分离位点将在确定的标记集中过度代表。这种确定偏差对汇总统计数据的影响很复杂(Rosenblum 和 Novembre 2007;Albrechtsen、Nielsen 和 Nielsen 2010),但会影响许多关于种群结构的推断,包括 FST 的值(Clark 等人 2005)、推断的种群间迁移率(Wakeley 等人 2001)以及种群本身的结构(Foll、Beaumont 和 Gaggiotti 2008;Guillot 和 Foll 2009)。是否有证据表明某个基因座存在种群分化?上述所有用于测量种群分化的统计数据都提供了对种群在等位基因频率上差异程度的一些定量评估。一旦这些测量有了这些样本,我们就可以利用它们推断出所采样种群的结构以及可能导致观察到的任何差异的进化力量。

种群 Y

种群 1

种群 2

图 5.4 图 5.1 中的等位基因计数。计数分别显示种群 1 和种群 2 中的 A 和 a 等位基因数量。对这些数据进行 χ2 检验(由于每个单元格中的计数较小,因此使用连续性校正)得出 P = 0.025。

我们可以提出的最简单的问题是是否有任何证据表明存在种群结构 — 即样本是否来自一个混血种群。有多种方法可以检验种群结构的证据,包括如果已经从个体收集了基因型数据,则检验是否偏离哈迪-温伯格平衡(参见前面关于 Wahlund 效应的讨论)。如果尚未收集基因型数据,我们仍然可以通过比较拟议亚群之间的等位基因频率来检验结构。进行此测试的最简单方法是使用 c2 检验或其他等位基因计数独立性检验(参见 Goudet 等人,1996 年)。使用图 5.1 中的等位基因计数,我们可以通过如图 5.4 所示排列数据来应用此类检验。通过应用 c2 检验,我们发现这些等位基因计数来自一个单一种群的概率为 P = 0.025,因此这两个亚群很可能存在差异。

我们还可以根据这些等位基因计数,用统计学术语来提出我们的问题,例如 FST 及其相关测量。测试种群结构相当于测试 FST = 0 的零假设。获取此类测试的 P 值的一种直接方法是多次在种群中置换样本,从而生成零值分布(Hudson、Boos 和 Kaplan 1992)。然后,P 值基于模拟分布中观测值的位置;因此,P 值为 0.01 要求观测值高于除 1% 之外的所有置换值。对于单个多态性位点,使用 FST 进行测试似乎并没有比等位基因计数(Hudson、Boos 和 Kaplan 1992)具有太大优势,但对于包含多个分离位点的较长序列,由于位点之间的不独立性,必须使用置换方法。这种方法将为观察到的数据计算 gST 或其他基于序列的分化统计数据(例如,Hudson 2000),然后多次置换亚群中的个体单倍型以生成零分布。正如我所描述的那样,使用等位基因计数的方法和使用分化汇总统计数据的方法都在测试无结构的零假设。那么应该显而易见的是,样本大小和效应大小之间存在紧密的关系,当对大量染色体进行采样时,即使是非常小的分化水平也可以检测到。换句话说,如果有足够的数据,低至 FST = 0.001 的值可能具有重要意义,并且仅表明存在某种低水平的人口结构。因此,决定是否应合并或拆分亚群取决于样本量和要解决的特定问题(参见 Waples 和 Gaggiotti 2006)。对于何时说两个种群是分化的,没有单一的规则,并且大多数研究可能不会受到将分化水平为种群结构 = 0.001 的亚群合并的影响。相反,最近使用数十万个标记物的研究可以检测到重要的地理结构模式,即使平均值为 0.004(Novembre 等人,2008 年)。在本章后面,我将讨论使用信息论方法确定具有多个基因座的种群结构的几种方法,这些方法使我们能够对提出更多亚群时数据拟合度增加的情况做出似然陈述。一旦我们确定存在显着的种群结构,我们如何解释我们对分化的总结?“很多”或“一点”分化是多少?Wright(1978,第 85 页)给出了以下指导方针:“我们将 FST = 0.25 作为一个任意值,高于该值时分化非常大,0.15 到 0.25 的范围表示中等分化。但是,如果小到 0.05 甚至更小,分化绝不能忽略不计。”这些解释是否应该在所有情况下使用 - 或者仅仅作为经验法则 - 是不可能知道的,特别是当结果取决于所使用的标记时。此外,

从人口分化数据中得出的最有趣的推论将不仅限于 FST 任何特定值的大小或含义,而是与推动这种分化的进化力量有关。进化过程对分化的影响

自然选择对种群分化的影响

种群间等位基因频率的差异是由改变种群内等位基因频率的相同过程驱动的:突变、

自然选择、遗传漂变和迁移。突变的影响将始终非常小,并且主要限于将新的等位基因引入个体种群。复发性突变有时会将状态相同的等位基因引入不同的亚种群,但发生此类事件的概率很低,取决于 q(Clark 1997)。然而,

选择、漂变和迁移——以及这些力量之间的相互作用——可能会对种群分化产生非常大的影响。该领域的大部分近期工作都集中在梳理这些力量产生的模式。

我将首先关注自然选择对种群间差异的总体影响,并回到第 10 章中用于识别特定选择位点的方法。正如预期的那样,自然选择对种群分化的影响对于不同的选择形式非常不同:弱负选择、平衡选择和正选择可以产生高度独特的分化模式。这意味着我们可以在一定程度上区分这些影响,尽管在中性情况下仍然很难区分它们。强负选择当然会阻止任何变体达到可观的种群频率,因此对分离多态性的分化影响不大。然而,弱负选择允许变体以低频率分离,但限制了可能的等位基因频率范围。这种限制意味着,对于弱有害变体,平均 FST 将低于能够漂移到任何频率的典型中性变体(图 5.5)。此外,虽然平衡选择也会降低 FST(见下一段),但只有弱负选择会导致变异在每个种群中的频率较低;平衡选择下的多态性可能处于任何频率。我们预计,在采样种群中受到相同(或非常相似)选择压力的平衡多态性在种群中的频率相似。如前所述,在这种情况下,选择再次限制了可能的等位基因频率的范围,这意味着与中性多态性相比,种群之间的等位基因频率变化会更小。所有这些都意味着平衡选择将降低 FST。这种选择的典型例子是人类的 ABO 血型基因座:A、B 和 O 等位基因存在于几乎每个人类群体中,但等位基因频率范围很窄(Brues 1954;Chung 和 Morton 1961)。尽管作用于该基因的平衡选择的具体形式尚不清楚,但 ABO 基因座除了非常低的 FST 外,还显示出平衡选择的多种分子特征(Stajich 和 Hahn 2005;Calafell 等人 2008)。

中性突变

有害突变

FST < 0.05 的 SNP 比例(%)

中性突变

有害突变

1 3 5 10 15

图 5.5 负选择对 FST 的影响

。显示了模拟两个种群之间共享的中性和

选择多态性的结果,平均 FST

设置为 0.11(相当于人类种群之间的平均分化)。

随着对有害突变的选择增加,(A)平均 FST

降低,并且

(B)所有 FST

<0.05 的多态性的比例增加。(Barreiro

等人,2008 年。)

种群结构

任何对物种内所有亚群起类似作用的正向选择预计不会导致亚群之间的分化,除非当一个新的有利等位基因连续扫过每个种群时(但参见 Bierne 2010)。然而,仅限于种群子集的正向选择(称为局部适应)可能导致等位基因频率的巨大差异。 (这种空间变化选择形式有时被称为平衡选择,因为多态性在物种水平上得以维持。在研究种群分化的背景下,我只会将维持亚群内多态性的过程称为平衡。)在极端情况下,在一种环境中极其有害的等位基因在另一种环境中可能非常有利:在这种情况下,等位基因频率在密切相关的种群之间可能从 0 到 1 不等。在这种情况下,选定的多态性可以显示 FST = 1,即使在大多数基因组中没有分化(例如,Turner 等人,2010 年)。在不太极端的情况下,正向和负向效应的影响有害选择将被视为 FST 值分布上尾中选定多态性的过量。图 5.6 显示了人类基因组中具有 FST 的非同义 SNP 的大量过量;对于 FST < 0.05 的非同义 SNP,即分布下尾中的有害多态性,也观察到了类似的过量(Barreiro 等人,2008 年)。这种过量是相对于假定受到很少直接选择的多态性(在此示例中为非基因 SNP)来衡量的。但是因为 FST

和等位基因频率并不完全独立,所以正确的统计比较必须比较多态性

SNP 比例 (%) 与 FST > 0.65

2.2 × 10−15

4.3 × 10−12

3.9 × 10−3

图 5.6 人类基因组中正向选择的影响。在四个人类群体中,总共对 851,856 个 SnP 进行了基因分型,并根据 Excoffier、Smouse 和 Quattro (1992) 的方法进行了 FST。FST 分布上尾的非同义多态性大量过剩与正向选择的作用一致(P 值表示与非基因 SnP 相比过剩)。编码区域中的连锁选择很可能增加了此尾部中同义多态性的比例。(Barreiro 等人,2008 年)从选定和未选定的位点类别中获取频率相似的短语,以检查选择对种群分化的影响(例如,Barreiro 等人,2008 年;Langley 等人,2012 年)。

迁移和漂移对种群分化的影响

对于中性多态性,种群分化模式将由迁移、漂移和连锁选择决定。连锁选择显然对靠近选定多态性的中性多态性有影响——例如,参见图 5.6 中同义多态性的 FST 模式——它生成的模式将是找到特定区域的关键,这些区域是空间变化选择的目标(参见第 10 章)。

同义

非同义

连锁选择也会对与选择目标松散关联的大片基因组的 FST 估计值产生影响,因此整个基因组的分化将是显示该过程不同影响的基因座的混合体(Nosil、Funk 和 Ortiz-Barrientos 2009)。由于连锁选择的结果主要是减少或增加局部 Ne,因此在本章的其余部分,我将简单地将此机制视为确定种群分化水平的漂移项的一部分。种群分化主要由迁移和漂移的相反力量决定。为了理解迁移和漂移对种群分化的不同影响,解释亚种群历史的两个对立模型是有益的:恰当命名的迁移和隔离模型(Wakeley 1996a)。考虑两个经常被问到的关于亚种群(有时是物种)的问题:(1)它们多久前分裂的?(2)它们之间有多少次迁徙?事实证明,所选择的种群历史模型将从根本上影响这些问题的答案。

迁移模型本质上是 Wright 的无限岛模型(第 1 章)。

在这个模型中,亚种群之间的迁移使等位基因频率同质化,而漂移引起的采样会导致等位基因频率的差异。在迁移模型中,所有亚种群都已达到迁移-漂移平衡,因此不再有任何分裂的历史信号(图 5.7A-C)。在下面列举的大量假设下,Wright (1931) 表明,统计 FST 常染色体基因座的预期值为:是每个亚种群的大小(假定它们相等),m 是每个个体每代的迁移率(有时复合参数 4Ne m 或仅 Ne m 本身表示为 M )。如果没有迁移(m = 0),则 FST 在平衡状态下将等于 1(图 5.7C);随着迁移的增加,FST 将下降至 0(图 5.7A)。公式 5.14 似乎提供了一种简单的方法来估计每代在种群之间移动的有效移民人数,Ne 人们要做的就是从数据中计算 FST(或类似 FST)统计数据。然而,要使这种关系成立,必须满足大量假设,违反任何这些假设都会导致对总迁移的极度误导性推断。这些假设中最重要的——也是最有可能不真实的——是 (1) 人口确实处于迁移漂移平衡状态,以及 (2) 人口之间没有空间结构(后一个假设仅在考虑两个以上人口时才有意义)。任何时候,由于祖先多态性而不是迁移,人口共享等位基因时,第一个假设都会被违反;这些情况正是隔离模型与此相关,将在下文进一步讨论。当没有无限数量的人口彼此交换相等数量的移民时,第二个假设就被违反了。例如,在垫脚石模型中

人口结构

FST = 0.44

人口 1

人口 2

人口 1

FST = 0.44

人口 2

人口 1

人口 2

人口 1

人口 2

A A A a aa

人口 1

人口 2

A A a a aa

人口 1

图 5.7 迁移和隔离模型之间的差异。(A-C)说明了在不同人口迁移水平下的迁移模型。每个椭圆形代表一个单独的人口。(A)中的迁移率最高,(B)中的迁移率中等,(C)中的迁移率不存在(即没有迁移)。所有的分化都是迁移和有效种群规模的函数(见公式 5.14)。(D-F)说明了自种群分裂以来不同时间下的隔离模型。图中显示了两个种群中个体染色体的假设谱系关系,底部的线代表染色体采样的时间(即现在)。(D)中分裂是最近的,(E)中分裂是过去的中间时间,(F)中分裂是很久以前的时间。所有的分化都是分裂以来的时间和有效种群规模的函数(见公式 5.15)。(第 1 章)存在空间结构,因为种群与邻近种群交换了更多的移民。在这种情况下,附近的种群将具有更相似的等位基因频率,并且将存在“距离隔离”(Wright 1943;见第 9 章)。如果违反了这些假设中的任何一个或许多其他假设,包括选择没有影响(参见 Whitlock 和 McCauley 1999),则公式 5.14 不能用于准确估计迁移率。已经开发了几种方法,可以通过允许祖先共享的等位基因和种群之间的不对称迁移来放宽其中一些假设(例如,Beerli 和 Felsenstein 1999、2001;Bahlo 和 Griffiths 2000)。然而,这些模型仍然假设种群处于平衡状态,并且它们没有区分迁移和隔离作为促成种群结构的过程。隔离模型描述了一种种群分裂情景,分裂后没有进一步的迁移(图 5.7D-F)。在这种情况下,两个产生的种群将具有相似的等位基因频率,只是因为它们一开始就有相似的等位基因频率:分裂后,这两个种群应该在祖先种群中具有大约相等的所有等位基因的代表性(图 5.7A)。由于漂移(和选择)——所谓的谱系分类过程——等位基因频率将随着时间的推移而偏离,以至于在足够的时间之后,将没有共享的等位基因,并且所有染色体将仅与同一种群内的其他染色体最密切相关——也就是说,将存在相互单系(图 5.7F)。谱系分类可能需要很长时间,并且该过程的随机性意味着单个基因座在成为相互单系所需的时间上会有所不同。作为一般准则,Hudson 和 Coyne (2002) 计算出 95% 的常染色体基因座样本在 9 到 12Ne 代后不会在两个谱系之间共享任何等位基因。在隔离模型中,对种群分化贡献最大的两个参数是种群分裂以来的时间 t 及其有效种群大小 Ne,假设它们在种群之间是相等的。隔离模型中 FST 统计量的预期值为 (Wright 1931):其中,漂移对常染色体基因座等位基因频率方差的影响在 t 代中简单地叠加。在其他所有条件相同的情况下,增加分裂时间会增加发生的漂移量,从而导致 FST 值增大(图 5.7D-F)。同样,增加种群规模会降低漂移的影响,从而减少一个或所有亚种群中降低 Ne 的 FST 过程(例如种群萎缩)将增加该亚种群中漂移的影响并导致种群分化增加。同样,漂移对非常染色体基因座的影响更大,导致这些基因座的分化增加(例如,Keinan 等人,2009 年)。如果我们假设隔离模型成立,则可以使用公式 5.15 来估计联合参数 t/2Ne。但是,同样,要使这种关系成立,必须满足许多假设。主要假设是种群之间没有交换移民。由于迁移使等位基因频率同质化,任何迁移都会降低 FST,导致低估 t/2Ne。该假设还要求种群分离是瞬间发生的,所有交换都在过去 t 代立即停止。这些假设有时可能是正确的,在这些情况下,可以估计隔离模型的参数(包括每个后代种群和祖先种群的单独种群突变参数 q)(例如,Wakeley 和 Hey 1997;Wang、Wakeley 和 Hey 1997;Leman 等人 2005)。但在许多情况下,隔离和迁移模型的主要假设都会被违反,或者我们无法先验地确定哪种模型更适合数据。这就是为什么最近的研究转向包含两个过程的模型,即隔离与迁移模型。区分迁移和漂移:隔离-迁移模型 分子群体遗传学中最具挑战性的任务之一是区分种群或物种间共享多态性的原因。由于迁移和最近的分裂事件都可能导致共享多态性(图 5.7A-F),因此迁移和隔离模型都可以解释广泛的分化值。因此,最近研究的目的是找到每个过程的不同特征,并设计一个统计框架,在这个框架内可以对迁移率、分裂时间或迁移和祖先多态性对分化水平的联合影响做出有力的推断。在这里,我描述了一些区分这些过程以及将它们整合到一个模型中的尝试。几种早期方法提出了旨在区分隔离和迁移模型的测试。 Wakeley (1996a) 表明,单个基因座上序列的成对差异的方差(公式 4.14)在迁移模型下比在隔离模型下更大,即使成对差异的预期值相同。也就是说,即使两个模型之间的 FST 预期值相同,p 的方差也会不同。如果存在不对称迁移,则在接受大量移民的种群中,p 的方差将更大。方差的预期差异假设基因座内没有重组和没有选择,这是两个非常重要的限制。由于迁移增加了交换基因的两个种群的 p 值和它们的总差异(相当于上面的 dXY),因此可以构建一个测试来区分隔离和迁移。在 Wakeley (1996b) 提出的检验中,隔离模型是零假设,因为与方差较大的零模型相比,方差较小的零模型具有更大的统计能力来拒绝它。当迁移率较低或自分化以来的时间较长时,该检验似乎具有最大的效力,即模型之间的方差差异最大。随着迁移率的增加或自分裂以来的时间减少,方差会收敛到单个随机交配种群的预期方差;在高迁移率/最近分裂情景中,这种效力的降低似乎在不同方法中普遍存在(见下文)。在另一个方法中,Wakeley 和 Hey (1997) 发现,可以计算隔离模型中预期的共享多态性数量、每个种群中的排他性多态性(即私有等位基因)以及两个种群之间的固定差异。这些汇总统计数据在比较迁移模型和隔离模型时很有用,因为单个非重组基因座可以具有共享多态性或固定差异,但不能同时具有两者(它们也可以两者都没有)。基因流将增加共享多态性的数量,同时减少种群 1 种群 2 的数量。图 5.8 两个种群的隔离与迁移模型。在最基本的模型中,有六个参数需要估计:三个种群突变参数)、两个迁移参数以及种群分裂以来的时间(t)。 IM、IMa 和 IMa2 程序按中性突变率缩放所有参数,这样估计的迁移参数为 m/µ,时间参数为 tµ。(根据 Hey 和 nielsen 2004。)固定差异和排他性多态性的数量。然后可以将这四个汇总统计数据用作针对模拟值(Wang、Wakeley 和 Hey 1997)或预期值(Kliman 等人 2000)应用测试的基础。在任一测试中拒绝零模型意味着纯隔离模型可以被丢弃作为数据的可行解释,因为这些汇总统计数据中的基因座之间存在太多差异。所有这些测试都需要来自两个种群中的每一个的适度数量(>10)的相位单倍型。刚刚描述的两种方法测试了替代迁移模型人口分裂

但不估计任何人口参数。

在涉及两个种群的隔离与迁移模型中,有六个基本参数(图 5.8):两个后代种群和单个祖先种群的 q 值、分歧以来的时间以及双向迁移率(有时会合并为单个迁移参数)。 为了估计具有大量参数的模型,贝叶斯方法通常使用合并谱系的 MCMC 抽样

来得出最可能的参数值(参见第 9 章)。使用 MCMC 估计隔离-迁移模型参数的第一种方法只能使用来自单个基因座的相位序列数据(Nielsen 和 Wakeley 2001),但随后的改进允许研究多个基因座和两个以上的后代种群(在程序 IM [Hey 和 Nielsen 2004]、IMa [Hey 和 Nielsen 2007] 和 IMa2 [Hey 2010] 中实现)。使用 MCMC 抽样的分析为每个参数的值提供了后验概率的分布。虽然该分布的峰值通常被视为参数的估计值,但曲线的形状可用于衡量对估计的支持并对比替代模型。具体而言,在试图区分隔离和迁移模型时,“[迁移参数] 峰值和迁移率为零时的概率之间的差异可用于对零基因流零假设进行似然比检验”(Pinho 和 Hey 2010,第 223 页)。一个显著的结果表明需要一定量的迁移才能更好地解释数据并拒绝纯隔离模型。使用 IM 程序及其后继程序推断隔离与迁移模型中的参数提供了一种推断近期进化过程的强大方法,但这些方法并非没有问题。大多数困难来自方法所做的假设,这些假设经常会被违反并在许多情况下影响所做的推断(Becquet 和 Przeworski 2009;Strasburg 和 Rieseberg 2010)。主要假设包括所有基因座的选择性中性(即没有正向或平衡选择)、种群结构:基因内无重组、采样后代种群或祖先种群内无进一步的种群结构、基因间独立、符合所选突变模型、无从未采样种群迁移。Strasburg 和 Rieseberg (2010) 发现 IM 软件包“相对稳健”,可以缓和任何违反上述假设的情况,尽管特定的违反情况确实会导致误导性推论。最常被违反的假设之一是没有基因内重组,其结果是增加每个后代种群的 q 估计值并增加它们之间估计的分化时间。为了解决这一限制,Hey 和 Nielsen (2004) 建议仅保留采样序列的非重组部分进行分析,尽管这种方法可能会产生其他偏差。违反 IM 假设的情况也很常见,这可能导致祖先 q 的估计值过大,包括祖先群体中未说明的结构(Becquet 和 Przeworski 2009)。最后一个警告是,这些方法似乎高估了最近分裂的迁移率(例如,Naduvilezhath、Rose 和 Metzler 2011;Hey、Chung 和 Sethuraman 2015)。隔离与迁移模型的另一个用途是尝试估计迁移时间(例如,Won 和 Hey 2004)。尤其是在考虑物种间最近的分裂时,区分具有基因流动的初级物种形成模型和分化后的二次接触模型是非常有意义的。估计迁移事件的时间应该可以让研究人员知道在给定数据的情况下哪种模型更有可能。然而,模拟(Strasburg 和 Rieseberg 2011)和理论(Sousa、Grelaud 和 Hey 2011)都表明,在这个模型中无法推断出任何迁移事件的确切时间。IM 方法使用的数据中似乎没有足够的信号来自信地确定单个迁移事件发生的时间,尽管可以对比先验定义具有不同迁移率的时代的模型(Sousa、Grelaud 和 Hey 2011)。还使用了其他方法来估计隔离-迁移模型中的参数,每种方法都有自己的局限性。几种方法使用与 IM 和相关程序相同的基本方法,但只需要非常少量的个体和非常大量的定相(Wang 和 Hey 2010)或非定相基因座(Gronau 等人 2011)。使用数据摘要的类似方法允许基因座内重组,并且可以可以采用贝叶斯方法(Becquet 和 Przeworski 2007)或“近似”贝叶斯方法(见第 9 章)。一种完全不同的方法使用多群体等位基因频谱(即所有后代群体的联合位点频谱)作为输入数据,从中推断参数(Wakeley 和 Hey 1997)。使用这种数据表示的方法可以使用数百或数千个个体和数千个标记的数据,假设多态性是独立的(有关详细信息,请参阅第 9 章)。应该强调的是,虽然这些较新的基于模型的方法被用于区分漂移和迁移作为种群分化的原因,但大多数情况下它们尚未经过广泛测试。大量研究详细阐述了违反 IM 及其后续程序假设的后果(例如 Becquet 和 Przeworski 2009;Hey 2010;Strasburg 和 Rieseberg 2010),但缺乏对新方法的此类研究并不意味着它们更准确——只是它们尚未经过测试。即使使用最现实的理论模型和最先进的计算工具,也很难将祖先多态性与迁移区分开来。这种困难部分是由于每个模型中必须做出的假设仍然不切实际,部分是由于当仅使用部分可用遗传数据时,所有进化过程都会产生非常相似的模式。未来此类方法可能需要使用改进的模型和新类型(或更大量)的数据。检测种群对之间迁移的其他方法

在第 9 章中,我们将讨论一些推断迁移的其他方法和理解迁移产生的模式的新模型。但在继续本章之前,我想介绍几种方法,这些方法可以在没有明确表达单个统计数据的预期值的情况下,预测基因流存在下的变化模式。这些方法使用模拟来生成跨基因座的预期值,因此对模拟中使用的参数的准确性相对敏感。例如,考虑一种情况,我们使用简单的汇总统计数据(例如 FST)来评估两个种群之间是否发生了迁移。如果真实数据来自两个最近分裂的种群,则假设古老的种群分裂而生成的模拟数据集可能会导致错误的迁移推断。此类误差是由于观察到的统计值远低于模拟值而导致的,对此类观察的简单解释是发生了迁移。然而,在实践中,大多数误差的方向相反,这使得检测迁移变得更加困难。其原因是发散时间是根据与迁移相同的数据估算的,从而导致测试中的循环性:如果发生迁移,则考虑到实际分裂时间,我们样本之间的序列发散将低于预期。因此,没有迁移的模拟数据将与观​​察到的具有迁移和较早分裂的数据紧密匹配,从而导致对迁移的保守测试。尝试通过模拟解决这些问题的一种方法是尝试检测显示出种群间迁移迹象的单个基因座,即使基因组中的基因渗入很少见。在这种情况下,希望模拟能够反映大多数基因组的非迁移历史,从而更容易检测到具有迁移信号的异常基因座。如果发现异常值,则这是发生迁移的初步证据。这种推断模式可以再次使用 ,尽管两者都存在正确解释异常基因座的困难。如上所述,FST 会受到选择的强烈影响,因此经历平衡选择的基因座的值似乎比中性进化区域(或受搭便车影响的区域)低得多。这种模式可能会被误认为是已渗入的基因座。使用具有极低中性突变率的 dXY 将具有非常低的发散水平,这再次增加了它们与渗入基因座混淆的可能性。此外,FST 均对低频迁移等位基因的存在不敏感(Geneva 等人,2015 年)。这意味着仅使用这些统计数据进行分析可能无法检测到最近的基因渗入(例如,Murray 和 Hare,2006 年)。为了检测甚至罕见的基因渗入谱系,Joly、McLenachan 和 Lockhart(2009 年)建议使用来自两个种群或物种的任何一对单倍型之间的最小序列距离。定义 kij(公式 5.12),最小序列距离 dmin,mini∈X

是两个种群 X 和 Y 中所有单倍型配对之间的最小距离(图 5.9)。该方法背后的逻辑是,任何两个彼此高度相似的序列(因此代表比种群分化时间更近的祖先)只能通过基因渗入来解释。通过将观察到的 dmin

与无迁移模型下的预期值进行比较,我们可以获得基因渗入的积极证据。

当满足其假设时,该方法具有很高的功效(Joly、McLenachan 和 Lockhart 2009),但与 dXY

一样,它假设基因座之间的突变率没有变化。

已经提出了多种解决方案来解释突变率变化,特别是在使用 dXY

时出现同样的问题。解决这个问题的一种方法是明确地在模拟中包含突变率的变化,但这些突变率很少为人所知。一种不需要估计每个基因座突变率的替代方法是使用两个分类单元与一个种群 X 相比的相对节点深度 (RND) 来解释这种变化。图 5.9 用于检测迁移的其他序列统计数据。图中显示了两个交换了移民谱系的种群的代表性谱系。虚线表示与看不见的外群 (dout) 的差异。两个种群中所有序列之间的平均距离 dXY 仅在一定程度上受到迁移事件的影响。然而,两个种群中序列之间的最小距离 dmin 比无迁移情景下的预期要低得多。 (基于 Rosenzweig 等人,2016 年)

种群 Y

外群(Feder 等人,2005 年)。RND 定义为两个种群之间的 dXY

除以每个种群与外群的平均距离:

其中 dout

是种群 X 与外群 O 之间的平均距离;dYO

是种群 Y

与外群之间的平均距离(图 5.9)。低突变率反映在 X 和 Y 之间以及每个种群与外群之间的分支长度缩短。因此,只要突变率在整个树中保持不变,RND 对低突变率就具有鲁棒性。事实上,当基因流广泛存在时,该统计数据最常用于查找未渗入的区域(例如,Nachman 和 Payseur 2012;Carneiro 等人 2014),这些区域将表现为 RND 值特别高的区域。在寻找渗入基因位点时,RND 原则上可以解决突变率变化的问题,但对低频移民仍然不敏感。最近引入了两种方法,它们对最近的迁移敏感,同时仍然对突变率的变化具有鲁棒性。Geneva 等人(2015)引入了一个统计数据 Gmin,定义为(见图 5.9):由于较低的突变率预计会对基因位点的所有谱系产生同等影响,因此通过两个种群中所有序列之间的平均距离进行标准化将解释基因位点之间不同的进化率。虽然 Gmin

有能力检测低频率的移民,但当移民等位基因的频率较高时,它就会失去能力。这可能是因为

随着移民谱系的频率上升,dXY

会降低。当移民等位基因

接近固定时,dmin

的比率会向 1 移动,接近

没有移民时的预期值。

一个对低频率和高频率移民都敏感的统计数据——

同时仍然对突变率变化具有鲁棒性——结合了 dmin

和 RND 的最佳方面。Rosenzweig 等人 (2016) 将他们的统计数据

定义为(见图 5.9):

低突变率反映在缩短的外群分支长度中,

(如 RND)对可变突变率具有鲁棒性。同样,像两者一样,

对甚至罕见的移民单倍型也很敏感。该统计数据的主要优势在于,即使移民频率很高,它仍然很有效(Rosenzweig 等人,2016 年)。与上述论点类似的论点也可用于查找与单个种群中所有其他单倍型距离比预期更远的单个单倍型,因为这些单倍型可以代表最近渗入的序列(例如,Brandvain 等人,2014 年)。

除了刚刚描述的“最小距离”方法外,我们还可以考虑最近渗入对种群结构连锁不平衡模式留下的不同信号。Machado 等人(2002 年)指出,在隔离和迁移模型下,共享多态性之间的 LD 模式预计会有所不同(图 5.10)。在隔离模型中,共享多态性被认为存在于祖先群体中,因此被认为经历了多轮重组,并且预计彼此之间不会存在强烈的 LD,也不会在每个后代群体中都具有排他性的多态性。相反,在迁徙中n 模型中,共享多态性被认为是从一个种群向另一个种群渗入的结果,因此预计它们彼此之间存在强烈的 LD,至少在接收移民的种群中是如此。此外,该模型还提供了有关 LD 符号的具体预测:随着迁移,两个渗入在一起的共享多态性的派生等位基因将呈正相关,而一个共享多态性和一个排他性多态性的派生等位基因将呈负相关(图 5.10)。在隔离模型下,LD 符号没有特定的方向性。 Machado 及其同事 (2002) 提出了一种统计方法,该方法取两个平均 LD 测量值之间的差异——第一个是所有共享多态性对之间的差异,第二个是所有一个是共享多态性而另一个是排他多态性的位点对之间的差异——并使用隔离模型下推断的种群历史的模拟生成 P 值。与此处描述的许多其他方法一样,当迁移是近期发生时,该方法最有能力检测出与隔离模型的显著偏差 祖先种群 1 P 图 5.10 迁移对重组位点内连锁不平衡模式的影响。每行字母代表一个单倍型,祖先种群在所有四个位点上都是单态的。分离后,种群 1 发生 A→a 和 B→b 突变,种群 2 发生 C→c 和 D→d 突变。

迁移事件将单倍型 ABcd 引入种群 1。

根据祖先和派生状态定义 lD 的符号,这种基因渗入的结果是种群 1 中具有共享多态性的位点(C/c 和 D/d)之间的 lD 为正,而这些共享多态性与种群 1 独有的多态性(A/a 和 B/b)之间的 lD 为负。 (根据

Machado 等人,2002 年)

种群 2

(因为基因渗入区域的 LD 尚未分解)和

当种群分裂更早的时候(因为在分裂之前实际上一直存在的共享多态性之间的“背景”LD 会更少)。该测试的结果也完全取决于模拟的特定隔离场景,因此使用不切实际的参数进行模拟可能会导致拒绝零模型,即使没有迁移。

尽管 Machado 等人(2002) 研究了多个种群中采样的单个基因座中包含的 LD 模式,类似的想法已用于仅使用来自单个种群的 LD 数据检测古代基因渗入(Wall 2000b;Plagnol 和 Wall 2006)以及使用全基因组数据集检测密切相关种群之间的所谓迁移区(或混合块)(例如,Falush、Stephens 和 Pritchard 2003)。此类区域的长度可用于估计推断的迁移事件或迁移率变化的时间(例如,Koopman 等人 2007;Pool 和 Nielsen 2009;Moorjani 等人 2011),或作为种群间迁移和隔离模型的明确测试(Loh 等人 2013)。 LD 模式和由于多个种群之间迁移而产生的每个基因组的比例在首先定义种群以及在分配每个个体在种群中的成员资格方面非常有用。在下一节中,我将讨论这些基本问题并提出解决方案。

定义种群

识别种群及其中的个体

到目前为止讨论的所有分析都假设我们对我们感兴趣的物种的种群结构有所了解。具体来说,我们假设我们知道有多少个种群,并且可以将样本分配给这些种群。如果不这样做,我们就无法测量种群之间等位基因频率的差异,也无法询问是否有证据表明存在显著的种群结构、迁移等。这些问题都要求我们首先识别种群并将我们的样本分配给这些种群。然而,在许多情况下,这些分配可能事先并不知道,或者可能仅根据样本采集的地理位置推断出来。此外,可能存在隐秘的种群结构,掩盖了从同一地点采集的样本实际上属于不同种群的事实。在这两种情况下,我们都可以使用统计工具来帮助我们对物种内亚种群的组成进行概率推断。必须对提前知道种群的情况和不知道种群的情况进行重要区分。在前者中,要解决的问题是将个体分配到种群中——因此使用的方法称为分配测试。所有这些方法(例如,Paetkau 等人,1995 年;Rannala and Mountain 1997;

Cornuet 等人 1999)要求分配个体的多位点基因型,以及每个可能的源种群的种群等位基因频率;他们还假设每个基因座的 HWE 和基因座之间的连锁平衡。然后,将个体最佳地分配到源种群是基于个体的基因型与每个种群中的等位基因频率之间的匹配,并且可能伴随着分配中的不确定性测量。分配的准确性在很大程度上取决于种群间等位基因频率差异的大小、种群等位基因频率估计的准确性以及正确源种群的纳入(Cornuet 等人 1999)。

尤其是当源种群等位基因频率的估计是基于少数个体时,考虑到小样本量,在分配中具有一定的不确定性度量非常重要。由于基因型和种群等位基因频率不匹配,种群也可能被排除在个体的可能来源之外。如果正确的源种群无意中被排除在研究之外,则所有抽样种群的高排除概率(或低分配概率)可能表明其缺失。在未预先定义种群的情况下,我们必须使用替代工具同时将个体分配到种群中,并估计种群数量及其在每个基因座的等位基因频率。此外,我们样本中的一些个体可能有混合血统——也就是说,他们可能有来自多个种群的遗传贡献。我们将这样的个体称为混合个体。我们希望识别这些个体,并估计每个源种群对其血统的贡献比例。

幸运的是,有多种方法可以执行所有这些计算,甚至更多。尽管每种方法在细节上有所不同,但许多方法都使用相同的基本原理:即最小化哈代-温伯格不平衡和连锁不平衡。下面我将描述程序结构(Pritchard、Stephens 和 Donnelly 2000)使用的基本方法,这是在不知道种群数量或每个个体在这些种群中的成员身份的情况下推断种群结构存在的最广泛使用的方法。

使用 Wahlund 效应识别种群结构

我们已经看到了 Wahlund 效应如何解释哈代-温伯格不平衡的情况,即当来自多个亚种群的个体被错误地认为来自同一种群时。按照类似的逻辑,将个体错误地分配到亚种群也会导致它们通过引入不太可能的基因型而处于哈代-温伯格不平衡状态。

因此,找到个体与种群的最佳分配(或找到最可能的种群数量)的一种方法是尝试最小化哈代-温伯格不平衡量。大多数软件包通过尝试大量不同的个体与种群分配来实现这一点,通常使用 MCMC 方法。最佳分配是导致每个种群中哈代-温伯格不平衡量最少的配置。因此,这些方法都假设每个种群中都存在哈代-温伯格平衡,唯一的例外是允许近亲繁殖的情况(例如,Gao、Williamson 和 Bustamante 2007)。还有第二种由个体与种群错误分配产生的不平衡:连锁不平衡。要了解为什么会这样,请考虑两个在两个基因座上固定了替代等位基因的种群(图 5.11)。种群 1 只有 AB 个个体,而种群 2 只有 ab 个个体。在每个种群中都没有 LD,但被视为单个种群时,两组等位基因之间存在完美关联(即完美 LD)。Wahlund(1928)实际上是第一个指出这个问题的人,但后来被多个其他团体重新发现(Cavalli-Sforza 和 Bodmer 1971;Sinnock 和 Sing 1972;Nei 和 Li 1973;Prout 1973)。这种效应有时被称为多位点 Wahlund 效应(Feldman 和 Christiansen 1974)或混合 LD(Falush、Stephens 和 Pritchard 2003)。种群之间固定的差异并非产生这种效应的必要条件:如果个体被错误地归类到种群中,任何等位基因频率的差异都可能产生 LD。事实上,产生的不平衡程度与种群之间等位基因频率的差异成正比。考虑两个基因座,每个基因座都有两个等位基因:A/a 和 B/b。如果我们将种群 1 中 A 等位基因的频率表示为 p1A,将种群 2 中 B 等位基因的频率表示为 p1B,将种群 2 中 B 等位基因的频率表示为 ,那么LD 量由以下公式给出:

D y y p p p p

其中 y 表示来自种群 1 的个体占总样本的比例,1-y 表示来自种群 2 的比例。可以很容易地看出,这种抽样形式即使在不同染色体上的基因座之间也会产生连锁不平衡。与单基因座不平衡一样,个体到种群的最佳分配将是

图 5.11 通过对多个种群进行抽样来产生连锁不平衡。两个种群(黄色椭圆内)被视为单个种群(白色椭圆)。种群 1 固定为 AB 单倍型,而种群 2 固定为 ab 单倍型。这两个基因座在种群 1 和 2 中都处于连锁平衡状态,但当将其视为单个种群时,它们之间存在完美的连锁不平衡。

种群 1

种群 2

种群结构

最小化位点之间的连锁不平衡。实际上,最小化这两种不平衡在计算上都很有挑战性,尤其是当人们还试图找到最可能的种群数量以及每个种群对每个个体祖先的可能贡献时。但诸如structure之类的软件包可以完成这些任务,以及识别单个基因座的祖先。

从种群结构的确定中进行进化推断

这里描述的方法的最重要用途之一是找到样本中包含的“最佳”种群数量。由于 Hardy-Weinberg 不平衡和连锁不平衡都会随着种群数量(表示为 K)的增加而进一步最小化,因此数据的可能性也会随着 K 的增大而增大。与许多统计问题一样,我们希望避免过度拟合具有大量参数的模型,而是选择足以解释数据的最小参数数量(参见 Burnham 和 Anderson 2002)。虽然有许多不同的方法可以推断 K 的最佳值(如下所述),但也应该记住,种群可以是主观实体,并且种群的确切划分可能会根据所提出的问题而改变(Waples 和 Gaggiotti 2006)。事实上,当人口结构是分层结构时,数据集的全局“最佳”K 可能对某些问题有用,而对个别人口的进一步细分可能对其他问题有用(例如,Rosenberg 等人,2002 年)。

对于几乎完全由混合个体组成的人口(例如,非裔美国人),甚至不清楚 K 的值应该代表什么:源人口的数量还是当前的单一人口?

在一个类似的模拟示例中,Pritchard、Stephens 和 Donnelly(2000 年)推断单个混合种群的 K = 2。作为选择单个最佳 K 值的替代方案,还可以对多个 K 值进行下游分析,并报告每个值的结果。图 5.12 显示了 Rosenberg 等人(2002 年)分析的全球人类样本增加 K 的结果。有两种主要方法可以推断最佳种群数量。第一种方法是使用结构等程序的输出对每个 K 值下数据集的可能性进行事后分析(有关此方法的注意事项,请参阅 Janes 等人 2017 年)。由于结构会计算固定 K 值下个体的最佳分配,因此必须使用 K = 1、2、3 . . . n 进行独立运行,直到达到某个最大种群数量 n。然后可以根据数据可能性随 K 增加而增加的速率(Evanno、Regnaut 和 Goudet 2005)或更严格的统计模型选择方法(例如 Gao、Bryc 和 Bustamante 2011)推断出 K 的最佳值。在第二种方法中,种群数量是在分配过程中同时估计的。软件可以

为单次运行中考虑的种群数量指定上限,使用 MCMC 过程拆分或合并这些种群

(例如,Corander、Waldmann 和 Sillanpaa 2003;Corander 等人 2004),或者它

班图(肯尼亚)

姆布提俾格米人

巴科拉俾格米人

推断种群数量和身份的一个重要问题是抽样的影响。与具有预定义种群的分配测试一样,种群识别的准确性取决于所包括的个体数量、使用的基因座数量以及种群之间的等位基因频率差异(Pritchard、Stephens 和 Donnelly 2000;Rosenberg 等人 2005)。此外,种群识别可能受到个体内混合量和数据集中混合个体的比例(Pritchard、Stephens 和 Donnelly 2000)以及从每个“纯”种群中抽取的个体数量(Fogelqvist 等人 2010)的强烈影响。甚至对于一个低样本的有限范围

在另一种方法中,主成分分析 (PCA) 可用于查找样本中的隐藏结构(参见第 9 章)。虽然 PCA 方法与迄今为止描述的混合模型确实存在潜在关系(Engelhardt 和 Stephens 2010;Lawson 等人 2012),但它们不会将个体分配到种群中。然而,Patterson、Price 和 Reich (2006) 表明,PCA 研究中的重要特征值的数量等于 K − 1。因此,PCA 可用于独立(并且更快速地)计算数据集中的最佳种群数量。可以将 K 视为给定某些先验分布的随机变量(Dawson 和 Belkhir 2001;Huelsenbeck 和 Andolfatto 2007)。一些方法还可以使用个体的空间采样位置来提供种群数量和个体分配到种群的先验信息(Guillot 等人,2005 年;François、Ancelet 和 Guillot,2006 年;Hubisz 等人,2009 年)。

图 5.12 人类种群结构。每个个体都用一条细垂直线表示,该线代表 K 个种群中每个种群的混合比例。黑线将不同预定义种群(在底部命名)中的个体分开,上面给出了种群的大陆位置。每行有 K 种颜色用于区分每个个体的混合比例。

(摘自 Rosenberg 等人,2002 年)

巴勒斯坦

汉族(中国北方)

美拉尼西亚

中东

中东

中东

中亚/南亚

中亚/南亚

中亚/南亚

中亚/南亚

中亚/南亚

中亚/南亚

中亚/南亚

中亚/南亚

人口结构

值,即使没有结构,也可能识别出重要的结构(Orozco-terWengel、Corander 和 Schlötterer,2011 年)。

一旦做出了最佳的种群选择并将个体分配到种群中,进一步的分析就可以识别出移民或混合个体。最近的移民将具有统计上显着的分配到源种群,这些分配与其采样位置重叠的种群不匹配(Rannala 和 Mountain,1997 年)。大多数此类方法只能识别移民或估计最近几代的移民率(例如 Wilson 和 Rannala 2003),因为重复的回交会抹去原始源种群的遗传信号。然而,许多被确定为最近移民的个体可能被错误标记或被污染的样本(Rosenberg 等人 2002)。结构报告的混合比例——以及类似方法,如 FRAPPE(Tang 等人 2005)和 ADMIXTURE(Alexander、Novembre 和 Lange 2009)——揭示了单个样本的祖先。识别混合个体对许多应用都很重要,可以作为关联研究中人口分层混杂效应的校正(例如,Hoggart 等人,2003 年;Price 等人,2006 年),帮助确定濒危种群的状况(例如,Beaumont 等人,2001 年),并为混合区研究提供关键信息(例如,Nielsen 等人,2003 年)。它不仅可以估计每个个体的单个基因组范围的混合比例,还可以估计单个基因座的祖先(分别称为全球和本地祖先;Alexander、Novembre 和 Lange,2009 年)。任何个体的基因组都可以被分成单独的染色体“块”或单倍型,每个块都有自己的祖先起源、物理长度和种群频率。尽管结构的原始版本需要不相连的标记,因此“混合”LD 是唯一的不平衡来源(见上文),但较新的版本可以考虑由连锁标记块的渗入(混合 LD)产生的 LD 以及 LD 的背景水平(Falush、Stephens 和 Pritchard 2003;另见 Patterson 等人 2004;Tang 等人 2006;Sankararaman 等人 2008)。如本章前面所述,识别这些混合块可用于推断迁移过程的特征(例如,Koopman 等人,2007 年;Pool 和 Nielsen,2009 年;Loh 等人,2013 年),以及校正关联研究中的分层(例如,Hoggart 等人,2004 年),甚至推断重组率(Wegmann 等人,2011 年)。进一步使用单倍型特异性祖先,使用 fineSTRUCTURE 程序中实现的方法(Lawson 等人,2012 年),可以揭示使用未链接标记无法显示的精细尺度种群结构。最后,必须对种群结构和混合的推断提出一个非常重要的警告。尽管在结构和 ADMIXTURE 等程序中,祖先分配被称为混合比例(我在这里也使用过这个术语),但它们实际上并没有表明是否发生了混合,因此可能具有误导性gly 命名。考虑这样一种情况,即有一个包含大量祖先多态性的单一大型种群,再加上几个较小的种群,这些种群已经从较大的种群中分离出来,并且每个种群都经历了瓶颈。在许多情况下,较小的种群将被软件识别为单独的种群,而单个较大的种群则表示为来自所有其他种群的祖先的混合。在这种情况下,混合比例不应被视为任何混合历史的证据;相反,它们应该被理解为仅仅表明与许多较小种群共享祖先的分配。因此,结构图(和类似的图)本身不能用于推断混合的历史(有关更多讨论,请参阅第 9 章)。聚结 6

模拟 DNA 序列样本

为了准确推断影响分子变异的进化力量,我们必须能够准确模拟 DNA 序列。理想情况下,我们希望能够在各种模型、不同的人口历史、选择形式和强度以及任何其他感兴趣的参数下模拟种群。

此类模拟的结果应该是 DNA 序列样本,相当于我们从自然种群中收集的样本。

这个过程重复了数千次,然后可以用来找到最适合我们观察到的数据的模型,或者作为零分布,我们可以用它来测试特定的假设。

我们如何模拟这样的种群?最直接的方法是,从大量二倍体个体(相当于我们想要模拟的种群规模)开始,这些个体根据我们选择的种群模型进化。我们将对适当长度的序列(可能等于我们希望与模拟进行比较的 DNA 序列的长度)应用突变和重组,同时进行交配和任何可能的自然选择。然后,该系统必须运行多代,至少直到种群达到平衡,最后需要从种群中抽取少量染色体以创建一个模拟数据集。为了生成数千个独立模拟的样本,这个过程必须运行数千次。这个过程通常被称为正向模拟,因为它从最初相同的种群开始向前进行。从上面的描述中可以明显看出,这种方法非常低效:我们只想知道样本的属性,但我们正在跟踪整个种群。为了解决这种低效率问题,几位数学遗传学家独立提出了后来被称为合并过程的方法(Kingman 1982a、1982b、1982c;Hudson 1983a;Tajima 1983)。合并过程的核心是,我们可以根据生成谱系间关系集(系谱)的简单规则来生成 DNA 序列样本。这些规则使我们能够生成具有几乎任何人口历史的样本,而无需模拟整个种群。由于该过程从现在开始并向后运行,因此被称为向后模拟。如今,有许多软件包可用于执行合并模拟(表 6.1)。由于合并过程仅考虑样本而不是整个种群,因此它可以成为生成大量模拟数据集的一种非常有效的方法,但它也存在自身的局限性,无论是生物学还是计算上的。从生物学上讲,合并是模型的模型:也就是说,它是 Wright-Fisher 或 Moran 种群(尽管非常好)的近似值,而 Wright-Fisher 或 Moran 种群本身是自然种群的近似值。合并的一个关键假设是样本大小 n 比有效种群大小 Ne 小得多。违反这一假设可能会导致对种群过程的误导性推断(例如,Wakeley 和 Takahashi

■ 表 6.1 用于模拟 DNA 序列种群样本的程序

程序来源

COALESCENT(“后向”)模拟软件

ms Hudson 1990;Hudson 2002

GENOME Liang 等人 2007

SIMCOAL/SIMCOAL 2.0 Excoffier 等人 2000;Laval 和 Excoffier 2004

CoaSim Mailund 等人 2005

Recodon Arenas 和 Posada 2007

discoal Kern 和 Schrider 2016

msprime Kelleher 等人 2016

WRIGHT-FISHER(“前向”)模拟软件:

EASYPOP 巴卢克斯 2001

simuPop 彭和金梅尔 2005

尼莫纪尧姆和鲁日蒙 2006

弗雷杰尼·霍加特等人。 2007年;查多-海姆等人。 2008年

ForSim 兰伯特等人。 2008年

FORWSIM Padhukasahasram 等人。 2008年

GENOMEPOP 卡瓦哈尔-罗德里格斯 2008

SFS_CODE 埃尔南德斯 2008

FFPOPSim 扎尼尼和内尔 2012

fwdpp 桑顿 2014

SLiM/SLiM 2 梅塞尔 2013;Haller 和 Messer 2017

ARGON Palamara 2016

近似合并(“侧向”)模拟软件

FastCoal McVean 和 Cardin 2005;Marjoram 和 Wall

MaCS Chen 等人 2009

fastsimcoal/fastsimcoal2(Excoffier 和 Foll 2011;Excoffier 等人 2013)

合并

2003)。虽然可以修改标准合并以更精确地匹配 Wright-Fisher 模型并放宽 n << Ne 假设,但这种修改会导致算法速度下降(Fu 2006)。更重要的是,从生物学角度来看,合并只会在没有自然选择的种群中生成一小部分随机染色体样本。

它不是对整个种群的模拟,因此无法提供除样本属性之外的任何结果。尽管模拟具有选择的合并方法一直在改进(例如,Spencer 和 Coop 2004;Teshima 和 Innan 2009;Ewing 和 Hermisson 2010;Kern 和 Schrider 2016),但可以建模的选择形式仍然有限。从计算角度来看,当计算机处理器速度和内存资源有限时,合并提供的优势更为重要,而这已越来越不成问题。技术发展使得合并的效率变得不那么重要,除非在使用贝叶斯抽样方法的应用中(参见第 9 章)。然而,最重要的是,当模拟基因组的非常大的区域或具有非常高重组率的区域时,合并可能变得非常低效,以至于无法使用它来建模当前正在收集的数据集。解决此问题的一种方法是发明近似合并方法,该方法基于在沿着一段 DNA 移动时生成相关谱系,而不是为整个区域生成一个大谱系(Wiuf 和 Hein 1999);因此它们是横向模拟。这些方法更正式地称为顺序马尔可夫合并 (SMC) 模型(McVean 和 Cardin 2005;Marjoram 和 Wall 2006),并且有多个程序可以执行它们(表 6.1)。

SMC 模型已经变得非常有用,但它们与自然种群的距离甚至更大:它们是模型的模型的模型!

将来,正向模拟可能会成为此类方法中最广泛使用的方法。越来越多的快速灵活的正向模拟器可以在许多不同的自然选择形式和许多不同的人口历史下对非常大的基因组区域进行建模(表 6.1)。计算技术的进步使这些方法更加可行,而 DNA 测序技术的进步可能使它们成为必需。虽然到目前为止,我只介绍了合并算法作为生成样本的算法,但这种方法有许多重要用途(请参阅 Hein、Schierup 和 Wiuf 2005 和 Wakeley 2009 以获得良好的概述)。合并算法为我们提供了一种概率建模谱系的方法,因此为分子群体遗传学中的各种结果提供了预期。这些预期中的许多都用在了本书的后面章节中。联合体还为我们提供了一个从谱系角度思考的框架,因此可以让我们深入了解我们采样的 DNA 序列之间的潜在关系。这个框架对于直观地了解群体遗传过程非常有帮助,因此在本章的其余部分,我将讨论中性联合体谱系的基础知识,并解释联合体的一些最重要的方面。在后面的章节中,我们将研究自然选择和非平衡人口历史对某个基因座谱系的影响。