POPULATION GENETICS 第二版
第4章
种群结构与基因流
4.1 遗传种群
种群的遗传组织与地理组织。
距离隔离【“Isolation by distance”译为“距离隔离”】与其他遗传隔离模型。
基因流与迁移。
第2章详细讨论的基因型以Hardy–Weinberg频率存在的预期,依赖于整个种群随机交配的假设。这一观点隐含了种群作为单一实体的前提——其中交配和个体迁移等过程在整个种群中均匀发生,这种状态常称为泛交(panmixia)。然而,实际种群中起作用的若干过程和特征使得这种种群均质化的初始视角难以适用于多数种群。在大型种群中,交配机会往往不符合Hardy–Weinberg假设的均质分布。相反,两个个体交配的概率常取决于它们在种群内的空间位置。这种现象导致了所谓的种群结构——即整个种群中随机选取的两个个体交配概率存在异质性。本章第一节将介绍导致交配与迁移过程中种群结构的生物学现象,这些现象可能引起种群不同区域的等位基因和基因型频率差异。全章的目标是建立种群结构对基因型和等位基因频率影响的预期,并提出测量种群结构模式的方法。
为初步理解种群如何被划分为独立运作的亚单元,请考虑某个假想种群:
图 4.1. 最初,种群中所有个体无论其位置如何都有均等的交配机会。由于交配是随机的,整个种群的基因型频率符合哈迪-温伯格预期,且溪流两岸的等位基因频率相等。接着,设想将分割种群的溪流永久变为大型河流,成为个体从一侧向另一侧迁移的屏障。尽管偶尔仍有少数个体会穿越河流,但被河流分割的两个亚种群间的基因混合或基因流速率降低了。基因流水平的下降意味着两个亚种群的等位基因频率和基因型频率随时间趋向独立。
在图 4.1 的后续时间点中,两个亚种群的等位基因频率随时间推移因遗传漂变而差异逐渐增大——尽管每个亚种群内部仍保持哈迪-温伯格预期的基因型频率。在图 4.1 的最后时间段,被河流分隔的亚种群的等位基因频率已显著不同,且总种群的基因型频率不再满足哈迪-温伯格预期。此例中,基因流的减少使两个亚种群能独立受遗传漂变作用,最终导致等位基因频率的种群分化。地理屏障的出现会限制种群间的基因流,如图 4.1 所示。亚种群(以兽群、鸟群、狮群、鱼群甚至城市等名称识别的实体)可通过时间、行为及地理屏障等多种方式形成,最终使其等位基因频率偏离总种群的平均等位基因频率。
另一种种群结构的成因更为微妙,但通过思想实验容易理解。试想你在家或工作场所常遇见的一种常见动植物物种。设想该物种个体完全随机寻找配偶,个体可能在何处找到配偶?它们更可能与邻近个体而非远方个体交配。我曾观察过住所附近和工作大学校园中的树木。当这些树木通过花粉传播开花交配时,邻近树木更可能成为配偶。相距数十或数百公里的两棵树很难有机会交配。
设想你思考的物种及其可能发生交配的距离。即使个体能在极远处找到配偶,通常也存在某个空间尺度会限制交配概率。这因物种而异:可能小至数米(取决于个体及其配子的移动范围),也可能大至数千公里。
图4.1 由有限基因流产生的种群结构和等位基因频率分化的示例。整个种群(大椭圆形)最初处于随机交配(panmixia)状态,并具有Hardy–Weinberg预期的基因型频率。随后,贯穿种群的溪流发展成一条大河,限制了整个种群两侧之间的基因流。随着时间的推移,两个亚种群中的等位基因频率通过遗传漂变发生分化。在此示例中,可以设想两个亚种群分别漂向不同等位基因的固定,但均未完全固定,因为偶尔有个体能够越过河流并交配。注意,每个亚种群内部仍存在随机交配(panmixia),因此Hardy–Weinberg预期的基因型频率在亚种群内得以维持。然而,在初始时间段后,整个种群的基因型频率不再符合Hardy–Weinberg预期。
这种随个体间距离增加而交配机会减少的现象被称为距离隔离(isolation by distance)(Wright 1943a, b, 1946; Malécot 1969)。Sewall Wright受到植物Linanthus parryae(图4.2)蓝花与白花空间频率数据的启发,为经历距离隔离的种群建立了理论预期。L. parryae花色频率的拼图式空间格局被Wright视为连续种群中距离隔离后果的典型案例。Wright(1978)对L. parryae花色频率数据进行了一系列详细分析。然而,关于花色的遗传基础以及自然选择在野外塑造L. parryae花色空间分布的可能性,争议已持续超过50年(见Schemske与Bierzychudek 2001;Turelli等2001)。尽管L. parryae的具体作用机制尚无定论,距离隔离现象在自然种群中普遍存在。距离隔离可视为自然种群遗传学中的零假设(null hypothesis),核心问题在于其影响基因型和等位基因频率的地理尺度(见Meirmans 2012)。
亚种群之间及内部的基因流动模式可能呈现多种形式,已有多种模型被提出以捕捉这种多样性。例如,“屏障隔离”(isolation by barrier)描述由地理和生境障碍(如图4.1所示的河流)导致的基因流动速率降低现象(Vignieri 2005)。(在系统发育背景下,术语”地理阻隔”(vicariance)常用于描述类似的阻碍迁徙和基因流动并促进物种形成的屏障。)“抗阻隔离”(isolation by resistance, IBR)模型允许基因流动速率存在梯度变化,其名称源于电路中电子流受不同强度电阻器调节的类比(McRae 2006)。IBR可能由生境的空间异质性、基质类型差异(即适宜生境斑块周围个体或配子扩散所穿越的区域),以及基因流动必须跨越的屏障共同导致。
此外,不对称基因流动可能源于”垄断化”(monopolization)现象:当先到拓殖者具有数量优势时,会降低后来迁入者的定殖成功率,从而在亚种群初步建立后减少其间的基因流动(De Meester et al. 2002)。垄断化可能导致”定殖隔离”(isolation by colonization)格局,此时遗传结构反映时间维度上的拓殖历史,遗传分化与地理距离或环境差异之间未必存在关联(Orsini et al. 2013)。“环境隔离”(isolation by environment)指基因流动受阻及其引发的种群遗传分化与地理距离无关,这种隔离可由多种物理屏障和湿度、降水、土壤类型等非生物因子导致(Wang and Bradburd 2014)。环境隔离也可能是”适应隔离”(isolation by adaptation)的结果——当存在强烈自然选择导致局域适应时,迁入者会经历定殖或交配成功率降低,从而引发种群间遗传分化。
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/fc6ff724b884d78742953e44a4921548253760219aaa9639a5c6ae52dfc5fa52.jpg
图4.2 沙漠雪花(Linanthus parryae)分布于加利福尼亚州莫哈韦沙漠地区。在降水充足的年份,土壤中休眠种子可大规模萌发,这种植物可覆盖数千公顷荒漠。该小型植物具有蓝花或白花表型:某些区域以蓝花或白花植株为主,另一些区域则呈现更均衡的花色比例。图片来源:Dr. Barbara J. Collins/http://www.clunet.edu/wf.
区分这些及其他可能导致基因流速率和模式的因子,是景观遗传学研究的主要部分。该领域采用种群遗传预测模型、空间明确的基因型和等位基因频率数据、遗传采样点周围的地理信息系统(GIS)数据等空间信息,以及空间统计方法来检验影响基因流和遗传分化的地理过程假说(Balkenhol et al. 2015)。景观遗传学旨在通过基因流识别和检验遗传连通性与不连续性的成因假说,同时检验景观特征与遗传分化模式之间的相关性(Manel et al. 2003)。其中一个重点领域是预测和保护扩散走廊,以维持因自然栖息地变异及农业、聚落和建筑等人为影响而隔离的种群间的基因流。例如,Sharma et al.(2013)发现当代基因流在通过森林走廊连接的遗传分化老虎亚种群间达到最大。
计算机模拟是探索距离隔离如何影响等位基因和基因型频率的便捷方法。图4.3展示两个模拟种群,其中网格上的每个点代表一个二倍体个体的地理位置。在一种情况下,种群呈现随机交配(panmixia),个体在99×99个体的交配区域内随机选择配偶;在对比情况下存在强距离隔离,个体仅在更小的3×3个体区域内随机交配。两个种群初始状态极为相似:
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/d9b29f30d081e7bfa8cf80868156716584f51adbb326a513d10067b2863db2ea.jpg
图4.3 距离隔离导致等位基因和基因型频率的空间结构化。图中二维网格的每个点代表一个二倍体个体,颜色表示每个位点的杂合(蓝色)或纯合(黑/白)基因型。A组显示全种群随机交配(交配邻域为99×99网格),B组显示强距离隔离(交配邻域为3×3网格)。具有距离隔离的种群(B)发展并维持基因型的空间聚集,进而导致等位基因频率的空间聚集,而随机交配种群(A)无此空间结构。模拟初始时,网格中基因型按哈迪-温伯格(Hardy–Weinberg)预期频率随机分布,且p=q=1/2。每代中,个体在其交配邻域内随机选择配偶,并通过一个后代替换自身,子代基因型由亲本基因型的哈迪-温伯格组合概率决定。
哈迪-温伯格(Hardy–Weinberg)预期基因型频率与三种基因型的随机分布格局。经过 200 代后,具有 <math display="inline">99\times99</math> 个体交配区域的种群(图 4.3A)仍显示三种基因型的随机分布。然而,具有 <math display="inline">3\times3</math> 交配区域的种群(图 4.3B)则形成了明显的同基因型集群,且杂合体数量减少。
距离隔离(isolation by distance)的一个明显效应是种群中等位基因频率的局部变化,局部区域趋向固定或丢失,类似于有效种群规模减小的效应(见第 3 章关于繁殖有效种群规模的内容)。或者,距离隔离可视为近亲交配的一种形式,因为受限的交配距离会导致亚种群内纯合性增加。模拟种群中的基因型分布模式印证了这一点——随着距离隔离的持续,杂合体总体频率随时间显著下降(图 4.3B),而在随机交配(panmixia)情况下则无此现象(图 4.3A)。
距离隔离(Isolation by distance):随着个体或种群间地理距离增加,交配或基因流动机会逐渐减少的现象。
基因流(Gene flow):通过个体移动(迁徙)或配子移动,等位基因成功进入种群的过程。
随机交配(Panmixia):字面意为”完全混合”的随机交配方式。
种群结构(Population structure):种群不同部分在等位基因和/或基因型频率上的异质性,通常由空间或时间定义。这种结构模式可由遗传漂变与有限基因流的综合作用,以及自然选择等多种过程形成。
亚种群(Subpopulation):总种群中因基因流受限而使其等位基因频率能在一定程度上独立演化的部分;与繁殖群(deme)同义【“deme”译为“繁殖群”】。
种群结构对基因型和等位基因频率有深远影响。亚群划分将种群分解为若干较小的单元,每个单元在遗传上具有一定程度的独立性。其后果之一是:与随机交配的整个种群相比,每个亚群的有效种群大小更小。单一大型随机交配种群与划分为多个小型繁殖群的种群,其遗传多态性的组织形式存在差异。以双等位基因座为例:单个大型种群可能因遗传漂变而需要极长时间才能达到等位基因的固定或丢失,从而维持两个等位基因;而在高度分化的种群中,每个繁殖群可能快速达到固定或丢失,但整体种群仍可维持两个等位基因——因为对于某个特定等位基因,预计半数亚群会达到固定,半数会丢失。导致种群结构的过程也可视为进化改变的创造性与限制性并存(Slatkin 1987a)。亚群间的遗传隔离可阻止新等位基因(包括有利等位基因)在种群中扩散;但与此同时,遗传隔离允许亚群形成独立的等位基因频率,并维持独特等位基因,这正是自然选择下遗传适应局域环境所必需的条件。
值得注意的是,基因流与迁移(migration)或扩散(dispersal)存在重要生物学区别。迁移(或扩散)仅指个体从一个地点到另一个地点的移动行为,这种移动未必导致基因流。基因流要求迁移个体能成功将其等位基因贡献至迁入种群的交配池。因此,单纯迁移未必引发基因流。同理,基因流也可不依赖个体迁移而发生。植物是典型例证:其基因流通过花粉粒(雄配子)移动实现,而个体(除种子阶段外)无法迁移。基因流也可在个体迁移不易察觉的情况下发生,例如个体短暂移动交配后返回原栖息地。容易混淆的是,变量<math display="inline">m</math>(迁移率)在种群结构模型中几乎普遍用于表示基因流速率。尽管模型通常不作区分,但需谨记实际种群中迁移过程与基因流过程的生物学差异。
Box 4.1 二维空间中等位频率呈随机分布还是聚集分布?
如何描述遗传变异的空间分布,以寻找距离隔离或其他导致种群空间遗传分化的证据?通用方法是比较个体对或种群对,同时考察其基因型相似度与空间距离。距离隔离是由非随机交配导致的亲缘交配形式,它使得空间邻近的个体平均具有更高的亲缘关系。
用于估计空间遗传结构的一种经典统计量是称为Moran’s I的相关性度量:
<math display="block"> I_{k}=\frac{\displaystyle{n\sum_{i=1}^{n}\sum_{j=1(i\neq j)}^{n}w_{i j}\big(\gamma_{i}-\overline{{{\gamma}}}\big)\left(\gamma_{j}-\overline{{{\gamma}}}\right)}}{\displaystyle{W_{k}\sum_{i=1}^{n}\big(\gamma_{i}-\overline{{{\gamma}}}\big)^{2}}} </math>
其中<math display="inline">k</math>代表距离类别(例如相隔两个距离单位的所有种群),因此当位置<math display="inline">i</math>和<math display="inline">j</math>之间的距离等于<math display="inline">k</math>时<math display="inline">W_{j j}</math>为1,否则为0。在距离类别<math display="inline">k</math>内,<math display="inline">n</math>是种群数量,<math display="inline">y</math>是遗传变量(如位置<math display="inline">i</math>或<math display="inline">j</math>的等位基因频率)的值,<math display="inline">\overline模板:Y</math>是所有种群的平均等位基因频率,<math display="inline">W_{k}</math>是权重<math display="inline">W_{j j}</math>之和或<math display="inline">2n k</math>。当种群对的等位基因频率相似且与平均等位基因频率差异较大时,分子会更大。
与一般相关性类似,当使用大量样本估计时,Moran’s I的取值范围为<math display="inline">-1</math>到<math display="inline">+1</math>。<math display="inline">I</math>的正值意味着位置对之间的等位基因频率在平均意义上相似,而负值意味着位置对之间的等位基因频率在平均意义上倾向于不同。值为0表示亚种群等位基因频率的差异与位置间距离无关,或遗传变异在空间上随机分布。如图4.3所示的基因型空间位置是使用Moran’s I的理想场景(见图4.4)。
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/d81aebf7bda30986a41a9f6000012e70abe9c2276375ce5c8102037c7219c9a9.jpg
图4.4 模拟种群(类似图4.3)的Moran’s I。为估计Moran’s I,对100×100网格进行了200代的模拟,然后将其划分为10×10个体的方形亚种群。每个亚种群内A allele的频率为<math display="inline">y_{i}</math>,而所有亚种群的平均等位基因频率为式4.1中的<math display="inline">\overline模板:Y</math>。距离类别是分隔亚种群对的亚种群数量。正如预期,具有强距离隔离(3×3交配邻域)的模拟显示相邻亚种群间存在等位基因频率相关性。然而,完全随机交配(99×99交配邻域)的模拟显示没有这种等位基因频率的空间相关性。两图中最大距离类别处I的波动是由于比较个体数量极少导致的随机变异。每条线均基于100×100种群的独立模拟。
4.2 基因流及其对多亚种群等位基因频率的影响
基因流模型
大陆-岛屿模型
两岛屿模型
扩散核
基因流是一种混合过程,当单独作用时,最终会使所有亚种群的等位基因频率趋于均质化。在自然种群中,基因流可以呈现多种模式,通过个体或配子的交换将亚种群相互连接。种群遗传学中已广泛研究了一系列基因流模型,这些模型作为重要的参考基准。其中部分基因流模型如图4.5所示。实际生物亚种群内部和之间的基因流可能不像这些模型假设的那样容易分类或恒定不变。尽管如此,这些模型仍然是表征亚种群间基因流可能模式的有用案例。
本章第一节介绍了基因流,并展示了有限基因流如何影响等位基因和基因型频率,形成遗传亚种群的潜力。4.2节将介绍基因流模型,展示基因流如何随时间影响等位基因频率。4.3节将引入通过遗传标记确定亲缘关系来直接测量基因流的方法。4.4节将重提第二章的固定指数(或F.),并针对结构化种群的情况进行扩展以量化种群分化模式。4.5节将展示基因型频率变异如何以杂合度形式存在于种群内部,或以等位基因频率差异形式存在于种群间。4.6节将提出理想化种群模型,通过基因流和遗传漂变速率预测遗传分化模式,这些模型可作为估算历史基因流的方法。4.7节介绍最大似然法和贝叶斯法对个体进行遗传种群分类。本章最后一节将种群亚结构整合到溯祖模型中。
图 4.5 种群结构模型对亚种群间基因流的路径和速率作出不同假设。“大陆-岛屿”模型(A)中,基因流是单向的,因为大陆种群规模极大使得其等位基因频率不受迁出或漂变影响,而小种群的等位基因频率则受迁入强烈影响。“岛屿”模型(B)假设所有种群间无论数量或地理位置都以相同速率双向交换基因流(岛屿模型也可调整种群数量从两个到无限个)。“踏脚石”模型将基因流限制于相邻或邻近种群,在一维(C)或二维(D)空间中体现距离隔离效应。“层级岛屿”模型(E)在种群组织的多个层级上设置不同基因流速率(Slatkin 和 Voelm 1991),图示为同一区域内繁殖群间和区域间存在不同基因流速率。“阻力隔离”模型考虑不同繁殖群对间的基因流速率可能因景观阻隔而异,从而影响迁徙(McRae 2006)。基因流模型还可纳入整个亚种群的灭绝与重建过程,这一特征常被添加到踏脚石模型中。各面板箭头所示基因流速率为:若每代种群中迁入个体占比m,则<math display="inline">1{-}m</math>为未迁徙个体占比。
基因流模型的目标是预测遗传混合过程如何随时间影响亚种群的等位基因频率。此类预测的有效起点是假设仅有基因流作用——无遗传漂变、自然选择和突变——进而聚焦于特定基因流模型中基因流的作用方式和速率。本节将详细阐述两种基因流模型中观察到的等位基因频率随时间变化效应。
Continent-island model
或许最简单的基因流模型是”大陆-岛屿”模型(图 4.5A)。该模型假设存在一个极大的种群(其等位基因频率在短期内变化极小)和一个小型种群(每代接受来自大陆种群的迁入者)。岛屿种群每代通过迁徙替换比例为<math display="inline">m</math>的个体,保留<math display="inline">1-m</math>的原有个体(假设岛屿种群每代被替换的m比例个体或死亡或迁回大陆种群,而大陆种群规模极大以致迁入者不会影响其等位基因频率)。
Continent-island model: 一种理想化的种群细分与基因流模型,假设存在一个极大种群(其等位基因频率随时间保持恒定,如个体数量庞大的种群)与一个小种群(每代个体中迁入者占有限比例)通过基因流连接。虽然可能存在从岛屿到大陆的基因流,但假定其对大陆种群等位基因频率的影响可忽略不计。
基于上述情况及其假设,可以预测基因流如何在一代时间内改变岛屿种群中双等位基因位点的等位基因频率。岛屿种群未来一代的等位基因频率(记为<math display="inline">p_{t+1}^{island}</math>)是以下两个因素的函数:(i) 未迁移个体在岛屿种群中所占比例的等位基因频率,以及(ii) 通过基因流从大陆种群迁入岛屿种群的个体所占比例的等位基因频率。这可以用方程表示为
<math display="block"> p_{t=1}^{island}=p_{t=0}^{island}(1-m)+p^{continent}m </math>
并用于预测经过一代基因流后岛屿种群的等位基因频率。展开该方程右侧可得
<math display="block"> p_{t=1}^{island}=p_{t=0}^{island}-p_{t=0}^{island}m+p^{continent}m </math>
将其重新排列后可得到一个描述岛屿种群等位基因频率在一代时间内变化的方程
<math display="block"> p_{t=1}^{island}-p_{t=0}^{island}=-m\left(p_{t=0}^{island}-p^{continent}\right) </math>
该形式便于生物学解释。
方程4.41预测,只要基因流速率不为0(<math display="inline">m\neq0</math>),岛屿与大陆种群间等位基因频率的差异程度(<math display="inline">p_{t=0}^{island}-p^{continent}</math>)将决定岛屿等位基因频率变化的方向和速率。例如,若<math display="inline">p_{t=0}^{island}>p^{continent}</math>,则岛屿等位基因频率应下降;同理,若<math display="inline">p_{t=0}^{island}<p^{continent}</math>,则岛屿等位基因频率应上升。以数值为例,假设<math display="inline">p_{t=0}^{island}=0.1</math>且<math display="inline">p^{continent}=0.9</math>,岛屿与大陆等位基因频率差异为<math display="inline">-0.8</math>,根据方程4.41,任何程度的基因流都将导致岛屿等位基因频率上升。若<math display="inline">m=0.1</math>,则岛屿等位基因频率在一代内将增加0.08至<math display="inline">p_{t=1}^{island}=0.18</math>。
单代基因流引起的等位基因频率变化预期还可扩展用于预测任意代数的岛屿种群等位基因频率。若存在第二代基因流,则岛屿种群的等位基因频率为
<math display="block"> p_{t=2}^{island}=p_{t=1}^{island}(1-m)+p^{continent}m </math>
将方程4.41定义的<math display="inline">p_{t=1}^{island}</math>代入得
<math display="block"> p_{t=2}^{island}=\big(p_{t=0}^{island}(1-m)+p^{continent}m\big)(1-m)+p^{continent}m </math>
将其重新排列为
<math display="block"> p_{t=2}^{island}=p_{t=0}^{island}(1-m)^{2}+p^{continent}(m(1-m)+m) </math>
最终可得两代基因流后岛屿等位基因频率(<math display="inline">p_{t=2}^{island}</math>)相对于初始频率(<math display="inline">p_{t=0}^{island}</math>)的预期表达式
<math display="block"> p_{t=2}^{island}=p_{t=0}^{island}{(1-m)}^{2}+p^{continent}{\left(1-{\left(1-m\right)}^{2}\right)} </math>
通过归纳可得通用表达式
<math display="block"> p_{t}^{island}=p^{continent}+\left(p_{t=0}^{island}-p^{continent}\right)\left(1-m\right)^{t} </math>
或等价形式
<math display="block"> p_{t}^{island}=p_{t=0}^{island}(1-m)^{t}+p^{continent}\bigl(1-(1-m)^{t}\bigr) </math>
注意,指数等于经过的世代数。将这些指数改为任意数,即可得到从初始等位基因频率开始经过<math display="inline">t</math>世代后岛屿种群的等位基因频率:
岛屿种群中等位基因频率的变化速率也可从此方程中看出。构成其初始等位基因频率的岛屿种群比例以<math display="inline">{(1-m)}^{t}</math>递减,由于基因流的存在,随着时间的推移逐渐趋近于零。因此,岛屿与大陆之间的等位基因差异随时间推移逐渐减小至0,岛屿的等位基因频率趋近于大陆的等位基因频率。图4.6展示了在不同初始岛屿等位基因频率下,岛屿等位基因频率随时间趋近大陆等位基因频率的过程。注意其平滑趋近大陆等位基因频率的特征:这反映了结果完全由恒定的基因流速率决定,而缺乏引入随机变异(如遗传漂变)的随机过程。在实际种群中,基因流速率本身可能随时间随机波动。
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/7442d6ea9e209a982a7e374b43795c2e841e80320a6ed9650512d03a07b17044.jpg
图4.6 大陆-岛屿基因流模型下双等位基因位点在岛屿种群中的等位基因频率。展示了六个不同初始值(实线)对应的岛屿种群等位基因频率<math display="inline">({p}^{island})</math>随时间变化。大陆种群等位基因频率为<math display="inline">p^{continent}=0.5</math>(虚线)。左图<math display="inline">m=0.1</math>,右图<math display="inline">m=0.05</math>。当基因流速率较低时,达到平衡更慢。相比之下,对于给定基因流速率,岛屿与大陆间等位基因频率差异不影响达到平衡的时间。注意两图时间尺度不同。
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/868f684aaa6becde7cb9551efc73d80a0eb5f1f70079f6ea84a03c13695ddb14.jpg
图4.7 双岛屿基因流模型中双等位基因位点的等位基因频率。初始等位基因频率为0.9和0.2,基因流速率相等<math display="inline">(m=0.1)</math>时,亚种群趋近于平衡等位基因频率<math display="inline">\bar{p}=0.5</math>(虚线)。当两个亚种群初始等位基因频率相同但基因流速率不对称时(<math display="inline">m_{1}=0.1</math>和<math display="inline">m_{2}=0.05</math>),亚种群趋近于平衡等位基因频率<math display="inline">\overline{p}=0.433</math>(虚线)。基因流速率不对称时,由于一个种群的基因流速率较低,达到平衡更慢。注意两图时间尺度不同。
这些对大陆-岛屿模型的预测与直觉一致。由于大陆种群随时间保持恒定的等位基因频率,当两者混合时,岛屿种群最终应达到相同的等位基因频率。两个种群趋同于相同等位基因频率所需的时间取决于每代从大陆迁移到岛屿的个体比例。相反,岛屿与大陆之间等位基因频率的差异不会改变给定迁移率下的平衡时间(见图4.7)。这是因为岛屿等位基因频率的变化速率由等位基因频率的差异决定。差异越大,朝向大陆等位基因频率的变化速率越快。因此,大陆-岛屿模型表明,仅基因流过程就足以使种群达到相同的等位基因频率。种群间或种群内等位基因频率的完全一致实际上意味着缺乏种群结构或达到panmixia。因此,大陆-岛屿模型可以视为证明:在没有其他过程作用时,基因流最终将导致panmixia。
双岛屿模型
对大陆-岛屿模型的一个简单扩展是将两个亚种群视为大小相等,从而消除一个种群(大陆)作为不变迁移源的假设。该模型表示两个岛屿间的基因流,每个岛屿的等位基因频率均可随时间变化。转变为
互动框4.1 大陆-岛屿基因流模型
使用R脚本探索大陆-岛屿基因流模型。脚本包含岛屿和大陆的等位基因频率、岛屿等位基因被大陆等位基因替换的速率(或迁移率),以及模拟的世代数。初始设定大陆等位基因频率为0.9,岛屿为0.1,基因流速率0.1,模拟100代。保持初始等位基因频率不变,尝试一系列迁移率值(如<math display="inline">m=0.1</math>、0.05、0.001和0.001),观察其对平衡时间的影响;必要时增加世代数。
基因流速与平衡时间的关系如何?
双岛屿模型也允许每个亚种群有独立的基因流速率<math display="inline">m_{1}</math>和<math display="inline">m_{2}</math>。通过类似大陆-岛屿模型的推理,一个亚种群在未来一代的等位基因频率是不迁移个体比例<math display="inline">(1-m)</math>的等位基因频率与移民等位基因频率的加权和。假设<math display="inline">m_{1}=m_{2}=m</math>,则任一亚种群的等位基因频率为
<math display="block"> p_{t=1}=p_{t=0}(1-m)+\overline模板:Pm </math>
其中<math display="inline">\overline模板:P=\frac{p_{1}+p_{2}}{2}</math>。移民的等位基因频率现在是两个亚种群的平均值,而非如大陆模型中的恒定值。这是因为两个亚种群均接收移民,因此基因流混合亚种群时,每个亚种群的等位基因频率逐渐趋近于总种群的等位基因频率。与大陆-岛屿模型的结果类似,两个岛屿中任一岛屿的等位基因频率为
<math display="block"> p_{t}=\overline模板:P+\big(p_{t=0}-\overline模板:P\big)\big(1-m\big)^{t} </math>
经过<math display="inline">t</math>代后,等位基因频率的变化如图4.7所示的双岛模型随时间变化趋势。
当基因流速率不相等时,平均等位基因频率为<math display="inline">\overline模板:P = \frac{m_{2}}{m_{1}+m_{2}}p_{1} + \frac{m_{1}}{m_{1}+m_{2}}p_{2}</math>,即两个亚种群等位基因频率的基因流加权平均值。当<math display="inline">m_{1}\neq m_{2}</math>时,平衡状态下的等位基因频率会更接近迁移率较低亚种群的初始等位基因频率。这是因为迁移率较低的亚种群接收的迁入个体较少,更接近其初始等位基因频率,同时仍会向另一个亚种群输出迁出个体。如图4.14所示,当迁移率不对称时,达到平衡所需的时间也更长。考虑迁移率不等(<math display="inline">m_{1}=0.01</math>和<math display="inline">m_{2}=0.1</math>)且两个亚种群初始等位基因频率分别为<math display="inline">p_{1}=0.9</math>和<math display="inline">p_{2}=0.1</math>的案例,此时加权平均等位基因频率为<math display="inline">\overline模板:P=\frac{(0.9)(0.1)}{0.11}+\frac{(0.1)(0.01)}{0.11}=0.827</math>,这也是平衡时两个亚种群共同的预期等位基因频率。
双岛模型的主要结论是:当两个亚种群间迁移率相等时,其平衡等位基因频率等于总种群的平均等位基因频率。该结论在亚种群数量更多时依然成立,这一结果对于理解岛屿模型中基因流与遗传漂变等其他过程共同作用时具有重要意义。
无论是大陆-岛屿模型还是双岛模型,都未考虑距离隔离效应。通过将基因流速率表达为距离的函数,可以建立亚种群间距离与基因流速率的定量关系。个体出生地与繁殖地之间的直线(欧几里得)空间距离概率分布称为扩散核(Nathan等学者2012年综述)。扩散核函数可呈现多种形式,图4.8展示了若干示例。某些扩散核(如gamma分布)因短距离密度依赖性而表现出中程基因流概率最高(图4.6B)。其他扩散核因基因流概率随距离下降速率较慢,被描述为“厚尾”或尖峰态【“leptokurtic”译为“尖峰态”】。自然种群中扩散核的经验估计显示……
交互框4.2 基因流的双岛模型
通过R脚本探索基因流的双岛模型。脚本包含各岛屿初始等位基因频率、基因流速率和模拟世代数的变量。初始参数建议设置为:大陆等位基因频率0.9,岛屿等位基因频率0.1,基因流速率为0.1,模拟100代。
保持初始等位基因频率不变,尝试不同迁移率参数(如<math display="inline">m=0.1</math>、0.05、0.001和0.001)并观察其对平衡时间的影响,必要时增加模拟世代数。
基因流速率与达到平衡的时间之间存在何种关系?
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/74979ce11e287ad880ab7bd6fa61d0b9525cc758bd06b32bdcf6c8d57e751cc3.jpg
图 4.8 展示扩散事件在空间距离上概率分布的扩散核概率分布。与A和D相比,B和C中的分布具有肥尾特征,而D的分布尾部最薄。图A显示均值为零、方差为1的半正态分布。图B是尺度参数为2、形状参数为1的伽马分布。图C是尺度参数为2、形状参数为1的威布尔分布。图D是参数为<math display="inline">a=0.55</math>和<math display="inline">b=1.8</math>的2Dt分布。
对自然种群的研究表明,扩散过程通常最适合用某种类型的尖峰分布(leptokurtic distribution)描述。尽管基因流距离分布的具体形态会影响遗传分化的程度和空间尺度,但血缘同一性随距离递减的整体趋势并不强烈依赖于这种分布的精确形状(Rousset 2008a; Furnstenau and Cartwight 2016)。
4.3 基因流的直接测量方法
基于遗传标记的亲本分析。
本节将介绍如何利用分子遗传标记识别子代样本中未知的父本或母本,从而解析亲本间的交配模式。亲本分析被认为是基因流的直接测量方法,因为它们能揭示候选亲本采样尺度内的配子移动模式。这类分析也常被用于检验影响个体间交配模式的因素假说。例如,动物亲本研究可检验交配成功率与表型或行为特征的相关性。亲本分析通常应用于已知一方亲本而另一方未知的情况,此时未知亲本可能是候选亲本群体中的任意个体。试图从候选亲本群体中识别未知父本或母本的遗传分析分别称为父权分析(paternity analysis)或母权分析(maternity analysis)(参见Meagher 1986; Devlin and Ellstrand 1990; Dow and Ashley 1996; Jones et al. 2010综述)。虽然本文不展开讨论,但也可通过推断候选亲本群体中双亲未知的情况来估计贡献于子代群体的最少亲本数量。本节将通过父权分析案例,概述理解亲本分析方法与结果所需的基本概念,重点区分真实亲本鉴定与因随机匹配而被误判为亲本的候选个体间的差异。
图4.9 发现于巴西亚马逊北部森林碎片生物动态研究项目(Biological Dynamics of Forest Fragments Project)野外站点的Corythophora alta个体。地图显示了位于Cabo Frio的9公顷森林样地内构成候选亲本种群的所有个体树木的相对位置。由于这些树木是能够自交的两性体,所有个体均可同时作为母本和候选父本。
为了理解亲本分析的实施步骤,让我们通过一个基于热带树种Corythophora alta(巴西坚果科成员,见图4.9)基因型数据的案例进行说明。所有胸高直径≥10 cm的C. alta个体均从大片连续森林内的9公顷区域中取样。这些胸高直径≥10 cm的树木即为候选亲本。同时从部分树木上采集了种子样本。对树木和种子的10个核微卫星位点(关于此类遗传标记的简介见专栏2.1)进行了基因型分型。表4.1展示了部分数据。本案例中亲本分析的目标是通过已知母本确定种子的父本,以评估样地内花粉传播与样地外花粉传播所产生种子的比例。
亲本分析的第一步是检测子代个体与已知亲本的等位基因匹配情况。表4.2中将C. alta种子的基因型与其已知亲本归类展示。例如表4.2中,来自989号树的种子1-1基因型列于首行,已知母本(989号树)的基因型列于次行。在每个位点上,子代基因型中均能观察到已知亲本基因型的一个(或有时两个)等位基因。对于989号树的种子1-1,已知亲本在位点A贡献了336等位基因,位点B的106等位基因,位点C的165等位基因,位点D的275等位基因,以及位点E的153等位基因。由于这些等位基因来自已知亲本,真实父本必须在位点A至E分别贡献327、91、185、287和153等位基因。这种在二倍体位点上由单个等位基因构成的集合称为父本单倍型。此时可扫描候选亲本的基因型,寻找是否有个体携带包含所有这些等位基因的单倍型(通常借助计算机程序完成)。所有具有匹配单倍型的候选亲本均可能成为989号树种子1-1的父本。本例中,1946号树是唯一符合要求的个体,因此1946号树可能是其父本,而其他候选亲本均因父本单倍型中一个或多个位点的遗传不匹配而被排除。
排除潜在亲本的过程还需考虑基因分型中可能的方法学误差、聚合酶链式反应(PCR)中未扩增的等位基因(称为无效等位基因),或由突变引起的亲本与子代间等位基因状态变化(Sancristobal与
表 4.1 热带树种Corythophora alta的30个成熟个体在9公顷连续森林样地(位于巴西亚马逊)中采集的微卫星基因型数据,等位基因状态以碱基对表示。种子后代采自已知母树。缺失数据以”—“表示。
| Microsatellite locus | |------------------------------------------------------------------------------------------------------------------------------------------------------------------------| | A | B | C | D | E | |---------------|--------|--------|--------|--------| | Candidate parents 684 | 333 | 339 | 97 | 106 | 169 | 177 | 275 | 305 | 135 | 135 | | 989 | 330 | 336 | 97 | 106 | 165 | 181 | 275 | 275 | 135 | 153 | | 1072 | 315 | 333 | 103 | 106 | 169 | 179 | 296 | 302 | 138 | 138 | | 1588 | 318 | 327 | 106 | 106 | 165 | 167 | 272 | 293 | 135 | 150 | | 1667 | 324 | 333 | | | 165 | 185 | 275 | 284 | 141 | 159 | | 1704 | 318 | 327 | 103 | 106 | | | 284 | 296 | 144 | 147 | | 1836 | 333 | 339 | 97 | 97 | 181 | 183 | 275 | 296 | 138 | 144 | | 1946 | 327 | 333 | 91 | 106 | 167 | 185 | 284 | 287 | 147 | 153 | | 2001 | 321 | 336 | | | 177 | 181 | 284 | 302 | 138 | 144 | | 2121 | 318 | 333 | 100 | 106 | 179 | 181 | 284 | 302 | 144 | 144 | | 2395 | 327 | 333 | 103 | 103 | 179 | 187 | 275 | 296 | 150 | 159 | | 3001 | 324 | 333 | 91 | 106 | 167 | 183 | 284 | 302 | 147 | 159 | | 3226 | 327 | 327 | 103 | 106 | 163 | 181 | 275 | 275 | 135 | 144 | | 3237 | 324 | 324 | 91 | 103 | 179 | 187 | 284 | 305 | 144 | 159 | | 3547 | 321 | 321 | 103 | 106 | 177 | 179 | 275 | 296 | | | | 4112 | 327 | 327 | 97 | 106 | 169 | 181 | 296 | 302 | 144 | 144 | | 4783 | 321 | 327 | | | 183 | 185 | 290 | 308 | 144 | 156 | | 4813 | 327 | 333 | 106 | 106 | 177 | 179 | 284 | 302 | 135 | 138 | | 4865 | 321 | 327 | 106 | 106 | 167 | 179 | 284 | 296 | 144 | 153 | | 4896 | 315 | 333 | 100 | 106 | 181 | 189 | 275 | 284 | 162 | 162 | | 5024 | 318 | 327 | 100 | 103 | 165 | 167 | 275 | 284 | 147 | 147 | | Seed progeny | |----------------------------------| | 989 seed 1-1 | 327 | 336 | 91 | 106 | 165 | 185 181 | 275 275 | 287 | 153 | 153 135 | | 989 seed 2-1 | 327 | 330 336 | 103 97 | 106 106 | 165 165 | 181 | | 275 | 135 135 | 153 | | 989 seed 3-1 | 330 | | | | 167 | 181 | 275 | 296 | | 153 | | 989 seed 25-1 | 321 | 330 | 106 | 106 | | | | | 135 | |
表 4.2 已知母本基因型及所有可能候选亲本中最可能父本基因型对应的种子后代基因型。种子后代中与已知母本匹配的等位基因用下划线标注。由于该物种可自花授粉,已知母本也可作为候选父本。缺失数据用”—“表示
A | B | C | D | E | |
---|---|---|---|---|---|
989seed1-1 | 327 | 336 | 91 | 106 | 165 |
989 | 330 | 336 | 97 | 106 | 165 |
1946 | 327 | 333 | 91 | 106 | 167 |
989seed2-1 | 327 | 330 | 103 | 106 | 165 |
989 | 330 | 336 | 97 | 106 | 165 |
3226 | 327 | 327 | 103 | 106 | 163 |
989seed3-1 | 330 | 336 | 97 | 106 | 165 |
989 | 330 | 336 | 97 | 106 | 165 |
989 | 330 | 336 | 97 | 106 | 165 |
989seed25-1 | 321 | 330 | 106 | 106 | 167 |
989 | 330 | 336 | 97 | 106 | 165 |
4865 | 321 | 327 | 106 | 106 | 167 |
Chevalet 1997)。候选亲本包括与推断的亲本单倍型完全匹配的个体,以及在某个(或多个)位点存在遗传不匹配的个体。例如表4.2中989号树的seed 2-1,我们可以看到候选亲本1588在B、C和E位点匹配,D位点数据缺失,A位点存在不匹配。若允许单个遗传不匹配,则1588号树仍可作为潜在父本。这种容错亲本分析需要基因分型错误率的经验估计【“genotyping error rates”译为”基因分型错误率”】(Adams et al. 2004;Bonin et al. 2004;Hoffman and Amos 2004)。
除单一候选亲本外排除所有其他候选时,似乎已完成对真实亲本的确定性鉴定。然而,任何未被排除的候选亲本仍有可能并非真实亲本。存在这样一种可能性:某个个体仅凭巧合便拥有与真实亲本相同单倍型的基因型。评估未被排除的候选亲本(有时称为被包含亲本或纳入亲本)并非真实亲本的概率,需确定此类随机匹配的概率。
设匹配单倍型中等位基因的频率为<math display="inline">p_{\mathrm{i}}</math>(其中i表示位点)。在每个位点上,随机匹配的概率即个体在该等位基因上为纯合子(<math display="inline">{p_{\mathrm{i}}}^{2}</math>)或杂合子(<math display="inline">2p_{\mathrm{i}}[1-p_{\mathrm{i}}]</math>)的概率。(在容错分配的情况下,<math display="inline">p_{\mathrm{i}}</math>表示第i位点等位基因分型错误的概率。)因此,单个位点的随机匹配总概率为:
<math display="block"> P({\mathrm{random~match}})=p_{i}^{2}+2p_{i}(1-p_{i}) </math>
该公式基于随机交配与泛交配【panmixia】假设。若亲本分析中使用的所有位点均独立,则给定单倍型所有位点的随机匹配概率为各独立位点随机匹配频率的连乘积,即:
<math display="block"> P({\mathrm{multilocus~random~match}})=\prod_{i=1}^{l o c i}\left(p_{i}^{2}+2p_{i}(1-p_{i})\right) </math>
其中<math display="inline">\Pi</math>表示对所有位点进行连乘。
回到我们的C. alta案例,我们可以计算每个父系单倍型的随机匹配概率。表4.4列出了单倍型、等位基因频率(见表4.3)、各基因座的随机匹配概率,以及所有五个基因座完全随机匹配的概率。首先关注树1946的单倍型。已知位点A的327等位基因在候选亲本群体中观测频率为0.2703(这是对整个群体等位基因频率的估计),则任何基因型拥有一个该等位基因拷贝的概率为<math display="inline">(0.2703)^{2}+2(0.2703)(1-0.2703)=0.4675</math>。因此我们预计群体中46.75%的个体基因型会携带1或2个327等位基因拷贝。该概率等同于从群体中随机抽取个体(未必包含在候选亲本样本中)能提供正确单倍型作为表4.2种子989 1-1潜在父源的概率。
其他四个位点的随机匹配概率以相同方式计算。我们发现:对于单个位点,能补充已知亲本单倍型并解释种子基因型的基因型预期出现概率在约2%到47%之间。当这些概率在五个位点上累乘时,随机匹配的预期频率将变得极低。如表4.4所示,在随机交配假设下,五个位点完全随机匹配的预期频率介于44/1000到66/1,000,000个基因型之间。这验证了通用原则:通过随机匹配区分真实亲本与表观亲本的能力,既取决于各基因座的等位基因频率,也与可用基因座总数相关。当等位基因频率降低且独立基因座数量增加时,随机匹配概率将减小。
表4.3 用于父权分析的五个Corythophora alta微卫星位点的等位基因频率。
表 4.4 表4.2中包含的父本发生随机匹配的概率。每个位点的随机匹配概率为。单倍型中所有位点的联合随机匹配概率是各独立位点随机匹配概率的乘积。当子代基因型数据缺失时,父本单倍型数据在概率计算中视为缺失$(^{\prime\prime}{-^{\prime\prime}})$。若父本单倍型在某些位点存在多个可能等位基因,则给出最高概率的随机匹配值。各位点的等位基因频率见表4.3。 | 微卫星位点 | | | | | | | | | | |------------|----|----|----|----|----|----|----|----|----| | **A** | | **B** | | **C** | | **D** | | **E** | | | 等位基因 | 频率 | 等位基因 | 频率 | 等位基因 | 频率 | 等位基因 | 频率 | 等位基因 | 频率 | | 315 | 0.0405 | 91 | 0.0735 | 163 | 0.0217 | 272 | 0.0238 | 135 | 0.2917 | | 318 | 0.0541 | 97 | 0.3088 | 165 | 0.2283 | 275 | 0.4167 | 138 | 0.0625 | | 321 | 0.1216 | 100 | 0.0735 | 167 | 0.0761 | 281 | 0.0357 | 141 | 0.0313 | | 324 | 0.0541 | 103 | 0.1471 | 169 | 0.0435 | 284 | 0.1429 | 144 | 0.2188 | | 327 | 0.2703 | 106 | 0.3971 | 171 | 0.0217 | 287 | 0.0119 | 147 | 0.0625 | | 330 | 0.1892 | | | 177 | 0.0543 | 290 | 0.0119 | 150 | 0.0938 | | 333 | 0.1216 | | | 179 | 0.1304 | 293 | 0.0238 | 153 | 0.1250 | | 336 | 0.1216 | | | 181 | 0.2065 | 296 | 0.1905 | 156 | 0.0208 | | 339 | 0.0270 | | | 183 | 0.0652 | 299 | 0.0119 | 159 | 0.0521 | | | | | | 185 | 0.0435 | 302 | 0.0833 | 162 | 0.0417 | | | | | | 187 | 0.0326 | 305 | 0.0357 | | | | | | | | 189 | 0.0109 | 308 | 0.0119 | | | | | | | | 193 | 0.0109 | | | | | | | | | | 197 | 0.0543 | | | | |
| Includedfather | Microsatellite haplotype | | | | C | | | E | P(multilocus random match) | |----------------|---------------------------|---|---|---|-----|---|---|---|----------------------------| | | A | | | | | | | E | | | 1946 (seed 1-1) | 327 | | | | 185 | 287 | 135 | | | | allele frequencies | 0.2703 | | 0.0735 | | 0.0435 | 0.0119 | 0.2917 | | | | P(random match) | 0.4675 | | 0.1416 | | 0.0851 | | 0.0237 0.4983 | | 0.0000665 | | 3226 (seed 2-1) | 327 | | 103 | 106 | 181 | 275 | 135 | | | | allele frequencies | 0.2703 | | 0.0735 | 0.3971 | 0.2065 | | 0.4167 0.2917 | | | | P(random match) | 0.4675 | | 0.1416 | 0.6365 | 0.3704 | 0.6598 | 0.4983 | | ≤0.03624 | | 989 (seed 3-1) | 330 | 336 | 97 | 106 | 165 | | 135 | 153 | | | allele frequencies | 0.1892 | 0.1216 | 0.3088 | 0.3971 | 0.2283 | 0.2065 1.0 | 0.2917 | 0.1250 | | | P(random match) | 0.3426 | 0.2284 | 0.5222 | 0.6365 | 0.4045 | 0.3704 1.0 | 0.4983 | 0.2344 | ≤0.0440 | **Candidate parent**: An individual in the pool of possible parents that shares one or both alleles found in an offspring genotype at all loci. **Cryptic gene flow**: Gene flow events incorrectly assigned to candidate parents but actually due to unobserved parents outside the area where candidate parents were sampled, leading to an underestimate of gene flow distances. **Exclusion**: Rejection of an individual as a possible parent due to genetic mismatch (neither allele in the individual’s genotype is identical to one of the alleles in the progeny genotype). **Exclusion probability**: The chance that an individual can be rejected as a candidate parent due to genetic mismatch; depends on allele frequencies and increases with the number of loci and the numbers of alleles per locus employed in a parentage analysis. We can express the probability that an individual taken at random from a population would be ruled out as a parent due to genetic mismatch. Equation 4.2 gives the probability of a random match at a single locus, or the probability that a genotype has a matching allele by chance alone. If a genotype does not match by chance, then it is excluded from possibly being the parent. This means that the exclusion probability for a single individual sampled at random from a population is just 1 minus the probability of a random match: $$ P(\mathrm{exclusion})=1-P(\mathrm{randommatch}) $$
如果从种群中采集了多个候选亲本,每个个体的排除概率是独立的(每个个体的基因型代表了种群中现存等位基因的随机采样)。因此,排除所有候选亲本的总概率是每个个体排除概率的乘积。对于从种群中采样的<math display="inline">n</math>个个体,总排除概率为
<math display="block"> P({\mathrm{exclusion~for}}n{\mathrm{individuals}})=(1-P({\mathrm{random~match}}))^{n} </math>
这意味着随着从种群中采集更多个体,排除概率会降低。这等同于说:随着更多候选亲本被采样,仅通过随机性匹配到亲本单倍型的概率会增加。
基于<math display="inline">n</math>个候选亲本种群中的排除概率,我们可以估算随机匹配实际发生的概率。由于排除概率是非随机不匹配的概率,在<math display="inline">n</math>个个体的种群中候选亲本与子代单倍型匹配的概率即为1减去<math display="inline">n</math>个个体的排除概率,即
<math display="block"> \begin{array}{r l}&{P(\mathrm{randommatchin}n\mathrm{individuals})}\ &{=1-P(\mathrm{exclusionfor}n\mathrm{individuals})}\ &{=1-(1-P(\mathrm{randommatch}))^{n}}\end{array} </math>
这是在<math display="inline">n</math>个候选亲本样本中随机出现与真实亲本匹配的单倍型的概率。
<math display="inline">n</math>个候选亲本样本中的随机匹配概率(式4.6)可理解为错误指派候选亲本为真实亲本的概率,因为其基因型通过随机性提供了匹配的单倍型,而真实亲本因未被包含在候选亲本样本中未被识别。这种现象在亲本分析中称为隐性基因流(cryptic gene flow),因为尽管错误推断了后代的亲本,真实的基因流动事件未被识别。若真实亲本因位于采样区域外而未被包含在候选亲本样本中,错误的亲本推断将导致基因流动距离的低估。式4.6表明:在给定预期基因型频率下,随着候选亲本数量的增加,因随机匹配导致错误亲本指派的概率会上升。
回到表4.2中的C. alta案例,我们可以确定以下概率:(1) 一个候选亲本被错误推断为父本,而真实父本未被检测到;(2) 在研究中30个候选亲本的父权排除概率。对于种子3-1,母本和父本相同(表4.4),表明这是一个自交事件。根据预期的父本单倍型频率,父权排除的概率为<math display="inline">(1 - (0.044)^{30} = 0.259)</math>,因此随机匹配的概率为0.741。由于这个四基因座推断的父本单倍型在30个候选亲本样本中预计会高频出现(74%的概率),即使种子实际由未包含在候选亲本样本中的个体授粉,它仍有可能被误判为自交。
对于种子989 1-1(候选亲本中仅包含1946号树),父权排除概率为<math display="inline">(1 - 0.0000665)^{30} = 0.9980</math>,因此随机匹配的概率为0.0020。根据等位基因频率估计,种子989 1-1的五基因座推断父本单倍型在30个候选亲本样本中预计仅以千分之二的概率随机出现。
问题框4.1 计算随机单倍型匹配概率和排除概率
来自母本树989的种子25-1与候选父本树4865显示完全单倍型匹配(见表4.2)。使用表4.3提供的等位基因频率,计算父本单倍型的随机匹配概率。然后,利用该随机匹配概率计算30个候选亲本样本的排除概率。哪些基因座对这两个种子后代的父权鉴定最有效和最低效?为什么?
交互框4.3 基因座的平均排除概率
亲本分析中每个子代-已知亲本对通常有以下四种结果:
- 确定单一候选亲本为父本:此类单一亲本归属需结合排除概率或亲本似然度进行解释。
- 单个子代对应多个候选亲本:此时常用标准是选择随机匹配概率最低的候选亲本作为父本。其他标准可能包括与已知亲本的空间隔离程度、生殖重叠度或生殖优势(若有相关数据)。
- 候选亲本中无个体能与已知亲本基因型组合产生子代基因型:表明真实亲本可能未包含在候选亲本样本中。此结果常被用于推断该子代来自样本区外的长距离基因流(即”非样地基因流”)。但也可能是真实亲本存在于候选亲本群体中,但在一个或多个基因座上存在遗传不匹配。
- 数据不足以明确归属或排除任何候选亲本:此时需通过增加基因座数或提高等位基因多态性来提升分辨率。
在规划亲权分析研究时,有必要确定一组遗传标记是否具有足够小的排除概率(这被称为遗传标记的效力)。如式4.4所示,排除概率将取决于单个亲本单倍型的期望基因型频率。这种期望基因型频率反过来又是每个位点的等位基因数量和等位基因频率的函数。由于具有三个或更多等位基因的位点存在许多可能的基因型,通常使用平均排除概率来评估一组遗传标记证明非父权的效力(参见Chakraborty et al. 1988;Weir 1996)。
您可以使用预先设置的Excel电子表格来计算一个具有6个等位基因的位点和一个具有12个等位基因的位点的平均排除概率(电子表格中缩写为<math display="inline">\mathsf{P_{E}}</math>)。该电子表格利用可修改的等位基因频率来计算:(i)每个母本-子代基因型组合的期望频率,以及(ii)每个母本-子代基因型组合对应的父本单倍型排除概率。平均排除概率是通过加权平均得到的,其中每个排除概率的权重是相应母本-子代基因型组合的期望频率。该电子表格遵循Chakraborty et al.(1988)表1中给出的三等位基因位点推导方法。当位点上所有等位基因具有相同频率时(例如6个等位基因时每个频率为1/6),平均排除概率达到最大值。每个电子表格中最大平均排除概率通过下式计算:
<math display="block"> {\mathsf{Max.prob.exclusion}}={\frac{(k-1){\Big(}k^{3}-k^{2}-2k+3{\Big)}}{k^{4}}} </math>
其中<math display="inline">k</math>表示位点的等位基因数量(Selvin 1980)。
比较以下两种情况的平均排除概率:等位基因频率高度相似的情况,以及一个或少数等位基因频率极高而其余等位基因极为罕见的情况。等位基因频率的均匀性如何影响平均排除概率?如何将多个位点的平均排除概率进行组合?当每个位点的等位基因频率完全相等时,两个具有12个等位基因的位点或两个具有6个等位基因的位点的平均排除概率分别是多少?当存在50个候选亲本时,需要多少个具有12个等频率等位基因的独立位点才能达到90%的排除概率?
由于基因分型错误或突变。另一种可能是实际亲本在交配时位于候选亲本的采样区域内,但该个体在候选亲本采样前已死亡或迁出。
4 亲权被分配给某候选亲本,但真实亲本未被包含在可能亲本的样本中。在进行父权分配时,当父亲实际来自群体外部或发生”cryptic gene flow”事件时,在已采样的个体群体中错误分配父权的概率将与给定多位点基因型的期望频率相关。
亲本分析通过推断候选亲本群体中导致每个被采样后代或幼体的众多交配事件来测量基因流。这提供了诸如亲本间平均距离、双亲均位于采样区域内的交配次数与至少一个亲本位于该区域外的交配次数之比等参数的估计值。这意味着由此得出的基因流估计不依赖于任何种群结构或基因流模型,仅依赖于构建亲本分配时所用的假设前提。因此,这类基因流估计被视为”直接”测量方法。亲本分析的显著优势在于能够揭示交配模式细节,因为导致特定后代的亲本配对通常能以中等到高置信度被识别。
亲本分析已成为研究野生种群交配与亲缘关系模式的关键工具。典型案例是对鸟类巢雏的亲本分析研究,这些研究推翻了长期以来认为鸟类通常为一夫一妻制繁殖者的观点。实际上,鸟类具有多样且复杂的交配模式:雌雄个体在巢对之外的交配可能十分普遍,巢中的幼体可能与一只或两只”亲本”监护者均无亲缘关系(Westneat and Stewart 2003)。亲本分析还被广泛应用于各类动植物物种,用于详细描述交配与基因流模式。
尽管”直接”一词带有精确性和直观性的含义,但必须认识到亲本分析在推断基因流模式时确实存在局限性。主要限制源于大多数亲本研究最多仅覆盖几个世代的时间尺度。在所有种群数量稳定的生物中,平均每个亲本仅会产生一个能成功存活并繁殖的后代,其余后代或死亡或不育。这意味着亲本研究包含的许多(甚至可能是大多数)后代最终无法参与繁殖。这个问题在长寿生物中尤为突出——亲本研究仅考察了远短于个体平均寿命的时间段内产生的极少数后代。基因流可视为导致个体存活并为下一代贡献后代的交配事件的长期平均值。亲本分析估计长期基因流模式的有效性,取决于研究采样时长相对于世代时间的比例,以及短期亲本模式相对于其长期平均值的变异程度。
4.4 用固定指数总结种群分化模式
通过<math display="inline">F_{IS}</math>、<math display="inline">F_{ST}</math>和<math display="inline">F_{IT}</math>扩展固定指数来量化种群结构模式
本章的第一节回顾了导致种群间等位基因频率差异形成的各种过程。鉴于这些过程可能正在发生,有必要开发方法来测量和量化种群结构。当候选亲本样本和后代样本均具有基因型数据时,可进行如最后一节所述的亲权分析。另一种情况是对一系列地理区域内外的个体采样进行基因型数据测定。这种采样方式在实证研究中非常常见,需要开发方法来量化亚种群间存在的种群结构模式以及亚种群内的基因型频率分布。
若能将这些测量指标与无种群结构等参考情境的预期值进行直接比较,将具有重要优势。这类似于我们在第二章使用固定指数(<math display="inline">F</math>)比较观察杂合度与预期杂合度时采用的方法。现在我们可以将固定指数扩展到包含多个亚种群的情况。在这种更复杂的情形中,杂合体的哈迪-温伯格预期频率可能在两个层面出现偏差:由于非随机交配导致的亚种群内偏差,以及由于种群结构导致的亚种群间偏差。本节将推导并解释基于固定指数的指标,这些指标常用于通过偏离预期杂合度的程度来量化种群结构。
让我们详细考察一个案例:在多个亚种群中采集个体样本,测定双等位基因位点的基因型。回顾可知,种群中的杂合度等于1减去纯合度(<math display="inline">H=1-F</math>),因此杂合度可与固定指数相关联。利用此类基因型数据,可通过多种方式计算杂合体基因型的观察频率和预期频率(表4.5)。第一种方法是简单取平均值:
<math display="block"> H_{I}=\frac{1}{n}\sum_{i=1}^{n}\hat{H}_{i} </math>
其中<math display="inline">\hat{H}</math>为每个<math display="inline">n</math>个亚种群中观察到的杂合体频率。我们可以将其记为<math display="inline">\overline{H}</math>,因为它是所有亚种群观察杂合体频率的平均值。这表示给定个体为杂合体的概率,或平均观察杂合度。如第二章所示,相对于哈迪-温伯格预期值,种群内杂合度可能因非随机交配而升高或降低。
表4.5 三个种群组织层次上杂合度的数学与生物学定义。求和式中,i表示各亚种群<math display="inline">1,2,3\dots n</math>,<math display="inline">p_{\mathrm{i}}</math>和<math display="inline">q_{\mathrm{i}}</math>为亚种群i中双等位基因位点上两个等位基因的频率。
符号 | 生物学定义 |
---|---|
<math display="inline">H_I=H</math> | 各亚种群内观察杂合度的平均值 |
<math display="inline">2p_iq_i</math> | 各亚种群在随机交配假设下的预期杂合度(即<math display="inline">2pq</math>) |
<math display="inline">H_T=2pq</math> | 使用总种群等位基因频率(<math display="inline">p</math>和<math display="inline">q</math>)计算的全种群预期杂合度(假设随机交配) |
接下来,我们可以计算亚种群处于哈迪-温伯格平衡时的预期杂合度。这一假设意味着对于双等位基因位点,杂合基因型的预期频率为2pq。各亚种群的平均预期杂合度可表示为:
<math display="block"> H_{S}=\frac{1}{n}\sum_{i=1}^{n}2p_{i}q_{i} </math>
其中<math display="inline">p_{i}</math>和<math display="inline">q_{i}</math>为第i个亚种群的等位基因频率,<math display="inline">n</math>为亚种群数量。我们也可以使用<math display="inline">\overline模板:2p q</math>符号表示,因为该值是通过先计算每个亚种群的预期杂合度再进行平均获得的。此处使用观测到的等位基因频率来估算各亚种群的哈迪-温伯格预期杂合度。
在分层种群结构的最顶层,我们可以计算总群体的预期杂合度:
<math display="block"> H_{T}=2\bar{p}\bar{q} </math>
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/61ef9840d476acb0c9c23f69f56eff6fdc619ee862d8d61756534784b6509767.jpg
图4.10 分层群体中杂合度的层级结构示意图。<math display="inline">\begin{array}{r}{H_{1}=\frac{3}{10}}\end{array}</math>与<math display="inline">\begin{array}{r}{H_{2}=\frac{3}{10}}\end{array}</math>给出平均观测杂合度<math display="inline">\begin{array}{r}{H_{I}=\frac{1}{2}\left(\frac{3}{10}+\frac{3}{10}\right)=0.30}\end{array}</math>。若以<math display="inline">p</math>表示开放圆圈的等位基因频率,<math display="inline">q</math>表示实心圆圈的等位基因频率,则<math display="inline">p_{1}=13/20=0.65</math>,<math display="inline">q_{1}=1{-}p_{1}=0.35</math>;<math display="inline">p_{2}=7/20=0.35</math>,<math display="inline">q_{2}=1.p_{2}=0.65</math>。两个亚种群的平均预期杂合度为<math display="inline">H_{S}={}^{1}/2[2(0.65)(0.35)+2(0.35)(0.65)]=0.455</math>。总群体中等位基因平均频率为<math display="inline">\bar{p}=\%(0.65+0.35)=0.50</math>和<math display="inline">\overline模板:Q=\%{0.35+0.65})=0.50</math>,因此总群体的预期杂合度为<math display="inline">H_{T}=2\overline模板:P\overline模板:Q=2(0.5)(0.5)=0.5</math>。
式中<math display="inline">\bar{p}</math>和<math display="inline">\overline模板:Q</math>表示所有亚种群的等位基因平均频率。各亚种群的等位基因平均频率等同于将所有亚种群的等位基因合并为单一群体后估算的等位基因频率。换言之,这是在不考虑亚种群间分化的前提下,整个总群体的等位基因频率。因此,<math display="inline">H_{T}</math>表示当不存在群体遗传结构时,整个群体中杂合体的哈迪-温伯格预期频率。
这些观察到的和预期的杂合度水平在图4.10中以总种群由两个亚种群组成的情况为例进行了图示,每个亚种群包含10个二倍体个体。在两个亚种群中,10个个体中有3个是杂合体,给出观察到的杂合体频率为<math display="inline">\begin{array}{r}{H_{1}=\frac{3}{10}\mathbf{and}H_{2}=\frac{3}{10}.}\end{array}</math> 综合来看,这产生了平均观察杂合度为<math display="inline">\begin{array}{r}{H_{I}=\frac{1}{2}\left(\frac{3}{10}+\frac{3}{10}\right)=0.30}\end{array}</math>。
要确定亚种群的平均预期杂合度需要每个亚种群的观察等位基因频率。在第一个亚种群中,20个等位基因中有13个是红色,7个是蓝色。若<math display="inline">p</math>为红色等位基因频率,<math display="inline">q</math>为蓝色等位基因频率,则<math display="inline">p_{1}=13/20=0.65</math>且<math display="inline">q_{1}=1-p_{1}=0.35</math>。在第二个亚种群中,情况完全相反,<math display="inline">p_{2}=7/20=0.35</math>且<math display="inline">q_{2}=1-p_{2}=0.65</math>。两个亚种群的平均预期杂合度则为<math display="inline">H_{S}={\textstyle\frac{1}{2}}[2(0.65)(0.35)+2(0.35)(0.65)]=0.455</math>。
在总种群中,平均等位基因频率为<math display="inline">\textstyle{\overline模板:P}={\frac{1}{2}}(0.65+0.35)=0.50</math>和<math display="inline">\overline模板:Q=\textstyle{\frac{1}{2}}(0.35+0.65)=0.50</math>。(注意:对亚种群等位基因频率取平均等价于合并总种群中所有等位基因后估计等位基因频率,如<math display="inline">\textstyle{\overline模板:P}={\frac{13+7}{40}}=0.50</math>。)总种群的预期杂合度则为<math display="inline">H_{T}=2(0.5)(0.5)=0.5</math>。
通过计算图4.6中不同观察和预期杂合度后,显然它们并不完全等同。在种群不同层级水平上观察和预期杂合度之间存在差异。回顾第2.5节可知,观察值与Hardy–Weinberg预期基因型频率的差异被用于估计固定指数或<math display="inline">F</math>。在这种情况下,仅涉及单一种群,且我们只关注等位基因如何组合成二倍体基因型与随机交配预期的比较。固定指数可扩展以适应种群组织的多个层级,从而创建衡量由两种不同过程引起的偏离Hardy–Weinberg预期基因型频率的指标。对于多个亚种群,可能存在因亚种群内非随机交配导致的杂合体过量或不足,以及与泛交相比亚种群间杂合体可能的不足。在后一种情况下,固定指数将显示由于导致种群结构的过程,亚种群间等位基因频率相比泛交所预期的亚种群间等位基因频率均匀的理想状态发生了多大程度的分化。
表4.6 两个层次种群组织中固定指数的数学和生物学定义。
<table><tr><td>Hs-Hi Fis=— Hs</td><td>各亚种群内由于非随机交配导致的平均观测杂合度与平均Hardy-Weinberg预期杂合度之差。任意亚种群随机抽样基因型中两个等位基因状态的相关性。由等位基因频率亚种群分化导致的杂合度降低。亚种群平均预期杂合度与</td></tr></table> 考虑非随机交配和亚种群等位基因频率分化需要多个新版本的固定指数。表4.6展示了这些新固定指数的定义。让我们以图4.6为例应用并解释这些固定指数的各个版本。$F_{I S}$比较每个亚种群内个体的平均观测杂合度与所有亚种群的Hardy-Weinberg平均预期杂合度(I代表个体,$S$代表亚种群)。$F_{I S}$与2.5节中使用的单种群$F$相同,只是现在它是所有亚种群的平均值。使用上述确定的杂合度: $$ F_{I S}={\frac{0.455-0.30}{0.455}}=0.341 $$ # 问题框4.2 计算$F_{I S},F_{S T}$和${\cal F}_{I T}$ 这个结果具有生物学意义——在给定亚种群等位基因频率的情况下,每个亚种群中的杂合子数量比随机交配预期的更少。因此,两个亚种群中的纯合性或固定程度比随机交配预期更高。若存在近亲交配,亚种群平均杂合度缺失符合预期。 层级结构的下一层次是亚种群平均预期杂合度与总种群预期杂合度的比较,即$F_{S T}$($S$代表亚种群,$T$代表总种群)。根据先前确定的杂合度: $$ F_{S T}=\frac{0.50-0.455}{0.50}=0.09 $$ 该结果表明,与理想情况下(整个种群为panmictic时)的预期杂合度相比,两个亚种群的平均杂合度略低。这与两个亚种群具有轻微不同的等位基因频率、每个亚种群的预期杂合度略低于1/2的事实一致。然而,若两个亚种群间没有等位基因频率分化,总种群的杂合度应为1/2(最大值)。 层级结构的最终层次是$F_{I T}$,即亚种群平均观测杂合度与总种群预期杂合度的比较: $$ F_{I T}=\frac{0.50-0.30}{0.50}=0.40 $$ 这给出了由于亚种群内非随机交配和亚种群间等位基因频率分化的共同作用,导致的Hardy-Weinberg预期基因型频率的综合偏离。在此例中,纯合性增加40%或杂合性减少60%,相较于具有相同等位基因频率的理想随机交配panmictic种群的预期值。
Levin (1978) 使用等位酶电泳技术估测了Phlox cuspidata(一种能够自花授粉的植物)中磷酸葡萄糖变位酶-2基因(Pgm-2)的基因型频率。遗传数据采集自该物种在德克萨斯州东南部分布区内的43个种群。通过淀粉凝胶电泳技术,记录了每个种群中两个等位基因(快速迁移型和慢速迁移型)的频率以及杂合基因型的频率。部分数据如下表所示(种群编号与Levin (1978) 的表2对应)。
Subpopulation | |
---|---|
1 9 | |
—————————- | —————— |
Frequency of Pgm-2 fast | 0.0 0.93 |
Frequency of Pgm-2 slow | 1.0 0.07 |
Heterozygote frequency | 0.0 0.14 |
利用杂合子频率和等位基因频率,计算分层杂合度<math display="inline">H_{I}</math>、<math display="inline">H_{S}</math>和<math display="inline">H_{T}</math>,并用这些值计算<math display="inline">F_{I S}</math>、<math display="inline">F_{S T}</math>和<math display="inline">\bar{F}_{I T}</math>。是否有证据表明P. cuspidata个体存在自交行为?这些种群是随机交配的还是存在亚群分化?
在补偿观察杂合度与预期杂合度在不同种群组织层次上的偏差后,个体、亚群和总种群层次的杂合度将趋于一致。亚群的平均观察杂合度会高于或低于其平均预期杂合度:
<math display="block"> H_{I}=H_{S}(1-F_{I S}) </math>
这反映了非随机交配的程度(<math display="inline">F_{I S}\neq</math> 0)。类似地,亚群的平均预期杂合度会低于随机交配条件下总种群的预期杂合度:
<math display="block"> H_{S}=H_{T}\big(1-F_{S T}\big) </math>
这反映了亚群间等位基因频率的分化程度(<math display="inline">F_{S T}>0</math>)。亚群内和亚群间相对于预期杂合度的总偏离可表示为:
<math display="block"> H_{I}=H_{T}\big(1-F_{I T}\big) </math>
尽管公式4.14–4.16可视为公式4.11–4.13的重排形式,但它们还体现了另一种理解亚群间等位基因频率分化和亚群内非随机交配对生物学影响的方式。每个固定指数均反映了杂合基因型频率与随机交配预期的偏离程度。同时可以证明,杂合度的总减少量与非随机交配和亚群分化共同导致的固定效应相关:
<math display="block"> 1-F_{I T}=\big(1-F_{S T}\big)\big(1-F_{I S}\big) </math>
由于使用固定指数来衡量亚群体间等位基因频率的分化是本节的新概念,让我们再考虑一个专门聚焦于<math display="inline">F_{ST}</math>的案例。图4.11展示了一个双等位基因位点在两个由六个亚群体组成的群体中的等位基因频率分布。两组亚群体间的等位基因频率模式存在显著差异:右侧所有亚群体具有相同的等位基因频率,而左侧每个亚群体均处于一个等位的完全固定或完全丢失状态。
在这两种群体结构中,总群体的期望杂合度<math display="inline">H_T=2(0.5)(0.5)=0.5</math>。两者唯一差异在于等位基因频率的组织方式,即亚群体内期望杂合度<math display="inline">H_S</math>。右侧群体中,六个亚群体的等位基因频率均为1/2,因此<math display="inline">H_S=(6(2)(0.5)(0.5))/6=0.5</math>;左侧群体中,三个亚群体等位基因频率为零,另三个为1,计算得<math display="inline">H_S=(3(2)(1.0)(0)+3(2)(0)(1.0))/6=0.0</math>。通过这些亚群体与总群体的期望杂合度计算可得:右侧<math display="inline">F_{ST}=0.0</math>,左侧<math display="inline">F_{ST}=1.0</math>。
虽然两种情况下总群体的平均等位基因频率相同,但等位基因频率的组织方式存在本质差异。右侧各亚群体具有完全一致的等位基因频率,如同未发生群体分化;左侧则呈现强烈亚群体分化的预期模式。因此,不同的<math display="inline">F_{ST}</math>值反映了不同水平的等位基因频率分化程度。
当所有亚群体充分混合且具有相似等位基因频率时,<math display="inline">H_S</math>与<math display="inline">H_T</math>相等。生物学上,<math display="inline">F_{ST}=0</math>意味着所有亚群体的等位基因频率与总群体一致,各亚群体间杂合体数量无差异。随着群体因各种过程导致等位基因频率分化,<math display="inline">H_S</math>将降低而<math display="inline">F_{ST}</math>趋近于1。生物学上,<math display="inline">F_{ST}=1</math>表明遗传变异完全体现为亚群体间的等位基因频率差异,而亚群体内部不存在等位基因的分离状态。
图4.11 由六个亚群体组成的群体在一个双等位基因位点上的等位基因频率。亚群体内的等位基因频率通过着色表示。左侧,单个亚群体对某一等位基因呈现固定或丢失状态。右侧,所有亚群体具有相同的等位基因频率<math display="inline">p=q=0.5</math>。在两种情况下,整个群体的平均等位基因频率为<math display="inline">\overline{p}=0.5</math>,期望杂合度为<math display="inline">H_{T}=2\overline{p}\overline{q}=0.5</math>。与之相对,亚群体的平均期望杂合度在右侧为<math display="inline">H_{S}=\overline{2pq}=0.5</math>,在左侧为<math display="inline">H_{S}=\overline{2pq}=0.0</math>。右侧<math display="inline">F_{ST}=1.0</math>,因为亚群体间具有最大分化的等位基因频率。左侧<math display="inline">F_{ST}=0.0</math>,因为所有亚群体具有相同的等位基因频率。亚群体间等位基因频率的分化会导致杂合度相对于基于整个群体平均等位基因频率的Hardy–Weinberg预期出现缺失。
另一种理解等位基因频率群体分化模式的方法是通过等位基因频率的方差相对于整个群体遗传变异的量来估计<math display="inline">F_{ST}</math>。亚群体间等位基因频率分化的估计值为:
<math display="block"> F_{ST}=\frac{\mathrm{var}(p)}{\bar{p}\overline{q}} </math>
其中<math display="inline">n</math>个亚群体间的等位基因频率方差为<math display="inline">\operatorname{var}(p)={\frac{1}{n}}\sum_{i=1}^{n}\left(p_{i}-{\overline{p}}\right)^{2}</math>,且假设存在极大量亚群体(Wright 1943a)。若等位基因频率的方差越大,则亚群体间等位基因频率差异越大,由此产生的<math display="inline">F_{ST}</math>也越大。例如,在图4.7中,两组六个亚群体的平均等位基因频率<math display="inline">\bar{p}</math>均为0.5。右侧,<math display="inline">p</math>的方差为<math display="inline">\frac{3{\left(\left(0-0.5\right)^{2}\right)}+3{\left(\left(1-0.5\right)^{2}\right]}}{6}=0.25</math>;而左侧,<math display="inline">p</math>的方差为<math display="inline">6(0.5−0.5)^{2}=0.0</math>。这导致右侧(亚群体间存在最大等位基因频率方差时)<math display="inline">F_{ST}=1.0</math>,而左侧(亚群体间无等位基因频率方差时)<math display="inline">F_{ST}=0.0</math>。基于实际遗传标记数据估计<math display="inline">\hat{F}_{ST}</math>的几种广泛应用方法,其核心正是测量亚群体间等位基因频率的方差。
估计固定指数
本节始终使用双等位基因的单个位点来说明分层杂合度与固定指数。这些示例较为简单,可视为参数概念的推导。实际操作中,获取固定指数参数估计值<math display="inline">\hat{F}_{IS}</math>、<math display="inline">\hat{F}_{ST}</math>和<math display="inline">\hat{F}_{IT}</math>涉及大量细节。每个固定指数的估计方法都基于一系列假设,这些假设反映了所用遗传数据类型(如DNA序列多态性或微卫星可变位点)以及对基因流、遗传漂变和突变速率的假设。选择估计方法并正确解释其结果,需要理解这些假设及其与生物过程模型的联系(见Rousset 2013)。
<math display="inline">G_{ST}</math> 是一种广泛使用的亚种群相对于总种群固定程度的估计量,当位点具有两个以上等位基因时,它平均了杂合度(Nei 称为基因多样性),并平均了多个位点的杂合度(Nei 1973)。Weir 和 Cockerham(1984)提出了等位基因的共祖系数以及种群间固定程度的估计量 <math display="inline">\uptheta_{ST}</math>(读作“theta”),该估计量对实际数据的特征(如位点和亚种群间可变的样本量以及位点间不同数量的等位基因)进行了严格的统计处理(另见 Weir 1996;Weir 和 Goudet 2017)。Excoffier 等人(1992)开发了类似于亚种群内和亚种群间等位基因状态差异方差分析的估计量。这种方法称为分子方差分析或 AMOVA,基于对等位基因状态差异的测度(记为 <math display="inline">d</math>)从种群层级的不同水平中抽样估计 <math display="inline">\Phi</math>(读作“phi”)。亚种群间遗传分化的 AMOVA 估计量为: <math display="block"> \Phi_{ST}=\frac{d_{T}-d_{S}}{d_{T}} </math> 其中 <math display="inline">d_{T}</math> 是总种群中所有等位基因对间等位基因状态差异的平均值,<math display="inline">d_{S}</math> 是各亚种群内所有等位基因对间等位基因状态差异平均值在所有亚种群中的平均。(等位基因状态差异对遗传距离测度的具体贡献方式取决于突变模型,如第 5 章所述。)最后,估计量 <math display="inline">\uprho_{ST}</math>(读作“roe”)或 <math display="inline">R_{ST}</math> 常用于微卫星或简单序列重复位点,以解释可能掩盖种群结构的高频逐步突变(Slatkin 1995;见第 5 章)。这些估计量的解释方式均与双等位基因版本的固定指数相同。
Wright 最初推导固定指数时假设位点最多有两个等位基因,且突变率极低,因此对等位基因频率或新等位基因的引入影响极小。相对近期,微卫星遗传位点被广泛应用于种群分化研究。由于高突变率,微卫星位点通常在每个位点上表现出多个等位基因。虽然具有两个等位基因的位点最大期望杂合度为 0.5,但具有多个等位基因的位点由于每个等位基因的频率可能仅为几个百分点,其最大期望杂合度可接近 1。每个位点上如此高的等位基因多样性导致总种群的期望杂合度 <math display="inline">H_{T}</math> 也较高,并使 <math display="inline">\Delta G_{ST}</math> 的最大值小于 1。图 4.12 展示了在有限岛屿模型模拟中当 <math display="inline">H_{T}</math> 极高时 <math display="inline">G_{ST}</math> 的示例。这反映了更普遍的现象:<math display="inline">F_{ST}</math> 的范围是等位基因频率的函数(见 Jakobsson 等人 2013;Alcala 和 Rosenberg 2017 及其参考文献)。
图4.12 有限岛屿模型模拟中的遗传分化,展示了当位点具有两个以上等位基因时<math display="inline">G_{ST}</math>、<math display="inline">G_{ST}^{\prime}</math>和<math display="inline">D</math>作为估计量的差异。面板A的位点具有三个等位基因,面板B的位点具有十个等位基因。该模拟在包含20个亚群体(每个亚群体含10个个体)的有限岛屿模型中运行200代,使用10个重复的中性位点,基因流速率<math display="inline">m=0.0005</math>。<math display="inline">G_{ST}</math>、<math display="inline">G_{ST}^{\prime}</math>和<math display="inline">D</math>为使用所有位点的多位点估计值。
针对<math display="inline">G_{ST}</math>不可能超过亚群体内平均纯合度的观察,Hedrick(2005)提出了一个通过最大可能值重新标定的<math display="inline">G_{ST}</math>版本:
<math display="block"> G_{S T}^{\prime}={\frac{G_{S T}}{{\frac{1-H_{s}}{1+H_{s}}}}} </math>
(假设亚群体数量较大)。这使得遗传分化的测量值始终介于0到1之间,类似于标准化配子不平衡系数(见第2章)。Hedrick认为,只要突变速率远小于基因流速,<math display="inline">G_{ST}^{\prime}</math>能够在多样性水平差异显著时更准确地进行遗传分化比较。
同样受到高杂合度案例的启发,Jost(2008,2009)提出了一个估计量,用于测量亚群体完全分化的偏离程度:
<math display="block"> \begin{array}{r}{D=\left(\frac{d}{d-1}\right)\frac{H_{T}-H_{S}}{1-H_{S}}}\end{array} </math>
其中<math display="inline">d</math>为有限岛屿模型中的亚群体数量。
Jost的论文引发了争议,并重新激起了关于遗传分化估计量的讨论。对Jost论文的回应帮助澄清了<math display="inline">D</math>及固定指数中的隐含假设(Heller和Siegismund 2009;Ryman和Leimar 2009;Whitlock 2011;Verity和Nichols 2014;Jost等2018)。虽然<math display="inline">F_{ST}</math>测量亚群体间偏离随机交配的程度,但Jost的<math display="inline">D</math>测量亚群体间偏离完全分化的程度。
基于对有限岛屿模型中基因流和突变对多种遗传分化测量指标影响的研究,Whitlock(2011)指出<math display="inline">G_{ST}^{\prime}</math>和<math display="inline">D</math>不是有效的群体遗传分化指标,主要原因有二。首先,目前难以将<math display="inline">G_{ST}^{\prime}</math>和<math display="inline">D</math>的估计值与遗传漂变和基因流等关键进化速率参数相连接(见第4.6节)。其次,<math display="inline">G_{ST}</math>、<math display="inline">G_{ST}^{\prime}</math>和<math display="inline">D</math>的数值均依赖突变速率。当突变速率相对于基因流速较高时,<math display="inline">G_{ST}</math>的遗传分化值会因突变降低血统同一性而减小(更多讨论见第5章)。相反,<math display="inline">G_{ST}^{\prime}</math>和<math display="inline">D</math>往往保持接近1,尤其在亚群体数量较多时,无法区分导致高值的具体过程。见图4.12比较不同等位基因数量和总群体杂合度水平下<math display="inline">G_{ST}</math>、<math display="inline">G_{ST}^{\prime}</math>和<math display="inline">D</math>的表现。
在 Whitlock 的研究中,当突变率较高且亚种群数量较大时,<math display="inline">G_{S T}^{\prime}</math>并未随基因流速率的不同而发生显著变化。对于<math display="inline">D</math>而言,当基因流速率相对较高时,其值对突变率也较为敏感,导致位点间突变率的变异也会使<math display="inline">D</math>表现出较高的位点间变异。相比之下,当突变率远低于基因流速率时,<math display="inline">G_{S T}</math>不受影响。例如,若突变率相似,比较两个物种的遗传分化可通过<math display="inline">G_{S T}^{\prime}</math>辅助,但突变率通常未知,难以支持此类比较。Whitlock 的论文强调了固定指数如何与遗传漂变、基因流和突变速率的预测密切相关,并指出选择群体遗传分化的估计量应基于对底层模型的了解以及假设检验的目标。
4.5 种群细分与 Wahlund 效应
遗传变异可表现为随机交配种群内的杂合性,或分化亚群间的等位基因频率差异。
本章前一节展示了如何利用杂合子 Hardy-Weinberg 预期频率的偏离来量化群内随机交配的偏离以及群间等位基因频率的分化。本节将进一步探讨多个群内与群间的杂合性,主要有两个目标:第一是探究种群细分对预期基因型频率的影响,第二是说明为何<math display="inline">F_{S T}</math>可用于估计群间等位基因频率的分化。
考虑两个随机交配群的双等位基因位点案例。每个群的预期杂合度为:
<math display="block"> H_{i}=2p_{i}q_{i} </math>
其中<math display="inline">i</math>表示单个亚种群。两个群的平均杂合度基于各亚种群内杂合度的平均:
<math display="block"> H_{S}=\frac{2p_{1}q_{1}+2p_{2}q_{2}}{2} </math>
相比之下,总种群的杂合度为:
<math display="block"> {\cal H}_{T}=2\overline{{{p}}}\overline{{{q}}} </math>
基于亚种群平均等位基因频率的乘积。<math display="inline">H_{T}</math>和<math display="inline">H_{S}</math>均不可超过 0.5(双等位基因位点的最大杂合度)。此外,<math display="inline">H_{S}</math>是<math display="inline">H_{1}</math>和<math display="inline">H_{2}</math>的平均值,因此当细分种群的等位基因频率不同时,<math display="inline">H_{S}</math>始终小于总种群的预期杂合度。这些条件确保了当亚种群内为随机交配时,<math display="inline">H_{T}\geq H_{S}</math>。<math display="inline">H_{T}</math>与<math display="inline">H_{S}</math>的关系如图 4.13 所示。此现象称为 Wahlund 效应,得名于 1928 年首次描述该现象的瑞典遗传学家 Sten Gosta William Wahlund。其结果是,由于<math display="inline">F_{S T}</math>表达式中的分子为<math display="inline">H_{T}-H_{S}</math>,<math display="inline">F_{S T}</math>将大于或等于 0。
图 4.13 两个同类群中双等位基因位点的Wahlund效应图示。若亚群内(<math display="inline">H_{1}</math>和<math display="inline">H_{2}</math>)和总群体(<math display="inline">H_{T}</math>)均为随机交配,则各群体的杂合度均落在Hardy-Weinberg期望频率的抛物线上。亚群的平均杂合度(<math display="inline">H_{S}</math>)位于同类群杂合度之间的中点。因此,基于平均等位基因频率(同类群等位基因频率<math display="inline">p_{1}</math>和<math display="inline">p_{2}</math>的中点),<math display="inline">H_{S}</math>永远不可能超过<math display="inline">H_{T}</math>。同类群等位基因频率的更大方差等价于两同类群情形下更宽的等位基因频率分布。
Wahlund效应:相较于具有相同总规模和相同平均等位基因频率的随机交配群体,等位基因频率分化的亚群中杂合子的期望频率降低。
Wahlund效应还可通过另一种方式展示,更清晰地将其与亚群间等位基因频率的变异联系起来。接下来将证明总群体预期杂合度(<math display="inline">H_{T}</math>)与亚群平均预期杂合度(<math display="inline">H_{S}</math>)的差异取决于亚群间等位基因频率的方差。
一组亚群间等位基因频率的方差为:
<math display="block"> \operatorname{Var}(p)={\frac{\sum\left(p_{i}-{\overline模板:P}\right)^{2}}{n}}={\frac{\sum{p_{i}}^{2}}{n}}-{\overline模板:P}^{2} </math>
其中<math display="inline">p_{i}</math>为亚群<math display="inline">i</math>的等位基因频率。对于双等位基因位点,<math display="inline">\mathrm{var}(p)</math>等于<math display="inline">{\mathrm{var}}(q)</math>,因为<math display="inline">p=1-q</math>。此结果将在后续使用。
亚群的平均预期杂合度:
<math display="block"> H_{S}=\frac{1}{n}\sum_{i=1}^{n}2p_{i}q_{i} </math>
也可表示为:
<math display="block"> H_{S}=\sum_{n}2\left(\frac{p_{i}}{n}-\frac{{p_{i}}^{2}}{n}\right) </math>
注意到<math display="inline">p_{i}q_{i}=p_{i}(1-p_{i})=p_{i}-{p_{i}}^{2}</math>(因<math display="inline">p=1-q</math>),可将该式重排为:
<math display="block"> H_{S}=2\left(\frac{\Sigma p_{i}}{n}-\frac{\Sigma p_{i}{}^{2}}{n}\right) </math>
括号内的右侧项与等位基因频率方差表达式中的一项相同。将式4.22重排得<math display="inline">{\frac{\sum p_{i}^{~2}}{n}}=\operatorname{var}(p)+{\overline模板:P}^{2}</math>,代入后得到:
<math display="block"> H_{S}=2\left({\frac{\Sigma p_{i}}{n}}-\operatorname{var}(p)-{\overline模板:P}^{2}\right) </math>
通过观察可知<math display="inline">{\frac{\Sigma p_{i}}{n}}</math>即为平均等位基因频率<math display="inline">\overline模板:P</math>,代入后简化为:
<math display="block"> H_{S}=2\left(\overline{{{p}}}-\overline{{{p}}}^{2}-\mathrm{var}(p)\right) </math>
接下来利用<math display="inline">p=1-q</math>将<math display="inline">\overline模板:P-\overline模板:P^{2}</math>替换为等效表达式<math display="inline">\bar{p}\bar{q}</math>,并将括号内各项乘以2,最终得到:
<math display="block"> H_{S}=2\overline模板:P\overline模板:Q-2\mathrm{var}(p) </math>
由式4.21可知<math display="inline">H_{T}=2\overline模板:P\overline模板:Q</math>,代入后可得:
当<math display="inline">\mathrm{var}(p)>0</math>时,纯合子相较于泛交情形存在过量。此方法还预测:杂合子的总缺失量将等于纯合子的总过量量。
瓦尔亨德效应(Wahlund effect)是更普遍现象的一个例子,这种现象发生在对非线性函数的多个值进行平均时,并且是詹森不等式原理(Jensen’s inequality)的基础,该原理在生态学和演化生物学中有众多应用(见Ruel和Ayres 1999)。
<math display="block"> H_{S}=H_{T}-2\mathrm{var}(p) </math>
交互框4.4 模拟瓦尔亨德效应
通过一系列等效的代换和代数重排,还可以证明亚群中纯合基因型的预期频率为
<math display="block"> F r e q(A A)_{S}=\overline模板:P^{2}+\mathrm{var}(p) </math>
<math display="block"> F r e q(a a)_{S}=\bar{q}^{2}+\mathrm{var}(p) </math>
以及
由种群间等位基因频率分化引起的纯合性与杂合性变化,与单一种群中近亲交配(consanguineous mating)的后果完全类似。在第2.6节中已证明 <math display="inline">f r e q(A A)=p^{2}+f p q</math>,其中 <math display="inline">f</math> 是血源同一性(identity by descent)的概率。瓦尔亨德效应描述了类似现象:种群的等位基因频率分化导致亚群中的纯合性增加,超出基于总种群等位基因频率预期的杂合性水平。
这些方程表明,在分化的种群中,亚群的预期基因型频率是总种群平均等位基因频率以及亚群间等位基因频率方差的函数。一组处于随机交配(panmixia)的亚群等价于等位基因频率方差为零 <math display="inline">(\mathrm{var}(p)=0)</math> 的情况。此时,<math display="inline">H_{T}=H_{S}</math>,且 <math display="inline">F_{S T}</math> 为0,因为 <math display="inline">H_{T}-H_{S}</math> 也为0。这一结果符合直观预期:广泛的基因流会使亚群间的等位基因频率均质化。然而,当亚群的等位基因频率发生分化且方差 <math display="inline">\mathrm{var}(p)>0</math> 时,总种群将出现杂合子缺失,且
瓦尔亨德效应作为非线性平均化的结果,可以通过在德菲内蒂图(de Finetti plot,或三元图)上绘制两个亚群的基因型频率直观呈现。教材网页链接的网站提供了相关解释和可用的R代码片段。
尝试使用默认基因型频率值(其中 <math display="inline">f=0</math>)进行第一次模拟。调整两个亚群的等位基因频率使其分化程度增大或减小。当你在亚群内尝试不同水平的非随机交配(即 <math display="inline">\boldsymbol{\hat{{\mathbf{\mathit{\Pi}}}}}</math> 取非零值)时,观察到的基因型频率会发生什么变化?
Wahlund 效应的一个后果被称为 isolate breaking(隔离打破),用于描述当先前因等位基因频率分化而分化的亚种群经历随机交配时,杂合子基因型频率的增加。在人类种群中,由纯合子中表达的隐性等位基因引起的疾病表型包括 cystic fibrosis、albinism、Tay–Sachs disease 和 sickle cell anemia。这些疾病在相对孤立的种群(如 Ashkenazi Jews、native American groups 和 Amish)中更为常见,但在经历更多基因混合的人类种群中较为罕见——这些种群因亚分化导致的杂合子缺失较少。
为理解 isolate breaking 的影响,假设两个随机交配的松鼠种群最初不存在任何迁移,且等位基因频率随时间分化(图4.14)。假设左侧种群中存在白化个体,其表型由完全隐性等位基因 a 决定,频率为 <math display="inline">q</math>,而右侧种群中完全缺乏该白化等位基因。亚分化种群中白化松鼠的平均频率为:
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/b5a39d8aae9abf8df7535fb574fbcad3857786931a92f58bd3bf8049d412964f.jpg
图4.14 Wahlund 效应如何关联亚种群间等位基因频率变异与单一随机交配种群中基因型频率的假想示例。最初,两个亚种群具有不同的等位基因频率,因此隐性纯合白化表型的频率也不同。白化表型的平均频率在亚种群中为 <math display="inline">8\%</math>。当种群融合后,等位基因频率变为两个亚种群的平均值。然而,基因型频率并非两个亚种群的平均值。相反,纯合子频率低于亚种群平均值,而杂合子频率高于亚种群平均值。在融合种群中,两种纯合子组合频率与杂合子频率偏离其亚种群平均值的程度,等于两个亚种群间等位基因频率的方差。
基于 Hardy–Weinberg 定律,我们同样可以计算两个亚种群中显性纯合子的平均频率(<math display="inline">p² = \overline{{p^{2}}}=\frac{0.36+1.0}{2}=0.68</math>)和杂合子的平均频率(<math display="inline">\overline模板:2p q=\frac{0.48+0.0}{2}=0.24</math>)。
接着,假设两个松鼠种群融合为一个随机交配的种群。在随机交配发生后,融合种群中隐性等位基因的频率及白化松鼠的预期频率是多少?首先确定融合种群的等位基因频率:
<math display="block"> q_{f u s e d}=\frac{0.4+0.0}{2}=0.2 </math>
然后用该结果计算融合种群中隐性纯合基因型的预期频率:
<math display="block"> q^{2}{}_{f u s e d}=\left({\frac{0.4+0.0}{2}}\right)^{2}=\left(0.2\right)^{2}=0.04 </math>
在融合种群中,白化松鼠的比例(4%)低于两个细分种群的平均值(8%)。可以验证其他纯合子在融合种群中的频率也有所下降。与细分种群的平均频率相比,两种纯合子的频率在融合种群中均下降了4%。相比之下,融合种群中杂合子的频率
<math display="block"> 2pq_{fused}=2(0.2)(0.8)=0.32 </math>
高于细分种群杂合子的平均频率(见表4.7)。
现在让我们计算融合前后两个种群间等位基因频率的参数方差。初始时,两个细分种群的等位基因频率方差为
<math display="block"> \operatorname{Var}(q)={\frac{\left(0.4-0.2\right)^{2}+\left(0.0-0.2\right)^{2}}{2}}=0.08 </math>
而融合后方差<math display="inline">(q)</math>为0,因为不再存在等位基因频率的细分。需注意初始等位基因频率方差(0.08)正好是融合前白化体平均频率与融合后预期白化体频率差值的一半。随着细分种群的融合,每个纯合子频率减少了4%,而杂合子频率则增加了完全相同的总量(即8%)。
表4.7 图4.9中假想白化松鼠案例的等位基因和基因型频率,用于展示Wahlund原理。初始时总种群被细分为两个具有不同等位基因频率的繁殖群,随后这两个种群融合并经历一代随机交配。
Initial subpopulations | Fused population | |
---|---|---|
Allele frequency q | 0.4 and 0.0 | <math display="inline">\frac{0.4+0.0}{2}=0.2</math> |
Variance in q | <math display="inline">\frac{(0.4-0.2)^2 + (0.0-0.2)^2}{2}=0.04</math> | 0 |
Frequency of aa | <math display="inline">\frac{0.16+0.0}{2}=0.08</math> | <math display="inline">(0.2)^2=0.04</math> |
Frequency of Aa | <math display="inline">\frac{0.48+0.0}{2}=0.24</math> | <math display="inline">2(0.2)(0.8)=0.32</math> |
Frequency of AA | <math display="inline">\frac{0.36+1.0}{2}=0.68</math> | <math display="inline">(0.8)^2=0.64</math> |
这个例子表明,通过将两个亚群体融合为一个随机交配群体来消除它们之间的等位基因频率差异,改变了总群体的杂合性。结果正是Wahlund效应所预测的:在随机交配下总群体的杂合性高于亚群体分化状态。分化的种群以总群体杂合性为代价,将部分遗传变异存储为种群间等位基因频率差异(变异)。另一种理解方式是:种群分化相当于近亲交配,这会增加总群体的纯合性(或减少总群体的杂合性)。融合的或随机交配的群体比基因流动受限的孤立分化亚群体具有更大的有效种群大小。在亚群体中,交配更可能发生在亚群体内部而非与总群体的迁移个体之间。因此,与同等规模的随机交配群体相比,亚群体具有更高的自合性,类似于单一有限种群因遗传漂变导致的杂合性下降现象。
Wahlund原理的一个应用实例可见于法医DNA分型。如第2.4节所述,使用DNA标记确定特定基因型随机出现的预期频率时,需要参考不同种族定义的人类群体中等位基因频率的估计值。尽管DNA分型所用位点的等位基因频率已在许多群体中进行过估计,但可供使用的参考等位基因频率数据库数量有限。因此,某些个体可能因其种族、民族或地理背景而缺乏对应的群体特异性等位基因频率估计数据。更复杂的是,许多个体具有多元种族血统,这可能无法被任何单一组现有参考等位基因频率所代表。如果人类群体呈现随机交配状态,DNA分型就不会存在这些问题,因为所有种族定义的人类群体都将具有统一的等位基因频率。然而,用于构建等位基因频率参考数据库的种族和地理定义人类群体显示,其等位基因频率存在高达<math display="inline">3{-}5\%</math>的群体间差异(Rosenberg et al. 2002)。
我们可以运用Wahlund原理调整DNA分型概率比,以校正种群结构的影响。这需要一种方法来调整每个位点的预期基因型频率,从而反映由群体间等位基因频率差异导致的纯合子频率增加和杂合子频率降低。纯合子基因型的校正预期频率为:
<math display="block"> f(A_{i}A_{i})=p_{i}^{2}+p_{i}(1-p_{i})F_{I T} </math>
杂合子基因型的校正预期频率为:
<math display="block"> f\big(A_{i}A_{j}\big)=2p_{i}p_{j}-\big(2p_{i}p_{j}\big)F_{I T}=2p_{i}p_{j}(1-F_{I T}) </math>
其中,i 和 j 代表 A 基因座上的不同等位基因,而 <math display="inline">F_{IT}</math> 衡量了基因型频率因群体内的非随机交配和群体间等位基因频率分化而完全偏离随机交配预期值的总偏离程度(National Research Council, Commission on DNA Forensic Science 1996)。若群体内为随机交配(<math display="inline">F_{IS}=0</math>),则 <math display="inline">F_{IT}</math> 在这两个方程中等同于 <math display="inline">F_{ST}</math>。此时,应用这些校正会以群体间等位基因频率分化的程度为比例,增加纯合子频率并降低杂合子频率。
在章节2.4中,三基因座DNA图谱的预期频率是基于哈迪-温伯格和随机交配的假设确定的。让我们回到该例,调整预期基因型频率和几率比以补偿人类群体中的群体结构。基于人类群体中 <math display="inline">F_{ST}=0.05</math> 的上限估计值,表4.8给出了调整后的预期基因型频率。校正后,两个杂合基因座的预期频率降低,而纯合基因座的预期频率增加。在随机交配假设下,该三基因座基因型的随机匹配几率比为1/20,408;校正群体结构后变为1/15,152。因此,群体结构使该三基因座基因型的预期频率比随机交配预期值增加了约35%。校正群体结构后,该三基因座基因型的随机匹配概率更高。在确定DNA图谱的几率比时,必须考虑群体结构以准确估计仅凭偶然性匹配DNA图谱的频率(National Research Council, Commission on DNA Forensic Science 1996)。当缺乏合适的参考等位基因频率数据库、个体种族未知、或基因型来自混合祖先个体(因而难以选择合适数据库)时,需使用式4.49和4.50进行群体结构校正。
问题框4.3 群体结构对DNA图谱匹配概率的影响
回到章节2.4和问题80×2.1,确定校正人类群体中观察到的群体结构后的预期基因型频率和随机匹配概率。假设人类群体的 <math display="inline">F_{ST}=0.05</math>。当存在群体结构时,单个基因座的预期基因型频率如何变化?为什么?10基因座基因型是否仍足够稀有,使得随机匹配的几率较低?
表4.8 校正与未校正群体结构的单个DNA图谱基因座及三基因座组合的预期频率。计算假设 <math display="inline">\bar{F}_{IS}=0</math>,并使用人类群体中 <math display="inline">\bar{F_{ST}}=0.05</math> 的上限估计值。等位基因频率见表2.3。
<table><tr><td></td><td colspan="2">预期基因型频率</td></tr><tr><td>基因座</td><td>随机交配</td><td>存在种群结构</td></tr><tr><td>D3S1358</td><td>2(0.2118)(0.1626) = 0.0689</td><td>2(0.2118)(0.1626)(1-0.05) =0.0655</td></tr><tr><td>D21S11</td><td>2(0.1811)(0.2321)=0.0841</td><td>2(0.1811)(0.2321)(1-0.05)=0.0799</td></tr><tr><td>D18S51</td><td>(0.0918)²=0.0084</td><td>(0.0918)²+ 0.0918(1-0.0918)(0.05) =0.0126</td></tr><tr><td>所有基因座</td><td>(0.0689)(0.0841)(0.0084)=0.000049</td><td>(0.0655)(0.0799)(0.0126)=0.000066</td></tr></table> 下一节将探讨用于推断特定种群结构模式成因的种群结构模型。 #### 4.6 预测种群结构模式的演化模型 无限岛屿模型与有限岛屿模型。踏脚石模型与集合种群模型。 • 距离隔离机制 基因流的最小成本路径与抗性隔离机制 不同迁移模型的通用预测与结论 使用$F_{ST}$(或其估计量)估算种群间遗传分化的重要目标,是推断导致观察到的遗传分化模式的种群遗传过程。这一关键步骤需要能预测遗传漂变和基因流速率的预测模型,从而预测$F_{ST}$的模式和量级。基于这些预测,即可通过实际种群中$\hat{F}_{ST}$的观测值来推断与基因流和遗传漂变相关的参数。 现有多种种群结构模型试图近似真实种群中可能存在的各种基因流模式。然而,这些模型未必能完全捕捉真实种群中基因流特征的精确组合。事实上,真实生物亚种群内部和之间的基因流很可能不像这些模型假设的那样易于分类或恒定不变。尽管如此,这些种群结构模型仍是研究导致种群分化的基本原理的有用工具。这些不同种群结构模型的实用性在于,它们能展示基因流速率、亚种群规模、亚种群间遗传连通模式对种群内和种群间基因型和等位基因频率演化的基本且具有一定普适性的影响特征。 #### Infinite island model
在亚种群间基因流动过程的模型中,最古老且应用最广泛的是Wright(1931,1951)提出的无限岛屿模型。该模型中,所有亚种群与其他任何亚种群交换迁移个体的概率均等,即完全不存在距离隔离效应。此外,通常假设各亚种群的规模与迁移率相同。整个种群由无限个亚种群组成,每个亚种群的有效大小为<math display="inline">N_{e}</math>,每代有<math display="inline">m</math>比例的基因拷贝随机与种群其他部分交换(见图4.5)。利用该模型,可近似建立亚种群间分化程度与有效种群大小及迁移量的函数关系。
无限岛屿模型:一种理想化的种群分化和基因流动模型,假设存在无限个相同的亚种群(繁殖群),且每个亚种群接受来自其他所有亚种群基因流动的概率均等。
首先考虑无限岛屿模型中无基因流动时(<math display="inline">m=0</math>)的情况。由于每个亚种群均为有限岛屿,等位基因频率会因遗传漂变而发生代际波动。亚种群相对于总种群的固定指数期望值为:
<math display="block"> F_{S T}=1-e^{-\frac{1}{2N e}t} </math>
其中<math display="inline">t</math>为世代时间,<math display="inline">N_{e}</math>为单个亚种群的有效大小(Wright 1943a)。方程中,随时间增长,<math display="inline">e^{-\frac{1}{2N e}t}</math>项随有效种群大小递减。这近似描述了<math display="inline">F_{S T}</math>随<math display="inline">t</math>增加的变化趋势——亚种群的平均期望杂合度(<math display="inline">H_{S}</math>)降低并最终趋于零,导致<math display="inline">F_{S T}</math>趋近于1。这是遗传漂变使所有亚种群最终达到固定或丢失的结果。需注意,总种群杂合度(<math display="inline">H_{T}</math>)不受遗传漂变影响,因尽管单个亚种群可能固定或丢失,但无限亚种群使总种群规模趋于无限。
接下来考虑基因流动与遗传漂变同时作用的无限岛屿模型。第3章中,单个有限种群的基因型中两个等位基因为自体受精或同源的概率测度——固定指数:
<math display="block"> F_{t}=\frac{1}{2N_{e}}+\biggl(1-\frac{1}{2N_{e}}\biggr)F_{t-1} </math>
当存在多个经历有限基因流动的亚种群时,可将此方程扩展至包含迁移对自体受精的影响。目标是建立同时考虑种群大小与迁移的固定指数表达式。有限种群规模导致各亚种群内自体受精率随时间递增,而迁移通过引入非同源等位基因降低自体受精率。因此,在分群种群中,净自体受精率是遗传漂变与迁移过程的动态平衡。
当存在基因流时,式4.52中给出的自交合概率需要进行两处修正。第一处修正涉及自交合概率<math display="inline">\frac{1}{2N_{e}}</math>。在迁移存在的情况下,亚种群中某个比例<math display="inline">m</math>的等位基因通过基因流从其他亚种群迁入,而<math display="inline">1-m</math>比例的等位基因由未离开原种群的个体和配子贡献。因此,存在一定概率使得一对等位基因中的一个或两个是通过迁移引入亚种群的。
在存在基因流的情况下,亚种群中随机抽样的一对等位基因可能包含零个、一个或两个迁入等位基因,其概率分别为<math display="inline">\left(1-m\right)^{2}</math>、<math display="inline">2m(1-m)</math>和<math display="inline">m^{2}</math>。只有不包含迁入等位基因的基因型(占比<math display="inline">(1-m)^{2}</math>)才能通过有限抽样形成同源相同的等位基因池。这也可以通过观察得出:每个世代预计有<math display="inline">2m(1{-}m)</math>的杂合基因型和<math display="inline">m^{2}</math>的纯合基因型携带迁入等位基因。这两类携带迁入等位基因的基因型会将自交合率降低<math display="inline">1-2m(1-m)-m^{2}~=~1-2m+2m^{2}-m^{2}=(1-m)^{2}</math>倍。
因此,经基因流修正后的自交合率为<math display="inline">\frac{1}{2N_{e}}\left(1-m\right)^{2}</math>。同理,亚种群中随机抽样的一对等位基因因历史近亲交配形成自交合的概率(即式4.52中的<math display="inline">\left(1-\frac{1}{2N_{e}}\right)F_{t-1}</math>项)也需要乘以<math display="inline">\left(1-m\right)^{2}</math>的修正因子。
综合这两处修正可得:
<math display="block"> F_{t}=\frac{1}{2N_{e}}\left(1-m\right)^{2}+\left(1-\frac{1}{2N_{e}}\right)F_{t-1}\left(1-m\right)^{2} </math>
该方程表明,当<math display="inline">m</math>在0到1之间时,基因流通过降低当前世代(时间<math display="inline">t</math>)和过去世代(时间<math display="inline">t-1</math>)的等位基因同源概率来减少固定指数的期望值。这符合直觉:若基因流将等位基因拷贝引入亚种群,则该拷贝尚未经历<math display="inline">t-1</math>到<math display="inline">t</math>时间段的抽样过程,因此在时间<math display="inline">t</math>时无法通过同源相同性影响自交合基因型的频率。
式4.53量化了多个亚种群间基因流与遗传漂变的平衡关系,此时<math display="inline">F</math>等同于<math display="inline">F_{S T}</math>。通过将其应用于无限岛屿模型,当遗传漂变引起的亚种群间等位频率分化与基因流引起的亚种群间等位频率均质化达到平衡时,可以得到群体间固定指数<math display="inline">F_{S T}</math>的期望值。假设迁移率远小于有效种群规模(见数学框4.1),无限岛屿模型平衡状态下亚种群间固定程度的近似解为:
<math display="block"> F_{S T}\approx\frac{1}{4N_{e}m+1} </math>
该结果由Wright(1931,1951)提出。
数学框4.1 The expected value of <math display="inline">F_{S T}</math> in the infinite-island model
当遗传漂变的差异化效应与基因流的均质化效应达到平衡时,<math display="inline">F_{S T}</math>的值在世代间不再变化,即<math display="inline">F_{S T(\mathrm{t})}=F_{S T(t-1)}=F_{S T(e q u i l i b r i u m)}</math>。若种群处于平衡状态,则可将<math display="inline">F_{t}</math>和<math display="inline">F_{t-1}</math>均设为<math display="inline">F_{e q}</math>。将此代入式4.53:
<math display="block"> F_{e q}=\frac{1}{2N_{e}}\left(1-m\right)^{2}+\left(1-\frac{1}{2N_{e}}\right)F_{e q}\left(1-m\right)^{2} </math>
该方程可通过重写为以下形式更清晰地求解<math display="inline">F_{e q}</math>:
<math display="block"> F_{e q}=a c+b c F_{e q} </math>
其中<math display="inline">a=\frac{1}{2N_{e}},b=1-\frac{1}{2N_{e}},</math> 且<math display="inline">c=(1-m)^{2}</math>。通过代数变换可得:
<math display="block"> \begin{array}{l}{{F_{e q}-b c F_{e q}=a c}}\\ {{{F_{e q}}(1-b c)=a c}}\\ {{{F_{e q}}=\displaystyle\frac{a c}{1-b c}}}\end{array} </math>
将<math display="inline">a,b,</math>和<math display="inline">c</math>的完整表达式代入后得到:
<math display="block"> F_{e q}=\frac{\displaystyle\frac{1}{2N_{e}}\left(1-m\right)^{2}}{1-\left(1-\frac{1}{2N_{e}}\right)\left(1-m\right)^{2}} </math>
将该式乘以<math display="inline">\frac{2N_{e}}{2N_{e}}</math>可简化为:
<math display="block"> F_{S T}=\frac{(1-m)^{2}}{2N_{e}-(2N_{e}-1){(1-m)}^{2}} </math>
分子和分母的项展开后会产生较为复杂的表达式(若感兴趣可自行展开)。然而,若再次假设迁移率极小且远小于有效种群大小,则式4.61展开后含<math display="inline">m</math>或其幂次的项可忽略(例如,当<math display="inline">m=0.01</math>时,<math display="inline">2m=0.02</math>且<math display="inline">m^{2}=0.0001</math>)。由此可得固定指数的期望值近似为:
<math display="block"> F_{S T}\approx\frac{1}{4N_{e}m+1} </math>
基于这些假设,图4.15展示了在无限岛屿模型中,不同有效种群大小与迁移率乘积<math display="inline">\left(N_{e}m\right)</math>下各亚种群间遗传分化的预期水平。当<math display="inline">N_{e}m</math>(常称为有效迁移率)较大时,二倍体位点的亚种群间分化极低,因为有效种群大小与迁移率的组合足以抵消遗传漂变引起的分化。当有效迁移率从较大值(如<math display="inline">N_{e}m=10</math>)下降时,亚种群间遗传分化最初缓慢增加,一旦有效迁移率低于约1时则迅速上升。每两代迁移一个个体的有效迁移率<math display="inline">\begin{array}{r}{(N_{e}m=\frac{1}{2N_{e}})}\end{array}</math>常被认为足以在无限岛屿模型中防止二倍体位点出现显著遗传分化,因为该速率基本能抵消孤立种群中遗传漂变导致的杂合度损失速率<math display="inline">(1-\frac{1}{2N_{e}})</math>(见第3.4节)。
亚群等位基因频率、杂合度的层级度量与固定指数之间的关系,可通过分划种群中基因流与遗传漂变的模拟得以体现(图4.16)。当基因流相对较强并维持亚群间等位基因频率相似时,亚群期望杂合度与总种群期望杂合度也相近,导致固定指数值较低(图4.11A)。当基因流较弱且亚群间等位基因频率发生分化时,亚群期望杂合度将低于总种群的期望杂合度,从而导致固定指数值升高(图4.11B)。
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/123076c63361c37121ce0a5527f69813ae33ed578391616251f33192c5b8e964.jpg
图4.15 在无限岛屿种群结构模型中,亚群间固定程度的期望水平取决于有效种群大小<math display="inline">\mathrm{(N_{e})}</math>与基因流量(m)的乘积。每条曲线代表具有不同自合概率位点的期望<math display="inline">\mathrm{F}_{\mathrm{ST}}</math>(自下而上依次为<math display="inline">\frac{1}{2N_{e}},\frac{1}{N_{e}}</math>和<math display="inline">\frac{2}{N_{e}}</math>)。当<math display="inline">\mathrm{N_{e}m}</math>低于1时,对于自合概率为<math display="inline">\displaystyle\frac{1}{2N_{e}}</math>的双亲遗传核基因座,预期会出现显著的等位基因频率分化<math display="inline">(\mathrm{F_{ST}}\ge 0.2)</math>。Y染色体或线粒体基因座(自合概率<math display="inline">=\frac{2}{N_{e}}</math>)则表现为在较高<math display="inline">\mathrm{N_{e}m}</math>水平下仍会出现显著的种群间分化。
另需注意的是,<math display="inline">F_{ST}</math>在从相同亚群以相同方式抽样的独立重复基因座间可能存在显著变异。图4.17展示了在有限岛屿模型中,通过1000个独立基因座模拟遗传漂变与基因流(无突变)对等位基因频率改变时获得的<math display="inline">F_{ST}</math>值范围。在相同种群遗传过程作用下,单个基因座<math display="inline">F_{ST}</math>值的变异范围源于遗传漂变的随机性。每个基因座经历的等位基因频率随机波动,导致了亚群间等位基因频率方差的差异。模拟中由遗传漂变引起的<math display="inline">F_{ST}</math>随机变异强调:对<math display="inline">F_{ST}</math>的估算必须基于多个基因座的平均值。
固定指数与有效迁移个体数之间的预期关系依赖于无限岛屿模型,这主要有两个原因。首先,在岛屿模型中,所有亚种群从其他所有种群迁入的速率相同,因此仅存在一个适用于所有亚种群的单一迁移率<math display="inline">(m)</math>。其次,由于存在无限数量的亚种群,整个集合种群永远不会因遗传漂变达到固定或丢失状态。在具有有限数量亚种群的基因流岛屿模型中(称为有限岛屿模型),整个种群集合最终会达到固定或丢失状态,且<math display="inline">F_{S T}</math>最终会下降至零——因为在无突变情况下,所有亚种群最终会因遗传漂变达到固定或丢失(Nei et al. 1977; Varvio et al. 1986)。有限岛屿模型中,对于具有任意等位基因数的位点,遗传分化的预期程度为:
<math display="block"> G_{S T}\approx{\frac{1}{\left({\frac{d}{d-1}}\right)^{2}4N_{e}m+1}} </math>
其中<math display="inline">d</math>为亚种群数量(Latter 1973; Takahata 1983; Crow and Aoki 1984; Takahata and Nei 1984)。此版本的<math display="inline">G_{S T}</math>修正了有限亚种群数量下亚种群间分化的预期程度。项<math display="inline">\left(\frac{d}{d-1}\right)</math>在具有两个亚种群时达到最大值4,并随着<math display="inline">d</math>增大趋近于1。例如,当<math display="inline">N_{e}m=0.1</math>且<math display="inline">d=10</math>时,<math display="inline">G_{S T}</math>的期望值约为无限数量亚群预期值的94%。这表明,相较于极多亚种群的情况,特定水平的基因流在较少亚种群间实现等位基因频率同质化的效果略高。当<math display="inline">d</math>大于约50时,有限亚群数量的修正影响甚微,此时有限亚群数量的行为本质上与无限亚群数量模型一致。
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/271b67678a3148ce4bfb28b274bf6a66216a838200cfb232568d6c0470a31611.jpg
图4.16 有限岛屿模型模拟的等位基因频率、层级杂合度及固定指数。每个亚种群包含10个个体。面板A中基因流速率<math display="inline">m=0.2</math>,面板B中<math display="inline">m=0.01</math>。等位基因频率显示的是模拟中200个亚种群随机选取的6个亚种群数据。杂合度与固定指数由全部200个亚种群计算得出。
图 4.17 在包含200个亚群的有限岛屿模型中,1000个中性位点重复的<math display="inline">F_{S\mathrm{T}}</math>值分布。每个亚群包含10个个体,基因流率为每个亚群的10%(<math display="inline">m=0.10</math>)。分布中,95%的重复位点显示<math display="inline">F_{\mathrm{ST}}</math>值介于0.1459和0.2002之间,而所有1000个重复位点的平均值为0.1586(基于<math display="inline">\cdot{{H}_{T}}</math>和<math display="inline">H_{S}</math>的平均值计算<math display="inline">F_{\mathrm{ST}}</math>)。重复位点展现出<math display="inline">F_{\mathrm{ST}}</math>值的范围,因为亚群间的等位基因频率部分源自遗传漂变的随机过程。在<math display="inline">N_{e}m=1.0</math>的无限岛屿模型中,<math display="inline">F_{\mathrm{ST}}</math>的期望值为0.2。
问题框 4.4 Y染色体和细胞器基因座的<math display="inline">F_{S T}</math>预期水平
<math display="block"> N_{e}m\approx\frac{1}{4}\left(\frac{1}{F_{S T}}-1\right) </math>
在岛屿模型中,Y染色体基因座或线粒体和叶绿体(细胞器)基因座的平衡状态下<math display="inline">\boldsymbol{F}_{S T}</math>的期望值是多少?解决此问题的提示是思考非二倍体常染色体的自合子性(autozygosity),然后对式 4.53 进行调整以推导出式 4.54 的不同版本。与双亲遗传的二倍体基因座相比,这些类型基因座的群体间固定水平<math display="inline">(F_{S T})</math>预期如何?导致不同类型基因座<math display="inline">\bar{F}_{S T}</math>水平差异的原因是什么?
该方程用于在无限岛屿模型中,根据亚群间的遗传分化程度推导预期有效迁移率。它再次强调:亚群间等位基因频率分化水平<math display="inline">(F_{S T})</math>是基因流(倾向于使亚群间等位基因频率均质化)与遗传漂变(导致亚群在个体趋近固定或丢失过程中分化)在<math display="inline">N_{e}m</math>背景下动态平衡的函数。该关系已被广泛应用于数千项研究中,通过表 4.9 中的案例,从野生群体<math display="inline">\hat{F}_{S T}</math>的经验估计值来估算<math display="inline">\hat{N_{e}m}</math>。该方程(或基于不同种群模型的类似期望)是所谓的间接估计有效迁移数<math display="inline">(\hat{N_{e}}m)</math>的基础,这些迁移数导致了群体间等位基因频率分化的特定模式<math display="inline">(\hat{F}_{S T})</math>。
需要认识到的是,使用式4.64估算<math display="inline">\widehat{N_{e}m}</math>本质上是将无限岛屿模型作为理想标准,而非实际估算特定群体的长期有效迁移个体数。由于这种对无限岛屿模型的依赖,通过<math display="inline">\hat{F}_{S T}</math>获取<math display="inline">\widehat{N_{e}m}</math>的估计值应解释为:“观测到的群体分化水平<math display="inline">(\widehat{F}_{S T})</math>将等同于在给定有效迁移个体数<math display="inline">(N_{e}m)</math>的无限岛屿模型中预期的分化水平。”这种实际群体与理想群体的比较方式与有效群体大小的定义完全一致(见第3.3节)。尽管高度依赖理想化模型,Slatkin和Barton(1989)得出结论:即使实际群体结构与岛屿模型存在偏差,在岛屿模型假设下使用观测的群体分化水平来估算<math display="inline">\widehat{N_{e}m}</math>仍大致准确。相反,Whitlock和McCauley(1999)综述了实际群体偏离无限岛屿模型的多种方式,以及用于近似<math display="inline">\hat{F}_{S T}</math>与<math display="inline">N_{e}m</math>关系的假设条件,指出式4.64的滥用是不合理的。
鉴于无限岛屿模型可推导出特定有效迁移率水平下繁殖群间的预期遗传分化水平,将这一关系逆向应用是自然的:
互动框4.5 有限岛屿模型中<math display="inline">F_{1S},F_{S\top},</math>和<math display="inline">{\cal F}_{\mathrm{IT}}</math>的模拟
使用教材配套模拟网站探究有限数量亚群间的岛屿模型基因流。首先查看各模拟输入参数。以默认参数运行模拟并观察四个输出图表,注意各图的坐标轴和绘制曲线。
分别用以下有效群体大小、迁移率和初始等位基因频率值运行模拟。每种情况下<math display="inline">N_{e}m</math>是多少?
Ne | m | 初始等位基因频率 p |
---|---|---|
10 | 0 | 0.5 |
10 | 0.001 | 0.5 |
10 | 0.1 | 0.5 |
50 | 0 | 0.5 |
50 | 0.001 | 0.5 |
50 | 0.1 | 0.5 |
100 | 0 | 0.5 |
100 | 0.001 | 0.5 |
100 | 0.1 | 0.5 |
每次模拟运行时,观察亚群样本中随时间变化的等位基因频率、层级杂合度指标<math display="inline">(H_{I},H_{S},</math>和<math display="inline">H_{T})</math>以及固定指数<math display="inline">(\tilde{F}_{I S},\tilde{F}_{S T},</math>和<math display="inline">\bar{F}_{I T})</math>。当等位频率曲线偶尔触及顶部或底部坐标轴(达到固定或丢失)后又重新出现时,这现象说明了什么?共祖系数如何定义?它与亚群内杂合度及<math display="inline">\bar{F}_{15}</math>有何关联?
你在模型参数框中输入的迁移值单位是什么?为什么增加<math display="inline">m</math>会维持较低的<math display="inline">F_{ST}</math>和<math display="inline">\bar{F}_{IT}</math>值?迁移如何抵消遗传漂变?迁移是否总能强大到克服遗传漂变的分化效应?
表4.9 基于核位点分子遗传标记数据估算的不同物种亚群间固定指数(<math display="inline">F_{ST}</math>)。根据遗传标记类型和研究设计采用了不同估算方法。每个<math display="inline">\boldsymbol{F}_{ST}</math>估值被用于推断在无限岛屿模型假设下会产生相同种群结构水平的有效迁移个体数(<math display="inline">N_em</math>)。
Species | FST estimate | Nem estimate | References |
---|---|---|---|
Amphibians | |||
Alytes muletansis (Mallorcan midwife toad) | 0.12-0.53 | 1.8-0.2 | Kraaijeveld-Smit et al. (2005) |
Birds | |||
Gallus gallus (broiler chicken breeds) | 0.19 | 1.0 | Emara et al. (2002) |
Mammals | |||
Capreolus capreolus (roe deer) | 0.097-0.146 | 2.2-1.4 | Wang and Schreiber (2001) |
Homo sapiens (humans) | 0.03-0.05 | 7.8-4.6 | Rosenberg et al. (2002) |
native Mexican populations | 0.136 | 1.6 | Morena-Estrada et al. (2014) |
European and Chinese | 0.11 | 2.0 | Altshuler et al. (2010) |
Microtus arvalis (common vole) | 0.17 | 1.2 | Heckel et al. (2005) |
Plants | |||
Arabidopsis thaliana (mouse-earcress) | 0.643 | 0.1 | Bergelson et al. (1998) |
Oryza officinalis (wild rice) | 0.44 | 0.3 | Gao (2005) |
Phlox drummondi (annual phlox) | 0.17 | 1.2 | Levin (1977) |
Prunus armeniaca (apricot) | 0.32 | 0.5 | Romero et al. (2003) |
Fish | |||
Morone saxatilis (striped bass) | 0.002 | 11.8 | Brown et al. (2005) |
Sparisoma viride (stoplight parrotfish) | 0.019 | 12.4 | Geertjes et al. (2004) |
Insects | |||
Drosophila melanogaster (fruit flies) | 0.037-0.063 | 3.7-6.5 | Fabian et al. (2012) |
Glossina pallidipes (tsetse flies) | 0.18 | 1.1 | Ouma et al. (2005) |
Heliconius charithonia (butterflies) | 0.003 | 79.8 | Kronforst and Flemming (2001) |
Corals | |||
Seriatopora hystrix | 0.089-0.136 | 2.6-1.6 | Maier et al. (2005) |
通过岛屿模型获得的迁移有效数量估计值(<math display="inline">\hat{N_{e}m}</math>)被称为基因流率的间接估计。使用“间接”这一术语,是因为亚种群间等位基因频率差异的观测模式被用于一个模型(包含许多假设)中以生成参数估计值。这与通过亲本分析(parentage analysis)等方法直接估计基因流形成对比(尽管第4.2节指出直接方法也依赖于假设)。这类基因流的间接估计会对所有导致当前亚种群间等位基因频率分化格局的历史事件进行平均化处理。相比之下,直接估计仅适用于观察到亲本关系或迁移行为的时间段。Slatkin(1987a)曾研究过一个案例:标记-重捕获(mark–recapture)方法显示某蝴蝶在不同地理区域间的迁移极为有限,但基于多基因座估计的<math display="inline">\hat{F}_{ST}</math>却表明该蝴蝶种群间几乎没有等位基因频率分化。一种可能的解释是,过去基因流非常频繁,而近期急剧减少,但尚未经历足够时间以观察到种群分化增强。另一种可能性是,标记-重捕获技术未能有效检测到维持种群不分化的低频基因流事件。
阶石模型与集合种群模型
受日本庭园中铺路石板启发而提出的阶石模型(stepping-stone model),通过限制大多数或全部基因流仅发生在相邻亚种群之间(Kimura 1953;见图4.5),近似模拟了离散亚种群间因距离产生的隔离现象。这种基因流模式在亚种群间产生的等位频率聚集效应,与本章第一节描述的连续分布个体群体中因距离隔离产生的效应在性质上极为相似(图4.3)。Kimura和Weiss(1964)对阶石模型进行了经典分析,他们证明:从两个亚种群中随机抽样获得的等位状态相关性取决于(i)两个被采样亚种群间相隔的亚种群数量,以及(ii)相邻群体间基因流与随机距离亚种群间长距离基因流的比例。正如距离隔离所预期的,等位状态相关性随亚种群间距离增加而降低。有趣的是,当亚种群分布于二维空间时,等位状态相关性随距离下降的速度比一维分布时更快。在二维阶石模型中,当基因流参数固定时,<math display="inline">F_{ST}</math>预计随群体数量的对数增长(见Slatkin和Barton 1989;Cox和Durrett 2002)。换言之,随着群体数量增加,维持相同种群结构水平所需的基因流强度也需相应增强。
对踏脚石模型(stepping-stone model)的逻辑扩展是集合种群模型(metapopulation model)。集合种群模型不仅模拟基因流动过程,还近似描述了自然种群中常见的持续灭绝与再定居现象。这类模型的灵感来源于先锋植物和树木等生物——它们在新形成的林窗中定居生长,但随着演替引入新物种并改变环境和竞争条件,最终会从某个斑块中消失。尽管先锋物种的每个亚种群最终都会灭绝,但在任意给定时间点仍有其他亚种群存在,且通过定居过程不断形成新的亚种群。因此,集合种群可视为多个较小亚种群或栖息地斑块的集合(关于集合种群及相关概念的不同定义,参见Hanski和Simberloff 1997),其概念与踏脚石模型相似。然而在集合种群中,单个亚种群存在一定灭绝概率,这些空出的位置可被重新殖民以建立新亚种群。
集合种群中的基因流动可建模为两种类型:一类是现存被占据亚种群间的基因流动(类似岛屿模型);另一类发生在灭绝亚种群被新殖民取代时。殖民过程中基因流动的模式可能呈现不同形式(Slatkin 1977):第一种形式是所有亚种群中随机抽取殖民者,称为迁移库基因流(migrant-pool gene flow);第二种形式是从单一随机亚种群中抽取殖民者,称为繁殖体库基因流(propagule-pool gene flow)。迁移库基因流与岛屿模型的基因流动模式相同,迁移者代表所有亚种群的平均等位基因频率。相反,繁殖体库基因流在新亚种群建立时可能引发遗传瓶颈,因为殖民者仅来自单个现存亚种群。
殖民形式对集合种群内新建亚种群杂合度的影响可通过下式描述:
<math display="block"> F_{S T}^{c o l o n y}=\frac{1}{2k}+\phi\biggl(1-\frac{1}{2k}\biggr)F_{S T} </math>
其中 <math display="inline">F_{S T}^{c o l o n y}</math> 是新建立亚种群中预期的等位基因频率分化,<math display="inline">k</math> 是二倍体拓殖者数量,<math display="inline">F_{S T}</math> 是现有亚种群间等位基因频率分化的程度,<math display="inline">\boldsymbol{\Phi}</math>(发音为”phi”)是新建立种群中两个等位基因拷贝来自同一亚种群的概率(Whitlock 和 McCauley 1990)。当 <math display="inline">\Phi=1</math> 时,colonization 对应于繁殖体库(propagule pool)(所有奠基等位基因拷贝均来自同一亚种群);当 <math display="inline">\boldsymbol\Phi=0</math> 时,对应于迁移库(migrant pool)(所有奠基等位基因拷贝来自不同亚种群)。由于从总种群中取样,所有新建亚种群都有机会通过血统同一性(identical by descent)建立等位基因,因此包含 <math display="inline">\textstyle{\frac{1}{2k}}</math> 项。对于通过繁殖体库建立的亚种群(即 <math display="inline">\Phi=1</math> ),等位基因因血统同一而纯合的概率会随着现有亚种群间等位基因频率分化的程度增加而升高。通过繁殖体库拓殖时,新建种群继承了现有亚种群的平均纯合度,加上来自有限种群取样的额外纯合度。通过迁移库拓殖时 <math display="inline">(\Phi=0)</math> ,奠基等位基因总是来自不同亚种群,因此杂合度与总种群杂合度(2pq)相同,仅存在有限拓殖者数量带来的取样误差。McCauley 等(1995)利用新建的 Silene alba 植物种群,估计 <math display="inline">\boldsymbol{\Phi}</math> 值在 0.73 至 0.89 之间,表明新种群在形成过程中确实经历了某些额外的取样过程,这些过程增加了种群分化。
在集合种群中,灭绝和再拓殖可能成为基因流的额外来源或额外限制(Maruyama 和 Kimura 1980;Wade 和 McCauley 1988)。对于所有二倍体拓殖者数量(k)的取值,繁殖体库拓殖都会增加整体种群分化。相反,迁移模型下整体分化的变化取决于现有亚种群间的基因流速率。当二倍体拓殖者数量(k)超过有效迁移个体数的两倍 <math display="inline">\left(2N_{e}m\right)</math> 时,分化趋于降低,因为拓殖实现了等位基因的额外混合。虽然 <math display="inline">F_{S T}</math> 是分化模式的有效度量指标,但其本身可能不足以有效估计经历灭绝和再拓殖的集合种群中的有效迁移率(Whitlock 和 Barton 1997;Pannell 和 Charlesworth 2000)。
Isolation by distance and by landscape connectivity
正如本章第一节所述,距离隔离被认为是许多种群中运行的基本过程。Rousset(1997)提出了一种相对简单的距离隔离模式检验方法,该方法已被广泛应用于实证研究。该检验依赖于所有亚种群对之间估计的<math display="inline">\hat{F}_{ST}</math>值,以及所有亚种群对之间的直线地理距离(即所谓的欧氏距离)估计值。在二维种群中,当存在距离隔离时,<math display="inline">\frac{\hat{F}_{ST}}{1-\hat{F}_{ST}}</math>(常称为线性化<math display="inline">\hat{F}_{ST}</math>)与地理距离对数的回归图预期具有正斜率。图4.18基于二维阶跃石种群模型的模拟数据展示了这种关系类型。Rousset(1997)证明这种回归线的斜率是繁殖个体密度和基因流距离方差的函数。遗传分化随距离增加的趋势也不强烈依赖于基因流分布或扩散核【dispersal kernel】的确切形状。
由于栖息地和景观具有物理异质性,且存在可能阻碍或促进基因流的多样化物种和群落组合,简单的亚种群间地理距离可能不是遗传分化的唯一原因。近期研究发展了一系列量化空间变异景观变量的方法,这些变量可能改变有效迁移率<math display="inline">\left(N_{e}m\right)</math>,从而与亚种群间的遗传分化存在因果关系。通过评估景观的连接性,定义栖息地区域并对其迁移或基因流发生能力进行评分,可生成摩擦表面或阻力表面,量化假设导致景观连接性变异的变量差异(Spear等,2010)。阻力表面可替代简单欧氏距离,用于检验分隔亚群落的景观特征与亚群落遗传分化之间的关系。
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/7243837e7f51e195916c92fc9ee2e3509c057162764017031b053bb6e1fba494.jpg
图4.18 阶跃石模型中的亚种群对间遗传分化随地理距离增加而增强,符合距离隔离的预期。直线表示最小二乘法拟合结果。模拟数据使用IBDSim v2(Leblois等,2009)的二维阶跃石岛模型代际溯祖模型生成。网格为<math display="inline">10\mathrm{~x~}10</math>个亚种群(每个含50个体),具有吸收边界【absorbing boundaries】,局域迁移率为0.01,采用双等位基因的<math display="inline">k</math>等位基因模型,突变率为0.0005。图中数据采样自网格中心25个亚种群(每个采样10个体)。所有亚种群对间的<math display="inline">F_{ST}</math>使用在线Genepop(Rousset 2008b)进行估计。
两种利用景观信息来检验亚群遗传分化成因的模型是最优路径法(Adriaensen et al. 2003)和电路理论(McRae 2006; McRae et al. 2008,两种方法的比较参见Marrotte和Bowman 2017)。在这些模型中,采样亚群周围的景观被特征化为一系列假设会影响遗传连通性的变量。这些变量可包括降雨或降雪量、海拔、土壤类型、平均温度等物理属性,以及植被覆盖度、群落类型、捕食者密度或人类活动等生物变量。
最优路径是种群对之间基于景观属性假设基因流速率最大的单一通道。图4.19展示了一个假设的景观,该景观被划分为一系列栅格单元(由于景观的数字化图像称为栅格数据,因此这种网格称为栅格网格),其中每个栅格的基因流速率根据下方平面地图的特征进行估算。图4.18A中连接各对亚群的实线即为基于栅格评分的最优路径(总基因流速率最大)。最优路径法隐含一个假设:扩散个体或配子能够评估整个景观以找到具有最大连通性的单一通道,且不考虑多重可能路径。
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/8b2a2f7fe74394867c3b428e02afae0dea8e65064bb7d3c2e07f5d24dec915df.jpg
图4.19 景观(由A和B下部平面的地形图表示)可被划分为栅格区域(称为栅格网格,因景观数字图像称为栅格数据),其中每对栅格的基因流连通性被评分(A和B的上部平面)。在此假设示例中,字母标记的节点代表亚群,栅格颜色越深表示基于景观变量的连通性越低。A图中虚线表示亚群间的欧氏距离,实线为亚群对间的单一最优路径(最大连通性与基因流)。B图中,所有栅格对间的连通性通过网状电路中的电阻器表示。电路中所有路径上各对亚群间的电压或电流类似于亚群间的净有效迁移率。C图展示了如何将所有亚群对的最优路径长度或电阻与线性化<math display="inline">F_{ST}</math>进行绘图。图中正斜率(实线)证明生成栅格评分的景观变量与亚群间遗传分化存在相关性。
数学框 4.2 通过电路分析预测景观基因流
另一种方法是考虑景观在亚种群之间提供了多条路径,每条路径的连接度可能不同。电路理论通过类比导线网络和电阻等电子元件中的电压或电流流动,模拟景观上多个位置之间的路径网络。图4.5展示了用于定义亚种群间”电阻”的最基本电路,其中亚种群间的有效迁移率连接被替换为电阻器。电阻距离是亚种群间有效迁移率概率的函数,而非地理距离的函数。
图4.18B展示了一个被划分为网格方块的假设景观。网格单元间的连接性通过每对方块间的电阻器表示,这些互连构成电路。电路中任意位置的电压或电流可通过电路分析方法求解。电路中的电阻、电压和电流可解释为节点的连接性,类似于大量个体沿电路定义的路径随机移动时所经过的路径。McRae等(2008)综述了电路理论,并举例说明了如何通过电导率、电阻(电导的倒数)、电流或电压建模不同电路形式,以预测亚种群间的遗传连通性。
一个简单示例可说明如何通过电路分析类比景观上亚种群间的基因流。电路由导体和电子元件连接的节点网络表示。图4.20展示了一个带编号节点和电阻器的电路,其中A和B代表两个类比亚种群的节点。电流在A和B间的流动会在电阻最低的路径达到最大,但电流将流经电路所有分支。节点3-5的导体通过电阻器接地,起到分流部分电流的作用,这类似于部分迁徙个体在穿越节点3时死亡的情况。
节点的属性(如电导或电压)可通过基尔霍夫电路定律(节点电流代数和为零;闭合回路电压代数和为零)和欧姆定律(电流=电压/电阻)进行预测。电路节点的电流或电压可表达为含多个未知数的方程组。
在节点1处,从B方向流入1A电流,流出电流量由含电阻器的两条导体上的电压差决定:
<math display="block"> 1={\frac{V1-V3}{R1}}+{\frac{V1-V2}{R4}} </math>
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/ff2861571d76cb25a6150822c1d26260cf6235aeaacdc3c3f6cf5c70b2cf68ed.jpg
图 4.20 用电阻器表示亚种群A和B间景观遗传连接的示例电路。
在节点2,电流从节点1的方向流入并向节点4流出。我们可以重复使用流经电阻4的电流表达式,并将其设为流经电阻5的流出电流,从而得到
<math display="block"> {\frac{V1-V2}{R4}}={\frac{V2-V4}{R5}} </math>
在节点3,我们重复使用流经电阻1的电流表达式作为流入电流,并将其设为流向节点4和5的流出电流之和
<math display="block"> {\frac{V1-V3}{R1}}={\frac{V3-V4}{R3}}+{\frac{V3-V5}{R2}} </math>
举例而言,设电阻值为 <math display="inline">{\mathsf{R}}1={\mathsf{R}}3=1</math>,<math display="inline">{\mathsf{R}}4={\mathsf{R}}5=2.</math>,以及 <math display="inline">\mathsf{R}2=20</math>。我们还利用连接到地的导体电压为零这一事实,确定V4和V5均为零。代入并简化后,得到三个方程与三个未知数:
<math display="block"> \begin{array}{c}模板:1=1.5V1-V3-0.5V2\ {{}}\ 模板:0=V2-0.5V1\ {{}}\ 模板:0=2.05V3-V1\end{array} </math>
通过定义包含各变量系数的矩阵,并采用多种方法(如矩阵求逆或Cramer法则)求解这些线性方程的未知数(参见教材网页链接,该网站展示线性方程组的求解步骤)。电压解为 <math display="inline">\vee1=1.31</math>,<math display="inline">\lor2=0.66,</math> 和 <math display="inline">\sqrt{3}=0.64</math>。已知电压后,流经电阻R3到节点4的电流为V3/ <math display="inline">{\sf R}3=0.64</math>,流经电阻R5到节点4的电流为 <math display="inline">\scriptstyle\sqrt{2/{\mathrm{R}}5=0.66/2=0.33</math>,流经电阻R2到节点5的电流为V3/ <math display="inline">R2=0.64/20=0.032</math>。
回到A与B之间的遗传连通性,电路模型显示:33%的基因流沿路径1-2-4,64%沿路径1-3-4,而节点3处3.2%的基因流未成功。
McRae和Beier(2007)研究了线性化<math display="inline">F_{S T}</math>与地理距离、最低成本路径以及电路理论电阻之间的相关性,研究对象包括分布于中美洲的8个大叶桃花心木亚种群和北美西部的12个貂熊亚种群。两个物种的亚种群均被复杂景观和数百至数千公里的距离分隔。在两类物种中,使用电路理论表示景观基因流阻力的方法,比单纯地理距离更能强相关于亚种群对间的遗传分化。
景观方法在测试遗传分化原因时,倾向于采用这样一种视角:基因流是一个强烈的过程,而可能淡化遗传漂变速率在整个景观中的变化贡献——例如有效种群大小和基因流速率变化所预期的那样。尽管McRae(2006)已从有效迁移率(<math display="inline">N_{e}m</math>)的角度阐述了阻力和传导的概念,但这一观点依然存在。另一个挑战是,当前观察到的遗传分化实际上是历史过程在较长时间尺度上运作的记录。对于许多物种,我们可能预期亚种群间的遗传分化是景观连通性随时间变化的函数。因此,遗传分化与用于假设连通性的景观特征和生态变异通常不会在相似时间尺度上发生变化,这使得推断遗传分化原因更加困难。
遗传分化的不同起源种群。与其将采样位置作为先验的遗传群体证据,另一种方法是从基因型样本本身寻找证据以建立遗传群体,进而估计遗传分化。这类种群分配或聚类方法现已发展成熟,并被广泛用于经验性多位点基因型数据以推断遗传亚种群和估计遗传分化。传统上这些方法被分为基于模型的方法和基于统计估计的方法。基于模型的聚类方法依赖于明确的种群遗传模型以及对被采样种群作用过程的假设。基于统计估计的方法可用于确定遗传数据中的模式,从而将个体归入不同聚类。
混合(Admixture):在基因型分配方法的语境中,指通过杂交或历史上的基因流与交配,来自多个遗传分化种群的个体在其多位点基因型中发现的等位基因。不同位点可能表现出不同的种群起源,导致一个多位点基因型被分配不同比例的种群起源。
4.7 种群分配与聚类
• 最大似然分配
• 贝叶斯分配与聚类
• 经验性分配与聚类
当检测种群遗传分化时,个体通常从多个地理位点采样,这些位点随后作为比较基因型和等位基因频率差异的单位。然而,采样的地理单位可能无法很好地代表遗传种群单位。例如,分布于多个地理位点的个体可能属于同一遗传种群,而同一地理位点内的个体可能处于混合状态——最近来自
后验概率(Posterior probability):通过贝叶斯规则将先验概率与似然证据相结合后,赋予某个假设的概率。
概率(Probability):在指定模型下观察到某个结果的可能性。例如,在给定种群等位基因频率和Hardy-Weinberg模型时,特定基因型出现的概率。
最大似然分配
一种将基因型归源至其来源种群的方法,是通过计算基因型在已知等位基因频率的种群中,在特定交配模型下的期望频率。这将提供基因型(数据)的似然值,其中每个来源种群代表一种可能的起源(或具有等位基因频率作为参数值的模型版本)。我们将基因型分配给能产生该基因型最大生成似然值的来源种群(或模型版本)。为理解这种基于最大似然的种群归源方法的简化版本,假设存在两个双等位基因位点(称为位点A和位点B),且个体分布于两个已知等位基因频率的亚种群中。
在种群一中,等位基因频率为<math display="inline">p_{\mathrm{A}}=0.3</math>、<math display="inline">p_{\mathrm{a}}=0.7</math>、<math display="inline">p_{\mathrm{B}}=0.4</math>、<math display="inline">p_{\mathrm{b}}=0.6</math>;而在种群二中,等位基因频率为<math display="inline">p_{\mathrm{A}}=0.7</math>、<math display="inline">p_{\mathrm{a}}=0.3</math>、<math display="inline">p_{\mathrm{B}}=0.6</math>、<math display="inline">p_{\mathrm{b}}=0.4</math>。现考虑一个基因型为AABB的个体:基于其基因型,该个体应属于哪个种群?
在随机交配假设下,AABB基因型的期望频率为<math display="inline">\big({p_{\mathrm{A}}}^{2}\big)\big({p_{\mathrm{B}}}^{2}\big)</math>。因此,该个体来自两个种群的可能性各是多少?为确定这一点,需分别使用两个种群的等位基因频率计算基因型的期望频率。在种群一中,期望基因型频率为<math display="inline">(0.3)^{2}(0.4)^{2}=(0.09)(0.16)=0.0144</math>,而在种群二中为<math display="inline">(0.7)^{2}(0.6)^{2}=(0.49)(0.36)=0.1764</math>。由于这些期望概率可能非常小(例如由多位点组成的多基因座基因型),通常将其表示为自然对数或以<math display="inline">e</math>为底的对数。
AABB基因型的自然对数似然值在种群一中为<math display="inline">\ln(0.0144)=-4.24</math>,在种群二中为<math display="inline">\ln(0.1764)=-1.74</math>。最大似然法的统计学原理是选择能使观测数据的对数似然值最大化的参数值或分布作为最优估计。在此案例中,基于种群等位基因频率,将AABB基因型个体归源至种群二时对数似然值最大(对数似然值最接近零)。
要确定基因型最大似然群体分配的置信度,需要比较所有可能基因型在潜在起源群体中的似然分布。这些分布可通过模拟大量在随机交配(或其他交配模型)下可能观察到的基因型来生成,前提是已知群体等位基因频率(参见交互框4.6)。模拟的似然分布为对数似然值提供置信区间。若负对数似然值落在某群体的置信区间之外,则认为该基因型不太可能起源于该群体。在上述简单示例中,AABB基因型可能分配到任一群体,因其似然分布存在重叠,故对其起源为群体二的分配缺乏高置信度。一般而言,等位基因频率分化的群体,其对数似然分布的重叠程度会随着位点数量增加和每个位点等位基因数增多而减少。
最大似然分配法最初应用于加拿大北极熊群体(Paetkau et al. 1995),现已被大量实证研究采用。该方法在以下条件下最为有效:(i)等位基因频率的估计独立于待分配群体的基因型集合;(ii)群体间等位基因频率存在分化;(iii)每个潜在源群体的交配为随机且位点独立(或固定指数<math display="inline">(F)</math>与不平衡系数<math display="inline">(D)</math>被准确估计并纳入基因型频率期望值),从而确保期望基因型频率模型的准确性;(iv)存在大量多态位点,使得任何给定多位点基因型的期望频率极低,从而提高基因型独特性。关于似然分配功效与精度的模拟研究结果详见Paetkau et al. (2004)。
贝叶斯分配
贝叶斯统计推断现已被广泛应用于群体遗传学推论。贝叶斯定理以托马斯·贝叶斯牧师(Reverend Thomas Bayes,1701–1761)命名,其遗作…
交互框4.6 基因型分配与聚类
通过教材网站可获取的电子表格模型文件,展示了似然法与贝叶斯法的基因型分配,以及推断最优支持群体数量的贝叶斯方法。
“基因型似然”标签页中的模型允许为三个群体设定两个双等位位点的等位基因频率。基于这些频率,为每个群体生成随机基因型样本。计算每个随机基因型的自然对数似然值,并通过图表比较三群体的对数似然分布。修改等位基因频率可观察其对对数似然分布的影响。
“贝叶斯分配”标签页展示了将AABB基因型分配到三个潜在起源群体所需的全部贝叶斯计算步骤。修改等位基因频率和先验概率分布,可观察其对后验概率、多位点分配及三个潜在起源群体的比例分配的影响。
贝叶斯推断的K表提供了一个基于随机分配的启发式聚类方法,将六个双位点基因型分配到一个或两个集群中。这有助于理解聚类的基本原理,但未包含完整方法中的众多细节,例如等位基因频率的先验分布【“prior distributions”译为“先验分布”】,或基于等位基因频率估计的基因型集群分配迭代更新【“iterative updating”译为“迭代更新”】。用户可通过重新计算工作表对基因型进行重采样,也可更改六个基因型的池。
1763年,托马斯·贝叶斯(Thomas Bayes)首次提出了这一概念框架。独立地,皮埃尔-西蒙·拉普拉斯(Pierre-Simon Laplace)发展了相同思想,并于1774年用一个方程形式化地定义了在观察到组合事件或条件下的结果后某一事件的概率(见Stigler 1986)。贝叶斯定理基于似然性,通过将假设置于一个权衡观察证据与先验信念的语境中,并通过总概率进行归一化(见数学框4.2)。
我们通过一个示例说明如何用贝叶斯规则确定后验概率分布,从而将基因型AABB的个体分配到多个可能来源种群(已知等位基因频率)之一。表4.10给出了三个可能来源种群在A和B位点的等位基因频率。对于一个基因型和<math display="inline">K</math>个可能来源种群,贝叶斯规则可表述为:
<math display="block"> P(K\mid \text{genotype})={\frac{P(\text{genotype}\mid K)P(K)}{P(\text{genotype})}} </math>
确定种群<math display="inline">K</math>是该基因型来源的后验概率需要方程右侧的三个量:
<math display="inline">P(K)</math>是各可能种群作为AABB来源的先验概率。本例中,三个种群被视为AABB个体的等可能来源,因此每个<math display="inline">K</math>的先验概率相等,为<math display="inline">1/K=1/3</math>。存在多种可能的替代先验概率分布。例如,先验概率可基于空间位置加权,使采样基因型地理位置更近的来源种群具有更高的先验概率。
<math display="inline">P(\text{genotype}|K)</math>是给定来源种群时基因型的似然。在随机交配下,AABB基因型的期望频率为<math display="inline">(p_{\mathrm{A}}^2)(p_{\mathrm{B}}^2)</math>。这与本节前文用于似然分配的计算相同。表4.中种群1的AABB基因型似然为<math display="inline">(0.5^2)(0.8^2)=0.16</math>。<math display="inline">P(\text{genotype})</math>是在任何来源种群中观察到AABB基因型的总概率。该总概率为各种群基因型似然与种群先验概率乘积之和,即<math display="inline">\sum_{K=1} P(\text{genotype}\mid K)P(K)</math>。先验概率在不同来源种群间可能不同,但总和恒为1。如表4.10所示,AABB基因型的总概率为<math display="inline">(0.16)(0.333)+(0.0196)(0.333)+(0.0256)(0.333)=0.0069</math>。将这三个量结合用于种群1作为AABB个体的来源,得到其后验概率为——
表 4.10 使用贝叶斯法则进行基因型群体归属的示例。两个双等位基因座A和B,以及三个可能的群体。基于贝叶斯法则确定的后验概率,将基因型为AABB的个体归属到起源群体。给定群体下基因型的条件概率基于随机交配的Hardy–Weinberg预期。均匀先验概率分布假设个体来自三个起源群体的可能性相等。若存在混合,两个单一位点基因型被归属到不同起源群体,导致对群体1和3的分数归属<math display="inline">(q_{i\uparrow}=q_{i3}=0.5)</math>。
等位基因频率 | 1 | 2 | 3 |
---|---|---|---|
P(A) | 0.5 | 0.2 | 0.8 |
P(a) | 0.5 | 0.8 | 0.2 |
P(B) | 0.8 | 0.7 | 0.2 |
P(b) | 0.2 | 0.3 | 0.8 |
基因型AABB的条件概率 | 1 | 2 | 3 |
---|---|---|---|
群体K) | (0.5)² = 0.25 | (0.2)² = 0.04 | (0.8)² = 0.64 |
群体K) | (0.8)² = 0.64 | (0.7)² = 0.49 | (0.2)² = 0.04 |
群体K) | (0.5)²(0.8)² = 0.16 | (0.2)²(0.7)² = 0.0196 | (0.8)²(0.2)² = 0.0256 |
先验概率P(群体K) | 0.33 | 0.33 | 0.33 |
基因型AABB的概率 | 1 | 2 | 3 |
---|---|---|---|
P(G-A locus) | (0.25)(0.33) = 0.083 | (0.04)(0.33) = 0.013 | (0.64)(0.33) = 0.213 |
P(G-B locus) | (0.64)(0.33) = 0.213 | (0.49)(0.33) = 0.163 | (0.04)(0.33) = 0.013 |
P(G-多位点) | (0.16)(0.33) = 0.053 | (0.0196)(0.33) = 0.007 | (0.0256)(0.33) = 0.009 |
后验概率 | 1 | 2 | 3 |
---|---|---|---|
G-A locus) | <math display="inline">\frac{0.25×0.33}{0.083+0.013+0.213}=0.269</math> | <math display="inline">\frac{0.04×0.33}{0.083+0.013+0.213}=0.043</math> | <math display="inline">\frac{0.64×0.33}{0.083+0.013+0.213}=0.688</math> |
G-B locus) | <math display="inline">\frac{0.64×0.33}{0.213+0.163+0.013}=0.547</math> | <math display="inline">\frac{0.49×0.33}{0.213+0.163+0.013}=0.419</math> | <math display="inline">\frac{0.04×0.33}{0.213+0.163+0.013}=0.034</math> |
G-多位点) | <math display="inline">\frac{0.16×0.33}{0.053+0.007+0.009}=0.780</math> | <math display="inline">\frac{0.0196×0.33}{0.053+0.007+0.009}=0.096</math> | <math display="inline">\frac{0.0256×0.33}{0.053+0.007+0.009}=0.125</math> |
<math display="block"> \frac{(0.16)(0.333)}{0.053+0.007+0.009}=0.780 </math>
如表 4.10 所示,归属到群体2或群体3的后验概率较低,因此最支持的推断是AABB个体起源于群体1。注意后验概率之和为1。
贝叶斯归属程序的最简版本假设个体基因型中所有位点均源自单一群体。
在假设所有位点均源自单一来源种群的前提下,表4.10中对基因型进行多位点分配到种群1的推断。贝叶斯分配方法还可考虑混合(admixture)的可能性,即由于历史上种群间个体的杂交和交配,单个体的多位点基因型中不同位点可能源自多个不同种群。在混合模型下,<math display="inline">q_{k}^{i}</math>表示个体<math display="inline">i</math>的多位点基因型中源自种群<math display="inline">k</math>的比例。表4.10展示了考虑混合的种群分配结果,在示例中,A位点基因型被分配到种群3,而B位点基因型被分配到种群1。
图4.21展示了贝叶斯混合聚类分析的完整案例。基于模拟的10个位点基因型数据,从四个地点各取样的20个个体被划分为四个集群。每个个体的多位点基因型中源自各集群的比例(<math display="inline">\overset{\cdot}{q_{k}^{i}}</math>,y轴显示)表明:前三个集群中仅有少数个体具有显著比例的近期混源祖先成分,这与因基因流缺乏导致的高水平遗传分化一致。相反,第四个集群中大多数个体的部分位点显示出近期与其他集群的祖先关联,这符合近期存在基因流和较低遗传隔离的预期。
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/905ff44d8f569fb7dbeaf1d1ca81f1b6053243941d441cc6bd4f60a59eeed9ed.jpg
图4.21 使用STRUCTURE软件的混合模型(Pritchard et al. 2000),基于贝叶斯后验概率将个体聚类为四个种群。每个个体的条形图显示其被分配到四个集群的祖先比例。该图基于有限岛屿模型(共20个种群,<math display="inline">N_{e}m=0.1</math>且无突变)下模拟的10个双等位位点数据。四个种群取样后,经过100代演化,20个种群间观测到<math display="inline">G_{ST}=0.59</math>。
贝叶斯方法可扩展用于检验遗传数据支持的种群数量假设。这允许基于观测数据对最优支持种群数量进行假设检验,而非假设地理分布或其他标准代表遗传实体。该方法通过贝叶斯定理获得后验概率,其原理与前述基因型分配类似但有所改进。最优聚类是使观测基因型数据的后验概率最大化的<math display="inline">K</math>值和基因型分配方案。
第一步是设定可能群体或集群数量<math display="inline">K</math>的范围,从一到某个最大值。(一种可能性是使用采样地理位点的数量作为最大<math display="inline">K</math>。)然后将所有<math display="inline">N</math>个观测基因型随机分配到从一到<math display="inline">K</math>的各个集群中。例如,当<math display="inline">k=1</math>时,所有<math display="inline">N</math>个基因型都被分配到同一个集群;当<math display="inline">k=2</math>时,基因型被随机分配到两个各含<math display="inline">N/2</math>个体的集群,以此类推直到每个<math display="inline">K</math>值对应的<math display="inline">N/K</math>规模集群。
接着计算这些随机分配基因型集群的等位基因频率。在确定每个集群的等位基因频率后,基于给定<math display="inline">K</math>下基因型分配到集群的情况,计算每个基因型的后验概率以及所有基因型聚类配置的后验概率。
随后对每个<math display="inline">K</math>的集群分配进行微小调整:随机将部分基因型重新分配到不同集群(提出新的基因型-集群分配方案)。如果这种重新分配提高了后验概率,则保留新方案,否则维持前一步的分配。(马尔可夫链蒙特卡洛[Markov chain Monte Carlo, MCMC]方法中的Metropolis-Hastings算法或Gibbs采样等,可用于估计使后验概率最大化的参数值。)
通过多次重复这种基因型分配的随机调整生成新方案的过程,可以估计每个<math display="inline">K</math>对应的最大后验概率。实际推断<math display="inline">K</math>的完整模型比此处描述的更为复杂,包括等位基因频率的先验概率分布,以及通过迭代过程先估计集群等位基因频率再根据后验概率重新分配基因型等细节(Pritchard et al. 2000; Falush et al. 2003)。
具有最高基因型数据后验概率的聚类数<math display="inline">K</math>是将基因型最佳支持分配到种群中的方案。表4.11给出了将图4.16所示模拟基因型数据分组为1到6个聚类的平均后验概率。四个聚类<math display="inline">(k=4)</math>对基因型数据的概率最高,因此是最佳支持的聚类数。通过模拟,Evanno等(2005)表明,使用后验概率推断聚类规模受遗传标记类型和样本量的影响。他们建议利用基因型数据对数概率随<math display="inline">K</math>值变化的速率来推断最佳支持的聚类数(另见Verity和Nichols 2016)。混合模型在种群分配中表现出更强的稳健性(François和Durand 2010)。Kaeuffer等(2007)展示了由遗传漂变引起的背景配子不平衡如何影响种群聚类的推断。Wang(2017)通过模拟数据证明,程序Structure(Pritchard等 2000)中估计的<math display="inline">K</math>和个体分配结果依赖于模型参数,且可能需要极少使用的参数组合才能准确将个体分配到源种群。由于聚类方法缺乏显式的突变模型,其结果可能对突变模式以及过滤低频近期突变的数据敏感(Shringapure和Xing 2009;Linck和Battey 2019)。Janes等(2017)综述了大量估计<math display="inline">K</math>的研究,并讨论了贝叶斯聚类应用和解释中可能的缺陷。Lawson等(2018)揭示了遗传聚类如何导致种群历史推断错误,并提出评估拟合优度的方法。贝叶斯聚类的替代模型和算法变体已在可分析基因型数据的软件包中实现(例如Guillot等 2005;Corander等 2008;Jay等 2015)。
数学框4.3 贝叶斯定理
假设<math display="inline">A</math>和<math display="inline">B</math>是代表具有两个水平(如存在和不存在)的事件或条件的变量。目标是通过与变量<math display="inline">B</math>相关的信息来学习<math display="inline">A</math>某一水平的概率。<math display="inline">P(A\mid B)</math>是在<math display="inline">B</math>为真时事件<math display="inline">A</math>发生的条件概率,其等于
<math display="block"> P(A\mid B)={\frac{P(A\cap B)}{P(B)}} </math>
<math display="block"> P(A\mid B)P(B)=P(B\mid A)P(A) </math>
为确定给定<math display="inline">B</math>时<math display="inline">A</math>的条件概率,我们可以重新排列方程得到贝叶斯规则
<math display="block"> P(A\mid B)={\frac{P(B\mid A)P(A)}{P(B)}} </math>
该式表明,给定<math display="inline">B</math>时<math display="inline">A</math>的概率等于<math display="inline">A</math>和<math display="inline">B</math>的联合概率(<math display="inline">A</math>与<math display="inline">B</math>的交集)除以事件<math display="inline">B</math>的概率。(注意,若<math display="inline">A</math>和<math display="inline">B</math>独立,则<math display="inline">P(A\cap B)=P(A)P(B)</math>,此时<math display="inline">P(A\mid B)</math>等于<math display="inline">P(A)</math>。)基于这一条件概率关系的重新排列,可得
<math display="block"> P(B\cap A)=P(A\mid B)P(B) </math>
交换<math display="inline">A</math>和<math display="inline">B</math>的顺序后,同样可得
<math display="block"> P(A\cap B)=P(B\mid A)P(A) </math>
由于<math display="inline">P(B\cap A)=P(A\cap B)</math>,我们将这些交集概率的定义代入后可得
其中 <math display="inline">P(A)</math> 和 <math display="inline">P(B)</math> 是 <math display="inline">A</math> 和 <math display="inline">B</math> 相互独立时的概率(称为边际概率)。<math display="inline">P(A)</math> 是在考虑任何关于 <math display="inline">B</math> 的信息之前的事件 <math display="inline">A</math> 概率,称为先验概率。<math display="inline">P(B\mid A)</math> 是给定 <math display="inline">A</math> 时 <math display="inline">B</math> 的条件概率或似然。<math display="inline">P(A\mid B)</math> 也是给定 <math display="inline">B</math> 为真时事件 <math display="inline">A</math> 发生的条件概率。<math display="inline">P(A\mid B)</math> 被称为后验概率,它是我们需要确定的概率。分母中的概率 <math display="inline">P(B)</math> 是所有 <math display="inline">B</math> 为真的可能结果的概率之和,有时称为归一化常数。例如,若 <math display="inline">A</math> 有两种观测状态——真(<math display="inline">A</math>)和假(<math display="inline">A^{\prime}</math>)——则 <math display="inline">P(B)=P(A\cap B)+P(A^{\prime}\cap B)=P(B\mid A)P(A)+P</math> <math display="inline">(B\mid A^{\prime})P(A^{\prime})</math>。这里假设 <math display="inline">P(B)</math> 不等于零。
表 4.11 展示了使用 STRUCTURE(Pritchard et al. 2000; Falush et al. 2003)估计的模拟数据(图 4.16)在 <math display="inline">K</math> 取 1 到 6 时各聚类自然对数后验概率值的分布。给定 <math display="inline">k</math> 时数据的后验概率是对每个 <math display="inline">k</math> 进行 10 次独立聚类估计的平均值。后验概率的最大值和平稳区均表明 <math display="inline">k=4</math> 是最优估计值。模拟基因型数据来自有限岛屿模型中 4 个种群(每个种群 20 个体)的 10 个双等位基因位点,参数为 <math display="inline">N_{e}m=0.02</math>、无突变、20 个总种群模拟 100 代。
k | Posterior probability |
---|---|
1 | -1026.6 |
2 | -863.8 |
3 | -688.7 |
4 | -634.1 |
5 | -656.4 |
6 | -666.8 |
经验分配方法
给定从多个地点收集的多位点基因型数据集,可以使用多种统计方法来汇总遗传数据、进行统计检验或实现数据可视化。传统经验群体聚类方法通过估计样本中所有基因型间的遗传距离来实现。遗传距离通过量化个体间的等位基因相似性来反映血缘同源程度。聚类可通过以下步骤完成:首先估计个体间的遗传距离,然后将基因型分组以最小化组内遗传距离并最大化组间遗传距离(遗传距离将在第 5 章详细讨论)。这一过程具有挑战性,因为需要选择合适的遗传相似性度量和聚类流程,才能在缺乏遗传过程完整知识的情况下从数据中提取有意义的结构模式。
对于具有多个位点的遗传数据,高维度使得解释变得困难。主成分分析(PCA)是一种成熟的数学技术,广泛应用于具有许多潜在相关自变量的大型数据集(Pearson 1901;Hotelling 1933)。该技术通过原始变量的线性组合,创建数量更少的新变量(即坐标轴)。PCA轴是原始变量的加权和,每个变量的权重由其对新变量的贡献程度决定,这种系数称为载荷。定义新变量可消除原始变量间的相关性。新变量轴是正交的——即呈直角关系的向量——且为独立变量。新轴还按其解释原始数据变异量的程度排序,第一PCA轴解释的变异量最大。(熟悉线性代数的读者可将新变量视为原始数据的特征向量,其特征值的大小量化了该轴解释的方差量。线性代数概念入门可参考Otto和Day(2007)的著作。)
交互框4.7 主成分分析可视化
通过图示原始轴与新轴的关系,可以更直观地理解PCA。网络上有大量利用图形或模拟演示PCA的教程。本文配套网页提供了多个实用网络资源的链接。
PCA最初作为经验聚类技术被用于降低多位点多等位基因遗传数据集的维度(Menozzi等,1978)。短读长测序技术可对每个个体生成数千个单核苷酸多态性(SNP)位点,这进一步推动了PCA分析在降低维度和可视化群体间或地理区域间遗传变异中的应用,该方法在处理超大规模数据集时具有相对较快的计算速度。
遗传数据的PCA分析始于对每个基因型或单倍型的评分。对于具有两个等位基因的常染色体二倍体位点,设<math display="inline">\mathrm{G}(i,j)</math>表示个体i在位点j的基因型评分:AA基因型记为2,Aa记为1,aa记为0,以反映基因型中A等位基因的数量。基因型评分需通过以下步骤进行中心化处理:首先计算每个位点的平均评分
<math display="block"> \mu_{j}=\frac{\displaystyle\sum_{i=1}^{N}G(i,j)}{N} </math>
然后将每个个体的基因型评分减去<math display="inline">\upmu_{j}</math>以使评分以均值为中心。接着用等位基因频率乘积的平方根(<math display="inline">p_{j}=\mu_{j}/2</math>)对中心化后的基因型评分进行标准化
<math display="block"> M(i,j)=\frac{G(i,j)-\mu_{j}}{\sqrt{p_{j}\big(1-p_{j}\big)}} </math>
回想二项分布的标准差为<math display="inline">\sqrt{p_{j}\big(1-p_{j}\big)}</math>可知,这种转换使每个基因型得分等于该位点上所有基因型A等位基因平均数偏离的标准差数。(对于具有两个以上等位基因的位点,二倍体基因型数据通过以下方式编码:为每个位点发现的每个等位基因单独设置一列,并通过个体携带的各等位基因数量进行评分。当每个位点具有两个以上等位基因时,将跳过重新标度的除法步骤(参见Cavalli-Sforza等1994;Patterson等2006)。由于具有共同祖先的个体其基因型会共享血统相同的等位基因,对基因型数据进行主成分分析可以估计多个位点的联合共祖关系。)
图4.22展示了来自四个采样点(每个点20个个体)的模拟10个位点基因型数据的主成分分析前两个轴。前两个主成分轴解释了约<math display="inline">61\%</math>的基因型变异,每个群体的数据点显示出与遗传分化群体一致的聚类趋势。群体4的数据点分布最分散,许多点与其他三个群体的数据点混杂,表明该群体近期经历了基因交流。作为对比,图4.17的主成分分析基于与图4.16中贝叶斯混合聚类相同的基因型数据。
Becquet等(2007)使用78只普通黑猩猩和六只倭黑猩猩的310个多态微卫星位点基因型数据,对主成分分析和贝叶斯聚类进行了类似比较。他们同时使用贝叶斯聚类和主成分分析来检测黑猩猩的遗传群体,并寻找群体间杂交个体的证据。两种数据分析方法结果一致,表明存在三个黑猩猩遗传群体,并推断两个野生个体为近期杂交后代。
针对群体遗传数据的主成分分析,已有形式化的遗传分化统计检验方法和检测遗传分化统计功效的评估方法(Patterson等2006)。McVean(2009)证明主成分分析模式与谱系间平均溯祖时间相关,从而建立了主成分分析模式与群体遗传预测模型(如群体分化和基因流/混合过程)的关键联系。一个应用案例是:基于采样点等位基因频率的主成分分析所解释的总变异度,等同于<math display="inline">F_{S T}</math>的估计值(McVean 2009)。主成分分析属于多变量分析方法家族,可应用于遗传数据以检测群体结构、鉴定杂种或杂交事件、检验群体间近期交配证据,并在多种模型下识别空间遗传模式(如Jombart等2008;Jombart等2009综述;Frichot等2012;Francois和Waits 2015)。
图 4.22 基因型数据的主成分分析显示10个二倍体位点的种群聚类。前两个主成分轴共同解释了近<math display="inline">72\%</math>的遗传变异。种群在主成分轴上的分布模式与遗传分化一致。种群1的点与其他种群分离程度最小,表明近期存在基因流和祖先关联。该图基于与图4.16相同的数据——在有限岛屿模型下模拟的10个双等位位点数据,模型包含20个总种群,<math display="inline">N_{e}m=0.1</math>,100代后当从四个种群各采样20个个体时,20个种群间的<math display="inline">G_{ST}=0.59</math>。
4.8 种群结构对谱系分枝的影响
多盒中的虫群。
具有种群分组的溯祖事件时间。
样本配置。
两个同类群中等待时间的均值与方差。
在存在基因流的结构化种群中,谱系可在同类群间迁移。通过溯祖视角,当前采样的两个谱系在回溯时可能经历 coalescence(融合)或 migration(迁移)(图4.23)。确定结构化种群中 coalescence 时间的均值与方差将揭示种群结构对谱系树的整体影响。特别地,我们希望了解相较于单一随机交配(panmixic)种群的基础溯祖过程,种群结构是否会改变谱系树高度的平均值和方差。我们将再次利用指数分布的特性来近似事件发生时间(见第3.6节)。
让我们从”盒中虫”隐喻的角度来理解多个同类群间存在基因流时的溯祖过程,该隐喻曾用于描述基础溯祖过程。在种群分组的情况下,虫群分布在多个盒子中,每个盒子代表一个同类群。虫在盒内随机移动并相互吞噬以减少数量。同时存在迁移的可能性:随机选择一只虫并移至其他盒子。若迁移事件极少发生,则单个盒子在迁出或迁入虫之前就有较大机会被缩减至仅剩一只虫。此时需要经过长时间积累足够多的迁移事件,才能使整个盒群最终缩减至单只虫。当迁移事件频繁时,虫在盒间频繁移动,盒子间形成有效连接。
图 4.23 两个deme的假设系谱。初始时,每个deme中各存在三个谱系。回溯时间的第一个事件是某个谱系从deme 1迁移到deme 2。迁移发生后,deme 2中由于谱系数量增加导致溯祖概率上升,而deme 1中由于谱系减少导致溯祖概率下降。继续回溯时间,deme 1中发生一次溯祖事件,随后deme 2中也发生一次溯祖事件。先前迁出deme 1的谱系又随机迁回deme 1。只有当最后的两个谱系通过迁移进入同一个deme后,所有谱系才能溯至最近的共同祖先。
因此,当所有”盒子中的bug”通过吞噬最终变为单个bug时,等待迁移事件发生的时间应该极少或为零。
结合溯祖和迁移事件
通过增加另一种可能发生的事件类型(从当前时间回溯至所有谱系找到最近共同祖先的过程中),可以描述存在基因流的系谱。我们假设溯祖和迁移事件都是稀有事件(或<math display="inline">N_{e}</math>很大且迁移率很小),因此在时间回溯中发生的事件只能是溯祖或迁移。换句话说,我们假设迁移和溯祖事件是互斥的。这种互斥性假设至关重要。当两个独立过程同时运作时,溯祖模型就转化为追踪谱系回溯并等待事件发生的模式。当事件独立但互斥时,所有可能事件的概率会被相加以获得总事件发生概率。例如:在随机交配下,双等位基因位点的二倍体基因型为杂合体的概率是<math display="inline">2pq</math>。这是独立采样Aa和aA两种情况的概率之和(杂合体的概率并非<math display="inline">\left(pq\right)^{2}</math>,后者是同时采样Aa和aA的概率)。因此,如果我们能找到谱系每代迁移到不同deme的概率的指数近似,就可以将其直接叠加到溯祖概率的指数近似上。
在细分种群中,每个世代都可能发生谱系从一个deme迁移到其他deme的情况。迁移率<math display="inline">m</math>表示谱系每代迁移的概率。因此,谱系未迁移的概率为每代<math display="inline">1-m</math>。在经历<math display="inline">t</math>代后发生迁移事件的概率即为<math display="inline">t-1</math>代未迁移后发生迁移的概率乘积:
<math display="block"> P\big(T_{迁移}=t\big)=(1-m)^{t-1}m </math>
这与第3章中给出的经过t代后发生溯祖(coalescent)事件的概率形式完全相同。与溯祖概率类似,随时间迁移的概率也是一个几何级数,可以用指数分布近似(见数学框3.2)。为了得到<math display="inline">e</math>的指数(或迁移过程的强度),我们需要确定种群中迁移发生的预期速率。
现在考虑基因流岛屿模型中的迁移事件,该模型包含<math display="inline">d</math>个繁殖群(deme),每个繁殖群包含<math display="inline">2N_{e}</math>个谱系。总种群大小为所有繁殖群大小之和,即<math display="inline">2N_{e}d</math>个谱系。当时间以连续尺度<math display="inline">t=\frac{j}{2N_{e}d}</math>度量时,一个时间单位相当于<math display="inline">2N_{e}d</math>代。若经过<math display="inline">2N_{e}d</math>代且每代迁移概率为<math display="inline">m</math>,则在整个种群中一个连续时间单位内预期会发生<math display="inline">2N_{e}dm</math>次迁移事件。若定义<math display="inline">M=4N_{e}m</math>,则<math display="inline">M/2</math>等价于<math display="inline">2N_{e}m</math>,即单个繁殖群内谱系的迁移概率(每繁殖群迁移率)。各繁殖群的迁移概率相互独立,因此整个种群中迁移事件的预期次数为各繁殖群迁移概率之和,即<math display="inline">\textstyle{\frac{M}{2}}d</math>。由此可得任一繁殖群中单个谱系在第<math display="inline">t</math>代迁移的指数近似概率:
<math display="block"> P\big(T_{migration}=t\big)=e^{-t\frac{M d}{2}} </math>
在连续时间尺度上。当存在多个谱系时,每个谱系具有独立的迁移概率,但仅有一个谱系会发生迁移。因此,我们将所有<math display="inline">k</math>个谱系的<math display="inline">e^{-t_{2}^{M d}}</math>迁移概率相加,得到总迁移概率:
<math display="block"> P\big(T_{migration}=t\big)=e^{-t\frac{M d}{2}k} </math>
适用于<math display="inline">d</math>个繁殖群的<math display="inline">k</math>个祖先谱系。<math display="inline">k</math>个谱系在某时刻或之前发生迁移的概率可通过累积指数分布近似:
<math display="block"> P\big(T_{migration}\leq t\big)=1-e^{-t\frac{M d}{2}k} </math>
其推导方式与溯祖事件时间的近似方法完全相同。
当两个独立过程同时作用时,谱系回溯的系谱模型将转化为等待事件发生的模型。此时可能的事件为迁移或溯祖,因此任何事件的总概率为这两类互斥事件独立概率之和。由于谱系必须处于同一繁殖群才能溯祖,溯祖事件的概率为:
<math display="block"> P(T_{coal}\leq t)=1-e^{-t d\sum_{i=1}^{d}\frac{k_{i}(k_{i}-1)}{2}} </math>
当第<math display="inline">i</math>个繁殖群有<math display="inline">k_{i}</math>个祖先谱系时,这是基本溯祖模型的改进版本,考虑了<math display="inline">d</math>个繁殖群和以<math display="inline">2N_{e}d</math>为尺度的时间。(注意当<math display="inline">d=1</math>时,连续时间尺度上的溯祖预期时间退化为<math display="inline">\frac{k(k-1)}{2}</math>。)回溯时间(增加<math display="inline">t</math>)时发生任一事件(溯祖或迁移)的总概率为:
<math display="block"> P(T_{event}\leq t)=1-e^{-t\left[d k_{2}^{M}+d\sum_{i=1}^{d}\frac{k_{i}(k_{i}-1)}{2}\right]} </math>
其中指数项为迁移和溯祖过程强度的总和。在最简单的
当有两个繁殖群(<math display="inline">d=2</math>),每个繁殖群中分别有<math display="inline">k_{1}</math>和<math display="inline">k_{2}</math>条祖先谱系时,式4.86可简化为
<math display="block"> P(T_{e v e n t}\leq t)=1-e^{-t\left[(k_{1}+k_{2})\frac{M}{2}+\frac{k_{1}(k_{1}-1)}{2}+\frac{k_{2}(k_{2}-1)}{2}\right]} </math>
(Hudson 1990中的示例),其中时间以总群体大小<math display="inline">2N_{e}d</math>或所有繁殖群中谱系数量之和为单位进行缩放。
当根据式4.86的指数分布在时间<math display="inline">t</math>发生事件时,需要判断该事件是合并还是迁移。事件为迁移或合并的总概率为<math display="inline">d k{\frac{M}{2}}+d\sum_{i=1}^{d}{\frac{k_{i}{\big(}k_{i}-1{\big)}}{2}}</math>。因此,事件为迁移的概率为
<math display="block"> \frac{d k\frac{\frac{M}{2}}{\displaystyle d k\frac{M}{2}+d\sum_{i=1}^{d}\frac{k_{i}(k_{i}-1)}{2}}}{d k\frac{M}{2}+d\sum_{i=1}^{d}\frac{k_{i}(k_{i}-1)}{2}}=\frac{k M}{k(M-1)+\sum_{i=1}^{d}k_{i}^{2}} </math>
而事件为合并的概率为
<math display="block"> \frac{d\displaystyle\sum_{i=1}^{d}\frac{k(k_{i}-1)}{2}}{d k\displaystyle\frac{M}{2}+d\displaystyle\sum_{i=1}^{d}\frac{k_{i}(k_{i}-1)}{2}}=\frac{\displaystyle\sum_{i=1}^{d}(k_{i}^{2}-k_{i})}{k(M-1)+\displaystyle\sum_{i=1}^{d}k_{i}^{2}} </math>
当发生合并事件时,由于具有更多祖先谱系的繁殖群更可能发生合并(繁殖群<math display="inline">j</math>发生合并的概率为<math display="inline">{\frac{\frac{k{\big(}k_{j}-1{\big)}}{2}}{\displaystyle\sum_{i=1}^{d}{\frac{k_{i}(k_{i}-1)}{2}}}}={\frac{k_{j}{\big(}k_{j}-1{\big)}}{\displaystyle\sum_{i=1}^{d}k_{i}(k_{i}-1)}}</math>),需随机选择一个繁殖群。
图4.24展示了当迁移率相对较高或较低时,合并与迁移联合过程的两次实现。每个事件的等待时间由式4.86指定的指数分布确定。
交互框4.8 两繁殖群间迁移的基因谱系
包含繁殖群间迁移可能的溯祖谱系可通过累积指数分布确定事件等待时间来构建。确定等待时间后,使用事件概率判断该事件是迁移还是合并。若为合并事件,则随机选择一个繁殖群中的一对随机谱系进行合并,该繁殖群的祖先谱系数<math display="inline">(k_{i})</math>减1。若为迁移事件,则随机选择一条谱系移入随机繁殖群。构建谱系的具体步骤请参考交互框3.4(编号80×3.4)。
教材网站提供了Microsoft Excel电子表格模型的链接,用于计算两繁殖群间迁移溯祖谱系所需参数。(作为替代方案,亦提供可生成谱系等待时间的简单R脚本。)
基因树在迁移下的平均长度
在确定结构化种群中基因树聚合的平均时间之前,首先需要引入一些有用的符号来描述谱系在种群内部和之间的可能分布位置。我们可以定义一个列表(或行向量)来追踪谱系在所有种群间的分配方式:
<math display="block"> \boldsymbol{d}=\left(d_{1},d_{2},d_{3},...,d_{n}\right) </math>
第二种观察聚合与迁移的方式是使用教材网页上链接的Hudson Animator模拟器。模拟器中有三个可设置的参数:n:设置当前时间两个种群中采样的谱系数量(或式4.86中的<math display="inline">k_{1}+k_{2}</math>),而M1:和M2:分别设置每个时间段种群1和种群2的预期迁移个体数(或式4.83和4.85中的<math display="inline">M</math>)。点击Recalc将计算新基因树的等待时间。动画过程可通过图下方的按钮控制。当指针悬停在树的圆圈上时,右下角会显示等待时间。点击左上方的Trees标签可查看种群结构如何影响基因树本身。
初始设置n为10,M1和M2均为低迁移率0.1。模拟10次独立基因树;每次记录迁移事件数(动画中的浅蓝色圆圈)及聚合至单一最近共同祖先(MRCA)的总等待时间。将M1和M2提高至高迁移率1.0,再次模拟10次独立树,记录迁移事件数和至MRCA的总等待时间。迁移率较低或较高时,基因树在平均上有何差异?
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/afc3d2683328fcf0be972e3d105f804ea29a4208ec75d62456f0dc4d08600694.jpg
图4.24 六个谱系最初均分于两个种群的基因树,迁移率低(A)和高(B)的情况。当迁移概率低时,种群内的聚合事件倾向于在发生任何迁移事件前使所有种群内仅剩单一谱系。随后需长时间等待直至迁移事件将两个种群合并至一处才能聚合。当
其中每个<math display="inline">d_{i}</math>表示包含i个谱系的deme数量,<math display="inline">n</math>是deme的总数。总谱系数即为包含i个谱系的deme数量与谱系数i的乘积对所有可能的每deme谱系数求和,即<math display="inline">\sum_{i\mathop{=}1}^{n}i d_{i}</math>。当从包含两个deme的总种群中抽取两个谱系时,存在两种可能的采样方式:两个谱系可能从不同的deme中被采样得到<math display="inline">d=(2,0)</math>,或从单个deme中被采样得到<math display="inline">d=(0,1)</math>。这种符号系统定义了从若干deme中抽取一定数量谱系时所形成的样本配置。图4.25展示了两个或三个deme中两到三个谱系的样本配置示例。当谱系合并为单个祖先谱系时,样本配置变为(1)。这种样本配置符号非常有用,因为结构化种群中合并时间的均值与方差取决于谱系是否位于同一deme。
在掌握样本配置的基本概念后,我们将推导结构化种群中合并时间的平均值和谱系树总长度的期望值。我们将重点关注两个deme中最简单的两谱系情形。需要确定两种可能的样本配置((2,0)或(0,1))中任一配置下两个谱系发生合并的概率。图4.26展示了这些样本配置状态之间可能的转移过程。
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/ed733b8a89d3d2d8d12c88d39fa58241138007f52c2e63e6a3fc00a4c2f13811.jpg
图4.25 两个谱系和两个deme的样本配置(A)以及三个谱系和三个deme的样本配置(B)。谱系用圆点表示,deme之间的分隔用虚线表示。每个样本配置仅展示一种可能情形,尽管某些配置可能存在多种实现方式。例如,(0,1)可以出现在两个谱系均位于左侧deme或均位于右侧deme时。
文件:Https://cdn-mineru.openxlab.org.cn/extract/25170dbb-f7fa-43db-aad1-b5684c7fb850/587a33cd605d289e5afde557779381e34ccd6c6135bc7952490cf14292002617.jpg
图4.26 当两个谱系位于同一deme(0,1)或不同deme(2,0)时可能发生的事件及其对应概率。deme之间的分隔用虚线表示。仅当谱系位于同一deme时才能发生合并。合并概率(A)、单个谱系迁移使两谱系分处不同deme(B)、以及迁移使两谱系共处同一deme(C)共同决定两个谱系发生合并的总体概率。两个谱系同时迁移的概率(<math display="inline">m^{2}</math>)未在B中展示,该情形适用于存在三个及以上deme的情况。
与基础溯祖过程类似,溯祖概率是种群大小的倒数与可能发生溯祖的独特谱系对数量的乘积。若每个deme包含<math display="inline">2N_{e}</math>个谱系,则同一deme中两个谱系的溯祖概率为<math display="inline">\frac{1}{2N_{e}}</math>。然而,两个谱系必须处于同一deme才可能溯祖,而受限的基因流会降低这种可能性。
对于处于同一deme或样本配置(0,1)的两个谱系,最终导致溯祖的可能事件有两种。第一种可能是两个谱系直接以概率<math display="inline">\displaystyle\frac{1}{2N_{e}}</math>溯祖。第二种可能是一个或两个谱系在溯祖前迁移到其他deme。若每个deme每代迁移比例为<math display="inline">m</math>,则单个谱系迁出的概率为<math display="inline">m</math>,未迁出的概率为<math display="inline">1-m</math>。一个谱系迁移而另一个未迁移的概率为<math display="inline">m(1</math><math display="inline">-m)+(1-m)m=2m(1-m)</math>。两个谱系同时迁移的概率为<math display="inline">m^{2}</math>。因此,至少一个谱系迁移的总概率为<math display="inline">2m(1-m)+m^{2}</math>,当<math display="inline">m</math>较小时可近似为<math display="inline">2m</math>(忽略<math display="inline">m^{2}</math>项)。对于同一deme或(0,1)配置的两个谱系,前一代发生任一事件(溯祖或迁移)的总概率为<math display="inline">2m+\frac{1}{2N_{e}}</math>。
对于不同deme或样本配置(2,0)的两个谱系,根据与单deme情况相同的逻辑,一个谱系迁移的总概率为<math display="inline">2m</math>。然而,从(2,0)转变为(0,1)时,迁移必须进入第二个谱系所在的特定deme。迁移到特定deme的概率为<math display="inline">\frac{1}{d-1}</math>,其中<math display="inline">d</math>为deme总数。因此,初始分离的两个谱系最终进入同一deme的总概率为<math display="inline">\frac{2m}{d-1}</math>。
为确定两个deme中的平均溯祖时间,可利用指数分布过程中事件平均时间为事件概率倒数的性质。设<math display="inline">\overline模板:T_{(0,1)}</math>表示同deme两谱系的平均溯祖时间,<math display="inline">\overline模板:T_{(2,0)}</math>表示异deme两谱系的平均溯祖时间。对于同deme两谱系,其平均溯祖时间等于立即溯祖的平均时间加上迁移后处于异deme状态的时间期望。发生任一事件(溯祖或迁移)的平均时间为事件总概率的倒数,即<math display="inline">\frac{1}{2m+\displaystyle\frac{1}{2N_{e}}}</math>。当事件发生时,有<math display="inline">\frac{1}{2N_{e}}</math>概率为溯祖,<math display="inline">2m</math>概率为迁移。综合这些因素可得同deme两谱系的平均溯祖时间表达式:
<math display="block"> \overline模板:T_{(0,1)}=\frac{\displaystyle\frac{1}{2N_{e}}}{\displaystyle2m+\frac{1}{2N_{e}}}+\frac{\displaystyle2m}{\displaystyle2m+\frac{1}{2N_{e}}}\overline模板:T_{(2,0)} </math>
对于两个不同繁殖群(deme)中的谱系,其平均合并时间是迁移至同一繁殖群所需的平均时间与一旦谱系处于同一繁殖群后的平均合并时间之和。由于迁移至同一繁殖群的几率为 <math display="inline">2m{\frac{1}{d-1}}</math> ,两个谱系迁移至同一繁殖群的平均时间为 <math display="inline">\frac{d-1}{2m}</math> 。因此,两个不同繁殖群中谱系的平均合并时间为
<math display="block"> \overline模板:T_{(2,0)}=\frac{d-1}{2m}+\overline模板:T_{(0,1)} </math>
通过解这两个方程(见数学框4.2),可得
<math display="block"> \overline模板:T_{(0,1)}=2N_{e}d </math>
及
<math display="block"> \overline模板:T_{(2,0)}=2N_{e}d+\frac{d-1}{2m} </math>
(见 Slatkin 1987b;Strobeck 1987;Nordborg 1997;Wakeley 1998)。
这两个繁殖群情境下两个谱系的平均合并时间均为简洁表达式,易于解释。方程4.93略显意外,因为它表明同一繁殖群中两个谱系的平均合并时间与迁移率无关,而仅取决于总群体大小,如同随机交配群体(注意若每个繁殖群包含 <math display="inline">2N_{e}</math> 个谱系,则总群体大小为 <math display="inline">N_{T}=2N_{e}d</math>)。通过想象迁移率变化时的情形,我们可以理解这一结果。若迁移率降低,谱系迁移至其他繁殖群的几率减小,从而缩短合并时间。然而,当迁移事件确实发生时,谱系需更长时间才能迁移回原繁殖群并合并。由于这两种效应随迁移率变化精确抵消,平均合并时间与迁移率无关。当两个谱系位于不同繁殖群时,平均合并时间随迁移率降低或繁殖群数量增加而延长。平均合并时间与迁移率成反比,因为需通过随机迁移才能使两个谱系进入同一繁殖群。随着繁殖群数量增加,两个谱系分隔的可能性增大,因此需要更多迁移事件才能使它们处于同一繁殖群。
繁殖群内与总群体中的平均合并时间也可用于表征群体结构程度。本章前文曾通过自合子性(autozygosity)概率,以总群体中随机抽取的两个等位基因状态不同的几率 <math display="inline">(H_{T})</math> 与亚群体中随机抽取的两个等位基因状态不同的几率 <math display="inline">(H_{S})</math> 之差(或 <math display="inline">F_{S T}=\frac{H_{T}-H_{S}}{H_{T}}</math>)描述群体结构。对于从 <math display="inline">d</math> 个繁殖群构成的总群体中随机抽取的两个谱系,有 <math display="inline">\frac{1}{d}</math> 的概率来自同一繁殖群,<math display="inline">\frac{d-1}{d}</math> 的概率来自不同繁殖群。因此,从结构化群体中随机抽取的两个谱系的平均合并时间为
<math display="block"> \overline{{{T}}}=\frac{1}{d}\overline{{{T}}}_{(0,1)}+\frac{d-1}{d}\overline{{{T}}}_{(2,0)}=2N_{e}d+\frac{(d-1)^{2}}{2m d} </math>
and Eq. 4.93 提供了从同一繁殖群中取样的两个谱系的平均溯祖时间<math display="inline">(\overline模板:T_{(0,1)}=2N_{e}d,</math> )。将这两个平均溯祖时间结合
<math display="block"> F_{S T}=\frac{\overline模板:T-\overline模板:T_{(0,1)}}{\overline模板:T} </math>
可得到从溯祖时间视角解释种群结构的表达式(Slatkin 1991)。于是种群结构可被
Math box 4.4 Solving two equations with two unknowns for average coalescence times
我们将式4.91和4.92重新表述为
<math display="block"> \begin{array}{l}{{\displaystyle T_{(0,1)}=x=a+b y}}\ {{}}\ {{\displaystyle\overline模板:\cal T_{(2,0)}=y=c+x}}\end{array} </math>
<math display="block"> \gamma=\frac{\displaystyle\frac{d-1}{2m}+\frac{1}{f}}{\displaystyle\frac{1}{2N_{e}}} </math>
当分子分母同乘f时得到
<math display="block"> \gamma=\frac{f\frac{d-1}{2m}+1}{\frac{1}{2N_{e}}} </math>
<math display="inline">c=\frac{d-1}{2m}</math> 当时间以<math display="inline">2N_{e},</math>为单位标度化时,<math display="inline">a=\frac{1}{2m+\displaystyle\frac{1}{2N_{e}}}.</math>
将<math display="inline">\boldsymbol{X}</math>的方程代入y的方程可得
<math display="block"> \gamma=c+a+b\gamma </math>
将<math display="inline">f</math>的完整表达式代入并展开后得到
经整理得
<math display="block"> y={\frac{\displaystyle\left(2m+{\frac{1}{2N_{e}}}\right){\frac{d-1}{2m}}+1}{\displaystyle={\frac{1}{2N_{e}}}\left({\frac{2N_{e}2m(d-1)+(d-1)+2N_{e}2m}{2m}}\right)}} </math>
<math display="block"> y-b y=c+a </math>
进而
<math display="block"> \gamma={\frac{c+a}{1-b}} </math>
将<math display="inline">a,b,</math>和<math display="inline">c</math>的值代入后得到
用乘以<math display="inline">2N_{e}</math>代替除以<math display="inline">\frac{1}{2N_{e}}</math>可消去分子中的<math display="inline">\frac{1}{2N_{e}}</math>项,展开后得到
<math display="block"> \gamma={\cfrac{{\cfrac{d-1}{2m}}+{\cfrac{1}{2m+{\cfrac{1}{2N_{e}}}}}}{1-\left({\cfrac{2m}{2m+{\cfrac{1}{N_{e}}}}}\right)}} </math>
<math display="block"> \gamma=\frac{2N_{e}2m d}{2m}-\frac{2N_{e}2m}{2m}+\frac{d-1}{2m}+\frac{2N_{e}2m}{2m} </math>
经合并同类项后最终得到
上述分母可重新整理为<math display="inline">{\frac{2m+{\frac{1}{N e}}}{2m+{\frac{1}{N e}}}}-{\frac{2m}{2m+{\frac{1}{N e}}}}={\frac{\frac{1}{2N e}}{2m+{\frac{1}{2N e}}}}</math>。令f = 2m + 1并代入整理后的分母方程得
<math display="block"> \gamma=2N_{e}d+\frac{d-1}{2m} </math>
将<math display="inline">\gamma</math>的表达式代入后,<math display="inline">\overline模板:T_{(2,0)}</math>的方程可通过类似代数方法求解。
理解为从整体种群中取样的一对谱系与从亚种群内取样的一对谱系在平均溯祖时间上的差异。
一般而言,种群细分会延长谱系溯至最近共同祖先所需的时间。当基因流相对受限时,繁殖群内的共祖过程与孤立随机交配群体中的过程相似。然而,每个繁殖群的单一祖先需要等待相对稀有的迁移事件,才能使不同繁殖群的两个谱系共祖。这往往会产生具有长分支的系统树,连接不同繁殖群的祖先个体。随着迁移率增加,系统树分支长度逐渐趋近于与总规模相同的单一随机交配群体中的模式,因为迁移事件频繁地将谱系在繁殖群间转移。
第4章 复习
个体与亚种群在空间和时间上的分离导致种群内交配的非随机性。若无足够的基因流维持随机交配(panmixia),遗传漂变将导致亚种群间等位基因频率的分化。
距离隔离是一个普适性预测,因为随着亚种群空间分离的增加,基因流预期会减少。
多种基因流模型(如岛屿模型或踏脚石模型)描述了多个亚种群间的遗传混合模式。
大陆-岛屿模型和双岛模型表明,随时间推移,基因流会使等位基因频率均质化至平衡值,该值取决于亚种群间基因流速率的模式。
基因流水平可通过直接追踪当代种群中的亲缘关系(直接估计)来测量。亲缘分析利用子代基因型和一个已知亲本推断未知亲本的单体型。随后,该未知亲本单体型被用于从候选亲本池中排除不可能的父母个体。此方法鉴定真实亲本的能力取决于特定单体型在种群中随机出现的概率。
区分群体内与群体间的溯祖事件,可推导出细分种群中基因谱系可分为两个时间尺度的普遍结论。一个时间尺度是各群体近期发生群体内溯祖事件和迁移事件的谱系历史;另一时间尺度是总种群中祖先谱系更久远的历史。Wakeley(1998, 1999)将近期时间尺度描述为细分种群谱系的散射阶段(scattering phase),更深层时间尺度称为收集阶段(collecting phase)。时间尺度的分离现象也在具有灭绝-再定殖机制的细分种群(Wakeley和Aliacar 2001)以及存在距离隔离的连续种群(Wilkins 2004)中被研究。
关键洞见在于:特定条件下,多态性模式主要源于收集阶段的谱系分选,而对发生迁移事件的散射阶段依赖较小。收集阶段的谱系部分可由标准溯祖过程描述,其时间尺度通过恰当的Ne标定且不受迁移影响。其结果是,可能无法判定遗传多态性的不同模式究竟源于群体规模差异、群体数量差异、群体间有效迁移率差异,还是总种群增长等历史事件,因为这些变量对整体谱系具有可互换的影响效应。
<math display="inline">F_{I S}</math> 衡量杂合基因型与随机交配相比的平均过剩或缺失。<math display="inline">F_{S T}</math> 衡量由于种群结构导致的亚种群杂合性缺失,相对于随机交配群体预期杂合性的差异。<math display="inline">F_{I T}</math> 衡量由亚种群内非随机交配和等位基因频率分化共同导致的杂合基因型总体过剩或缺失。众多理想化<math display="inline">F_{S T}</math>的估计量(如<math display="inline">G_{S T}</math>)考虑了实际遗传数据的细节:一个位点存在两个以上等位基因、多个位点的平均效应、有限且可能不等的样本量。
Wahlund效应表明,遗传变异可以储存为亚种群间等位基因频率的方差,或随机交配种群内的杂合性。分化亚种群的融合或随机交配种群的分割,可将一种类型的遗传变异转化为另一种类型。
通过比较一组亚种群间遗传分化的程度和模式与基因流和遗传漂变模型的预测值,可间接估计基因流速率。例如,在无限岛屿模型下,平衡状态<math display="inline">F_{S T}</math>近似等于有效迁移率四倍加一的倒数<math display="inline">(\frac{1}{4N_{e}m+1})</math>。在二维距离隔离模型中,线性化<math display="inline">\hat{F}_{S T}</math>预期会随地理距离的对数增加而增加。集合种群模型包括配子和个体在亚种群间的迁移、亚种群的灭绝与重建。空间显式方法利用景观特征建模基因流的最小成本路径,或通过电路理论建模连接亚种群的多路径网络及其可变基因流速率。
多基因座基因型可通过最大似然法或贝叶斯后验概率将个体分配到起源亚种群。贝叶斯方法可扩展用于确定最优支持的亚种群数量,以及每个个体多基因座基因型中各亚群来源的比例。主成分分析(PCA)可降低含多等位基因位点的大规模遗传数据维度,用于识别遗传亚群及具有多亚群近期祖先的个体。
分割种群中的谱系树可用指数分布等待时间建模,其中迁移概率与溯祖概率相结合。在两个deme中,同一deme内两个谱系的平均溯祖时间等于总种群大小且与迁移率无关。不同deme中的两个谱系,其平均溯祖时间随deme数量增加和迁移率降低而延长,因为仅当两个谱系处于同一deme时才能溯祖。与同亚种群采样的两个谱系相比,从整个种群随机采样的两个谱系的平均溯祖时间因种群结构和有限基因流而延长。
Further reading
章末习题
1 在犯罪调查中,从犯罪现场获取的多位点DNA图谱作为证据时,可与数据库记录中数百万份多位点DNA图谱进行比对。请解释为何这种做法可能导致证据DNA样本遗留者的多位点DNA图谱与数据库中另一不同个体的DNA图谱产生高概率的随机匹配。
2 使用文本模拟网站Simulations <math display="inline">_-></math> Fixation Indices完成本题。模拟对话框包含各局域种群的有效种群大小(<math display="inline">N_{e}</math>)、迁移率,以及双等位基因位点在每个局域种群的初始等位基因频率。保持总种群数和共祖系数为默认值。运行下表中参数组合的模拟,并在空白处记录结果。每组合至少运行两次模拟,以了解相同参数下结果的变异程度。记录各<math display="inline">F</math>指数首次达到近似最大值时的世代数。为便于比较,将所有条件组的模拟时间尺度统一设置为500世代以内。
本题亦可使用Populus软件完成(从主菜单选择Mendelian Genetics,再选择Population Structure;将局域种群数设为10)。
关于景观遗传学中种群内与种群间遗传变异空间格局的预测方法与估计量的综述,参见:
Balkenhol, N., Cushman, S.A., Storfer, A.T., and Waits, L.P. (eds.) (2015). Landscape Genetics. Chichester, UK: Wiley.
欲了解植物Linanthus parryae在距离隔离理论发展中的作用,以及蓝白花色空间分布不同解释背后的人物轶事,参见:
Provine, W.B. (1986). Sewall Wright and Evolutionary Biology. Chicago, IL: University of Chicago Press.
关于基因组时代的亲本分析展望,参见:
Flanagan, S.P. and Jones, A.G. (2018). The future of parentage analysis: from microsatellites to SNPs and beyond. Molecular Ecology 28: 544–567.
种群结构概念与实证估计、基因流间接估计的综述参见:
Holsinger, K.E. and Weir, B.S. (2009). Genetics in geographically structured populations: defining, estimating and interpreting Fsr. Nature Reviews Genetics 10: 639–650.
多倍体物种杂合度与种群分化估计方法的概述参见:
Meirmans, P.G., Liu, S., and van Tienderen, P.H. (2018). The analysis of polyploid genetic data. Journal of Heredity 109: 283–296.
关于贝叶斯统计方法在遗传学中的应用及其如何推动群体遗传学与基因组学假设检验新途径的综述,参见:
Beaumont, M.A. and Rannala, B. (2004). The Bayesian revolution in genetics. Nature Reviews Genetics 5: 251–261.
溯祖模型背景下种群结构影响的综述参见:
Charlesworth, B., Charlesworth, D., and Barton, N.H. (2003). The effects of genetic and geographic structure on neutral variation. Annual Review of Ecology and Systematics 34: 99–125.
<table> <tr> <th>Deme size (Ne)</th> <th>m</th> <th>Initial freq(A)</th> <th>F<sub>IS</sub></th> <th>F<sub>ST</sub></th> <th>F<sub>IT</sub></th> </tr> <tr> <td>10<br>10</td> <td>0<br>0.001</td> <td>0.5<br>0.5</td> <td></td> <td></td> <td></td> </tr> <tr> <td>10</td> <td>0.1</td> <td>0.5</td> <td></td> <td></td> <td></td> </tr> <tr> <td>10</td> <td>0.1</td> <td>0.8</td> <td></td> <td></td> <td></td> </tr> <tr> <td>50</td> <td>0</td> <td>0.5</td> <td></td> <td></td> <td></td> </tr> <tr> <td>50</td> <td>0.001</td> <td>0.5</td> <td></td> <td></td> <td></td> </tr> <tr> <td>50</td> <td>0.1</td> <td>0.5</td> <td></td> <td></td> <td></td> </tr> <tr> <td>100</td> <td>0</td> <td>0.5</td> <td></td> <td></td> <td></td> </tr> <tr> <td>100</td> <td>0.001</td> <td>0.5</td> <td></td> <td></td> <td></td> </tr> <tr> <td>100</td> <td>0.1</td> <td>0.5</td> <td></td> <td></td> <td></td> </tr> </table> 从生物学和数学上定义 $H_{I}$、$H_{S}$ 和 $H_{T}$。用数学表达式(使用 $H$ 符号)和生物学意义定义 $F_{IS}$、$F_{ST}$ 和 $F_{IT}$。 在模拟中,等位基因频率线有时会触及顶部或底部坐标轴(达到固定或丢失)后重新出现。这些情况发生了什么?你在模拟中设置的迁移值单位是什么(例如 0.001 或 0.1)?该值的增加在生物学上意味着什么?为什么增加 $m$ 会维持较低的 $F_{ST}$ 和 $F_{IT}$ 值?迁移如何抵消遗传漂变?迁移是否总能强到实现这一点?用模拟观察结果解释。 3 使用文本模拟网站 Simulations → Fixation Indices 解决此问题。什么是共祖系数($f$)?对 $N_e=20$ 和 $m=0.01$,运行 $f$ 值为 $-0.5$、$0.0$ 和 $0.5$ 的模拟 100 代。用下表记录第 100 代观察到的值。
共祖系数(f) | H | Hs | H | Fis | FsT | FT |
---|---|---|---|---|---|---|
-0.5 | ||||||
0.0 | ||||||
0.5 | ||||||
对于相同的<math display="inline">f\ell</math>值,<math display="inline">H_{I}</math>和<math display="inline">H_{S}</math>如何比较?<math display="inline">F_{I S}</math>和<math display="inline">F_{S T}</math>如何随<math display="inline">f\zeta</math>变化?为什么?
4 1965年,Sick(Hereditas 54 : 49–69)对鳕鱼(codfish)的血红蛋白基因进行了同工酶多态性测量。他的目标是记录鳕鱼的迁徙和交配模式以用于资源管理,并鉴定繁殖种群。他在三个地理区域各1000尾鱼的样本中观察到的基因型如下表所示(F代表快,S代表慢——各等位基因在淀粉凝胶中的迁移速率)。地理采样区域标注于地图(来自https://www.google.com/maps/place/Baltic+Sea)。请根据观察到的等位基因和基因型频率,用定量推理回答每个问题。
Genotype | |
---|---|
FF | |
Area1 | 40 |
Area2 | 640 |
Area3 | 340 |
三个区域的观测等位基因频率是多少?根据基因型频率,你能推断各区域内鳕鱼的交配模式吗?区域1和2是否完全存在自由基因流动?区域1和2的鱼群能否作为单一种群管理?哪些基因流动和种群结构过程可以解释区域3内观察到的等位基因和基因型频率?
5 两个亚种群在一个具有四个等位基因的位点上拥有非重叠等位基因。亚种群1的等位基因频率为<math display="inline">p_{1}=p_{2}=0.5</math>且<math display="inline">p_{3}=p_{4}=0</math>,而亚种群2的等位基因频率为<math display="inline">p_{1}=p_{2}=0</math>且<math display="inline">p_{3}=p_{4}=0.5</math>。计算<math display="inline">H_{S}</math>和<math display="inline">H_{T}</math>,并用其计算<math display="inline">G_{S T}</math>和Jost’s <math display="inline">D</math>。每个指数捕捉了种群间遗传变异的哪些模式?为什么它们会不同?
6 个人基因分型服务提供客户祖先来源种群的信息。这些服务依赖哪些类型的位点?它们使用什么模型来估算祖先生活过的世界区域?
7 在Math Box 4.2中,设电阻值为<math display="inline">\mathrm{R}1=\mathrm{R}3=1</math>,<math display="inline">\mathrm{R}4=\mathrm{R}5=4</math>,<math display="inline">\mathrm{R}2=4</math>。求解电压V1、V2和V3,再计算各节点的电流值。根据电流值,对亚种群A和B之间每条路径的基因流动量及节点3的死亡率给出生物学解释。
8 根据互动框4.7中的指导,为6个总谱系(初始划分为两个繁殖群<math display="inline">k_{1}=k_{2}=3</math>)构建一个溯祖谱系。使用<math display="inline">2N=50</math>和迁移率0.1(注意:该突变率设定过高以确保发生多次迁移事件。若迁移事件过多可调整迁移率)。使用坐标纸并在谱系图上绘制连续时间和离散时间标尺以标注突变与合并事件。重复模拟以观察基于相同漂变和迁移率的重复杂谱系差异。作为对比,模拟并绘制迁移率为0.01的谱系。根据观测的等待时间解释模拟谱系中<math display="inline">F_{ST}</math>的含义。
9 在文献中检索近期使用本章所述群体遗传预测的研究论文。主题可为任何生物体、应用或过程,但论文必须包含涉及群体间遗传分化、<math display="inline">F_{ST}</math>或其估计量、有效迁移率<math display="inline">\left(N_{e}m\right)</math>或基因流模式的假设检验。总结论文的主要假设、目标或理论基础,解释论文如何运用本章的群体遗传预测,并归纳基于该预测的研究结果与结论。
10 构建两个经历基因流和遗传漂变的亚群体间遗传分化的模拟模型。电子表格模型的搭建指南可在教材网站找到。该指南也可用于Python或R等编程语言的实现。
问题框4.1答案
通过表4.3获得父本单体型中各等位基因的频率。对于树4865,每个基因座仅有一个可能的父本等位基因。任一基因型在每个基因座上携带一个父本等位基因拷贝的概率为:
A: <math display="inline">(0.1216)^{2}+2(0.1216)(1-0.1216)=0.2284</math>
B: <math display="inline">(0.3971)^{2}+2(0.3971)(1-0.3971)=0.6365</math>
C: <math display="inline">(0.0761)^{2}+2(0.0761)(1-0.0761)=0.1464</math>
D: <math display="inline">(0.1905)^{2}+2(0.1905)(1-0.1905)=0.3447</math>
E: <math display="inline">(0.1250)^{2}+2(0.1250)(1-0.1250)=0.2344</math>
单个基因座上,父本等位基因预计出现在14%至64%的可能基因型中。五个基因座全部随机匹配的概率为<math display="inline">0.2284\times0.6365\times0.1464\times0.3447\times0.2344=0.0017</math>,即每10 000个随机基因型中出现17次。排除概率为<math display="inline">1-0.0017=0.9983</math>,而30个候选亲本的样本排除概率为<math display="inline">(0.9983)^{30}=0.9\dot{5}02</math>。约有95%的概率在30个候选亲本中不会出现随机匹配,因此我们高度确信4865号树是989号树种子25-1的真实父本。对于该子代-母本组合,B基因座在亲权鉴定中最不具分辨力,因为106等位基因频率接近40%。C基因座的167等位基因(频率略超7%)最具分辨力。
观测到的平均杂合子频率为0.22或22%。
<math display="inline">H_{S}=\frac{1}{n}\sum_{i=1}^{n}2p_{i}q_{i}</math>,其中<math display="inline">p_{i}</math>和<math display="inline">q_{i}</math>为亚群体<math display="inline">i</math>中的等位基因频率。
$$
<math display="inline">H_{T}=2\overline{p}\overline{q}</math>,其中<math display="inline">\bar{p}</math>和<math display="inline">\overline{q}</math>是所有亚群的平均等位基因频率。令<math display="inline">f</math>为快速等位基因的频率,<math display="inline">s</math>为慢速等位基因的频率,满足<math display="inline">f+s=1</math>。接着,估算总种群中快速等位基因的平均频率(慢速等位基因的频率可通过减法得出):
<math display="block"> \begin{array}{c}{\overline{f}=(0.0+0.93+0.17+0.51)/4}\ {\overline{f}=0.4025}\end{array} </math>
而另一等位基因的频率为<math display="inline">{\overline{s}}=1-0.4025=0.5975</math>。
<math display="block"> \begin{array}{c}{{H_{T}=2(0.4025)(0.5975)}}\ {{{}}}\ {{H_{T}=0.481}}\end{array} </math>
现可用<math display="inline">H_{I},H_{S},</math>和<math display="inline">H_{T}</math>计算<math display="inline">F</math>统计量。
<math display="block"> F_{I S}=\frac{H_{S}-H_{I}}{H_{S}} </math>
问题框4.2解答
<math display="inline">H_{I}=\frac{1}{n}\sum_{i=1}^{n}\hat{H}_{i}</math>,其中<math display="inline">\hat{H}</math>是每个<math display="inline">n</math>个亚群中观测到的杂合子频率。
<math display="block"> \begin{array}{c}{{H_{I}=(0.0+0.14+0.34+0.40)/4}}\ {{{}}}\ {{H_{I}=0.22}}\end{array} </math>
<math display="block"> \begin{array}{c}{F_{I S}=(0.228-0.220)/0.228}\ {F_{I S}=0.035}\end{array} </math>
由于这四个种群的观测杂合度与随机交配下的预期值非常接近,未发现自交的证据。比较各群体的观测与预期杂合度可知,亚群9和43的杂合子略有超额,而亚群68存在约<math display="inline">10\%</math>的赤字。这三个偏差与亚群1的零偏差平均后总体接近0。
<math display="block"> F_{S T}={\frac{H_{T}-H_{S}}{H_{T}}} </math>
<math display="block"> F_{S T}=(0.481-0.228)/0.481 </math>
<math display="block"> F_{S T}=0.526 </math>
亚群内的杂合度低于基于总种群等位基因频率的Hardy-Weinberg预期值。该值反映了亚群等位基因频率的显著差异。
<math display="block"> F_{I T}=\frac{H_{T}-H_{I}}{H_{T}} </math>
<math display="block"> \begin{array}{c}{{F_{I T}=(0.481-0.220)/0.481}}\ {{{}}}\ {{F_{I T}=0.543}}\end{array} </math>
这是由种群内非随机交配和亚群间等位基因频率分化共同导致的杂合度赤字。本例中,几乎所有杂合度赤字都源于亚群间的等位基因频率分化。
三个固定指数的关系为:
<math display="block"> \big(1-F_{I T}\big)=\big(1-F_{I S}\big)\big(1-F_{S T}\big) </math>
用<math display="inline">\bar{F}_{I S}</math>和<math display="inline">\boldsymbol{F}_{S T}</math>的值求解<math display="inline">\bar{F}_{I T}</math>,可得与直接计算相同的数值:
问题框4.3解答
Wahlund效应表明,种群结构会导致杂合子频率降低、纯合子频率升高,其幅度与种群间等位基因频率分化的程度成正比。使用表2.3的等位基因频率,可通过式4.36(纯合位点)和式4.37(杂合位点)计算每个基因座经种群调整后的预期基因型频率:
D3S1358 <math display="inline">2(0.2118)(0.1626)(0.95)=0.0655</math>
D21S11 <math display="inline">2(0.1811)(0.2321)(0.95)=0.0799</math>
D18S51 <math display="inline">(0.0918)^{2}+(0.0918)(0.9082)(0.05)=0.0126</math>
vWA <math display="inline">(0.2628)^{2}+(0.2628)(0.7372)(0.05)=0.0788</math>
FGA <math display="inline">2(0.1378)(0.0689)(0.95)=0.0181</math>
D8S1179 <math display="inline">2(0.3393)(0.2015)(0.95)=0.1299</math>
D5S818 <math display="inline">2(0.3538)(0.1462)(0.95)=0.0942</math>
D13S317 <math display="inline">2(0.0765)(0.3087)(0.95)=0.0448</math>
D7S820 <math display="inline">2(0.2020)(0.1404)(0.95)=0.0539</math>
假设Amelogenin基因座不受种群结构影响,经种群结构调整后的10个基因座基因型期望频率为 <math display="inline">0.0655\times0.0799\times0.0126\times0.0788\times</math> <math display="inline">0.0181\times0.1299\times0.0942\times0.0448\times</math> <math display="inline">0.0539\times0.5=1.514\times10^{-12}</math>,其比值比为1/660 501 981 506。与随机交配【“panmixia”译为“随机交配”】假设下的基因型期望频率 <math display="inline">1.160\times10^{-12}</math>(比值比1/862 379 847 814)相比,考虑种群结构后该基因型偶然出现的可能性更高,但其期望频率仍极其罕见。
问题框4.4答案
<math display="block"> \begin{array}{c}{{(1-F_{I T})=(1-0.035)(1-0.526)}}\ {{{}}}\ {{(1-F_{I T})=(0.965)(0.474)}}\ {{{}}}\ {{(1-F_{I T})=0.4574}}\ {{{}}}\ {{F_{I T}=0.543}}\end{array} </math>
基于全部43个亚种群的数据,Levin(1978)估算出P. cuspidata的 <math display="inline">F_{I S}=0.70</math>、<math display="inline">F_{S T}=0.80</math>和 <math display="inline">F_{I T}=0.80</math>。
遗传漂变与迁移在固定指数中的联合效应可表示为:
<math display="block"> F_{t}=\frac{1}{2N_{e}}\left(1-m\right)^{2}+\left(1-\frac{1}{2N_{e}}\right)F_{t-1}\left(1-m\right)^{2} </math>
若用<math display="inline">X</math>表示自交合概率,<math display="inline">y</math>表示异交合概率(<math display="inline">\boldsymbol{y}=1-\boldsymbol{x}</math>),则可推广为:
<math display="block"> F_{S T}\approx{\frac{1}{N_{e}m+1}} </math>
<math display="block"> F_{t}=x{\left(1-m\right)}^{2}+y F_{t-1}{\left(1-m\right)}^{2} </math>
对于二倍体核基因座,取<math display="inline">\begin{array}{r}{X=\frac{1}{2N_{e}}}\end{array}</math>和<math display="inline">\begin{array}{r}{\gamma=1-\frac{1}{2N_{e}}}\end{array}</math>以获得平衡状态下<math display="inline">\boldsymbol{F}_{S T}</math>与<math display="inline">N_{e}m</math>的关系。Y染色体与细胞器基因座为单倍体且单亲遗传,其有效种群大小为核基因座的四分之一。例如人类线粒体基因组仅母系遗传(占种群半数),且为单倍体(拷贝数为核基因组半数)。对此类基因座,取<math display="inline">\begin{array}{r}{\chi=\frac{1}{\frac{N e}{2}}=\frac{2}{N e}}}\end{array}</math>和<math display="inline">\begin{array}{r}{y=1-\frac{2}{N_{e}}}\end{array}</math>,可得:
结果表明,Y染色体与细胞器基因座的<math display="inline">F_{S T}</math>预期更高(因其有效种群更小,见图4.15)。当所有类型基因座共享相同迁移率时,相较于二倍体核基因座,Y染色体与线粒体基因座的<math display="inline">\boldsymbol{F}_{S T}</math>水平高四倍。亚种群间Y染色体与细胞器基因座的分化程度更高,完全源于这些基因座自交合特性的差异导致遗传漂变引起的固定或丢失速率增加。详见Hu与Ennos(1999)及Hamilton与Miller(2002)。