第一章 进化的模型:修订间差异

来自osm&bio
跳转到导航 跳转到搜索
Artemia留言 | 贡献
部分校对
Artemia留言 | 贡献
 
第82行: 第82行:
就其对生物体适应性的影响而言,新突变有三种后果:相对于祖先等位基因的适应性,它可能'''有利、有害或中性'''。当然,新突变对不同遗传背景、杂合或纯合形式的适应性的影响各不相同,但这里我们感兴趣的是突变在不同背景和种群频率下的平均边际效应。如果我们将 s 定义为新突变的选择系数(即拥有一个新等位基因拷贝的个体与祖先等位基因纯合的个体之间的相对适应性差异),那么对于有利突变,s > 0;对于有害突变,s < 0;对于中性突变,s = 0,因为这两个等位基因具有相同的适应性。效果大的突变具有较大的 |s|,要么增加适应度,要么减少适应度,<u>认为在自然种群中s = 0.10(适应度增加 10%)被认为是非常大的效果</u>。正如我们将在第 7 章中看到的那样,<u>效果比这小得多的有利突变将迅速在种群中传播。</u>
就其对生物体适应性的影响而言,新突变有三种后果:相对于祖先等位基因的适应性,它可能'''有利、有害或中性'''。当然,新突变对不同遗传背景、杂合或纯合形式的适应性的影响各不相同,但这里我们感兴趣的是突变在不同背景和种群频率下的平均边际效应。如果我们将 s 定义为新突变的选择系数(即拥有一个新等位基因拷贝的个体与祖先等位基因纯合的个体之间的相对适应性差异),那么对于有利突变,s > 0;对于有害突变,s < 0;对于中性突变,s = 0,因为这两个等位基因具有相同的适应性。效果大的突变具有较大的 |s|,要么增加适应度,要么减少适应度,<u>认为在自然种群中s = 0.10(适应度增加 10%)被认为是非常大的效果</u>。正如我们将在第 7 章中看到的那样,<u>效果比这小得多的有利突变将迅速在种群中传播。</u>


为了总结基因或基因座的选择历史,我们经常使用短语'''负(纯化)选择negative (or purifying) selection'''、'''正选择 positive selection和平衡选择 balanc ing selection'''。<u>这些非常有用但通常非常模糊的自然选择总结并不总是与用于定义单个突变效果的术语一致</u>。<u>负选择是指基因座的历史,其中发生的绝大多数突变都是有害的。因此,受到负向选择的基因或非编码区通常是保守的,自然选择会去除大多数改变功能性 DNA 序列的突变。</u>在某些情况下,一级序列可能不被保守,但该序列仍会经历纯化选择,<u>因为序列的长度或序列的平均生化特性是所选特征</u>。我们也经常说,这些区域或核苷酸位点受到选择的限制,只能位于序列空间的有限区域内。从这个定义中应该可以清楚地看出,几乎所有蛋白质编码基因始终处于负向选择之下,即使有大(或小)比例的突变是中性的或有利的。未受到负向选择的区域不受限制,也不会受到选择。使用短语负选择时出现的<u>一个歧义是,一个基因受到的负选择比另一个基因更强。这可能意味着受限位点的替代碱基的平均选择系数变得更负;这肯定是短语负选择所暗示的当 s 接近于 0 时,称为“弱选择”。或者,它可能意味着某个区域中的更多位点(例如,蛋白质中的更多氨基酸)受到任何限制,因此在整个区域观察到的平均替换数较低。</u>无论如何,负选择是一种常用的简写,在大多数情况下具有明确的含义。
为了总结基因或基因座的选择历史,我们经常使用短语'''负(纯化)选择negative (or purifying) selection'''、'''正选择 positive selection和平衡选择 balancing selection'''。<u>这些非常有用但通常非常模糊的自然选择总结并不总是与用于定义单个突变效果的术语一致</u>。<u>负选择是指基因座的历史,其中发生的绝大多数突变都是有害的。因此,受到负向选择的基因或非编码区通常是保守的,自然选择会去除大多数改变功能性 DNA 序列的突变。</u>在某些情况下,一级序列可能不保守,但该序列仍会经历纯化选择,<u>因为序列的长度或序列的平均生化特性是所选特征</u>。我们也经常说,这些区域或核苷酸位点受到选择的限制,只能位于序列空间的有限区域内。从这个定义中应该可以清楚地看出,几乎所有蛋白质编码基因始终处于负向选择之下,即使有大(或小)比例的突变是中性的或有利的。未受到负向选择的区域不受限制,也不会受到选择。使用短语负选择时出现的<u>一个歧义是,一个基因受到的负选择比另一个基因更强。这可能意味着受限位点的替代碱基的平均选择系数变得更负;这肯定是短语负选择所暗示的当 s 接近于 0 时,称为“弱选择”。或者,它可能意味着某个区域中的更多位点(例如,蛋白质中的更多氨基酸)受到任何限制,因此在整个区域观察到的平均替换数较低。</u>无论如何,负选择是一种常用的简写,在大多数情况下具有明确的含义。


'''正选择是指有利突变已经出现并固定或正在固定的基因座的历史'''。由于有利突变比有害突变少见得多,因此<u>假设负选择作用于几乎所有保守和功能性区域。相比之下,即使只有一个可检测到的有利替换的基因座也被认为受到正选择。</u>这种替换可能发生在遥远的过去,也可能目前正在passing through群体。有利突变的频率可以迅速增加,这种快速增长产生的许多模式可用于检测正向选择的特征。由于<u>检测正向选择已成为分子群体遗传学存在的理由(raison d’être )</u>,我们将在整本书中多次回顾它。
'''正选择是指有利突变已经出现并固定或正在固定的基因座的历史'''。由于有利突变比有害突变少见得多,因此<u>假设负选择作用于几乎所有保守和功能性区域。相比之下,即使只有一个可检测到的有利替换的基因座也被认为受到正选择。</u>这种替换可能发生在遥远的过去,也可能目前正在passing through群体。有利突变的频率可以迅速增加,这种快速增长产生的许多模式可用于检测正向选择的特征。由于<u>检测正向选择已成为分子群体遗传学存在的理由(raison d’être )</u>,我们将在整本书中多次回顾它。
第91行: 第91行:


=== 迁移模型 ===
=== 迁移模型 ===
种群遗传学中​​的迁移模型在很大程度上只是种群populations(也称为demes or subpopulations)在环境中的结构模型(有关种群定义的更多讨论可参见第 5 章)。这些模型几乎不需要关于个体如何进化的细节人类实际上也在种群之间移动并进行杂交,一般来说,人们只对交换的等位基因的数量和类型感兴趣。然而,在所有迁移模型中,迁移过程有几个重要的细节是共同的。这些细节对于理解我们如何推断一个物种的基因流动模式至关重要。
种群遗传学中​​的迁移模型在很大程度上只是种群populations(也称为demes or subpopulations)在环境中的结构模型(有关种群定义的更多讨论可参见第 5 章)。这些模型几乎不需要关于个体如何进化的细节,人类实际上也在种群之间移动并进行杂交,一般来说,人们只对交换的等位基因的数量和类型感兴趣。然而,在所有迁移模型中,迁移过程有几个重要的细节是共同的。这些细节对于理解我们如何推断一个物种的基因流动模式至关重要。


'''迁移率 m''' 被定义为<u>当前一代种群中来自上一代不同种群的所有个体(或染色体)的比例。</u>也就是说,迁移率代表了种群中每代移民个体的比例。这些移民<u>被认为是来自源种群的随机个体样本,并且假设源种群和接收种群的规模都不会因迁移而发生变化</u>。第一个假设意味着我们可以根据来源和接受者群体中的等位基因频率(以及迁移率)轻松计算出由于迁移而导致的等位基因频率的预期变化。第二个假设也使得跟踪等位基因频率的预期变化变得更加容易:因为任何特定群体都可以是移民的来源和接受者,所以我们不必考虑每个人的移动。
'''迁移率 m''' 被定义为<u>当前一代种群中来自上一代不同种群的所有个体(或染色体)的比例。</u>也就是说,迁移率代表了种群中每代移民个体的比例。这些移民<u>被认为是来自源种群的随机个体样本,并且假设源种群和接收种群的规模都不会因迁移而发生变化</u>。第一个假设意味着我们可以根据来源和接受者群体中的等位基因频率(以及迁移率)轻松计算出由于迁移而导致的等位基因频率的预期变化。第二个假设也使得跟踪等位基因频率的预期变化变得更加容易:因为任何特定群体都可以是移民的来源和接受者,所以我们不必考虑每个人的移动。

2025年3月28日 (五) 16:54的最新版本

进化始于一个个体的一条染色体上的一个突变。分子群体遗传学就是研究此类突变在群体中频率的上升和下降。各种进化力量可以加速或阻碍突变在群体中的传播,这些力量的作用可以从个体间分子变异的模式中推断出来。

尽管遗传标记的使用可以追溯到 1900 年 ABO 血型的发现,但真正的“分子”群体遗传学的开端可以追溯到 Harris (1966) 和 Lewontin 和 Hubby (1966) 的开创性研究。这些研究人员表明,在分子水平上,个体之间的变异比之前形态学表型研究的预期要大得多。然而,这些研究使用等位酶allozymes(“等位基因”和“酶”的混合词;Prakash、Lewontin 和 Hubby 1969)来发现分子变异,因此仍然只观察到所有变异的一小部分——这些突变导致蛋白质由于电荷变化而以不同的速度穿过凝胶。直到 1983 年,才出现了第一批核苷酸水平的分子变异研究(Aquadro 和 Greenberg 1983;Kreitman 1983)。通过对每个核苷酸进行测序,这些研究使我们能够充分观察自然种群中分离的遗传变异。

分子群体遗传学研究提出了关于进化过程对自然种群的影响的广泛问题。为了做到这一点,他们通常使用一小部分个体的 DNA 序列来了解作用于整个种群的力量。即使是从单个基因座获得的遗传变异模式也可用于推断突变、重组和自然选择的力量,以及人口统计历史的细节——例如,其相对规模或迁徙历史。之所以能够做出这些推论,是因为在过去的 100 年里,大量的人口遗传学理论已经发展起来,这些理论告诉我们当这些力量中的每一个起作用时,我们应该观察到什么。早期的人口遗传学理论研究并没有考虑到分子数据,但分子方法的兴起激发了越来越多的工作,这些工作明确关注对分子进化过程的建模。

分子群体遗传学理论对于从 DNA 序列数据进行推断至关重要,因此至少有必要在这里回顾一下主要的模型及其假设。本章提供的简介并非旨在介绍种群遗传学的基础知识,并假设读者熟悉许多基本概念。相反,本章试图提炼出与分子种群遗传数据最相关的理论和模型。这些模型是用于从序列数据进行推断的模型,因此了解它们的结构是理解这些推断如何进行的关键。此外,本章试图澄清该领域中常用术语的使用方式,并定义它们在整本书中的使用方式。最后讨论了分子进化的中性理论,试图解释该理论的含义及其一些常见的误解。

基本序列术语

图 1.1 四个序列的比对。在本例中,样本大小为 n = 4,每个序列的长度为 L = 15。总共有六个位点在序列之间存在核苷酸差异(在位置 2、5、8、11、13 和 15),因此S=6.

分子种群遗传研究中收集的 DNA 序列数据将类似于图 1.1 中所示的比对。该比对显示了四个 DNA 序列,每个序列有 15 个核苷酸,来自染色体上的同一基因座locus(位置)。我将把这四条同源 DNA 链称为序列sequences或染色体chromosomes,因为数据来自四条独特的同源染色体,无论序列本身是否独特。该术语将在整本书中使用,但应该注意的是,文献中有许多术语用于这四个 DNA 序列,包括基因、等位基因、样本、顺反子和等位基因拷贝。使用基因一词来表示在单个基因座采样的多个序列并不像 20 年前那么常见,特别是现在个别研究人员定期从物种内的多个基因收集多个序列。但许多研究仍然使用等位基因一词来指代每个采样染色体,实际上使用了等位基因的“起源不同”定义(Gillespie 2004,第 6-8 页)。我将仅使用等位基因一词来指代单个核苷酸(或氨基酸),当它们在比对中的单个位置上有所不同时,例如 A 或 C 等位基因。这种用法被称为等位基因的“状态不同”定义。所以我们可以说图 1.1 中的比对中有 n = 4 条染色体。请注意,这个术语不t 取决于这四个序列是来自两个随机二倍体个体、四个单倍体个体还是四个独立的近交(同源)二倍体系。在所有情况下,我们仍然从自然界中取样了四条染色体。

在比对中,我们可以看到序列在几个位置上存在差异,一个核苷酸或另一个核苷酸存在于不同的个体染色体中。我们将主要关注双等位基因位点biallelic sites,因为它们是观察到的最常见的变异类型,尽管任何位置都可以有两个以上的等位基因。有许多不同的术语用于描述这些 DNA 差异:我们可以说我们的样本中有六个多态性polymorphisms或分离segregating位点sites或突变mutations或单核苷酸多态性 (SNP)(在位置 2、5、8、11、13 和 15)。多态性和分离位点这两个术语在历史上一直是最常用的术语,尽管 SNP(发音为“snip”)最近变得更加常见。 (最早使用 SNP 这一缩写可追溯到 Nikiforov 等人 [1994]。)在单个序列上发现的一组等位基因称为单倍型haplotype

不同领域对突变一词的处理方式截然不同。它可用于表示 DNA 发生变化的过程或由此过程产生的新等位基因。有时,突变被用作任何多态性的同义词,或仅指在更偏向医学的群体遗传学中出现的罕见多态性(发生率 <1-5% 或仅存在于单个序列中的多态性)(Cotton 2002)。因为所有多态性最初都必须以突变的形式出现,并且因为我将在本书中讨论变异的进化起源,所以我试图将突变的使用限制在表示变异生成过程和此过程产生的新突变。

最后,我将保留术语替换,仅表示在物种之间观察到的 DNA 差异,与物种内的变异不同。我们通常不将插入/缺失 (indel) 多态性视为分离位点,尽管长度为 1 个碱基对 (bp) 的插入缺失有时也包括在此分类中。原因是很难计算两个具有多核苷酸插入缺失的序列之间的实际差异数量——2-bp 插入缺失算作一个多态性还是两个?答案取决于我们认为发生了单个 2-bp 突变还是两个单独的 1-bp 突变。在分析中通常不考虑具有插入缺失或任何类型的缺失数据的比对列,因此样本大小 (n) 的值可能因位点而异(参见第 3 章)

进化过程模型

种群的模型

在所有种群中,对于所有多态性,遗传漂变都会改变等位基因频率。漂变只是等位基因频率的随机变化,这是由于所有种群的有限性质造成的,并且是因为在每一代新染色体中,一些染色体比其他染色体留下更多的后代。漂变不同于自然选择(一种确定性力量),因为等位基因或基因型在后代数量上没有一致的差异,因此每个个体等位基因的频率不会仅仅因为漂变而持续上升或下降。

漂变模型是种群中个体如何代代更替的必要模型。最常用的模型之一是 Wright-Fisher 模型(Fisher 1930b;Wright 1931)。该模型设想一个具有 N 个二倍体雌雄同体且大小恒定的种群;我们要求它们是雌雄同体(即雌雄同株),以便所有个体都可以相互交配,但该模型可以扩展到具有不同性别的种群。由于个体是二倍体,因此对于常染色体基因座,每代种群中有 2N 条染色体。如果我们的模型包括性染色体和来自两个不同性别的相等数量的个体,则将有 1.5N X 或 Z 染色体、0.5N Y 或 W 染色体和 0.5N 线粒体或叶绿体基因组,具体取决于所研究的生物系统。为了形成下一代个体,我们将假设个体随机交配,并且染色体被均匀地取样并替换以留下后代。没有个体能存活到下一代——相反,整个种群被其后代所取代。这种模型最适用于世代不重叠的物种,例如一年生植物或一年出现一次的昆虫(一年生脊椎动物物种很少见,因为但确实存在;参见 Karsten 等人,2008 年)。

要了解漂移对 Wright-Fisher 模型中等位基因频率变化的影响,考虑具有两个等位基因的单核苷酸位置 A1和A2。在第 t 代,有 i 条染色体携带等位基因 A1,其频率为pt,pt= i/2N。这意味着有 2N − i 条染色体携带等位基因A2,其频率为 qt。下一代染色体的采样相当于从参数为 2N 和 i/2N 的二项分布中采样。因此,Wright-Fisher 模型中下一代 p 的均值和方差为:

其中 E(•) 表示随机变量的期望(均值),Var(•)表示方差。这些方程表明,当只有漂移发生时(没有突变和选择),平均等位基因频率预计会随着时间的推移保持不变。由于等位基因频率的预期变化为 0,因此无法预测任何特定等位基因的上升或下降。另一方面,该过程中的方差与种群规模直接相关,因此在较小的种群中,等位基因频率的变化会更大,并且等位基因频率处于中间水平。重要的是,即使没有预期的平均变化,从相同等位基因频率开始的独立种群也将不可避免地开始在其平均等位基因频率上有所不同,从而导致进化分歧。等位基因将向频率 0 或 1 漂移,此时频率为 1 的等位基因将被称为“固定”。一旦一个或另一个等位基因固定,就不可能再发生任何变化,因为两个等位基因中的一个已经从种群中丢失。

这些变化的一个相关后果是,当漂移是唯一起作用的力量时,预计种群中遗传变异的水平会下降。如果我们将杂合性heterozygosity定义为随机选择的两条染色体具有不同等位基因的概率,那么随机交配种群中双等位基因位点的预期杂合性量为 2pq(这一想法在第 3 章中有更深入的介绍)。当一个等位基因变得比另一个等位基因更常见时,杂合性就会下降(因为它在 p = q = 0.5 时达到最大值);在 Wright-Fisher 模型中,预期杂合性每代下降 1/2N。尽管杂合度的下降不是等位基因频率变化的直接测量,但上述结果提供了当漂移是唯一作用力时等位基因频率变化非常缓慢的洞察。

第二个种群模型——在某些方面比 Wright-Fisher 更现实,在某些方面更易于数学处理——是 Moran 模型 (Moran 1958)。在 Moran 模型中,不同年龄的个体可以共存,我们不会在每一代用新个体全面替换种群。严格来说,Moran 模型仅适用于单倍体种群,但为了便于与 Wright-Fisher 模型进行比较,我们将考虑一个由 2N 个单倍体个体组成的恒定大小的种群。在给定的时间点,随机选择一个个体进行繁殖,随机选择第二个个体(不一定与第一个不同)死亡。在下一个时间点,新的后代个体以及所有幸存的个体都具有繁殖的潜力,再次选择一个个体进行繁殖,另一个个体被选择死亡。如果我们将这个生死步骤重复 2N 个时间点,我们将得到 Wright-Fisher 模型中的一代。这是因为,平均而言,每个个体都将被替换;但是,有些个体的寿命会短于“一代”,而有些个体的寿命会更长。

在 Moran 模型下,当携带一个等位基因的个体被选择繁殖,而携带另一个等位基因的个体被选择死亡时,等位基因频率就会发生变化。当然,也可能出现这样的情况:被选择繁殖的个体和被选择死亡的个体携带相同的等位基因,在这种情况下等位基因频率不会发生变化。在 2N 个时间点重复生死操作后,我们可以问下一代等位基因频率的均值和方差是多少。再次考虑与 Wright-Fisher 模型中描述的相同类型的双等位基因位点,Moran 模型的下一代等位基因频率 p 的均值和方差为:

与 Wright-Fisher 模型一样,预计平均等位基因频率不会发生变化。然而,Moran 群体的等位基因频率方差是 Wright-Fisher 群体的两倍。这是因为 Moran 模型中每个个体的后代数量的方差是 Wright-Fisher 模型的两倍。与 Wright-Fisher 模型相比,后代数量方差增加的直观解释是是由在不同时间点繁殖的个体(即“存活”时间不同的个体)增加的方差。这种差异的结果是 Moran 模型中的漂移量是原来的两倍,因此杂合性以两倍的速率(1/N)丢失。在 Moran 模型中,漂移进化仍然非常缓慢,但它的速度是 Wright-Fisher 模型的两倍。这里描述的两种种群模型对于大多数物种来说都不切实际,对于某些应用,在种群遗传学中​​还有其他更切合实际的模型——尤其是 Cannings 模型(Cannings 1974)。Cannings 模型可以具有后代数量的任意方差,并且是 Wright-Fisher 模型的推广。但是,Wright-Fisher 模型既直观又可以推导出许多重要的进化结果。正如我们将在下一节中看到的,它也是其他种群模型得出的结果的试金石,可以作为所有其他模型的比较对象。

种群的有效规模

种群遗传学的一个核心概念是有效种群规模,通常表示为 Ne(Wright 1931)。与人口普查中的人口规模(只是给定时间的个体数量计数)相比,有效种群规模是一个抽象值,允许将实际种群建模为具有等量遗传漂变的 Wright-Fisher 种群。由于有许多因素导致自然种群中后代数量的方差超过 Wright-Fisher 模型中的预期值,因此有效种群规模通常小于人口普查人口规模。种群的有效规模使我们能够在一个参考框架内比较不同的种群和物种——即理想化的赖特-费希尔种群中预期的漂移量。这样,我们就有了一个单一的值,它有助于量化遗传漂变在确定突变、选择、重组和迁移的有效性方面的作用。我们甚至可以设想基因组不同区域具有不同有效种群规模,每个区域的历史都与具有不同遗传漂变水平的赖特-费希尔种群的历史相同。这些差异可以表现为整个基因组中许多进化过程的差异(有关综述,请参阅 Charlesworth 2009)。

然而,由于其定义和应用,有效种群规模也可能是一个模糊且被广泛误解的概念。一个问题是,至少有四种方式可以表征漂移的影响,因此任何给定种群都可以用四种不同的方式等同于赖特-费舍尔种群中漂移的某些方面。这导致了有效种群规模的多种定义: the variance effective size(方差有效种群大小), the inbreeding effective size(近交有效种群大小), the eigenvalue effective size(直译为:特征值有效种群大小), and the coalescent effective size(溯祖理论有效种群大小).在满足赖特-费舍尔模型假设的平衡种群中(以及在许多非平衡种群中),这些有效种群规模的度量将相等。但在一些具有非平衡历史的种群中,这些有效规模可能彼此相差很大,甚至可能未定义 - 也就是说,在这些情况下没有等效的赖特-费舍尔种群(Ewens 2004)。对于分子序列数据,最适用的有效大小可能是eigenvalue effective size大小,尽管在某些情况下它仍未定义(Sjödin 等人,2005 年;Wakeley 和 Sargsyan,2009 年)。根据此定义,我们将遗传漂变量等同于coalescence率(参见第 6 章)。

有效种群大小的概念也经常被误用,或者至少其含义和应用被不必要地扩大。正如 Ewens (2004, p. 38) 所强调的,“如果将形容词‘有效’替换为‘在某些特定方面相当于 Wright-Fisher 模型’,那么它将更能说明进化模型概念的含义。” Ne 与理想化的 Wright-Fisher 人口模型(特别是与该模型中的漂移)的本质联系经常被忽视或被认为比实际情况更重要。如上一节所述,Wright-Fisher 模型是许多理论人口遗传学的基础,是理解许多不同目标人口行为的中心比较器。但是这个 Wright-Fisher 人口的规模并不等同于繁殖个体的有效数量、对下一代有贡献的个体数量或任何“真实”人口规模。我们可以很容易地将有效规模定义为与具有相同遗传漂变量的 Moran 群体相当的规模,尽管在这种情况下,Ne 的数值将只有一半。这一切都意味着,虽然 Ne 的数值不是非常有用,但基因组区域之间或生物体之间的等级值仍可能告诉我们漂移和选择的相对预期强度(见第 3 章)。

突变模型

DNA 突变过程有许多模型。需要多种模型,因为存在许多不同类型的突变,并且因为不同的分子生物学技术提供了有关潜在变异的不同数量的信息。使用某些模型只是因为它们在数学上更易于处理。重要的是要认识到,这些不是突变如何在生殖系中发生的特定分子模型(例如,DNA 聚合酶和相关的校对酶如何整合不正确的碱基)。相反,这些模型旨在以一般的定量方式解释在当今样本中检测到的多态性是如何在许多代以前出现的,以及不同的突变率如何导致观察到的不同数量的多态性。突变的群体遗传模型也可以比该过程的许多系统发育模型更简单,主要是因为我们期望在比较的序列之间发现更少的差异。

尽管突变的群体遗传模型之间存在差异,但也存在许多相似之处。所有模型都假设突变是随机的,尽管随机的含义可能与一般用法不同。自然界中的突变在许多方面都是高度非随机的。例如,并非所有突变都同样可能发生。众所周知,核苷酸转换突变(嘌呤之间或嘧啶之间的突变)比核苷酸颠换(从嘌呤到嘧啶的突变,反之亦然)更常见。所有基因座发生突变的可能性也不尽相同——例如,染色体上的突变率存在很大的区域差异(Hodgkinson 和 Eyre-Walker 2011),CpG 位点(DNA 链上 G 跟随 C 的位点)的突变率可能比附近位点高 10 倍(Bird 1980)。然而,进化意义上的随机性仅意味着在一种环境中有利或有害的突变在另一种环境中发生的可能性不会相对更高或更低,尽管总体突变率可能会发生变化。尽管可以考虑突变过程的复杂性,但这些突变模型通常忽略所涉及的核苷酸变化的细节,只考虑是否发生了突变。此外,在此处考虑的突变模型中,通常只考虑对适应度没有影响的突变(中性突变)。

我们的突变模型所需的随机性与它们在时间和空间上的起源有关,这两者都可以用泊松过程来描述。假设中性突变以恒定速率 μ(每代)在位点之间和沿谱系独立积累,这样在 t 代之后观察到的突变数将呈泊松分布,平均值为 μt。泊松分布是合适的,因为突变率非常低,在真核生物中每代每位点约为 10^-8 到 10^-9(Lynch 2010)。突变率可以按基因座或位点表示,在后一种情况下,在 L 个核苷酸位点的单代中观察到的突变数将呈泊松分布,平均值为 μL。在考虑核苷酸按顺序排列的模型中,我们假设每个位点都有独立的突变概率。鉴于新的方法考虑了染色体上多态性的间距(例如,Li 和 Durbin 2011),关于突变独立性和位点恒定突变率的假设可能非常重要。遗憾的是,这两个假设都不是始终正确的(例如,Schrider、Hourmozdi 和 Hahn 2011;Harris 和 Nielsen 2014),尽管这些违反假设对大多数方法的影响可能并不大。

图 1.2 突变模型。(A) 中展示了四种不同的模型:双等位基因模型指具有两个等位基因的单个位点,尽管这些位点也与其他模型一致。无限位点模型是指每个位点最多发生一次突变的序列。有限位点模型是指在同一位点可以发生多个突变的序列。无限等位基因模型将每个整个序列视为一个等位基因,而不是单个位点的交替状态(因此这里显示了三个等位基因)。(B)逐步突变模型,在该模型下,突变只能导致相邻等位基因之间的变化,通常在重复次数上有所不同。

最简单的突变模型涉及两个等位基因(图 1.2A)。在经典的群体遗传学中,它们通常表示为 A 和 a 或 A1和A2,可以代表两种不同的核苷酸、两种不同的氨基酸或两种不同的单倍型。 (我一般会在本书中使用 A1和A2,除了第 5 章和第 9 章,我使用其他符号以避免与种群 1 和 2 中的等位基因混淆。)这种双等位基因模型two-allele model是考虑单个位点数据时最常用的突变模型。如果在建模数据中也知道这样的分配,则可以将两个等位基因中的一个指定为祖先状态,尽管这些分配不是必需的。该模型的一个重要特征是每次使用时必须指定的允许突变的数量和类型。通常允许 ) 突变,在这种情况下我们说没有回复突变的可能性。这与允许样本历史中仅发生来自 A1 的单一突变不同,因为有时可以放宽此条件而不放宽对回复突变的限制。但通常只对每个突变的单一起源进行建模,而没有回复突变。

将双等位基因模型直接扩展到更大的 DNA 序列被称为无限位点模型infinite sites model (Kimura 1969)。在这个模型中,我们假设我们有足够长度的 DNA 序列,以至于我们的样本中有多个分离位点。由于突变率低,无限位点模型假设样本历史中的每个突变仅发生一次,没有回复突变,并且每个新等位基因的突变都发生在序列中的新位点(图 1.2A)。这些假设确保个体在 DNA 水平上相似,因为有共同的历史,而不是趋同突变。这些假设还意味着每个分离位点最多是双等位基因,样本中仅存在两个等位基因(例如 A1)。假设突变根据泊松过程独立发生。

在某些情况下,在采样染色体的历史中,一个位点可能发生了多个突变。由于我们不再满足无限位点假设,因此我们必须使用有限位点模型 finite sites model.有限位点模型最常用于物种间 DNA 序列的比较,其中涉及的长时间段意味着位点可能已多次改变。有几种方法可用于准确估计位点存在多个替换时序列之间的距离,例如 Jukes-Cantor 校正(Jukes 和 Cantor 1969;第 7 章)。在分析多态性数据时,当分离位点为三等位基因或四等位基因时,最常需要有限位点模型(图 1.2A)。在这些情况下,分离位点的数量不再等于样本历史中的突变数量,因为单个位点可能经历了两次或两次以上的状态变化。

此类变化可以表现为新的衍生状态、对先前存在的祖先等位基因的回复突变或对样本中已经存在的衍生等位基因的复发突变。有限位点模型中的突变仍然可以是泊松分布的,但现在每个新突变都必须有机会发生在已经经历过突变的位点和已经存在的等位基因状态。

对于无限位点和有限位点模型,我们都假设对底层 DNA 序列有完美的了解。然而,在分子群体遗传学的早期,DNA 序列本身尚不可用。同位酶技术(例如 Hubby 和 Lewontin 1966)仅允许区分氨基酸变化不同的序列,导致蛋白质以不同的速度通过凝胶。这意味着许多氨基酸突变和所有同义突变都无法检测到。为了模拟这样一个系统(其中不同的等位基因被识别为电泳可区分的变体),研究人员使用了无限等位基因模型infinite alleles model(Kimura 和 Crow 1964)。该模型假定基因座上的每个新突变都会创建一个群体中不存在的新等位基因,而不必了解底层 DNA 序列,也不必处理发生突变的位点的细节。

此时我们必须明确无限等位基因模型中等位基因的含义与无限位点模型中等位基因的含义之间的关系(图 1.2A)。如上所述,我们目前使用等位基因来区分单个核苷酸或密码子位置的替代状态。然而,无限等位基因模型中的不同等位基因相当于不同的单倍型,其中每个单倍型可能由多个核苷酸变化来区分。无限等位基因模型不考虑不同单倍型(等位基因)之间的位点数目差异,因此没有利用完整的序列信息。此外,尽管无限等位基因模型已经得出了许多具有历史意义的结果(例如,Ewens 1972),但它们通常忽略了重组在创建新单倍型方面的影响。由于所有这些原因,无限等位基因模型很少用于现代分子群体遗传学

与无限等位基因模型相关的是逐步突变模型 stepwise mutation model,该模型最初是为了表示突变在密切相关的等位基因之间移动的影响而提出的(Ohta 和 Kimura 1973)。在原始模型中,等位基因代表单倍型,但单倍型的排序使得突变可以在 A1 A2之间或 A2 A3之间进行,但不能在 A1A3 之间进行(图 1.2B)。逐步突变模型最初用于模拟等位酶位点,之后作为微卫星的模型得到了更广泛的应用。微卫星——也称为短串联重复序列 (STR) 或可变数目串联重复序列 (VNTR)——由短重复单元(通常长度为 1-6 个碱基)组成,可连续重复 1 至 50 次(Goldstein 和 Schlötterer 1999;Ellegren 2004)。多态性微卫星上通常有许多等位基因,每个等位基因的重复单元数不同。微卫星上的突变被认为是通过聚合酶滑移发生的,导致重复次数增多或减少。逐步突变模型允许通过增加或减少单个重复单元来改变等位基因大小,其增益和损失概率是对称的,且等位基因大小与突变率之间没有关系(图 1.2B)。真实的微卫星数据表明,存在多步突变,每次导致多个重复的增加或损失,并且突变的方向往往存在偏差(Di Rienzo 等人,1994 年;Rubinsztein 等人,1995 年;Sun 等人,2012 年)。出于这些原因,可以使用允许从任何其他等位基因到达任何等位基因的替代模型(也称为无限等位基因模型)或允许任何特定的步长和突变率分布(对称或不对称)(此类模型称为广义逐步模型generalized stepwise models;Kimmel 和 Chakraborty,1996 年)。

重组模型

重组建模通常与突变建模类似。重组事件被认为以类似泊松分布的方式沿染色体发生,重组率由参数 c 给出,定义为两个标记之间发生交叉事件的概率。实际上,交叉比这更复杂,但我们在群体遗传模型中忽略了大多数这些复杂因素(例如交叉干扰)。我们经常测量每代每个位点的重组率,因此,在相距 L 个核苷酸的两个位点之间在单个代中发生的重组事件的预期数量为 cL。在某些生物体中,交叉的一个突出特征是存在所谓的重组热点(Jeffreys、Kauppi 和 Neumann 2001;McVean 等人 2004)。重组热点代表交叉事件密集发生的小区域,通常使重组率比背景重组率高出许多倍。即使那些似乎缺乏真正热点的生物体也显示出染色体不同位置的重组率大幅度改变。对于一般的重组——以及对于包括热点在内的特定场景——所有这些都意味着事件通常以“有限位点”的方式建模,其中多个重组事件可以发生在样本历史的同一位置。

突变和重组之间的主要区别之一是重组事件不会改变单个位点的等位基因频率。通过沿染色体重新排列等位基因,交叉只会改变 DNA 单倍型的频率(图 1.3A),而每个位点的等位基因频率保持不变。此外,虽然交叉是重组的一个结果,但另一个结果是基因转变,即遗传物质的非对称交换(图 1.3B)。在基因转变中(不必真的涉及一个基因),个体中的两个等位基因拷贝中的一个充当供体,而另一个充当受体。供体的 DNA“覆盖”了接受体的 DNA,从而产生了两个相同的重组结果。

图 1.3 重组的不同结果。(A)一个二倍体个体在四个基因座 A、B、C 和 D 处杂合。B 和 C 基因座之间发生交叉事件(用 × 表示),从而产生了两个重组单倍型。(B)相同的初始设置,转换事件影响 B 和 C 基因座。因为 B1所有基因作为供体,结果是一个 B1 等位基因纯合的个体。

有时这种情况会以有偏的方式发生,因此一个等位基因更有可能成为供体无论是否有偏向,基因转变都会改变等位基因频率。基因组内重复基因座之间也可能存在非相互的遗传物质交换,这被称为 non-allelic or interlocus or ectopic gene conversion(直译为:非等位/基因位点间/异位基因转变) 在这里,我只考虑等位基因之间的基因转变;这被称为allelic or intralocus gene conversion(等位/基因位点内基因转变).

基因转变的纳入需要在重组模型中引入两个附加参数。一个是每代每个位点的基因转变率 g,另一个是基因转变带的平均长度 q由于所有重组事件都会导致较短的基因转变带,但并非所有事件都会导致交叉,因此 g/c 的比率(有时表示为其自己的参数 f)通常远大于 1,范围从果蝇的约 4到人类的约 7。基因转变片段(即转换的 DNA 片段)约为 100-1,000 个核苷酸其长度分布类似于参数为 1/q 的几何分布。基因转变片段以概率 g 在每个位点处起始,然后该片段被建模为延伸到起始位点的右侧(Wiuf 和 Hein,2000 年)。第 4 章将讨论有关交叉和基因转变的更多细节。

自然选择模型

自然选择的许多方面与分子群体遗传学相关,但这里无法全部讨论。也许最有用的介绍只是定义常用术语并指出当今该领域使用的定义中的歧义。

就其对生物体适应性的影响而言,新突变有三种后果:相对于祖先等位基因的适应性,它可能有利、有害或中性。当然,新突变对不同遗传背景、杂合或纯合形式的适应性的影响各不相同,但这里我们感兴趣的是突变在不同背景和种群频率下的平均边际效应。如果我们将 s 定义为新突变的选择系数(即拥有一个新等位基因拷贝的个体与祖先等位基因纯合的个体之间的相对适应性差异),那么对于有利突变,s > 0;对于有害突变,s < 0;对于中性突变,s = 0,因为这两个等位基因具有相同的适应性。效果大的突变具有较大的 |s|,要么增加适应度,要么减少适应度,认为在自然种群中s = 0.10(适应度增加 10%)被认为是非常大的效果。正如我们将在第 7 章中看到的那样,效果比这小得多的有利突变将迅速在种群中传播。

为了总结基因或基因座的选择历史,我们经常使用短语负(纯化)选择negative (or purifying) selection正选择 positive selection和平衡选择 balancing selection这些非常有用但通常非常模糊的自然选择总结并不总是与用于定义单个突变效果的术语一致负选择是指基因座的历史,其中发生的绝大多数突变都是有害的。因此,受到负向选择的基因或非编码区通常是保守的,自然选择会去除大多数改变功能性 DNA 序列的突变。在某些情况下,一级序列可能不保守,但该序列仍会经历纯化选择,因为序列的长度或序列的平均生化特性是所选特征。我们也经常说,这些区域或核苷酸位点受到选择的限制,只能位于序列空间的有限区域内。从这个定义中应该可以清楚地看出,几乎所有蛋白质编码基因始终处于负向选择之下,即使有大(或小)比例的突变是中性的或有利的。未受到负向选择的区域不受限制,也不会受到选择。使用短语负选择时出现的一个歧义是,一个基因受到的负选择比另一个基因更强。这可能意味着受限位点的替代碱基的平均选择系数变得更负;这肯定是短语负选择所暗示的当 s 接近于 0 时,称为“弱选择”。或者,它可能意味着某个区域中的更多位点(例如,蛋白质中的更多氨基酸)受到任何限制,因此在整个区域观察到的平均替换数较低。无论如何,负选择是一种常用的简写,在大多数情况下具有明确的含义。

正选择是指有利突变已经出现并固定或正在固定的基因座的历史。由于有利突变比有害突变少见得多,因此假设负选择作用于几乎所有保守和功能性区域。相比之下,即使只有一个可检测到的有利替换的基因座也被认为受到正选择。这种替换可能发生在遥远的过去,也可能目前正在passing through群体。有利突变的频率可以迅速增加,这种快速增长产生的许多模式可用于检测正向选择的特征。由于检测正向选择已成为分子群体遗传学存在的理由(raison d’être ),我们将在整本书中多次回顾它。

用于总结基因座选择历史的最后一个概念是平衡选择。该术语涵盖了多种不同的选择模型,但所有模型的共同点都是维持种群或物种内的选定多态性。这些模型与具有普遍有利或有害突变的模型形成对比,因为平衡多态性由相对适应度随时间、空间或种群频率变化的等位基因组成。因此,平衡选择通常与包括正向和负向选择的“定向”选择模型形成对比。常见的平衡选择包括杂合优势(或超显性选择),其中杂合基因型比纯合基因型具有更高的适应性;负频率依赖选择,其中稀有等位基因具有更高的适应性;以及空间或时间变化选择,其中种群中等位基因的适应性分别取决于它们所处的环境或季节。在许多情况下,空间变化选择被认为是一种局部适应形式,而不是平衡选择,尽管在整个物种的层面上,任何此类多态性都在保持多样性,因此受到平衡选择。对于某些形式的平衡选择,平衡多态性可能是双等位基因或多等位基因。也就是说,一个位点上可能存在两个平衡的替代等位基因(例如,Kreitman 和 Aguadé 1986),也可能存在多个平衡的等位基因(通常在多个位点上)(例如,Ségurel 等人 2012)。

最后必须对用于描述自然选择数量性状(例如身高、体重,甚至某些基因组特征)的语言做出评论(例如,Kimura 1981)。数量性状通常由多个基因座的等位基因的综合作用决定,并且这些基因座中的任何一个都可能受到负面、正面或平衡选择的影响。然而,表型本身据说受到稳定、定向或破坏性选择的影响。这些过程中的每一个都类似于 DNA 上的一种选择形式,但这种类比仅限于此。例如,稳定选择不同于负选择——稳定选择的作用是消除表型极端的个体,方法是消除无条件删除的等位基因,保持平衡的多态性,或者只是在许多基因座上保留适应度接近的等位基因的最佳数量。表型的定向选择与单个基因座的正向选择最为相似,尽管对任何一个有助于数量性状的等位基因的选择强度可能非常弱。最后,表型的破坏性(或多样化)选择对应于对具有中间性状值的个体的选择,但不一定需要在任何特定基因座上进行平衡选择。还要注意的是,多样化选择这一术语有时用来表示基因座的多等位基因平衡选择(例如,Foxe 和 Wright 2009)或整个系统发育中的快速蛋白质进化(例如,Murrell 等人 2012)。关键信息应该是,自然选择有很多种形式,描述每种形式的术语也有很多,有时必须小心谨慎,以便清楚地传达在任何特定情况下调用的模型。

迁移模型

种群遗传学中​​的迁移模型在很大程度上只是种群populations(也称为demes or subpopulations)在环境中的结构模型(有关种群定义的更多讨论可参见第 5 章)。这些模型几乎不需要关于个体如何进化的细节,人类实际上也在种群之间移动并进行杂交,一般来说,人们只对交换的等位基因的数量和类型感兴趣。然而,在所有迁移模型中,迁移过程有几个重要的细节是共同的。这些细节对于理解我们如何推断一个物种的基因流动模式至关重要。

迁移率 m 被定义为当前一代种群中来自上一代不同种群的所有个体(或染色体)的比例。也就是说,迁移率代表了种群中每代移民个体的比例。这些移民被认为是来自源种群的随机个体样本,并且假设源种群和接收种群的规模都不会因迁移而发生变化。第一个假设意味着我们可以根据来源和接受者群体中的等位基因频率(以及迁移率)轻松计算出由于迁移而导致的等位基因频率的预期变化。第二个假设也使得跟踪等位基因频率的预期变化变得更加容易:因为任何特定群体都可以是移民的来源和接受者,所以我们不必考虑每个人的移动。

图 1.4 迁移模型。 (A) 无限岛模型假设有无限数量的人口大小相等,彼此之间交换相等数量的移民。 虚线表示看不见的人口的迁移。 (B) 有限岛模型假设人口数量有限,每个人口都有自己的规模,并且有特定数量的移民进入和离开。 箭头的粗细表示迁移率的差异。 (C) 垫脚石模型假设人口大小相等,只能与邻近人口交换移民。 (d) 二维垫脚石模型也只允许邻近人口之间的迁移。

大量迁移模型涉及离散组织的群体,其中每个群体内发生随机交配,并且移民可以在群体之间交换。这些“岛屿”模型与突变模型有着有趣的相似之处,最明显的是,我们可以拥有无​​限岛屿模型 infinite island models(图 1.4A)和有限岛屿模型 finite island models (图 1.4B)。其中假设较多的是无限岛模型(一般来说归因于 Wright 1931),规定有无数个大小相同的种群,每个种群都以相同的速率与其他种群交换移民,并假设没有选择,也没有突变。这些假设意味着该模型没有地理结构,因为空间上接近的种群交换移民的可能性并不比彼此相距较远的种群更大。无限岛模型假设种群处于迁移漂移平衡状态,因此种群之间也不存在非最近迁移导致的共同祖先痕迹。由于所有这些原因,它被称为“梦幻岛”模型(Whitlock 和 McCauley 1999),尽管它的许多假设可以被违反,而不会对关于迁移的推断产生很大影响(Neigel 2002)。然而,更现实的迁移模型可以更精确地估计人口参数。

有限岛屿模型仅包含有限数量的岛屿,每个岛屿都有自己的大小和迁移率(图 1.4B)。最简单的模型涉及两个种群,大小为 N1、N2和两个迁移率 m1、m2。迁移率指定等位基因从种群 2 到种群 1(m1)以及从种群 1 到种群 2(m2)的移动。通常假设迁移率是对称的 - 即 m1=m2,因此只需要指定或估计一个参数。双岛模型的其他版本假设两个种群的大小差异很大,因此只有从较大种群(“大陆”)迁移到较小种群(“岛屿”)才会对等位基因频率产生影响。因此,这种大陆岛屿模型只是一个单向迁移的双岛模型。对于具有两个以上种群的有限岛屿模型,我们必须指定第 i 个种群的大小 Ni以及第 i 个和第 j 个种群之间的迁移率 mij,对于每一对 i 和 j。

继续将迁移和突变模型进行比较,正如逐步突变模型只允许变化以创建相邻的等位基因一样,迁移的踏脚石模型(Kimura 1953)只允许个体在相邻种群之间迁移(或假设这种迁移是最有可能)。垫脚石模型最常见的是一维(图 1.4C)或二维(图 1.4D),但可以容纳任意数量的维度。有限数量种群的垫脚石模型的一个问题是如何处理格子的末端——也就是说,当到达一串种群中的最后一个种群时该怎么做。对于一维模型,一个简单的解决办法是将种群排列成一个圆圈,这样所有种群都有两个邻居;对于二维模型,等效形状是圆环(实际上是一个甜甜圈)。然而,有趣的是,在模型中包含真正的边界可以深入了解一系列种群之间的多样性分配(例如,Wilkins 和 Wakeley 2002)。

最后,一个通常更为现实的迁徙模型是假设一个连续分布的种群分布在一维或二维表面上。这种模型通常与 Wright 的距离隔离 (isolation by distance,IBD; Wright 1943) 概念相关,尽管相同的 IBD 模式将由踏脚石模型产生。在这些连续分布的进化模型种群模型中(这种模型没有通用名称,尽管曾使用过连续模型这一术语;Felsenstein 1976),空间上接近的个体更有可能密切相关,因为分散是有限的,或者至少比栖息地的规模小得多。模型中的迁徙通常用从正态分布中得出的分散距离方差 s2 来描述。随着“景观遗传学”的出现(Manel 等人,2003 年),这些模型最近重新受到欢迎,并将在第 9 章中进一步讨论。

交配模型

许多种群遗传理论同样适用于单倍体和二倍体、有性和无性生物以及雄性和雌性。虽然这并不总是正确的——也有一些非常重要的例外——但细节往往对预测结果影响不大。细节很重要的一个相关领域是我们必须考虑有性生物中二倍体基因型的频率。因为我们经常根据观察到的不同基因型的频率推断进化过程(例如,在识别种群结构时;见第 5 章),所以我们必须有一个模型来描述在没有这些过程的情况下预期的基因型频率。此类模型中应用最广泛的是 Hardy-Weinberg 模型(Hardy 1908;Weinberg 1908)。

为了理解该模型及其预测,我们首先考虑一下我们要预测什么。对于具有两个等位基因 A1 的单个基因座,有三种可能的二倍体基因型 A1A1/A1A2/A2A2。第一个和第三个是纯合基因型,而第二个是杂合子。我们分别将等位基因 A1 的频率表示为 p 和 q,将三种基因型的频率表示为 pA1A1、pA1A2和 pA2A2。Hardy-Weinberg 模型为我们提供了一种计算预期基因型频率的方法,假设没有选择、没有突变、没有迁移、没有漂移,并且两性之间随机交配。根据这些假设,每种基因型的预期频率为:

这些预期基因型频率相当于从种群中选择等位基因以形成下一代的预期结果,有时被称为配子的随机结合。当一个种群与预期的基因型频率相匹配时,我们说它处于哈代-温伯格平衡(HWE)。

个体可以通过多种方式进行非随机交配个体可以选择具有相似表型的配偶,我们称之为正向选型交配 positive assortative mating;如果他们与不同的个体交配,则称为负向选配(或非选型)交配negative assortative (or disassortative) mating。由于相似的表型很可能由相似的等位基因决定,因此正向选择性交配会导致相关性状基因座上出现更多的纯合基因型,而基因组的大部分仍为 HWE。影响所有基因座的选择性交配的一种极端形式是近亲繁殖,其中亲属之间的交配次数超过偶然预期。近亲繁殖系数 F (Wright 1922) 的范围从 0 到 1,表示由于亲属之间的交配而导致基因组中具有“血统相同”等位基因的基因座的比例。近亲繁殖通常表现为纯合基因型过剩,因此近亲繁殖越多(F 越大),群体中的纯合性就越高。近亲繁殖可能是由于多种过程引起的,包括亚种群内部的交配多于亚种群之间的交配(近亲繁殖系数表示为 FST)或同一亚种群内亲属之间的交配多于亚种群之间的交配(表示为 FIS)。第 5 章和公式 5.3 更详细地讨论了由于 FST 导致的纯合子过剩。

分子演化的模型

分子进化的中性理论

相对而言,用于广泛解释分子变异模式的模型很少,只有一项工作能够上升到该领域的科学理论水平。这项工作——分子进化的中性理论——由 Motoo Kimura (1968) 和 Jack King 和 Thomas Jukes (1969) 独立提出,是现代分子数据研究的基石之一。Kimura 本人对中性理论进行了非常简洁的描述 (Kimura 1983,第 306 页):

中性理论声称,绝大多数进化突变替换不是由积极的达尔文选择引起的,而是由选择性中性或近中性突变体的随机固定引起的。该理论还断言,分子水平上的大部分种内遗传变异(如以蛋白质多态性形式表现出来的变异)是选择性中性的或接近中性的,并通过突变输入与等位基因的随机灭绝或固定之间的平衡在物种中维持。

中性理论实际上对分子进化提出了两个主张:(1)分子水平上物种之间的差异主要是由于一个等位基因被另一个适应度相当的等位基因所取代(即中性);(2)物种内多态性的替代等位基因相对于彼此适应度是中性的,并且具有由突变漂移平衡主导的动态。这两种主张的结果是,多态性和分化只是同一过程的两个阶段,中性等位基因进入种群,最终因漂移而丢失或固定(Kimura 和 Ohta 1971)。因此,中性理论是理解物种间分化原因和维持物种内变异的过程的框架。

中性理论有许多非常有价值的特点,确保了其持续使用。中性理论的一个关键见解是,它能够通过假设不同程度的选择约束来解释基因内位点、进化模型或基因组内基因之间的进化速度差异。尽管这一点常常被误解(正如我们将在下一节中看到的那样),中性理论并不否认负选择的作用——事实上,负选择强度的变化被认为是进化速度的主要决定因素(而不是正选择强度或频率的变化)。这一见解可以总结为以下等式:

这里,中性突变发生的速率(μ)由总突变率(ν)和所有突变中中性突变的比例(f0)决定。

假设整个基因或基因组的总突变率恒定,中性理论认为,进化变化率的变化是由于中性突变比例的变化。这个分数 f0代表约束量the amount of constraint,因此“功能约束越弱,选择性中性的突变比例越大,因此进化率越高”。考虑密码子内不同位置的多态性和发散水平。四重简并位点比双重简并位点进化得更快,而后者比非简并位点进化得更快(例如,Li 1997,图 7.2)。同一密码子或同一基因内的各个位点之间的总(或“潜在”)突变率非常相似。位点之间的差异在于约束量(f0),这反过来又导致观察到的中性多态性或中性替换数量的差异

了解中性突变率 μ 的变化含义非常重要。按照 Kimura 的意图,中性突变率可能因位点、密码子、同一蛋白质的不同区域或不同蛋白质而异。中性突变率会有所不同,因为负选择在不同位点和基因之间的强度不同。密码子内的非简并位点(突变总是导致非同义变化的位点)可能具有与四重简并位点(突变永远不会导致非同义变化的位点)非常不同的中性突变率。单个基因的中性率本身很可能是基因内所有位点之间不同中性率的平均值,例如,对于蛋白质中功能更重要的部分中的密码子,f0 可能较低。四重简并位点通常被认为具有 f0 = 1 — 没有任何约束 — 因此被认为反映了潜在的突变率(有关此假设的更多讨论,请参阅第 7 章)。但每个基因和每个位点都有自己的中性突变突变率——这是中性等位基因出现的速率,无论多么罕见。总突变率和中性突变率之间的区别对本书讨论的许多主题具有重要意义,也是我们理解分子变异的关键概念。

中性理论的另一个主要贡献是它能够帮助解释物种和种群之间核苷酸多态性水平的变化。如果在物种内观察到的大多数多态性是中性的——不是保持在突变选择平衡中的轻微有害多态性,不是保持在中等频率的平衡多态性,也不是在固定过程中贯穿整个种群的有利突变——并且选择对连锁突变没有影响,那么种群内预期的变异量由中性突变和遗传漂变之间的平衡决定(图 1.5)。多态性由(中性)突变增加,在完全丢失或固定后,由于漂移而被消除。假设中性突变率相等,较大的种群经历的漂移较少,因此可以保持更多的多态性(图 1.5)漂移和突变的共同作用是我们认为乘积 Neμ 是多态性水平的决定因素(尽管不是唯一因素)的原因之一,同样也是我们在评估种群内重组水平(Nec)和迁移水平(Nem)时关注包括漂移贡献在内的其他复合参数的原因。

如果中性理论的假设是正确的,并且种群处于突变-漂移平衡状态,那么我们就会有大量的工作来描述物种内多态性的预期水平和频率,其中大部分要归功于 Kimura 本人。中性理论为理解 DNA 变异提供了理论基础,它提供了清晰、可检验的假设,使得能够使用一系列统计工具来检测自然选择的作用。这个语料库推动了本书中解释的大部分期望,并确保了中性理论继续作为研究分子群体遗传学的框架。

图 1.5 变异的平衡水平。当通过突变输入到种群中的变异(实线箭头)恰好等于通过丢失或固定新等位基因(虚线箭头)而产生的变异的总输出时,就达到了平衡。种群大小(由圆圈的大小表示)决定了漂移的影响,因此在小种群中(由较粗的箭头表示)有更多的丢失和更多的固定,这样小种群中的变异的平衡水平较低。请注意,等位基因的丢失率和固定率并不相等,但为简单起见,箭头的粗细相同。

然而,中性理论在解释越来越多的分子变异研究产生的大部分数据方面也存在很大困难。为了清楚地掌握这些问题,考虑中性理论的弱版本和强版本是有帮助的。弱版本指出,在整个基因组中观察到的大多数替换实际上是中性的并且是由随机过程固定的。多态性也是如此:在整个基因组中,大多数都是中性的,代表最终会在种群中丢失或固定的相同等位基因。因为基因组中的大多数突变(至少在大的真核基因组)发生在非编码、无功能的位点,所以中性理论的弱版本继续被接受。强版本认为大多数氨基酸替换也是中性的,突变漂移平衡是决定中性多态性水平和频率的主要力量。即使整个基因组中的绝大多数替换都是中性的,大多数研究人员关心的是可能对适应性产生影响的替换——无论是编码区域的替换还是功能性非编码区域的替换。对于这些类型的替换,中性理论仍然被拒绝(Hahn 2008;Wright 和 Andolfatto 2008;Sella 等人 2009)。同样,即使所有观察到的多态性都是中性的——在编码、非编码和非功能位点——观察到的多态性模式也不符合突变漂移平衡的预期,甚至不符合这种平衡的人口扰动,这可能是由于对相关突变的选择。总之,中性理论的弱版本是正确的,而且很有价值;强版本几乎肯定是错误的,但有时仍然有用。拒绝这一理论与其剩余效用之间的紧张关系仍未得到令人满意的解决(Kreitman 1996;Hahn 2008)。

中性理论的误解和误用

与任何广泛使用的科学理论一样,中性理论不可避免地被误解,并因此被误用。 这些问题中的许多甚至在分子群体遗传学中也反复出现,导致作者之间不必要的混淆和沟通不畅。 大多数问题都是因为中性理论和术语neutral都被理解为“无选择”,尽管 Kimura 强调“该理论并不假设所有突变在发生时都是选择性中性的”(Kimura 1983,第 307 页)。

在制定中性理论时,Kimura 试图解释分子生物学早期积累的 DNA 和蛋白质序列数据,中性理论是他对世界如何运作的看法。他并没有主张中性理论应该是进化的零模型null model,尽管他确实认为,与作为替代方案提出的泛适应论模型相比,中性理论的ad hoc较少。然而,现在中性模型通常被用作零模型的同义词,这意味着任何没有积极或平衡选择的模型都比包含这些选择的模型更简约。当然,能够指定一个没有积极或平衡选择的模型是有用的,这种模型的常用短语包括标准中性模型或中性平衡模型。

更令人困惑的是,将通用的“中性模型”与没有任何选择的模型概念混为一谈。中性一词的这种含义从何而来?它可能始于数量性状模型,研究人员对突变和漂移对表型进化的贡献感兴趣,他们借用了选择性中性这一术语来表示不受选择的性状(Lande 1976)。这种理解甚至发展成为此类性状的通用模型,名为表型进化中性理论(Lynch and Hill 1986)。此后,这一绰号在许多领域被用于不包含任何选择形式的模型,包括生物多样性研究(Hubbell 2001)、基因表达研究(Khaitovich、Pääbo 和 Weiss 2005)和文化数据研究(Lansing 和 Cox 2011)。

类似的、也许更令人烦恼的混淆是突变中性与位点中性之间的混淆。需要明确的是,只有突变才能是中性的:该术语明确地说明了替代等位基因的相对适应性。没有所谓的中性或“严格中性的”基因座,但可以存在不受选择的基因座。不幸的是,该领域中常见的简写是使用中性基因座来指代仅产生中性突变(即不受约束)的基因座、与非中性多态性相关的中性多态性基因座或随机选择的未知与特定适应性特征有关的基因座。问题不是因为使用了这种有用的简写,而是因为许多研究人员不明白它只是一个更复杂概念的简写。将术语“中性”误用到基因座或序列中的位置不仅仅是该词的另一种用法,它还导致了大量关于种群遗传学数据和概念的误解。以下是文献中由于将术语“中性”应用于基因座和突变而经常看到的一些误解:

• 它使人们认为只有不受约束的位点才能发生中性突变。根据中性理论,所有位点都可以发生中性突变,因此所有位点都可以具有由突变和漂移的平衡维持的多态性。在受约束的位点,中性突变率可能较低,但多样性水平和替代率仍可由种群规模和突变率决定。理解 McDonald-Kreitman 检验(第 7 章)等所依据的期望取决于理解这一区别——不同类型的位点有不同的中性突变率。这似乎是比较基因组学研究中一种特别常见的混淆,这种研究旨在通过分析不受约束位点的替换率来估计没有选择的情况下的突变率。

• 它使人们认为不受约束的位点呈现出一种不受自然选择影响的核苷酸变异模式。这种混淆在人口统计学和系统地理学研究中很常见,在这些研究中,使用被认为不受直接选择的标记(例如微卫星、线粒体 D 环)导致研究人员认为他们正在研究不受选择影响的变异模式。相反,许多不受约束的基因座与受选择影响的基因座相关联这一事实离子意味着变异的水平和频率受选择的影响很大——并且可以是“非中性的”,因为它们不仅仅由突变漂移平衡驱动。不受约束的序列可能提供了检查突变过程的机会,而不受直接进化模型选择的阻碍(例如,Petrov,Lozovskaya和Hartl 1996),但这是数据的非常不同的用途。

•它使人们认为具有约束的基因或基因座始终是“非中性的”。我们将在本书中讨论许多中立性测试以及基因座可以中性(或非中性)进化的多种方式。但主要主题是我们几乎从未测试过负选择的作用——再次,这被假定作用于功能位点。相反,我们会问是否有证据表明存在正向选择、平衡选择或有害的分离多态性。中性进化的基因座不是没有负向选择而进化的基因座,而是没有证据表明存在这些替代选择形式之一的基因座。

• 它使人们认为具有 Ne s = 0 的分离多态性的基因座或大类突变没有受到选择。这类错误与上面描述的错误相反:如果我们估计当前多态性的选择(无论是非同义氨基酸、基因拷贝数变体还是转座因子)并发现它们都是中性的,一些研究人员错误地推断这些类型的任何突变都没有受到选择。显然,这种模式与中性理论的预期完全一致——中性理论认为我们观察到的多态性是中性的——但绝不意味着所有此类突变都是中性的。

分子进化的替代模型

如果中性理论无法解释当前的变异模式,那么什么可以解释呢?尽管对这个问题没有一致的答案,但我们至少可以开始考虑与数据一致的可能的替代模型。一个有用的起点可能不是可以解释数据的理论,而是可能不正确的替代模型。通过列举这些可能性,我们希望能够更好地了解一个好的理论是什么样子。

一组几乎肯定是错误的相关模型是那些绝大多数多态性和替换都不是中性的(即,它们甚至与中性理论的弱版本不一致)。这种类型有三种明显的模型。有害突变模型 deleterious mutation认为,所有变异至少都具有轻微的有害性,并维持在突变选择平衡中。多态性将由低频变异主导,物种间的所有替换将由少数能够固定的有害变异组成。有利突变模型advantageous mutation model 将假设有利突变不断涌入。在这个模型中,所有多态性(或至少是基因组中可能具有功能性位点的多态性)将代表适应性等位基因在固定过程中的变化,可能在种群中出现的频率很高。在这个模型中,物种间的所有替换都与有利等位基因的固定相对应。平衡突变模型balanced mutation model将提出在整个基因组中维持平衡的多态性。多态性将包括这些中频变异,替换由稀有的平衡等位基因组成,这些等位基因会漂移到固定状态。基于经验和理论依据,有许多理由怀疑这些模型中的每一个。

与当前数据基本一致的两个模型都认为选择对相关中性变异的影响起着重要作用(有关更多讨论,请参阅第 8 章)。虽然两者都没有达到通常伴随“理论”的理论结果和经验支持的临界质量,但两者都是完善的模型,可以提供有关分子变异的详细预测。背景选择模型 background selection model提出,必须从种群中去除的有害突变的不断涌入会降低链接位点的中性多态性。该模型与上面描述的有害突变模型不同,因为背景选择并不认为我们观察到的多态性本身是非中性的。尽管背景选择模型并不总是能很好地解释分化模式(Stephan 2010;但参见 McVicker 等人 2009),有害突变的普遍存在意味着它几乎肯定会影响所有基因组的变异水平(Charlesworth 2012)。搭便车模型(Maynard Smith 和 Haigh 1974;Kaplan、Hudson 和 Langley 1989)提出,有利等位基因的快速固定会降低链接位点的多态性。同样,该模型与有利突变模型完全不同,因为大多数多态性被认为是中性的;快速固定替换对链接中性多态性水平的影响是该模型的主要特征。此外,搭便车模型与在许多物种中观察到的高适应性替换率一致(Hahn 2008;Sella 等人 2009)。几乎可以肯定的是,背景选择和搭便车都在所有物种中起作用——尚待确定的是每个过程在基因组区域和物种之间的相对重要性。

最后,还值得简要提及分子进化的近中性理论nearly neutral theory of molecular evolution(Ohta 1972a、1972b),因为它通常被认为是中性理论的替代方案。近中性理论假设存在大量略微有害(和/或略微有利)的突变,最初提出该理论是为了解释观察到的氨基酸替换率的意外恒定性(Ohta 1992)。然而,现在已知氨基酸替换率在物种间差异很大,近中性理论无法解释观察到的基因组多样性水平的变化。虽然毫无疑问每代都会产生许多略微有害的突变,并且——正如近中性理论所预测的那样——蛋白质进化模式与种群规模的相关性较弱(Akashi、Osada 和 Ohta 2012),但该理论只能解释一小部分数据。