第三章描述变异 - 版本历史

2025年8月26日 (二) 09:10 Magezeya

2025-08-26T09:10:43Z

←上一版本		2025年8月26日 (二) 17:10的版本
第1,076行：		第1,076行：

	将来，正向模拟可能会成为此类方法中最广泛使用的方法。越来越多的快速灵活的正向模拟器可以在许多不同的自然选择形式和许多不同的人口历史下对非常大的基因组区域进行建模（表 6.1）。计算技术的进步使这些方法更加可行，而 DNA 测序技术的进步可能使它们成为必需。虽然到目前为止，我只介绍了合并算法作为生成样本的算法，但这种方法有许多重要用途（请参阅 Hein、Schierup 和 Wiuf 2005 和 Wakeley 2009 以获得良好的概述）。合并算法为我们提供了一种概率建模谱系的方法，因此为分子群体遗传学中的各种结果提供了预期。这些预期中的许多都用在了本书的后面章节中。联合体还为我们提供了一个从谱系角度思考的框架，因此可以让我们深入了解我们采样的 DNA 序列之间的潜在关系。这个框架对于直观地了解群体遗传过程非常有帮助，因此在本章的其余部分，我将讨论中性联合体谱系的基础知识，并解释联合体的一些最重要的方面。在后面的章节中，我们将研究自然选择和非平衡人口历史对某个基因座谱系的影响。		将来，正向模拟可能会成为此类方法中最广泛使用的方法。越来越多的快速灵活的正向模拟器可以在许多不同的自然选择形式和许多不同的人口历史下对非常大的基因组区域进行建模（表 6.1）。计算技术的进步使这些方法更加可行，而 DNA 测序技术的进步可能使它们成为必需。虽然到目前为止，我只介绍了合并算法作为生成样本的算法，但这种方法有许多重要用途（请参阅 Hein、Schierup 和 Wiuf 2005 和 Wakeley 2009 以获得良好的概述）。合并算法为我们提供了一种概率建模谱系的方法，因此为分子群体遗传学中的各种结果提供了预期。这些预期中的许多都用在了本书的后面章节中。联合体还为我们提供了一个从谱系角度思考的框架，因此可以让我们深入了解我们采样的 DNA 序列之间的潜在关系。这个框架对于直观地了解群体遗传过程非常有帮助，因此在本章的其余部分，我将讨论中性联合体谱系的基础知识，并解释联合体的一些最重要的方面。在后面的章节中，我们将研究自然选择和非平衡人口历史对某个基因座谱系的影响。

			{{:Molecular Population Genetics}}

			{{学科分类}}

			[[Category:遗传学]]

长河：/* 无限位点模型下 SNP 的 θ 的常用估计量 */

2025-03-06T03:19:54Z

无限位点模型下 SNP 的 θ 的常用估计量

←上一版本		2025年3月6日 (四) 11:19的版本
第42行：		第42行：
	[[文件:MPG--2212.png\|无框\|114x114像素]]		[[文件:MPG--2212.png\|无框\|114x114像素]]

	统计量通常称为 Watterson 的 theta，因为它也是假设 Wright-Fisher 群体处于平衡状态和无限位点突变模型时参数 θ 的估计量。我们还可以重写上述方程，以将预期的分离位点数表示为 θ 的函数：E(S) = θa。给定图 1.1 中的序列比对，θW = 6/(1/1 + 1/2 + 1/3) = 3.28。我们可以看到，这个值与 π 给出的值非常相似。再次，θW 的确切值可能会在有间隙的比对中出现差异，这取决于我们是否包括或排除有间隙的位置。如果我们包括有间隙的位置，我们需要为具有不同序列数的区域计算单独的 θW 值，因此对于具有四个序列的位置，θW = 5/(1/1 + 1/2 + 1/3) = 2.73，对于图 3.1 中具有三个序列的位置，θW = 1/(1/1 + 1/2) = 0.667。统计量的总值是这两个的总和，θW = 3.40，并且每个站点的测量必须相应地对具有不同样本数的位置数进行加权。我们可以再次给出 S 的预期方差s θ，假设 Wright-Fisher 种群处于平衡状态，无限位点突变模型没有重组：		统计量通常称为 Watterson 的 theta，因为它也是假设 Wright-Fisher 群体处于平衡状态和无限位点突变模型时参数 θ 的估计量。我们还可以重写上述方程，以将预期的分离位点数表示为 θ 的函数：E(S) = θa。给定图 1.1 中的序列比对，θW = 6/(1/1 + 1/2 + 1/3) = 3.28。我们可以看到，这个值与 π 给出的值非常相似。再次，θW 的确切值可能会在有间隙的比对中出现差异，这取决于我们是否包括或排除有间隙的位置。如果我们包括有间隙的位置，我们需要为具有不同序列数的区域计算单独的 θW 值，因此对于具有四个序列的位置，θW = 5/(1/1 + 1/2 + 1/3) = 2.73，对于图 3.1 中具有三个序列的位置，θW = 1/(1/1 + 1/2) = 0.667。统计量的总值是这两个的总和，θW = 3.40，并且每个站点的测量必须相应地对具有不同样本数的位置数进行加权。

	~~Var s i i ( ) 1 1~~		我们可以再次给出 S 的预期方差s θ，假设 Wright-Fisher 种群处于平衡状态，无限位点突变模型没有重组：

	~~2 ∑ ∑ θ θ = +~~		[[文件:MPG--222.png\|无框]]

	当存在自由重组时，方差减少到公式 3.7 中的第一个项，因为不再存在任何进化方差（参见第 6 ~~章）。~~		当存在自由重组时，方差减少到公式 3.7 中的第一个项，因为不再存在任何进化方差（参见第 6 章）。Pluzhnikov 和 Donnelly (1996) 给出了中等水平重组的 S 方差。公式 3.7 还可用于查找预期方差，该方差由 Var (θW) = Var(S)/a2 给出，其中 a 的定义如公式 3.6 所示。

	~~Pluzhnikov 和 Donnelly (1996) 给出了中等水平重组的 S 方差。公式 3.7 还可用于查找预期方差，该方差由 Var (θW~~		比较我们两个 θ 估计量的预期方差，我们发现 θW 的方差低于 π 的方差，并且随着样本量增大而趋近于零（尽管非常缓慢）。这似乎表明 θW 是两个估计量中“更好”的。然而，它对轻微有害等位基因的存在和测序错误也更为敏感，即使在平衡种群中也是如此（见下文）。因此，通常会同时使用这两个统计数据，以及对两者进行比较（即 Tajima's D 统计量；见第 8 章）。

	~~) = Var(S)/a2 给出，其中 a 的定义如公式 3.6 所示。~~

	~~描述变异~~

	比较我们两个 θ 估计量的预期方差，我们发现 θW 的方差低于 π 的方差，并且随着样本量增大而趋近于零（尽管非常缓慢）。这似乎表明 θW 是两个估计量中“更好”的。然而，它对轻微有害等位基因的存在和测序错误也更为敏感，即使在平衡种群中也是如此（见下文）。因此，通常会同时使用这两个统计数据，以及对两者进行比较（即 Tajima 的 D 统计量；见第 8 章）。

	~~等位基因的频谱~~

			=== 等位基因的频谱 ===
	到目前为止，我们只考虑了使用单个汇总统计量（如 π 或 θW）来描述变异。但是，也有有用的图形方法来描述变异，而这些方法反过来又会引导我们更多地测量核苷酸多样性。考虑图 3.2A 中所示的比对。在这 10 条染色体中有 9 个分离位点，每个位点的频率在 1/n 和 (n − 1)/n 之间（请记住，如果一个等位基因存在于所有 n 条染色体上，则它不是多态性的）。如果我们不知道哪个等位基因是祖先的，哪个是衍生的，那么描述每个位点变异的一种简单方法是次要等位基因频率 (MAF)，即不太常见的等位基因的频率。因此，样本中的次要等位基因频率范围为 1/n 到 0.5。我们可以通过绘制等位基因频率谱来直观地总结样本中所有分离位点的 MAF，其中直方图中的每个箱体代表与给定次要等位基因频率比对中的位点数（或位点比例）（图 3.2B）。如果我们将 Si		到目前为止，我们只考虑了使用单个汇总统计量（如 π 或 θW）来描述变异。但是，也有有用的图形方法来描述变异，而这些方法反过来又会引导我们更多地测量核苷酸多样性。考虑图 3.2A 中所示的比对。在这 10 条染色体中有 9 个分离位点，每个位点的频率在 1/n 和 (n − 1)/n 之间（请记住，如果一个等位基因存在于所有 n 条染色体上，则它不是多态性的）。如果我们不知道哪个等位基因是祖先的，哪个是衍生的，那么描述每个位点变异的一种简单方法是次要等位基因频率 (MAF)，即不太常见的等位基因的频率。因此，样本中的次要等位基因频率范围为 1/n 到 0.5。我们可以通过绘制等位基因频率谱来直观地总结样本中所有分离位点的 MAF，其中直方图中的每个箱体代表与给定次要等位基因频率比对中的位点数（或位点比例）（图 3.2B）。如果我们将 Si

长河：/* 无限位点模型下 SNP 的 θ 的常用估计量 */

2025-03-06T03:17:31Z

无限位点模型下 SNP 的 θ 的常用估计量

←上一版本		2025年3月6日 (四) 11:17的版本
第30行：		第30行：
	我们还可以将 π 中的预期方差量表示为参数 θ 的函数。我们根据理论模型来表示方差，因为我们知道样本中的变异结构有很大的历史成分——即与采样染色体相关的谱系结构。尽管中性平衡模型下 π 的理论方差并不总是理想的（例如，在种群不符合我们的假设的情况下），但另一种方法是使用非常不准确的预期，这些预期不考虑底层谱系的层次结构，并且远低于大多数数据集中观察到的值。对于无重组的情况，此理想模型下π的预期方差为：		我们还可以将 π 中的预期方差量表示为参数 θ 的函数。我们根据理论模型来表示方差，因为我们知道样本中的变异结构有很大的历史成分——即与采样染色体相关的谱系结构。尽管中性平衡模型下 π 的理论方差并不总是理想的（例如，在种群不符合我们的假设的情况下），但另一种方法是使用非常不准确的预期，这些预期不考虑底层谱系的层次结构，并且远低于大多数数据集中观察到的值。对于无重组的情况，此理想模型下π的预期方差为：

	[[文件:MPG-22222.png\|无框]]		[[文件:MPG-22222.png\|无框\|390x390像素]]

	如公式 3.4 所示，π ~~存在大量方差，~~		如公式 3.4 所示，π 存在大量方差，即使有大量样本，方差也不会接近于零（Tajima 1983）。Pluzhnikov 和 Donnelly (1996) 给出了位点内重组水平增加时的预期方差。

	~~即使有大量样本，方差也不会接近于零~~		π 的另一种总结核苷酸变异的方法是使用样本中分离位点的总数 S。但是，由于样本量越大，S 的值也越大，因此我们必须将统计量调整为（Ewens 1974；Watterson 1975）：

	~~（Tajima 1983）。Pluzhnikov 和 Donnelly (1996) 给出了位点内重组水平增加时的预期方差。~~		[[文件:MPG-3323.png\|无框\|109x109像素]]

	π 的另一种总结核苷酸变异的方法是使用样本中分离位点的总数 S。但是，由于样本量越大，S 的值也越大，因此我们必须将统计量调整为（Ewens 1974；Watterson 1975）：其中 a ~~等于：统计量通常称为~~ Watterson 的 theta，因为它也是假设 Wright-Fisher 群体处于平衡状态和无限位点突变模型时参数 θ 的估计量。我们还可以重写上述方程，以将预期的分离位点数表示为 θ 的函数：E(S) = θa。给定图 1.1 中的序列比对，θW = 6/(1/1 + 1/2 + 1/3) = 3.28。我们可以看到，这个值与 π 给出的值非常相似。再次，θW 的确切值可能会在有间隙的比对中出现差异，这取决于我们是否包括或排除有间隙的位置。如果我们包括有间隙的位置，我们需要为具有不同序列数的区域计算单独的 θW 值，因此对于具有四个序列的位置，θW = 5/(1/1 + 1/2 + 1/3) = 2.73，对于图 3.1 中具有三个序列的位置，θW = 1/(1/1 + 1/2) = 0.667。统计量的总值是这两个的总和，θW = 3.40，并且每个站点的测量必须相应地对具有不同样本数的位置数进行加权。我们可以再次给出 S 的预期方差s θ，假设 Wright-Fisher 种群处于平衡状态，无限位点突变模型没有重组：		其中 a 等于：

			[[文件:MPG--2212.png\|无框\|114x114像素]]

			统计量通常称为 Watterson 的 theta，因为它也是假设 Wright-Fisher 群体处于平衡状态和无限位点突变模型时参数 θ 的估计量。我们还可以重写上述方程，以将预期的分离位点数表示为 θ 的函数：E(S) = θa。给定图 1.1 中的序列比对，θW = 6/(1/1 + 1/2 + 1/3) = 3.28。我们可以看到，这个值与 π 给出的值非常相似。再次，θW 的确切值可能会在有间隙的比对中出现差异，这取决于我们是否包括或排除有间隙的位置。如果我们包括有间隙的位置，我们需要为具有不同序列数的区域计算单独的 θW 值，因此对于具有四个序列的位置，θW = 5/(1/1 + 1/2 + 1/3) = 2.73，对于图 3.1 中具有三个序列的位置，θW = 1/(1/1 + 1/2) = 0.667。统计量的总值是这两个的总和，θW = 3.40，并且每个站点的测量必须相应地对具有不同样本数的位置数进行加权。我们可以再次给出 S 的预期方差s θ，假设 Wright-Fisher 种群处于平衡状态，无限位点突变模型没有重组：

	Var s i i ( ) 1 1		Var s i i ( ) 1 1

长河：/* 无限位点模型下 SNP 的 θ 的常用估计量 */

2025-03-06T03:05:53Z

无限位点模型下 SNP 的 θ 的常用估计量

←上一版本		2025年3月6日 (四) 11:05的版本
第16行：		第16行：
	[[文件:MPG----2.png\|无框\|189x189像素]]		[[文件:MPG----2.png\|无框\|189x189像素]]

	其中 S 是分离位点的数量，hj是第 j 个分离位点的杂合性，如公式 3.1 中定义的那样（Nei 和 Li 1979；Nei 和 Tajima 1981a；Tajima 1983）。<u>在平衡状态下的二倍体 Wright-Fisher 种群的无限位点模型下，'''E(π) = θ'''，这就是为</u>什么这个统计数据有时被称为 '''θ<sub>π</sub>'''。作为参数估计量的统计数据通常用<u>上面的插入符号表示，</u>但我不会在这里使用这种符号。因为单态位点的杂合性为 0，所以我们也可以对比对中的所有位点求和，而结果没有变化。计算图 1.1 中所示的比对的 π，我们发现六个多态性的位点杂合度分别为 0.5、0.667、0.5、0.667、0.5 和 0.5，得出 π = 3.~~33。我们经常并给出每个位点的这个值，在这种情况下π~~ = 3.33/15 = 0.222。		其中 S 是分离位点的数量，hj是第 j 个分离位点的杂合性，如公式 3.1 中定义的那样（Nei 和 Li 1979；Nei 和 Tajima 1981a；Tajima 1983）。<u>在平衡状态下的二倍体 Wright-Fisher 种群的无限位点模型下，'''E(π) = θ'''，这就是为</u>什么这个统计数据有时被称为 '''θ<sub>π</sub>'''。作为参数估计量的统计数据通常用<u>上面的插入符号表示，</u>但我不会在这里使用这种符号。因为单态位点的杂合性为 0，所以我们也可以对比对中的所有位点求和，而结果没有变化。计算图 1.1 中所示的比对的 π，我们发现六个多态性的位点杂合度分别为 0.5、0.667、0.5、0.667、0.5 和 0.5，得出 π = 3.33。我们经常给出的是每个位点的平均值，在这种情况下π = 3.33/15 = 0.222。

	~~描述变异45~~		这个多样性度量给出了任意两个序列之间成对核苷酸差异的平均数量，因此也可以计算为：

	这个多样性度量给出了任意两个序列之间成对核苷酸差异的平均数量，因此也可以计算为：是样本中第i个和第j个序列之间的核苷酸差异数量，分母表示n个序列之间进行的唯一比较的数量。如果我们要计算图1.1中四个序列的六个可能的成对比较中的每一个的差异数量，我们会再次发现平均差异数量为3.33。如果序列数量很大，使用公式3.2计算π比使用公式3.3计算π要有效得多。		[[文件:Image11.png\|无框]]

	~~正如本书前面所讨论的，我们在计算序列之间的差异时经常忽略插入~~/缺失变异。当应用公式 3.2 时，具有插入/缺失的单个序列被视为缺失数据，因此在计算位点杂合性时，n ~~的值在不同位置会有所不同。在对具有不同覆盖范围（因此有大量缺失数据）的数据集进行重新测序时，情况也是如此。当应用公式~~ 3.3 时，通常只是忽略 n 个序列中任何具有间隙字符的比对位置。这种方法将对公式 3.2 和 3.3 产生的 π 计算产生影响，正如我们可以使用图 3.1 ~~中所示的修改后的比对所证明的那样。在这种情况下，使用公式~~ 3.2 可得出 π = 3.49（第一个分离位点的 h = 0.66 而不是 0.5），但使用公式 3.3 可得出 π = 2.83，因为我们已将位置 1、2、9 和 10 完全排除在所有成对比较之外。即使在有间隙的位置内没有分离位点（如图 3.1 中的第二个位点所示），不同的方法在按每个碱基对计算时也会得出不同的结果。这是因为第一次计算包括了所有 15 个位点，但第二次计算仅包括了 11 ~~个位点。尤其是对于基因组规模的数据集，应用可以轻松处理大量缺失数据的方法（例如基于公式~~ 3.2 的方法）会更加有用（例如，Begun 等人，2007 年；Ferretti、Raineri 和 Ramos-Onsins，2012 ~~年）。我们还可以将~~ π 中的预期方差量表示为参数 θ 的函数。我们根据理论模型来表示方差，因为我们知道样本中的变异结构有很大的历史成分——即与采样染色体相关的谱系结构。尽管中性平衡模型下 π 的理论方差并不总是理想的（例如，在种群不符合我们的假设的情况下），但另一种方法是使用非常不准确的预期，这些预期不考虑底层谱系的层次结构，并且远低于大多数数据集中观察到的值。对于无重组的情况，此理想模型下π的预期方差为：		kij是样本中第i个和第j个序列之间的核苷酸差异数量，分母表示n个序列之间进行的唯一比较的数量。如果我们要计算图1.1中四个序列的六个可能的成对比较中的每一个的差异数量，我们会再次发现平均差异数量为3.33。如果序列数量很大，使用公式3.2计算π比使用公式3.3计算π要有效得多。

			正如本书前面所讨论的，<u>我们在计算序列之间的差异时经常忽略插入/缺失变异。当应用公式 3.2 时，具有插入/缺失的单个序列被视为缺失数据，因此在计算位点杂合性时，n 的值在不同位置会有所不同。</u>在对具有不同覆盖范围（因此有大量缺失数据）的数据集进行重新测序时，情况也是如此。当应用公式 3.3 时，通常只是忽略 n 个序列中任何具有间隙字符的比对位置。这种方法将对公式 3.2 和 3.3 产生的 π 计算产生影响，正如我们可以使用图 3.1 中所示的修改后的比对所证明的那样。

			<u>在这种情况下，使用公式 3.2 可得出 π = 3.49（第一个分离位点的 h = 0.66 而不是 0.5），但使用公式 3.3 可得出 π = 2.83，因为我们已将位置 1、2、9 和 10 完全排除在所有成对比较之外。即使在有间隙的位置内没有分离位点（如图 3.1 中的第二个位点所示），不同的方法在按每个碱基对计算时也会得出不同的结果。这是因为第一次计算包括了所有 15 个位点，但第二次计算仅包括了 11 个位点。</u>尤其是对于基因组规模的数据集，应用可以轻松处理大量缺失数据的方法（例如基于公式 3.2 的方法）会更加有用（例如，Begun 等人，2007 年；Ferretti、Raineri 和 Ramos-Onsins，2012 年）。

			我们还可以将 π 中的预期方差量表示为参数 θ 的函数。我们根据理论模型来表示方差，因为我们知道样本中的变异结构有很大的历史成分——即与采样染色体相关的谱系结构。尽管中性平衡模型下 π 的理论方差并不总是理想的（例如，在种群不符合我们的假设的情况下），但另一种方法是使用非常不准确的预期，这些预期不考虑底层谱系的层次结构，并且远低于大多数数据集中观察到的值。对于无重组的情况，此理想模型下π的预期方差为：

			[[文件:MPG-22222.png\|无框]]

	如公式 3.4 所示，π 存在大量方差，		如公式 3.4 所示，π 存在大量方差，

2025年3月3日 (一) 03:16 长河

2025-03-03T03:16:45Z

←上一版本		2025年3月3日 (一) 11:16的版本
第6行：		第6行：

	=== 无限位点模型下 SNP 的 θ 的常用估计量 ===		=== 无限位点模型下 SNP 的 θ 的常用估计量 ===
	对于单个核苷酸多态性，某个位点的第 i 个等位基因的样本频率为 pi，因此所有等位基因频率之和等于 1。如果我们只考虑双等位基因位点，那么显然 p1 = 1。总结单个多态性位点变异的一个有用方法是计算样本杂合性，其公式如下：		对于单个核苷酸多态性，某个位点的第 i 个等位基因的样本频率为 pi，因此所有等位基因频率之和等于 1。如果我们只考虑双等位基因位点，那么显然 p1+p2 = 1。总结单个多态性位点变异的一个有用方法是计算样本杂合性，其公式如下：

	[[文件:MPG--11.png\|无框]]		[[文件:MPG--11.png\|无框]]

	其中 n 是样本中的序列数。虽然这个值可以根据从杂交个体、近交系或单倍体染色体获得的数据计算出来，但它被称为杂合性（或更确切地说，预期杂合性），因为它是如果配子随机结合（即，如果染色体随机配对以产生二倍体个体），则所有个体中杂合子的比例的估计值。事实上，无论数据来源如何，通常将许多核苷酸多样性测量称为杂合性测量。鉴于单个位点的多样性测量，我们现在考虑整个序列的多样性测量。有两种方法最常用于总结核苷酸多样性，因为它们不需要分配衍生和祖先等位基因（使用此信息的其他测量如下所述）。根据我们上面对单个位点杂合性的定义，我们可以将位点杂合性的总和定义为：		其中 n 是样本中的序列数。虽然这个值可以根据从杂交个体、近交系或单倍体染色体获得的数据计算出来，但它被称为<u>'''杂合性heterozygosity'''</u>（或更确切地说，<u>预期杂合性 expected heterozygosity</u>），因为它是如果配子随机结合（即，如果染色体随机配对以产生二倍体个体），则所有个体中杂合子的比例的估计值。事实上，无论数据来源如何，通常将许多核苷酸多样性测量称为杂合性测量。

	~~其中 S 是分离位点的数量，hj~~		鉴于单个位点的多样性测量，我们现在考虑整个序列的多样性测量。有两种方法最常用于总结核苷酸多样性，因为它们不需要分配衍生和祖先等位基因（使用此信息的其他测量如下所述）。根据我们上面对单个位点杂合性的定义，我们可以将'''位点杂合性的总和'''定义为：
			[[文件:MPG1.1.png\|缩略图\|271x271像素]]
			[[文件:MPG----2.png\|无框\|189x189像素]]

	是第 j 个分离位点的杂合性，如公式 3.1 中定义的那样（Nei 和 Li 1979；Nei 和 Tajima 1981a；Tajima ~~1983）。在平衡状态下的二倍体~~ Wright		其中 S 是分离位点的数量，hj是第 j 个分离位点的杂合性，如公式 3.1 中定义的那样（Nei 和 Li 1979；Nei 和 Tajima 1981a；Tajima 1983）。<u>在平衡状态下的二倍体 Wright-Fisher 种群的无限位点模型下，'''E(π) = θ'''，这就是为</u>什么这个统计数据有时被称为 '''θ<sub>π</sub>'''。作为参数估计量的统计数据通常用<u>上面的插入符号表示，</u>但我不会在这里使用这种符号。因为单态位点的杂合性为 0，所以我们也可以对比对中的所有位点求和，而结果没有变化。计算图 1.1 中所示的比对的 π，我们发现六个多态性的位点杂合度分别为 0.5、0.667、0.5、0.667、0.5 和 0.5，得出 π = 3.33。我们经常并给出每个位点的这个值，在这种情况下π = 3.33/15 = 0.222。

	Fisher ~~种群的无限位点模型下，E~~(π) = ~~θ，这就是为什么这个统计数据有时被称为 θπ~~

	~~。作为参数估计量的统计数据通常用上面的插入符号表示（例如，~~

	~~），但我不会在这里使用这种符号。因为单态位点的杂合性为~~ 0，所以我们也可以对比对中的所有位点求和，而结果没有变化。计算图 1.1 中所示的比对的 π，我们发现六个多态性的位点杂合度分别为 0.5、0.667、0.5、0.667、0.5 和 0.5，得出 π = 3.33。我们经常并给出每个位点的这个值，在这种情况下π = 3.33/15 = 0.222。

	描述变异45		描述变异45

2025年3月2日 (日) 10:51 长河

2025-03-02T10:51:36Z

←上一版本		2025年3月2日 (日) 18:51的版本
第1行：		第1行：
	一旦我们从感兴趣的种群中获得序列样本，我们就必须描述观察到的变异。有很多方法可以总结单个核苷酸、微卫星和完整序列的分子变异，因此有很多不同的统计数据来描述数据。统计数据只是观察样本（序列）的总结。在分子群体遗传学中，我们倾向于关注那些作为理论参数 θ (~~≡4Ne~~		一旦我们从感兴趣的种群中获得序列样本，我们就必须描述观察到的变异。有很多方法可以总结单个核苷酸、微卫星和完整序列的分子变异，因此有很多不同的统计数据来描述数据。统计数据只是观察样本（序列）的总结。<u>在分子群体遗传学中，我们倾向于关注那些作为理论参数 θ (≡4Neμ) 估计量的统计数据，它表示在假设种群中常染色体基因座处发现的变异量</u>，其中所有变异都是中性的，并且处于突变漂移平衡状态。这种关注的动机是希望将我们的经验观察与中性模型的理论预测联系起来，该模型既包括自然界中发现的多样性数量，也包括具有不同 θ 值的种群中选定突变的预期动态。然而，值得注意的是，下面讨论的统计数据只是在相对严格的假设下对 θ 的估计——即理想化的无选择种群和人口平衡，以及每个突变模型特有的额外限制。还有其他方法可以理解这些统计数据，在本章后面，我将讨论对变异摘要的几种不同解释。

	μ) 估计量的统计数据，它表示在假设种群中常染色体基因座处发现的变异量，其中所有变异都是中性的，并且处于突变漂移平衡状态。这种关注的动机是希望将我们的经验观察与中性模型的理论预测联系起来，该模型既包括自然界中发现的多样性数量，也包括具有不同 θ 值的种群中选定突变的预期动态。然而，值得注意的是，下面讨论的统计数据只是在相对严格的假设下对 θ 的估计——即理想化的无选择种群和人口平衡，以及每个突变模型特有的额外限制。还有其他方法可以理解这些统计数据，在本章后面，我将讨论对变异摘要的几种不同解释。还有越来越多的最大似然 (ML) 和贝叶斯方法可用于从数据中估计参数 θ（例如，Kuhner、Yamato 和 Felsenstein 1995；Nielsen 2000；Beerli 2006）。一些基于似然的方法甚至可以从预先确定的 SNP 面板而不是完整序列数据中估计 θ，只要确定方案是精确已知的（例如，Kuhner 等人 2000）。虽然这些方法越来越受欢迎，并且比基于矩的估计器具有一些优势，但它们也有一些重要的局限性。这些限制大多是计算上的：可以分析的数据集的大小（就样本数量和序列长度而言）是有限的。这些方法不能扩展到全基因组（甚至整个染色体）数据集。此外，许多基于可能性的方法（ML 和贝叶斯）在处理缺失数据时效果不佳，这一限制尤其适用于可能对核苷酸具有可变覆盖范围的全基因组重测序项目。随着计算工具和资源的改进，许多这些问题将被克服，但在这里我将仅讨论一些最常用的从简单数据摘要中总结序列多样性的方法。序列多样性测量		还有越来越多的最大似然 (ML) 和贝叶斯方法可用于从数据中估计参数 θ（例如，Kuhner、Yamato 和 Felsenstein 1995；Nielsen 2000；Beerli 2006）。一些基于似然的方法甚至可以从预先确定的 SNP 面板而不是完整序列数据中估计 θ，只要确定方案是精确已知的（例如，Kuhner 等人 2000）。虽然这些方法越来越受欢迎，并且比基于矩的估计器具有一些优势，但它们也有一些重要的局限性。这些限制大多是计算上的：可以分析的数据集的大小（就样本数量和序列长度而言）是有限的。这些方法不能扩展到全基因组（甚至整个染色体）数据集。此外，许多基于可能性的方法（ML 和贝叶斯）在处理缺失数据时效果不佳，这一限制尤其适用于可能对核苷酸具有可变覆盖范围的全基因组重测序项目。随着计算工具和资源的改进，许多这些问题将被克服，但在这里我将仅讨论一些最常用的从简单数据摘要中总结序列多样性的方法。

	~~无限位点模型下 SNP 的 θ 的常用估计量~~		== 序列多样性测量 ==

			=== 无限位点模型下 SNP 的 θ 的常用估计量 ===
	对于单个核苷酸多态性，某个位点的第 i 个等位基因的样本频率为 pi，因此所有等位基因频率之和等于 1。如果我们只考虑双等位基因位点，那么显然 p1 = 1。总结单个多态性位点变异的一个有用方法是计算样本杂合性，其公式如下：		对于单个核苷酸多态性，某个位点的第 i 个等位基因的样本频率为 pi，因此所有等位基因频率之和等于 1。如果我们只考虑双等位基因位点，那么显然 p1 = 1。总结单个多态性位点变异的一个有用方法是计算样本杂合性，其公式如下：

			[[文件:MPG--11.png\|无框]]

	其中 n 是样本中的序列数。虽然这个值可以根据从杂交个体、近交系或单倍体染色体获得的数据计算出来，但它被称为杂合性（或更确切地说，预期杂合性），因为它是如果配子随机结合（即，如果染色体随机配对以产生二倍体个体），则所有个体中杂合子的比例的估计值。事实上，无论数据来源如何，通常将许多核苷酸多样性测量称为杂合性测量。鉴于单个位点的多样性测量，我们现在考虑整个序列的多样性测量。有两种方法最常用于总结核苷酸多样性，因为它们不需要分配衍生和祖先等位基因（使用此信息的其他测量如下所述）。根据我们上面对单个位点杂合性的定义，我们可以将位点杂合性的总和定义为：		其中 n 是样本中的序列数。虽然这个值可以根据从杂交个体、近交系或单倍体染色体获得的数据计算出来，但它被称为杂合性（或更确切地说，预期杂合性），因为它是如果配子随机结合（即，如果染色体随机配对以产生二倍体个体），则所有个体中杂合子的比例的估计值。事实上，无论数据来源如何，通常将许多核苷酸多样性测量称为杂合性测量。鉴于单个位点的多样性测量，我们现在考虑整个序列的多样性测量。有两种方法最常用于总结核苷酸多样性，因为它们不需要分配衍生和祖先等位基因（使用此信息的其他测量如下所述）。根据我们上面对单个位点杂合性的定义，我们可以将位点杂合性的总和定义为：

长河：创建页面，内容为“一旦我们从感兴趣的种群中获得序列样本，我们就必须描述观察到的变异。有很多方法可以总结单个核苷酸、微卫星和完整序列的分子变异，因此有很多不同的统计数据来描述数据。统计数据只是观察样本（序列）的总结。在分子群体遗传学中，我们倾向于关注那些作为理论参数 θ (≡4Ne μ) 估计量的统计数据，它表示在假设种群中常染色体基因座…”

2025-03-02T10:04:33Z

创建页面，内容为“一旦我们从感兴趣的种群中获得序列样本，我们就必须描述观察到的变异。有很多方法可以总结单个核苷酸、微卫星和完整序列的分子变异，因此有很多不同的统计数据来描述数据。统计数据只是观察样本（序列）的总结。在分子群体遗传学中，我们倾向于关注那些作为理论参数 θ (≡4Ne μ) 估计量的统计数据，它表示在假设种群中常染色体基因座…”

显示更改

第三章 描述变异 - 版本历史

2025年8月26日 (二) 09:10 Magezeya

长河：​/* 无限位点模型下 SNP 的 θ 的常用估计量 */

长河：​/* 无限位点模型下 SNP 的 θ 的常用估计量 */

长河：​/* 无限位点模型下 SNP 的 θ 的常用估计量 */

2025年3月3日 (一) 03:16 长河

2025年3月2日 (日) 10:51 长河

第三章描述变异 - 版本历史

长河：/* 无限位点模型下 SNP 的 θ 的常用估计量 */

长河：/* 无限位点模型下 SNP 的 θ 的常用估计量 */

长河：/* 无限位点模型下 SNP 的 θ 的常用估计量 */