(2020-09-16)
上一章学习了群体中等位基因频率变化和Hard-Weinberg平衡。本章学习影响群体遗传一个很重要的参数 -遗传漂变和有效群体数量。
采样导致遗传漂变
Hardy-Weinberg平衡的假设是群体无限大。但实际上没有生物群体能满足这一假设。群体大小对等位基因频率有十分显著的影响。
遗传漂变
:在生物学群体中,一代向下一代的遗传传递中,由于个体数、配子数和等位基因是一个有限采样传递,因而产生了子代和亲代在等位基因频率上的随机差异。这种差异就是遗传漂变。采样样本量越小,遗传漂变越大。
Wright-Fisher模型
:该模型是一个简化群体模型,其假设条件和Hardy-Weinberg平衡的假设条件几乎一致,唯一的不同是该模型假设的群体数量是有限的。比较关键的假设是:世代无交叉重叠;雌雄比例相同;群体数量N保持不变;无自然选择。
在Wright-Fisher模型下,随着时间的延长,遗传漂变会最终使得等位基因在群体中固定fixation或者消失loss。同时,群体数量越小,遗传漂变越大,等位基因在群体中固定或消失的越快。
【在N=4和N=20时,50世代时间内等位基因的频率变化。下排两图是对应基因型的变化】
问题来了:如果时间足够长,那么在遗传漂变的作用下,所有等位基因要么固定、要么消失,所有的多态位点都不复存在。那么现实生物群体中为什么会一直长期存在大量的多态性位点呢?
遗传漂变同样会导致群体中基因型频率的改变。会导致群体中杂合子频率降低。但是这和近缘交配导致的杂合子频率降低是不同的!!遗传漂变是因为基因频率改变导致的杂合子频率减低;而近缘交配中基因频率不发生变化。
一个等位基因在群体中最终固定的概率和它在群体中起始基因频率是一样大的。如下图:
【某一等位基因起始频率为0.2时(左图),那么该等位基因最终在群体中固定的概率是0.2,另外0.8的概率是消失;反之,右图】
遗传漂变模型
本部分介绍3种遗传漂变模型:二项分布模型、马尔科夫链、扩散模型。
二项分布模型:即一些二项分布的基本属性。当两个等位基因频率相等时(p=q=0.5),最后结果方差最大,遗传漂变的的效应最大。
马尔科夫链:转移概率,与初始状态无关。
扩散模型:一个初始频率为p的等位基因在群体数为2N的群体中固定下来的所需要的预期时间为:
其在群体中消失所需的预期时间为:
【不同起始等位基因频率的基因在群体中固定或消失所需要的时间】
等位基因起始频率越接近于0,其在群体中固定所需时间越长,最长的平均时间为4N(世代)。当两个等位基因频率p=q=0.5时,群体中的杂合子持续时间最长,为2.8N(世代)。
有效群体数量
有效群体数量并不是根据统计群体数量来定义的,而是根据遗传变异在群体中的表现来定义群体大小的。如果一个群体在遗传漂变的作用下,等位基因频率在一定时间内发生的改变很缓慢,那么我们就认为该群体的有效群体数量很大;反之,如果等位基因频率变化很大,那么我们就认为该群体的有效群体数量很小。有效群体数量实际上是一个虚拟的群体参数,翻译成“等效”群体数量更合适,即不管他实际统计群体数量大小,如果该群体的所保持的遗传变异或者所经历的遗传漂变和一个理想的Wright-Fisher群体一致,那么该Wright-Fisher模型的群体数量就等效于该群体的群体数量。
那么哪些因素会影响有效群体数量呢?
首先是群体数量
的波动。比如因为捕食关系的造成的雪兔/猞猁数量的变化,或者是建立者效应founder event。此时的有效群体数量可以根据调和平均值计算:
比如一个群体第一代有效群体数是100,第二代是10,第三代是100,那么根据上述公式可以计算该群体的有效群体数是25,而其统计平均群体数是70。在实际中,这种群体波动造成的有效群体数量的变化非常常见,比如群体数量随季节性变化。
建立者效应:一个群体是由一个或少数几个个体建立起来的,该群体往往有较小的有效群体数量。比如少数有害物种入侵。
瓶颈效应:一个群体突然经历了剧烈短暂的群体数量减少,进而导致了遗传漂变突然增大,并显著影响了后续群体的有效群体数量(即便后续群体的统计群体数量的得到很快恢复)。
第二个影响有效群体数量的因素是交配模式
。如果群体两性交配模式不是1:1,比如一雄多雌或者一雌多雄,某一性别个体对后代的贡献可能远远大于同性别其他个体。那么对该性别来说,实际上是经历了瓶颈效应。这种情况下,该群体的有效群体数量为:
其中,Nf和Nm是参与繁殖的雌性和雄性的数量。(其他Wright-Fisher假设均得到满足)。
第三个影响有效群体数量的因素是子代贡献率
。在Wright-Fisher模型中,每对亲代产生两个子代。实际中,一个群体一对亲代平均产生2个后代,但是并不是每个亲代都产生2个后代,有些可能产生后代多,有些可能产生1个,后者0个。这种后代数量的差异就会影响到有效群体数量。
其中,N(t-1)是亲代有效群体数量,k是每个亲代的后代数量。如果一个群体平均后代数量k=2,同时后代数量变异var(k)=2,有上述公式可以计算该群体有效群体数量会保持稳定,亲代有效群体数量和子代有效群体数量相等。实际上,Wright-Fisher模型假设的是后代数量为Possion分布,即均数=方差,如下第一个图:
【在一个有效群体数量为100、平均后代为2的群体中,后代数量变异对有效群体数量的影响。第一个图是Possion分布,有效群体数量不变。第二个图方差大于均数,实际上是负二项分布,有效群体数量变小。第三个图方差小于均数,有效群体数量变大】
后代数量的变异过小可能会导致有效群体数量比实际统计群体数量大。一个极端的情况时群体中所有亲代产生的后代数都是两个,此时有效群体数量则是实际统计群体数量的2倍。这和群体波动以及交配模式对有效群体数量的影响不同,群体波动和交配模式不会使有效群体数量大于统计群体数量。
漂变和近交
一个数量有限群体可以看成是存在某种程度的近交群体。群体越小,发生近交的可能性越大,所以遗传漂变和近交常常是紧密关联的。它们导致的结果也很相似,都是杂合子频率降低。
其中,H0是初始群体杂合子频率,是经过t代之后群体杂合子频率。时间越长,群体中杂合子越少;群体越小,群体中杂合子越少。
下图是不同群体大小中杂合子变化情况:
虽然漂变和近交都会造成群体中杂合子降低,但是再强调一遍,它们的机制不同。漂变伴随着等位基因频率的改变,而近交只有基因型频率改变,没有等位基因频率的改变。
【关于岛屿种群(小群体)和大陆种群(大群体)杂合子频率的比较。Fe>0表示大陆种群杂合子比例高。可以看出大部分物种的大陆种群要比岛屿种群有更高的杂合子频率】
有效群体数量的估计
有多种有效群体数量估计方式:近交有效群体数量 – 在一个群体中两个等位基因是来自共同祖先IBD的概率,和该概率等效的理想群体数就是近交有效群体数。变异有效群体数量 – 在一个群体中采样变异大小和一个理想群体采样变异大小相等,那么该理想群体的数量就是该群体变异有效群体数量。
上述对有效群体数量不同的估计方式可能得到的结果会有所差异。
从实际经验来说,有效群体数量通常比统计群体数量少很多,可少至1/10甚至更多。下图是一些关于统计群体数和有效群体数比较的研究。
繁育有效群体数 – 理想的群体每一个个体都能在空间中自由移动,自由交配。但是实际上个体的移动空间范围是有一定限度的,尤其是对于一些植物,本身不能移动,配子播散数量随距离减少。这就违背了自由交配的原则。也就形成了距离隔离isolation by distance(IBD),此IBD非identical by descent。这时的有效群体数量也会变小。
距离隔离:随着空间距离的增加,交配概率或者配子扩散数量降低。
此外,细胞质基因组(线粒体或者叶绿体)的有效群体数量要低于核基因组有效群体数量。因为细胞质基因组都是单倍体,而且不存在减数分裂。细胞质基因组有效群体数量大概是核基因组有效群体数量的1/4。
基因系谱和溯祖
模型溯祖:根据当前的群体样本逆推过去群体中发生的事件,直到找到一个共同的祖先。
最近共同祖先Most Recent Common Ancester:在系谱中,对当前样本溯祖,第一个出现的共同的祖先,即最近共同祖先。
对于一个2N大小的群体,两个系谱能够在上一代中溯祖的概率为1/(2N),不能够溯祖的概率则为1-1/(2N)。
那么两个系谱在t代或之前溯祖的累计概率为:
所以一个2N群体的两个系谱平均理论溯祖时间是2N代。
对于多个系谱的溯祖,系谱越多,溯祖发生的概率越大,等待时间越短。
如下:
6个系谱发生一次溯祖要,5个系谱发生一个溯祖要。
另外,我们在描述溯祖时间的时候,通常用2N为单位。比如一个2N=100的群体在t=1.4的时候发生了溯祖,那么实际上是指100*1.4=140,即140代时候发生了溯祖。如果该群体数量是20,那么则是在28代的时候发生了溯祖。群体数量越小,找到所有系谱的最近共同祖先所需的时间越短。
溯祖树高:从当下到k个系谱找到它们的最近共同祖先所需要的时间。树高平均为2N代-4N代,当k=2时,所需时间最短,为2N,随着k的增加,所需时间增长,最长为4N。公式如下:
在溯祖时间中,随着时间的回溯,系谱逐渐减少,发生一个溯祖的所需时间越长。
溯祖模型中的有效群体数量
在群体经历了瓶颈事件时,群体中的各个系谱比瓶颈前或后更容易找到共同祖先,所以在瓶颈的溯祖时间变短。如下图瓶颈事件:
扩张群体
:越靠近当下时间,群体数量越大,溯祖时间越长;反之,随着时间回溯,群体数量变小,溯祖时间变短。
收缩群体
:越靠近当下,群体数量越小,溯祖时间越短;反之,随着时间回溯,群体数量扩大,溯祖所需时间越长。
扩张群体和收缩群体树如下:
总结
由于群体不再是无限群体,在一代一代遗传传递过程中,存在抽样问题,因为就会产生抽样误差,这种误差导致的基因频率的改变就是遗传漂变。遗传漂变最终会使所有的变异得到固定或者消失。起始频率越大,最终固定的概率越大,反之越小。
当两个等位基因频率相等时,该基因位点保持多态性的时间越长,理论上可以保持2.8N代。
有效群体数量实际上是根据实际群体遗传过程对Wright-Fisher群体做的等效,是方便我们研究虚拟的群体参数。和实际统计群体数量关系不大,但通常比实际统计群体数量小很多。可以通过很多模型来计算有效群体数量,比如近交有效群体数量、变异有效群体数量、繁育有效群体数量(IBD原因)。
遗传漂变和近交都会导致群体杂合子频率降低,但是它们降低的原因不同。
两个系谱溯祖的期待时间为2Ne代。多个系谱溯祖,离当下越近,溯祖事件发生概率越大,离当下越远,溯祖时间发生概率越小,所需时间越长。
群体数量变化,如瓶颈效应、群体扩张、群体收缩,都会改变溯祖发生的概率。
资料来源:《Population Genetics》Matthew B Hamilton
下一篇