【转载】为什么同一个物种的基因组里,有的基因进化快,有的慢

为什么同一个物种的基因组里,有的基因的蛋白质序列进化快,有的则进化慢

链接:https://zhuanlan.zhihu.com/p/20515894
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。


为什么要研究这个问题:
自有测序技术以来,人们就发现,同一个物种里的不同基因的进化速率差异很大。进化最快和进化最慢的基因,其进化速率可以有上千倍的差异。换句话说,进化最快的基因里面发生了1000次氨基酸的替换,最慢的基因才发生了一次替换[注1]。人们在尝试解释这个现象的时候,一般都会先入为主地认为,越"重要"(Functional Importance),或者说功能上受到“约束”(Functional Constraint)越大的基因,进化应该越慢。但究竟基因的"重要性"/"功能约束"实际上是什么,如何定义,如何测量,都没有人知道。结果人们都是反过来运用这个观点,即:序列越保守的基因,其产物对生物的重要性越大。尽管这种做法有一定实用价值,但是却无益于人们更深入地了解什么是基因的“重要性”/"功能约束"。要理解基因功能的"重要性"/"功能约束"的本质是什么,其中一个途径就是通过研究这个问题来提供相关的线索。这里需要提一句,功能重要性"Functional Importance"和功能约束"Functional Constraint"实际上是不一样的,下面会讲到它们之间的区别。

另一方面,对蛋白质进化速率的研究至少还有两个重要价值。首先,它催生了分子钟理论(Molecular Clock),为确定没有化石证据的生物存在的地质年代,提供了重要的技术手段。其次,它是分子进化的中性理论(Neutral Theory)的基础,而中性理论是达尔文进化论提出以后最重要的改进。

早期研究-基因的功能重要性(Functional Importance):
从上面提到的那个逻辑(序列越保守的基因,其产物对生物的重要性越大)出发,人们考虑的影响基因进化速率的主要因素就是基因的功能重要性。这个观点最早可以追溯到Kimura and Ohta的一篇经典论文[1]。文中的原话是“functionally less important molecules or parts of a molecule evolve faster than more important ones”,即功能上较不重要的分子或分子片段,比起功能上较重要的那些,进化得更快。但是,此文作者并没有仔细区分功能重要性(Functional Importance)和功能约束(Functional Constraint)。

Wilson et al.[2] 第一次明确区分了两者,他的文章指出,基因功能的重要性应该定义为一个基因被敲除之后,生物生存能力(Fitness)下降的程度。换句话说,缺了这个基因,生物生存能力下降越多,这个基因就越重要(因此也被称为Protein Dispensibility)。另一方面,基因受到的功能约束应该定义为,基因序列上所有可能发生的突变中,会导致生物生存能力下降的那些突变所占的比例,即有害突变的比例。一个基因上面有害突变的比例越高,其受到的功能约束越大。Wilson的文章认为,Kimura和Ohta文章中的表述,应该更精确地描述为:如果两个基因受到的功能约束一样,则它们中功能重要性高的那个,进化会较慢。

很长一段时间里,上面的理论都没有合适的数据用于验证。直到基因敲除实验慢慢变得普遍起来。Hurst and Smith[3]首先以此为基础检验了进化速率与基因功能重要性是否相关。他们根据基因敲除的结果把175个小鼠基因分为必需基因(Essential Gene)和非必需基因(Non-essential Gene)两类。必需基因是指敲除之后会引起小鼠死亡或不育的那些基因,余下的基因都是非必需的。根据上述理论,必须基因的进化应该更慢。但他们发现,数据并不支持上述理论。

后来,有人把酵母基因组里面每个基因都单独敲除了一遍,因此得到了每个基因的功能重要性,人们把它跟基因的进化速率比较,发现确实功能重要性越大的基因,进化越慢,但两者的相关性并不强[4]。另一方面,随着基因芯片技术的发展,在比较偶然的情况下,人们发现基因的表达量居然跟其进化速率有很强的相关性[5],更重要的是,如果只考虑基因表达量类似的基因,功能重要性与进化速率的相关性就消失了[6]。
上述的现象似乎有违人们的直觉,于是很多人尝试寻找各种解释上述现象的理由。例如,有人认为在实验室里面测量基因的重要性,具有一定的局限性,因为毕竟在自然界中进化的酵母生存的环境与实验室里的培养基差太多了,换个不同的环境可能情况就完全不一样。但后来的研究发现,各种不同的环境下面测量得到的基因重要性,其与进化速率的相关性都不高[7]。总结这一阶段的研究,人们发现,基因功能的重要性对进化速率的影响并不大。

基因表达量越高,进化越慢
上一部分已经提到,基因表达量与蛋白质进化速率的相关性很高,而且这个相关性在各种生物里面都能观察到:(下图侵删)


【此图在楼下,转载者注】


图中x轴是基因表达量,y轴是蛋白质进化速率,每个小图上沿标示了物种的种名。图上每个点是该物种里的一个基因,点密度太大,画不下的地方用色阶(蓝色到红色,红色为密度最高)表示。图上还标示了X-Y的Spearman相关性系数。

根据前面提到的理论和结果,既然基因功能的重要性对进化速率没什么影响,那么基因进化速率的快慢就应该由它受到的功能约束的大小所决定了。而基因表达量与进化速率的相关性说明,表达量至少是能比较准确地反映基因受到的功能约束大小的。那么,为什么表达高,功能约束就大呢?

为了解释这个现象,Drummond等人[8]在2005年提出了翻译稳健性(Translational Robustness)假说。该假说指出,任何mRNA翻译都有一定概率发生翻译错误,包含翻译错误的蛋白质尤其容易发生误折叠,而误折叠的蛋白质对细胞具有毒性。显然,高表达的基因能产生特别多的包含翻译错误的分子。为了降低下游的误折叠分子的产生负面作用,高表达基因的序列必须降低翻译错误率,并且是即使包含翻译错误,也不太容易发生误折叠。为了使序列满足这个要求,高表达基因在进化上受到很大的限制,因此进化速率较低。后来,Yang等人[9]指出,即使是不包含翻译错误的蛋白质也会产生误折叠,并因此把翻译稳健性假说推广为更普遍的避免误折叠假说(Misfolding Avoidance),即:高表达基因由于产生的蛋白质分子更多,其中发生误折叠的分子也更多,为了避免误折叠分子对细胞的负面作用,高表达基因的蛋白质序列在进化上受到更大的限制(发生误折叠的概率比低表达基因更低),因此进化很慢。

另一方面,因为蛋白质的折叠一般只受蛋白质内部,而不是表面的氨基酸的影响,因此避免误折叠假说无法解释高表达基因表面氨基酸进化也较慢的现象。为此,Yang等人[10]又提出了避免误结合假说。高表达基因由于分子数多,很可能参与无功能甚至有毒性的误结合(misinteraction)。因此,高表达的蛋白质表面,倾向于使用不容易和其他蛋白结合的氨酸,而低表达的基因则没有这个限制,从而导致高表达基因进化更慢。

再后来,有人发现基因的表达量越高,其mRNA的二级结构越稳定[11]。换句话说,高表达的基因序列对mRNA二级结构有额外的要求,从而导致了RNA序列和蛋白质序列在进化上受到更大的限制,因此进化更慢。至于为什么表达越高,mRNA二级结构越稳定,也个很大的问题(其实就是问mRNA的二级结构有什么功能),就不展开了,感兴趣的朋友可以看看[12,13]。

总结这一部分,高表达基因进化更慢的原因至少有三个:避免蛋白质误折叠,避免蛋白质误结合和mRNA二级结构稳定性。

其它影响蛋白质进化速率的因素
如上面的图所示,尽管基因表达量与蛋白质序列进化速率的相关性很强,它还不能100%地解释不同基因进化速率之间的差异。这说明进化速率还受到其他因素的影响。现在也已经发现很多其他影响蛋白质进化速率的因子,虽然它们的作用不如基因表达量大,其作用机制也不太明确。以下简要地谈几个。这里只是为求描述得更全面一些,我对这些因素的研究并不深,如有偏颇,还望知友指正。

a.正选择(Positive Selection)
某些基因由于受到外部因素的影响(例如免疫系统相关基因为了“追上”病原体的进化速率,也会进化得特别快),其进化速率比中性进化还快。但这种基因所占比例在基因组里面很小。因此,进化速率的快慢更多的还是由负选择(Negative/Purifying Selection)/功能约束的大小决定的。

b.一因多效(Pleiotropy)
一个基因(或者突变)如果可以影响多于一个性状,那么这个基因(突变)就是“一因多效”的。有理论认为,基因Pleiotropy的程度越高(能影响更多的性状)那么它应该进化越慢。衡量Pleiotropy程度的方法有几个,例如蛋白质在蛋白-蛋白相互作用网络中的连接度,还有基因受多少个miRNA调节。

c.表达广度(Expression Breadth)
对于有组织分化的多细胞动物而言,多数基因并不会在所有组织里面都有表达。基因表达可以有非常高的组织特异性(Expression Specificity,例如只在神经细胞里面表达),也可以有非常高的表达广度(Expression Breadth,例如所有组织里面都有表达)。如果基因的表达广度越高,它进化就越慢。

d.特定发育阶段的表达量
研究发育的学者有所谓的沙漏模型:在发育早期和晚期表达的基因一般都不太保守,而在发育中期表达的基因却倾向于是比较保守的基因,说明这些基因在进化上受到很大的限制——形象地说就像一个沙漏:两头宽,中间窄。

还有很多,不能尽录,很多也没办法一两句话讲清楚,请参考[14]。

给基因功能和生物医学带来的新认识
从所谓基因功能重要性,到基因受到的功能约束,以及基因表达量影响基因进化速率的各种分子机制/理论,我们对基因的”功能“有了更深入的认识。过去,研究一个基因一般是研究它(在正常或者病变的条件下)绝大多数时候在做什么。而上面提到的研究表明,基因发生各种随机错误(例如误折叠和误结合)所带来的负面影响,同样也有的分子功能/生物医学上的重要意义。这里要特别强调错误是“随机“的,因为它跟过去的常常提到的疾病相关基因发生"Gain-of-Function"的突变,还有点不一样——"Gain-of-Function"一般有明确的特定的"Function",例如错误激活了下游的特定分子。但是上面提到的误折叠/误结合则不同,它们是随机错误,没有特定的错法。这也算是从基因组/系统生物学角度考察过去的一些老问题得到的新认识。


----------
请允许我再次打个广告:我2016年会新建实验室,现正物色科研助手和研究生,有兴趣的请私信联系。谢谢大家!
----------

注解:
[注1] 这里说的是替换(substitution),而不是突变(mutation)。二者的区别是:突变是随机发生的,但不一定能够在进化过程中被保留到基因组中,因为坏的突变会被自然选择清除掉。而替换则是专指那些被进化保留下来的突变。


参考文献:
[1] Kimura, M. & Ohta, T. On some principles governing molecular evolution. Proc. Natl Acad. Sci. USA 71, 2848–2852 (1974).
[2] Wilson, A. C., Carlson, S. S. & White, T. J. Biochemical evolution. Annu. Rev. Biochem. 46, 573–639 (1977).
[3] Hurst, L. D. & Smith, N. G. Do essential genes evolve slowly? Curr. Biol. 9, 747–750 (1999)
[4] Hirsh, A. E. & Fraser, H. B. Protein dispensability and rate of evolution. Nature 411, 1046–1049 (2001).
[5] Pal, C., Papp, B. & Hurst, L. D. Highly expressed genes in yeast evolve slowly. Genetics 158, 927–931(2001).
[6] Pal, C., Papp, B. & Hurst, L. D. Genomic function: rate of evolution and gene dispensability. Nature 421, 496–497 (2003).
[7] Wang, Zhi, and Jianzhi Zhang. Why Is the Correlation between Gene Importance and Gene Evolutionary Rate So Weak? PLoS Genet 5 (1): e1000329. (2009)
[8] Drummond, D. A., Bloom, J. D., Adami, C., Wilke, C. O. & Arnold, F. H. Why highly expressed proteins evolve slowly. Proc. Natl Acad. Sci. USA 102, 14338–14343 (2005).
[9] Yang, J. R., Zhuang, S. M. & Zhang, J. Impact of translational error-induced and error-free misfolding on the rate of protein evolution. Mol. Syst. Biol. 6, 421 (2010).
[10] Yang, J. R., Liao, B. Y., Zhuang, S. M. & Zhang, J. Protein Misinteraction Avoidance Causes Highly Expressed Proteins to Evolve Slowly. Proc. Natl Acad. Sci. USA 109 (14): E831–40. (2012)
[11] Zur, H. & Tuller, T. Strong association between mRNA folding strength and protein abundance in S. cerevisiae. EMBO Rep. 13, 272–277 (2012).
[12] Yang, J. R., Chen, X., and Zhang, J. Codon-by-Codon Modulation of Translational Speed and Accuracy Via mRNA Folding. PLoS Biol 12 (7): e1001910. (2014)
[13] Chen, X, Yang, J. R., and Zhang, J. 2015. “Nascent RNA Folding Mitigates Transcription-Associated Mutagenesis.” Genome Research, 26:50-59 (2016)
[14] Correlates of the protein evolutionary rate : Determinants of the rate of protein sequence evolution : Nature Reviews Genetics : Nature Publishing Group

楼主 Reformatskies  发布于 2016-11-23 00:22:00 +0800 CST  


楼主 Reformatskies  发布于 2016-11-23 00:23:00 +0800 CST  

楼主:Reformatskies

字数:6747

发表时间:2016-11-23 08:22:00 +0800 CST

更新时间:2016-12-30 17:48:04 +0800 CST

评论数:12条评论

帖子来源:百度贴吧  访问原帖

 

热门帖子

随机列表

大家在看