[友情联动]拿“基因同源”做文章的喷子
说的就是这两个ID:
http://tieba.baidu.com/p/4664578211
http://tieba.baidu.com/p/4661094362
这俩好哥俩(或者一个小号+一个小号的马甲)的槽点太多了,咱一个一个慢慢喷。
(一)
这种一看就问题多多的论断, 居然可以被楼主拿来当宝。 唯一的可能:楼主完全不懂基因,以及基因组测序究竟是什么。
在这年头,得到整条染色体,乃至一个物种的DNA序列并不算是难事儿。 真正的困难之处在于如何理解它们,以及如何鉴别其中隐藏的各种功能。 现在的基因学的基础教材, 首先强调的就是同源性(homology)并不等于相似性(similarity)。最具有讽刺意味的是, 我随便在NCBI上找到的入门教材,就指出:
It is incorrect to describe a pair of related genes as ‘80% homologous’ if their sequences have 80% nucleotide identity.
因为, 随便两个基因一对比,要么他俩在演化历程中有所关联, 要么没有。 这是一个非黑即白的问题。 不存在80%的相似,于是就能判定同源这种荒谬的说法。 何况, 我们无法要求同源基因在序列上非得有多少相似性,随机变异可以改变生命之书上每一个字母的位置,怎么可能不出现基因层面“不沧海桑田一番”的现象?
一共就ATCG四个字母, 每代之间每个字母都有一定几率发生变化。 拿纯纯的DNA序列一比对,蒙上,以及蒙不上的相似性绝对不少。 所以同源性研究,往往先把序列转换成氨基酸序列(peptide sequence/amino acid sequence)。因为构成蛋白的氨基酸有20多个, 这样可以大大减少比对时出现的那些无用的相似性。
有时候在演化上并无关联的两个基因,依旧会具备相似的片段。科学家目前是这么理解的: 有时候基因不同源,但由于他们翻译出的蛋白具备相似的功能,于是就需要相似的结构/域。所以序列上也出现了相似性。或者有时候尽管基因不同源,但这些域同源(来自于同一个远古的共同祖先)。有兴趣的可以查一下Tudor domain:在果蝇的tudor 基因上一下就有十个,在另一个果蝇蛋白以及一个人类蛋白上各有一个,目前认为它们和RNA有所互动。
最后,对序列的相似性分析,并不是找到新基因/理解基因功能的万能工具。只有用实验的方式才能真正验证,发展同源性研究的结论。哪怕是入门级别的教科书,也需要整整一章的内容,才能走完目前分子生物具备的各种实验手段。
http://tieba.baidu.com/p/4664578211
http://tieba.baidu.com/p/4661094362
这俩好哥俩(或者一个小号+一个小号的马甲)的槽点太多了,咱一个一个慢慢喷。
(一)
这种一看就问题多多的论断, 居然可以被楼主拿来当宝。 唯一的可能:楼主完全不懂基因,以及基因组测序究竟是什么。
在这年头,得到整条染色体,乃至一个物种的DNA序列并不算是难事儿。 真正的困难之处在于如何理解它们,以及如何鉴别其中隐藏的各种功能。 现在的基因学的基础教材, 首先强调的就是同源性(homology)并不等于相似性(similarity)。最具有讽刺意味的是, 我随便在NCBI上找到的入门教材,就指出:
It is incorrect to describe a pair of related genes as ‘80% homologous’ if their sequences have 80% nucleotide identity.
因为, 随便两个基因一对比,要么他俩在演化历程中有所关联, 要么没有。 这是一个非黑即白的问题。 不存在80%的相似,于是就能判定同源这种荒谬的说法。 何况, 我们无法要求同源基因在序列上非得有多少相似性,随机变异可以改变生命之书上每一个字母的位置,怎么可能不出现基因层面“不沧海桑田一番”的现象?
一共就ATCG四个字母, 每代之间每个字母都有一定几率发生变化。 拿纯纯的DNA序列一比对,蒙上,以及蒙不上的相似性绝对不少。 所以同源性研究,往往先把序列转换成氨基酸序列(peptide sequence/amino acid sequence)。因为构成蛋白的氨基酸有20多个, 这样可以大大减少比对时出现的那些无用的相似性。
有时候在演化上并无关联的两个基因,依旧会具备相似的片段。科学家目前是这么理解的: 有时候基因不同源,但由于他们翻译出的蛋白具备相似的功能,于是就需要相似的结构/域。所以序列上也出现了相似性。或者有时候尽管基因不同源,但这些域同源(来自于同一个远古的共同祖先)。有兴趣的可以查一下Tudor domain:在果蝇的tudor 基因上一下就有十个,在另一个果蝇蛋白以及一个人类蛋白上各有一个,目前认为它们和RNA有所互动。
最后,对序列的相似性分析,并不是找到新基因/理解基因功能的万能工具。只有用实验的方式才能真正验证,发展同源性研究的结论。哪怕是入门级别的教科书,也需要整整一章的内容,才能走完目前分子生物具备的各种实验手段。
主楼的Ref: Genomes, 2nd edition Terence A Brown, Oxford:Wiley-Less 2002 ISBN-10: 0-471-25046-5
这种狗屁不通的文法以及混乱的逻辑,真的和那一楼的兄台很有相似性。 要么这两位共享同一个大脑,要么共享同一个语文老师。
我估计,这货是查阅了类似的教材/科普读物,但没看懂人家上面说了什么。 这个80%的相似性是哪里来的,我很好奇。所谓02年的”研究报告“,让我开始怀疑他所引的知识就是源自Terence A Brown的教材上的内容。因为Terence在”80%“桥段上面就提到了Orthologous genes与Paralogous genes。
第一段是直接复制粘贴百度百科的。 后面两段估计是自己敲的, 所以完全不像人话。
小鼠基因组序列……其中有99%的基因能在人的基因组序列中找到同源序列这个梗,在09年的时候61同志就解释(或者搬运?)得很清楚了:
http://tieba.baidu.com/p/675712947?pn=245楼
这句话的英文起源,我今天贴在这里:
(2002). Initial sequencing and comparative analysis of the mouse genome. Nature, 420(6915), 520-562.
如果你读一下原文,就会发现在基因组层面比较DNA序列的话,人和小鼠之间大约有40%的相似性。 这40%的相似性并不代表40%的基因同源。
而同源的基因未必相似,和这位兄台复制粘贴的orthologous gene的定义更不是一回事儿。
那英文原文这段话究竟啥意思呢? 61的这楼已经说得够白了:
我列出两个数列
A:1,2,3,4,5,6,7,8,9,10
B:2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24
A数列中90%的数字都能在B数列中找到,您敢说两数列相同程度高达90%吗?
实际上A与B的关系就类似于鼠基因组与人基因组的关系。
鼠的基因99%能在人基因组中找到同源序列(再次重申,同源并非相同),但人的基因组返回去对应鼠的话,可就有的是基因在老鼠身上找不到同源序列。
顺便科普一下其中的术语:
Synteny:同一个物种的多个基因都在同一个染色体上。
conserved synteny:A物种的几个基因在同一个染色体上,B物种的那几个共祖基因也在同一个染色体上(顺序不论)。
conserved segments:A物种的几个基因在同一个染色体上,B物种的那几个共祖基因也在同一个染色体上,且顺序相同。
Conserved segments在所有的哺乳动物身上都能找到,人和河豚鱼大约在4.5亿年前分化,依旧有conserved synteny。
最后这个傻逼不清楚阿蛇展示conserved synteny的意义。因为这是进行orthology鉴定的最好方式啊混蛋!听说过Hox gene么? (还可以维基一下Shared synteny嘛)
有个喷子/马甲插楼影响了阅读,被楼主拆迁了莫怪。
你要是真有啥建设性意见,现在可以提了。 人身攻击啥的就算了,就凭你的中文能力... 别丢脸了, 真的。 要是你真有女儿的话,我还真替她(的基础教育的果实能不能保住)捏一把汗...
你要是真有啥建设性意见,现在可以提了。 人身攻击啥的就算了,就凭你的中文能力... 别丢脸了, 真的。 要是你真有女儿的话,我还真替她(的基础教育的果实能不能保住)捏一把汗...