3月31日对科学界来说是一个关键时刻,因为第一个“无缺失”的人类基因组序列已经公布。
0世纪90年代,研究人员开始了一项将永远重塑科学研究面貌的任务。人类基因组计划(HGP)。该项目的目标由美国能源部和美国国立卫生研究院协调,包括:
HGP最初预计需要15年时间(1990 ~ 2005年),但由于第二代测序技术的进步,HGP加快了进度,导致其在2003年提前完成。
HGP项目直接或间接产生的分子生物学见解和新型测序技术已经改变了科学研究、医学和社会。
在个性化医疗方面,医生现在可以根据癌症患者肿瘤的独特DNA组成,开出量身定做的、有针对性的治疗方案。
在农业方面,农民可以及时获得农作物和动物的基因组信息。这有助于改善选择性育种计划,以前这些计划依赖于明显的跨代观察表型变化。世界各地正在进行各种大规模的基于基因组的“巨型项目”,如“All of Us Research Program”和“Earth BioGenome Project”。所有这些进展,以及更多的进展,都是因为HGP的成功而存在。
遗传学家Richard Gibbs教授在The Human Genome Project changed everything一书中对项目的全球影响进行了最恰当的总结:“今天,如果我们没有唾手可得的基因组,那简直是不可想象的。”
当HGP在2003年被宣布完成时,它在“技术上”并没有完成;相反,它是在我们当时的能力范围内最终完成的。
华盛顿大学医学院基因组科学教授、霍华德-休斯医学研究所调查员Evan Eichler解释说:“HGP绘制了大约92%的人类基因组序列。剩下的序列性质复杂,需要当时不具备的技术进步。”
剩下的8%包含高度重复的DNA序列,由于技术、细胞系和计算方面的限制,这些序列在21世纪初是“不可读的”。考虑到人类基因组估计有30亿个堿基对的惊人大小,这是一个需要一次性处理的大量信息。
因此,NGS方法需要将DNA“切割”成大块。这些块被扩增(复制),重新组合,并使用计算方法匹配成正确的顺序,以创建更大的序列。如果序列包含许多重复的元素,匹配的过程就会变得非常困难。这就好比拼凑一个拼图,其中一些碎片是相同的。你怎么知道哪一块在拼图的大画面中处于什么位置?
繁重的技术限制,加上对未知基因组可能负责的内容的不完全了解,导致在2003年只完成了部分序列。由于这8%的基因组并不丰富,许多科学家对完成它所需的额外努力不感兴趣。
因此,这“缺失”的8%的基因组被戏称为“黑暗”基因组,或被一些人称为“垃圾”DNA。但是Eichler和他的许多同行没有看到垃圾;他们看到了潜在的宝藏。
Eichler过去20年的研究一直致力于这一思路的探究和对序列的解析。在这段时间里,他和世界各地的其他DNA研究人员都证明,在这个“未知”的领域里,隐藏着重要的调节元素,以及其他基因组宝石。
重复性元素也喜欢在基因组中移动,因此被一些人称为“跳跃的基因”。这种移动可能产生的功能影响需要进一步了解,因为它可能有助于人类疾病和进化。
“我们基因组的重复区域是最有活力的,因此它们在短时间内变异得非常快。我假设这些区域是基因组热点,对人类疾病和进化有不成比例的贡献。”,Eichler说。
自从作为HGP的一部分被提出以来,被称为基因组参考联盟构建38,或GRCh38的标准参考人类基因组一直在不断更新,填补了基因组以及我们知识中的一些“空白”。但是直到现在,它还没有完全完成。
Eichler参与的是一个大型合作项目,端粒到端粒(T2T)联盟的一部分,该联盟已经成功地对整个人类基因组进行了测序,包括“缺失”的8%。新的参考基因组被称为T2T-CHM13,可以通过加州大学圣克鲁兹分校(UCSC)基因组浏览器访问,并通过Science杂志上发表的一系列论文进行讨论。
T2T联盟由加州大学圣克鲁斯分校(UCSC)基因组学研究所副所长Karen Miga教授和美国国家人类基因组研究所计算和统计基因组学分部的基因组信息学部门负责人和高级研究员Adam Phillippy博士领导。
T2T团队解释说,T2T-CHM13的成功完成是由于几个促成因素而实现的。
在2000年,科学家们正在考虑如何在对全基因组进行测序时克服一个特殊的障碍。我们的基因组携带两套染色体,一套来自我们的母亲,一套来自我们的父亲。当DNA序列被 “切”成小块并重新组装时,我们从母亲或父亲那里继承的序列可能会变得杂乱无章,这使得我们很难识别不同基因组的变异。
Eichler解释说:“你的父母染色体之间的大规模差异,特别是在重复部分的差异,使得它很难解决,因为有时你在两者之间切换,产生差距。”
如果研究人员只关注其中一个基因组,而不是同时浏览母体和父体的基因组,会怎么样?2004年,他求助于匹兹堡大学医学院的生殖遗传学家和实验室主任Urvashi Surti教授。Surti当时正在研究一种特殊的细胞系,有趣的是,这种细胞系携带有两份父系DNA,而没有母系DNA,即所谓的hydatidiform mole。
“我是这个项目的三位领导人之一,其他两位是Karen Miga和Adam Phillippy。”,Eichler说,“我最初在2004年与Urvashi Surti一起提出了一个想法,即对hydatidiform mole(仅父系材料)进行测序将大大简化人类基因组的完成。”
“通过只关注一个我们发现的任何差异,我们知道代表了一个不同的区域,所以这个单一的基因组帮助我们在组装过程中不犯错误。在一个二倍体基因组中,你将很难区分来自父母的等位基因变体和对应于重复区域的变体。”
Eichler解释说。
“通过消除一个亲本,我们知道我们发现的任何差异是真实的,一定是对应于不同的(重复区域)[…]当Urvashi在2004年同意与我一起建立基因组资源时,那是一个令人兴奋的时刻,因为我知道这些资源将允许我们处理基因组的任何区域[…]换句话说,每个重复区域原则上都可以被解决。”
Eichler将组装全基因组的能力归功于这个细胞系和基因测序技术的进步,如长度测序。
长读测序,有时被称为“第三代测序”,不同于将DNA“切割”成小块的NGS方法。相反,长读测序技术可以对单个DNA分子进行实时测序,通常不需要扩增,这就可以读取长度通常在10,000 ~ 100,000个堿基对的长DNA链。
在这项工作中,研究小组利用了两种不同类型的长读测序技术,一种能够在单次读取中读取多达100万个堿基对,精确度不高,另一种能够对2万个堿基对进行测序,精确度几乎完美。
“我是长读测序的早期采用者,并展示了其更准确地表征大型重复的潜力。”
到2017年,Miga和Phillippy已经利用长读测序法对大段的DNA进行测序。研究小组想到,现在,有了细胞系和新的测序能力,就是面对“缺失”的8%的基因组的时候了。于是,正如其名称所示,T2T联盟开始对每条染色体进行测序,从端粒到端粒。
一旦有了完整的基因组,T2T的研究人员就各自仔细观察其组成部分,看看能有什么新发现。Eichler总结了T2T-CHM13与GRCh38相比所填补的“关键空白”:
Eichler的实验室主要集中在重复区域的组装和特征分析,以及在以前“缺失”的区域中发现的新基因,他解释说:“大多数新基因都是重复的家族,产生的数据被用来描述这些基因的特征。”
获取全基因组也有助于研究人员识别复杂的变异区域。
“一个人可能有10个特定基因的拷贝,而其他人可能只有1或2个。这种变异在受精过程中可能意味着麻烦,特别是当来自爸爸和妈妈的染色体排成一排并互换碎片时。”,Eichler说,“不匹配的基因可能导致基因改变的‘地震’。GRCh38中包括的这些新发现的区域对于进一步了解疾病的易感性和人类的快速进化至关重要。我们正在解决以前错过的遗传病案例,因为我们正在发现更复杂的变异形式。”
在加州大学旧金山分校,Miga和同事的工作集中在卫星DNA上。
中心点对于细胞分裂中的染色体分离非常重要,众所周知,这一过程在许多人类疾病中变得功能失调,如癌症。Miga在一份新闻稿中说:“我们从来没有能够在序列水平上对它们进行排序。这是我们第一次可以‘逐基’研究定义中心粒的序列,并可以开始了解它是如何工作的。”
T2T-CHM13现在已经完成,但T2T联盟的工作还远未结束。Eichler解释说:“下一步将对二倍体生物重复该项目,即对父系和母系的基因组都进行分析。我们已经接近实现这一目标了。一旦完成,它将被应用于了解全球人类基因组的多样性,也将应用于病人样本。”
T2T还与Human Pangenome Reference Consortium合作,该联盟旨在开发一个使用350人的完整基因组序列创建的新型人类大型参考基因。这一努力与要求基因组学研究更加多样化的呼声相一致。
随着DNA分析继续为越来越多的临床医学提供信息,如果利用参考基因组的遗传风险评估不考虑多样化的人群,全球健康差异可能会扩大。Wong等人在Towards a reference genome that captures global genetic diversity中写道:“随着基因组测序研究的规模和范围的空前增加,迫切需要一个改进的参考,能够捕捉到不同人类人群中普遍存在的额外的独特序列。”
最终完成人类基因组8%的缺失部分所花的时间是完成前92%的测序所花时间的两倍。这些努力并没有白费,该团队开发的方法为未来如何表征病人的基因组提供了一个蓝图。Eichler说:“T2T基因组将意味着更完整的变体发现,并改善对遗传疾病的理解和诊断。”
这个项目证实了Eichler和整个T2T联盟的猜测,即基因组中曾经“缺失”的区域远不是基因荒地,它们对生命是至关重要的。
“中心粒卫星是细胞分裂过程中染色体分离的必要条件,rDNA是细胞中产生蛋白质的必要条件。节段复制基因将我们与黑猩猩区分开来,并编码一些对构建更大的大脑至关重要的基因。从本质上讲,这个序列对生命和使我们成为人类至关重要,我们不要再称它为‘垃圾’了。”
诊断科学编辑团队收集、整理和编撰,如需更多资讯,请关注公众号诊断科学(DiagnosticsScience)。
上一篇
下一篇
一、报考流程 考生在规定时间(不含推免生)须登录“中国研究生招生信息网”(公网网址:https://yz.chsi.com.cn),按要求填 ...