我们已经更新了隐私政策为了更清楚我们如何使用您的个人数据。

我们使用cookie为您提供更好的体验。你可以阅读我们的饼干政策这里。

广告
第一个完整的人类基因组序列发表
文章

第一个完整的人类基因组序列发表

第一个完整的人类基因组序列发表
文章

第一个完整的人类基因组序列发表

阅读时间:

想要本文的免费PDF版本吗?

填写下面的表格,我们将向您发送PDF版本的电子邮件“第一个完整的人类基因组序列已出版”

名*
姓*
电子邮件地址*
国家*
公司类型*
工作职能*
您想从技术网络接收进一步的电子邮件通信吗?捷克葡萄牙直播

捷克葡萄牙直播技术网络有限公司需要您提供给我们的联系信息,以与您联系有关我们的产品和服务。您可以随时退订这些通信。有关如何取消订阅以及我们的隐私惯例和保护隐私的承诺的信息,请查看我们隐私政策

3月31日代表了科学界的关键时刻,因为人类基因组的第一个“无间隙”序列已发表。

人类基因组的史

在1990年代,研究人员开始了一项任务,该任务将永远重塑科学研究的景观:人类基因组项目(HGP)。这项目的目标- 由美国能源部和国立卫生研究院协调 - 包括:


  • 识别人DNA中的所有基因
  • 确定组成人DNA的30亿化学碱基对的序列
  • 存储信息
  • 改进数据分析工具
  • 将相关技术转移到私营部门
  • 解决该项目的结果可能存在的社会,道德和法律问题


最初预计将需要15年(1990 - 2005年),HGP的进步加速了下一代测序技术,导致其在2003年的早期完成。


分子生物学的见解和新颖的测序技术直接产生,并且作为HGP的间接结果,已更普遍地改变了科学研究,医学和社会。在个性化医学现在,医生可以根据癌症患者肿瘤的独特DNA组成而定制的,有针对性的治疗计划。在农业,农民可以及时获取农作物和动物的基因组信息。这有助于改善以前依靠几代人明显观察表型变化的选择性育种计划。在世界各地的各个角落都在进行各种大规模基因组的“大型项目”,例如我们所有的研究计划地球生物组项目- 仅举几个例子。由于HGP的成功,所有这些进步以及更多的进步以及更多的进步。

遗传学家理查德·吉布斯教授可以说是该项目在全球影响中的最恰当摘要人类基因组项目改变了一切:“今天完全不可想象的是,我们的基因组就不触手可及,”他写道。

不完整的图片

当2003年宣布HGP完成时,它没有“技术上”完成;相反,它在当时最终确定了我们的能力。


“ HGP绘制了大约92%的人类基因组序列。其余的序列本质上很复杂,当时所需的技术进步需要。”埃文·艾希勒(Evan Eichler),华盛顿大学医学院基因组科学教授,霍华德·休斯医学院的研究者。


剩下的八%包含高度重复的DNA序列,由于技术,细胞系和计算局限性,在2000年代初期是“不可读”的。考虑人类基因组的惊人大小:估计有30亿个基对。一次是要处理的很多信息。因此,NGS方法要求将DNA“切成”成块。这些块被放大(复制),重新组装并使用计算方法创建较大序列的正确顺序。如果序列包含许多重复元素,则匹配的过程变得非常困难。将拼图拼图拼凑在一起,其中一些作品是相同的。您怎么知道难题的大图中的哪一块?


繁重的技术约束,再加上对未知基因组的不完全理解可以对2003年的部分完成序列负责。“由于该8%的基因组并不丰富,因此许多科学家对完成它所需的额外努力不感兴趣,” Eichler补充说。


因此,某些人被某些人昵称为“黑暗”基因组或“垃圾” DNA的“缺失”。但是艾希勒和他的许多同龄人没有看到垃圾。他们看到了潜在的宝藏。


艾希勒(Eichler)研究的最后20年一直致力于这一探究线并解决序列。在此期间,他和世界各地的其他DNA研究人员都表明,在这个“未知”领土内,重要的监管元素以及其他基因组瑰宝。


重复的元素也喜欢在基因组中移动,因此某些人称其为“跳跃基因”。该运动可能需要进一步理解该运动的功能影响,因为它可能有助于人类疾病和进化。“我们基因组的重复区域是最动态的,因此它们在短时间内很快突变。我假设这些区域是基因组热点,对人类疾病和进化的影响不成比例。” Eichler说。

为什么在2003年对完整的基因组进行序列如此困难?此信息图提供了关键信息。

学分:国家人类基因组研究所。

没有更多未知数

自从其作为HGP的一部分的概念以来,标准参考人类基因组(称为)基因组参考联盟建设38或GRCH38- 一直不断更新,关闭一些基因组中的“差距”以及我们的知识。但是到目前为止,它还没有完全完成。


什么是grch38?
GRCH38是一种参考基因组,它是一种数字DNA序列数据库,旨在代表生物体中存在的基因集,例如人类。它是通过组装匿名供体个人的DNA序列而创建的。参考基因组通常在研究遗传变异时使用,从而将个体或人群的遗传序列与“参考”进行比较以识别变异点,并研究随后的变异点表型这是这种变化的潜在结果。

艾希勒(Eichler)是一项大型合作的一部分 -端粒到居组(T2T)财团- 这已经成功地对整个人类基因组进行了测序,其中包括“失踪” 8%。新参考基因组,称为T2T-CHM13,可以通过加州大学圣克鲁斯分校(UCSC)基因组浏览器并通过杂志上发表的一系列论文进行了讨论科学


T2T财团由Karen Miga教授,加州大学圣克鲁斯分校(UCSC)基因组学院副主任和亚当·菲利皮(Adam Phillippy)博士,基因组信息学部分负责人和国家人类基因组研究所计算和统计基因组学分支的高级研究员。

基因组学中的关键时刻如何成为可能?

T2T团队解释说,由于几个原因,T2T-CHM13成功完成了T2T-CHM13。

在2000年代,科学家正在考虑在对完整基因组进行测序时如何克服特定的障碍。我们的基因组携带两套染色体,一组来自我们的母亲,另一组来自我们的父亲。当将DNA序列“切碎”成较小的片段并重新组装时,我们从母亲或父亲那里继承的序列可能会被混乱,这使得很难识别跨基因组的变异。Eichler解释说:“您的父母染色体之间的大规模差异,尤其是在重复序列中,因此很难解决,因为有时您在两者之间切换,会产生差距。”


艾希勒有一个主意。如果研究人员仅关注其中一个基因组,而不是同时浏览母体和父亲基因组怎么办?2004年,他转向Urvashi Surti教授,匹兹堡大学医学院的生殖遗传学家和实验室主任。Surti正在使用特定的单元线,有趣的是父亲DNA的副本,也没有母体DNA,称为氢化摩尔。


“我和Karen Miga和Adam Phillippy一起是该项目的三个领导人之一。我最初在2004年用Urvashi Surti提出了这个想法,即对氢化痣进行测序(仅父亲材料)将大大简化人类基因组的完成。” Eichler说。

什么是氢摩尔?
氢化痣当缺乏活性核的卵母细胞被精子施肥随后重复父亲染色体时,最常发生。

“通过仅关注我们发现的任何差异,我们知道代表了一个不同的区域,因此这个单一的基因组帮助我们摆脱了组装期间的错误。在二倍体基因组中,您将难以区分源自父母与对应的变体的等位基因变体重复区域,”艾希勒解释说。“通过消除一位父母,我们知道,当Urvashi同意在2004年与我建立基因组资源的工作时,我们发现真实的任何区别必须与一个不同的(重复区域)[...]相对应,这是一个令人兴奋的时刻,因为我知道资源将使我们能够解决基因组的任何区域[...],换句话说,原则上可以解决每个重复的地区。”


Eichler将整个基因组组装成该细胞系的能力基因测序技术的进步,例如长阅读测序。


长阅读测序,有时被称为“第三代测序”,与“切割”到较小块的DNA的NGS方法不同。取而代之的是,长读测序技术可以实时地对单个DNA分子进行测序,通常没有放大,从而使长DNA链的读数通常在10,000–100,000底座之间。在这项工作中,研究团队使用了两种不同类型的长阅读测序,一种能够单一阅读最多100万个碱基对,具有适度的精度,另一个可以以几乎完美的精度对20,000个碱基对进行序列序列。。


“我是长阅读测序的早期采用者表现出了潜力更准确地描述了大重复。”艾希勒说。到2017年,Miga和Phillippy一直使用长阅读测序来序列大片段DNA。研究团队发生的是,现在,随着细胞系和新颖的测序功能,是时候面对“缺失”的基因组的八%的时候了。因此,顾名思义,T2T联盟对每个染色体,端粒进行测序。

不再“介意差距”

一旦获得了完整的基因组,T2T研究人员都会仔细研究其组件,以查看可以做出什么新颖发现。Eichler总结了T2T-CHM13填充的“关键差距”,与GRCH38相比:


  • 核糖体DNA(rDNA)的第一个序列来自杂技,Centromere卫星和重复基因现在可用
  • 现在,我们有一个完整的基因组来改善变异发现和更复杂的变化,因为我们将数据重新映射到该复杂的基因组
  • 现在,由于该项目而存在,现在如何完全组装和组装其他基因组的蓝图


Eichler’s laboratory focused largely on the assembly and characterization of the duplicated regions and the new genes identified in the previously “missing” region, he explains: “Most of the new genes were duplicated families, and the data that was generated was used to characterize the genes.”


访问完整的基因组还帮助研究人员确定了复杂的变异区域。“一个人可能有10份特定基因的副本,而其他人可能只有1个或2个。当爸爸妈妈的染色体排队并交换碎片时,这种变化在受精过程中可能会发生麻烦。Eichler说,不匹配的基因可能导致基因改变的“地震”。他强调:“ GRCH38中包含的这些新确定的区域对于进一步了解疾病的易感性和人类快速发展至关重要,他强调:“我们正在解决以前错过的遗传疾病病例,因为我们发现了更复杂的变异形式。”


在UCSC上,Miga及其同事的工作集中在卫星DNA上。


什么是卫星DNA

长时间的DNA包含许多短单元重复。卫星位于基因组中非常具体的点,例如某些染色体的短臂和靠近丝粒。


中心粒对于细胞分裂中的染色体隔离很重要,该过程已知在许多人类疾病(如癌症)中发挥功能失调。Miga在新闻稿中说:“我们从来没有能够在序列级别上对它们进行排序。”“这是我们第一次可以研究定义着丝粒的序列,并可以开始理解其工作原理。”

多样的人类基因组参考

T2T-CHM13现在已经完成,但是T2T财团的工作还远远没有结束。艾希勒(Eichler)解释说,下一步将是重复二倍体生物的项目,即分析父亲和母体基因组。他暗示:“我们接近实现这一目标。”一旦完成,它将用于了解全球人类基因组的多样性,并应用于患者样本。


T2T还与人类pangenome参考联盟,旨在开发一种新型的人类pangenome参考,该参考是使用350人的完整基因组序列创建的。这项努力与越来越多的呼吁基因组学研究变得更加多样化


随着DNA分析继续为越来越多的临床医学提供信息,如果利用参考基因​​组的遗传风险评估不考虑不同的人群,则可以扩大全球健康差异。“随着基因组测序研究的规模和范围的前所未有的增加,迫切需要改进的参考,可以捕获不同人群中普遍存在的其他独特序列,”sWong等人迈向捕获全球遗传多样性的参考基因组。

让我们不再称其为“垃圾”

最终确定缺失的8%人类基因组的时间是对第一个92%的序列进行测序的两倍。这些努力并非徒劳,团队开发的方法为将来的患者基因组表征如何。艾希勒说:“ T2T基因组将意味着更完整的变异发现,并改善对遗传疾病的理解和诊断。”


该项目已经证实了艾希勒(Eichler)和整个T2T财团的怀疑,即曾经的基因组“缺失”地区远非遗传荒原,它们对生命至关重要。“在细胞分裂过程中,丝粒卫星对于分离染色体是必需的,rDNA对于细胞在细胞中产生蛋白质是必不可少的。节段重复基因将我们与黑猩猩区分开,并编码一些对于建立更大大脑至关重要的基因。从本质上讲,顺序对生活至关重要,使我们成为人类。”


埃文·艾希勒(Evan Eichler)教授正在与技术网络高级科学作家莫莉·坎贝尔(Molly Campbell)讲话。捷克葡萄牙直播

认识作者
莫莉·坎贝尔
莫莉·坎贝尔
高级科学作家
广告