我们已经更新了隐私政策为了更清楚我们如何使用您的个人数据。

我们使用cookie为您提供更好的体验。你可以阅读我们的饼干政策这里。

广告
The Darwin Tree of Life Project Will Have a
文章

The Darwin Tree of Life Project Will Have a "Transformative Effect" on Our Understanding of Life on Earth

The Darwin Tree of Life Project Will Have a
文章

The Darwin Tree of Life Project Will Have a "Transformative Effect" on Our Understanding of Life on Earth

图片由Lukasz Szmigiel摄于Unsplash。
阅读时间:

想要本文的免费PDF版本吗?

填写下面的表格,我们将向您发送PDF版本的电子邮件"The Darwin Tree of Life Project Will Have a "Transformative Effect" on Our Understanding of Life on Earth"

名*
姓*
电子邮件地址*
国家*
公司类型*
工作职能*
您想从技术网络接收进一步的电子邮件通信吗?捷克葡萄牙直播

捷克葡萄牙直播技术网络有限公司需要您提供给我们的联系信息,以与您联系有关我们的产品和服务。您可以随时退订这些通信。有关如何取消订阅以及我们的隐私惯例和保护隐私的承诺的信息,请查看我们隐私政策

达尔文生命之树(DTOL)project is part of a global initiative to sequence all complex life on Earth, a mission known as the地球生物组项目。DTOL项目将对不列颠群岛所有60,000种真核生物的基因组进行序列,以更好地了解DNA如何转化为生活的多样性。

该项目由惠康桑格学院(Wellcome Sanger Institute)领导,是一项合作努力,将汇集各种机构,资助机构,大学,博物馆和园艺组织。一旦获得,将向项目收集的数据开放,供全球研究人员访问和利用自己的研究。

捷克葡萄牙直播最近与脊椎动物注释协调员Fergal Martin在EMBL的欧洲生物信息学研究所(EMBL-EBI)to learn more about the development of the project, its aims and the challenges that lie in sequencing 60,000 organisms.

莫莉·坎贝尔(MC):“第六大灭绝”是什么?

Fergal Martin(FM):
这是可以与人类活动相关的大量物种的持续灭绝模式。诸如大规模森林砍伐,对珊瑚礁的破坏,污染水平的增加,人类对气候变化的影响以及整个世界的影响正在加速其他物种灭绝的速度。其他大规模灭绝通常与深层地质事件有关,而这可以主要与单一物种的直接和间接作用联系在一起。

MC: Please can you tell us about the development of the Darwin Tree of Life project? Who is involved?

FM:
DTOL项目由Wellcome Sanger Institute。Our role at the EMBL-EBI is twofold. Firstly, we want to make the genome sequences that result from the project freely available through our database, the欧洲核苷酸档案(ENA)。The ENA will hold a permanent record of the data so that anyone will be able to find and analyze these genomes from the moment they are completed to many years from now.

Our second major contribution to the projects is throughemembl, which is our online public resource for people who wish to analyze whole genomes. Ensembl provides a collection of analyses on the raw genome sequences (termed "annotations"), along with methods for visualizing the data through our genome browser and programmatic access to the data through our application programming interface.

作为注释过程的一部分,Ensembl计算关键信息,例如基因的位置,它们的结构是什么以及不同物种的基因组序列如何相比。这些分析有助于研究人员的下游科学捷径,因为我们可以在一周的时间内进行分析,这将花费数月甚至数年的时间才能完成。这样,我们可以使研究界能够根据数据迅速开始提出复杂的科学问题。

除了EMBL-EBI和Wellcome Sanger研究所外,该项目的其他合作伙伴还包括领先的研究组织和大学(Earlham Institute,Marine Biological Association,Plymouth,普利茅斯,剑桥大学,爱丁堡大学,埃克塞特大学,埃克塞特大学,牛津大学),国家收藏品(自然历史博物馆,皇家植物园,基沃,皇家植物园,爱丁堡),外展与参与组织(连接科学)和资助机构(Wellcome,BBSRC)。这确实是一项令人印象深刻的合作努力!

MC:该项目的主要目标是什么?

FM:
The goal of the project is to reconstruct the genomes of all 60,000 eukaryotic species in Britain and Ireland to make these data freely available to anyone with an interest, from the general public, to citizen scientists, to evolutionary biologists. This is a key part of a broader global effort to sequence the genomes of all life on the planet and will form an unparalleled resource for science.

为了确保数据可公开可用并迅速注释了基因组特征,ENA和ENSEMBL都在重新设计其基本过程,以尽可能高效和可扩展。为了帮助我们实现该项目的总体目标,我们旨在在未来几年内创建平稳有效的数据流,其中数据生产者可以立即将原始数据传递给ENA和ENSEMBL。从那里开始,基因组数据将在尽可能短的时间内注释并发布给社区。

MC:哪些技术使该项目成为现实?

FM:
许多因素都聚集在一起,使该项目成为可能,包括基因组测序技术的显着改进,测序成本的大幅度降低,新算法更有效,并且可以通过云通过云有效地无限计算。

在Embl-Ebi,我们一直在努力改善我们的基础设施,以期待DTOL规模的项目已有几年了。一个很好的例子是Engembl基因注释管道,该管道采用了一个物种的DNA序列,然后计算隐藏在其中的基因的位置和结构。不久前找到这些基因是一个强烈的手动过程。一个全职工作三到六个月才能在一个物种中找到基因。现在,一个人有可能花五分钟来配置10种物种的注释管道,以使结果在几周后将其返回给他们。

为了实现这种基本转变,我们必须重建整个管道。分析了每个组件的有用,可以并行程度,如何提高其上的错误容忍度以及如何最好地将关联工作部署到计算集群中。

如果我们想在这一点上向所有圆柱体开火,那么实际上,与当前生产的速率相比,我们实际上有更多的注释这些基因的注释。话虽如此,我们也认识到还有足够的改进空间,就像DTOL链的其他部分一样,我们将需要继续发展,并继续优化和自动化以达到项目的最终目标。

MC: The project will collect, identify and extract and sequence DNA and RNA from approximately 60,000 species within Britain and Ireland. What challenges will you encounter in this process?

FM:
在整个项目过程中,会出现许多挑战。这包括从如何采样,提取和跟踪DNA到如何有效分析数据到如何可视化和将结果归还给公众的所有内容。

对于Embl-Ebi而言,我们最大的挑战来自事物的数据分析方面。由于产生了这些基因组,我们如何确保我们以尽可能准确和高效的方式注释基因组特征?这本身就是一个挑战。快速做不好的工作很容易,但是如果结果错误并且需要重新计算,这对研究社区并不是很有帮助。同样,如果我们花费我们一年的时间完成每个物种,那么产生完美的结果也无用。因此,我们一直在寻找如何最佳平衡速度与准确性。

另一个挑战是跟踪快速变化的领域中的所有发展。除了更新和改进自己的软件和管道外,我们还花费时间来分析第三方解决方案,以查看它们是否适合将其集成到我们的流程中。

A final major aspect of what we do is working out how to optimize our data analysis code for different species. The underlying DNA of different species can vary in surprising ways. For example, salamanders can have over 10 times as much DNA as humans, bird genomes have very little repetitive DNA while mammals have lots of repeats and wheat has many copies of its chromosomes compared to the two copies seen in human. All these differences, in terms of the underlying data, could potentially break our pipelines or make them run much less efficiently. To counter this, we are always trying to better understand the underlying biology in order to make our software and pipelines more robust.

MC:该项目的数据将公开用于生物学研究,保护,生物技术及其他地区的重用。您希望数据在这些空间中有哪些应用?

FM:
I think before dipping into the realms of potential applications it’s important to appreciate just how large a gap in our knowledge will be filled by a project like this. To date, there are approximately ten thousand eukaryotic genomes that have been digitally reconstructed and deposited in the public archives. These vary massively in quality, with many of the older genomes being effectively unusable for any sort of detailed scientific analysis. If we were to only consider high quality existing genomes, we’re definitely talking about generating at least an order of magnitude more high-quality genomes than have been created over the past 20or so years. That alone will fundamentally change how we understand the multiple fields in the biological sciences.

在潜在的应用方面,我们知道很多人,可能还有更多,直到该项目进展顺利,我们才意识到。从生态的角度来看,我们将能够对英国和爱尔兰的所有物种进行顺序和分析。结果,我们将拥有一个无与伦比的窗口,进入两者的所有生态系统。

一个很好的例子是Wytham Woods。自1942年以来,牛津大学一直对此进行了维护和研究,并拥有500多种植物和800种的飞蛾和蝴蝶(包括其他许多因素)。Wytham Woods已经有了广阔的生态记录,由于DTOL,我们将能够将该记录与整个生态系统的完整真核基因组记录相结合。像这样的事情从未做过。我们将能够在分子层面真正了解生态系统的动态。这可以帮助我们理解与物种是繁荣还是挣扎相关的任何基因组机制,并最终导致决策,有助于改善各个物种水平和生态系统本身水平的保护实践。

这些数据将大大受益的其他两个领域是比较基因组学和进化生物学。我们拥有高质量基因组序列的物种越多,我们在定义这些物种之间的关键差异方面拥有的力量就越大。如果我们看到一个物种具有我们不了解的新颖能力,那么能够将其与许多其他物种进行比较可以真正帮助隔离引起新颖性的基因组部分。同样,如果我们想重建基因或基因组的进化史,拥有尽可能多的物种的数据可以使我们更好地了解事物的发展方式,它们在灭绝的祖先物种中的外观,甚至将来它们可能会演变。

我们在这方面获得的洞察力越多,我们将能够越多地了解微妙的差异如何导致生物学结果。这对于制药和生物技术等行业将非常有价值。经常出现的一个关键问题是将非人类模型生物的适用实验转换为人类。我们越能理解模型生物体与我们自己之间的差异模式,我们就会越能建模这些差异如何影响实验的任何结果。对于牲畜和农作物之类的东西,我们有可能能够深入了解影响产量和抵抗力的基因,从而有助于确保未来的粮食安全。农业基因组学的突破很可能会在未来挽救比基因组医学更多的生命。

作为有关应用程序的闭幕说明,当人类基因组项目(HGP)启动时,可以说,没有人确切确切地确定最终的总体结果是什么是翻译什么是非常昂贵且昂贵的科学努力进入有形现实世界应用的事物。现在我们可以说,HGP实质上改变了我们对人类健康的理解。毫无疑问,DTOL项目以及其他全球测序努力将对我们对地球生命的理解产生更深远的变革性影响。在Embl-Ebi,我们希望帮助确保这些数据得到迅速处理并呈现给研究社区,以便我们可以看到现实世界的应用程序尽快看起来。

EMBL-EBI的脊椎动物注释协调员Fergal Martin与技术网络科学作家Molly Campbell进行了交谈。捷克葡萄牙直播

Meet the Author
莫莉·坎贝尔
莫莉·坎贝尔
高级科学作家
广告