文章

如果你想尖叫FASTA:打破基因组数据分析的瓶颈

发表:2019年12月11日

由苏菲Laurenson |

文章

如果你想尖叫FASTA:打破基因组数据分析的瓶颈

发表:2019年12月11日

由苏菲Laurenson |

阅读时间:

希望这篇文章的一个免费的PDF版本吗?

完成下面的表格,我们将电子邮件您的PDF版本“如果你想尖叫FASTA:打破瓶颈在基因组数据分析”

名字*

姓*

电子邮件地址*

国家*

公司类型*

工作职能*

你愿意接受进一步的电子邮件通信技术网络吗?捷克葡萄牙直播

捷克葡萄牙直播科技网络有限公司需要您提供的联系方式联系你关于我们的产品和服务。你可以随时取消订阅这些通讯。如何取消订阅的信息,以及我们的隐私实践和承诺保护你的隐私,看看我们隐私政策

下一代测序技术的日益普及和可访问性(门店)技术产生过多的数据,需要伴随先进的数据处理和分析。总会在描述平台的集合,使核酸序列的快速分析。在过去的十年里,几个突破性的技术效率和成本竞争推动了大型基因组和转录组测序项目在不同的地域和种族的设置。

与执行相关的直接成本测序反应已经减少,而数据处理、存储、管理、和解释成本成倍增加。上天的吸收技术研究和临床设置了pb级的基因组数据,创建一个进程的瓶颈。此外,在精密医学的扩张需要的具有挑战性的任务结合基因组数据和临床数据,如电子健康记录(EHR),获得的见解。在本文中,我们探索新的工具是如何简化基因组数据分析的过程。

基因组数据分析是什么?

基因组数据分析是一系列过程组织成一条管道,将原始核酸序列数据转化为有用的见解。短序列测序实验的原始数据读取包含200 - 1000核苷酸碱基对,依赖于底层的门店技术。一个门店实验产生数十亿个人短序列,总计g的数据,必须安排订单。原始序列数据通常存储在FASTQ格式和数据的质量是由phr算法。原始序列数据作为序列读取存档(SRA)文件存储在数据库中,其中最大的是国际合作核苷酸序列数据库(INSDC)。

单独的序列读取到订货,他们是一致的与参考基因组和FASTA格式的编码。在校准过程中,每个原始序列匹配基因的位置。对齐到一个参考基因组是一个极具争议的话题在基因组数据分析。尽管上天技术的进步和数据分析,确定一个理想的模型参考基因组在大多数物种仍然是难以捉摸的。

从计算的角度来看,序列比对算法开发和提炼在1980年代和1970年代,引起FASTA和爆炸算法效率越高,至今仍在使用。确切的对齐算法用于给定的研究是严重依赖等实验参数序列读取的长度,工件和偏见在测序反应,参考基因组的组装质量,可用的计算资源,和随后的分析。对齐序列通常存储为山姆(序列比对地图)/ BAM(二进制排列图)文件。SAMtools山姆是一个流行的方法用于管理/ BAM文件。

对齐后,基因组序列注释强调区域,如基因外显子和监管区域。注释基因组数据存在于专门的格式包含基因组序列地区伴随着适当的注释。这些文件的目的是优先序列区域可能有生物或在后续分析中临床意义。

做一个好的电话

大多数门店数据管道的最后阶段是生成数据,可以用来获得宝贵的见解。使用的方法和工具的目标取决于实验。最常见的门店实验的目的是识别和描述基因变体。这些都是明显的区别于参考基因组序列,通常描述的VCF (变体电话格式)。进行变异分析,研究人员必须能够访问大型数据集的变体。来源包括1000人基因组计划,外显子组聚合(ExAC)财团,癌症基因组图谱(TCGA)项目。专门的工具存在变异检测等pGENMI的计算方法,分析分子变异决定药物反应;食典委,一个人类基因组变异检测工具;波浪起伏的,一个算法来检测结构重组;和跳霹雳舞、基因组结构变异检测工具。下游分析可能包括地理变异等工具的决定因素纪源(变种流行的地理可视化)或亲属关系等分析工具SEEKIN。

临床潜力

门店技术已经进化到在生命科学研究中扮演着重要的角色。然而,许多人认为,基因组分析的真正价值将在临床应用。的世界经济论坛精密医学程序(论坛)表明,基因组学进入临床实验设置,数据分析需要集成测序数据与其它数据类型。世界经济论坛全球中心正在建立一个协调的框架捷社区可以开发工具和政策将基因组学成为主流的卫生部门。另外,研究人员正在开发解决方案整合基因组数据和临床数据。OntoFusion是一个基于本体的集成的基因组和临床数据库,举例门店和临床数据之间的联盟。

鉴于基因组数据分析的复杂性和模块化,近期的重点放在集成工具构建门店数据管道。公司活跃在捷技术空间开发了集成解决方案为最终使用客户在两个研究和临床设置。这些平台的目标是容易实现交钥匙解决方案,尽管大多数与捷服务提供者提供的平台技术。

可以开源工具打破瓶颈?

预算人员操作,或者喜欢的灵活性,可以使用开源工具构建自定义系统。小罗纳尔多da Silva旧金山自由bioinformatician位于巴西,更喜欢开源解决方案。虽然预算是一个因素,关键原因是调整参数的能力。他断言,“通过适当的编程语言知识技能,还可以调整等具体问题的工具。“他的首选平台GATKBroad研究所主办的。过多的开源选项可用于基因分析表明,其他研究人员同意。特别是,Bioconductor,编码在R环境中,是一个流行的工具在学术和工业研究人员设置。SRAdbBioconductor内是一个工具,可以用于查询SRA r .工作流中的数据管理系统(WMS),如星系,是另一个开放解决方案旨在自动化和简化数据处理和分析。da Silva旧金山青年说,一些研究者选择结合方面的专有的交钥匙解决方案“…免费使用这些工具的一部分,例如,GeneCards, MalaCatds, VarSelect。”

研究人员用更少的先进数据和编码技巧,许多公共组织也宿主基因组数据分析的在线工具。例如,SRA工具包使数据处理和转换从公共资源。的欧洲生物信息学研究所(EBI)也提供了一个全面的选择数据库和数据分析的工具。作为一个私人项目的例子,Broad研究所主办整合基因组浏览器(进口)开放的研究人员使用。

上面描述的工具和技术开发模块化的方式,通常有机从一个未满足的需求。随着基因组数据分析的成熟作为一门学科,这些模块化工具正逐渐融入一个有凝聚力的工具箱。随着计算能力的提高和自动化,可能解开复杂的遗传因素,支撑生物学和疾病慢慢成为现实。这种潜力是最终激发研究人员喜欢da Silva旧金山初级总结说,“未来的使用测序技术的最新进展和数据生成的理解生物现象在人类遗传疾病中是一个深深抓住我的兴趣。我看到带着兴奋的心情可能使用计算方法,以更好地理解人类遗传疾病的生物学基础。因此,就我而言,机器的使用和深度学习方法在基因组数据科学领域一直是一个令人兴奋的进步在过去的几年,这使得一个强大的方法获得的见解对突变的分子机制和转化应用在医疗领域。”