我们已经更新了Privacy Policyto make it clearer how we use your personal data.

我们使用cookie为您提供更好的体验。你可以阅读我们的Cookie Policy这里。

Advertisement

大数据有什么大不了的?


Want a FREE PDF version of This Industry Insight?

Complete the form below and we will email you a PDF version of“大数据有什么大不了的?”

Listen with
语音
0:00
免费注册以听这篇文章
谢谢。使用上面的播放器收听这篇文章。
Read time:

Big Data and the Data-Intensive Lab


科学研究的数据密集型性质目前正在推动大数据解决方案的出现,这些解决方案可以收集,分析和传输全球多个位置之间的大量数据。


Wikipedia defines big data as "a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools. The challenges include capture, storage, search, sharing, analysis, and visualization".


几十年来,实验室一直在处理大量数据,每年的数量急剧增加,而现在趋势是朝着更大的数据集迈进。长期以来,问题是如何管理和挖掘这些数据以获取相关信息。在当前的数据密集型环境中,执行数据管理任务的困难已成倍增加。


What's interesting is how big data is changing the nature of data management in the lab. Relational databases and desktop statistics and visualization packages that have been so effective previously are not up to the task. Instead, big data utilizes massively parallel software running on a large number of servers, typically more than any one business can afford.


一个这样的解决方案是一个开源NOSQL数据库,该数据库旨在通过Web和Cloud应用程序大量数据传输。NOSQL数据库不使用表,因此通常不使用SQL作为查询语言。他们使用的是分布式耐故障的架构,可在多个服务器上冗余地管理数据。


NOSQL数据库不替换诸如Oracle RDBMS之类的数据库,而是提供了一种全新的管理数据方式,因为它们允许应用程序从众多来源收集和分析大量信息。


生命科学实验室特别受大数据趋势的影响。例如,当涉及基因组学方面,Petabyte尺度网络正在出现,可以更好地支持基因组研究和新兴的临床要求。


使用云计算平台管理大数据的需求也在增加,并在高速距离内移动大量的下一代DNA测序和研究数据。将这些活动进出云的挑战正在解决。该领域由Genentech领导,Genentech是大数据和云计算解决方案的早期采用者之一,以支持其研究。


Perhaps laboratories should have seen this coming since it is the inevitable result of better instrumentation that generates more data faster that then needs better analytical solutions–but hindsight is always 20/20.

Advertisement