大规模数据微乎其微的社区

2012年7月25日

密歇根州bob体育登录立大学詹姆斯Tiedje领导的研究人员已经开发出一种方法来更好地学习和分析大量的数据从土壤微生物群落。

这是相对容易收集关于微生物的大量数据。但数据文件太大,需要几天传输给其他研究者和几个月来分析他们一旦收到。bob体育登录

bob体育登录密歇根州立大学的研究人员(BOB体育密歇根州立大学)开发了一种新的计算技术,在最近一期的美国国家科学院院刊》上,减轻这些大数据问题创建的僵局。这篇论文是由密歇根州立大学AgBiobob体育登录Research科学家詹姆斯Tiedje和c .提图斯布朗密歇根州立大学生物工程学助理教授。

“微生物群生活在土壤和海洋非常复杂,“Tiedje说,密歇根州立大学微生物学和分子遗传学大学特聘教授和主任密歇根州立大学微生物生态学中心。“他们的基因组数据容易收集,但他们的数据集太大,他们实际上压倒今天的计算机”。

研究小组开发的通用技术可用于大多数微生物群落。bob体育登录有趣的转折是团队使用小型计算机创建一个解决方案,一个新颖的方法当你考虑到大多数生物信息学研究依赖于超级计算机,布朗说。bob体育登录

“彻底检查克土,我们需要生成大约50 terabases (terabase相当于1012个碱基对)的基因组序列,生成更多的数据比1000倍的最初的人类基因组计划,”布朗解释道。“需要大约50笔记本电脑存储多少数据。我们的论文展示了使它的工作方式的规模要小的多。”

分析DNA数据使用传统计算方法就像在吃一个大披萨在一个咬人。数据的大量涌入沼泽”计算机的内存和使他们窒息。“新方法使用一个过滤器,折叠的DNA“披萨”紧使用一种特殊的数据结构,允许数据的电脑吃片并最终消化整个序列。这种技术在内存中创建了一个40倍减少需求,它允许科学家犁通过大量数据不使用一台超级计算机。

Tiedje和布朗将继续奉行这条线的研究。bob体育登录鼓励他人进一步调查,改进它,研究人员做了完整的源代码和辅助软件提供给科学界。bob体育登录