百度 | 神马 | 搜狗 | 技术文档 | 学习资料分享 - 记录帝国CMS及运维技术的点点滴滴
你的位置:首页 > 实用IT技术 » 正文

【数据测试】打破雅虎纪录——微软60秒处理1401GB数据

发布时间:2020-09-17

作品分类:数据测试  数据  输出  输入  微软  雅虎  打破  纪录  数据

打破雅虎纪录——微软60秒处理1401GB数据,

 

Microsoft研究院近日打破了之前由Yahoo保持的数据整理速度记录。Microsoft研究院的9人小组成功在短短的60秒内完成了对1401GB的数据整理工作。他们的测试基于MinuteSort基准。MinuteSort是比较在一分钟内所排序的数据量大小。Microsoft采用了的一种新分布式计算系统(Flat Datacenter Storage)以加快数据处理。

值得一提的是Microsoft的系统使用了250台主机(1033块磁碟),而Yahoo之前创造纪录的系统则使用了1406台主机(5624块磁碟)。

Microsoft认为Flat Datacenter Storage可利用其技术优势帮助Bing提高性能,在未来Microsoft认为Flat Datacenter Storage可在机器学习领域有所作为。目前在大数据处理领域热门的处理技术显然是Hadoop和MapReduce,但现在看来,Microsoft的Flat Datacenter Storage技术则更加优越。(Terminator/编译)

详细测试结果

 

延伸阅读

MinuteSort是比较在一分钟内所排序的数据量大小,GraySort是比较在对大规模数据(至少100TB)进行排序时的排序速率(TBs/minute)。基准规则具体如下:●输入数据必须与数据生成器生成的数据完全匹配●任务开始的时候,输入数据不能在操作系统的文件缓存中●输入和输出数据都是没有经过压缩的●输出不能对输入进行重写●输出文件必须存放到磁盘上

●必须计算输入和输出数据的每个键/值对的CRC32,共128位校验和,当然,输入和输出必须对应相等

●输出如果分成多个输出文件,那么必须是完全有序的,也就是将这些输出文件连接以后必须是完全有序的输出

●开始和分布程序到集群上也要记入计算时间内

●任何抽样也要记入计算时间内

Yahoo的研究人员使用Hadoop排列1TB数据用时62秒,排列1PB数据用时16.25个小时。

文/csdn

以上就是关于打破雅虎纪录——微软60秒处理1401GB数据的基本内容,更多相关信息,请关注www.5d.ink

Top