亲宝软件园·资讯

展开

简要MR与Spark在Shuffle区别

狗子毛豆子猫 人气:0
**一、区别** ①本质上相同,都是把Map端数据分类处理后交由Reduce的过程。 ②数据流有所区别,MR按map, spill, merge, shuffle, sort, r educe等各阶段逐一实现。Spark基于DAG数据流,可实现更复杂数据流操作(根据宽/窄依赖实现) ③实现功能上有所区别,MR在map中做了排序操作,而Spark假定大多数应用场景Shuffle数据的排序操作不是必须的,而是采用Aggregator机制(Hashmap每个元素

加载全部内容

相关教程
猜你喜欢
用户评论