MapReduce设计模式 - [美]Donald Miner

MapReduce设计模式

[美]Donald Miner

出版时间

2014-08-31

ISBN

9787115360946

评分

★★★★★
书籍介绍

MapReduce作为一种分布式海量数据处理的编程框架,已经得到业界的广泛关注。随着Hadoop的普及,MapReduce目前已经成为海量数据处理的最基础但也是最重要的方法之一。

《MapReduce设计模式》是一本关于设计模式的书,为读者提供解决问题的模板或通用指南。书中主要介绍编程模式,即如何利用MapReduce框架解决一类问题,重在提供解决问题的方法和思路。作者花大量篇幅介绍各种模式的原理及实现机制,并给出相应的应用实例,让读者对每种模式能有更直观的理解。

由于本书不会过多涉及底层框架及MapReduce API,所以希望读者阅读《MapReduce设计模式》之前,能够对Hadoop系统有所了解,知道如何编写MapReduce程序,并了解MapReduce程序框架的工作原理。《MapReduce设计模式》面向中高级MapReduce开发者,涵盖了绝大部分MapReduce编程可能面对的场景,相信初学者和专家同样可以在本书中得到一些启示。

精彩摘录
  • "After iteration, the comment lengths are sorted to find the median value. If the list has an odd number of entries, the median value is set to the middle value. If the number is even, the middle two values are averaged."
  • "Examples of θ include a minimum, maximum, average, median, and standard deviation."
  • "That is, if you can arbitrarily change the order of the values and you can group the computation arbitrarily, you can use a combiner here."
  • "A median is the numerical value separating the lower and higher halves of a data set. This requires the data set to be complete, which in turn requires it to be shuffled. The data must also be sorted, which can present a barrier because MapReduce does not sort values."
  • "Reducer code. The reducer code iterates through the given set of values and adds each value to an in-memory list."
作者简介
Donald Miner目前是EMC Greenplum的解决方案架构师,为实现与使用基于Greenplum的大数据系统的用户提供咨询和帮助。在加入Greenplum之前,Miner博士作为承包商为美国政府部署和构建了多个规模巨大且涉及关键任务的Hadoop集群。他还参与了教学,在马里兰大学巴尔的摩分校(UMBC)讲授Hadoop方面的业界前沿相关的课程以及各种人工智能课程。Miner博士在UMBC获得了计算机科学的博士学位,读博士期间他的研究主题为机器学习,博士论文的主题是多智能体系统。 Adam Shook是ClearEdge IT Solutions公司的软件工程师,从事一些大数据技术工作,如Hadoop、Accumulo、Pig以及ZooKeeper。Shook在马里兰大学巴尔的摩分校(UMBC)获得了计算机科学的学士学位,并得到了一份为游戏工作室构建一个全新的高性能图像引擎的工作。为了寻求新的挑战,他在UMBC就读研究生,主要专注的研究方向是分布式计算的相关技术。他很快找到了一份开发工作,作为美国政府承包商,从事大规模的Hadoop部署。Shook参与了Hadoop和Pig的开发及培训课程的指导。在繁忙工作的间隙他喜欢参与相关项目,玩视频游戏。
目录
第1章 设计模式与MapReduce 1
1.1 设计模式 2
1.2 MapReduce简史 3
1.3 MapReduce和Hadoop简介 4
1.4 Hadoop示例:单词计数 6

显示全部
用户评论
非常适合学习MR的入门书籍,常见的用法都讲到了。示例代码大部分都是基于2.0+的API,现在也能够使用。不过MR本身并不复杂,而且相比Hive和Pig这类高级工具开发效率低性能也不见得好很多,实际上用到的并不多
大部分内容已经知道了,读着没什么新意,入门书而已
三年了,终于看明白了什么叫mapreduce
挺不错的
印象最深的还是用 MapReduce 实现全排序、各种 Join、笛卡尔积
好东西,虽然有点老,但是里面的思想不老,鹅厂在书这方面,比阿里真是量少了不少,但是这本质量的翻译很好
大数据里的设计模式。
下载
收藏