大数据日知录

张俊林

出版时间

2014-09-01

ISBN

9787121241536

评分

★★★★★
书籍介绍

大数据是当前最为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为最明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。

《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术分支在内的大数据处理等几个大的方向。通过这种体系化的知识梳理与讲解,相信对于读者整体和系统地了解、吸收和掌握相关的优秀技术有极大的帮助与促进作用。

《大数据日知录:架构与算法》的读者对象包括对NoSQL 系统及大数据处理感兴趣的所有技术人员,以及有志于投身到大数据处理方向从事架构师、算法工程师、数据科学家等相关职业的在校本科生及研究生。

精彩摘录
  • "在 Mapreduce框架之上,Oryx中间层实现了最常见的一些分类和聚类算法,具体而言,包括用于协同过滤的ALS变体算法、用于分类的随机决策森林( Random Decision Forests)算法和用于聚类的k means++算法"
  • "最终一致性是一种弱一致性。因为在分布式环境下,为了达到高可用性,同一份数据通常会被存储到多个机器节点。而不同进程可能操作数据的不同备份,当某进程对数据做了更新后,需要一定时间来将这个新数值传播到数据的所有其他备份中,而这个时间区间就是上述的“不一致窗口”。不一致窗口的时间长短取决于很多因素,比如各份数据的个数,网络传输延迟速度,系统负载大小等。"
作者简介
张俊林是技术书籍《这就是搜索引擎:核心技术详解》(该书荣获全国第十二届输出版优秀图书奖)的作者,目前担任畅捷通智能平台总监。在此之前,张俊林曾经在阿里巴巴搜索技术中心、百度商务搜索部凤巢广告平台以及新浪微博搜索部及数据系统部担任资深技术专家,新浪微博技术委员会成员,负责算法策略方向。他还曾是智能信息聚合网站“玩聚网”的联合创始人之一。他的研发兴趣集中在:搜索技术、推荐系统、社交挖掘、自然语言处理与大数据算法架构等方面,并在以上领域有多年工业界实践经验。 张俊林本科毕业于天津大学管理学院,1999年至2004年在中科院软件所直接攻读博士学位,研究方向是信息检索理论与自然语言处理,就学期间曾在ACL/COLING/IJCNLP等国际顶级会议发表多篇学术论文,另外,他在此期间领导设计的搜索系统曾在美国国防部DARPA主持的TREC第二届高精度检索系统评测中在17支国际高水平研究团队激烈竞争中胜出,并取得综合排名第一名的优异成绩。
目录
第0 章 当谈论大数据时我们在谈什么................ 1
0.1 大数据是什么.......................... 2
0.2 大数据之翼:技术范型转换......................................... 4
0.3 大数据商业炼金术................................ 6
0.4 “大数据”在路上................................................... 7

显示全部
用户评论
花了整个周末的时间把书全部过了一遍,算是不错的导引类书籍了,尤其前面写的非常好(尤其是数据结构那章)。缺点在于深度不够...
大略翻了翻,我只玩TB级的数据。
在知识广度方面无出其右了。这么多概念自己整理要费极大功夫。有人帮你系统梳理如此庞大的知识体系是件很爽的事情,堪比大保健。
大杂烩,入个门。
书名和内容其实不太一致,其实不是在讲大数据,整体来说,作为分布式系统和分布式机器学习的一个survey还是很好的,能够结合现实的开源软件来落地讲解,这点不错。不过毛病是老爱搞太多的文绉绉的数学推导,没做到用容易理解的语言来重新描述,而且所讲内容不够深入。
内容挺不错的,不过是14年的书了。作者知识广度上真的6啊。
凌乱不堪,杂乱无章,毫无诚意。阿里不亏是以欺骗和pua出名。
俊林老师一贯风格,通俗易懂。
没事翻翻,可还行。
只能看懂前3章和章首的诗
下载
收藏