Spark高级数据分析 - [美] Sandy Ryza

Spark高级数据分析

[美] Sandy Ryza

出版时间

2015-11-01

ISBN

9787115404749

评分

★★★★★

标签

计算机

书籍介绍

本书是使用Spark进行大规模数据分析的实战宝典,由著名大数据公司Cloudera的数据科学家撰写。四位作者首先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个最常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。

目录
推荐序  ix
译者序  xi
序  xiii
前言  xv
第1章 大数据分析  1

显示全部
用户评论
案例还行
基于spark做数据挖掘的很多样例,但是spark在大多数场景真的不好用
写的还兼顾的基础知识不太好, 应该假设看过那本基础的. 感觉这种应用类的看书总觉太啰嗦太慢, 还是直接 源码+注释好些.
都读成没用的旧书了
每一篇文章可以看成作者对这一主题的研究. 点到为止的基本概念, 具有实操性的例子. 对数据分析,连引用的数据集也是基于现实世界. 内容满分. 这种写作方式也满分
08.17 remove
数据分析入门读物
介绍了不少基于spark的高级数据处理分析技能,know some unknown unknowns:Mllib矩阵分解法实现推荐算法,决策树,奇异值分解,kmeans聚类算法,特征工程tfidf,图算法联通图、小世界顶点三角计数(局部聚类系数)、pregel基于GraphX,地理空间数据,会话分析基于二级排序等——小世界网络,1⃣️大部分节点度不高2⃣️顶点之间路径长度是短的。第一个基于节点的三角计数和度,第二个基于GraphX的pregel通信模型实现任意两个节点之间最短路径。
下载
收藏