书籍 数据算法的封面

数据算法

Mahmoud Parsian

出版时间

2016-09-30

ISBN

9787512395947

评分

★★★★★
书籍介绍

《数据算法:Hadoop/Spark大数据处理技巧》介绍了很多基本设计模式、优化技术和数据挖掘及机器学习解决方案,以解决生物信息学、基因组学、统计和社交网络分析等领域的很多问题。这还概要介绍了MapReduce、Hadoop和Spark。

主要内容包括:

■ 完成超大量交易的购物篮分析。

■ 数据挖掘算法(K-均值、KNN和朴素贝叶斯)。

■ 使用超大基因组数据完成DNA和RNA测序。

■ 朴素贝叶斯定理和马尔可夫链实现数据和市场预测。

■ 推荐算法和成对文档相似性。

■ 线性回归、Cox回归和皮尔逊(Pearson)相关分析。

■ 等位基因频率和DNA挖掘。

■ 社交网络分析(推荐系统、三角形计数和情感分析)。

Mahmoud Parsian,计算机科学博士,是一位热衷于实践的软件专家,作为开发人员、设计人员、架构师和作者,他有30多年的软件开发经验。目前领导着Illumina的大数据团队,在过去15年间,他主要从事Java (服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等书(均由Apress出版)。

目录
序 1
前言 3
第1章二次排序:简介 19
二次排序问题解决方案 21
MapReduce/Hadoop的二次排序解决方案 25

显示全部
用户评论
不如皮皮虾。。。
幺半群那部分最有启发
Java写的Spark程序,难看……
本书用MR的方式来讲解各类算法和场景的逻辑,再用Spark现成的高层算法接口来表达Spark如何快速实现MR中一大堆的逻辑。 亮点主要在于: 1、简述了各类算法能做什么,最基础的例子怎么做的,包括一些机器学习算法。 2、通过MR和Spark的方式,来说明现在的技术我们都可以做到什么程度,如果企业有内置一些常用“场景算法“的需求,那么也比较适合看看。 本书的后半部主要以医学案例比较多,对这个领域爱好的可以加分。 建议:作为工具书,而不是通读
后面很多基因的例子,搞生物基因的人可以看看方法,优点就是步骤很详细,缺点是干货没那么多
一本围绕基因测序和基因大数据算法的工具书,可以作为编程方案的指引,每个算法和实例都给出了Hadoop或Spark进行实现。边缘了解。过。
就是书上写的代码和下载下来的源码不一致比较头疼
Z-Library