Scala和Spark大数据分析函数式编程、数据流和机器学习

Name: Scala和Spark大数据分析 函数式编程、数据流和机器学习
Availability: InStock
ISBN: 9787302551966

[德] 雷扎尔·卡里姆（Md. Rezaul Karim）

出版社

清华大学出版社

出版时间

2020-05-31

ISBN

9787302551966

评分

★★★★★

标签

工业技术

书籍介绍

近几年来，Scala得到广泛运用，在数据科学和分析领域的应用更是如火如荼。基于Scala构建的大数据处理框架Spark获得广泛认可，在产品中得到大量应用。如果你想借助Scala和Spark的卓越能力来处理大数据，本书将是你的理想选择。

本书开篇介绍Scala语言，指导你更好地理解“面向对象”和“函数式编程”等在开发Spark应用时必须掌握的概念。此后转向Spark，介绍Spark的核心抽象概念，如RDD和数据帧。利用这些知识，你可更好地使用Spark SQL、GraphX和Spark结构化流等技术来分析结构化和非结构化数据，开发出具备可伸缩性和容错能力的流式应用。最后，本书探讨一些高级主题，如Spark监控、配置、调试、测试和部署等。

通过本书，你将学会用SparkR和PySpark API来开发Spark应用，用Zeppelin进行交互式数据分析，以及用Alluxio进行内存数据处理等。

在完成本书的学习后，你将全面深入地理解Spark；执行数据分析时，无论数据集有多大，你都具备完成数据分析所需的全栈知识体系。

主要内容

◆ 理解Scala的面向对象和函数式编程概念

◆ 深入理解Scala的集合API

◆ 学习RDD和数据帧等Spark核心概念

◆ 使用Spark SQL和GraphX分析结构化与非结构化数据

◆ 使用Spark结构化流来开发具备可扩展性和容错能力的流式应用

◆ 学习分类、回归、降维和推荐系统等机器学习最佳实践，以便使用Spark ML和Spark MLlib中的流行算法来建立预测模型

◆ 建立聚类模型，以便聚类大量数据

◆ 理解Spark应用的调优、调试和监控技术

◆ 使用独立服务器模式、Mesos和YARN模式在集群上部署Spark应用

Md. Rezaul Karim 是德国Fraunhofer FIT的研究学者，也是德国亚琛工业大学的博士学位研究生预科生。他拥有计算机科学的学士与硕士学位。在加盟Fraunhofer FIT之前，他曾作为研究员任职于爱尔兰的数据分析深入研究中心。更早之前，他还担任过三星电子公司全球研究中心的首席工程师；该研究中心分布于韩国、印度、越南、土耳其以及孟加拉。再早之前，他还在韩国庆熙大学的数据库实验室担任过助理研究员，在韩国的BMTech21公司担任过研发工程师，在孟加拉国的i2软件技术公司担任过软件工程师。

Karim拥有超过8年的研发领域工作经验，并在如下算法和数据结构领域具有深厚的技术背景：C/C++、Java、Scala、R、Python、Docker、Mesos、Zeppelin、Hadoop以及MapReduce，并深入学习了如下技术：Spa...

(展开全部)

第1章 Scala简介 1

1.1 Scala的历史与设计目标 2

1.2 平台与编辑器 2

1.3 安装与创建Scala 3

1.3.1 安装Java 3

显示全部

用户评论

小半本scala手册+半本spark手册都是介绍性质的

清华大学出版社的其他书籍查看全部