Scala和Spark大数据分析  函数式编程、数据流和机器学习 - [德] 雷扎尔·卡里姆(Md. Rezaul Karim)

Scala和Spark大数据分析 函数式编程、数据流和机器学习

[德] 雷扎尔·卡里姆(Md. Rezaul Karim)

出版时间

2020-05-31

ISBN

9787302551966

评分

★★★★★
书籍介绍

近几年来,Scala得到广泛运用,在数据科学和分析领域的应用更是如火如荼。基于Scala构建的大数据处理框架Spark获得广泛认可,在产品中得到大量应用。如果你想借助Scala和Spark的卓越能力来处理大数据,本书将是你的理想选择。

本书开篇介绍Scala语言,指导你更好地理解“面向对象”和“函数式编程”等在开发Spark应用时必须掌握的概念。此后转向Spark,介绍Spark的核心抽象概念,如RDD和数据帧。利用这些知识,你可更好地使用Spark SQL、GraphX和Spark结构化流等技术来分析结构化和非结构化数据,开发出具备可伸缩性和容错能力的流式应用。最后,本书探讨一些高级主题,如Spark监控、配置、调试、测试和部署等。

通过本书,你将学会用SparkR和PySpark API来开发Spark应用,用Zeppelin进行交互式数据分析,以及用Alluxio进行内存数据处理等。

在完成本书的学习后,你将全面深入地理解Spark;执行数据分析时,无论数据集有多大,你都具备完成数据分析所需的全栈知识体系。

主要内容

◆ 理解Scala的面向对象和函数式编程概念

◆ 深入理解Scala的集合API

◆ 学习RDD和数据帧等Spark核心概念

◆ 使用Spark SQL和GraphX分析结构化与非结构化数据

◆ 使用Spark结构化流来开发具备可扩展性和容错能力的流式应用

◆ 学习分类、回归、降维和推荐系统等机器学习最佳实践,以便使用Spark ML和Spark MLlib中的流行算法来建立预测模型

◆ 建立聚类模型,以便聚类大量数据

◆ 理解Spark应用的调优、调试和监控技术

◆ 使用独立服务器模式、Mesos和YARN模式在集群上部署Spark应用

Md. Rezaul Karim 是德国Fraunhofer FIT的研究学者,也是德国亚琛工业大学的博士学位研究生预科生。他拥有计算机科学的学士与硕士学位。在加盟Fraunhofer FIT之前,他曾作为研究员任职于爱尔兰的数据分析深入研究中心。更早之前,他还担任过三星电子公司全球研究中心的首席工程师;该研究中心分布于韩国、印度、越南、土耳其以及孟加拉。再早之前,他还在韩国庆熙大学的数据库实验室担任过助理研究员,在韩国的BMTech21公司担任过研发工程师,在孟加拉国的i2软件技术公司担任过软件工程师。

Karim拥有超过8年的研发领域工作经验,并在如下算法和数据结构领域具有深厚的技术背景:C/C++、Java、Scala、R、Python、Docker、Mesos、Zeppelin、Hadoop以及MapReduce,并深入学习了如下技术:Spa...

(展开全部)

目录
第1章 Scala简介 1
1.1 Scala的历史与设计目标 2
1.2 平台与编辑器 2
1.3 安装与创建Scala 3
1.3.1 安装Java 3

显示全部
用户评论
小半本scala手册+半本spark手册 都是介绍性质的
收藏