近几年来,Scala得到广泛运用,在数据科学和分析领域的应用更是如火如荼。基于Scala构建的大数据处理框架Spark获得广泛认可,在产品中得到大量应用。如果你想借助Scala和Spark的卓越能力来处理大数据,本书将是你的理想选择。
本书开篇介绍Scala语言,指导你更好地理解“面向对象”和“函数式编程”等在开发Spark应用时必须掌握的概念。此后转向Spark,介绍Spark的核心抽象概念,如RDD和数据帧。利用这些知识,你可更好地使用Spark SQL、GraphX和Spark结构化流等技术来分析结构化和非结构化数据,开发出具备可伸缩性和容错能力的流式应用。最后,本书探讨一些高级主题,如Spark监控、配置、调试、测试和部署等。
通过本书,你将学会用SparkR和PySpark API来开发Spark应用,用Zeppelin进行交互式数据分析,以及用Alluxio进行内存数据处理等。
在完成本书的学习后,你将全面深入地理解Spark;执行数据分析时,无论数据集有多大,你都具备完成数据分析所需的全栈知识体系。
主要内容
◆ 理解Scala的面向对象和函数式编程概念
◆ 深入理解Scala的集合API
◆ 学习RDD和数据帧等Spark核心概念
◆ 使用Spark SQL和GraphX分析结构化与非结构化数据
◆ 使用Spark结构化流来开发具备可扩展性和容错能力的流式应用
◆ 学习分类、回归、降维和推荐系统等机器学习最佳实践,以便使用Spark ML和Spark MLlib中的流行算法来建立预测模型
◆ 建立聚类模型,以便聚类大量数据
◆ 理解Spark应用的调优、调试和监控技术
◆ 使用独立服务器模式、Mesos和YARN模式在集群上部署Spark应用
Md. Rezaul Karim 是德国Fraunhofer FIT的研究学者,也是德国亚琛工业大学的博士学位研究生预科生。他拥有计算机科学的学士与硕士学位。在加盟Fraunhofer FIT之前,他曾作为研究员任职于爱尔兰的数据分析深入研究中心。更早之前,他还担任过三星电子公司全球研究中心的首席工程师;该研究中心分布于韩国、印度、越南、土耳其以及孟加拉。再早之前,他还在韩国庆熙大学的数据库实验室担任过助理研究员,在韩国的BMTech21公司担任过研发工程师,在孟加拉国的i2软件技术公司担任过软件工程师。
Karim拥有超过8年的研发领域工作经验,并在如下算法和数据结构领域具有深厚的技术背景:C/C++、Java、Scala、R、Python、Docker、Mesos、Zeppelin、Hadoop以及MapReduce,并深入学习了如下技术:Spa...