本书基于Spark 2.4.x最新版本编写，涵盖当前整个Spark生态系统主流的大数据开发技术。全书共9章，第1章讲解Scala语言的基础知识，包括IDEA工具的使用等；第2章讲解Spark的主要组件、集群架构原理、集群环境搭建以及Spark应用程序的提交和运行；第3~9章讲解离线计算框架Spark RDD、Spark SQL和实时计算框架Kafka、Spark Streaming、Structured Streaming以及图计算框架GraphX等的基础知识、架构原理，同时包括常用Shell命令、API操作、内核源码剖析，并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、HBase、Kafka的整合操作。本书可适合Spark开发新手阅读，也可作为大数据开发人员及大数据从业者参考，同时，也可作为大专院校大数据专业的教学用书（可以索取PPT课件）。

Spark大数据分析实战