Spark实战(第2版) - [法]吉恩·乔治·佩林(Jean-Georges Perrin) 著

Spark实战(第2版)

[法]吉恩·乔治·佩林(Jean-Georges Perrin) 著

出版时间

2022-02-28

ISBN

9787302596783

评分

★★★★★
书籍介绍

企业数据的分析始于读取、过滤和合并来自多个数据源的文件和数据流。Spark数据处理引擎是这方面的佼佼者,可处理各种量级的数据,其传输速度比Hadoop系统快100倍。得益于SQL的支持、直观的界面和简单的多语言API,你可轻松使用Spark,而不必学习复杂的新型生态系统。

本书将引导你创建端到端分析应用程序。在本书中,你可学习基于Java的有趣示例,包括用于处理NASA卫星数据的完整数据管道。你还可查看托管在GitHub.上的有关Java、Python和Scala的代码示例,并探索、修改此代码。此外,本书的附录为你提供速查表,帮助你安装工具和理解特定的Spark术语。

主要内容

●用Java编写 的Spark应用程序

●Spark应用架构

●提取文件、数据库、数据流和Elasticsearch的数据

●使用Spark SQL查询分布式数据集

阅读门槛

本书读者不需要具备有关Spark、Scala 或Hadoop的经验。

Jean-Georges Perrin是一位经验丰富的数据和软件架构师。他是法国的第一位IBM Champion,并连续12年获奖,成为终身IBM Champion。

目录
第Ⅰ部分 通过示例讲解理论
第1章 Spark介绍 3
1.1 Spark简介及其作用 4
1.1.1 什么是Spark 4
1.1.2 Spark神力的四个支柱 5

显示全部
收藏