Apache Spark大数据分析 基于Azure Databricks云平台 - [瑞典]罗伯特·伊利杰森(Robert Ilijason)

Apache Spark大数据分析 基于Azure Databricks云平台

[瑞典]罗伯特·伊利杰森(Robert Ilijason)

出版时间

2023-05-01

ISBN

9787115614568

评分

★★★★★
书籍介绍

Azure Databricks是一款基于云的大数据分析和机器学习平台,用于实现基于Apache Spark的数据处理,为快速增长的海量数据的处理和决策需求分析提供了良好的支撑。《Apache Spark大数据分析:基于Azure Databricks云平台》详细介绍基于Azure Databricks云平台来使用Apache Spark完成大规模数据处理和分析的方法。本书总计11章,首先介绍大规模数据分析相关的概念;然后介绍受管的Spark及其与Databricks的关系,以及Databricks的版本差异和使用方法(涵盖工作区、集群、笔记本、Databricks文件系统、数据导入/导出等内容);接着介绍使用SQL和Python分别实现数据分析的过程,数据提取、变换、加载、存储、优化技巧等高阶数据处理方法以及外部连接工具、生产环境集成等内容;最后探讨了运行机器学习算法、合并数据更新以及通过API运行Databricks、Delta流处理等高阶主题。

作为数据分析领域的入门书,本书具有很强的实用性,可供数据工程师、数据分析师和决策分析人员等学习和参考。

罗伯特•伊利杰森(Robert Ilijason),商务智能领域深耕20年的战场老兵,曾担任过欧洲一些大公司的外包人,并在零售、电信、银行、政府机构等领域做过大规模数据分析项目。多年来,数据分析领域的各种风尚潮起潮落,但他深信云端Apache Spark(尤其是与Databricks一起)与众不同,将是游戏规则的改变者。

目录
第1章 大规模数据分析简介 1
1.1 宣传中的数据分析 1
1.2 现实中的数据分析 2
1.3 大规模数据分析 3
1.4 数据—分析中的燃料 5

显示全部
用户评论
AzureDatabricks数据分析实用教程,揭示在云端执行大规模集群数据分析的做法,轻松学会如何低成本有效地获取数据中的高价值。
当作databricks的入门的参考手册随便翻了翻,有些帮助。
收藏