本文从Spark的基本特点出发,借助大量例子详细介绍了如何使用Python调用Spark新特性、处理结构化及非结构化数据、使用PySpark中基本可用数据类型、生成机器学习模型、进行图像操作以及阅读串流数据等新兴技术内容。
作者:(美)托马兹·卓巴斯 作者:丹尼·李 译者:栾云杰 译者:陈瑶 译者:刘旭斌
托马兹·卓巴斯(Tomasz Drabas),微软数据科学家,他拥有超过13年的数据分析经验。托马兹每天都和大数据打交道,解决机器学习问题(如异常检测、流失预测),并使用Spark进行模式识别。丹尼·李(Denny Lee),微软Azure DocumentDB团队的首席项目经理。他是一个经验丰富的分布式系统和数据科学工程师,拥有超过18年的经验,擅长开发互联网级别基础架构、数据平台和预测分析系统(包括内部部署和云环境)。