Spark机器学习

[美] 亚历克斯·特列斯 等

出版时间

2018-06-01

ISBN

9787111598466

评分

★★★★★
书籍介绍

作为一名具有机器学习和统计背景的开发人员,你是否感受到了当前缓慢的“小数据”机器学习工具的限制?那么本书就是为你而写!在本书中,你将会使用Spark创建可扩展的机器学习应用,为现代的数据驱动业务提供支持。

本书从MLlib和H2O库定义的机器学习原语开始,你将学到如何使用二分类检测由CERN粒子对撞机产生的大量数据中的希格斯波色子,并使用多元分类的集成方法对日常身体活动进行分类。接下来,你将解决一个涉及航班延误预测的典型回归问题,并编写复杂的Spark流水线。你将在doc2vec算法和K-means聚类的帮助下分析Twitter数据。后,你将会使用MLlib构建不同的模式挖掘模型,使用Spark和Spark SQL对DataFrame进行复杂的操作,并在Spark Streaming环境中部署你的应用。

Max Pumperla is a data scientist and engineer specialising in deep learning and its applications. He currently works as a deep learning engineer at Skymind and is a co-founder of aetros.com. Max is author and maintainer of several Python packages, including elephas, a distributed deep learning library using Spark. His open source footprint includes contributions to many popular...

(展开全部)

目录
译者序
关于作者
前言
第1章 大规模机器学习和Spark入门 1
1.1 数据科学 2

显示全部
收藏