Hadoop构建数据仓库实践

王雪迎

出版时间

2017-07-01

ISBN

9787302469803

评分

★★★★★
书籍介绍
本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库,将传统数据仓库建模与SQL开发的简单性与大数据技术相结合,快速、高效地建立可扩展的数据仓库及其应用系统。 本书内容包括数据仓库、Hadoop及其生态圈的相关概念,使用Sqoop从关系数据库全量或增量抽取数据,使用HIVE进行数据转换和装载处理,使用Oozie调度作业周期性执行,使用Impala进行快速联机数据分析,使用Hue将数据可视化,以及数据仓库中的渐变维(SCD)、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。 本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员,也适合高等院校和培训机构相关专业的师生教学参考。 王雪迎,毕业于中国地质大学计算机专业,高级工程师,拥有20年数据库、数据仓库相关技术经验。曾先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司,担任DBA、数据架构师等职位。
目录
作者简介
内容简介
前言
第1章 ◄数据仓库简介►
1.1 什么是数据仓库

显示全部
用户评论
不错的入门书
入门
总体比较基础,比较适合刚入行的小伙伴。
算是国内相关书籍中写的不错的一本了
适合有一些大数据技术基础但没有大数据实际项目经验的读者,数据仓库和维度表事实表等相关概念还是比较有用的。
前两章对概念讲解还不错,可惜没有数仓分层的介绍,一度让人怀疑作者到底懂不懂数仓;第三章开始帮我复习了 CAP 原理,了解了其它三种没迪奥用的 CDC 技术,其它 Hadoop 相关的就比较水了,跟数仓没有直接关系可以浓缩一章讲完;每一章都有个小节帮助快速浏览,不错。
总结:怀疑评分里水军占绝大多数,建议看看这本书的差评内容!细看前30%,后面的内容快速翻看,结论是内容完全不符预期,体现在以下几个方面: 1. 概念性知识教科书式的啰嗦阐述,明明一个图再加一些流程描述能说清楚的东西,强行纯文字表述,可读性差而且还讲得很浅,还不如看两篇博客通透,看着就觉得在浪费时间 2. 通篇贴SQL和讲安装,水得要死,本以为是更加企业级的数仓构建实践,结果一大堆工具安装使用介绍在堆砌,看不到一个相对完整连贯的企业级实践案例 3. 这是我的第一本数仓相关书,当初冲着它比较体系的目录买下来,本以为知识很系统评价也不错,实际看下来基本没有收获。要不就是我预期过高,要不就是我的自己没耐心看内容细节,要不就是这本书真的很烂吧
hadoop搭建数据仓库的完整实践
下载
收藏