大数据湖最佳实践 - Alex Gorelik

大数据湖最佳实践

Alex Gorelik

出版时间

2020-06-30

ISBN

9787519845902

评分

★★★★★
书籍介绍

Alex Gorelik是Waterline Data的首席技术官和创始人,也是三家初创公司的创始人。他曾经担任Informatica的数据质量部经理,负责管理公司的平台和数据集成技术。此外,他还曾是IBM杰出的工程师,也是Exeros和Acta Technology的联合创始人、首席技术官和工程副总裁。

目录
目录
前言 1
第1章 数据湖概述 7
数据湖的成熟度 9
数据水洼 11

显示全部
用户评论
关于大数据湖和商业模式的鸡生蛋问题,结论毫无疑问,先有下金蛋的鸡,有足够支撑大量数据产生和运行的商业模式,才需要大数据湖。 关于大数据湖,我想到三件事,自动化的基础设施;完善的文档和检索系统;数据的治理。需要大量人力、时间和资源的投入,所以应该是软件工程中跟传统企业管理一样那部分,重点应该放在结果。 只有决策者能够将其行为建立在数据基础上,才能体现数据的价值。 数据湖的目的就是要尽可能多的搜集原始数据,以备未来之需。提供符合用户技能的数据,保证能被找到。 查找理解数据是最耗时的,因为只有需要数据的人亲自在现场,自己理解了才有用。数据分析很大程度上是标记、分类、训练模型、特征工程是关键。 难点是数据科学项目本质上探索性的,需要大量的实验,如何证明价值。 如果原生基因就是推荐驱动的话,烦恼少一些
拍案叫绝,作者对传统企业中的数据项目所面对的政治争斗现实、业务战略考量、治理难点、组织架构疑难有着十分精到老练的把握
大概给你个概念,与历史上的ODS类似,只是换成管理文件而不是表。而新的管理手段是标签元数据,可以用在数据检索发现、数据质量和访问控制。
主要帮助从概念和体系架构层面了解大数据湖
收藏