数据挖掘与应用

张俊妮

出版时间

2009-06-01

ISBN

9787301152393

评分

★★★★★
书籍介绍
《数据挖掘与应用》全面地介绍了数据挖掘的相关主题.包括数据理解与数据准备、关联规则挖掘、多元统计中的降维方法、聚类分析、神经网络、决策树方法、模型评估等内容。全书体系完整,文字精炼,注重对数据挖掘方法的直觉理解及其应用:同时,保持了一定的严谨性,为学生理解和运用这些方法提供了坚实的基础。 《数据挖掘与应用》实例丰富,并附有相应SAS程序,以便于学生尽快理解相关内容并用以解决实际问题。 《数据挖掘与应用》配有教辅,可以免费提供给任课教师使用。如需要,欢迎填写书后的“教师反馈及课件申请表’索取。
精彩摘录
  • "数据挖掘方法论 CRISP-DM(CRoss-Industry Standard Process for Data Mining,数据挖掘的跨行业标准过程)是由Daimler Chrysler、SPSS和NCR三家机构共同发展起来的数据挖掘方法。CRISP-DM将数据挖掘分为六个阶段: 1. 业务理解,从业务角度理解项目实施的目的和要求,将这种理解转化成一个数据挖掘问题,并设计能达成目标的初步方案; 2. 数据理解,收集原始数据,熟悉它们,考察数据的质量问题,对数据形成初步的洞见。 3. 数据准备,从原始数据中构造用于建模的最终数据集,构造过程中包含观测选择和变量选择、数据转换和清理等各种活动"
  • "第二章 数据理解和数据准备 冗余变量,例如出生日期和年龄,或者单价、购买数量和总价。 数据分箱 数据分箱的适用情形 1. 某些数值自变量在测量时存在随机误差,需要对数值进行平滑以消除噪音。 2. 有些数值自变量有大量不重复的取值,对于使用<、>、=等基本操作符号的算法(如决策树)而言,如果能够减少这些不重复取值的个数,就能提高算法的速度。 3. 有些算法只能使用分类自变量,需要把数值变量离散化。 数据分箱的常用方法 无监督分箱 1. 等宽分箱:将变量的取值范围分为k个等宽的区间,每个区间当做一个分箱; 2. 等频分箱:将观测值按照从小到大的顺序排列,根据观测的个数等分为k部分,每部分当做一个分"
  • "关联规则挖掘时一种无向数据挖掘方法,它从大量数据项中需找有意义的关联方法。它的一个典型应用是市场篮分析,即分析消费者购物篮中各种商品之间的关联。“啤酒和尿布”是一个著名的成功例子。 关联规则的基本概念和Apriori算法 任何一个项集X的支持度support(X)定义为数据集D的观测中包含X的比例,等价于X的概率。 Apriori算法是最有影响力的关联规则挖掘的基础算法。它将关联规则挖掘分为两个步骤: 1. 找出所有频繁项集(支持度不小于min_sup的项集被称为频繁项集)。 2. 从频繁项集中生成所有相关联规则。"
用户评论
通俗易懂,写的很好,一本小册子兼顾了理论与应用,逻辑清晰
结合案例,这点上非常形象,知识点也很全面
对我现在而言比较难,有空再重读
从经济管理类的角度介绍数据挖掘方法,很多介绍短小精悍,很实用。但关联规则部分有错漏。好书推荐。
草草翻了前几章(后面还看不懂= =),对数据应用的理解和案例列举都很棒~只有在好的理念指导及监管下,技术手段才能尽其价值。
中国人编写的书,不值得读
下载
收藏