数据挖掘导论（英文版）

Name: 数据挖掘导论 （英文版）
Availability: InStock
Rating: 8.7 (40 reviews)
ISBN: 9787115141446

[美] Pang-Ning Tan

出版社

人民邮电出版社

出版时间

2005-12-31

ISBN

9787115141446

评分

★★★★★

标签

计算机

书籍介绍

《数据挖掘导论》(英文版)对数据挖掘进行了全面介绍，旨在为读者提供将数据挖掘应用于实际问题所必需的知识。《数据挖掘导论》(英文版)涵盖五个主题：数据、分类、关联分析、聚类和异常检测。除异常检测外，每个主题都有两章：前面一章讲述基本概念、代表性算法和评估技术，而后面一章较深入地讨论高级概念和算法。目的是在使读者透彻地理解数据挖掘基础的同时，还能了解更多重要的高级主题。此外，书中还提供了大量例子、图表和习题。

精彩摘录

"data mining is an integral part of knowledge discovery in databases(KDD), which is the overall process of converting raw data into useful information"
"精度通常用值集合的标准差度量"
"例27 澳大利亚降水量"
"设x和y是两个点，其中y是原来的点，而x是它的某个失真或近似，例如，x可能是由于添加了一些随机噪声到y上而产生的。损失函数的目的是度量用x近似y导致的失真或损失。当然，x和y越类似，失真或损失就越小，因而Bregman散度可以用作相异性函数。"
"是一个函数与该函数线性近似之差"
"像最近邻这样的消极学习方法不需要建立模型，然而，分类测试样例的开销很大，因为需要逐个计算测试样例和训练样例之间的相似度。最近邻分类器基于局部信息进行预测，而决策树和基于规则的分类器试图找到一个拟合整个输入空间的全局模型。正式因为这样的局部分类决策，最近邻分类器（k很小时）对噪声非常敏感。最近邻分类器可以生成任意形状的决策边界，这样的决策边界与决策树和基于规则的分类器通常所局限的直线决策边界相比，能提供更灵活的模型表示。除非采用适当的临近性度量和数据预处理，否则最近邻分类器可能做出错误的决策。"
"数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。并非所有的信息发现任务都被视为数据挖掘。"
"数据挖掘任务分为预测任务和描述任务两大类。预测任务的目标是根据其他属性的值，预测特定属性的值。描述任务的目标是导出概述数据中潜在联系的模式（相关、趋势、聚类、轨迹和异常）。"