Pattern Classification

Name: Pattern Classification
Availability: InStock
Rating: 8.8 (121 reviews)
ISBN: 9780471056690

Richard O. Duda, Peter E. Hart, David G. Stork

出版社

Wiley-Interscience

出版时间

2000-11-01

ISBN

9780471056690

评分

★★★★★

标签

模式识别机器学习人工智能 pattern-classification

书籍介绍

The first edition, published in 1973, has become a classic reference in the field. Now with the second edition, readers will find information on key new topics such as neural networks and statistical pattern recognition, the theory of machine learning, and the theory of invariances. Also included are worked examples, comparisons between different methods, extensive graphics, expanded exercises and computer project topics. An Instructor's Manual presenting detailed solutions to all the problems in the book is available from the Wiley editorial department.

AI导读

核心看点

模式识别领域经典教材，涵盖统计与机器学习理论
深入讲解最大似然与贝叶斯估计，对比两种参数估计方法
详述降维技术如主成分分析，强调分类判别而非表达

适合谁读

具备扎实数学基础的模式识别与人工智能专业学生
希望系统构建机器学习理论框架的研究生及科研人员
对统计学习理论有深入兴趣且不怕推导的进阶读者

读前提醒

务必配合官方勘误表阅读，避免被书中印刷错误误导
不建议零基础自学，最好有导师引导或结合课程学习
重点研读示例与习题，公式推导分散需耐心对照前后文

读者共识

内容经典权威但难度极高，数学要求严苛劝退初学者
知识点分布较散且难度非线性递增，不适合顺序通读
图表直观清晰，但部分理论过时，需结合现代方法看

本导读基于书籍简介、目录、原文摘录、短评和书评生成，不等同于全文精读。

精彩摘录

"最大似然估计（和其他类似方法）把待估计的参数看作是确定性的量，只是其取值未知。最佳估计就是使得产生已观测到的样本（即训练样本）的概率为最大的那个值。与此不同的是，贝叶斯估计则把待估计的参数看成是符合某种先验分布的随机变量。对样本进行观测的过程，就是把先验概率密度转化为后验概率密度，这样就利用样本的信息修正了对参数的初始估计值。"
"参数估计问题是统计学中的经典问题，并且已经有了一些具体的解决方法。这里我们将主要讨论两种最常用和很有效的方法，也就是：最大似然估计和贝叶斯估计。"
"最大似然估计把待估计的参数看作是确定性的量，只是其取值未知。最佳估计就是使得产生已观测到的样本（即训练样本）的概率为最大的那个值。与此不同的是，贝叶斯估计则是把待估计的参数看成是符合某种先验概率分布的随机变量。对样本进行观测的过程，就是把先验概率密度转化为后验概率密度，这样就利用样本的信息修正了对参数的初始估计值。在贝叶斯估计中，一个典型的效果就是，每得到新的观测样本，都使得后验概率密度函数变得更加尖锐，使其在待估参数的真实值附近形成最大的尖峰。这个现象就称为“贝叶斯学习”过程。"
"That is to say, the production representation may be the “best” representation for classification."
"一种处理过多的维数是采用组合特征的方法来降低维数，对几个特征作线性组合是一种特别具有吸引力的方法，因为线性组合容易计算并且能够进行解析分析，从本质上来说线性方法是将高维的数据投影的低维空间中。经典的寻找有效的线性变换的方法有两种。其一是主成分分析方法（principal component analysis），这一方法的目的是寻找在最小均方意义下最能够代表原始数据的对应方法。另一种方法为多重判别分析，这一方法的目的是寻找在最小均方意义下最能够分开各类数据的统计方法。<"
"正态分布与熵之间有着密切的关系。... 熵是一个非负的量，用来描述从一种分布中随机选取的样本点值的不确定性。可以证明正态分布在所有具有给定的均值和方差的分布中具有最大熵。并且，由中心极限定理所述，大量小的、独立的随机分布的总和等效为一高斯分布。由于所有模式——从鱼到手写字符、到某些语音——都可以看成是由大量随机过程所组成的某个理想的或原型模式，对于实际的概率分布而言，高斯分布通常是一种好的模型。"
"特征空间中的一个线性变换将一个任意正态分布变换成另一个正态分布。"
"如果以模式分类作为目的，那么对我们讨论过的各种降维方法的批评中最严厉的就是它们过于关心数据的精确表示了。过多强调那些具有很大变化范围的特征组合。对分类问题来说，我们感兴趣的是判别能力而不是表达能力。虽然大家公认理想的表达肯定会使得分类非常简单，但是还不清楚不用明显分类准则的聚类是否能找到这种理想的表达。"