统计学习方法(第2版)

李航

出版时间

2019-05-01

ISBN

9787302517276

评分

★★★★★

标签

编程

书籍介绍

统计学习方法即机器学习方法,是计算机及其应用领域的一门重要学科。本书分为监督学 习和无监督学习两篇,全面系统地介绍了统计学习的主要方法。包括感知机、k 近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM 算法、隐马尔可夫模型和条件随机场,以及聚类方法、奇异值分解、主成分分析、潜在语义分析、概率潜在语义分析、马尔可夫链蒙特卡罗法、潜在狄利克雷分配和 PageRank 算法等。除有关统计学习、监督学习和无监督学习的概论和总结的四章外,每章介绍一种方法。叙述力求从具体问题或实例入手, 由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。 为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。 本书是统计机器学习及相关课程的教学参考书,适用于高等院校文本数据挖掘、信息检索及自然语言处理等专业的大学生、研究生,也可供从事计算机应用相关专业的研发人员参考。

AI导读
核心看点
  • 系统涵盖感知机、SVM等监督学习及聚类、SVD等无监督学习核心算法
  • 从具体问题入手,由浅入深阐明思路,提供必要的数学推导与公式证明
  • 内容精简干练,侧重原理阐述与算法逻辑,是统计学习领域的经典教材
适合谁读
  • 具备一定数学基础,希望深入理解机器学习算法原理的计算机专业学生
  • 从事数据挖掘、信息检索及自然语言处理等领域的研发人员与工程师
  • 已掌握基础概念,需通过推导夯实理论基础并串联知识点的进阶学习者
读前提醒
  • 本书数学推导简略,建议配合Andrew Ng课程或《西瓜书》辅助理解背景
  • 切勿被密集公式吓退,建议边读边动手推导或实现算法,以加深实质理解
  • 不适合零基础入门,需具备线性代数、概率论基础,否则阅读体验较吃力
读者共识
  • 国内统计学习领域公认的经典教材,内容严谨,被誉为入门必读之作
  • 风格言简意赅,干货满满但缺乏背景故事,对初学者不够友好
  • 虽被部分读者认为过于简略,但作为查阅手册和夯实基础的工具书极佳

本导读基于书籍简介、目录、原文摘录、短评和书评生成,不等同于全文精读。

精彩摘录
  • "定理 2.1 (Novikoff) 设训练数据集 T={(𝑥₁,𝑦₁), (𝑥₂,𝑦₂), ..., (𝑥_N, 𝑦_N)} 是线性可分的, 其中 𝑥ᵢ∈𝒳=ℝⁿ, 𝑦ᵢ∈𝒴={-1,+1}, i=1,2,...,N, 则 (1) 存在满足条件 ||{\hat w}_{opt}||=1 的超平面 {\hat w}_{opt} \dot \hat x = w_opt \dot x + b_{opt} = 0 将数据集完全分开; 且存在 γ>0, 对所有 i=1,2,...,N ..."
  • "算法 2.2 (感知机学习算法的对偶形式) ... (3) 如果 y_i(\sum_{j=1}^N \alpha_j y_j x_j \dot x_i+b) \le 0, \alpha_i \leftarrow \alpha_i+\eta b \leftarrow b + \eta y_i"
  • "算法 3.3 (用 kd 树的最近邻搜索) ... (3) ... (b) 当前最近点一定存在于该节点一个子节点对应的区域. 检查该子结点的另一个子结点对应的区域是否有更近的点. 具体地, 检查另一子结点对应的区域是否与以目标点为求新, 以目标点与"当前最近点"的距离为半径的超球体相交."
  • "3.3 参照算法 3.3, 写出输出为 x 的 k 近邻的算法"
  • "Q(\theta, \theta^{i}) = E_{Z}[\log P(Y, Z|\theta)Y, \theta^{i}] = \sum_{Z}\log P(Y, Z|\theta)P(Z|Y, \theta^{i})"
  • "第2章 感知器"
  • "第3章 K近邻"
  • "第4章 朴素贝叶斯"
作者简介
李航,男,毕业于日本京都大学电气电子工程系,日本东京大学获得计算机科学博士学位。北京大学、南京大学兼职教授。曾任日本NEC公司中央研究所研究员,微软亚洲研究院高级研究员与主任研究员、华为技术有限公司诺亚方舟实验室主任。现任今日头条人工智能实验室主任。
目录
第一篇 监督学习
第二篇 无监督学习
第13章 无监督学习概论
13.1.1 无监督学习基本原理

显示全部
用户评论
特别棒,绝大部分部分内容清晰明了,还有非常丰富的扩展阅读,不过大多都是传统机器学习内容,如果再加上一本专门讲神经网络深度学习的书的话才算是把目前主流机器学习内容学全。
中式教材,不适合初学者读。所有算法都是只讲道理,不讲故事,如果不了解背景故事,真的很难明白到底这些算法能拿来干嘛。
很中国
只恨太晚看第一章
主要看了新增的无监督学习部分,说实话新增加的内容有点儿水,价格倒是涨了不少。
公式书,工具书。没有啰嗦和冗余,适合做参考,系统的学习机器学习还需要其他资料补充。另外有些新的算法没收录。
反反复复,复复反反。ml学习必备中文书籍。
国内统计学习教科书的天花板
快读完了 写得很牛
同时在看西瓜书和这本书,我自己觉得这本书更好,更能做到从简入深。但是不好的地方是难度有点高,很多地方省略了没展开,不适合本科生。
下载
收藏