强化学习(第2版) - 【加】Richard S. Sutton(理查德·桑顿)

强化学习(第2版)

【加】Richard S. Sutton(理查德·桑顿)

出版时间

2019-08-31

ISBN

9787121295164

评分

★★★★★

标签

算法

书籍介绍

《强化学习(第2版)》作为强化学习思想的深度解剖之作,被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发,深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法,并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。

《强化学习(第2版)》适合所有对强化学习感兴趣的读者阅读、收藏。

AI导读
核心看点
  • 强化学习领域奠基性经典教材,系统阐述RL基础理论与核心算法。
  • 涵盖马尔可夫决策过程、动态规划、蒙特卡洛及时序差分等关键方法。
  • 第二版更新大量最新进展,深入解析同轨离轨策略及算法细节。
适合谁读
  • 人工智能与机器学习领域的学生、研究人员及算法工程师。
  • 希望系统掌握强化学习数学基础与建模过程的初学者。
  • 具备一定数理基础,愿意挑战专业教材并配合代码实践的读者。
读前提醒
  • 中文版翻译质量争议较大,建议优先阅读英文原版或中英对照。
  • 书中数学推导严谨,建议配合在线课程或开源代码辅助理解。
  • 部分术语翻译生硬,需对照英文原文以避免概念误解。
读者共识
  • 公认强化学习入门必读神书,理论深度与广度兼具。
  • 中文译本被普遍诟病翻译生硬、错误多,不推荐单独购买。
  • 适合打基础,但需结合实践与英文资料以克服阅读障碍。

本导读基于书籍简介、目录、原文摘录、短评和书评生成,不等同于全文精读。

精彩摘录
  • "Newcomers to reinforcement learning are sometimes surprised that the rewards -- which define of the goal of learning -- are computed in the environment rather than in the agent. Certainly most ultimate goals for animals are recognized by computations occuring inside their body: by sensors for recogn"
  • "例5.5 普通重要度采样的估计的方差通常是无穷的,尤其当缩放过的回报值具有无穷的方差时,其收敛性往往不尽人意,而这种现象在带环的序列轨迹中进行离轨策略学习时很容易发生 引自章节:5.5 基于重要度采样的离轨策略 101"
  • "而当行动策略是随机的且具有试探性时(例如可以使用epsinon-贪心策略),这个策略会成为一个确定性的最优策略"
  • "Electrical stimulation not only energized the rats’ behavior—through dopamine’s effect on motivation—it also led to the rats quickly learning to stimulate themselves by pressing a lever, which they would do frequently for long periods of time."
  • "The reward prediction error hypothesis of dopamine neuron activity was proposed by scientists who recognized striking parallels between the behavior of TD errors and the activity of neurons that produce dopamine, a neurotransmitter essential in mammals for reward-related learning and behavior. Exper"
  • "A conspicuous feature of the dopamine system is that fibers releasing dopamine project widely to multiple parts of the brain. Although it is likely that only some populations of dopamine neurons broadcast the same reinforcement signal, if this signal reaches the synapses of many neurons involved in "
作者简介
作者简介 Richard Sutton(理查德•萨顿) 埃德蒙顿 DeepMind 公司的杰出科学家,阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学,2017年加入DeepMind。之前,曾在美国电话电报公司(AT&T)和通用电话电子公司(GTE)实验室工作,在马萨诸塞大学做学术研究。 1978年获得斯坦福大学心理学学士学位,1984年获得马萨诸塞大学计算机科学博士学位,加拿大皇家学会院士和人工智能促进会的会士。 主要研究兴趣是在决策者与环境相互作用时所面临的学习问题,他认为这是智能的核心问题。其他研究兴趣有:动物学习心理学、联结主义网络,以及能够不断学习和改进环境表征和环境模型的系统。 他的科学出版物被引用超过7万次。 他也是一名自由主义者,国际象棋选手和癌症幸存者。 Andrew Barto (安德鲁•巴图) 马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。1970年获得密歇根大学数学专业的杰出学士学位,并于1975年获该校计算机科学专业的博士学位。1977年他加入马萨诸塞州阿默斯特大学计算机科学系。在2012年退休之前,他带领了马萨诸塞大学的自主学习实验室,该实验室培养了许多著名的机器学习研究者。 目前担任Neural Computation (《神经计算》)期刊的副主编,Journal of Machine Learning Research (《机器学习研究》)期刊的顾问委员会成员,以及Adaptive Behavior (《自适应行为》)期刊的编委员会成员。 他是美国科学促进会的会员,IEEE(国际电子电气工程师协会)的终身会士(Life Fellow),也是神经科学学会的成员。 2004年,因强化学习领域的贡献荣获IEEE神经网络学会先锋奖,并因在强化学习理论和应用方面的开创、富有影响力的研究获得 IJCAI-17卓越研究奖;2019年获得马萨诸塞大学神经科学终身成就奖。 他在各类期刊、会议和研讨会上发表了100多篇论文,参与撰写多部图书的相关章节。 译者简介 俞凯 上海交通大学计算科学与工程系教授,思必驰公司创始人、首席科学家。清华大学自动化系本科、硕士,剑桥大学工程系博士。青年千人,国家自然科学基金委优青,上海市“东方学者”特聘教授。IEEE 高级会员,现任 IEEE Speech and Language Processing Technical Committee 委员,中国人工智能产业发展联盟学术和知识产权组组长,中国计算机学会语音对话及听觉专业组副主任。 长期从事交互式人工智能,尤其是智能语音及自然语言处理的研究和产业化工作。发表国际期刊和会议论文 150 余篇,获得Computer Speech and Language, Speech Communication 等多个国际期刊及InterSpeech等国际会议的最优论文奖,所搭建的工程系统曾获美国国家标准局语音识别评测冠军,对话系统国际研究挑战赛冠军等。 获评2014“吴文俊人工智能科学技术奖”进步奖,“2016科学中国人年度人物”,2018中国计算机学会“青竹奖”。
目录
第1章 导论 1
1.1 强化学习 1
1.2 示例 4
1.3 强化学习要素 5
1.4 局限性与适用范围 7

显示全部
用户评论
tag:不太适合初学者阅读,里面有很多的数学基础和概率原理没有讲,需要很强的概统基础才能理解其中模型的原理。还有许多翻译既冗杂又很令人费解,整本书看下来磕磕绊绊挺多的,就像高赞说的,应该又是某个导师让手下的研究生用谷歌翻译出来的。不过整体而言,原版确实是本好书。模型方面总结的很全面。最后建议有概统基础的同学看原版。
力荐,这种书还是中英对照着看好,强化学习本来就难懂,硬上英文版更是难上加难。最好配合GitHub上代码来一起研究
属于是入门书了……如果有特殊需要的话安利一波,数理基础薄鶸如我也可以看。
死磕
宅家不便,买了这本“译著”。又是一本老师拿项目组里同学一人一章谷歌翻译的大作。生硬翻译以至含义扭曲,大量字符、编号错误,甚至还有LaTeX未编译完成出现的“??”。劝各位不要读这个译本,尽量读原版吧。
相比于看英文版,读此中文版并不能提高阅读效率,翻译生硬甚至是有歧义的,还需要对照英文才能弄懂原著作者的意思。就这个翻译质量,中文纸质版定价168人民币,非常不推荐购买!
这本书简直就是在侮辱原著的用心,机翻太过于明显,不负责任,圈钱呗。
这本书是我见过最不负责任的翻译。俞凯要出来道歉,出版社要出来道歉,不负责任糟蹋经典。不但是机翻,而且意思南辕北辙。没买的不用浪费钱,买了的不用浪费时间。
下载
收藏