·学习强化学习是什么,以及算法如何解决具体问题。
·掌握强化学习的基础知识,包括马尔可夫决策过程、动态规划和时间差分算法。
·深入研究一系列基于值函数和政策梯度的算法。
·应用先进的强化学习解决方案,如元学习、分层学习、多智能体、模仿学习等。
·了解最前沿的深度强化学习算法,包括Rainbow、PPO、TD3、SAC等。
·通过本书专门的配套网站获得实践代码和案例。
Phil Winder博士是一名多学科交叉的软件工程师、作家和科技顾问,同时也是温德研究所的CEO。该研究所主要提供云计算科学咨询,主营业务是帮助初创公司和大型企业改进数据流程、平台以及产品。作者于英国赫尔大学获得电子工程硕士和博士学位,现居英国约克郡。