视频理解是计算机视觉和深度学习的一个重要分支。本书对视频理解的3个重要领域进行介绍,对于每个领域,本书不仅解释了相关算法的原理,还梳理了算法演进的脉络。全书共分6章,第1章简要介绍视频行业的发展历程;第2章回顾经典图像分类模型和RNN;第3章和第4章介绍动作识别的重要算法;第5章介绍时序动作定位的重要算法;第6章介绍视频Embedding的重要算法。最后总结了常用的一些视频处理工具。
《深度学习视频理解》既适合高等院校人工智能相关专业的本科生和研究生阅读,也可供视频理解、推荐系统、搜索引擎和计算广告等领域的研究人员和从业者参考。
张皓,毕业于南京大学计算机系周志华教授领导的机器学习与数据挖掘研究所(LAMDA),导师为吴建鑫教授,研究方向为深度学习和计算机视觉,曾获国家奖学金、江苏省三好学生等荣誉。发表论文累计被引超过 190 次,合译《模式识别》一书,曾获 2016 年ECCV视频表象性格分析竞赛世界冠军。
现任腾讯在线视频研究员,专注于腾讯视频等场景下的相关视频理解任务。曾任腾讯优图实验室研究员,为“微信看一看”等场景提供相关视频理解能力。