声纹技术

王泉

出版时间

2020-09-01

ISBN

9787121395291

评分

★★★★★
书籍介绍
这是第一本系统性地介绍声纹识别、声纹分割聚类及声纹在语音识别、语音合成、人声分离等领域中应用的技术书。本书内容全面且紧随时代前沿,不仅涵盖了早至20世纪60年代的经典方法,而且以大量篇幅着重介绍了深度学习时代的最新技术。本书注重理论与实践的结合,除了配备大量实践案例与习题,还有专门章节介绍声纹技术在实际工程部署方面的诸多课题。 本书面向大学与研究机构的学生、教研人员,以及企事业单位从事声纹技术相关工作的工程师、架构师和产品经理等。 王泉 美国谷歌公司资深软件工程师、声纹识别与语言识别团队主管。作者毕业于清华大学自动化系,后取得美国伦斯勒理工学院计算机工程专业博士学位,曾在美国亚马逊公司参与亚马逊智能音箱语音助手Alexa的研发。在谷歌任职期间,作者带领团队将先进的声纹技术部署到了大量产品中,使得谷歌智能音箱成为市面上第一款支持多用户模式的同类产品。此外,作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别及语音合成等诸多领域拥有大量专利,发表过多篇重量级论文,并开创了监督式声纹分割聚类及声纹定向人声分离这两个新兴研究方向。作者的工作曾被VentureBeat、TechCrunch、Engadget、CNET等国际著名科技媒体专题报道。
目录
内容简介
前言
1 声纹技术的前世今生
1.1 什么是声纹

显示全部
用户评论
浅显易懂且全面,适合初入者,不至于陷入无穷的公式中
去年面试过一家做声纹的公司,主要是给公安做防诈骗方案。和指纹一样通过对比保留在系统的声纹库来判断是否是诈骗电话。这件事情的重点是,我们接打的所有电话,现在有可能都会过声纹或者NLU的模型。
写得蛮好的,网络上确实是很少能看到关于声纹识别比较全面由浅入深的书,以前在实习的时候就追了很多王泉老师的方向,乃至于对后来职业规划也产生了重要的影响。
收藏