本书可称为语音信号处理领域最新最好的指导书和参考资料。作者在所开设的麻省理工学院研究生课程的基础上,介绍了语音信号处理的主要原理、重要应用以及最新研究动态,并且指出了新的研究方向的进展和局限性。全书在理论和应用之间达到了极好的平衡。首先讲解了用于理解离散时间语音信号处理的完整理论基础,然后介绍了语音信号处理方面的重要研究进展,其中包括正弦语音处理、语音时频分析以及非线性声学语音产生模型,而这些进展情况在以往任何一本语音信号处理教科书中都不曾提及。本书在应用部分深入介绍了以下内容:语音编码、语音增强、语音综合、说话人识别、语音降噪、语音信号恢复、动态范围压缩等。值得注意的是,在本书的原理和应用部分恰当地加入了非常完整的实例和MATLAB习题。\r\n 本书适合作为数字语音处理及相关方向的研究生教材,也可供有关领域的研究人员参考阅读。 \r\n
第1章 引言\r\n 1.1 离散时间语音信号处理\r\n 1.2 语音传输通路\r\n 1.3 基于语音产生和感知的分析与综合\r\n 1.4 应用\r\n 1.5 本书概要\r\n 1.6 小结\r\n 参考文献\r\n第2章 离散时间信号处理基础\r\n 2.1 引言\r\n 2.2 离散时间信号\r\n 2.3 离散时间系统\r\n 2.4 离散时间傅里叶变换\r\n 2.5 测不准原理\r\n 2.6 Z变换\r\n 2.7 频域LTI系统\r\n 2.8 LTI系统的特性\r\n 2.9 时变系统\r\n 2.10离散傅里叶变换\r\n 2.11连续信号和系统转换为离散时间形式\r\n 2.12 小结\r\n 习题\r\n 参考文献\r\n第3章 语音的产生与分类\r\n 3.1 引言\r\n 3.2 解剖学和生理学对发声的解释\r\n 3.3 语音的语谱图分析\r\n 3.4 语音的分类\r\n 3.5 韵律学:语音的音调\r\n 3.6 语音感知\r\n 3.7 小结\r\n 习题\r\n 参考文献\r\n第4章 语音产生的声学理论\r\n 4.1 引言\r\n 4.2 声音物理学\r\n 4.3 均匀声管模型\r\n 4.4 基于声管级联的离散时间模型\r\n 4.5 声带/声道相互作用\r\n 4.6 小结\r\n 习题\r\n 参考文献\r\n第5章 零-极点语音模型的分析与综合\r\n 5.1 引言\r\n 5.2 时间依赖处理 \r\n 5.3 确定性信号的全极点建模\r\n 5.4随机语音信号的线性预测分析\r\n 5.5 '良好度'准则\r\n 5.6 基于全极点模型的语音综合\r\n 5.7 零一极点估计\r\n 5.8 声门波导数的分解\r\n 5.9 小结\r\n 习题\r\n 参考文献\r\n第6章 同态信号处理 \r\n第7章 短时傅里叶变换分析与综合\r\n第8章 滤波器分析与综合\r\n第9章 正弦分析与综合\r\n第10章 频域基音估计\r\n第11章 非线性测量与建模技术\r\n第12章 语音编码\r\n第13章 语音增强\r\n第14章 说话人识别\r\n缩略语表
我国正处在一个研究生教育迅速发展的时期,教育质量是其能否真正起到促进社会经济发展作用的核心问题。选择和出版高质量的优秀研究生教材是解决上述核心问题的关键之一。《离散时间语音信号处理——原理与应用》一书的翻译出版正符合了这种需求。
语音是人们交流思想和进行社会活动最基本的手段,深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,对从事语音研究的科技人员是创新研究的囊中之宝,优秀的教材就是此宝的载体。美国Prentice Hall出版公司在国际数字信号处理权威、麻省理工学院的Alen V. Oppenheim教授的组织主持下,出版了27册关于信号处理的丛书,本书正是其中之一。作者Thomas F. Quatieri教授自20世纪80年代起就开始从事语音信号处理的研究,发表过许多语音、声频的增强、编码和识别方面的论文,主创了麻省理工学院的“数字语音处理”的研究生课程,在多年教学的基础上完成了此书的写作,是一部经过长期凝练的语音信号处理领域的优秀研究生教材。它的翻译出版对国内语音信号处理领域研究生的培养质量的提高将有重要的意义。
全书共分为14章,内容涉及离散时间信号处理基础、语音的产生及分类、语音产生的声学理论、零-极点语音模型的分析与综合、同态信号处理、短时傅里叶变换分析与综合、滤波器组分析与综合、正弦分析与综合、频域基音估计、非线性测量和建模技术、语音编码、语音增强和说话人识别等。全书详细讲述了涉及语音信号处理的基础理论、建模机理、算法推导、实用范例和MATLAB习题求解。内容系统深入、易于阅读、图文并茂,作为教学用书是非常出色的。更为宝贵的是,全部内容除标注文献来源之外,多数是作者自己的研究教学心得,首次在教学用书中引入。
尽管国内目前已有多本语音信号处理方面的书籍,也都成为了研究生的教学参考用书,但相比之下,此书的独到之处是:基础理论更为完整,分析过程更为深入,解释更为深入浅出,习题也更为全面丰富。书中最有特色的几个章节,如语音产生的声学理论,全极点模型的分析合成,短时傅里叶变换、滤波器组以及正弦分析与合成等正是国内书籍所薄弱的环节,因此具有重要的意义。该书的引入对语音信号处理领域教学质量的提高是大有裨益的。
语音信号处理涉及的内容很宽,包括识别与合成,论证与检索;应用面也很广,涉及多媒体与网络等。此书涵盖的是基础理论和计算原理,旨在提高分析解决问题的实践能力,作为教材这一点是非常重要的。
我相信此书的出版将对改善研究生培养质量,提高语音信号处理的科技水平,增强语音研究的创新能力,适应21世纪语音通信和语音智能处理的广泛应用和发展的要求,起到重要的推动作用。
北京交通大学信息科学研究所教授、中国电子学会常务理事、会士 袁保宗
Thomas F.Quatieri:获麻省理工学院硕士和博士学位,现为IEEE会士。麻省理工学院林肯产验室高级研究人员。长期从事语音/音频的修正、编码、增强及说话人识别领域数字信号处理方面的研究,并开设了麻省理工学院研究生课程“数字语音处理”。
译者简介:赵胜辉,北京理工大学信息科学技术学院电子工程系副教授,主要研究方向为语音信号处理和移动通信,主持参加包括国家自然科学基金、国际合作科研等在内的多个科研项目,发表学术论文20余篇。
本书内容来自于我在麻省理工学院讲授的研究生课程“数字语音处理”(我自1990年秋开始讲授该课程),也是我在麻省理工学院林肯实验室长期研究工作的结晶。这样,无论过去还是现在,原理从未远离实践,而理论与应用相伴。本书也可追溯到我童年时期对诸如信号和符号处理、声音以及技术之类事物的好奇之心。在用细绳连接两个易拉罐进行通信时,在摆弄摩尔斯式电码玩具时,在我家的地下室里怀着激动的心情操作老式业余无线电设备时,我便开始感受到那种神奇的魔力。本书的目的是向读者详细讲解离散时间语音信号处理的原理,介绍语音信号处理研究及其应用方面的最新动态,并以我本人对这个迅速发展的领域的不懈思索与兴趣来感染读者。
全书共分14章,第1章对各章内容进行了综述,第2章至第11章是本书的“理论’’部分,第12章至第14章则涵盖了语音编码、语音增强和说话人识别等应用领域。而其他应用领域,如语音修正、降噪、信号恢复和动态范围压缩等,则在第2章至第u章中穿插介绍。本书未涉及包括语音识别和语言识别在内的更广范围的领域,·若涉及这些就会成为一本语音技术总览,而即使如此也不能满足该领域目前的需求。本书的特色是不仅介绍那些语音建模和处理方法的成功之处,还指出了其局限性。这样可使读者质疑传统思想,并揭示所需的突破之处。本书一项重要的原则就是:与众不同的视角于突破而言尤为重要。这一点可从已故哲学家Thomas Kuhn那里得到印证:“发现源自对异常之关注,亦即从承认自然以其特有的方式推翻了正统科学理论所遵守的范例演绎之结果开始。”*
本书正文部分增加了大量的实例和习题。每章的习题部分都包括一些MATLAB习题,提供了语音信号及其处理方法的实践经验。这些MATLAB习题所需要的脚本、工作空间以及信号位于我在PrenticeHall的关联网站(http://www,phptr,com/quatieri/)上。在这个网站上还有声音演示,具体说明了各章中的原理和应用。本书中未单独作为一章介绍的应用则以实例或习题的形式出现,如采用正弦模型的说话人分离,以及应用同态处理实现的旧录音唱片恢复。我在麻省理工学院讲授语音处理课时,发现这种方法非常有效,特别是这些实例和习题都是关于理论的引人人胜的展示,并可由此一窥应用方面的最新动态。
本书的安排也使得这些内容可以不同的深度和广度进行讲授。例如,一学期的离散时间语音信号处理课程可将重点放在第2章至第9章的基础部分,若要看重讲解语音编码,则可包括第12章,而以其他应用作为实例和习题。如果是两学期的课程,则第一学期讲授第2章至第9章,将基础部分深入介绍;第二学期主要介绍第10章至第14章的理论与应用,并增加语音识别方面的辅助内容。在这里我要衷心感谢我的同事、朋友和学生,是他们审阅了原稿的一些章节,并就章节的选题和风格进行了讨论。他们是:WaltAndrews,CarlosAvendano,JoeCampbell,MarkClements,Jody和Michael Crocetta,Ron Danisewicz,Bob Dunn,Carol Epsy-Wilson,Allen Gersho,TenVGleason,Ben Gold,MikeGoodwin,Siddharmn Govindasamy,Charles Jankowski,MarkKalⅡS,JimKemerling,GemotKubin,PeffosMaragos,RichMcGowen,MichaelPadilla,JimPitton,MikePlumpe,LarryRabiner,DougReynolds,DanSinder,ElliotSinger,DougSturim,CharlieTherrien,LisaYanguas。此外,我还要感谢在我研究生课上的学生,他们对我的语音处理课程讲义提出了许多建设性意见;还有我的助教Babak Azifar,Ibrahim Haijahmad,Tim Hazen,Hanfeng Yuan和XiaochunYang,他们在习题解答和课程反馈等方面给予了很大帮助。不能忘记GaryKopec和TomHanna,他们既为我的同事亦是朋友,我感激他们对我的鼓励和影响,这些已凝聚于本书中。
特别感谢Jim Kaiser,他以其特有的一丝不苟和无可挑剔的认真细致几乎审阅了全部内容,并且因其出色的工作和非凡的创造力成为我效仿的对象,激励我完成本书的写作;感谢BobMcAulay,我们一起并肩工作多年,充满战斗力且硕果累累,而合作的研究成果为本书第9章、第10章以及第12章中正弦分析与合成及其应用中的一部分奠定了基础;同样要感谢Ham_idNawab和Rob Bax~r,前者与我在20世纪80年代早期富于成果的工作促成了第7章的内容,后者与我富于启发性的讨论则对第11章中的时频分布部339极大影响。另外,我对下列麻省理工学院林肯实验室的管理人员深表谢意:CliffWeinstein,MarcZissman,JerryO'Leary,A1McLaughlin和PeterBlankenship。是他们给予了我在麻省理工学院执教、在林肯实验室开展研究工作的机会,并提供了一个令人兴奋和开放的研究环境。我也非常幸运地得到了A10ppenheim的大力支持,他为我在麻省理工学院电气工程系与计算机科学系的执教铺平了道路,提出了写作本书的建议,并一直鼓励我在数字信号处理方面的工作。还要感谢执行编辑FayeGemmellaro、出版商Bema~Goodwin以及PrenticeHall出版社的其他人员,他们的关心和辛勤工作是本书质量的重要保证。
最后,我要向我的妻子Linda表示我最深的谢意,她的爱、支持与鼓励对于这样一项工作来说是不可或缺的,她使这一切具有意义。
Thomas F Quatieri
麻省理工学院林肯实验室(D