语音处理——综合性的新兴学科
语音合成——教计算机学会说话
语音识别——让计算机听懂人类语言
语音编码——去除冗余压缩数据
本书综合介绍了现代语音处理的研究与进展。内容包括语音学基础、方法及应用,是一本论述现代语音处理的专著。 全书共分8章。第1章概述语音处理研究的问题和方向:第2章介绍数字信号处理和语音信号处理基础。第3章从工程的角度出发简单介绍了语音基础知识和语料库有关内容;第4章介绍语音编码的算法和国际标准;第5章介绍语音合成的原理和文语转换系统;第6章介绍语音识别基础;第7章介绍可视语音和汉语视位;第8章介绍典型语音系统及其应用。语音信号处理是计算机应用的重要研究方向。本书主要介绍语音信号处理的基础知识以及相关的新方法和新技术。
本书内容精心挑选,叙述深入浅出、基础理论和实际应用并重。本书可供语音处理和相关学科的研究生和本科生作为教材,也可作为研究人员和工程技术人员的参考书。
第1章 绪论
1.1 言语过程
1.2 语音技术的研究范围
1.3 数字信号处理与数字语音信号处理
第2章 语音信号处理基础
2.1 数字信号处理基础
2.1.1 离散时间信号与系统
2.1.2 离散傅立叶变换
2.1.3 Z变换
2.1.4 离散余弦变换
2.1.5 卷积和滤波
2.2 语音信号产生模型
2.2.1 语音的产生机理
2.2.2 级联声管模型
2.2.3 语音生成模型
2.3 语音信号的时域处理
2.3.1 语音信号的抽样和量化
2.3.2 语音信号的短时分析和预处理
2.3.3 短时能量.短时平均幅度和短时平均过零率
2.3.4 语音的端点检测
2.3.5 短时自相关函数
2.3.6 短时基音周期估计
2.4 语音信号的频谱分析
2.4.1 短时傅立叶变换和语谱图
2.4.2 同态信号处理的基本原理
2.4.3 复倒谱和倒谱
2.5 语音信号的线性预测编码分析
2.5.1 线性预测的基本原理
2.5.2 线性预测方程组的解法
2.5.3 线谱对参数
2.6 语音信号的矢量量化
2.6.1 矢量量化的基本原理
2.6.2 失真测度
2.6.3 量化器和码本的设计
2.6.4 量化系统的复杂度控制
2.7 听觉特性和语音感知
2.7.1 听阈与听域
2.7.2 音调(pitch)
2.7.3 向度级.响度与遮掩效应
第3章 语音基础知识与语料库
3.1 语音基础知识
3.1.1 国际音标
3.1.2 音素的分类和特点
3.2 汉语的特点
3.2.1 汉语拼音方案
3.2.2 汉语音素及其分类
3.3 汉语的音节
3.4 汉语的声调
3.4.1 汉语的声调的特点
3.4.2 声调的标记
3.4.3 声调的声学特性
3.4.4 动态声调
3.5 汉语的语调
3.5.1 关于语调
3.5.2 语调的模式
3.6 语音语料库
3.6.1 概述
3.6.2 语音语料库的设计与建设
3.6.3 TIMIT
3.7 基于语料库的语音学研究
3.7.1 声学参数的统计分析
3.7.2 音节聚类研究
3.7.3 音域模型初探
第4章 语音编码
4.1 语音编码基础
4.1.1 信息论基础
4.1.2 语音编码分类
4.1.3 语音编码与其他语音处理领域
4.2 语音编码的评价方法和依据
4.2.1 语音编码的评价方法
4.2.2 语音编码的评价依据
4.3 波形编码及其国际标准
4.3.1 标量量化
4.3.2 瞬时压扩
4.3.3 自适应差值脉冲编码
4.3.4 G.721-32kbps自适应差值脉冲编码调制(ADPCM)
4.4 参数编码与混合编码
4.4.1 编码参数及其量化
4.4.2 LPC-10声码器
4.4.3 编码结构的改进
4.4.4 低延时CELP16kbps语音编码标准
4.4.5 G.723.1 X7.速率多媒体通信传输语音编码器
4.5 码本设计与生成
4.5.1 G.728激励码本
4.5.2 G.729激励码本
4.6 感知编码
4.6.1 感知编码原理
4.6.2 感知编码算法
第5章 语音合成
5.1 语音合成研究的历史和现状
5.2 语音合成方法
5.2.1 共振峰合成
5.2.2 波形拼接合成
5.3 TTS系统的文本分析和韵律预测
5.3.1 文本分析概述
5.3.2 文档结构分析
5.3.3 文本规范化(textnormalization)
5.3.4 语法分析
5.3.5 韵律分析
5.3.6 字音转换
5.3.7 小结
5.4 韵律建模
5.4.1 韵律的描述
5.4.2 韵律与句法
5.4.3 韵律建模
5.5 文语转换系统
5.5.1 汉语TTS系统Sonic
5.5.2 基于大语料库的TTS系统
5.5.3 基于匹配代价函数的基元选取
5.5.4 权重的设定和训练
5.6 语音合成技术展望
第6章 语音识别
6.1 语音识别基础
6.1.1 语音识别基本原理
6.1.2 语音识别分类
6.2 特征表示与提取
6.2.1 LPC倒谱系数(LPCC)
6.2.2 Mel频率倒谱系数(MFCC)
6.2.3 特征提取的具体问题
6.3 模板匹配技术
6.3.1 相似性度量
6.3.2 动态时间规整(DTW)
6.3.3 特征模板训练
6.4 隐马尔可夫模型(HMM)
6.4.1 HMM基本概念与原理
6.4.2 前向概率与后向概率
6.4.3 HMM模型的三个问题
6.4.4 HMM模型的训练
6.4.5 HMM求解具体问题
6.4.6 HMM的结构和类型
6.4.7 HMM模型相似性比较
6.5 孤立词及连接词识别
6.5.1 孤立词识别
6.5.2 HMM模型参数选择
6.5.3 HMM模型参数训练--分段K均值算法
6.5.4 连接词识别
6.6 连续语音识别
6.6.1 连续语音识别整体模型
6.6.2 声学模型
6.6.3 语言模型
6.7 说话人识别
6.7.1 说话人识别的基本原理与系统性能评价
6.7.2 说话人识别的特征选择
6.7.3 说话人识别的基本方法
第7章 可视语音
7.1 概述
7.2 看得见的语音
7.2.1 语音波形图
7.2.2 语谱图
7.2.3 可视发音器官的运动
7.3 视位
7.3.1 视位的定义
7.3.2 视位的参数表示方法
7.3.3 视位的非参数表示方法
7.3.4 汉语视位
7.4 动态视位模型
7.4.1 基于权值融合的动态视位模型
7.4.2 视位数据的自动提取
7.4.3 动态视位模型的参数估计
7.5 文本-可视语音转换
7.5.1 基于参数控制的方法
7.5.2 基于数据驱动的方法
7.6 机器自动唇读
7.6.1 视觉特征
7.6.2 实现方法
7.7 双模态语音识别
7.7.1 双模态信息融合的时间
7.7.2 双模态信息的同步
7.7.3 确定双模态信息的融合权重
7.8 音视频映射
7.8.1 语音特征选取
7.8.2 基于矢量量化分类的方法
7.8.3 基于混合高斯模型的方法
7.8.4 基于神经网络的方法
7.8.5 基于隐马尔可夫模型的方法
7.8.6 基于支持向量回归的方法
第8章 系统与应用
8.1 多模态三语种分布式口语对话系统ISIS
8.1.1 概述
8.1.2 对KQML软件代理的授权
8.1.3 ISIS中的多模态
8.1.4 小结
8.2 人机口语对话系统与应用
8.2.1 语对话系统
8.2.2 清华大学校园导游系统EasyNav
8.2.3 电话航班订票与信息查询系统EasyFlight
8.3 炎黄之声语音合成服务器SinoSomc
8.3.1 语音合成服务器概述
8.3.2 语音合成服务器体系结构
8.3.3 SinoSonic语音合成服务器的应用
8.3.4 Monternet(移动梦网)统一消息平台语音技术应用TTS
8.3.5 TTS在其他领域的应用和今后的工作
8.4 IBM语音解决方案简介
8.4.1 桌面听写机系统(ViaVoice Desktop)
8.4.2 电话语音识别系统(ViaVoice Telephony)
8.4.3 嵌入式ViaVoice技术
8.4.4 WebSphere VoiceServer
语言是人类互动的基本手段也是人机交互最自然的方式, 是通信的必要手段。专家预测, 未来计算机"能听会说", 建立和谐的人机交互环境。语音处理是目前发展最为迅速的一个研究领域, 并形成了一门新兴的交叉学科.
语音处理的任务是如何利用信号处理技术研究语音信号。语音的生成。接收是人类的高级行为。在计算机和网络环境中, 人们还可以传输。存储语音信号。因此语音处理涉及到语音学。语言学。生理学。心理学。信号处理。计算机和数学等多个学科.
人类对语音的研究具有长远的历史, 而且研究方法和技术不断进步。在语音工程中, 从模拟处理变换到数字处理:在处理策略上, 从专家自省。基于示例的研究方法, 到基于大量数据的统计方法。总之, 对语音的研究和处理, 从策略到方法。从算法到模型, 都在不断进步和更新。本书力图把最新的研究进展介绍给读者.
本书针对当前语音处理的技术介绍一些相关内容。语音处理主要包括语音识别。语音合成和语音编码等。数字信号处理和语音学作为语音处理的基础, 本书特意安排了两章。本书还包括了汉语语音学基础知识。可视语音转换。语音处理的系统和应用。具体安排如下:
第1章 绪论。主要介绍言语的产生过程, 语音处理研究的内容, 语音处理的应用.
第2章 语音信号处理基础。介绍语音处理的信号处理基础, 语音处理的基本算法.
第3章 语音基础知识与语料库。从工程的角度介绍语音学。汉语语音学和语料库基础知识.
第4章 语音编码。介绍了语音编码的基本原理。编码方法, 以及一系列语音编码国际标准.
第5章 语音合成。介绍语音合成的基本原理和方法, 特别介绍汉语文语转换的最新进展和技术.
第6章 语音识别。介绍语音识别的基本原理和方法, 以及相关的数字信号处理算法, 如动态规划算法(DTW)。矢量量化(VQ)。隐马尔可夫模型(HMM)等.
第7章 可视语音与汉语视位。介绍视位(Viseme)的概念, 汉语可视语音转换(Text To VisualSpeech, TFVS).
第8章 系统与应用。介绍几个典型的语音技术和系统, 如IBM的语音识别系统。ISIS多语言的智能语音系统。语音技术网络应用解决方案等.
本书作者所在的研究组成立于1979年, 主要从事语音合成。语音识别。说话人识别等研究工作, 具有扎实的基础理论知识和实际工作经验.
本书的第1章。第3章和第5章主要由蔡莲红执笔, 第2章主要由蔡锐编写, 第4章主要由黄德智编写, 第6章主要由吴志勇编写:第7章主要由王志明编写, 第8章由蒙美玲。柴海新。徐明星。任小山编写, 参加本书编写工作的还有赵晟。蒋丹宁。崔丹丹。刘涛。王玮。陶建华。倪听。燕鹏举。黄寅飞等.
现代语音处理技术涉及的知识面广。交叉性强。技术新。难度大。尽管作者作了很大的努力, 但是受到理论水平。实践经验所限, 书中难免会有错误和遗漏, 敬请读者给予批评和指正, 我们不胜感谢.