本书较系统地讲述了网上多媒体分析与检索技术。全书共6部分,分18章,分别讲述了基于内容的图像检索、视频结构化与视频检索、基于内容的音频检索、多媒体融合分析与检索、网上多媒体信息检索系统等内容,涉及的媒体类型除文本外,还包括图像、视频、音频及三维图形。本书层次分明,内容详实,理论分析与算法实践相结合,力求实用。\r\n\r\n 本书可作为高等院校计算机科学、图书情报等专业的研究生或高年级本科生的技术资料或教学用书,对广大从事模式识别和多媒体分析等研究、应用和开发的科技人员也有很大的参考价值。\r\n
\r\n
第1部分 绪论 \r\n\r\n 第1章 基于文本方式的信息检索 \r\n\r\n 1. 1 布尔模型 \r\n\r\n 1. 2 聚类模型 \r\n\r\n 1. 3 向量模型 \r\n\r\n 1. 4 概率模型 \r\n\r\n 第2章 基于内容的多媒体检索技术 \r\n\r\n 2. 1 多媒体分析步骤 \r\n\r\n 2. 2 多媒体特征提取 \r\n\r\n 2. 3 多媒体数据流分割 \r\n\r\n 2. 4 多媒体识别分类 \r\n\r\n 第3章 WWW多媒体信息检索 \r\n\r\n \r\n\r\n 第2部分 基于内容的图像检索 \r\n\r\n 第4章 图像特征的提取与表达 \r\n\r\n 4. 1 图像颜色特征 \r\n\r\n 4. 1. 1 颜色直方图 \r\n\r\n 4. 1. 2 颜色矩 \r\n\r\n 4. 1. 3 颜色集 \r\n\r\n 4. 1. 4 颜色聚合向量 \r\n\r\n 4. 1. 5 颜色相图 \r\n\r\n 4. 2 图像纹理特征 \r\n\r\n 4. 2. 1 Tamura纹理特征 \r\n\r\n 4. 2. 2 自回归纹理模型 \r\n\r\n 4. 2. 3 基于小波变换的纹理特征 \r\n\r\n 4. 2. 4 其他纹理特征 \r\n\r\n 4. 3 图像形状特征 \r\n\r\n 4. 3. 1 傅立叶形状描述符 \r\n\r\n 4. 3. 2 形状无关矩 \r\n\r\n 4. 3. 3 基于内角的形状特征 \r\n\r\n 4. 3. 4 其他形状特征 \r\n\r\n 4. 4 图像空间关系特征 \r\n\r\n 4. 4. 1 基于图像分割的方法 \r\n\r\n 4. 4. 2 基于图像子块的方法 \r\n\r\n 4. 5 图像高维特征约减和索引 \r\n\r\n 4. 5. 1 图像高维特征缩减 \r\n\r\n 4. 5. 2 图像高维特征索引 \r\n\r\n 第5章 图像相似度比较方法 \r\n\r\n 5. 1 图像特征相似度比较 \r\n\r\n 5. 1. 1 欧拉距离 \r\n\r\n 5. 1. 2 直方图相交 \r\n\r\n 5. 1. 3 二次式距离 \r\n\r\n 5. 1. 4 马氏距离 \r\n\r\n 5. 1. 5 非几何的相似度方法 \r\n\r\n 5. 2 图像特征性能评价 \r\n\r\n 5. 2. 1 颜色特征评价 \r\n\r\n 5. 2. 2 纹理特征评价 \r\n\r\n 第6章 图像检索中的相关反馈机制 \r\n\r\n 6. 1 相关反馈技术分类 \r\n\r\n 6. 2 查询向量相关反馈 \r\n\r\n 6. 2. 1 文本检索中的相关反馈 \r\n\r\n 6. 2. 2 图像检索相关反馈模型 \r\n\r\n 6. 3 特征权重相关反馈 \r\n\r\n 6. 3. 1 特征权重相关反馈结构 \r\n\r\n 6. 3. 2 图像特征归一化 \r\n\r\n 6. 3. 3 图像特征权重调整 \r\n\r\n 6. 4 其他图像相关反馈技术 \r\n\r\n 第7章 图像检索的现状和未来 \r\n\r\n 7. 1 现有图像检索系统 \r\n\r\n 7. 2 图像检索未来发展趋势 \r\n\r\n \r\n\r\n 第3部分 视频结构化与视频检索 \r\n\r\n 第8章 视频内容结构化 \r\n\r\n 8. 1 视频镜头边缘检测 \r\n\r\n 8. 1. 1 绝对帧间差法 \r\n\r\n 8. 1. 2 图像像素差法 \r\n\r\n 8. 1. 3 图像数值差法 \r\n\r\n 8. 1. 4 颜色直方图法 \r\n\r\n 8. 1. 5 压缩域差法 \r\n\r\n 8. 1. 6 矩不变量法 \r\n\r\n 8. 1. 7 边界跟踪法 \r\n\r\n 8. 1. 8 运动矢量法 \r\n\r\n 8. 2 镜头边缘阈值确定 \r\n\r\n 8. 2. 1 像素点变化阂值 \r\n\r\n 8. 2. 2 镜头切分阂值 \r\n\r\n 8. 2. 3 镜头渐变阂值 \r\n\r\n 8. 3 视频关键帧提取 \r\n\r\n 8. 3. 1 基于镜头边界法 \r\n\r\n 8. 3. 2 基于颜色特征法 \r\n\r\n 8. 3. 3 基于运动分析法 \r\n\r\n 8. 3. 4 基于聚类的关键帧提取 \r\n\r\n 8. 4 视频场景构造 \r\n\r\n 8. 5 新闻类视频结构化 \r\n\r\n 8. 5. 1 视频新闻内容分析 \r\n\r\n 8. 5. 2 现有新闻类分析系统 \r\n\r\n 第9章 视频检索和视频反馈 \r\n\r\n 9. 1 视频检索 \r\n\r\n 9. 2 视频相关反馈 \r\n\r\n 9. 2. 1 视频层次反馈 \r\n\r\n 9. 2. 2 镜头层次的反馈 \r\n\r\n 第10章 视频检索技术的现状和未来 \r\n\r\n 10. 1 视频检索的应用前景 \r\n\r\n 10. 2 现有视频检索系统 \r\n\r\n 10. 3 视频检索发展趋势 \r\n\r\n \r\n\r\n 第4部分 基于内容的音频检索 \r\n\r\n 第11章 音频信号特征提取与表达 \r\n\r\n 11. 1 音频时域特征提取 \r\n\r\n 11. 1. 1 短时平均能量 \r\n\r\n 11. 1. 2 过零率 \r\n\r\n 11. 1. 3 线性预测系数 \r\n\r\n 11. 2 音频频域特征提取 \r\n\r\n 11. 2. 1 傅立叶级数 \r\n\r\n 11. 2. 2 复数形式博立叶级数 \r\n\r\n 11. 2. 3 傅立叶积分与连续频谱 \r\n\r\n 11. 2. 4 抽样定理 \r\n\r\n 11. 2. 5 连续信号的滤波与卷积 \r\n\r\n 11. 2. 6 能谱特征 \r\n\r\n 11. 2. 7 平均功率与功率谱特征 \r\n\r\n 11. 2. 8 倒谱特征分析 \r\n\r\n 11. 2. 9 LPC倒谱和Mel系数 \r\n\r\n 11. 2. 10 其他频域特征 \r\n\r\n 11. 3 音频时频特征提取 \r\n\r\n 11. 3. 1 短时傅立叶变换 \r\n\r\n 11. 3. 2 小波变换 \r\n\r\n 11. 3. 3 连续小波变换 \r\n\r\n 11. 3. 4 离散小波变换 \r\n\r\n 11. 3. 5 小波特征系数提取 \r\n\r\n 11. 4 音频例子特征提取 \r\n\r\n 第12章 音频分割与识别 \r\n\r\n 12. 1 音频分割算法 \r\n\r\n 12. 1. 1 音频分层分割 \r\n\r\n 12. 1. 2 基于压缩域特征音频分割 \r\n\r\n 12. 1. 3 基于模板的音频分割 \r\n\r\n 12. 2 音频例子识别模型 \r\n\r\n 12. 2. 1 基于隐马尔可夫链音频例子识别 \r\n\r\n 12. 2. 2 基于增量支持向量机的音频例子识别 \r\n\r\n 12. 2. 3 基于最近特征线法的音频例子识别 \r\n\r\n 12. 2. 4 音频例子混合识别模型 \r\n\r\n 第13章 基于内容的音频检索技术 \r\n\r\n 13. 1 相似音频例子检索 \r\n\r\n 13. 1. 1 基于分类模型的音频例子检索 \r\n\r\n 13. 1. 2 基于模糊聚类音频例子检索与音频相关反馈 \r\n\r\n 13. 2 广播新闻结构化 \r\n\r\n 13. 3 音乐检索 \r\n\r\n 第14章 音频检索的现状与未来 \r\n\r\n 14. 1 音频检索的类别 \r\n\r\n 14. 2 音频检索未来与挑战 \r\n\r\n \r\n\r\n 第5部分 多媒体融合分析与检索 \r\n\r\n 第15章 多媒体融合分析 \r\n\r\n 15. 1 多媒质特征融合 \r\n\r\n 15. 2 单媒质交叉索引 \r\n\r\n 15. 3 单媒质结果融合 \r\n\r\n 第16章 多媒体融合检索系统 \r\n\r\n 16. 1 文本与视觉信息融合检索 \r\n\r\n 16. 2 结合文本和视觉的图像检索与反馈 \r\n\r\n 16. 3 基于多模态融合的视频结构化 \r\n\r\n 16. 3. 1 多模态信息结构化新闻类视频 \r\n\r\n 16. 3. 2 音频分析技术 \r\n\r\n 16. 3. 3 视频中的文本分析 \r\n\r\n 16. 4 基于压缩域音频特征的足球比赛精彩场景识别提取 \r\n\r\n 16. 4. 1 足球比赛的声音特征 \r\n\r\n 16. 4. 2 思路和实现方法 \r\n\r\n 16. 4. 3 结果分析和比较 \r\n\r\n 16. 5 基于支持向量机的视频字幕提取 \r\n\r\n 16. 6 基于人脸对象的多媒体内容分析 \r\n\r\n 16. 7 基于多模态融合的视频场景分析 \r\n\r\n \r\n\r\n 第6部分 网上多媒体信息检索系统 \r\n\r\n 第17章 面向WWW多媒体检索系统 \r\n\r\n 17. 1 网络信息收集Web Crawler \r\n\r\n 17. 2 面向WWW的多媒体检索系统Webscope-CBIR \r\n\r\n 17. 3 网络智能检索界面 \r\n\r\n 17. 4 个性化WWW检索 \r\n\r\n 第18章 发展与挑战 \r\n\r\n 18. 1 数字化图书馆 \r\n\r\n 18. 2 特征维数约减与变换 \r\n\r\n 18. 3 三维多媒体检索 \r\n\r\n 18. 4 基于关键块的图像检索 \r\n\r\n 18. 5 检索复杂性度量 \r\n\r\n 18. 6 新一代媒体表示对软件和硬件的影响 \r\n\r\n 18. 7 感知界面 \r\n\r\n 18. 8 多媒体推理 \r\n\r\n 18. 9 结论 \r\n\r\n 附录1 音频处理工具HTK \r\n\r\n 附录2 多媒体研究领域资料汇总 \r\n\r\n 参考文献 \r\n
\r\n
20世纪人类最伟大的成就之一是发明了计算机, 并通过Internet使海量的信息自由地驰骋于世界的任何角落. 在Internet上可获得的信息可谓是浩如烟海, 而数字图书馆应用的深入, 更使人们足不出户就能阅读世界各国的信息. Internet使得人们可以在弹指挥手之间不受时间地域的限制获取足够的信息. Internet所发挥的作用就像古代神话中的千里眼和顺风耳, 神奇无比, 而今已是现代人掌中的一项平常的工具, 它极大地增强了人们对信息的获取与传递能力, 从而深刻地改变着每个人的生活. 工作与学习!
但是, 人类现在面临的问题是如何从信息汪洋中, 快速有效地获得所需要的资料. Yahoo的成功之处, 在于为人们在纷杂的互联网中找寻信息提供了一条途径. 与Yahoo相类似的著名的搜索引擎还有Google. Infoseek. Lycos. Excite等, 这些搜索引擎都是基于用户输入的关键字进行信息查询的. 然而, 随着多媒体技术的飞速发展. 网络通信能力的提高和计算机处理速度的不断增长, 人们认识到Internet上的信息除了文本之外, 还有大量的图像. 视频. 音频. 动画和图形等, 对这些媒体类型的信息进行快速准确的检索已经成为人们的迫切需要. 这样, 多媒体信息分析与检索的研究应运而生.
应该强调, 多媒体信息分析与检索是一项理论与实践紧密结合的技术, 它涉及到计算机视觉. 模式识别. 人机交互. 信号处理和认知科学等诸多研究领域.
作者在国内较早从事这一方向的研究. 在几年的研究中, 发现了这样一个现象:没有对多媒体检索领域进行深入研究的学者, 只把信息检索看作一个纯粹应用型的研究方向, 即认为多媒体检索只是把计算机视觉. 图像(视频)处理. 语音识别. 信息理论. 计算机网络. 数据库和人机交互等理论直接拿过来应用而已而忽略了对多媒体检索自身理论的研究探索.
另一方面, 对多媒体检索进行深入研究的学者, 会发现多媒体检索不仅只是上述几个研究领域的应用与发展, 其自身也存在着相对的独立性.
上述现象使得目前尚没有一本对多媒体检索进行全面阐述的著作. 这样, 每当有人立志于多媒体方面的理论研究时, 却难以找到一本合适的书去引导他们入门. 作为教授, 在为研究生讲授多媒体检索课程时, 要花费很大力气从不同研究领域寻找相关文献.
如上的感受, 再加上在多媒体研究方面的多年经验积累, 使作者萌发了撰写一本在理论上和实践上将多媒体信息分析与检索涉及的问题讲述清楚的学术专著的念头, 而且认为这项工作十分迫切需要.
本书是作者长期研究工作的积累, 全书共分为6大部分:第1部分对多媒体检索研究在每个历史阶段的发展与面临的挑战做了介绍. 由于图像. 视频和音频是多媒体数据中主要的信息载体形式, 本书的第2部分. 第3部分和第4部分分别讲述了基于内容的图像检索. 基于内容的视频检索. 基于内容的音频检索理论. 人们常用“眼观六路. 耳听八方”形容人通过视觉. 听觉等器官来处理数据信息的过程, 它也表明人们对事物的认识综合考虑了多方面信息, 缺少任何一个方面的信息, 都将使我们或多或少地对事物的认识不全面. 因此, 在前面三个部分的基础上, 第5部分介绍了融合视觉和听觉等不同信息进行多媒体检索的有关理论和应用. 由于互联网的飞速发展, 在数字化信息海洋中构建一个智能网络搜索引擎, 是当今网络多媒体计算研究的目标之一, 多媒体检索日后的应用平台必然是网络平台. 在本书最后, 作者对网上多媒体信息检索以及信息检索的未来趋势进行了阐述.
本书附录部分列出了常用多媒体处理工具和与多媒体研究领域有关的著名会议. 期刊. 研究所和组织情况介绍.
应该讲, 在传统文本检索中, 用户提交几个关键字后, 检索系统可以基于提交的关键字将检索结果反馈回来. 这样的检索过程是基于语义和概念的, 但是目前多媒体检索离语义检索还有相当长的一段距离, 很多多媒体检索原型或是基于视觉(听觉)相似特征, 或是基于图像(视频)和视频例子.
不论怎样, 通过计算机自动识别并标注多媒体信息, 从而使人们能对网上的海量多媒体信息应用自如, 是多媒体检索领域每位研究者的心愿, 希望这本书能够为这个心愿的早日实现贡献一些力量.
作者之一于1997年一1998年在美国伊利诺斯大学(University of Illinois at Urbana —Champaign, UIUC)留学访问期间, 参与了Thomas S. Huang教授和ShamdMehrotra教授合作从事的关于多媒体信息分析与检索系统MARS等研究项目, 收获很大, 为本书的写作打下了良好的铺垫. 在本书完成之际, 谨向他们二位教授表示衷心的感谢, 也特别感谢与目前在美国微软研究院工作的芮勇(Rui Yong)博士曾经在UIUC的愉快合作. 香港城市大学的李青博士对本书的写作给予了很大的支持, 在此深表感谢.
课题组的研究生吴翌. 杨骏. 刘骏伟. 赵雪雁. 毛讳. 郑科等同学为本书的撰写工作提供了很多帮助, 在此一并表示感谢.
衷心感谢国家自然科学基金项目(编号:69803009), 教育部优秀年轻教师基金, 以及教育部博士点基金(No. 20010335049)的资助. 可以说, 没有这些项目的支持, 就不会有书中丰富的研究成果, 从而也绝没有本书的出版.
由于作者水平有限, 时间紧迫, 再加上多媒体检索是当前的技术前沿, 发展迅速, 书中遗漏之处, 敬请读者不吝指正, 以便本书日后再版时予以更正.