本书包括了三个方面的内容。第一部分介绍基于规则的自然语言处理技术,分别从语法和语义两个层面人手。首先介绍了几种语法系统的形式化表示方案,在此基础上,介绍了几种典型的上下文无关句法分析和基于复杂特征的句法分析方法。在语义层面,分别从词义和句义两个层次介绍了进行词义和句义分析的方法。第二部分介绍基于统计的自然语言处理技术,包括词汇层的一些统计语言模型以及在句法层的概率上下文无关语法。第三部分介绍一种重要的应用--机器翻译,分别从规则和统计两个方面来介绍它的理论和实现。\r\n
\r\n
第一章 上下文无关语法 \r\n\r\n 1. 1 形式语法描述 \r\n\r\n 1. 2 短语结构语法 \r\n\r\n 1. 3 转移网络 \r\n\r\n 1. 4 短语结构与句法树 \r\n\r\n 小结 \r\n\r\n 第二章 上下文无关句法分析器 \r\n\r\n 2. 1 语法 \r\n\r\n 2. 2 基于符号串的句法分析 \r\n\r\n 2. 3 自底向上的图句法分析 \r\n\r\n 2. 4 自顶向下的图句法分析 \r\n\r\n 2. 5 基于转移网络的句法分析 \r\n\r\n 小结 \r\n\r\n 第三章 基子特征的语法及其句法分析 \r\n\r\n 3. 1 特征结构与基于特征的语法 \r\n\r\n 3. 2 基于特征的句法分析 \r\n\r\n 3. 3 基于扩充转移网络的句法分析 \r\n\r\n 3. 4 基于合一的语法 \r\n\r\n 小结 \r\n\r\n 第四章 词汇语义 \r\n\r\n 4. 1 义位 \r\n\r\n 4. 2 语义场 \r\n\r\n 4. 3 语义特征 \r\n\r\n 4. 4 原型 \r\n\r\n 4. 5 词义选择 \r\n\r\n 4. 5. 1 论旨角色 \r\n\r\n 4. 5. 2 语义网络 \r\n\r\n 小结 \r\n\r\n 第五章 句义分析 \r\n\r\n 5. 1 逻辑表示 \r\n\r\n 5. 2 模型论语义 \r\n\r\n 5. 3 句法驱动的语义分析 \r\n\r\n 5. 3. 1 语义组合性 \r\n\r\n 5. 3. 2 句法驱动的语义分析 \r\n\r\n 5. 4 基于句法结构的语义分析 \r\n\r\n 5. 5 基于语义语法的语义分析 \r\n\r\n 5. 6 语义驱动的句法分析 \r\n\r\n 小结 \r\n\r\n 第六章 语言模型 \r\n\r\n 6. 1 语言与信息量 \r\n\r\n 6. 2 N-Cram模型 \r\n\r\n 6. 3 参数估计与平滑 \r\n\r\n 6. 3. 1 Cood-Turing平滑 \r\n\r\n 6. 3. 2 插值平滑 \r\n\r\n 6. 4 基于词聚类的语言模型 \r\n\r\n 6. 5 语言模型的评估 \r\n\r\n 小结 \r\n\r\n 第七章 隐马尔科夫模型 \r\n\r\n 7. 1 马尔科夫模型 \r\n\r\n 7. 2 隐马尔科夫模型的描述 \r\n\r\n 7. 3 隐马尔科夫模型基本问题的解决 \r\n\r\n 7. 3. 1 解决第一个基本问题 \r\n\r\n 7. 3. 2 解决第二个基本问题 \r\n\r\n 7. 3. 3 解决第三个基本问题 \r\n\r\n 7. 4 词性标注 \r\n\r\n 小结 \r\n\r\n 第八章 概率上下文无关语法 \r\n\r\n 8. 1 概率上下文无关语法的基本概念 \r\n\r\n 8. 2 概率上下文无关语法的基本算法 \r\n\r\n 8. 3 概率上下文概率语法基本假设的问题 \r\n\r\n 小结 \r\n\r\n 第九章 机器翻译 \r\n\r\n 9. 1 机器翻译概述 \r\n\r\n 9. 1. 1 机器翻译的基本方法 \r\n\r\n 9. 1. 2 困难和对策 \r\n\r\n 9. 1. 3 机器翻译研究的发展历程 \r\n\r\n 9. 2 基于规则的机器翻译 \r\n\r\n 9. 2. 1 基于规则的机器翻译策略 \r\n\r\n 9. 2. 2 翻译知识的描述和表达 \r\n\r\n 9. 2. 3 基于规则系统的基本翻译流程 \r\n\r\n 9. 3 经验主义及混合机器翻译方法 \r\n\r\n 9. 3. 1 基于统计的机器翻译 \r\n\r\n 9. 3. 2 基于实例的机器翻译 \r\n\r\n 9. 3. 3 混合的机器翻译方法 \r\n\r\n 9. 4 双语对齐 \r\n\r\n 9. 4. 1 句子一级的对齐 \r\n\r\n 9. 4. 2 词汇一级的对齐 \r\n\r\n 9. 5 机器翻译系统的使用 \r\n\r\n 9. 5. 1 目前对机器翻译的需求 \r\n\r\n 9. 5. 2 机器翻译的使用 \r\n\r\n 9. 5. 3 进一步的需求和展望 \r\n\r\n 小结 \r\n\r\n 参考文献 \r\n
\r\n
自然语言处理:自然的人机交互
随着计算技术的飞速发展, 计算机已成为辅助人类认识和改造世界最为强大的工具之一, 自出现那一天起至今, 帮助人类完成了许多自身难以完成的工作, 使人类社会在这一段时期里获得了比以往任何时期都要快的发展. 相信在可以预见的未来, 计算机对人类发展的重要辅助作用还将持续.
为了让计算机能完成人类所赋予的各项任务, 一个首要的问题就是人和计算机的通信问题, 即如何把人类希望计算机完成的任务告诉计算机, 以及计算机在完成任务后又如何把结果告诉人们.
人机通信经过了几个时期, 编写二进制代码. 汇编代码. 高级语言. 第四代语言, 人类为了与计算机进行通信, 创造了一系列人工语言. 为了和计算机进行通信, 人类付出了许多的努力. 在人类使用工具的历史长河中, 人类还从来没有为了和自己创造的工具进行交流而如此屈尊过, 如此为了使用这种工具而使自己向这种工具靠拢. 人机的矛盾. 人因为工具而产生的异化在这里表现得十分突出. 一些哲学家早就注意到这个问题, 提出了哲学和社会学上的解决方案.
但是, 也可以看出, 所有这些不断发展新人工语言的努力, 正在让人类在使用计算机时离计算机远一些, 而离人类本身更近一些. 然而, 我们知道, 人类表达自己思想最方便. 最自然的方式是利用人类自身的语言--各种自然语言, 人与人之间交流观点. 传播消息最方便. 最自然的方式也是利用自然语言. 因此, 最自然的人机通信不应该是任何人工语言, 而应该是自然语言.
要使计算机与人能通过自然语言进行通信, 就要使计算机能够理解和运用自然语言. 早在计算机发明不久, 人们就开始了这个方面的尝试, 自然语言处理①技术就是几十年来人们在这个方向不断努力的产物.
从某种意义上来说, 自然语言处理技术提供了一个解决人机异化问题的技术上的解决方案:计算机直接处理自然语言, 无需人去适应机器. 这将是一个更自然. 消除了异化的人机环境, 计算机将能帮助人类完成更多的工作.
为了让计算机能很好地进行自然语言处理, 一个有益的工作是考察人类的自然语言运用方式, 虽然计算机进行自然语言处理的方式很可能与人类不同, 但是, 毕竟到目前为止, 人类的自然语言运用是自然语言处理的唯一原型. 遗憾的是, 迄今为止, 人类对自身运用自然语言的机制还不甚了解, 更多的研究还集中在外在的语言本身上.
语言学:经验材料和理性规则
最简单地说, 人类对于自身所使用的自然语言的研究称为语言学. 这种研究从很早以来就一直没有终止过, 通常分为几个交错的阶段.
最早的研究是由希腊人创立的所谓"语法", 并在法国人波尔·洛瓦雅尔的"唯理普遍语法"中得到了显著的体现. 其特征是以逻辑为基础, 制订出一些规则, 用以区别正确的语言形式和非正确的语言形式. 其对于语言材料本身缺乏科学的观察.
其后出现了语文学, 其首要任务是确定. 解释和评注各种文字的文献, 通过比较不同时代的文献, 确定每个作家的特殊语言, 解读和说明用某种古代的或晦涩难懂的语文写出的碑铭.
随后, 人们发现不仅可以进行这种比较, 还可以进行不同语种间的比较, 用一种语言阐明另一种语言, 用一种语言的形式解释另一种语言的形式. 这就是语言学的第三个阶段--历史比较语言学.
在这样一些研究的基础上, 德·索绪尔建立了普通语言学, 以此为界, 标志着现代语言学的开始. 在索绪尔那里, 语言的研究重心转向共时语言学, 研究语言体系的内部结构. 这成为了结构主义语言研究的开始. 在结构主义语言学派中, 美国的描写派是最有影响的流派之一, 他们注重记录实际语言, 注重语言中各种单位的分布, 基于分布信息的基础上对语言各单位进行切分. 归并分类和组合. 这时的语言学研究重视语言材料, 具有很强的经验主义色彩. 其主要原因是, 美国语言学家十分强烈地受到一种需求的影响, 这就是要把多达几百种以往没有文字记载的北美语言尽可能多地描写出来. 最初的代表人物是弗朗兹·博厄斯(1858-1942年), 他认为每一种语言都有其独特的语法结构, 语言学家的任务就是要为每一种语言找到适合于该语言的描写范畴. 其后, 从1924年美国语言学会成立到第二次世界大战开始这段时间内的重要代表人物之一是伦纳德·布隆菲尔德(1887-1949年), 他明确采用行为主义作为语言描写的框架. 为了按照他所理解的"科学性"来描写语言, 他认为应排除一切不能直接观察到的. 也不能进行物理测量的素材, 因此, 语义的研究并不属于正规的语言学研究范围, 这些观点, 直到20世纪60年代, 由美国后布隆菲尔德学派的结构主义语言学家齐格律·哈里斯(Zellig Harris)进一步继承.
20世纪50年代中后期, 诺姆·乔姆斯基(Noam Choresky, 1928-)提出了转换生成语法, 他秉承波尔·洛瓦雅尔"唯理普遍语法"的衣钵, 重新确立了理性主义在语言研究中的地位. 他认为:语言描写和分析的目的不在于分类, 而在于建立一种理论, 研究人的语言生成能力, 即怎样用有限的成分和规则生成无限的句子, 其目标是提出一个能产生所有句子的语法系统. 他认为:人存在着先天语言能力, 语言的结构是由人类的心理结构决定的, 而语言的某些特征所具有的普遍性也证明了人类天性的这一部分为全体成员所共有, 不论其种族或阶级如何, 也不论其智力. 性格和体质方面所显然具有的区别. 乔姆斯基的理性主义观点曾经在语言学研究中占据着主导地位, 时至今日, 依然有着重要的影响.
与此同时, 注重语言材料的语料库语言学仍然是一个重要的分支, 并在80年代随着计算机计算能力的迅猛发展得到越来越多的重视. 在80年代, 一些语言学家. 哲学家还发展了把语言纳入认知范畴来研究的认知语言学.
可以看到, 在语言学发展的过程中, 存在着经验主义(注重语言材料)和理性主义(注重语言机制)的交替发展. 这种情形也出现在了计算语言学的发展过程中.
从语言学到计算语言学
计算语言学诞生之日正值乔姆斯基学派的理论大行其道之时, 自然语言处理的主流技术是基于规则的, 从各种句法分析技术到句法语义分析技术, 利用规则来描述语言现象使之能为计算机所处理是计算语言学的主导方法.
20世纪80年代末和90年代初, 由于大量联机语料的出现以及计算机处理能力的大幅度提高, 也由于规则方法迟迟未能达到人们预期的目标, 统计自然语言处理逐渐兴起, 成为自然语言处理中与规则方法比肩发展的两个方向.
在统计方法开始盛行之初, 规则方法和统计方法存在着很多的对立, 但是不久, 人们便认识到二者并不是不可调和的两个对立面, 而是互为补充的. 詹姆士·艾伦(James Allen)在他的《Natural Language Understanding》(第二版)一书中, 在保留规则方法的同时, 增加了一些统计方法的内容, 在序言中, 他谈到, 老方法(基于规则)和新方法(基于统计)是互为补充的, 谁也不能替代谁.
全 书 安 排
全书分为三个部分.
第一部分用来介绍一些重要的基于规则的自然语言处理技术, 这部分是从第一章开始直到第五章. 其中, 第一章介绍面向计算机处理的上下文无关语法及其形式化表示方式, 第二章介绍了几种基于上下文无关语法的句法分析算法, 第三章介绍基于特征的增强上下文无关语法以及基于该类语法的句法分析方法. 后面两章介绍语义层面, 其中, 第四章介绍词汇语义的表示和处理, 第五章介绍句义的表示和处理.
第二部分从第六章到第八章, 介绍一些基于统计的自然语言处理技术. 其中, 第六章介绍n元语言模型, 第七章介绍隐马尔科夫模型, 第八章介绍概率上下文无关语法. (王伟. 孙健两位博士参与了第六和第七章的选材和编写. )
在第三部分介绍一个典型的自然语言处理的应用--机器翻译, 为本书的第九章. 这部分主要从技术的角度来考察. 分析各种机器翻译系统在规则和统计技术下是如何来实现的, 而不过多地介绍某个具体的系统.
作者
2002年1月
无封面