本书为数据挖掘的基础教程,是作者多年来从事数据挖掘和专家系统课程教学经验的总结。它从商业角度介绍了数据挖掘的原理以及从数据中提取隐含模式的技术。本书首先帮助读者建立起数据挖掘的概念,进而通过13个数据挖掘示例帮助读者掌握数据挖掘的原理。本书的最后部分还介绍了结合专家系统和智能代理解决复杂问题的方法。
第I部分 数据挖掘基础
第1章 数据挖掘:初探
1.1 数据挖掘: 定义
1.2 计算机可以学习什么
1.3 数据挖掘是否适合自身的问题
1.4 采用专家系统还是数据挖掘
1.5 一个简单的数据挖掘处理模型
1.6 为什么不进行简单的搜索
1.7 数据挖掘应用
1.8 本章小结
1.9 关键术语
1.10 练习
第2章 数据挖掘: 深入讨论
2.1 数据挖掘策略
2.2 有指导的数据挖掘技术
2.3 关联规则
2.4 聚类技术
2.5 评估性能
2.6 本章小结
2.7 关键术语
2.8 练习
第3章 基本数据挖掘技术
3.1 决策树
3.2 生成关联规则
3.3 K-平均值算法
3.4 遗传学习
3.5 选择一种数据挖掘技术
3.6 本章小结
3.7 关键术语
3.8 练习
第4章 基于Excel的数据挖掘工具
4.1 iData分析器
4.2 ESX: 一种多用途的数据挖掘工具
4.3 iDAV格式的数据挖掘
4.4 用于无指导聚类的5步法
4.5 用于有指导学习的6步法
4.6 生成规则技术
4.7 实例典型性
4.8 特别考虑和特性
4.9 本章小结
4.10 关键术语
4.11 练习
第II部分 知识发现工具
第5章 数据库中的知识发现
5.1 一种KDD过程模型
5.2 步骤1: 目标定义
5.3 步骤2: 创建目标数据集
5.4 步骤3: 数据预处理
5.5 步骤4: 数据转换
5.6 步骤5: 数据挖掘
5.7 步骤6: 解释和评估
5.8 步骤7: 采取行动
5.9 CRISP-DM过程模型
5.10 ESX实验
5.11 本章小结
5.12 关键术语
5.13 练习
第6章 数据仓库
6.1 操作型数据库
6.2 设计数据仓库
6.3 联机分析处理
6.4 用Excel数据透视表分析数据
6.5 本章小结
6.6 关键术语
6.7 练习
第7章 形式评估技术
7.1 评估对象
7.2 评估工具
7.3 计算检验集置信区间
7.4 比较有指导学习者模型
7.5 属性评估
7.6 无指导评估技术
7.7 评估具有数值输出的有指导模型
7.8 本章小结
7.9 关键术语
7.10 练习
第III部分 高级数据挖掘技术
第8 章 神经网络
8.1 前馈神经网络
8.2 神经网络训练: 概念介绍
8.3 一般考虑
8.4 神经网络训练: 概念介绍
8.5 本章小结
8.6 关键术语
8.7 练习
第9章 使用iDA建立神经网络
9.1 反向传播学习的4步法
9.2 神经网络聚类4步法
9.3 使用ESX进行神经网络簇分析
9.4 本章小结
9.5 关键术语
9.6 练习
第10章 统计技术
10.1 线性回归分析
10.2 对数回归
10.3 贝叶斯分类器
10.4 聚类算法
10.5 启发式的还是统计的
10.6 本章小结
10.7 关键术语
10.8 练习
第11章 专门技术
11.1 时间序列分析
11.2 挖掘Web
11.3 挖掘文本数据
11.4 改进性能
11.5 本章小结
11.6 关键术语
11.7 练习
第IV部分 智能系统
第12章 基于规则的系统
12.1 探索人工智能
12.2 状态空间搜索的问题求解
12.3 专家系统
12.4 构造基于规则的系统
12.5 本章小结
12.6 关键术语
12.7 练习
第13章 基于规则的系统中不确定性的管理
13.1 不确定性: 来源和解决来源
13.2 基于规则的模糊系统
13.3 不确定性的基于概率的方法
13.4 本章小结
13.5 关键术语
13.6 练习
第14章 智能代理
14.1 智能代理的特征
14.2 智能代理的分类
14.3 整合数据挖掘、专家系统和智能代理
14.4 本章小结
14.5 关键术语
14.6 练习
附录A iDA软件
A.1 软件安装
A.2 卸载iDA
A.3 软件局限性
A.4 软件使用指南
A.5 故障检测
A.6 软件支持
附录B 数据挖掘数据集
B.1 iDA数据集包
B.2 所要挖掘的数据集所在的Web站点
附录C 决策树属性选取
附录D 性能评估的统计
D.1 单值汇总统计
D.2 正态分布
D.3 比较有指导学习模型
D.4 数据输出的置信区间
D.5 比较具有数值输出的模型
附录E Excel数据透视表: Office 97
E.1 创建简单数据透视表
E.2 假设检验的数据透视表
E.3 创建多维数据透视图
当前,很多成功的企业正在应用数据挖掘来帮助它们更好地制度决策。利用功能强大的数据挖掘技术,可以把数据转化为有用的信息以帮助制定决策,从而在市场竞争中获得优势地位。数据挖掘是一个过程——是一个不断把商业经验和知识与数据相结合的过程。通过数据挖掘,可以更好地认识所面临的问题并发现新的市场机会,做出更加明智的决策。
数据挖掘的目标是找到能够帮助他们做出对其成功至关重要的决策的信息。例如,他们想知道这样一些情况:“现有客户中哪些会对我们的新产品感兴趣?”“这个贷款申请有合理的信用风险吗?”等等。数据挖掘中应用的方法包括传统的统计分析、分类、估计、预测和相关性分析或关联规则、聚集,也包括最新发展起来的一些诸如数据可视化、决策树和神经网络等一些较新的方法。越来越多的高等院校已经开设或正在准备开设数据挖掘方面的课程。
本书是新近推出的一本有关数据挖掘方面的好书。作者认为:数据挖掘模型的建立既是一门科学,也是一门艺术,是对“在实践中学习”的最佳诠释。书中自始至终都体现了作者这样的理念,采用全面的教程风格,提供了执行数据分析易于学习的一步一步的指南。通过列举各种数据挖掘技术建立模型简单详细的例子,揭去了数据挖掘的神秘面纱。本书提供了配套的数据挖掘数据集和一个用于数据挖掘的软件iDA,该软件基于Windows风格和Excel配合使用。书中各章提供了关键术语的解释,提供了3种类型的习题:复习题、数据挖掘题和计算题。特别适于用作教材,这也是我们翻译此书的主要动机。
本书的作者Richard J.Roiger博士是美国明尼苏达大学计算机与信息科学系教授,多年从事数据挖掘与知识发现以及机器学习领域的教学、研究与应用工作。他为计算机相关专业的大学生开设了数据挖掘和专家系统课程,有着丰富的教学经验。本书的另一作者Michael W. Geatz是一位来自企业的专家,有着丰富的企业应用数据挖掘的经验。两位作者的合作,是学院经验和企业经验的结合,这样一种成书模式,应该引起我们关注,在积极推进我国教育教学改革的今天,笔者认为这样的模式是我们需要积极鼓励和倡导的。
感谢清华大学出版社对本书中译本出版的支持,感谢香港科技大学黄哲学博士、佛罗里达州州立大学终身教授,北京航空航天大学软件学院院长孙伟博士在百忙之中,审阅了部分译稿,并提出了很多好的建议。感谢北京应用文理学院信息技术系戴红讲师,她翻译了本书的部分章节。感谢北京航空航天大学计算机学院的苏淑文、黄坚、朱逸鹏、隋明祥等研究生对本书的译稿和录入所做的工作,全书由翁敬农副教授负责审核统稿。
本书内容涉及面广,许多术语目前尚无一致译法,虽几经斟酌,多方查找资料,仍难免有词不达意之处,个别术语采用中英对照方式,抛砖引玉,大家一起探讨。我的联系方式,电话:010-82309816,邮箱:wengjn@buaa.edu.cn或jnweng@263.net,欢迎读者来电来函,对书中不妥之处批评、指正。