本书详细介绍了构建企业数据仓库的理论和方法。全书共十二章,第一、二章介绍了信息技术简史,以及业务和信息技术在数据仓库上的结合。第三至七章介绍如何规划、建立数据仓库,项目的选择和范围,数据构模,元数据库以及如何在数据仓库中获得高质量的信息。第八、九章介绍了逻辑数据仓库、物理数据仓库等内容。第十至十二章介绍了数据的转模、访问和挖掘。
本书不同于现有的许多数据库著作,本书的主要特点是:着重介绍一种方法学,面向那些有兴趣建立或理解决策支持系统(DSS)的读者(包括CIO、IT经理,数据分析员和数据库的管理员、设计人员和开发人员等)。本书可作为MIS、计算机科学、商务等专业的师生的教科书或参考用书。
第一章 信息技术简史 1
1.1 简介 1
1.2 IT简史 2
1.2.1 企业信息筒仓 5
1.3 数据仓库是什么 9
1.4 回答业务问题 12
1.5 企业数据模型 13
1.6 方法学概述:范围, 引导, 生产 15
1.6.1 螺旋过程 17
1.6.2 快速应用程序开发 18
1.7 数据仓库体系结构 18
1.8 信息工人访问 20
1.9 问题 22
1.10 项目 22
第二章 业务和IT在数据仓库上的结合 24
2.1 简介 24
2.2 开发教程 26
2.3 重组业务过程 33
2.4 业务与IT相结合 37
2.4.1 位置评估 38
2.4.2 能力位置 39
2.4.3 情况评估 40
2.4.4 价值链评估 40
2.5 灵活的IT部门 41
2.6 开放系统 44
2.7 ROI和论证 46
2.8 IT服务管理 49
2.9 问题 51
2.10 项目 52
第三章 如何规划和建立数据仓库 55
3.1 简介 55
3.2 企业需求分析 58
3.3 IT就绪性评价 62
3.4 项目选择 63
3.5 仓库概念体系结构 65
3.6 仓库逻辑体系结构 70
3.7 仓库物理体系结构 71
3.8 数据体系结构 73
3.9 实现 75
3.10 问题 78
3.11 项目 79
第四章 项目选择和范围 81
4.1 简介 81
4.2 企业需求发现:经理会谈 82
4.3 企业需求定义:JAD会议 85
4.4 范围和估计 88
4.5 规划 90
4.5.1 定义项目 90
4.5.2 规划项目 91
4.5.3 管理项目 93
4.6 小组成员及其技能 94
4.7 问题 97
4.8 项目 97
第五章 数据构模 100
5.1 简介 100
5.2 企业数据构模 102
5.2.1 合理的企业数据模型 104
5.3 星形方案分析:创建维模型 105
5.3.1 模型开发方法 106
5.3.2 粒度 107
5.3.3 时间 108
5.3.4 事件 109
5.4 开发维模型 109
5.5 雪花形模型 111
5.6 物理构模 112
5.7 维数据构模的十条戒律 114
5.8 金字塔的两个方面:事务ER和分析星形 114
5.9 问题 117
5.10 项目 117
第六章 元数据库 120
6.1 简介:什么是元数据 120
6.2 元数据用法模型 123
6.2.1 实现时元数据 123
6.2.2 主动运行时元数据 123
6.2.3 被动运行时元数据 124
6.3 元数据空间模型 125
6.3.1 活动元数据 125
6.3.2 位置元数据 126
6.3.3 实体元数据 126
6.3.4 人群元数据 127
6.3.5 动机元数据 127
6.3.6 时间元数据 128
6.3.7 元数据俘获和维护 129
6.3.8 初始元数据创建 129
6.3.9 大型仓库或多主题区域元数据 129
6.4 信息用户向导 130
6.5 问题 131
6.6 项目 132
第七章 在数据仓库中获得高质量信息 133
7.1 简介 133
7.2 高质量信息的值 135
7.3 获得高质量数据的困难 137
7.4 评价高质量数据价值的方法 138
7.5 应该达到何种质量 139
7.6 评价数据的方法 139
7.7 评价数据的工具 140
7.8 数据评价或审核 141
7.9 问题 142
7.10 项目 143
第八章 概念和逻辑数据仓库 145
8.1 简介 145
8.2 为什么以原则为中心 146
8.3 元原则:关于原则的原则 147
8.4 原则 148
8.4.1 一般原则 148
8.4.2 数据原则 149
8.4.3 查询原则 150
8.4.4 工作仓库原则 150
8.4.5 元数据原则 150
8.4.6 可缩放性原则 152
8.4.7 仓库管理原则 153
8.4.8 体系结构原则和Zachman框架 154
8.4.9 体系结构原则小结 155
8.5 概念模型 155
8.5.1 无规划的决策支持 156
8.5.2 虚拟数据仓库 156
8.5.3 主题区域的语义集成 157
8.5.4 查询管理主题区域 158
8.5.5 单一仓库 159
8.5.6 标准数据存档 159
8.6 体系结构选择 160
8.6.1 无规划的决策支持 161
8.6.2 虚拟数据仓库 161
8.6.3 主题区域的语义集成 162
8.6.4 查询管理主题区域 162
8.6.5 单一仓库 162
8.6.6 标准数据存档 162
8.7 逻辑模型 163
8.8 问题 165
8.9 项目 165
第九章 物理数据仓库 169
9.1 简介 169
9.2 物理存储 170
9.3 数据库因素 175
9.4 数据库服务器硬件 177
9.5 操作系统 182
9.5.1 性能 182
9.5.2 可恢复性 183
9.5.3 集成度 183
9.5.4 安全性 183
9.5.5 可管理性 183
9.6 查询服务器和应用程序服务器 184
9.7 网络和连接 184
9.8 中间件 185
9.8.1 Usage Tracker 185
9.8.2 Intelligent Warehouse 185
9.8.3 事务处理监视程序 186
9.8.4 中间件选择 186
9.9 知识工程工作站 186
9.10 部署体系结构 187
9.11 问题 190
9.12 项目 191
第十章 数据转换 193
10.1 简介 193
10.2 规划 193
10.3 数据提取和移动方法 195
10.4 数据转换 197
10.5 数据加载 199
10.6 问题 201
10.7 项目 201
第十一章 数据访问 203
11.1 简介 203
11.2 工具选择 203
11.2.1 信息用户类型 204
11.2.2 所有的FLAP 205
11.2.3 厂商选择准则 205
11.3 信息发布 206
11.4 Web访问 207
11.5 电子表格 208
11.6 可视化工具 211
11.7 查询工具 214
11.7.1 技术功能 214
11.7.2 查询功能 214
11.7.3 显示功能 215
11.7.4 接口功能 215
11.8 EIS和DSS工具类型 220
11.9 数据挖掘简介 221
11.10 问题 222
11.11 项目 223
第十二章 数据挖掘 224
12.1 简介 224
12.2 数据准备 225
12.3 神经网络 228
12.4 基因算法 232
12.5 群集和分类 233
12.6 决策树 234
12.7 统计学 236
12.7.1 回归模型 236
12.7.2 判别式分析 236
12.8 软件产品 237
12.9 软件举例 238
12.10 问题 241
12.11 项目 241
词汇表 243
MIS管理人员和CIO的主要目标是使他们的IT公司与他们的业务相适应。然而,大多数MIS管理人员和CIO在技术上训练有素,而在公司策略的把握上则不是那么驾轻就熟。而且,已有的旧系统并不是按照一种有利于集成不同系统中数据以提供新的信息的方式而组织的。 因而,通过修改运行系统,并将IT与商务有机地结合到一起。提供新信息是具有一定难度的。IT专家最终会处于这样一种状况:进行改变的需求已知,但是他就是不知道如何选择一种策略或用当前的技术实现这些改变。这种情况就类似于在一个有鲨鱼的水池中——明知有危险,但是不知道它在哪儿以及如何躲避它。
笔者已经编写了二本与这些工作有关的书籍, 以帮助读者获得使用数据仓库和开放系统的方法以及使IT部门与公司目标相适应所需要的一些知识。许多其他的数据创建方面的书籍已经从较高的层次上介绍了数据仓库的优点和目标,本书将为读者介绍规划、设计、构建和使用数据仓库的详细内容。
多年来,人们一直在各种各样的会议上讨论数据仓库、决策支持系统和执行信息系统。但是仍然有许多专家对数据仓库是什么没有一个清楚的了解。对于那些了解数据仓库基础的人来说,也难以成功地建立数据仓库。 已经成功建立了一些项目的数据仓库从业人员发现他们建立的数据仓库不能很好地协同工作。对于其他的情况,用于建立小型数据仓库的技术并不能适用于建立大型数据仓库。最后,他们仍然需要处理在不能很好缩放的旧系统中存在的问题,并处理那些难于集成的数据。
本书作者的目标是介绍一种方法学,以使IP专家能够躲过“大鲨鱼”。本书将提供一种描述性策略,以帮助IT专家规划、设计和构建企业级的数据仓库。为了理解IT社区的当前状况,在第一章中将介绍商务信息技术的发展和历史。在理解了当前的挑战和机会之后,将考查和评价一下数据仓库和运行系统的相对特性。然后在后续章节中介绍一种易于理解的方法学,以便在合理的公司原则和RAD技术基础之上建立数据仓库,并作进一步地阐述。
在第二章中,笔者介绍了几种确定公司或IT组织的当前地位和发展方向的方法。尽管靠这一本关于数据仓库的书并不能把读者转变成一个公司策略的专家,但是我们可以看一看阐述和理解公司策略的方法,以及如何选择相应的IT策略。作为IT专家,我们需要学习的最重要的技术是利用公司经理会谈和应用程序合作开发会议,来了解公司所处情况与经理想要它达到的情况之间的差距。最后,介绍评价建立数据仓库的相关费用的方法。
如果你搭乘一条商用航线上的一架飞机,而飞行员告诉你说他知道如何驾驶飞机,但是不知道要飞向哪儿以及在哪儿着陆,那么你可能会要离开这架飞机。规划对于飞行和数据仓库同样的重要。在第三章中,我们将介绍一些构建数据仓库的方法,以了解构建我们规划的数据仓库需要花费多少,以及需要为这些费用交付什么东西。这将使我们不会像哥伦布一样,出发了但是不知道要去哪儿,到达后不知道自己到了哪儿,并且都是依靠借的钱来做全部事情。
选择具有最大组织影响的数据仓库项目并获得成功是本书第四章的重点。第二章中介绍的JAD技术将用来发现对公司具有最大利益的项目,以及该项目的范围。数据仓库的主要目标是为公司知识人员提供信息。由于数据是按照一种有意义的方式组织,并呈现在一种公司环境中,所以它是成功数据仓库的关键。第五章重点介绍数据体系结构和数据构模的原则和指导方针。到第五章结束时,初级数据构模人员应该理解企业和决策支持数据模型的基本组件,而有经验的数据构模人员则将会更好地理解如何将已有的技术扩展到新的领域中。
对于一个数据仓库的成功,理解数据仓库中的数据是非常重要的基础。数据仓库项目失败的一个主要原因是错误地理解了数据仓库中的数据。关于数据仓库中数据的数据叫作“元数据”(metadata)。成功的数据仓库项目使用成功的元数据仓库进行连接。在第六章中我们将介绍构建元数据仓库的意义、理由和方法。
数据仓库项目失败的第二个主要原因是在数据仓库中缺乏高质量的数据。第七章将重点介绍在数据仓库中获得高质量数据的方法。不理解高质量数据的价值,管理层很难投资获得这种数据所需要的资源。因而本章将从一个范例开始,计算数据仓库中数据错误的花费。然后将介绍一种达到这种数据质量的方法。
理解一个研究领域的原理将会使该领域的学生能够应用这些原理解决新问题。在第八章中,我们将学习数据仓库体系结构的原理。这些原理将用来构造一种概念数据体系结构。然后将应用这个概念数据体系结构模型来建立一个逻辑数据仓库。
第九章专门用来帮助理解物理数据仓库。在这一章中,将分析物理数据仓库不同组件的任务、协定和折衷。
软件用于把数据仓库连系到一起并使得其构建成为可能,而第十章的主题就是软件。数据提取、转换和整理软件工具对于数据仓库的构建非常重要。在本章中将介绍这些工具的重要特性。
数据仓库一旦建立之后,必须为数据仓库客户提供适当的工具,以访问该仓库中的数据。第十一章介绍了不同类型的访问工具,并为读者提供了安全地选择适当工具所需要了解的知识。
最后,在第十二章中介绍了数据采集。有几种不同的数据采集方法。在这一章中介绍了数据采集的所有主要方法, 以及每一种方法的优点和缺点。
作为一般的声明,本书是为那些有兴趣建立或理解决策支持系统的”专家而写的。尤其是CIO、”经理、数据分析员、数据库管理员、设计人员和开发人员将对本书产生兴趣,并觉得它有用。CIO和IT经理将会发现第一至四章特别有用。经理、数据分析员、数据库管理员、设计人员和开发人员将会发现第五到十二章对于数据仓库的实际实现很有帮助,而第一到四章将帮助他们理解其管理的路径。
本书的另一批可能的读者是管理信息系统、商务和计算机科学等专业的学生。笔者花了五年的时间进行教学,发现在本书中可以很容易地包括一些信息,使该书成为一本关于数据仓库方面极好的教科书。在许多章最后都有专门的一节列出了许多练习题, 以供正式的和非正式的学生使用。许多章还提出了一些项目,读者既可以把它们当成思考练习题,也可以把它们当成实际的项目来解决。