本书比较全面系统地介绍了数据仓库(Data Warehouse)、联机分析处理(OLAP)、数据挖掘(Data Mining)等3个层次的基本概念、原理和应用技术。全书分成4篇,基本原理篇和设计建模篇的内容主要包括:数据仓库的基本概念、体系结构、创建过程、建模设计、项目规划,OLAP的基本概念、ROLAP和MOLAP的实现原理、OLAP模型设计,数据挖掘的基本概念、基本过程、常见模型和算法。产品介绍篇介绍了现有数据仓库厂商产品工具的基本情况,并对产品选择进行了一些分析。应用实践篇结合电信领域的实例,介绍了数据仓库项目在设计和实施中的关键问题。\r\n\r\n 本书的编写以理论联系实际为原则,内容系统全面,对于从事数据仓库研究、设计、开发等工作的人员具有宝贵的参考价值,对于需要了解数据仓库技术的系统集成人员、系统分析师、系统设计师也具有一定的参考价值。\r\n
\r\n
第一篇 基本原理篇 \r\n\r\n 第1章 数据仓库概述 2 \r\n\r\n 1.1 数据库到数据仓库的演变 2 \r\n\r\n 1.1.1 蜘蛛网问题 2 \r\n\r\n 1.1.2 操作型系统和分析型系统的分离 5 \r\n\r\n 1.2 商业智能系统的功能和构成 7 \r\n\r\n 1.2.1 商业智能系统的数据处理循环 7 \r\n\r\n 1.2.2 决策支持系统的总体功能 7 \r\n\r\n 1.3 仓库的应用前景 9 \r\n\r\n 第2章 数据仓库的基本原理 12 \r\n\r\n 2.1 数据仓库的体系结构 12 \r\n\r\n 2.1.1 数据仓库的体系结构 12 \r\n\r\n 2.1.2 数据仓库中的关键名词 13 \r\n\r\n 2.2 数据仓库的特点 16 \r\n\r\n 2.2.1 数据库的功能和特征 16 \r\n\r\n 2.2.2 数据仓库的功能和特征 17 \r\n\r\n 2.2.3 面向主题 17 \r\n\r\n 2.2.4 数据的集成性 19 \r\n\r\n 2.2.5 数据的稳定性 21 \r\n\r\n 2.2.6 数据随时间变化的特点 22 \r\n\r\n 2.3 数据仓库的数据组织 23 \r\n\r\n 2.3.1 数据仓库的数据组织结构 23 \r\n\r\n 2.3.2 数据颗粒度 25 \r\n\r\n 2.3.3 数据的分割 29 \r\n\r\n 2.3.4 数据仓库的数据组织形式 30 \r\n\r\n 2.3.5 数据仓库的数据追加技术 32 \r\n\r\n 2.3.6 清理数据仓库的数据 36 \r\n\r\n 2.4 数据仓库建设的两条技术路线 36 \r\n\r\n 2.5 操作数据存储ODS 38 \r\n\r\n 2.5.1 ODS的概念 38 \r\n\r\n 2.5.2 ODS的应用 39 \r\n\r\n 2.5.3 DB-ODS-DW的3层体系结构 41 \r\n\r\n 2.5.4 ODS/DW. ODS/DB间的比较 43 \r\n\r\n 2.6 外部数据和非结构数据 44 \r\n\r\n 2.6.1 外部数据的特征 44 \r\n\r\n 2.6.2 为什么将外部数据放在数据仓库 45 \r\n\r\n 2.6.3 对外部数据进行管理的元数据 46 \r\n\r\n 2.6.4 外部数据/非结构化数据的存储 47 \r\n\r\n 2.6.5 外部数据的使用 49 \r\n\r\n 第3章 OLAP的基本原理 50 \r\n\r\n 3.1 OLAP的基本概念 50 \r\n\r\n 3.1.1 OLAP的基本概念 50 \r\n\r\n 3.1.2 OLAP的基本分析动作 53 \r\n\r\n 3.1.3 OLAP的展现方式 57 \r\n\r\n 3.1.4 OLAP和OLTP 59 \r\n\r\n 3.1.5 OLAP的体系结构和分类 60 \r\n\r\n 3.2 以多维数据库为基础的OLAP服务器 61 \r\n\r\n 3.2.1 多维数据库(Multi-Dimensional Database) 61 \r\n\r\n 3.2.2 MDDB产品实例 64 \r\n\r\n 3.2.3 MOLAP产品的结构 66 \r\n\r\n 3.3 基于关系型数据库的OLAP(ROLAP) 66 \r\n\r\n 3.3.1 维表 67 \r\n\r\n 3.3.2 事实表 67 \r\n\r\n 3.3.3 星型结构 69 \r\n\r\n 3.3.4 ROLAP和MOLAP的比较 73 \r\n\r\n 3.3.5 HOLAP(Hybrid OLAP) 76 \r\n\r\n 3.4 OLAP的特征和衡量 76 \r\n\r\n 3.4.1 OLAP的12准则 76 \r\n\r\n 3.4.2 OLAP的简洁准则 79 \r\n\r\n 3.5 OLAP的前端展现方式 80 \r\n\r\n 3.5.1 OLAP的C/S方式 80 \r\n\r\n 3.5.2 OLAP的Web 80 \r\n\r\n 3.5.3 瘦客户机方式 81 \r\n\r\n 3.5.4 OLAP的局限性 82 \r\n\r\n 第4章 数据挖掘基础 83 \r\n\r\n 4.1 数据挖掘的概念 83 \r\n\r\n 4.1.1 什么是数据挖掘 83 \r\n\r\n 4.1.2 数据挖掘的形式化定义 84 \r\n\r\n 4.1.3 数据挖掘的基本步骤 85 \r\n\r\n 4.1.4 数据挖掘方法的分类 85 \r\n\r\n 4.2 描述性挖掘分析 87 \r\n\r\n 4.2.1 关联规则 87 \r\n\r\n 4.2.2 序列模型分析 92 \r\n\r\n 4.2.3 聚类分析(Clustering) 93 \r\n\r\n 4.3 预测类的挖掘算法 98 \r\n\r\n 4.3.1 分类问题 99 \r\n\r\n 4.3.2 回归问题 102 \r\n\r\n 4.3.3 时间序列问题 102 \r\n\r\n 4.3.4 神经网络 105 \r\n\r\n 4.3.5 决策树分析 110 \r\n\r\n 4.4 数据挖掘的体系结构 112 \r\n\r\n 4.5 数据挖掘系统的应用实例 113 \r\n\r\n 4.5.1 从用户的行为模式来自动地生成动态链接 113 \r\n\r\n 4.5.2 用数据挖掘的方法来解决网络拥挤的问题 119 \r\n\r\n 4.6 数据挖掘和相关系统的联系 120 \r\n\r\n 4.6.1 数据挖掘和人工智能. 统计学的关系 120 \r\n\r\n 4.6.2 数据挖掘和数据仓库的关系 121 \r\n\r\n 4.6.3 数据挖掘和OLAP的区别和联系 122 \r\n\r\n 4.6.4 数据挖掘不是万能的 124 \r\n\r\n 第二篇 设计建模篇 \r\n\r\n 第5章 企业模型设计 126 \r\n\r\n 5.1 数据仓库设计和数据库设计的区别 126 \r\n\r\n 5.2 企业模型 129 \r\n\r\n 5.2.1 什么是企业模型 129 \r\n\r\n 5.2.2 面向对象的分析方法 133 \r\n\r\n 5.2.3 使用面向对象的方法建立企业模型 139 \r\n\r\n 5.2.4 面向对象方法和ER模型的对比 144 \r\n\r\n 5.3 企业模型到数据库模型的映射 145 \r\n\r\n 5.3.1 限定集成的范围 145 \r\n\r\n 5.3.2 映射到关系模型 146 \r\n\r\n 5.3.3 对比映射结果和现有系统 148 \r\n\r\n 5.4 将企业模型映射到数据仓库概念模型 149 \r\n\r\n 第6章 数据仓库的模型设计 152 \r\n\r\n 6.1 数据仓库的逻辑模型设计 152 \r\n\r\n 6.1.1 系统数据量估算 152 \r\n\r\n 6.1.2 数据颗粒度的选择 153 \r\n\r\n 6.1.3 表的分割 157 \r\n\r\n 6.1.4 增加时间字段 157 \r\n\r\n 6.1.5 去除纯操作型数据 157 \r\n\r\n 6.1.6 合理的表划分 158 \r\n\r\n 6.1.7 定义关系模式 161 \r\n\r\n 6.1.8 增加导出字段 161 \r\n\r\n 6.1.9 记录系统的定义 162 \r\n\r\n 6.2 数据仓库的物理模型设计 163 \r\n\r\n 6.2.1 确定数据的存储结构 163 \r\n\r\n 6.2.2 索引策略 166 \r\n\r\n 6.2.3 数据存储策略 173 \r\n\r\n 6.2.4 存储分配优化 176 \r\n\r\n 6.3 数据装载接口设计 176 \r\n\r\n 6.4 并行优化 177 \r\n\r\n 6.4.1 数据仓库中并行优化的必要性和可能性 177 \r\n\r\n 6.4.2 并行体系结构 179 \r\n\r\n 第7章 OLAP建模方法 183 \r\n\r\n 7.1 维表 183 \r\n\r\n 7.1.1 维表的特征 183 \r\n\r\n 7.1.2 维的变化 184 \r\n\r\n 7.1.3 维表的共享 187 \r\n\r\n 7.1.4 雪花型结构处理多对多关系 189 \r\n\r\n 7.1.5 层次信息和分类信息的位置 191 \r\n\r\n 7.1.6 非分析数据的分离 194 \r\n\r\n 7.1.7 典型的维层次 195 \r\n\r\n 7.2 事实表 198 \r\n\r\n 7.2.1 事实 198 \r\n\r\n 7.2.2 事实表的特征 199 \r\n\r\n 7.2.3 数据的粒度 199 \r\n\r\n 7.2.4 聚合操作和聚合表 200 \r\n\r\n 7.2.5 没有度量变量的事实表 201 \r\n\r\n 7.2.6 通用数据和专用数据事实表 202 \r\n\r\n 7.3 OLAP的并行优化 204 \r\n\r\n 7.3.1 B-TREE索引. 位图索引和Bit-Wise索引 204 \r\n\r\n 7.3.2 星型查询优化 204 \r\n\r\n 7.3.3 预连接技术 207 \r\n\r\n 7.4 多维数据库 207 \r\n\r\n 第8章 数据仓库规划和开发方法 210 \r\n\r\n 8.1 数据仓库的投资分析 210 \r\n\r\n 8.1.1 数据仓库的应用目标 210 \r\n\r\n 8.1.2 建设数据仓库的必要性 211 \r\n\r\n 8.1.3 数据仓库的投资回报分析 211 \r\n\r\n 8.1.4 技术选择分析 212 \r\n\r\n 8.1.5 IDC的统计结果 213 \r\n\r\n 8.2 数据仓库的开发方法 213 \r\n\r\n 8.2.1 瀑布式开发 213 \r\n\r\n 8.2.2 螺旋式开发 214 \r\n\r\n 8.3 数据仓库主题的选择和阶段规划 216 \r\n\r\n 8.3.1 阶段规划的原则 216 \r\n\r\n 8.3.2 维护阶段 216 \r\n\r\n 8.4 现有数据库系统的改造问题 216 \r\n\r\n 8.5 数据仓库和数据库系统的相互作用 217 \r\n\r\n 8.5.1 相互促进的过程 217 \r\n\r\n 8.5.2 解决“蜘蛛网”问题 218 \r\n\r\n 8.5.3 数据仓库的“间接使用” 218 \r\n\r\n 8.6 分布式数据仓库 219 \r\n\r\n 8.6.1 采用分布式数据仓库的原因 219 \r\n\r\n 8.6.2 分布式下的模型建立和数据划分 221 \r\n\r\n 8.6.3 分布式数据仓库的建设策略 224 \r\n\r\n 8.6.4 分布式数据仓库技术的缺点 227 \r\n\r\n 8.7 需要避免的错误 228 \r\n\r\n 第9章 数据挖掘的实施过程 231 \r\n\r\n 9.1 数据挖掘过程模型5A 231 \r\n\r\n 9.2 数据挖掘过程模型CRISP-DM 233 \r\n\r\n 9.3 数据挖掘过程中的相关问题 235 \r\n\r\n 9.3.1 定义商业问题 235 \r\n\r\n 9.3.2 建立数据挖掘库 236 \r\n\r\n 9.3.3 分析数据 /选择变量 241 \r\n\r\n 9.3.4 模型训练方法 245 \r\n\r\n 9.3.5 数据挖掘模型的评价方法 248 \r\n\r\n 9.3.6 数据仓库的实施和维护 250 \r\n\r\n 9.3.7 模型实例 250 \r\n\r\n 第10章 数据仓库的建立和维护 252 \r\n\r\n 10.1 数据仓库建立的过程 252 \r\n\r\n 10.1.1 建立企业模型 252 \r\n\r\n 10.1.2 阶段规划/主题选取 253 \r\n\r\n 10.1.3 技术准备工作 253 \r\n\r\n 10.1.4 逻辑设计 254 \r\n\r\n 10.1.5 物理设计 255 \r\n\r\n 10.1.6 数据载入接口设计 255 \r\n\r\n 10.1.7 装载一个主题的数据和数据校验 256 \r\n\r\n 10.1.8 OLAP模型设计和应用开发 256 \r\n\r\n 10.1.9 数据准备程序设计 257 \r\n\r\n 10.1.10 数据挖掘模型设计 257 \r\n\r\n 10.1.11 界面系统设计 258 \r\n\r\n 10.1.12 装载其他主题数据 258 \r\n\r\n 10.1.13 同客户交流 259 \r\n\r\n 10.1.14 重新开始循环 260 \r\n\r\n 10.2 数据仓库的维护工作 260 \r\n\r\n 10.2.1 数据周期 260 \r\n\r\n 10.2.2 参照完整性 261 \r\n\r\n 10.2.3 数据环境信息 262 \r\n\r\n 第三篇 产品介绍篇 \r\n\r\n 第11章 数据仓库产品的介绍 266 \r\n\r\n 11.1 数据仓库工具 266 \r\n\r\n 11.2 INFORMIX数据仓库产品简介 268 \r\n\r\n 11.2.1 INFORMIX数据仓库解决方案 268 \r\n\r\n 11.2.2 数据抽取. 转换和装载 269 \r\n\r\n 11.2.3 数据存储 270 \r\n\r\n 11.2.4 数据访问/呈现 274 \r\n\r\n 11.3 SAS产品简介 278 \r\n\r\n 第12章 数据仓库产品的选择 283 \r\n\r\n 12.1 数据仓库产品应具备的关键技术 283 \r\n\r\n 12.2 各数据仓库厂商产品的比较 285 \r\n\r\n 12.3 数据仓库工具的选择 286 \r\n\r\n 12.4 数据仓库工具的互通问题 287 \r\n\r\n 第四篇 应用实践篇 \r\n\r\n 第13章 项目的需求和目标分析 292 \r\n\r\n 13.1 电信领域建立数据仓库的常见主题 292 \r\n\r\n 13.2 电信领域常见的分析问题 295 \r\n\r\n 13.2.1 客户群体划分 295 \r\n\r\n 13.2.2 客户流失分析 296 \r\n\r\n 13.2.3 客户欺诈分析 296 \r\n\r\n 13.2.4 网络规划优化 297 \r\n\r\n 13.2.5 网管中的分析问题 298 \r\n\r\n 13.3 项目规划 301 \r\n\r\n 13.4 需求分析的形成 301 \r\n\r\n 13.4.1 任务说明书 301 \r\n\r\n 13.4.2 需求说明书 302 \r\n\r\n 第14章 系统结构和模型设计 307 \r\n\r\n 14.1 系统结构设计 307 \r\n\r\n 14.1.1 数据量的估算 307 \r\n\r\n 14.1.2 系统硬件结构/软件结构选择 307 \r\n\r\n 14.2 数据仓库模型的设计 310 \r\n\r\n 14.2.1 可利用的数据 310 \r\n\r\n 14.2.2 粒度的确定 311 \r\n\r\n 14.3 OLAP模型设计 314 \r\n\r\n 14.3.1 项目涉及的维度分析 315 \r\n\r\n 14.3.2 各个主题的维度设计 317 \r\n\r\n 第15章 系统装载. 数据挖掘和界面设计 324 \r\n\r\n 15.1 数据装载/数据综合模块设计 324 \r\n\r\n 15.2 OLAP模型生成程序 329 \r\n\r\n 15.3 数据挖掘宽表设计和生成 335 \r\n\r\n 15.3.1 确定同目标变量相关的数据 335 \r\n\r\n 15.3.2 创建新变量 336 \r\n\r\n 15.3.3 准备训练集合与验证集合 342 \r\n\r\n 15.3.4 确定分析的次序 343 \r\n\r\n 15.3.5 变量选择 343 \r\n\r\n 15.3.6 模型的维护和完善 344 \r\n\r\n 15.4 创建多维数据库模块设计 345 \r\n\r\n 第16章 界面设计和项目总结 348 \r\n\r\n 16.1 界面展现设计 348 \r\n\r\n 16.1.1 三层体系结构 348 \r\n\r\n 16.1.2 按照内容对界面进行规划 349 \r\n\r\n 16.2 系统的工作流程总结 351 \r\n\r\n 16.3 系统的数据流程总结 353 \r\n\r\n 16.4 系统的模块组成 355 \r\n\r\n 附录 常用名词表 356 \r\n
\r\n
随着计算机应用和网络计算的发展, “计算”正向两个不同的方向拓展:一是广度计算, 二是深度计算. 广度计算是把计算机的应用范围尽量扩大, 同时实现广泛的数据交流. 深度计算是人们对以往计算机的简单数据操作. 目前对深度操作已提出了更高的要求, 希望计算机能够更多地参与数据分析与制定决策的工作. 传统的数据库技术是单一的数据库资源, 它适合操作型事务处理, 但分析型处理(或信息型处理)能力较弱. 数据仓库的出现, 将操作型环境和分析型环境进行了分离, 划清了数据处理的分析型环境与操作型环境之间的界限, 从而由原来的以单一数据库为中心的数据环境发展为以数据仓库为中心的一种新的体系化环境.
数据仓库技术以改进后的数据库技术作为存储数据和管理资源的基本手段, 以统计分析技术作为分析数据和提取信息的有效方法, 通过人工智能. 神经网络. 知识推理等数据挖掘方法来发现数据背后隐藏的规律, 从而实现从“数据一信息一知识”的过程, 为企业的管理阶层提供各种层次的决策支持.
本书从数据仓库. 联机分析(OLAP). 数据挖掘等3个层次对数据仓库系统的关键技术进行了深入细致的介绍和分析.
全书共分成4篇, 分别是基本原理篇. 设计建模篇. 产品工具篇. 应用实践篇.
基本原理篇从第1章至第4章. 第1章“数据仓库概述”介绍从数据库到数据仓库的演变过程, 着重说明了要解决“蜘蛛网”问题, 必须在体系结构上加以变革, 将操作型环境和分析型环境分离. 第2章“数据仓库基本原理”主要介绍与数据仓库相关的基本概念和数据处理的流程, 着重说明了数据仓库( Datawarehouse)中数据清洗. 数据转化. 元数据. 数据集市等一系列重要的概念, 比较了数据仓库和数据库的特点和关键技术, 详细介绍了数据仓库面向主题. 数据集成. 数据稳定. 数据随时间变化的根本特征. 第3章“ OLAP的基本原理”主要介绍OLAP技术的概念和展现方式. 第4章“数据挖掘的基础”主要介绍与数据挖掘相关的概念, 本章首先给出数据挖掘的形式化定义, 然后介绍数据挖掘的描述型挖掘算法和预测性挖掘算法, 并列举了几个数据挖掘在网络中的实际应用.
设计建模篇从第5章至第10章, 它在基本原理篇的基础上进一步介绍了数据仓库模型设计. OLAP模型设计. 数据挖掘模型. 数据仓库的规划以及数据仓库的维护等问题. 第5章“企业模型设计”和第6章“数据仓库的模型设计”用于介绍数据仓库的建模知识. 第7章“OLAP建模方法”对OLAP建模方法进行了比较细致的介绍. 第8章“数据仓库规划和开发方法”介绍了数据仓库的投资分析和两种软件开发方法学. 第9章“数据挖掘的实施过程”介绍了数据挖掘的基本方法. 第10章“数据仓库的建立和维护”从业务系统. 数据仓库. OLAP. 数据挖掘. 数据展现等方面完整地说明了数据仓库建立的全过程, 并介绍了在数据仓库维护阶段设计人员和维护人员需要了解的技术问题.
产品介绍篇包括了第11章和第12章. 在第11章中, 简单介绍了现有的著名的数据仓库厂商及其主要产品, 并选择了有代表性的产品进行说明. 在第12章中, 从技术和需求两方面对产品选择问题作了一些分析.
应用实践篇从第13章至第16章. 本篇结合电信领域的特点, 通过一个电信领域的应用实例来说明数据仓库的具体实施方案. 第13章“项目的需求和目标分析”主要说明数据仓库在电信领域的应用规划. 第14章“系统结构和模型设计”介绍了系统结构设计. 数据仓库模型设计. OLAP模型设计三部分. 第15章“数据装载设计和数据挖掘”介绍了数据载入. 建立多维数据库. 数据挖掘相关的设计和实现问题. 第16章“界面设计和项目总结”说明了界面设计的相关问题, 并对项目的总体工作流程. 数据流程. 模块构成进行了总结.
本书的写作过程也是笔者们学习. 探讨. 实践的过程. 在此过程中, 笔者阅读了大量的国内外著作. 论文, 考察了数据仓库各大厂商的产品特征和性能, 对大量的资料进行了归纳和整理.
在本书的编写过程中, 得到了程时端. 卢美莲. 金跃辉. 龚向阳. 阙喜戎等教授的息心指导. 参加本书研讨和写作的有林宇. 郭凌云. 王令成. 伦勇. 高波. 翟朝阳. 胡颖峰. 李劲松. 徐自军. 王重钢. 乌海涛. 王首. 白刚. 范锐. 彭泳. 柴平宣. 乐辉华等. 另外, 高波为本书的筹备和组织做了大量工作. 在此对他们的辛勤工作表示深深的谢意!
由于数据仓库技术是一个新的技术, 加之笔者水平有限, 书中错误在所难免, 希望各位专家和广大读者给予批评指正, 多提宝贵意见.
编者
2002. 11