本书是数据仓库方面公认的“圣经”级权威著作的最新版本,集理论性和实践性于一身,英文原版全球销售已超过50万册。这一版本针对最新的技术和应用进行了全面修订,并更新了原有内容,探讨了数据集市、操作型数据存储和企业信息源 (Corporate Information Factory) 等全新主题。
在本书中,Inmon解释了数据仓库是什么而不是什么,为什么是必需的,它是如何工作的以及如何将新技术集成到传统的数据仓库中。同时,书中还对标准数据仓库与多维数据集市进行了比较。此外,本书还包含以下新内容:
如何将数据仓库技术应用于客户销售与支持
如何将数据仓库技术应用于决策支持,包括数据挖掘与数据勘察
如何采用最新存储技术大幅提升数据仓库的存取速度
ERP系统与数据仓库的集成
如何用数据仓库支持电子商务,包括获取和分析网站点击流量数据
第2版前言\r\n第3版前言\r\n作者简介\r\n第1章 决策支持系统的发展 1\r\n1.1 演化 1\r\n1.1.1 主文件 1\r\n1.1.2 直接存取存储设备的出现 3\r\n1.1.3 个人计算机/第四代编程语言技术 3\r\n1.1.4 进入抽取程序 3\r\n1.1.5 蜘蛛网 4\r\n1.2 自然演化式体系结构的问题 4\r\n1.2.1 数据缺乏可信性 5\r\n1.2.2 生产率问题 8\r\n1.2.3 从数据到信息 9\r\n1.2.4 方法的变迁 11\r\n1.3 体系结构化环境 12\r\n1.3.1 体系结构化环境的层次 12\r\n1.3.2 体系结构化环境中的数据集成 14\r\n1.4 用户是谁 15\r\n1.5 开发生命周期 15\r\n1.6 硬件利用模式 16\r\n1.7 为重建工程创造条件 17\r\n1.8 监控数据仓库环境 18\r\n1.9 小结 20\r\n第2章 数据仓库环境 21\r\n2.1 数据仓库的结构 24\r\n2.2 面向主题 24\r\n2.3 第1天到第n天的现象 28\r\n2.4 粒度 29\r\n2.4.1 粒度带来的好处 30\r\n2.4.2 粒度的一个例子 31\r\n2.4.3 双重粒度 34\r\n2.5 探查与数据挖掘 36\r\n2.6 活样本数据库 36\r\n2.7 分区设计方法 38\r\n2.8 数据仓库中的数据组织 40\r\n2.9 数据仓库:标准手册 43\r\n2.10 审计与数据仓库 44\r\n2.11 成本合理性分析 45\r\n2.12 数据的同构/异构 48\r\n2.13 数据仓库中的数据清理 50\r\n2.14 报表与体系结构化环境 50\r\n2.15 各种环境中的操作型窗口 51\r\n2.16 数据仓库中的错误数据 52\r\n2.17 小结 53\r\n第3章 设计数据仓库 55\r\n3.1 从操作型数据开始 55\r\n3.2 数据/过程模型与体系结构化环境 59\r\n3.3 数据仓库与数据模型 60\r\n3.3.1 数据仓库的数据模型 62\r\n3.3.2 中间层数据模型 63\r\n3.3.3 物理数据模型 67\r\n3.4 数据模型与迭代式开发 70\r\n3.5 规范化/反规范化 71\r\n3.6 数据仓库中的快照 75\r\n3.7 元数据 77\r\n3.8 数据仓库中的参照表管理 78\r\n3.9 数据周期—时间间隔 79\r\n3.10 转换和集成的复杂性 81\r\n3.11 数据仓库记录的触发 84\r\n3.11.1 事件 84\r\n3.11.2 快照的构成 84\r\n3.11.3 一些例子 84\r\n3.12 简要记录 85\r\n3.13 管理大量数据 86\r\n3.14 创建多个简要记录 87\r\n3.15 从数据仓库环境到操作型环境 87\r\n3.16 数据仓库数据的直接访问 88\r\n3.17 数据仓库数据的间接访问 88\r\n3.17.1 航空公司的佣金计算系统 89\r\n3.17.2 零售个性化系统 89\r\n3.17.3 信用审核 91\r\n3.18 数据仓库数据的间接使用 93\r\n3.19 星形连接 93\r\n3.20 支持ODS 98\r\n3.21 小结 99\r\n第4章 数据仓库中的粒度 100\r\n4.1 粗略估算 100\r\n4.2 粒度设计过程的输入 101\r\n4.3 溢出存储器中的数据 102\r\n4.4 确定粒度级别 105\r\n4.5 一些反馈循环技巧 106\r\n4.6 银行环境中的粒度级别 107\r\n4.7 制造业环境中的粒度级别 108\r\n4.8 保险业环境中的粒度级别 111\r\n4.9 小结 113\r\n第5章 数据仓库和技术 114\r\n5.1 管理大量数据 114\r\n5.2 管理多种介质 115\r\n5.3 索引/监控数据 115\r\n5.4 多种技术的接口 116\r\n5.5 程序员/设计者对数据存放位置的\r\n控制 116\r\n5.6 数据的并行存储/管理 117\r\n5.7 元数据管理 117\r\n5.8 语言接口 117\r\n5.9 数据的有效装载 118\r\n5.10 有效利用索引 119\r\n5.11 数据压缩 119\r\n5.12 复合主键 119\r\n5.13 变长数据 119\r\n5.14 加锁管理 120\r\n5.15 只涉及索引的处理 120\r\n5.16 快速恢复 121\r\n5.17 其他的技术特征 121\r\n5.18 DBMS类型和数据仓库 121\r\n5.19 改变DBMS技术 123\r\n5.20 多维DBMS和数据仓库 123\r\n5.21 在多种存储介质上构建数据仓库 128\r\n5.22 数据仓库环境中的元数据 128\r\n5.23 上下文和内容 130\r\n5.24 上下文信息的三种类型 130\r\n5.25 捕获和管理上下文信息 132\r\n5.26 刷新数据仓库 132\r\n5.27 测试问题 134\r\n5.28 小结 134\r\n第6章 分布式数据仓库 136\r\n6.1 分布式数据仓库的类型 136\r\n6.1.1 局部数据仓库和全局数据仓库 136\r\n6.1.2 技术分布式数据仓库 148\r\n6.1.3 独立开发的分布式数据仓库 150\r\n6.2 开发项目的本质特征 150\r\n6.3 分布式数据仓库的开发 152\r\n6.3.1 在分布的地理位置间协调开发 153\r\n6.3.2 企业数据的分布式模型 154\r\n6.3.3 分布式数据仓库中的元数据 156\r\n6.4 在多种层次上构建数据仓库 156\r\n6.5 多个小组建立当前细节级 158\r\n6.5.1 不同层的不同需求 160\r\n6.5.2 其他类型的细节数据 162\r\n6.5.3 元数据 163\r\n6.6 公共细节数据采用多种平台 164\r\n6.7 小结 165\r\n第7章 主管信息系统和数据仓库 166\r\n7.1 EIS的目标 166\r\n7.2 一个简单例子 166\r\n7.3 向下钻取分析 168\r\n7.4 支持向下钻取处理 170\r\n7.5 作为EIS基础的数据仓库 170\r\n7.6 到哪里取数据 172\r\n7.7 事件映射 174\r\n7.8 细节数据和EIS 175\r\n7.9 在EIS中只保存汇总数据 176\r\n7.10 小结 176\r\n第8章 外部数据/非结构化数据与数据\r\n仓库 177\r\n8.1 数据仓库中的外部数据/非结构化数\r\n据 178\r\n8.2 元数据和外部数据 179\r\n8.3 存储外部数据/非结构化数据 181\r\n8.4 外部数据/非结构化数据的不同部件 182\r\n8.5 建模与外部数据/非结构化数据 182\r\n8.6 辅助报告 183\r\n8.7 外部数据归档 183\r\n8.8 内部数据与外部数据的比较 183\r\n8.9 小结 184\r\n第9章 迁移到体系结构化环境 185\r\n9.1 一种迁移方案 185\r\n9.2 反馈循环 191\r\n9.3 策略方面的考虑 192\r\n9.4 方法和迁移 194\r\n9.5 一种数据驱动的开发方法学 194\r\n9.6 数据驱动的方法 196\r\n9.7 系统开发生命周期 196\r\n9.8 一个哲学上的考虑 196\r\n9.9 操作型开发/DSS开发 196\r\n9.10 小结 197\r\n第10章 数据仓库和Web 198\r\n10.1 支持电子商务环境 204\r\n10.2 将数据从Web移动到数据仓库 205\r\n10.3 将数据从数据仓库移动到Web 205\r\n10.4 对Web的支持 206\r\n10.5 小结 206\r\n第11章 ERP和数据仓库 207\r\n11.1 数据仓库之外的ERP应用系统 207\r\n11.2 建造在ERP内部的数据仓库 208\r\n11.3 通过ERP和非ERP系统为数据仓库提\r\n供数据 209\r\n11.4 面向ERP的企业数据仓库 212\r\n11.5 小结 213\r\n第12章 数据仓库的设计复查要目 214\r\n12.1 进行设计复查所涉及的问题 215\r\n12.1.1 何时进行设计复查 215\r\n12.1.2 谁负责设计复查 215\r\n12.1.3 有哪些议事日程 215\r\n12.1.4 结果 215\r\n12.1.5 复查管理 215\r\n12.1.6 典型的数据仓库设计复查 216\r\n12.2 小结 227\r\n附录 228\r\n技术词汇 257\r\n参考文献 265
第2版前言
数据库及其理论已经出现好长时间了. 早期数据库主要是一些单独的数据库, 应用于数据处理领域的各个方面—从事务处理到批处理到分析型处理. 早期的大多数数据库系统主要集中于操作型的日常事务处理. 近年来, 出现了一种更高级的数据库观念, 即一种数据库服务于操作型需求, 而另一种数据库则服务于信息型或分析型需求. 从某种程度上讲, 这种数据库的新颖的思想是随着个人计算机技术. 第四代程序设计语言(4GL)技术以及最终用户新需求的出现而产生的.
将操作型数据库和信息型数据库分离开是出于以下原因:
?服务于操作型需求的数据在物理上不同于服务于信息型或分析型需求的数据.
?支持操作型处理的技术从根本上不同于支持信息型或分析型需求的技术.
?操作型数据的用户群体不同于信息型或分析型数据所支持的用户群体.
?操作型环境的处理特点与信息型环境的处理特点从根本上是不同的.
由于这些原因(以及很多其他原因), 当今建立系统的方法是将操作型处理及数据与信息型或分析型处理及数据分离开来.
本书讨论分析型环境, 或称为决策支持系统(DSS)环境, 以及在这种环境中的数据构造问题. 本书的重点是讨论信息型和DSS处理的核心, 这个核心就是数据仓库(或信息仓库).
本书所讨论的问题是面向管理者和开发者的, 在某些地方涉及技术问题. 但本书多数部分是关于数据仓库问题和技术的. 本书旨在作为数据仓库设计者和开发者的一本指导性读物.
第3版前言
当本书第1版印刷出来的时候, 数据库理论家们对数据仓库的概念大加嘲笑, 有一个理论家说数据仓库技术将使信息技术倒退20年, 另有人说不应允许数据仓库技术的创建者在公共场合发表言论, 还有另外一些学院派研究人员宣称数据仓库技术根本就不是新技术, 学术界一直就已经知道数据仓库技术, 尽管那时没有书. 没有文章. 没有课程. 没有研讨会. 没有学术会议. 没有报告. 没有参考文献. 没有论文. 也没有可用的术语或概念.
当本书第2版出来以后, 整个世界已经为因特网上的一切而疯狂. 想要成功, 总得在各种词前面加上“e”字, 如e-business, e-commerce, e-tailing, 等等. 记得一个风险投资家说过“我们现在有了因特网, 为什么还要数据仓库?”
但是数据仓库技术已经超越了那些想把所有数据放在一个数据库中的数据库理论家们. 数据仓库技术也挺过了由那些短视的风险投资家所带来的“.com”灾难. 在技术常被华尔街和小城镇主街抛弃的这个时代里, 数据仓库技术从来没有像现在这么活跃和强大. 现在有各种各样的学术会议. 研讨会. 书籍. 文章. 咨询等等. 但更重要的是现在很多公司在做数据仓库. 我们还可以发现, 与大肆宣扬的所谓新经济不同, 数据仓库技术确确实实在发挥着作用, 尽管硅谷还在否认它.
本书的第3版预示着数据仓库技术的一个更新的甚至更强大的未来. 当今, 数据仓库技术已经不再是纯粹的理论, 而是一个活生生的事实. 现成的新技术已经可以用来支持对数据仓库的各种新奇的需求. 许多企业已经在通过数据仓库运转它们的重要业务. 由于有了数据仓库, 获取信息的代价急剧降低. 对于混乱的遗留系统环境, 管理人员最终也有了一个可行的解决方案. 企业第一次拥有了可用的企业范围内的历史数据存储. 整个企业的数据集成也真正成为可能, 这在多数情况下还是第一次. 许多企业正在学习如何从数据到信息, 再到竞争优势. 简而言之, 数据仓库技术极大地冲破了技术的束缚.
数据仓库一个容易使人糊涂的地方在于它是一种体系结构而不是一种技术. 这一点使技术人员和风险投资家感到灰心, 因为他们想要买的是那些很好地打成了包的东西. 但是数据仓库技术本身并不会将自己封装起来. 体系结构和技术之间的差别就象是新墨西哥州圣达菲和砖块之间的差别一样. 如果你在圣达菲的大街上开着车, 你就会知道你是在圣达菲, 而不是在别的什么地方. 每一个住宅. 每一座办公楼. 每一个饭馆都有显著的特征, 提醒我们“这里是圣达菲”. 使得圣达菲很突显的外观和风格可以称为是建筑的体系结构, 而这个体系结构是由砖块和裸露的横梁构成的. 当然, 如果没有这些砖块和横梁就没有圣达菲的各种建筑. 但是砖块和横梁本身并不能构成体系结构. 它们是独立的技术. 例如, 你在美国西南部所有地方和世界的其他地方都能看到砖块, 但它们并不是圣达菲的建筑.
因此, 数据仓库和数据库及其他技术之间的关系, 就像是体系结构和技术之间的关系. 有了某个体系结构, 则就有相应的基础技术, 它们两者之间具有很大的差别. 毫无疑问, 数据仓库技术和数据库技术之间存在关系, 但是, 可以确定的是, 它们并不是同一个东西. 数据仓库技术需要许多不同种类技术的支持.
有了本书的第3版, 现在我们就可以知道什么东西管用, 什么东西不管用. 在写本书第1版的时候, 我们已有一些开发和使用数据仓库的经验, 但是, 说真的, 当时的经验没有现在多. 例如, 现在我们可以确切地知道以下这些内容:
?数据仓库的建立要采用不同于应用程序的开发方法, 不记住这点可能会带来很大的问题.
?数据仓库在根本上不同于数据集市. 它们之间不能混在一起, 就像是油和水一样.
?数据仓库能够实现所承诺的功用, 而不是像许多其他被过分宣扬的. 已经渐渐消逝的技术一样.
?数据仓库中汇集了大量的数据, 这样就需要有全新的技术来管理大规模的数据.
但是, 或许数据仓库最吸引人的东西是数据仓库构成了许多其他各种形式的处理的基础. 可以改造也可以重复使用数据仓库中的各种粒度数据. 如果存在一个关于数据仓库的永恒和深刻的真理的话, 那就是:数据仓库为许多其他各种形式的信息处理提供了理想的基础. 为什么这个基础是如此重要, 有许多原因, 比如:
?真理只有单个版本.
?如果需要的话可以重新调整数据.
?可以为新的. 未知的应用随时提供数据.
最后, 数据仓库技术降低了企业的获取信息的代价. 有了数据仓库技术, 获取数据将不再昂贵, 数据访问也将更加快捷.
数据库及其理论已经出现好长时间了. 早期数据库主要是一些单独的数据库, 应用于数据处理领域的各个方面—从事务处理到批处理到分析型处理. 早期的大多数数据库系统主要集中于日常事务的操作型处理. 近年来, 出现了一种更高级的数据库观念, 即一种数据库服务于操作型需求, 而另一种数据库则服务于信息型或分析型需求. 从某种程度上讲, 这种新颖的思想是随着个人计算机技术. 第四代程序设计语言(4GL)技术以及最终用户新需求的出现而产生的.
将操作型数据库和信息型数据库分离开是出于以下原因:
?服务于操作型需求的数据在物理上不同于服务于信息型需求或分析型需求的数据.
?支持操作型处理的技术从根本上不同于支持信息型或分析型需求的技术.
?操作型数据的用户群体不同于信息型或分析型数据所支持的用户群体.
?操作型环境的处理特点与信息型环境的处理特点从根本上是不同的.
由于这些原因(以及很多其他原因), 当今建立系统的方法是将操作型处理及数据与信息型或分析型处理及数据分离开来.
本书讨论分析型环境, 或称为决策支持系统(DSS)环境, 以及在这种环境中的数据构造问题. 本书的重点是讨论信息型和DSS处理的核心, 这个核心就是数据仓库(或信息仓库).
什么是分析型. 信息型处理?这种处理服务于决策支持过程中的管理需求, 一般称为DSS处理, 它要在大量的数据中找到趋势. 不同于只查找一二条数据记录(如在操作型处理中那样), 当DSS分析人员进行分析型处理时, 需要访问大量的数据记录.
DSS分析人员很少修改数据. 在操作型系统中, 数据会在个体记录层次上被经常修改. 在分析型处理中, 经常需要访问记录, 收集来的记录内容是用于分析的需要, 但很少或不需要对单个的记录进行更改.
相对于传统的操作型处理, 在分析型处理中, 响应时间的要求被大大放宽. 分析型处理的响应时间可以放宽到30分钟到24小时. 这样的响应时间标准对于操作型处理而言是一个巨大的灾难.
服务于分析型用户群体的网络比服务于操作型用户群体的网络的规模要小得多. 通常情况下, 分析型网络的用户比操作型网络的用户要少很多.
与应用于分析型环境的技术不同, 操作型环境中的技术必须将技术本身与数据和事务锁定. 数据争用. 死锁等等因素结合起来考虑.
这样, 在操作型环境和分析型环境之间存在许多重大的区别. 本书针对分析型的DSS环境进行讨论, 并着重讨论以下问题:
?数据的粒度.
?数据分区.
?元数据.
?数据可信度的缺乏问题.
?DSS数据的集成.
?DSS数据的时间基准.
?确定DSS数据的数据源—记录系统.
?数据迁移及方法.
本书适合于开发人员. 管理人员. 设计人员. 数据管理员. 数据库管理员, 以及任何在现代数据处理环境中进行系统建造的人员. 另外, 本书也很适用于学习信息处理技术的学生. 本书有些地方的讨论更具有技术性. 但全书多数部分是关于数据仓库的问题和技术的. 本书旨在作为数据仓库设计者和开发者的一本指导性读物.
本书是有关数据仓库的系列丛书中的第一本. 该系列丛书的第二本是Using the Data Warehouse(Wiley, 1994年出版). 该书着重阐述在建立好的数据仓库后所面临的一些问题. 此外, 还介绍了一个更大的体系结构的概念和操作型数据存储(ODS)的思想. 操作型数据存储在体系结构上与数据仓库相似, 两者的区别在于操作型数据存储仅适用于操作型系统, 而不是信息型系统. 该系列丛书的第三本是Building the Data Store(Wiley, 1999年出版), 它阐述什么是操作型数据存储以及如何建造操作型数据存储.
数据仓库系列丛书的第四本是Corporate Information Factory, Third Edition(Wiley, 2002年出版). 该书阐述了以数据仓库为中心的更大的信息系统. 在很多方面, 有关CIF的书和有关DW的书是相辅相成的. 有关CIF的书着眼点更高, 而有关DW的书则做出了更为集中的讨论. 该系列丛书还包括了Exploration Warehousing(Wiley, 2000年出版). 该书阐述了使用统计技术对数据仓库中的数据所进行的一种特殊的处理模式分析.
不论怎样, 《数据仓库》都是这一系列丛书的基石. 数据仓库是其他所有DSS处理形式的基础.
也许本书结尾引用的参考文献最能雄辩地说明数据仓库和企业信息工厂所带来的进步. 本书第一版出版时, 除了少数论文外, 没有其他书籍或白皮书可供参考引用. 而这次的第3版则提到了许多书籍. 论文和白皮书, 引用的参考文献也确实只是揭示了大量重要工作中的一部分.