本书描述了可视化数据挖掘技术,以及可视化数据挖掘技术能够解决的商业问题。在介绍完业务问题和基本原理后,以一个完整的实例逐步讲解如何利用可视化数据挖掘技术实施商业智能项目的方法。利用可视化数据挖掘工具和技术,分析人员能够从全新的角度快速、轻松地检索信息解决常见的商业问题。可视化数据挖掘使数据挖掘变得简单,非技术出身的业务经理们利用它能够更好地了解市场并做出明智的决策。\r\n\r\n 另外,本书还介绍了可视化工具方面的知识,拓宽了读者的范围。本书适合于数据可视化和可视化数据挖掘商业智能解决方案实施单位的各层次人员,包括:数据分析员、业务分析员、领域专家和决策人员。\r\n
\r\n
第1部分 项目规划阶段 \r\n\r\n 第1章 数据可视化和可视化数据挖掘介绍 \r\n\r\n 1.1 可视化数据集 \r\n\r\n 1.1.1 可视化数据类型 \r\n\r\n 1.1.2 可视维与数据维 \r\n\r\n 1.2 数据可视化工具 \r\n\r\n 1.2.1 多维数据可视化工具 \r\n\r\n 1.2.2 层次和地形数据可视化工具 \r\n\r\n 1.3 可视化数据挖掘工具 \r\n\r\n 1.4 小结 \r\n\r\n 第2章 步骤1:验证和规划数据可视化和数据挖掘项目 \r\n\r\n 2.1 项目类型 \r\n\r\n 2.2 项目可行性分析 \r\n\r\n 2.2.1 Dayton Hudson公司成功案例 \r\n\r\n 2.2.2 Marketing Dynamics成功案例 \r\n\r\n 2.2.3 Sprint成功案例 \r\n\r\n 2.2.4 Lowestfare.com成功案例 \r\n\r\n 2.2.5 可视化数据挖掘的挑战 \r\n\r\n 2.3 闭环的业务模型 \r\n\r\n 2.3.1 使用闭环业务模型 \r\n\r\n 2.4 项目时间表 \r\n\r\n 2.5 项目资源和角色 \r\n\r\n 2.5.1 数据和业务分析团队 \r\n\r\n 2.5.2 领域专家团队 \r\n\r\n 2.5.3 决策制定团队 \r\n\r\n 2.5.4 操作团队 \r\n\r\n 2.5.5 数据仓库团队 \r\n\r\n 2.6 项目验证和计划的案例研究 \r\n\r\n 2.7 小结 \r\n\r\n 第3章 步骤2:识别关键的业务问题 \r\n\r\n 3.1 选择关键的业务问题 \r\n\r\n 3.1.1 数据挖掘不能解决的问题 \r\n\r\n 3.1.2 数据可视化问题定义 \r\n\r\n 3.1.3 可视化数据挖掘问题定义 \r\n\r\n 3.2 计划投资回报率(ROI)目标 \r\n\r\n 3.2.1 决定可视化和数据挖掘分析目标以及成功的条件 \r\n\r\n 3.3 问题和目标定义案例研究 \r\n\r\n 3.4 小结 \r\n\r\n 第2部分 数据预处理阶段 \r\n\r\n 第4章 步骤3:选择业务数据集 \r\n\r\n 4.1 识别操作型数据 \r\n\r\n 4.1.1 探索型数据集市 \r\n\r\n 4.1.2 业务数据集 \r\n\r\n 4.1.3 数据类型 \r\n\r\n 4.1.4 实验单元 \r\n\r\n 4.2 从操作型数据源选择字段 \r\n\r\n 4.2.1 数据维编码 \r\n\r\n 4.2.2 数据维一致性 \r\n\r\n 4.2.3 业务规则一致性 \r\n\r\n 4.2.4 惟一列 \r\n\r\n 4.2.5 重复列 \r\n\r\n 4.2.6 关联字段 \r\n\r\n 4.2.7 可忽略的字段 \r\n\r\n 4.3 ECTL过程的开发和归档 \r\n\r\n 4.3.1 数据清洗 \r\n\r\n 4.3.2 操作型数据源抽样 \r\n\r\n 4.3.3 避免样本偏差 \r\n\r\n 4.3.4 可用的ECTL工具 \r\n\r\n 4.3.5 ECTL过程归档 \r\n\r\n 4.4 选择业务数据集案例研究 \r\n\r\n 4.4.1 识别操作型数据源 \r\n\r\n 4.4.2 客户文件的ECTL过程 \r\n\r\n 4.4.3 客户文件ECTL过程归档 \r\n\r\n 4.4.4 合同文件的ECTL过程 \r\n\r\n 4.4.5 合同文件ECTL过程归档 \r\n\r\n 4.4.6 账单文件的ECTL过程 \r\n\r\n 4.4.7 账单文件ECTL构成归档 \r\n\r\n 4.4.8 人口统计文件的ECTL过程 \r\n\r\n 4.4.9 人口统计文件ECTL过程归档 \r\n\r\n 4.4.10 创建业务数据集的过程 \r\n\r\n 4.4.11 案例ECTL过程回顾 \r\n\r\n 4.5 小结 \r\n\r\n 第5章 步骤4:转换业务数据集 \r\n\r\n 5.1 逻辑转换的类别 \r\n\r\n 5.1.1 表级别的逻辑转换 \r\n\r\n 5.1.2 字段级别的逻辑转换 \r\n\r\n 5.1.3 逻辑转换归档 \r\n\r\n 5.2 客户保留业务数据集逻辑转换的VDM案例研究 \r\n\r\n 5.2.1 customer_join业务数据集逻辑转换 \r\n\r\n 5.2.2 业务数据集customer_join逻辑转换归档 \r\n\r\n 5.2.3 customer_demographic业务数据集逻辑转换 \r\n\r\n 5.2.4 业务数据集customer_demographic逻辑转换归档 \r\n\r\n 5.2.5 案例研究中的逻辑转换过程回顾 \r\n\r\n 5.3 小结 \r\n\r\n 第6章 步骤5:验证业务数据集 \r\n\r\n 6.1 验证过程 \r\n\r\n 6.1.1 验证数据准备操作的完整性 \r\n\r\n 6.1.2 验证数据准备操作的逻辑 \r\n\r\n 6.2 数据特征分析工具 \r\n\r\n 6.3 验证案例学习中的数据集 \r\n\r\n 6.3.1 验证ECTL过程 \r\n\r\n 6.3.2 验证逻辑转换 \r\n\r\n 6.4 小结 \r\n\r\n 第3部分 数据分析阶段和其他 \r\n\r\n 第7章 步骤6:选择可视化或挖掘工具 \r\n\r\n 7.1 选择合适的数据可视化工具 \r\n\r\n 7.1.1 多维可视化 \r\n\r\n 7.1.2 特殊的地形和层次可视化工具 \r\n\r\n 7.2 选择合适的数据挖掘工具 \r\n\r\n 7.2.1 哪些数据挖掘工具是可用的 \r\n\r\n 7.2.2 有监督和无监督的学习 \r\n\r\n 7.2.3 有监督学习工具 \r\n\r\n 7.2.4 无监督学习工具 \r\n\r\n 7.2.5 数据挖掘工具解决典型问题的情况 \r\n\r\n 7.2.6 哪种可用的工具最适合目前的情况 \r\n\r\n 7.3 为本案例选择可视化和数据挖掘工具 \r\n\r\n 7.3.1 选择数据可视化工具 \r\n\r\n 7.3.2 选择数据挖掘工具 \r\n\r\n 7.4 小结 \r\n\r\n 第8章 步骤7:分析可视化或挖掘工具 \r\n\r\n 8.1 分析数据可视化 \r\n\r\n 8.1.1 使用频率图发现和评估关键的业务指标 \r\n\r\n 8.1.2 使用帕雷托图发现和评估关键业务指标的重要性 \r\n\r\n 8.1.3 使用雷达图描绘季节性的趋势和问题区域 \r\n\r\n 8.1.4 使用折线图分析时间关系 \r\n\r\n 8.1.5 使用散点图评估因果关系 \r\n\r\n 8.2 分析数据挖掘模型 \r\n\r\n 8.2.1 使用可视化了解核心数据挖掘任务的性能 \r\n\r\n 8.3 使用可视化了解和评估有监督学习模型 \r\n\r\n 8.3.1 在模型部署之后使用可视化 \r\n\r\n 8.4 分析案例中的可视化和数据挖掘工具 \r\n\r\n 8.4.1 使用带有趋势线的频率图分析时间关系 \r\n\r\n 8.4.2 使用帕雷托图发现和评估关键业务指标的重要性 \r\n\r\n 8.4.3 使用散点图评估因果关系 \r\n\r\n 8.4.4 使用数据挖掘进一步认识客户流失问题 \r\n\r\n 8.5 小结 \r\n\r\n 第9章 步骤8:验证和展示可视化或挖掘模型 \r\n\r\n 9.1 验证数据可视化和挖掘模型 \r\n\r\n 9.1.1 验证业务数据集的逻辑转换 \r\n\r\n 9.1.2 验证你的业务假设 \r\n\r\n 9.2 组织和创建业务展示 \r\n\r\n 9.2.1 业务展示部分 \r\n\r\n 9.2.2 要求采取行动 \r\n\r\n 9.3 VDM项目的实施阶段 \r\n\r\n 9.4 验证和展示分析结果的案例研究 \r\n\r\n 9.4.1 验证对业务数据集所做的逻辑转换 \r\n\r\n 9.4.2 验证业务假设 \r\n\r\n 9.4.3 业务展示 \r\n\r\n 9.5 小结 \r\n\r\n 第10章 可视化数据挖掘的未来 \r\n\r\n 10.1 项目计划阶段 \r\n\r\n 10.2 数据准备阶段 \r\n\r\n 10.3 数据分析阶段 \r\n\r\n 10.4 商业可视化数据挖掘软件的趋势 \r\n\r\n 10.4.1 更多的图表种类和用户自定义的布局 \r\n\r\n 10.4.2 允许用于进行交互的动态可视化 \r\n\r\n 10.4.3 可视化数据结构的大小和复杂性 \r\n\r\n 10.4.4 工具间交换信息的标准 \r\n\r\n 10.5 小结 \r\n\r\n 词汇表 \r\n
\r\n
商业智能解决方案将业务数据转换成明确的. 基于事实的. 能够执行的信息, 并且使得业务人员能够发现客户趋势, 创建客户忠诚度, 增强与供应商的关系, 减小金融风险, 以及揭示新的销售商机. 商业智能的目标是了解变化的意义——从而理解甚至预见变化本身. 它使你能够访问当前的. 可靠的和易消化的信息, 并能够从各个侧面及不同的维度灵活地浏览信息和建立模型. 商业智能解决方案回答的是“如果……怎么办(What if…)”之类的问题, 而不是“发生了什么?(What happened?)”. 简而言之, 商业智能解决方案是提高和维持竞争优势的一条有效的途径.
数据可视化和数据挖掘是两种技术, 它们常常被用来创建和部署成功的商业智能解决方案. 通过应用可视化和数据挖掘技术, 业务人员能够充分地探索业务数据, 从而发现潜在的. 以前未知的趋势. 行为和异常.
■ 数据可视化工具和技术帮助用户创建二维或三维业务数据集的图表, 使得用户易于解释业务数据, 从而提升知识和洞察力 (insight).
■ 可视化数据挖掘工具和技术帮助用户创建可视化的数据挖掘模型, 利用这些模型发现业务数据集中存在的模式, 从而辅助决策支持及预测新的商机.
在上述两种情况中, 可视化是帮助业务人员和数据分析人员从业务数据集中发现新的模式和趋势的关键. 在发现者和决策者之间进行信息交流, 可视化是一种被证明行之有效的方法. 有效地利用数据可视化和可视化数据挖掘, 商业的赢利和投资回报率(ROI)就会得到保障. 举例而言, 业务人员如果能够更好地理解客户行为的动机, 则有助于企业缩减客户欺诈, 预见资源需求, 增加客户获取, 以及控制客户流失.
◣ 本书简介和相关技术
本书首先帮助你准备原始数据并转换成业务数据集, 然后, 利用数据可视化和可视化数据挖掘工具和技术对已经准备好的业务数据集进行分析. 对比其他商业智能技术和工具, 我们发现, 可视化缩短了你获得洞察力的时间(time-to-insight)——这段时间包括发现并理解潜在的. 以前未知的趋势. 行为和异常, 以及将发现的结果与决策者交流和沟通的时间. 在可视化领域, 通常有“一图解千言”的讲法, 也就是说, 一幅图片能够逼真地描述出一千个字都难以说清楚的情景. 例如, 少许的数据可视化就能够用来快速地交流最重要的发现, 而传统的联机分析处理(OLAP)可能需要对上百页的数据进行排序来说明同样的问题. 与此相似, 可视化数据挖掘工具和技术能够使你形象地对分类. 关联. 簇和其他数据挖掘模型进行检查和交互, 从而更好地理解这些模型, 更快地缩短获得洞察力的时间(time-to-insight).
本书自始至终采用了可视化数据挖掘这个术语, 可视化数据挖掘指的是采用可视化的方式检查. 理解交互数据挖掘算法. 利用你的双眼, 采用数据可视化的方式发现模式, 也能被称做可视化数据挖掘. 在这种情况下, 人类的大脑扮演了模式识别中数据挖掘引擎的角色. 不幸的是, 不是所有的数据挖掘算法产生的模型都能够可视化(或者说它们不能称做有意义的可视化). 例如, 用于分类的神经网络模型. 估值. 簇就不能进行合适的可视化.
世界上最精密复杂的模式识别机器莫过于人类的大脑. 数据可视化和可视化数据挖掘的工具和技术, 对模式识别而言是非常有帮助的, 它们能够将大量复杂的模式简化成二维或三维数据集的图片和数据挖掘模型. 通常, 这些可视化产生了能够付诸行动的业务洞察(insight). 可视化有助于业务人员和数据分析人员快速和直观地发现有趣的模式, 并且能够把这些洞察与其他业务人员和数据分析人员, 同样也包括决策人员, 进行交流和沟通.
IDC和数据仓库协会(The Data Warehousing Institute)对已经实施商业智能解决方案的客户进行调研后, 得出以下两个结论.
(可视化是必需的(来源:IDC).
80%商业智能的客户发现可视化是合乎需要的.
(超过80%的数据仓库的用户认为数据挖掘算法是重要的(来源:数据仓库协会).
可视化和数据挖掘商业智能解决方案独立于行业和业务功能. 例如, 电信. 证券交易. 信用卡和保险公司都能够利用可视化和数据挖掘检测欺诈使用他们服务的行为, 药品行业能够利用数据挖掘预测手术过程. 药品测试. 药物治疗等方面的有效性, 零售行业能够利用数据挖掘评估优惠券和促销活动的有效性. 加德纳(Gartner)集团公司的调查报告预计, 到2010年, 数据挖掘在相关市场的使用将从目前的少于5%增加到超过80%(来源:Gartner).
实际上, 可视化和数据挖掘已经被使用相当长一段时间了. 然而, 数据挖掘这个术语仅仅在近期才在商业界赢得信任, 这主要是因为它在控制成本和增加收入方面的能力得以体现. 数据挖掘也被称做数据库中的知识发现(KDD). 数据挖掘或者KDD正式的定义是在规模很大的数据库中抽取有趣的(有价值的. 隐含的. 以前未知的和潜在有用的)信息.
本书的目的首先是介绍数据可视化和可视化数据挖掘工具和技术, 然后示范如何获得和准备业务数据集, 并且给读者提供一套利用数据可视化和可视化数据挖掘的方法来解决你的业务问题.
◣ 本书组织结构
尽管有许多关于数据可视化和数据挖掘理论的书, 但是很少有提出创建数据可视化和执行可视化数据挖掘方法的. 本书提出了一套行之有效的方法, 包括8个步骤, 用以创建数据可视化和可视化数据挖掘(VDM), 如图1所示. 本书自始至终严格遵循这套VDM的8步法展开论述. 对于这套方法中的每一步, 本书都给出了实际的示例, 然后利用真实的数据集将它应用于现实世界中的业务问题. 这些数据集在本书作者的网站上能够下载. 我们也希望在你学习这套方法的每个步骤时, 能够在你自己的现实数据集上应用它, 以解决实际业务问题, 从而理解数据可视化和可视化数据挖掘的有用之处.
图1按照顺序依次描述了这套方法的各个步骤, 然而, 准备业务数据及创建与分析数据可视化和数据挖掘模型都是反复循环的过程. 当数据和可视化不断细化, 当你不断地增加对数据集的理解, 当你更加深入地理解一个数据事实(字段column )与其他数据事实(其他字段)之间重要关系的时候, 数据可视化和可视化数据挖掘的步骤常常需要不断地重复. 数据或业务分析人员在数据挖掘的过程中想一次性创建一个类似产品的数据可视化或数据挖掘模型是不现实的.
本书由3大部分组成, 这3个部分分别对应数据可视化和可视化数据挖掘(VDM)项目的三个阶段:
■ 项目规划
■ 数据预处理
■ 数据分析
第1部分:项目规划阶段
第1章:“数据可视化和可视化数据挖掘介绍”主要论述贯穿全书的数据可视化和可视化数据挖掘的概念. 本章举例说明了用少数几个数据可视化图表就能够替代(或者扩充)数百页传统的OLAP报告. 通过示例, 讨论了多维的. 空间的(地形)和层次分析的数据可视化工具和技术. 有人将数据可视化仅仅看做传统的统计工具, 如基本的统计表格和柱形图. 这是一种误解, 数据可视化的范围远不仅此. 本章也介绍了可视化数据挖掘的概念, 描述了如何对数据挖掘模型进行可视化, 以帮助数据和业务分析人员. 领域专家和决策人员理解数据挖掘模型以及与数据挖掘模型交互, 本章以决策树模型为例进行了论述. 最后, 还讨论了利用可视化工具检验数据挖掘模型的有效性, 同样也能分析模型的潜在利用率.
第2章:“步骤1:验证和规划数据可视化和数据挖掘项目”介绍数据可视化和可视化数据挖掘(VDM)方法8个步骤中的第1步, 讨论商业智能解决方案中业务方面的问题. 大多数情况下, 项目开始之前需要进行业务可行性论证(或者为项目筹备资金). 本章以实例的形式描述了如何使用数据可视化和可视化数据挖掘工具和技术来解决各种不同的业务问题. 本章还讨论了VDM项目计划, 指导你如何评估项目时间和资源需求. 这有助于定义项目团队的角色和责任. 最后, 介绍了一个VDM项目——客户保留业务案例研究, 并讲述了如何在该案例中应用第1步方法.
第3章:“步骤2:识别关键的业务问题”介绍VDM方法中的第2个步骤. 本章讨论了如何鉴定和细化业务问题, 使得这些业务问题能够通过数据可视化和可视化数据挖掘的方法来进行研究. 本章还指导你如何将VDM项目中最重要的业务问题映射成数据可视化和可视化数据挖掘的问题定义. 最后, 将应用第2步继续客户保留案例的研究.
第2部分:数据预处理阶段
第4章:“步骤3:选择业务数据集”介绍VDM方法中的第3个步骤, 并且讨论了如何从操作型数据源中选择出相关的数据, 解决第3章识别出的数据可视化和可视化数据挖掘问题. 本章介绍了探索型数据集市的概念, 数据集市是为研究业务问题而创建和维持的业务数据集的仓库(repository). 探索型数据集市利用抽取. 清洗. 转换. 装载(ECTL:Extract, Cleanse, Transform, Load)等操作, 将原始的数据合并成一个或多个业务数据集. 本章以实例指导你如何为VDM项目选择数据, 接上一章, 继续在客户保留案例中应用第3个步骤.
第5章:“步骤4:转换业务数据集”介绍VDM方法中的第4个步骤. 本章讨论了如何对存储在探索型数据集市中的业务数据集完成逻辑转换. 逻辑转换通常会扩大原来的业务数据集的容量, 从而能够对需要研究的业务问题有更深入的洞察. 同样, 本章以实例指导你如何在VDM项目中转换数据, 并且在客户保留案例中应用了第4个步骤.
第6章:“步骤5:验证业务数据集”介绍VDM方法中的第5个步骤. 本章讨论如何验证产生的业务数据集是否包含期望的数据, 以及验证ECTL过程(第4章)和逻辑转换(第5章)是否正确, 业务数据集是否有偏斜. 本章以实例指导验证的过程, 并且继续了客户保留案例的研究.
第3部分:数据分析阶段和其他
第7章:“步骤6:选择可视化或挖掘工具”介绍VDM方法中的第6个步骤. 本章讨论如何选择和调整合适的可视化或数据挖掘模型工具, 来解决第3章中识别出的业务问题. 本章以实例指导你如何选择可视化和数据挖掘模型工具, 并且继续了客户保留案例的研究.
第8章:“步骤7:分析可视化或挖掘工具”介绍VDM方法中的第7个步骤. 本章讨论了如何利用数据可视化和可视化数据挖掘模型提升业务洞察力, 回答第3章识别出的业务问题. 对数据挖掘而言, 本章还讨论如何评估每个模型预测的准确性, 并且和其他模型进行比较, 使得你能够决定选择最好的模型来解决业务问题. 而且, 利用数据可视化和可视化数据挖掘模型能够更直观地研究发现的结果(业务趋势和异常). 本章以实例指导你如何在VDM项目中分析可视化或数据挖掘模型, 并且应用第7个步骤继续客户保留案例的研究.
第9章:“步骤8:验证和展示可视化或挖掘模型”介绍VDM方法中的第8个步骤. 本章讨论了3部分内容:验证数据可视化和数据挖掘模型是否满足业务目标, 展示可视化和数据挖掘模型给决策管理人员, 如果合适的话, 将可视化和数据挖掘模型部署在具体的生产环境中. 尽管本章讨论的是实施阶段的工作, 全部的尝试超出了本书范围, 但是, 本章还是继续了客户保留案例的研究, 将第8步应用于该客户保留VDM项目中.
第10章:“可视化数据挖掘的未来”作为上述各章的总结, 同时也讨论了数据可视化和可视化数据挖掘未来的发展趋势.
词汇表提供了一些常用的数据可视化和数据挖掘术语和算法的快速参考.
◣ 谁应该阅读本书
成功的数据可视化和可视化数据挖掘商业智能解决方案需要实施单位各层次人员的共同参与和合作. 本书试图覆盖VDM项目从可行性分析和规划阶段直到实施阶段的整个过程, 因此它的读者群是非常广泛的. 下文定义了在一个典型的商业企业内, 各类人员在VDM项目实施过程中的角色和作用, 并且列出这些角色分别适合于阅读哪些章节. 根据实施的商业企业的特点, 你可能是其中的一个或者多个角色(在一个小型企业中, 你可能兼任所有的角色).
数据分析员通常直接使用数据可视化和可视化数据挖掘软件, 创建和评估可视化和数据挖掘模型. 数据分析员需要与业务分析员和领域专家合作, 一起识别和定义业务问题, 从而有助于理解原始数据, 并从中选择出合适的字段(column). 我们推荐数据分析员阅读本书的所有章节.
业务分析员典型的作用是参与创建数据可视化和数据挖掘模型过程之前和之后的工作. 业务分析员主要帮助定义业务问题, 并且负责将数据挖掘的成果与其他分析人员——领域专家和决策人员沟通和交流. 我们推荐业务分析员阅读第1章到第4章, 以及第8, 9章的内容.
领域专家并不参与数据可视化和数据挖掘模型的创建过程, 主要是与最终的可视化模型打交道. 领域专家精通业务, 同样知道解决这些业务问题需要收集哪些数据. 数据分析员和业务分析员利用领域专家的知识从原始的操作型数据源中理解和选择合适的数据, 领域专家同时负责解释和验证可视化和数据挖掘发现的成果. 我们推荐领域专家阅读第1章到第4章, 以及第6章和第9章的内容.
决策人员有权将数据可视化和数据挖掘发现的成果应用到具体的商业决策中, 并制订出相应的行动方案. 数据可视化和数据挖掘发现的成果由业务分析员展示给决策人员, 有助于他们根据发现的成果制定合理的决策. 我们推荐决策人员阅读第1, 2, 9三章的内容. 第10章主要讲述可视化数据挖掘的发展趋势, 我们推荐上述所有人员都阅读它, 以增强对可视化数据挖掘的了解.
具体情况如表1所示.
表1 本书的组织结构以及谁应该阅读本书
章 论题和VDM步骤 数据分析员 业务分析员 领域专家 决策人员
1 数据可视化和可视化数据挖掘介绍 √ √ √ √
2 步骤1:验证和规划数据可视化和数据挖掘项目 √ √ √ √
3 步骤2:识别关键的业务问题 √ √ √
4 步骤3:选择业务数据集 √ √ √
5 步骤4:转换业务数据集 √
6 步骤5:验证业务数据集 √ √
7 步骤6:选择可视化或挖掘工具 √
8 步骤7:分析可视化或挖掘工具 √ √
9 步骤8:验证和展示可视化和挖掘模型 √ √ √ √
10 可视化数据挖掘的未来 √ √ √ √
◣ 使用的软件工具
目前有许多可视化软件工具, 每年都有新的工具产生, 也有新的功能增加, 利用这些工具, 能够方便地从事数据预处理. 数据可视化和数据挖掘等工作. 软件工具的图形展示和数据挖掘分析的能力各有特点. 本书利用了四种核心的软件工具以演示数据预处理和数据分析的功能. 这四种工具是:Oracle, Microsoft Excel, SGI MineSet和SPSS Clementine. 对于阅读和理解本书而言, 这些软件工具包不是阅读和理解本书必需的, 因为本书描述的数据可视化和可视化数据挖掘技术与大多数数据可视化和数据挖掘软件包具有相似的功能.
Oracle
本书大部分查询的例子都是使用标准的SQL语法写的. 对于数据预处理中抽取. 清洗. 转换和装载(ECTL)的任务, 本书选择使用了Oracle SQL*Loader语法. 对一些逻辑转换的例子, 选择了Oracle的编程语言PL/SQL. 大部分的查询. ECTL和逻辑转换的任务都可以使用其他关系数据库管理系统RDBMS产品的相似功能进行实现, 比如Microsoft SQL server, Sybase, Informix, DB2和RedBrick.
Microsoft Excel
Excel是使用最广的电子表格和商业图形软件工具. Excel提供了许多工具, 帮助你创建. 分析和共享包含图形的电子表单. 我们选择Excel演示了许多核心的数据可视化功能, 比如柱形图. 条形图. 饼图. 折线图. 散点图和雷达图. 绝大多数可视化软件工具都包括这些传统的图表类型.
SGI MineSet
尽管目前SGI的MineSet已经不再作为商业软件使用, 但本书仍然选择MineSet来演示复杂的数据可视化功能, 比如树. 统计和三维散点图. 这些复杂的可视化图形在许多商用数据挖掘软件中都具有类似的功能, 比如ANGOSS的Knowledge Studio, Oracle的Darwin, IBM的Intelligent Miner和SAS的Enterprise Miner.
SPSS Clementine
Clementine支持多种数据挖掘技术, 比如预测(prediction). 分类(classification). 细分(segmentation)和相关性检测(association detection)等. 我们选择Clementine来演示核心的数据挖掘技术. 这些技术是上文提及的大多数数据挖掘软件所共有的.
◣ Web站点上的内容
作者的Web站点(www.wiley.com/compbooks/soukup)包含了贯穿全书的数据可视化和可视化数据挖掘软件工具的Web链接, 也包含了第4章介绍的抽取. 清洗. 转换和装载(ECTL)工具及其他章节讨论的软件工具的Web链接.
在讲解数据可视化和可视化数据挖掘方法的8个步骤时, 本书使用了许多业务数据集. 使用最频繁的一个业务数据集来源于家庭财产贷款的商业活动, 在Web站点上包括了整个活动的所有业务数据集. 为了方便大家传输和下载, 我们将它存储为Excel电子表格的格式, 包含了20个字段, 共44 124条记录.
从第2章到第9章, 本书将VDM的8个步骤, 一步步应用在客户保留案例的研究上. 然而, 客户保留案例的操作型数据源和最后两个业务数据集的容量非常大. 例如, INVOICE.TXT文件(票据文件)包含了超过4 600 000条记录. 因此, 我们将操作型数据源和业务数据集整理成Access数据库的格式casestudy.mdb, 包含了180MB的数据. 另外, 我们还提供了每个操作型数据源文件的10%的抽样文件, 同样, 将经过抽样的业务数据集转换成Excel电子表格的格式, 即:
■ 10%的操作型数据源样本文件:CUSTOMER.TXT, CONTRACT. TXT, INVOICE. TXT和DEMOGRAPHIC.TXT
■ 10%的没有转换的业务数据集样本文件:customer_ join和customer_demographics
■ 10%的经过处理后的业务数据集样本文件:customer_ join和customer_demographics
需要注意的是, 如果你在10%的样本数据上使用本书中示例的SQL代码, 产生的结果和本书演示的结果可能不完全匹配, 因为本书的演示是在所有数据上进行的. 然而, 利用你自己的计算机系统和数据库系统, 在样本数据上处理比在Access数据库文件上处理所有的数据更易于理解和操作. 具体采用哪一种方案取决于你自己的选择. 尽管如此, 我们仍然鼓励你使用客户保留的所有操作型数据源和业务数据集跟随本书进行学习, 以便深入掌握VDM方法.
◣ 小结
项目规划. 准备业务数据集. 创建和分析数据可视化和数据挖掘模型是一个循环的过程. 数据可视化和可视化数据挖掘(VDM)方法中所描述的各个步骤需要不断地重复. 在重复的过程中, 你将不断增加对业务数据集和一个数据事实(字段)对其他数据事实(其他字段)重要性的理解, 同时, 数据和可视化也被不断地细化. 数据或业务分析人员在数据挖掘过程中, 一次就成功地创建一个数据可视化和数据挖掘模型是非常罕见的. 通常情况下, 原始数据需要经过适当的转换, 以产生更多的数据来回答需要解决的业务问题. 有时候, 发现的结果会导致对企业业务问题的细化和精炼. 可视化和数据挖掘模型使得你更容易和快速地观察和理解数据集, 从而提升深入分析的能力.
我们希望本书有助于你开发可视化和数据挖掘模型, 以解决实际的业务问题. 而且, 我们也希望本书能成为你从事成功的VDM项目的向导.