数据仓库和数据挖掘

2024-06-01

数据仓库和数据挖掘(精选12篇)

数据仓库和数据挖掘 第1篇

在90年代初, 数据仓库这个概念第一次是由数据仓库支付提出的。一般一个面向集成、主题的, 随着时间变化并且信息本身能够相对稳定的数据集合就成为一个数据仓库, 它主要用于对管理决策过程的支持。

(一) 数据仓库的类型

根据数据仓库所管理的数据类型和它们所解决的企业问题范围, 数据仓库可以分为三种类型:企业数据仓库、操作型数据仓库和数据集市。

(1) 企业数据仓库也被称为通用数据仓库, 它含有大量的详细数据信息, 也包括一些累赘的信息, 具有不易改变性和面向历史性。通常这类的数据仓库被用作对多种企业领域的战略决策。

(2) 操作型数据仓库与企业数据仓库相比较, 是面向综合的, 容易更新改变的, 可以排除历史性的数据, 只保有当前的、详细的数据。既可以被用来对工作数据进行决策支持, 也可以作为数据加载到数据仓库的过渡区域。

(3) 数据集市是针对特定的应用领域和目的, 将数据仓库中一部分数据独立出来, 也可以称为主题数据或者部门数据。几组数据集市就可以组成一个小型的企业数据仓库。

(二) 数据仓库的特性:

(1) 面向主题:主题是一个抽象的概念, 是处在一个较高层次对企业的信息系统中的数据进行归类、综合和分析。从某种逻辑意义上, 它与企业中的某一个宏观分析领域中所涉及的分析对象相对应的, 也是专门针对某一个决策问题而设置的。这种面向主题的数据组织方式, 能够在某一较高的层次上对要分析的数据对象实现一个完整又统一的描述和刻画, 对企业中各个对象所涉及的数据以及数据之间的关系有一致的描述。数据仓库围绕一些主题如顾客、供应商、产品和销售来组织。数据仓库关注决策者的数据建模与分析, 而不是组织机构的日常操作和事务处理。

(2) 集成的数据:数据不能够直接地从原有的数据库系统中获得。在原有的数据库系统中记录的都是每一项业务处理的流水作业账目, 这些数据并不适合用来进行分析处理, 在进入数据数据仓库之前必须要对其进行综合分析计算, 舍去冗余的数据项, 再增加一些可能会涉及的外部数据。数据仓库在原有的数据库中每个主题对应的源数据是不同的, 应当将这些数据采用统一的定义来存储和分析, 删去不一致的数据, 从而保证数据库内的信息是关于企业一致的全面信息。

(3) 非易失的数据集合:这是指当数据被存放到数据仓库中以后, 最终用户只能通过分析工具进行查询、分析, 而不能修改其中存贮的数据。数据仓库的数据主要是为企业决策分析所用, 主要的数据操作是数据查询、修改和删除操作, 一般只需要定期的进行加载刷新。事实上, 数据仓库的主要操作时初始化载入和数据访问, 因此数据相对稳定, 极少需要更新。

(4) 数据随时间不断变化:数据仓库数据的不可更新是针对应用而言, 即用户进行分析处理时不对数据进行更新操作, 但不是说, 数据从进入数据仓库以后就永远不变。数据仓库中的数据随时间变化而定期地被更新, 每隔一段固定的时间间隔后, 运作数据库系统中产生的数据被抽取、转换以后集成到数据仓库中, 而数据的过去版本仍被保留在数据仓库中。

(5) 使用数据仓库:建立数据仓库的目的是为了将企业多年来已经收集到的数据按一个统一、一致的企业级视图组织、存贮, 对这些数据进行分析, 从中得出有关企业经营好坏、客户需求、对手情况、以后发展趋势等有用信息, 帮助企业及时、准确地把握机会, 以求在激烈竞争中获得更大的利益。

作为一种存储数据的组织方式, 数据仓库是具有逻辑性和物理特性的。它能够在当前传统的数据库中获取数据, 再根据相应的辅助决策主题形成基本的数据层结构, 最后根据综合决策的需要再形成综合的数据层。数据仓库采用的物理数据存储形式有空间数据库组织形式和基于关系的数据库组织形式。在数据立方体上可以对数据进行上卷等联机分析处理操作, 通俗点说就是对不同的数据层次进行了宏观化或微观化。

2 数据挖掘概述

数据挖掘, 又称为数据库中知识发现数据挖掘是一种将大量随机的、不完整的、有噪声的、模糊的数据集中识别为新颖的、潜在有用的、可被理解的模式的非平凡过程。它是一个从大量数据中抽取挖掘出未知、有价值的模式或规律等知识的复杂过程。整个知识挖掘过程是由若干挖掘步骤组成, 而数据挖掘仅仅是其中的一个主要步骤。整个知识挖掘的主要步骤有:

(1) 数据清洗:其作用就是将于挖掘主题明显无关的数据噪声清除掉。

(2) 数据集成:其作用就是将从多个数据源中汇集的相关数据组合到一起。

(3) 数据转换:其作用就是将数据转换为一种能够方便进行数据挖掘的数据存储形式。

(4) 数据挖掘:它是知识挖掘中的一个最基本步骤, 利用智能方法挖掘数据模式或法律知识。

(5) 模式评估:其作用就是按照一定评估标准在挖掘结果中找出有意义价值的模式知识。

(6) 知识表示:其作用就是利用可视化和知识表达技术, 向用户展示所挖掘的相关知识。

(一) 数据挖掘的功能特征

(1) 自动预测趋势和行为:数据挖掘摒弃了以往的采用大量手工方式分析问题的路线, 能够自动的从大型的数据库中找到预测性信息。迅速而直接的根据数据本身, 得出结论。

(2) 关联分析:数据关联是数据库中一类存在的可被发现的重要知识。假若两个或多个变量的取值之间存在某种规律性, 就可以称之为关联。关联又可分为简单关联、时序关联和因果关联。关联分析的主要目的是为了找出数据库中隐藏的关联网。

(3) 聚类:数据库中的记录可被化分为一系列有意义的子集, 就称为聚类。聚类不但增强了人们对客观现实的认识, 也是概念描述和偏差分析的先决条件。

数据挖掘和传统的数据分析是有本质的区别。数据挖掘是在没有进行明确的假设的前提下去挖掘和发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。即数据挖掘是要发现那些不能靠直觉发现的信息或知识, 甚至是违背直觉的信息或知识, 挖掘出的信息越出乎意料就可能越有价值。而传统的数据分析趋势为从大型数据库抓取所需数据并使用专属计算机分析软件。

3 数据仓库的应用

当今社会, 客户关系在各种交易中所起的作用越来越重要, 在市场经济这个天平上的砝码也是越来越沉重了, 从而使得在目前竞争激烈的知识经济环境和电子商务经济模式下, 重要的信息往往可以决定企业的成败, 甚至决定企业的生死存亡。因此, 很多行业都采用了数据仓库解决方案充当企业决策机构的智囊和参谋。如我们平时所说的飞机票订票系统、银行ATM系统、证券交易系统、期货交易系统、铁路售票系统、移动通信用户信息管理与服务系统等都是建立在大型数据库基础之上的数据仓库。

(一) 证券

证券公司利用客户行为分析系统将所有客户的操作记录进行归类和整理, 并结合行情走势, 上市公司资料、宏观微观经济数据等、在掌握大量数据的情况下, 对客户的行为和市场各因素的关联、客户的操作习惯、盈亏情况、公司的利润分布等进行统计和分析, 从而获得以往一直想获得但无法获取的关于客户在本公司的行为、盈亏、习惯等关键信息。证券商在获得这些信息后, 就有能力为客户提供针对其个人习惯、投资组合的投资建议, 从而真正做到对客户的贴心服务。

(二) 银行

随着社会主义市场经济改革的深化、传统的计划经济金融模式逐渐瓦解, 市场金融模式逐渐形成。在这个变革过程中, 由于体制、市场、企业、个体等经济要素变化、发展的不平衡性, 带来了银行对各种金融变量控制的随机性和模糊性。如何防范银行的经营风险、实现科学管理以及进行决策, 成为当今金融研究的一个重要课题。利用数据仓库的强大功能, 银行可以建立企业客户群、个人客户群的数据库, 并对企业的结构、经营、财务、市场竞争等多个数据源进行统一的组织, 形成一个一体化的存储结构, 为决策分析奠定基础。通过先进的信息加工、分析、处理软件, 加上银行的经营决策、信贷营销人员的个人经验, 对每一个投资方向、每一笔贷款做出科学的判断, 可以有效控制投资、信贷风险。

(三) 税务

增加税收、提高效率、改善执法的一致性与公平性、降低对纳税人的负担和干扰是税务稽征部门的重要目标。然而这些目标往往又是相互冲突的, 要在其间找到最适当的平衡点非常困难。通过应用数据仓库技术, 对税收部门的内部和外部数据进行综合分析处理, 可以解决三个方面的问题: (1) 查出应税未报者和瞒税漏税者, 并对其进行跟踪; (2) 对不同行业、产品和市场中纳税人的行为特性进行描述, 找出普遍规律, 谋求税务策略; (3) 对不同行业、产品和市场应收税款进行预测, 制定最有效的征收计划。数据仓库技术之所以能够查出漏税者, 其基本思想是通过对大量数据资料的分析来掌握各行各业、各种产品和各类市场从业人员及企业的纳税能力, 并与其实际纳税金额进行对比, 从而查出可能的偷漏税者。

4 数据挖掘的应用

数据挖掘是近年来迅速发展起来的技术, 它主要用于构建企业的决策支持系统。

目前, 数据库技术及其应用已从关系模型发展到面向对象模型, 从单机应用发展到分布式应用, 从局域网数据库应用发展到Web数据库应用, 从联机事务处理发展到联机分析处理, 从数据库发展到数据仓库, 从数据的统计分析发展到数据挖掘。而数据挖掘的方法是建立在联机分析处理 (On Line Analytical Processing, OLAP) 的环境基础之上的。数据挖掘需要对大量数据进行反复查询操作, 关心数据存取方式的方便性与可操作性。联机分析处理和传统的联机事务处理 (On Line Transaction Pro-cessing, OLTP) 是两种性质不同的数据处理方式。OLTP主要用来完成基础业务数据的增、删、改等操作, 如订票系统、储蓄系统等等, 对响应时间要求比较高, 强调的是密集数据更新处理的性能和系统的可靠性及效率。而OLAP应用是对用户当前及历史数据进行分析、辅助领导决策, 主要通过多维数据的查询、旋转、钻取和切片等关键技术对数据进行分析和报表。

企业内部的数据状况相对来说是比较分散的, 业务数据往往被存放在缺乏统一设计和管理的异构环境中, 不容易被综合查询访问, 而且还有大量的历史数据处于脱机状态, 不能在线集中存储查询。数据挖掘在对这些数据进行分析前, 必须对这些数据进行不同程度的整合和清理, 这是数据挖掘的首要环节, 因此, 科学的数据环境是确保数据挖掘有效和正确实施的基础和关键。需要服务于数据挖掘总体目标的数据再组织, 需要有单独的数据分析和数据处理环境。

5 数据仓库与数据挖掘的协同关系

在数据展现方面主要的方式有:查询:用于实现预定义查询、动态查询、OLAP查询与决策支持智能查询;报表:产生关系数据表格, 并进行平均值、最大值、最小值、期望、方差、汇总、排序等各种统计分析;挖掘:利用数据挖掘等方法, 从数据中得到关于数据关系和模式的知识。

数据挖掘和数据仓库的协同工作, 可以简化数据挖掘过程中的重要步骤, 提高数据挖掘的效率, 确保数据挖掘中数据来源的广泛性和完整性。数据挖掘技术已成为数据仓库应用中极为重要和相对独立的工具。数据挖掘和数据仓库是融合与互动发展的, 它是数据挖掘专家、数据仓库技术人员和行业专家共同努力的成果, 如何有效而快速地存储、选取和管理数据, 确是有一套真功夫。在IT的骨架上把统计的精髓放进去, 这是对现在这个信息时代的挑战。

结语

发展数据仓库可以促进数据挖掘越来越成熟, 但是数据挖掘并不一定要有数据仓库的支持。因为数据仓库并不是数据挖掘的必要条件, 有很多数据挖掘可直接从操作数据源中挖掘信息, 而且数据挖掘仍然经常被看做是数据的后期市场产品。数据仓库平台的数据挖掘的构造具有很强的实用性, 效率很高, 节省资源。

大量数据的产生和收集导致了信息爆炸, 现代社会的竞争趋势要求对这些数据进行实时和深层次的分析。虽然现在有了更强大的存储和检索系统, 但是使用者发现在分析和使用所拥有的信息方面将变得越来越困难。数据仓库提供了容纳大量信息的场所, 但只有和数据挖掘技术的应用结合起来才能最终解决用户的困惑, 使用户能从大量繁杂的数据中找到有价值的信息和知识。随着数据挖掘和数据仓库集成的进一步深化, 必然会给用户带来更大的利益。

摘要:本文介绍了数据仓库和数据挖掘概念、数据仓库和数据挖掘的应用方式以及两者的关系进行了简要的阐述。

数据仓库和数据挖掘 第2篇

客户键

客户名称

年龄

性别

电子邮件

城市

地区

国家

相应的 Analysis Services 维度应具有七个属性:

客户(整型键、以“客户名称”作为名称)

年龄、性别、电子邮件、城市、地区、国家

数据中存在一种自然层次结构,{国家、地区、城市、客户}。出于导航目的,应用程序开发人员可以选择创建第二个层次结构:{年龄、性别}。商务用户并没有看到这两个层次结构行为方式之间有何区别,但是,自然层次却可以从深谙层次关系的索引结构(对用户隐藏)中受益。

新维度结构的最大优势在于:

维度不需要加载到内存中。因此,维度可以非常巨大(经测试,Beta 2 可支持上千万名成员)。

用户可以添加和删除属性层次结构,而不必再重新处理维度。属性层次索引结构属轻型结构,在后台计算,并不影响多维数据集查询。

重复的维度信息被去除;使得维度更加轻巧。

由于引擎为并行处理创建了机会,因此维度处理信息性能得到了改进。

维度类型

Analysis Services 中包括两种维度类型:常规层次类型和父子类型。Analysis Services 2005 新增了一些重要的新维度结构。其中有些结构的名称是临时的,但是,这些名称都是 BI 文献中较为通用的。

角色扮演:维度扮演着一些重要角色,具体哪些角色要依上下文而定。例如,[时间] 维度可能会被 [订购日期] 和 [发货日期] 重用。在 2005 中,扮演着某些角色的维度只需存储一次,便可多次使用。这样便可使所需的硬盘空间和处理时间降至最低。

事实:事实或“退化”维度与事实(如事务编号)具有一一对应的关系。从本质上讲,退化维度不能用于分析,但可用作标识,以定位特定的事务,或识别组成聚合单元的事务。

引用:维度并不能够直接和事实数据表发生联系,但可通过另一维度间接发生联系。这方面的原型示例有 [地理位置] 引用维度,它同时关联了 [客户] 和 [销售团队] 两个维度。引用维度可能由数据提供程序提供,并包括在多维数据集中,不必再修改事实数据。

数据挖掘:数据挖掘维度支持从数据挖掘模型(包括群集、决策树和关联规则)生成的维度。

多对多:这些维度有时被称为多值维度。在大部分维度中,事实能且只能连接一个维度成员。多对多维度解决了多维度成员问题。例如,银行储蓄客户可以有多个帐户(支票、储蓄);一个帐户可以有多个客户 (Mary Smith、John Smith)。[客户] 维度有多个成员,这些成员都与一个帐户事务相关联。在维度不能够直接关联事实数据表时,2005 多对多维度支持复杂的分析,并扩展了维度模型,使之超越了传统的星形架构。

量度组和透视

Analysis Services 2005 引入了“量度组”和“透视”,以用来简化分析数据库的设计和部署。在 Analysis Services 2000 中,鼓励用户构建多个物理多维数据集。每个多维数据集相当于一个特定的维度,通常还相当于一个特定的关系事实数据表。虚拟多维数据集以一种对商务用户透明,而对开发人员设计又不太复杂的方式,合并多个事实数据表。

在 2005 中,最通用的方案将具有一个包含一个或多个“量度组”的物理多维数据集。量度组中的事实数据具有特定的细化程度(由维度层次的交叉点定义)。查询根据需要被自动定向到不同的量度组。在物理层上,分区(与 Analysis Services 2000 分区类似)在“量度组”上定义。

大型应用程序将为用户提供大量的维度、量度组,而且还会给导航带来难度。在“多维数据集编辑器”的“透视”选择卡中定义的“透视”可以创建一个多维数据集的子集“视图&rdqu

数据仓库和数据挖掘 第3篇

摘要:本文在数据仓库与数据挖掘基础理论基础之上,将其运用于我国中小商业银行。以某银行的业务情况为基础数据,设计构建了个人及企业银行数据仓库的体系结构,并对其进行数据粒度的划分。在此基础上,对所构建的数据仓库进行多维数据分析,并通过实施数据挖掘操作,实现知识发现的功能。结果显示,通过应用数据仓库和数据挖掘技术,可以为其获得巨大的信息收益。

关键词:数据仓库;数据挖掘;OLAP多维数据分析;商业银行

近年来,由于我国商业银行业务量的增加,业务数据也随之大幅度增加。但由于缺乏有效的方法和手段以对数据背后所隐藏的规律和知识进行挖掘,导致银行工作人员无法利用这些数据对银行相关业务所包含的规律和未来发展趋势进行分析。上述现象在信息系统较不发达的中小商业银行体现则更为明显。数据仓库和数据挖掘技术作为信息化的有效工具,其在国外的金融领域已经得到广泛应用。以北美十大银行之一的蒙特利尔银行为例,通过运用数据仓库以及数据挖掘技术,对其产品线进行重新组织,并基于数据挖掘所获得的经验和知识,进行更具针对性的市场营销,总共为其节约了2280万美元。而这一技术尚未被我国中小商业银行所掌握。

一、数据仓库与数据挖掘相关理论概述

(一)数据仓库

数据仓库是“面向主题的、集成的、稳定的、随时间变化的数据集合,用于支持管理决策过程”。在这个定义中,W.H.Inmon明确给出了数据仓库的四个重要特点,即“面向主题”、“集成”、“稳定”、“随时间变化”[1]。

数据仓库的数据组织方式主要包括有三种,分别是虚拟存储方式、基于关系表的存储方式和多维数据库存储方式等[3]。其中,多维数据库存储方式是直接面向数据挖掘分析操作所需的数据组织形式,它对DW中的海量数据从客户感兴趣的角度进行层次化处理、抽象概括,并设置维索引及相应的元数据管理文件,以对应于数据仓库中的数据[4]。与虚拟存储方式、基于关系表的存储方式中组织关系都比较复杂相比,更适用于组织、存储数据仓库中的海量数据[5]。

(二)基于数据仓库数据的OLAP

1.联机分析处理(OLAP)的概念和特征

2.OLAP多维分析操作

多维分析是指对数据仓库中的数据进行切片、切块、钻取和旋转等分析操作[9],用户能从多角度对数据进行深入剖析,进而了解其中的规律。

(1)切片。切片是指通过在某个或某些维上选取某一特定的属性成员,而在其他维上则选取一定区间的属性成员,对所获得的数据进行分析。以某银行部分业务数据所形成的数据立方为例进行说明:从该立方中选取2012年4月这一个时间段内所有理财产品的销售情况进行分析,此即为切片。

(2)切块。切块是在立方体中的三个维上取一定区间的属性成员或全部属性成员。切块可以看成是在切片的基础上,进一步确定各个属性成员的区间得到的片段体,也即由多个切片叠合起来。

(3)钻取。钻取包括上钻和下钻两种操作。从高级数据到明细级数据视图称为下钻;从明细级数据到高级数据视图称为上钻。

(4)旋转。旋转指改变一个报告或页面显示的维方向,通过旋转操作可以最终用户从不同视角来观察数据。

(三)数据挖掘技术

数据挖掘是根据企业所设定的业务目标和存在的问题,对大量的业务数据进行探索,揭示隐藏其中的规律并模型化,以指导并应用于实际经营实践。通过对业务数据的挖掘,从中发现企业运作的本质规律,优化企业本身的运作[10],或进行有效的客户关系管理。

常用于银行业的数据挖掘方法主要包括:

(1)预测型方法:分类(Classification)/决策树算法(DecisionTree)、回归分析(Regression)、时间序列分析(TimeSeries)。

(2)描述型(Descriptive)方法:关联分析(AssociationAnalysis)、序列关联分析(SequentialAnalysis)、聚类分析(Clustering)。

将上述方法应用于银行业领域,其可实现的功能主要包括:大客户特征的识别、客户群体细分、客户流失的预测与控制、业务预测、理财产品销量预测、客户欺骗的早期识别等方面。

二、中小商业银行数据仓库的设计

(一)个人银行数据仓库构建

1.个人银行数据仓库的体系结构

(二)企业银行数据仓库构建

1.企业银行数据仓库的体系结构

四、结论

数据仓库和数据挖掘在我国中小商业银行中的应用尚处于探讨阶段。本文在对数据仓库与数据挖掘相关理论进行分析的基础之上,认为将其运用于我国中小商业银行具有可行性。以某银行的业务情况为例,对个人及企业银行数据仓库的组织构建进行设计,实施多维数据分析,进行数据挖掘操作及分析,认为通过应用数据仓库和数据挖掘技术,可以获得巨大的信息收益。■

(责任编辑:张恩娟)

参考文献:

[1]BendellJ.DataModelingandDatabaseDesignforDataWarehouses:TheDataWarehousingInstitute,1996.

[2]袁虹,何厚存.联机分析及数据仓库的建模技术[J].计算机应用研究,1999(12):61-63.

[3]史金红,吴永明.影响数据仓库成功的关键因素[J].电子工程师.2000(1):9-13.

[4]韦洛霞.数据仓库与OLAP[J].东莞理工学院学报,2000(2):19-24.

[5]蒋翊凌.基于数据仓库的银行业务数据挖掘研究[D].上海:华东师范大学,2006.

[6]孙其辉.基于数据仓库的集装箱支线运输DSS研究[D].辽宁:大连海事大学,2008.

[7]赵璐.数据挖掘技术及其在电信系统应用的研究[D].吉林:长春理工大学,2009.

[8]徐奇,杨光敏,欧阳学兵,靳志宏.基于数据仓库的口岸跨境运输决策支持与系统实现[J].交通信息与安全,2011(3):110-115.

[9]靳志宏,徐奇,兰辉.集装箱多式联运的多维数据分析与数据挖掘[J].集美大学学报.2011(4).

数据仓库和数据挖掘技术浅析 第4篇

1.1 数据仓库的概念及特性

数据仓库概念的创始人W.H.Inmon在《建立数据仓库》一书中指出:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合, 用以支持经营管理中的决策制定过程。“虽然还没有形成统一的定义, 但以上观点都或多或少地指出了数据仓库有以下几个特点:1.1.1面向主题:典型的主题领域 (客户;产品;交易;帐目) ;1.1.2集成的:数据提取、净化、转换、装载;1.1.3非易失的:数据仓库的数据通常是一起载入和访问的, 但并不进行一般意义上的数据更新;1.1.4随时间的变化性:数据仓库中的时间期限要远远长于操作型系统中的时间期限 (5-10年) ;数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库的键码结构总是包含某时间元素。

1.2 数据仓库的体系结构

一个数据仓库的基本体系结构中应有几个基本组成部分:1.2.1数据源, 指为数据仓库提供最底层数据的运作数据库系统及外部数据。1.2.2监视器, 负责感知数据源发生的变化, 并按数据仓库的需求提取数据。1.2.3集成器, 将从运作数据库中提取的数据经过转换、计算、综合等操作, 并集成到数据仓库中。1.2.4数据仓库, 存贮已经按企业级视图转换的数据, 供分析处理用。1.2.5客户应用, 供用户对数据仓库中的数据进行访问查询, 并以直观的方式表示分析结果的工具。

1.3 数据仓库的开发过程

数据仓库的开发过成由以下几个步骤组成:1.3.1建立或获得企业的数据模型;1.3.2定义记录系统;1.3.3设计数据仓库并按主题领域进行组织;1.3.4设计和建立操作型环境中的记录系统和数据仓库之间的接口, 这些接口能保证数据仓库的载入工作能有序的进行;1.3.5开始载入第一个主题领域, 进入载入和反馈过程, 数据仓库中的数据在此过程中也在不断地改变。在接口中需完成的工作有:数据抽取、对来自操作型、面向应用型环境的数据的集成、数据时基的变更、数据压缩、对现存系统环境的有效扫描。

1.4 数据仓库的典型应用

数据仓库从出现开始就受到了重视, 在很多领域都可以应用, 如在税务领域可以解决三个方面的问题:一是查出应税未报者和瞒税漏税者, 并对其进行跟踪;二是对不同行业、产品和市场中纳税人的行为特性进行描述, 找出普遍规律, 谋求因势利导的税务征稽策略;三是对不同行业、产品和市场应收税款进行预测, 制定最有效的征收计划。

2 数据挖掘概述

数据挖掘 (DM, Data Mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中, 提取隐含在其中的、事先未知的、但又潜在有用的信息的过程。数据挖掘技术是面向应用的, 它不仅面向特定数据库的简单检索查询调用, 而且要对这些数据进行深入的统计、分析和推理, 发掘数据间的相互关系, 完成从业务数据到决策信息的转换。

2.1 数据挖掘的功能。

2.1.1聚类。就是将数据库中的记录划分为一系列有意义的子集, 包括传统的模式识别方法和分类学。聚类是概念描述和偏差分析的先决条件, 它增强了人们对客观现实的认识。2.1.2概念描述。就是找到描述数据的可理解模式, 并对这类数据的有关特征和内涵进行概括和描述。概念描述分为特征性描述和区别性描述, 前者偏重描述数据间的共同特征, 后者则是描述数据之间的区别。2.1.3关联分析。关联就是数据库中两个或多个数据之间存在的某种规律性, 它是一类隐含的、具有重要价值、并可发现的知识, 关联可分为简单关联、时序关联、因果关联。2.1.4趋势预测。数据挖掘自动在数据库中寻找预测性信息, 运用相关算法和技术, 分析和认识事物演变的规律性, 从已知信息推出未知信息, 从现有信息导出未来信息, 从而对事物的未来发展作出科学、合理的预测。

2.2 数据挖掘语言的分类

对于数据挖掘语言, 根据功能和侧重点不同, 我们将其分为三种类型:数据挖掘查询语言;数据挖掘建模语言;通用数据挖掘语言。

第一阶段的数据挖掘语言一般属于查询语言;PMML属于建模语言;OLE属于通用数据挖掘语言。

数据挖掘查询语言DMQL由数据挖掘原语组成, 数据挖掘原语用来定义一个数据挖掘任务。用户使用数据挖掘原语与数据挖掘系统通信, 使得知识发现更有效。

PMML主要目的是允许应用程序和联机分析处理 (OLAP) 工具能从数据挖掘系统获得模型, 而不用独自开发数据挖掘模块。

通用数据挖掘语言合并了上述两种语言的特点, 既具有定义模型的功能, 又能作为查询语言与数据挖掘系统通信, 进行交互和特殊的挖掘。

2.3 数据挖掘的技术方法。

2.3.1决策树 (Decision Tree) 。其核心是某种归纳算法, 通常是先利用训练集生成一个测试函数, 根据不同取值建立分支, 并在每个分支子集中重复建立下层结点和分支, 这样便生成一个决策树, 然后使之转化为规则, 利用这些规则可以对新事例进行分类。2.3.2神经网络。神经网络是建立在可以自学习的数学模型 (以MP模型和Hebb学习规则为主) 基础之上的, 在结构上模仿生物神经网络, 是一类非线性的、通过训练达到学习目的预测模型。2.3.3规则归纳。这是数据挖掘领域中最常用的格式, 由一连串的“如果……就”这样的逻辑规则对数据进行细分, 产生一组非体系结构的条件集, 然后将该条件集用于预测新数据各项目的值。

2.4 数据挖掘的工作流程。

数据挖掘的工作流程主要由三个阶段组成:首先进行数据准备, 这个阶段又可细分为数据集成、数据选择、数据预处理三个步骤。数据集成是对多文件或多数据库运行环境中的数据实行合并处理, 解决语义二义性问题。数据选择和预分析阶段, 包括根据一定的标准对数据进行选择、删除、充实、分类等, 进一步缩小数据范围, 提高数据挖掘的质量。

然后即可进行数据挖掘, 选择合适的工具, 运用相应的算法, 在数据中发现模式和规律, 证实发现的知识。最后是结果分析和评价阶段, 将发现的模式解释成为可以用于决策的信息。当然, 以上的流程并非单向的, 若结果不能令决策者满意, 可以递归地执行上述过程。

3 数据仓库和数据挖掘的OLAP

数据仓库是管理决策分析的基础, 要有效地利用数据仓库的信息资源, 必须要有强大的工具对数据仓库中的信息进行分析决策。在线分析处理或联机分析处理就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求, 迅速、灵活地对大量数据进行复杂的查询处理, 并以直观的、容易理解的形式将查询结构提供给各类决策人员, 使他们能够迅速、准确地掌握企业的运营情况, 了解市场的需求。

OLAP技术主要有两个特点:一是在线性, 表现为对用户请求的快速响应和交互式操作, 它的实现是由客户机/服务器体系结构完成的;二是多维分析, 这也是OLAP技术的核心所在。

4 结论

通过的介绍, 我们可以认识到数据仓库和传统数据库系统有着本质的不同, 必须采用不同的研究方法。作为一个新兴的研究领域, 数据仓库的应用发展很快, 但其建设及技术具有很大的复杂性, 仍有许多领域需要深入研究。

摘要:介绍了数据仓库和数据挖掘的相关知识。包括数据仓库的概念、结构、设计以及应用, 数据挖掘的概念、技术以及在此基础之上的联机分析业务。

关键词:数据仓库,数据挖掘,联机分析

参考文献

[1]安淑芝等.数据仓库和数据挖掘[M].北京:清华大学出版社, 2005.[1]安淑芝等.数据仓库和数据挖掘[M].北京:清华大学出版社, 2005.

[2]刘爽英, 张静.基于SQL Server2000的数据仓库和数据挖掘[J].华北工学院学报, 2004, 25 (5) :322-324.[2]刘爽英, 张静.基于SQL Server2000的数据仓库和数据挖掘[J].华北工学院学报, 2004, 25 (5) :322-324.

[3]杨卫民, 谭骏珊, 汪斌.数据仓库和数据挖掘技术在DSS中的应用研究[J].计算机工程与设计, 2004, (10) :1659-1661.[3]杨卫民, 谭骏珊, 汪斌.数据仓库和数据挖掘技术在DSS中的应用研究[J].计算机工程与设计, 2004, (10) :1659-1661.

数据挖掘与数据仓库--教学大纲 第5篇

Data mining and data warehouse

课程编码:05405140 学分: 2.5 课程类别: 专业方向课 计划学时: 48 其中讲课:32 实验或实践: 上机:16 适用专业:信息管理与信息系统、电子商务 推荐教材:

陈文伟,数据仓库与数据挖掘教程,清华大学出版社,2008 参考书目:

1.Richard J.Roiger, Michael W.Geatz.Data Mining: A Tutorial-Based Primer.2003.2.Ian H.Witten, Eibe Frank.Data Mining: Practical Machine Learning Tools and Techniques(第二版).机械工业出版社(影印版),2005.3.Jiawei Han, Micheline Kamber.Data Mining: Concepts and Techniques.2001.5.4.数据仓库与数据挖掘技术(第2版),陈京民 编著,电子工业出版社,2007.11 5.数据仓库和数据挖掘,苏新宁 等编著,清华大学出版社,2006.4 6.数据挖掘Clementine应用实务,谢邦昌 主编,机械工业出版社,2008.4

课程的教学目的与任务

本课程将系统介绍数据挖掘的基本概念、基本原理和应用基础,通过课堂讲授、实例分析,提高学生数据挖掘技术的认识,熟悉基本工具应用,并掌握设计和开发数据挖掘算法和系统的初步能力。

课程的基本要求

1、了解数据仓库及数据挖掘的概念、特征、应用范围,以及主要数据挖掘工具

2、了解OLTP 和 OLAP的区别;熟悉OLAP 的体系结构,以及如何评价OLAP工具;掌握多维分析的基本分析动作。

3、了解数据质量,掌握数据预处理方法,4、掌握数据挖掘的定性归纳技术、关联挖掘、聚类分析、分类方法、预测方法、文本挖掘、WEB挖掘

5、熟练掌握数据挖掘软件Clementine在各类挖掘任务中的应用。各章节授课内容、教学方法及学时分配建议(含课内实验)

第一章.数据仓库与数据挖掘概述 建议学时:2 [教学目的与要求] 了解数据仓库及数据挖掘的概念、特征、应用范围,以及主要数据挖掘工具。[教学重点与难点] 数据仓库及数据挖掘的概念

[授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 1.1 为什么要数据挖掘 1.2 数据挖掘的应用示例 1.3 数据挖掘方法简介

1.4 数据挖掘与其他学科的关系 1.5 商务智能的三大块 1.6 常用数据挖掘工具简介

第二章 数据仓库技术

建议学时:4 [教学目的与要求] 了解数据仓库的概念,区分与传统数据库技术的不同;掌握数据仓库存储的抽取、转换和装载

[教学重点与难点] 数据仓库存储的抽取、转换和装载;数据仓库存储的数据模型 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 2.1 数据仓库的概念

2.2 数据仓库存储的数据模型 2.3 数据仓库的体系结构

2.4 数据仓库应用的抽取、转换和装载

第三章 数据仓库开发模型

建议学时:4 [教学目的与要求] 了解数据仓库开发模型的概念,了解数据仓库开发过程,掌握数据仓库三种概念模型:星型模式、雪花模式、或事实星座模式,掌握数据粒度概念,元数据概念。

[教学重点与难点] 数据仓库三种概念模型,数据粒度概念,元数据概念 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 3.1 数据仓库开发模型的概念

3.2 数据仓库的概念模型 3.3 数据仓库的逻辑模型 3.4 数据仓库的物理模型 3.5 数据仓库的生成

3.6 数据仓库的使用和维护

3.7 数据仓库的粒度、聚集和分割 3.8 元数据

第四章 联机分析处理(OLAP)技术 建议学时:4 [教学目的与要求] 了解OLTP 和 OLAP的区别;熟悉OLAP 的体系结构,以及如何评价OLAP工具;掌握多维分析的基本分析动作。[教学重点与难点] OLAP 的体系结构;多维分析的基本分析动作 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 4.1 从OLTP 到 OLAP 4.2 OLAP 的基本概念

4.3 多维分析的基本分析动作 4.4 OLAP 的数据组织 4.5 OLAP 的体系结构 4.6 OLAP 工具及评价

4.7 Codd 关于 OLAP 产品的十二条评价准则

第五章 数据挖掘的原理与技术 建议学时:4 [教学目的与要求] 了解为什么要数据挖掘、数据挖掘与其他学科的关系,熟悉常用数据挖掘方法和工具,掌握数据挖掘的原理与技术。

[教学重点与难点] 数据挖掘的原理与技术,数据挖掘与其他学科的关系 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 5.1 知识发现的过程

5.2 数据挖掘的方法和技术 5.3 数据挖掘的知识表示

第六章 数据的获取和管理 建议学时:4 [教学目的与要求] 了解数据的数据获取和管理,掌握数据质量的多维度量,掌握数据预处理方法 [教学重点与难点] 数据质量,数据预处理方法

[授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 6.1 数据仓库的数据获取 6.2 数据管理 6.3 系统管理 6.4 数据的预处理

6.5 数据质量的多维度量 6.6 数据预处理的主要方法

第七章 定性归纳

建议学时:2 [教学目的与要求] 了解数据挖掘的定性归纳技术,掌握ID3算法、C5.0算法。[教学重点与难点] ID3算法、C5.0算法

[授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 7.1 基本概念 7.2 数据泛化 7.3 属性相关分析 7.4 挖掘概念对比描述

7.5 挖掘大数据库的描述型统计信息

第八章 关联挖掘

建议学时:2 [教学目的与要求] 了解关联挖掘和的方法,掌握Apriori算法 [教学重点与难点] Apriori算法

[授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 8.1 基本概念

8.2 单维布尔逻辑关联规则挖掘 8.3 多层关联规则挖掘 8.4 多维关联规则挖掘

8.5 关联规则聚类系统(ARCS)8.6 关联规则其它内容

第九章

聚类分析

建议学时:2 [教学目的与要求] 了解什么是聚类分析、聚类和分类的区别,掌握聚类分析的算法。[教学重点与难点] 聚类分析的算法

[授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 9.1 什么是聚类分析

9.2 聚类分析中的数据类型 9.3 主要聚类算法的分类

第十章 分类 建议学时:2 [教学目的与要求] 了解什么是数据挖掘的分类,掌握KNN(K-Nearest Neighbor)分类和Bayes分类 [教学重点与难点] KNN(K-Nearest Neighbor)分类和Bayes分类 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 10.1 10.2 10.3 10.4 10.5

第十一章 预测 建议学时:2 [教学目的与要求] 了解预测算法,掌握回归预测、广义线性GenLin模型预测、支持向量机预测 [教学重点与难点] 回归预测、广义线性GenLin模型预测、支持向量机预测 [授 课 方 法] 以课堂讲授为主,课堂讨论和课下自学为辅 [授 课 内 容] 11.1 11.2 预测的基本知识 预测的数据准备 分类的基本知识 决策树分类 支持向量机分类

KNN(K-Nearest Neighbor)分类 Bayes分类 11.3 11.4 11.5 11.6

预测的主要方法 回归预测

广义线性GenLin模型预测 支持向量机预测

基于数字校园数据平台的数据仓库 第6篇

[关键词]数字校园 数据平台 数据仓库工程

数字化校园建设中数据仓库的架构

数字化校园的构成可以用图1表示,计算机网络是数字化校园的基础设施;网络基本服务是数字信息流动的基础,包括电子邮件、文件传输、域名服务、身份认证、目录服务等;在此基础上要建立各类基于网络的数据仓库,包括职能信息库、课程资源库、数字化图书资源等;应用支撑系统包括办公自动化系统、各类管理信息系统、网络教学系统以及数字图书馆管理系统等等;在此之上的信息服务系统是校内用户的主要使用界面,为师生提供各种服务,如信息交流、信息查询、决策支持、电子商务等。五个区域分别表示数字化学习环境的功能领域:组织管理、教学活动、学术研究、公共服务和学校社区服务等,各个功能领域之间是密切相关、相互促进的。

图1

以选课系统为例解析数据仓库的构建与应用

数据挖掘,又称为数据库中的知识发现(Knowledge Discovery in Database,簡称KDD),是指从大型数据库中提取人们感兴趣的信息,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Pattems)等形式。数据挖掘可以应用于各个领域,包括商务管理、生产控制、市场分析、工程设计和科学探索等。利用数据挖掘技术,挖掘选课系统中积累的有用信息,可以使学校的相关部门有弹性地调节所开的课程,调整热门课程和冷门课程的人数,调节相关课程的学分,通过选课率及相关信息做出正确决策,鼓励和引导学生选择互补的课程,这有利于学生整体素质的提高,也有利于教师、教室等资源的合理分配。

1.确定数据仓库和OLAP模型

OLAP(Online Analytical Mining或OLAP Mining)是基于数据仓库的信息分析处理过程,其基本特点是能够从多种角度对从原始数据中转化出来的信息进行快速、一致、交互地处理,从中获得对数据更深入地了解。OLAM将二者结合起来,发展一种建立在OLAP和数据仓库基础上的新的挖掘技术,它兼有OLAP多维分析的在线性、灵活性和数据挖掘对数据处理的深入性,是数据库应用工具未来发展的方向之一。

通常要先分析原有业务数据库,确定待建的数据仓库主题。再根据用户的需求来确定各个级别数据仓库的存储主题。这里选取学生选课管理这一典型业务为主题。为了保证数据的正确性和一致性,还要确保这些数据是按同样的方法记录的同一件事情,需要对选课的原始数据进行预处理,转换成适合数据挖掘的数据。数据预处理(Data preprocessing)包括三个步骤:数据清理(Data cleaning)、数据集成(Data integration)和数据变换(Data transformation)。完成数据的预处理之后,便可确定待建的数据仓库模型,实现OLAP建模,生成多维数据集(CUBE)。可以建立以ROLAP方式存储的选课数目分析多维数据集(以时间维、学号维、院系专业维为维度,选课数目为度量值)、选课学分分析多维数据集(以课程类别维、课程开课部门维、学号学历维为维度,学分为度量值)等许多个不同的多维数据立方体。

2.数据挖掘关联算法的实现

关于关联规则的挖掘算法主要有循环式扫描算法、增量式更新算法、并行挖掘算法、元模式制导、基于约束挖掘等等。目前大多数研究集中在频繁数据项的挖掘方法上。其中比较典型的关联规则挖掘算法有Apriori算法和FP-growth算法。

Apriori算法可以产生相对较小的候选项目集,扫描数据库的次数由最大频繁项目集的项目数决定。因此,该算法适合于最大频繁项目集相对较小的数据集中的关联规则挖掘问题。针对Apriori算法框架的缺陷,Han.JW(韩家炜)等人提出了FP-tree结构和相应的P-growth算法。FP-growth算法采用的是分而治之的策略,即在经过了第一次扫描之后,把数据库中的频繁集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息。随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关;然后再对这些条件库分别进行挖掘。当原始数据量很大时,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。由于高校多年来存储的选课数据量较大,故选用FP-growth方法实现高校选课系统的关联规则挖掘较合适。

数据仓库和数据挖掘 第7篇

1.1 数据仓库

数据仓库是一个用以更好的支持企业或组织的决策分析处理的、面向主题的、集成的、相对稳定的、体现历史变化的数据集合[1]。数据仓库与传统的数据库不同, 主要体现在如下几个方面:在数据的更新上, 传统的数据库适合于记录集的更新, 并将其作为操作的一个标准部分, 更新时需要耗费大量的资源, 而数据仓库不会付出任何更新的开销;在基本的数据管理上, DBMS要留一些自由空间以方便数据的更新和插入, 而数据仓库不需要;在索引机制上, 数据仓库需要比DBMS应用更健壮和更完善的索引结构。

1.2 数据挖掘

数据挖掘 (data mining) 就是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 提取隐含在其中的, 人们事先不知道的, 但又是潜在的有用的信息和知识的过程[4]。在数据库知识发现和数据挖掘过程中, 可以从数据库或数据仓库的相关数据集合中抽取知识或规律, 并从不同角度进行分析研究, 所发现的知识可以运用到信息管理、查询处理、决策支持、过程控制等许多领域。

常用的数据挖掘方法有一下几种: (1) 关联规则挖掘它是一个从现象到本质的揣测推理过程, 也就是说通过关联分析所得到的结果, 仅仅是一种可能的因果关系, 它能够协助专家对事物的本质进行分析, 深化对事物关系的认识。 (2) 特征描述特征描述是对目标类数据的一般特征或特性进行汇总, 并以直观理解的方式显示给用户。特征描述的结果可能是顾客的一般轮廓。 (3) 分类分析是找出数据集中各组对象的共同特征, 并建立分类模型, 从而能够将数据集中的找出各组对象的共同特征。 (4) 聚类分析若干个相似的数据对象组合在一起成为一个聚簇。聚类分析是将数据集分割成若干个有意义的聚簇的过程。聚类增强了人们对客观现实的认识, 是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学[2]。

2 医院数据仓库的设计和建立

2.1 数据仓库的体系结构

医院数据仓库采用3层得体系结构, 如图2-1所示。底层为数据仓库服务器, 中间层为联机分析处理 (O-LAP) 服务器, 顶层为前端工具。底层数据仓库服务器几乎总是一个关系数据库系统。数据仓库服务器从操作型数据库或外部数据源提取数据, 对数据进行清理、转换、集成等, 并装入到数据仓库中。

2.2 建立数据源

数据仓库的建立首先要有数据源, 我院信息化系统比较全面, 如HIS, LIS, PACS等多个系统, 数据源丰富, 经过整理筛选出得出如下信息:病人住院号, 住院科室, 主治医生, 住院天数, 诊断信息, 费用类别, 治疗结果等, 将需要的表格导入warehouse Builder作为数据仓库的数据源。

2.3 设计数据仓库

数据模型采用多维数据库模型中的星型模型建模。根据主题中的应用需求, 对数据进行初步整理, 设计了住院费用事实表 (zyfy) , 它包含了病人在住院期间发生的费用信息, 事实表zyfy包含病人的住院号码, 疾病名称, 住院天数, 主治医师, 各种费用信息等[3]。如图2-2

3 数据挖掘在医院管理中的应用

我们运用数据挖掘工具Data miner从数据仓库中提取有用数据, 进行分析、比对、综合和推理, 发现事物之间的联系, 提供更高层的数据分析功能, 对未来的医院业务进行预测, 更好的为医院管理决策提供支持[2]。

3.1 数据挖掘技术的应用

(1) 医院中患者结构和流动情况分析该功能可以分析门诊、住院病人的年龄段、居住地等, 医院管理者根据分析情况制定相应的措施来提高服务质量。 (2) 业务收入同期对比分析该功能用在对比几年内业务收入, 通过分析, 可以找出医院增加或减少收入的原因。 (3) 成本效益的分析 (4) 病人费用构成分析在此我们以病人构成分析为例说明挖掘技术在医院管理中的作用。

3.2 病人费用构成分析

病人费用由药费、检查费、治疗费、手术费、麻醉费等费用构成。该功能可以分析医院、科室、医生的病人费用构成。国家对药占比有严格的要求, 控制药占比也是每个医院最为头痛的, 我们可以利用数据仓库的信息, 分析在某段时间内, 某科室中的某个医生开的处方药是否超出了规定的比例。具体过程如表3-1, 表3-2

以病种为维度分析病人费用构成情, 如表1-1:

通过表3-1分析发现慢阻肺炎药占比过高, 再以慢阻肺炎这一单病种中病人为维度分析病人费用构成情况, 见表3-2

通过表3-2可以找到是由于住院号为159600药费过高导致该病号药占比过高, 调出该病号综合各种信息, 如住院天数, 年龄等因素对该病号的影响。从而找出药占比过高的原因, 及时调整治疗方案, 有针对性的控制药占比。

4 展望未来

医院管理者利用数据仓库和数据挖掘技术, 可以找到对医院发展至关重要的业务信息, 为医院的科学管理提供支持, 及时分析问题, 查找原因, 还可以帮助从宏观上把握医院科学地发展, 更好的为广大患者服务[3]。本文中的对药占比的管理就是一个很好的例子。近几年来数据仓库和挖掘技术发展迅速, 用于这方面的软件和工具也日趋成熟, 已经用于大型企业和国家金融机构, 而在医院管理中的应用还处于起步阶段, 有着十分广阔的应用前景。

摘要:本文介绍了医院数据仓库和数据挖掘的概念, 设计了数据仓库建立模型, 以及建立数据仓库的具体方法。简单介绍了数据挖掘技术在医院管理中的作用, 并结合工作实际详细介绍了数据挖掘在管理和控制药占比中的应用, 最后展望了医院数据仓库和数据挖掘技术的发展前景。

关键词:数据仓库,数据挖掘,医院管理

参考文献

[1]罗晓沛, 侯柄辉, 系统分析师教程[M].北京:清华大学出版社, 2003:6.

[2]李怀庆, 张文东, 数据挖掘技术在医院信息系统中的应用[J].医疗设备信息, 2007 (12) , 48-49.

数据仓库和数据挖掘 第8篇

关键词:数据仓库,数据挖掘,客户忠诚度

客户忠诚度是客户关系管理中的重要概念。客户忠诚是指客户满意后而产生的对某种产品品牌或公司的信赖、维护和希望重复购买的一种心理倾向。表现为两种形式:一种是客户忠诚于企业的意愿;另一种是客户忠诚于企业的行为。前者对于企业来说本身并不产生直接的价值, 而后者则对企业来说非常具有价值。

一、数据仓库技术在客户忠诚度分析中的应用

1. 数据仓库 (Data Warehouse, 简称DW) 是一种面向数据应用的数据管理技术, 它以关系数据库管理系统 (R D B M S) 为基础。

按照业界公认的数据仓库创始人W.H.Inmon的观点, 数据仓库可定义为:“一个面向主题的、集成的随时间变化的非易失的数据集合, 用于支持管理层的决策过程”。可以发现数据仓库具有这样的一些重要特性:面向主题性、数据集成性、数据的时变性、数据的非易失性、数据的集合性和支持决策作用。

数据仓库技术是企业智能管理的重要基础和手段, 已经成为企业级信息管理和决策支持系统建设过程中必要的技术支持。数据仓库是进行客户忠诚度分析的基础。

2. 数据仓库的实施步骤。

数据仓库的设计与传统的OLTP系统设计有较大区别, 不但需要设计一个数据库和一个用户接口, 还必须设计数据装载策略、数据存取工具和不间断的维护方案。数据仓库的实施步骤:

(1) 启动项目, 确定建立分析客户忠诚度的数据仓库, 制定项目计划。建立技术环境, 选择实现数据仓库所需要的软硬件资源。

(2) 确定数据仓库主题。针对客户信息以及客户购买信息等相关的数据仓库, 与企业前台部门的业务人员多进行沟通, 详细了解业务需求、报表等需求。

(3) 对客户购买信息进行详细定义, 对事实表和维表的关系详细定义。由于客户购买信息数据仓库数据量随时间积累增大, 而且随着电子商务的进一步深入, 数据量更是激增, 所以必须对数据结构进行精心设计, 以免随着仓库中数据量快速增长, 造成系统分析和查询性能的急剧下降。

(4) 数据仓库的物理库设计。考虑数据的存储方式, 使得系统有较好的性能。完成索引的建立以及数据更新网络的设计。

(5) 源数据抽取、清洗、整理及装载设计。客户购买信息数据仓库的数据来自企业的前台作业系统以及前台业务部门。这些数据必须根据数据仓库的设计, 以统一定义的格式从各个系统抽取出来, 经过清理、转换、综合, 再经过数据装载和整理程序进入数据仓库。

(6) 开发支持用户决策的数据分析工具。建立客户购买信息数据仓库的最终目的是为了实现前台部门以及企业高层的决策支持, 所以需要各种工具对数据仓库进行访问分析, 如优化查询工具、统计分析工具、数据挖掘工具等, 通过分析工具实现决策支持需要。

(7) 维护方案的设计。保证客户信息数据仓库的正常运行, 对其进行管理维护, 保证系统保持优良的性能。

二、据挖掘技术在客户忠诚度分析中的应用

1. 数据挖掘 (Data Mining, 简称DM) , 简单地讲就是从大量数

据中挖掘或抽取出知识。数据挖掘概念的定义描述有若干版本, 一个普遍被采用的定义是“数据挖掘, 又称为数据库知识发现 (Knowledge Discovery from Database, 简称KDD) , 它是一个从大量数据中抽取挖掘出未知的、有价值的模式或规律等知识的复杂过程。”

2. 数据挖掘在客户忠诚度分析中常用方法

(1) 决策树 (Decision Tree) 决策算法。决策树是一个类似于流程图的树结构, 其中每个内部节点表示在一个属性上的测试, 每个分枝代表一个测试输出, 而每个树叶节点代表或类分布。决策树算法包括树的构造和树的剪枝, 有两种常用的剪枝方法:先剪枝和后剪枝。

(2) 神经网络 (Neural Network) 。神经网络是一组连接的输入/输出单元, 其中每个连接都与一个权相连, 在学习阶段, 通过调整神经网络的权, 使得能够预测输入样本的正确类标号来学习。

(3) 遗传算法 (Genetic Algorithms) 。遗传算法根据适者生存的原则, 形成由当前群体中最适合的规则组成新的群体, 以及这些规则的后代。

3. 数据挖掘在客户忠诚度分析中的应用

(1) 运用数据挖掘技术, 对客户进行细分, 提供个性化的服务。因为不同的客户为企业提供的价值不同, 企业需要重点服务的是那些能为企业提供高价值的大客户;又因为企业的资源有限, 如何针对不同客户进行有限资源的优化应用也是每个企业必须考虑的重要问题, 所以有必要对客户进行细分, 进行有针对性的运营, 提供个性化的服务。

(2) 运用数据挖掘技术预测客户需求。客户的需求不是一成不变的、单一的, 而是快速改变着的、多样化的。运用数据挖掘技术及时预侧客户的需求, 也就是“想客户之所想”, 及时调整产品的结构和内容, 抢先赢得商机, 为客户提供其真正需要的产品, 吸引客户, 获取高额利润。

(3) 进行客户流失分析。不要等到客户离开了企业再去寻找解决办法, 时间就是金钱。客户选择了离开企业, 肯定是有原因的, 应该注意客户流失的时间、分析流失的原因, 及时采取措施, 最大限度地留住客户。

(4) 挖掘出影响客户忠诚度的重要因素, 重点改善。影响客户忠诚度的因素可能会有很多, 但是要做的是用数据挖掘工具找出那些最主要的因素, 对这些因素认真分析, 采取有效的措施以提高客户忠诚度。

三、结束语

数据挖掘作为一种信息技术正越来越受到企业的关注, 都在想办法用数据挖掘来解决企业海量数据的问题。企业能够充分有效地利用数据挖掘这种新技术来为企业提供重要的决策信息, 提高客户忠诚度的, 使企业在激烈的市场竞争中立于不败之地。

参考文献

[1]祖巧红陈定方:客户忠诚研究及客户忠诚度分析.武汉理工大学学报, 2006 (3)

数据仓库和数据挖掘 第9篇

随着社会主义市场经济发展的深入, 健全现代市场经济的社会信用体系变得至关重要。建筑市场信用评价系统的建设是其中一个重要组成部分, 是约束规范工程建设项目市场主体行为, 增强其守法、诚信、履约、自律意识, 建立规范的建设市场秩序的治本之策;是建立多方监督制约机制, 保护鼓励守信行为, 惩罚失信行为, 营造公正公平建筑市场环境的有效手段;是保护国家利益、社会公众利益和工程建设项目参与者的合法权益的有效机制。

在信息化建设过程中, 建筑行业已经拥有了许多大型信息处理系统, 这些系统在日常运行中积累了大量的行业历史数据, 本文就如何将行业中现有的数据和国民经济相关数据进行组织和利用, 建立建筑市场信用评价系统, 实现政府有关职能部门对工程建设市场主体及专业技术人员的长效监管, 对参与者市场行为进行动态记录及信用评价供社会公众监督, 提出了以数据仓库 (data warehouse, 简写为DW) 技术为基础, 以数据挖掘 (data mining, 简写为DM) 工具为手段进行实施的一整套解决方案。

1. 相关技术概述

1.1 数据仓库的概念

在业界, 不同的人对数据仓库有不同的定义。公认的数据仓库之父W.H.Immon将其定义为“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间变化的、持久的数据集合”[1]。具体分析如下 (1) 面向主题性:在数据仓库中, 主题是数据归类的标准。每个主题对应一个宏观的分析领域。 (2) 集成性:数据仓库中的数据来自多个应用系统, 但并不是对这些数据的简单归并与拷贝, 而是根据一定的规则和要求对数据进行重新组织, 即数据集成。数据集成是建设数据仓库最关键最复杂的一步。 (3) 稳定性、历史性:数据历史性主要表现在两个方面:一是数据仓库内数据是关于各个主题不同时间的综合信息, 多为5--10年;二是数据一旦进入数据仓库就不应更新, 具有一定的稳定性。

1.2 数据挖掘的概念

数据发掘 (Data Mining) 是从大量的、不完全的、有噪声的、模糊的、随机的数据中, 揭示出隐含的、正确的、新颖的、先前未知的、有潜在使用价值的和最终可理解的信息模式的非平凡过程[2]。数据挖掘技术是目前发展极为迅速的一个研究领域, 结合了机器学习、统计分析以及数据库等技术, 能够高度自动化地分析原始数据, 并做出归纳性的推理, 以帮助决策者最终认识数据的真正价值。原始数据可以是结构化的, 如关系数据库中的数据, 也可以是半结构化的, 如文本、图形、图像数据, 甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的, 也可以是非数学的;可以是演绎的, 也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等, 还可以用于数据自身的维护。

1.3 基于数据仓库的数据挖掘模型

图1描述了基于数据仓库的数据挖掘过程, 其过程是从数据仓库中选择数据, 通过数据接口转换, 在数据挖掘系统管理器中进行挖掘处理。

其中数据仓库主要完成数据的净化、筛选、集成、存储等工作, 是数据准备阶段。数据仓库的建设, 为高效率执行数据挖掘算法打好了基础, 使数据挖掘工作面对的是经过标准化加工处理的数据, 不必过多地考虑数据噪声问题, 而专注于数据挖掘算法的有效性和可靠性, 挖掘出更深入更有价值的数据[3]。数据挖掘系统管理器包括数据选择、挖掘算法的选择及算法执行、挖掘结果的评价等过程。其中数据挖掘引擎利用已知成熟的算法, 参照知识库存储的领域知识, 对数据选择阶段抽取的数据进行挖掘操作, 发现数据内隐含的模式。

2. 建筑市场信用评价系统

2.1 数据仓库的设计

1、概念模型设计

进行概念模型设计所要完成的工作是:界定系统边界、确定主要的主题域及其内容。

(1) 界定系统边界。系统要对建筑企业和专业技术人员评定相应的信用等级, 涉及的数据包括建筑企业和专业技术人员的基本信息, 他们参与建设的工程项目的基本信息。可以将系统的边界定为包含企业子系统、人员子系统、工程子系统在内的集合。

(2) 确定主要的主题域及其内容。数据仓库中, 数据是面向主题进行组织的。主题是在较高层次上将企业信息源中的数据综合、归类并分析利用的抽象。在逻辑意义上, 主题对应于企业中某一宏观分析领域所涉及的分析对象。根据对建筑市场原有业务数据库系统的分析, 考虑到决策者的分析要求, 作者确定两个基本主题:建筑企业、专业技术人员。

2、逻辑模型设计

数据仓库数据组织主要有两种。一种是基于关系数据库的维表--事实表结构的多维表形式, 另外一种是基于多维数据库的超立方体结构形式。由于各地市州建筑主管部门原有事务数据库采用的是关系型数据库, 这里采用维表--事实表结构来实现多维数据模型[4]。

设计采用流行的雪花模型。雪花模型是基于关系型数据库的, 面向OLAP的一种多维数据模型的数据组织形式。雪花模型以事实表为中心, 四周是访问的角度, 对应维表, 每一维又可分为不同的粒度。雪花模型是对星型模型的一个扩展, 它把星型模型的维表进一步层次化, 使用多张表来描述一个复杂维, 形成一些局部的“层次”区域, 增加了应用程序的灵活性, 降低了维表的数据冗余, 每一个维表通过一个关键字与事实表关联。事实表中每条记录都包含指向各个维表的外键和事实数据。维表中记录的是有关这些维的属性。通过维表的外键, 对事实表和每一个维表做连接操作, 依据各个维表的取值, 一次查询就可以得到相对应的事实数据。

2.2 数据挖掘模型

目前, 在数据挖掘领域, 数据挖掘功能所发现的模式类型主要包括以下几类:⑴关联分析 (association analysis) 发现两个或两个以上变量的取值之间存在某种规律性。⑵聚类分析 (clustering) 把数据按照相似性归纳成若干类别, 同一类中的数据彼此相似, 不同类中的数据相异。⑶分类 (classification) 就是找出一个类别的概念描述, 它代表了这类数据的整体信息, 即该类的内涵描述, 并用这种描述来构造模型。⑷预测 (predication) 是利用历史数据找出变化规律, 建立模型, 并由此模型对未来数据的种类及特征进行预测[5]。

根据对建筑市场信用评价体系的数据挖掘目标和数据特征的分析, 应采用聚类方法。可以采用聚类分析方法对企业及专业技术人员的信用等级进行评价。聚类方法包括统计方 (下转第130页) 法、机器学习方法、神经网络方法和面向数据库的方法。神经元网络和K-均值是比较常用的聚集算法。

3. 结束语

建筑市场信用评价系统开发中, 关键技术是数据仓库的建立和有效的数据挖掘方法。针对建筑市场信用评价系统的特点, 文章采用以数据驱动为主的新的决策方法, 解决了以模型驱动为主的传统决策支持系统做出决策方案往往出现偏差的缺陷, 做出的决策方案完全由数据自身 (实际问题及其环境的数学抽象) 的特点决定, 显然更合理和实用。

摘要:随着社会主义市场经济发展的深入, 健全现代市场经济的社会信用体系变得至关重要。建筑市场信用评价系统的建设是其中一个重要组成部分。在信息化建设过程中, 建筑行业已经拥有了许多大型信息处理系统, 这些系统在日常运行中积累了大量的行业历史数据, 本文就如何将行业中现有的数据进行组织和利用, 建立建筑市场信用评价系统, 提出了以数据仓库技术为基础, 以数据挖掘工具为手段进行实施的一整套解决方案。

关键词:信用评价,数据仓库,数据挖掘

参考文献

[1]陈文伟, 黄金才.数据仓库与数据挖掘[M].北京:人民邮电出版社, 2004.

[2]Eric sperley.企业数据仓库规划、建立与实现[M].北京:人民邮电出版社, 2003.

[3]张维明.数据仓库原理与应用[M].北京:电子工业出版社, 2004.

[4]唐东平王晓玉.基于数据仓库的医药行业企业信息门户[J].华南理工大学学报:自然科学版.2003 (7)

电信企业数据仓库的设计和应用 第10篇

要构建电信企业的数据仓库, 必须首先找准定位, 然后做好需求设计。目前, 电信企业数据仓库的应用一般是集中在经营分析和营销决策支撑两方面。

一方面数据仓库从营业、计费账务、渠道、客服中心等生产、管理系统获取市场经营的所有有关信息, 经过整合、清洗等环节, 按主题存储, 形成企业内部有关市场经营的统一数据平台, 通过查询、报表、多维分析等方式提供给数据分析用户和营销决策人员;

同时, 数据仓库根据客户交互系统的需求, 经过分析或挖掘, 将客户异常消费、流失客户预警、营销活动目标客户等信息反馈到各客户接触系统, 供营销经理、营业员、客服人员对相应客户提供针对性营销、服务。

1 数据仓库的需求设计

电信企业数据仓库项目的成功与否, 很大程度上依赖于它的需求设计, 数据仓库是应用导向的系统, 它立足于商业应用, 而非单纯的技术。所以应该强调的是, 数据仓库不应该简单的从软、硬件设备、分析工具出发, 而应该在科学、有效设计其功能的基础上, 根据企业现有条件, 配置软、硬件设备、分析工具甚至数据挖掘工具, 开发各类应用。

数据仓库的需求设计立足于企业的数据分析需求, 围绕市场经营管理、营销决策和执行的数据分析支撑工作来展开。主要完成三方面工作:

1.1 分析主题的设计

各类分析对象的分析主题可以设计如下:业务或产品的分析的主题包括各类业务或产品发展状况分析、发展变化趋势分析、影响因素分析以及发展预测等分析内容;客户分析主题包括客户价值分析、客户流失分析、客户忠诚度分析、客户信用度分析等内容;竞争分析基于网间的话务信息来设计, 包括竞争对手用户发展情况、本企业用户使用竞争对手产品情况和竞争对手用户使用本企业产品情况等内容。

营销活动分析则根据营销活动的三大目的———获取客户、提高ARPU、客户保持, 以及营销活动的三个环节———营销策划、营销执行和营销评估, 来设计相应分析内容。一般包括营销机会判断、预期效果评估、营销效果评估、营销方案调整等。

1.2 分析维度和维度值的确定

在电信行业经营分析系统设计中, 数据仓库维度建模设计至关重要。数据仓库的维度可以分为时间/空间维度、业务维度、客户维度、用户终端维度、营销活动维度、运营商维度六大类。

1.3 分析指标的确定

数据分析指标可分为基本指标和衍生指标两大类。

2 数据仓库应用前景

由于电信业内早有大量成熟的数据库应用系统, 如果我们针对电信业的特点和发展需求, 对这些数据进行结构上的重组, 按更有利于决策分析的角度去设计, 就会使我们企业的宝贵资源——数据, 实现真正的信息价值, 可以据此提升电信企业的竞争能力和服务水平。

2.1 常规经营分析

常规经营分析, 顾名思义, 就是按一定周期 (旬、半月或月) 在格式相对固定的分析模板 (根据市场经营工作的需要, 通常半年或一年更新一次模板) 基础上作的经营分析。

常规分析的模式类似于每月固定格式的统计报表, 但其超越统计报表。常规分析工作的目的是通过固定模式的分析跟踪市场经营发展动态, 发现变化发展的趋势, 判断其是否合理, 从而发现问题并寻求引起问题的因素, 最终提出解决问题的措施。

电信企业的常规经营分析包括各类业务 (本地、长话、数据、增值业务等) 的分析、各类客户 (大客户、商业客户、公众客户和流动客户) 的分析以及竞争的分析。常规分析对于分析人员就某项专业分析经验的积累、敏锐眼光的培养有一定意义。

数据仓库通过各个主题下的定制报表和OLAP多维报表查询支撑常规经营分析, 反过来, 企业的常规分析常常是作为定制报表和OLAP多维报表查询的需求在数据仓库中固化并得到实现。

2.2 专题分析

专题分析是根据市场经营过程中出现的热点问题, 常规分析发现的异常情况而确定需要进一步深入进行的分析。

电信企业比较常见的专题分析是各种营销活动效果分析。每次营销活动目的不一样, 内容不一样, 定位的目标客户以及参加活动的客户都不一样, 所以每次分析的内容及模式都有所不同。

专题分析没有固定的模板, 因此每执行一次专题分析需要向数据仓库提交一次数据需求, 包括多维度的数据表需求, 或者客户使用各种业务或产品的历史消费记录需求;而数据仓库则是通过临时创建的多维报表以及符合条件的客户的历史消费记录来支撑专题分析工作的进行。

2.3 营销监测

数据仓库对电信企业的营销监测支撑工作包括;话务异常 (变动) 监测、零话务监测、话务流失监测以及各类营销活动用户跟踪监测等。 通过在数据库中设置一定条件, 比如将符合长话过网话务超过50%、网内、外去话话务均为零、报告期较基期话务下降50%以上条件的电信用户号码清单提交相应的营销渠道进行流失挽留、激发话务等针对性营销, 从而实现对营销监测工作的数据支撑。

对话费行为的分析还可以是通过对通话起止时间及通话时长分析可得到各类用户的通话时段分布情况及日消费高峰、月消费高峰;长话的消费时间、消费次数, 及什么地方的用户消费能力较高, 什么地方的用户消费能力偏低;以及话费流失的分析。

2.4 数据挖掘

电信企业在长期信息化建设过程中积累了大量业务运营数据和业务管理数据, 一般的企业数据量已超过TB级。市场的激烈竞争和管理的复杂性, 决定了企业需要对客户关系、市场营销、产品工程、投资分析等方面的历史数据进行提取与分析, 将数据转化为有用的信息。数据挖掘一般用于在海量数据集中发现间接、隐藏、新颖的规律, 数据挖掘技术的优势在于, 通过对数据集进行有限步骤的采集、整理、分析、推理、比较等分析手段, 来揭露埋藏数据内部的有用信息。

数据挖掘按电信企业既定营销战略或营销策略目标, 通过对数据仓库中大量业务数据进行抽取、转换、分析和其他模型化处理, 揭示隐藏的、未知的或验证已知的规律性, 从中提取支撑营销决策关键性数据的技术。

数据仓库何时上数据挖掘有赖于两方面的条件, 一是数据完整性和数据质量的日趋完善;二是一定专业水平和积累的分析队伍的建立。当以上两个条件基本成熟后, 数据挖掘工作的开展才更有效。

大型企业的数据仓库系统建设是一项复杂的系统工程, 从某种意义讲, 数据仓库对数据挖掘来说仅仅是一个数据源的作用。用户形成了一套有自己特色的, 涵盖企业客户、产品、账务等主题的数据模型, 建立了企业级的数据仓库, 同时总结数据挖掘项目所需的客户 (或用户) 层面的有关客户 (用户) 背景、购买行为等信息, 从数据仓库中定期抽取, 形成数据挖掘集市;然后分主题地建立包括流失预警、客户细分、交叉销售、营销预演等模型, 各类模型模板化后封装至数据仓库, 建立数据挖掘模型模板库。模型模板库和数据挖掘集市的建立, 使数据仓库之上的数据挖掘应用工作开展更效率, 为企业的经营分析与决策提供了科学的依据, 从而帮助电信企业真正实现精确营销质的飞跃。

参考文献

如何建设数据仓库 第11篇

2008年,四川销售公司完成了ERP系统在全公司的全面推广,不仅实现了销售“一体化”管控,而且实现了财务业务无缝集成及物流、资金流、信息流的三流合一。2009年加油站管理系统在四川销售公司1400余座加油站部署实施,对加油站的采购、销售、结算、库存、客户、加油卡等进行全面的专业性管理,控制了零售业务的每一个环节,优化业务流程,提高运行效率和管理水平。2011年二次配送系统和油库系统在全公司推广运用,实现对油品品种、运输路径、运输车辆、油站库存、配送时间的统筹安排和优化,并对配送过程进行跟踪与监控,提高了配送效率和管理水平。2012年以ERP为核心的五大信息系统全面集成,油库、加油站、二次配送和ERP系统实现了信息数据自动流转,减少人为干预,提高了数据的准确性。2013年,销售应用集成系统将在四川销售公司试点运用,实现与各销售信息系统管理者视图的集成。

四川销售公司的各个信息系统几乎覆盖了公司的各项经营和管理的方方面面,这些业务操作型信息系统的上马和推广运用,不仅实现公司各个层面的管控信息化,而且为数据仓库建设提供了大量的历史数据源。

建设省级数据仓库的意义

四川销售公司建设省级公司的数据仓库是对中石油总部数据仓库数据支持功能的补充和完善,有利于提高信息系统数据利用效率,弥补总部数据仓库无法满足四川销售公司对精细化管理等方面信息数据挖掘利用需求的缺陷。

总部数据仓库“脏数据”过多。由于总部数据仓库涉及面广,涵盖了整个中国石油的勘探与生产、天然气与管道、炼油与销售、化工与销售和其他部分,因而数据非常庞大。假设仅仅以全国32家销售公司的数据在一起建立一个数据仓库,那么对于四川销售公司来说,不仅其他板块的数据甚至其他销售公司的大量数据基本上为“脏数据”(按32家来计算,96.8%的数据为脏数据)。大量的“脏数据”不仅牺牲了分析的效率,而且降低了分析质量。

总部数据仓库的数据粒度级过粗,无法满足四川销售公司个性化分析需求。全国中石油旗下加油站每日产生的可以作为客户分析价值高的卡交易记录,每日总共可达13亿条,平均每月记录过亿,所以在总部级数据上无法提供卡客户低粒度级的分析。在交易明细记录上,每年的记录数预计高达53亿条以上,在上亿条记录的数据库中做任何统计计算几乎都是要命的事,所以要总部数据仓库提供“购物篮分析”之类细粒度级的数据挖掘功能是不可行的。

总部级的数据仓库的主要服务对象不是销售公司一般管理者(特别是二级公司级以下的管理者)。总部级数据仓库对四川销售公司来说,还达不到提升管理和精细化管理的要求。2013年中石油总部推广运用的销售应用集成系统主要运用对象是销售公司、地区公司和地市公司的领导,提供日常办公、业务数据查询分析、业务决策、舆情监控和应急指挥等功能;而对于需要大量数据进行分析、挖掘的一般管理人员缺乏分析工具和支持。

数据仓库设计思路

建立四川销售公司的数据仓库不仅是总部数据仓库数据支持功能的补充和完善,而且是四川销售公司整合自行开发各类辅助管理信息系统,新增数据挖据分析、商务智能等需求的核心和基石。近年来,四川销售公司为了满足自身管理提升需要,陆续开发了加油站辅助管理系统、油库辅助管理系统、商品管理辅助管理系统、非油辅助管理系统等诸多管理系统。然而这些系统都相互孤立,信息数据没有集成共享,大部分数据靠人工干预,不仅大大增加了工作量,而且各类信息数据的完整性、正确性和及时性大打折扣,信息数据共享和挖掘功能无法真正发挥。“顶层设计”的总部数据仓库的数据主要来源于五大系统,虽然确保了不同销售企业执行同一管理标准,为系统顺利集成、统一应用、科学评价奠定了基础,但是无法满足因地区和管理差异而新增的个性需求。特别是涉及到与四川本地相关的数据上,总部数据仓库几乎是空白。例如分析四川销售公司及其各个二级的销售总量、增幅与四川省及其对应地市GDP的总量、增速、能耗的关系时,总部级数据仓库是无法提供的。如果四川销售公司有自己的数据仓库,就可以把四川省及其对应地市GDP的相关数据作为外部数据源进行采集分析。再如需要分析路网建设、竞争对手网点布局对公司自身销售的影响时,必须要有独立的数据仓库,才能快速地得到量化的、科学的分析结果。有了数据仓库,商务智能才成为可能。没有数据仓库,商务智能只能是一个理论。

综合上述多方考虑,结合中国石油四川内江销售公司的研究成果、业务经营管理现状和前期需求调研分析,四川销售公司的主题需求可分为油品销售分析、非油品销售分析、卡客户分析、商品管理分析、加油站配送分析、财务分析、人力资源分析和市场分析八个主题。根据四川销售公司信息系统运用状况,数据源将涉及内部信息系统的有ERP、HOS、FMIS、油库、二配、加油站管理等,其中市场分析涉及外部数据的采集。

数据仓库系统接口设计

将数据放置在数据仓库中既是建设的难点,也是起点。一般数据集成和转换的过程需要花费约整个数据仓库建设80%的开发资源。由于ERP、HOS、油库、FMIS等操作型系统是总部统一开发设计,接口的最佳方式是总部能够提供对应的数据接口。但是由于“顶层设计”需要,总部没有开放相关数据接口。如何建立ERP等系统和数据仓库之间的接口,如何构思编写ETL软件实现自动将ERP等操作系统历史数据到数据仓库中,是四川销售公司构建自己数据仓库的重点和难点,这也是数据仓库攻关的难点。

通过对当前使用的ERP等系统的调研和分析发现,对于所有系统的数据源可以分为三类。一类是有数据库访问方法的系统(例如加油站管理系统的站级系统);第二类是没有数据库访问方法的系统,但有统一的数据导出方式的系统(例如ERP、HOS、FMIS等);第三类是既没有数据库的数据源,也没有统一的数据导出方式的系统(例如外部系统数据)。第一类由于能直接访问数据库,ETL设计的重点是数据的清洗和集成;第二类有统一的数据导出方式,ETL设计的重点是数据的采集、纠错和集成;第三类只能依靠设计模版,人工统一导入相关数据。因此对不同系统数据采集接口需采用不同的方法。

nlc202309041210

数据的集成到清洗

数据集成、转换和清洗数据是提高数据集成和提高利用效率的必要步骤。数据在从操作型环境向数据仓库环境的传送过程中所经历的转换非常复杂,一是DBMS的变化,二是操作系统的变化,三是硬件体系结构的变化,四是语义的变化和编码的变化等,所以必然存在转化和清洗。在这个过程中首先要将数据集成,当数据进入仓库时,要对各个应用的不同值进行正确的译码,重新编码为合适的值;其次必须建立各个不同源字段到数据仓库字段的映射;然后还需将各个系统不同技术存储的数据必须转换到同一种技术下存储。

在数据的转换与再清洗过程中,可以将数据以一种称为“时间间隔”的方式装载进入数据仓库,操作型环境新更新的数据可以在操作型环境中停留达24小时,然后才转移到数据仓库。例如在加油站管理系统得TILLITEM(交易明细记录表)含有大量的控制类数据,我们取数主要取对应的交易序号、营业日期、油品、价格、数量、金额、折扣、支付方式、卡号、枪号、罐号、起泵、止泵等数据。

保证数据采集准确性

数据的正确性验证是提高数据仓库数据准确有效的必要措施。提高访问现有系统数据采集正确主要有五种方法:一是扫描在操作型环境中那些被打上时间戳的数据(例如采集ERP等系统的销售订单时以创建时间为准,因为创建时间是系统自动生成的时间,不能任意更改);二是只扫描增量文件(例如采集加油站管理系统的站级数据);三是对取数机制进行了程序自动纠错,对没有获取完全的数据自动重新获取;四是对后台数据载入清洗程序进行修正,增加容错机制,对数据临时变化等问题进行了日志记录;五是将有对应关系的数据采集后进行对比(例如HOS的油品销售日报与ERP系统的纯枪销售订单进行对比),这种方法相对麻烦、复杂。其纠错验证在导入数据仓库前的临时数据库里,一旦验证正确后,方才导入到数据仓库。

此外,外部数据的采集对于数据仓库的建设格外重要,因为可以在一定时间范围内将外部数据与内部数据进行比较,以便给管理者提供一个独特的视角。例如天气变化给公司销量的影响是多少,节假日对公司销量的影响是多少,各个二级公司销量与GDP总量的关系,各个二级公司销售增量与GDP增量的关系?对此,有必要针对主题需求,增加成品油价格行情,四川(各地区)天气记录,四川(各地区)GDP数据(总量、增幅、能耗等)等外部数据的录入。

细化数据粒度

数据的粒度与分区是进行数据仓库设计决策的两个最重要方面。保存所有细节数据是错误的,一是存储和处理的开销可能是个天价;二是大量数据是有效分析技术的一个障碍;三是前面做的细节分析不可复用。所以对于四川销售公司来说,采用双重粒度是非常有意义的。

根据测算,全四川省站级系统的交易明细记录表一年的总记录数超过亿条,卡交易明细记录表一年的总记录数也有千万以上。所以,必须要根据DSS(决策分析)主题需求,进行双重粒度设计和分区。例如可以对卡交易记录进行概要记录统计(例如开卡时间、总消费额、消费次数、最大消费额、最小消费额、消费品种、消费区域、最近消费时间),便于以后的卡客户的相关分析,而对交易明细进行海量存储;同时可以对数据进行分区设计,比如按照年度来分区。这样大大提高了数据近期数据的访问速度。

由于非油业务开展还处于初级阶段,预计一年的记录数据估计在几百万条,可以保存做类似“购物篮分析”的数据挖掘运用。所以需要对卡交易明细和非油交易明细进行不同粒度的设计,以尽可能低的数据粒度来满足四川销售公司DSS分析。

数据集市设计与构想

数据集市主要是针对数据仓库的主题进行设计。例如在数据仓库体系结构中将四川销售公司的主题需求分为油品销售分析、非油品销售分析、卡客户分析、商品管理分析、加油站配送分析、财务分析、人力资源分析和市场分析八个主题。其中每个主题对应一个数据集市,每个数据集市的数据来源于数据仓库。这样四川销售公司的辅助管理系统都可以从数据仓库中来获取数据,而且也可以根据后期需求不断调整。例如每次调价对四川销售公司销量的影响(上调、下调),地震对四川销售公司的销量的影响分析,卡客户购买非油货品的比例,卡客户购买非油货品中哪种商品最多,卸油时停止加油对公司的销量有多大影响,某个加油站从开业以来每天的销售数量的分析趋势图,某张加油卡在四川销售公司所有加油站的消费情况,新的激励机制出台后对公司销量的影响有多大等需求。只要对数据仓库设计时不断地完善与修正,数据做到准确、及时、完整,实现上诉需求科学量化的分析是完全可以的。 (作者单位:张中淋 中国石油内江销售公司;李亮、陈涛 中国石油四川销售公司)

数据仓库和数据挖掘 第12篇

1 Hadoop与Hive简介

1.1 Hadoop简介

Hadoop是参考Google相关技术而发展起来的开源分布式存储和计算系统。其核心部分是HDFS (Hadoop Distributed File System)和M/R (Map/Reduce)。HDFS是一个高度容错性的存储系统,M/R则是一个计算框架。一个M/R作业通常会把输入的数据集切分为若干独立的数据块,由Map任务以完全并行的方式处理。框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。作业的输入和输出数据都会被存储在HDFS中,整个框架负责任务的调度和监控,以及失败任务的重新执行。

1.2 Hive简介

Hive是一个基于Hadoop的数据仓库分析框架。Hive定义了一种类SQL的语言——HQL,直接编译成M/R Jobs,对那些不熟悉M/R编程模型的用户很有帮助。Hive拥有元数据存储, 主要用于存储模式和统计信息, 这些在数据探索, 查询优化和查询编译中很有作用。

2 基于Hadoop和Hive数据仓库

2.1 Hive的特点

下面,我们对Hive的特点进行深入分析:

(1)存储方式。

Hive的数据格式由用户指定,加载数据的过程中,不需要进行数据格式的转换,因此,Hive加载数据只是将数据内容复制或者移动到相应的HDFS目录中。

(2)执行模块。

Hive架构于M/R框架之上,执行计划的灵活性较差,优化器选择很少。Join暂时只实现了Grace Hash Join, Map端的Group-by算法仅支持Hash Group-by, Reduce端的Group-by则只支持Sort Group-by。

(3)查询优化。

由于Hive还处于起步阶段,因而Hive查询优化器的功能并不强大,仅限于十几条转换规则。但随着Hive的不断发展和更新,实现更多的规则只是时间问题。

(4)索引。

Hive中没有索引,Hive中的查询都是通过暴力扫描整个数据来实现,因此访问延迟较高。但由于M/R的引入,Hive可以并行访问数据,对于大数据量的访问,即使没有索引,Hive仍然可以体现出优势。

(5)高可用与并行扩展性。

由于Hadoop的高可用性与易于并行扩展,直接导致Hive也具有此特性。Hive执行计划中,每一个M/R Job会把处理结果写到HDFS,即使Hive查询的执行中,某个节点出现故障,只需要重新调度执行该节点的任务即可,不需要重新提交查询。

2.2 基于Hadoop与Hive的数据仓库架构

基于Hadoop与Hadoop的数据仓库架构如图1所示,通过ETL工具,将各业务系统的数据装载到HDFS中,HDFS的高可用性保证了数据不会丢失。Hive构架于Hadoop平台上,利用HDFS来存储数据,并通过HQL,应用M/R进行来运算,快速地将数据反馈给上层的应用。上层应用,既可以通过Hive来操作数据,也可以直接开发基于M/R的应用程序,直接访问HDFS上数据。由于Hadoop平台的动态可扩展性,使得随着数据量的增加,数据仓库扩容,相比Oracle等传统关系性数据更方便,性能优越。

3 Hive在电信行业数据仓库中的应用

对于客户而言,一个方便快速的查询系统是了解自己消费记录的主要途径。对于运营商而言,客户消费产生的各类海量数据难以存储和进行分析。以某省电信运营商为例,该运营商有二千多万用户,一个月产生的话单以TB级别来衡量。目前,依赖传统数据库系统,已很难满足这种海量数据高速高并发的查询。

我们采集了一个月的语音话单,数据量达40亿,对其进行客户分群处理。在以前的Oracle RAC数据仓库中运行,耗时达3小时。而在等价格的硬件配置下的Hadoop和Hive平台上,耗时仅1小时,而且在Hive上未做任何性能的优化。另外,还测试了用户最近三月话单的查询,Oracle RAC平台耗时165s,而Hadoop和Hive平台仅耗时70s,这大大改善了用户的查询体验。

4 总结

Hive是一个可扩展性非常强的数据仓库架构,借助于Hadoop分布式存储计算平台和Hive对SQL语句的理解能力,为用户提供了一个高效、海量和便捷的数据仓库平台。

摘要:分析处理海量数据成为各电信运营商急需解决的问题。本文描述的基于Hadoop和Hive的数据仓库能很好的解决这个问题, Hadoop依靠普通的PC集群提供可靠的并行计算服务和存储平台, Hive基于M/R框架, 提供类SQL功能的HQL语言, 为用户提供了一个高效、海量和便捷的数据仓库平台。通过对电信行业海量话单的分析证明, 此数据仓库解决方案在处理海量数据上, 具有关系型数据仓库不能比拟的性能。摘要分析处理海量数据成为各电信运营商急需解决的问题。本文描述的基于Hadoop和Hive的数据仓库能很好的解决这个问题, Hadoop依靠普通的PC集群提供可靠的并行计算服务和存储平台, Hive基于M/R框架, 提供类SQL功能的HQL语言, 为用户提供了一个高效、海量和便捷的数据仓库平台。通过对电信行业海量话单的分析证明, 此数据仓库解决方案在处理海量数据上, 具有关系型数据仓库不能比拟的性能。

关键词:Hadoop,Hive,数据仓库,海量数据

参考文献

[1]程莹, 张云勇, 徐雷等.基于Hadoop及关系型数据库的海量数据分析研究[J].电信科学, 2010.

[2]潘文宇, 段勇.云计算在电信行业的应用研究[J].电信科学, 2010.

[3]谢桂兰, 罗省贤.基于Hadoop MapReduce模型的应用研究[J].微型机与应用, 2010.

上一篇:品德教育与养成教育下一篇:系级档案管理