超市数据挖掘论文

2024-05-23

超市数据挖掘论文（精选7篇）

超市数据挖掘论文第1篇

1 超市企业顾客的商业目标

1.1 忠诚顾客

顾客与企业保持关系的紧密程度,以及顾客抗拒竞争对手吸引的程度被描述为顾客忠诚度。Gronholdt等[2]认为,顾客忠诚度由再购买的意愿、价格的容忍度、向他人推荐的意愿和交叉购买意愿4个指标构成。忠诚顾客有利于降低营销成本。美国学者Slater和Marver[3]的调查表明,吸引一个新客户的费用是保留一个老客户的4—6倍。忠诚顾客有利于增加超市的收益,如果一个零售企业的顾客忠诚度提高5%,其利润就能增长25%—85%[4]。忠诚顾客有利于产生口碑效应,争取新的顾客,并对其周围人群的购物行为产生影响。

1.2 高赢利顾客

获取利润是一切商业活动最根本的目的。帕累托法则指出,80%利润来自20%的客户,这20%就是企业的高盈利客户。著名会计学家罗伯特卡普兰[5]对瑞典某企业的调查表明,5%的赢利性大客户为企业提供的利润占企业利润总额的50%,这部分顾客应成为企业的重点保持者。忠诚的高盈利顾客就是超市的“高价值顾客"。整合资源,对高价值顾客进行差异化服务,将有限资源用在能为企业创造利润的关键顾客身上,使超市在残酷的市场竞争中保持较强的竞争力。

1.3 数据挖掘目标

根据以上的商业目标,可得到明确的数据挖掘目标——忠诚的高价值顾客。对超市顾客进行聚类分析,识别忠诚的高价值顾客;用序列模式分析预测顾客价值变化,寻求有利于发展忠诚的高价值顾客价值变化的主导路径,提供个性化的服务和营销策略。

2 超市顾客数据理解和数据准备

2.1 数据理解

数据挖掘的对象是数据,只有对数据充分了解之后才能进行数据挖掘工作。结合超市企业的商业目标,理解、熟悉顾客信息,能将商业目标转化为对数据的理解,从而准确地进行数据挖掘。在超市数据库中可获得如下数据:持会员卡的会员此次消费商品的品牌、型号、价格、数量、消费时间等。建立的度量指标为:①超市顾客忠诚度的衡量。超市销售的商品大部分为生活日用品。会员卡购物多以家庭为单位,家庭购物存储期一般不超过4—6周,故以周为平均计算单位。建立超市顾客忠诚度系数的衡量指标计算式为:undefined。式中,wF和wM表示重要性权重,用层次分析法确定。认为在超市购物中,忠诚顾客是那些在一段时间内购物次数和购物金额相对稳定的顾客,即具备较稳定的购物习惯的顾客[6]。L的数值越大,表明该顾客购物行为波动越大,越不忠诚;L的数值越小,则相反。②超市客户盈利性的衡量。基于数据的可获得性和可实现性的考虑,认为购物金额高的客户为企业带来的利润也高,即近似用购物金额(M)的高低来衡量客户盈利性的高低。

2.2 数据准备

数据选择:通过确定数据挖掘目标和进行数据理解,从哈尔滨市某超市数据库中抽取5个月的顾客数据,其中前4个月数据用于建立模型、获取规律,最后1个月数据用于模型检验。

数据预处理:数据预处理技术可改进数据的质量,从而有助于提高其挖掘过程的精度和性能。主要为:①缺失值处理。本研究存在两种类型的缺失值:一是正常缺失,表现为当周的购物次数和购物金额同时表现为缺失。这种缺失是由于顾客在当周没有发生购买引起的,缺失用数字“0"填充。二是非正常缺失,表现为当周购物次数和购物金额任意一者缺失。这种缺失是由于人为的疏忽和错误引起的,可采用各属性均值填充。SPSS Clementine 10.1的Filler Node能很方便地对缺失值进行处理,可替换满足特定条件的属性值,也可用这个节点来替换、填补空缺值。②极值处理。少数顾客的个别行为可能引起聚类中心的偏移,从而影响聚类分群的准确性。在研究各属性值的图形分布后,去掉部分极值。利用SPSS Clementine 10.1的Distribition Node可产生各属性值的分布图,能直观地看出少数极值分布的区域。③数据规范化。对基于距离的聚类算法,规范化可帮助防止具有较大或较小初始值域的属性权重过大引起聚类中心偏移而影响聚类的准确度。由于顾客月消费额(M)对顾客价值存在正相关影响,即M值越大,顾客价值越大。因此,其标准化调整为:undefined。式中,ML为当月顾客消费额的最大值,MS为当月顾客消费额的最小值。由于顾客忠诚度系数(L)对顾客价值存在负相关影响,即L越大,顾客越不忠诚,顾客价值越低。因此,其标准化调整为:undefined。式中,LL为当月顾客忠诚度系数的最大值,LS为当月顾客忠诚度系数的最小值。经过数据预处理后剩余的数据纪录为132条,利用以上公式计算后,最终获得5个月的忠诚度系数(Li)和消费额(Mi),i代表第i个月(i=1,2,3…5)。

3 超市顾客群模型的建立和评估

3.1 聚类分析模型

建立模型:根据商业目标,建立盈利性(M)—忠诚度系数(L)模型,运用k-means算法对超市顾客进行聚类分析[7]。本模型中的顾客分类是将每个顾客的类别聚类中心L值和M值分别与当月总L和总M的平均值进行比较来决定的。而单个指标的比较只能有两种情况,即大于(等于)或小于平均值,因此可能有2×2=4种类别。选定顾客细分数目k的值为4,将SPSS Clementine 10.1中k-means节点中的k设置为4。在SPSS Clementine 10.1中建立聚类模型的流程,分别对数据库中的5个月客户数据进行逐月聚类分析。在聚类过程中,聚类算法结束后自动产生类别标号如“cluster-n",其中n代表第n类,且类别标号是按照各类出现的先后顺序依次标记的。因此,为了方便分析比较各个月的顾客细分群的变化,在聚类前将类别标号进行统一:“Cluster-A”表示L的簇均值小于当月L的总均值,M的簇均值大于总均值的簇;“Cluster-B”表示L和M的簇均值大于当月总均值的簇;“Cluster-C”表示L的簇均值大于当月L的总均值,M的簇均值小于总均值的簇;“Cluster-D”表示L和M的簇均值小于当月总均值的簇。

结果分析:根据以上聚类模型,可得到Cluster-A、Cluster-B、Cluster-C和Cluster-D四类顾客:①Cluster-A类顾客具有很高的消费能力,但是忠诚度很低,这类顾客是企业应该着重争取的顾客,是推销的重点顾客。对这类顾客进行详细分析,并针对这类顾客的特点和需求制定有针对性的服务和推销策略,将他们从竞争对手中争取过来变为自己的忠诚顾客。②Cluster-B类顾客是产生利润最高和忠诚度最高的顾客。这部分顾客是企业的“黄金顾客",是企业最有价值的顾客,也是企业应重点保持的顾客。③Cluster-C类顾客的忠诚度很高,但购物水平相对较低。这样的顾客可能更倾向于物美价廉的产品,他们可能更注重性价比而不是品牌。对于这类顾客应向其推销一些价格较低、性价比适中的产品。④Cluster-D类顾客的忠诚度较低,消费额也相对较低,他们是竞争对手的忠诚客户,对他们推销存在很大的风险,应适当放弃。

3.2 序列分析模型

模型的建立:SPSS Clementine 10.1中的序列节点(Sequence)可用来建立序列分析模型。序列节点是基于CARMA关联的规则演算法,此外由序列节点创建生成的模型节点可插入到流程中生成预测。从数据库中抽取前4个月数据,在SPSS Clementine 10.1中建立序列模型的流程。其中,sequence节点参数过大或者过小,会导致信息的丢失或产生无用信息,从而影响模型的准确性。因此,参数的设定应该反复调试、谨慎进行。Minimum rule support(最小规则支持度%)可设定限定标准。规则支持度是指数据集中包括完整序列的ID比例。规则支持度数值越大,序列越普遍。序列集合中序列A⇒B的支持度计算式为:support(A⇒B)=P(A∪B)。本研究中的序列分析对象是超市客户价值群序列。通过统计5个月的客户聚类数据发现,5个月中Cluster-A、Cluster-B、Cluster-C和Cluster-D平均每个月的顾客人数占总顾客人数的百分比分别为16.7%、23.9%、21.1%和38.3%。为了不丢失有用的信息,将Minimum rule support(%)设为6.0,见图1(见封二)。Minimum rule confidence(最小置信度%)是指在所有做预测的ID中预测正确的ID百分数。置信度的计算方法是用序列中包含完整序列的ID数目除以仅含有前提条件的ID数目。由于此参数表示预测的准确率,故本研究将其设为50.0。序列集合中序列A⇒B的置信度计算式为:confidence(A⇒B)=P(B|A)=P(A∪B)P(A)。Maximum sequence size(最大序列规模)可指定序列中项的最大个数。如果有用序列相对较短,可降低该项值。本研究的最大序列为4,因此将次参数设为4。Prediction to add to stream(加入流程的预测数)指定添加到最终生成模型节点流中的预测数。由于最终生成的预测结果是按照置信度由高到低排列的,即第一个预测的置信度是最高的,对研究也是最有意义的,因此本研究将此参数设为1。

结果分析:运行序列分析流程,生成的序列模型结果见图2(见封二)。图中的每一行都代表一个满足模型参数的规律,该规律是按照置信度的降序排列的。Antecedent(前项)即规律的“if"部分,Consequent(结果)即规律的“then"部分,Instances包含整个序列的ID数,Support%(支持度)记录只包含前项ID的百分比,Confidence%(置信度)显示所有作为预测的ID中正确预测的ID百分数;Rule support(规则支持度%)与支持度不同,规则支持度记录包含整个序列的ID百分数,即同时包含Antecedent和Consequent的ID百分数。以第一条规律为例,解释为:如果顾客有2个月属于Cluster-B,接下来有89.7%的可能性仍然属于Cluster-B。符合这一序列规律的客户有26人,占客户总数132人的19.7%。同时,在所有客户中,有2个月属于Cluster-B的客户百分比为22.0%。对图2的结果分析为:①由第一条规律可见,如果顾客有2个月属于Cluster-B,接下来有89.6%的可能性仍然属于Cluster-B。这说明忠诚的高价值顾客保持两个阶段将很可能成为企业的长期忠诚高价值客户,这种客户的流失率较小,是企业的重要利润源。②由第二条规律可知,Cluster-C是相对较稳定的顾客群。Cluster-C类顾客忠诚程度高,但是消费水平较低,如果超市考虑为这类顾客提供价格较低、性价比较好的商品,这类顾客是很容易保持的。③由第三条规律可见,在两个阶段都属于Cluster-D的顾客,有82.3%的可能仍属于Cluster-D。结合第十二条规律,顾客在某一阶段表现为Cluster-D类顾客,接下来的阶段有53.6%的可能仍然表现为Cluster-D。这就说明,当顾客表现出低忠诚低消费的特征之后将很难被挽回。④由第四和第五条规律可见,Cluster-A类顾客如果在2个阶段内,超市对其提供的顾客挽留策略没有使其成为忠诚顾客,则这类顾客在以后阶段将很难再挽回,可能出现永久性流失。⑤从第六条规则可见,Cluster-C类顾客通过实施相应的策略,如为他们提供符合其消费特点的商品,使其成为超市企业的高忠诚、高价值顾客后,很可能在下阶段成为企业永久性的高忠诚、高价值顾客。⑥第七条规律说明,仔细分析Cluster-A类顾客的消费倾向,将其转变为Cluster-B类顾客,很可能成为企业永久性的高忠诚、高盈利顾客。⑦第八、第九和第十三条规律给出3条比较容易发生的顾客流失路径,当某些顾客表现出这样的序列规律时,要注意对这类顾客实施顾客保持策略。

4 结论

通过对超市企业顾客商业目标的分析,在超市顾客数据理解和预处理的基础上,提出了忠诚度系数度量指标;运用SPSS Clementine10.1软件,遵循CRISP-DM模型流程,建立了超市顾客群序列分析模型并进行了预测。该模型能准确地识别高价值忠诚顾客,并对其进行分析研究,制定更符合不同顾客群的营销和服务策略,为进一步挖掘顾客的潜在利润空间,增加超市企业利润,最终在日益激烈的商业竞争中立于不败之地。

摘要：利用SPSS Clementine 10.1数据挖掘工具,遵循CRISP-DM模型的商业目标、数据理解、建立模型的流程对超市顾客进行分析研究。提出衡量超市客户忠诚度的忠诚度系数指标,建立忠诚度—盈利性顾客细分模型,运用k-means算法对超市顾客进行聚类分析,帮助超市企业准确识别不同类型的顾客群,尤其是忠诚的高盈利顾客。再利用所建立的序列分析模型分析顾客类别变化路径,预测顾客价值变化趋势,及早发现潜在价值顾客,使其尽早成为企业忠诚的高价值顾客,实现超市企业利润的有效提升,最终在日益激烈的商业竞争中立于不败之地。

关键词：超市,顾客分析,数据挖掘,聚类分析,序列分析

参考文献

[1]Jiawei Han,Miche Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2007∶62-90.

[2]袁金魁.顾客满意度和转移障碍对顾客忠诚度影响的实证研究[D].长沙:湖南大学工商管理学院,2005∶7.

[3]Eugene W Anderson,Claes Fornell.Foundations of the American CustomerSatisfaction Index[J].Total Quality Management,2000,7(11)∶869-882.

[4]Karypis G,Han E-H,Kumar V,et al.A Hierarchical Clustering AlgorithmUsing Dynamic Modeling[J].IEEE Computer,1999,32(8)∶68-75.

[5]Guha S,Rastogi R,Shim K,et al.An Efficient Clustering Algorithm for LargeDatabase[C].Seattle:Proceedings of ACM SIGMOD Conference,1998∶73-84.

[6]Zeithaml A V,Berry L L,Parasuraman A.The Behavior Consequences of Ser-vice Quality[J].Journal of Marketing,1996,60(2)∶31-46.

超市采购数据与分析管理范文第2篇

采购最终的目的就是在贩卖获利，所以采购是否有绩效，最终的表现就显示在数据上，而数据是很现实的，没有达到既定的目标，效率就会被判定为“差”。因此，在采购的数据管理上，现提出几种管理数据做为分析判断的工具：

一、进销存的数据资料掌握

要能明确算出每个部门，每个中分类，每月的进销存数据，而利用POS系统及EOS系统较能很快掌握公司的销售资料及进货资料。换言之，如能以较科学的方式来获取进销存的资料，较能给经营带来大的助益。

二、分类的构成比分析

管理一个公司的商品，不能只是知道全店的营业额和利益，也不能只顾及部门的营业额及利益。例如：不但要知道饮料类这个中分类的营业额及利益是多少，对于它所占的构成比也要了解，才能知道销售的弱点在那里，以及如何加以改善。

三、毛利率分析

毛利率=毛利率/营业额×100

对于每一个分类也要能将毛利率计算出来，了解哪一个分类的获利能力好，哪一个分类的获利能力差，而调整商品结构或强化弱的分类。

四、商品回转率分析

商品回转率=营业额/初期存货+期末存货/2×100

商品回转天数=365天/年商品回转率

超级市场的经营决窍之一，就在求取快速的商品回转率，所以对于每一分类的回转率须予以计算出来，回转率愈快愈好。因回转率愈快，商品鲜度愈佳，资金回收速度也快；如此形成一个良性的循环，经营才会杰出。一般来说，超级市场的回转次数，一年应保持在20—22次以上才合乎标准，经营者可以检查一下自己公司的回转次数，是否在标准之内，若在标准之外，可就要好好努力了。

采购部门是超市创造业绩的部门，所以如果没有完备的采购组织存在，超市根本不可能存在，更不用说想赚钱了，因此超市在谈利润的第一步就是要先组织一支战斗力十足的采购战斗队伍，如此严密地把守住货物进出的第一关，才有可能使超市真正立于不败之地。

采购部门就如同制造业的生产部门一般，是创造利润的单位，此关若把守得当，只进一些会赚钱的货，自然就可以确保超市的基本业绩。

数据挖掘在超市管理中的应用研究第3篇

以往的超市管理系统一般缺乏综合分析、辅助决策的能力,只是把大量的数据信息存储到了计算机里,并没有在如此大量的数据中,找到或者发现隐藏在里面的有用的信息。在科技飞速发展的现状,如何利用现代化的技术方法,对数据进行精确的、多层次、多角度的分析与挖掘,在大量的数据中找到所隐含的规律呢?

数据挖掘技术正是一种数据分析技术,主要应用在数据的深层次分析上,从数据库中寻找出有价值的信息,利用挖掘出来的有价值的信息,去提高管理效率和管理效果。

二、数据挖掘和关联算法

1、数据挖掘技术

数据挖掘(Data mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取出潜在的、不为人知的、但又潜在有用的信息和知识的过程。它是近年来从统计学和计算机科学交叉而来的新词汇,目前在销售业、金融业或者工业企业的大型数据库中有着广泛的应用。数据挖掘目前正处在一种变动的、发展的时期,从商业上说,数据挖掘可以对商业数据库中的大量看似无关的数据信息进行抽取和分析处理,从而提取到辅助商业决策的关键性数据,可以说是一种新的商业信息处理技术。

2、关联规则

关联规则挖掘问题可以这样来表述:设I={i1,i2,i3,… in}是一个项的集合,T={t1,t2,…tn}是一个事务。设D是任务相关的事务数据库的集合,其中每个事务T是项目的集合,使得。每一个事务有一个表示符,称作TID。设A是一个项目集,事务T包含A当且仅当。

3、关联规则的挖掘算法

关联规则算法中,最经典的是多循环方式挖掘算法, 这种算法的核心是“层次算法”。算法的过程如下:先把整个挖掘过程分为若干个层,然后再各个层次进行挖掘,每个层次都挖掘完成后,组合成最后的挖掘结果。典型算法包括Agrawai等人提出的Apriori、AIS算法,Park等人提出的DHP算法,Toivonen提出的FP-growth算法等等。其中最著名、最有效和最有影响力的算法是Apriori和FP-growth算法。

4、改进的Apriori算法

经典的Apriori算法使用的是一种逐层搜索的迭代方法,通过频繁项集生成强关联规则。这种算法对一是对数据库扫描的次数太多,耗费的时间太长;二是可能产生大量的候选集,导致算法在广度和深度上的适应性很差。本文把这种经典的算法进行了改进,即数据库按照一定的规则转换为O-1矩阵,候选项目集的支持数是通过对矩阵中元素的统计来快速计算出来。

(1)将事务数据库转化为0-1矩阵

设事务数据库D中存在i个事务Tn(n=1,2,3,…,i), D中共有j个项目,Pm(m=1,2,3,…,j),定义i×j矩阵A (D)=anm,则

数据库D的0-1矩阵形式可以用矩阵A(D)来表示。

(2)算法的表述

1将事务数据库D转化为0-1矩阵A (D)i×j项集。在转换好的矩阵A(D)中,找出数据库D中最多的事务,方法为:找出包含元素“1”个数最多的行向量,这里要注意的是,包含元素“1”最多的行向量可能不止一个;将候选项目集中包含的项目数记作d;将项集作为候选项目集记作C。

2假如d=0,该算法视为结束,结果为无频繁项目集; 假如d>0,则执行3。

3计算C1中每个候选项的支持数,把计算的结果与最小支持数minsup进行比较,找出C中的频繁项集记作L。若L≠,则L为频繁项集,其子集也为频繁项集,算法结束;否则执行4。

4找出C中的每个候选项集的d-1项集,再找出数据库D中包含项目数为d-1的项集,将这些项集的集合作为候选集C,返回2,重复执行,至算法结束。

三、数据挖掘在超市管理中的应用

以某超市的销售记录为例,在表1中记录9条交易信息,根据改进的算法,要对表1中的数据进行转换,使之成为交易数据库,设其转换代码为:汉堡-I1、饮料-I2、饼干-I3、纸巾-I4、啤酒-I5;得到数据库表2:

根据表2得知,在交易数据库D中,存在9条交易记录,假设其最小支持度为22%,即最小支持频度为:9*22% =2。根据定义转化为0-1矩阵如下:

根据上述改进的挖掘算法,首先在A(D)中找出包含元素“1”个数最多的行向量(最多的事务),结果显示为矩阵第5行行向量,d=4,C={{ I1,I2,I3,I5}}。因为在矩阵中对应位置的全“1" 行数为l,则{ I1,I2,I3,I5}的支持数为1, 而minsup=2,所以{I1,I2,I3,I5}为非频繁集。

根据算法4,找出C中的每个候选项集的d-1项集,再找出数据库D中包含项目数为d-1的项集,即找出C中的3项集和数据库中包含项目数为3的集合,作为候选集C, 得到的结果为:C= {{ I1,I2,I3},{ I1,I2,I5},{ I1,I3,I5},{I2,I3,I5},{ I1,I2,I4}},这些项集在矩阵中对应的行数,即支持数如表3所示。

将C中候选集的支持数与minsup进行比较,得知{ I1, I2,I3}和{ I1,I2,I5}为频繁集,L={{ I1,I2,I3},{ I1,I2,I5}}, 因为L≠ф,算法结束。

则{ I1,I2,I3},{ I1,I2,I5}及其所有的子项目集均为频繁项目集,即所求得的频繁项目集为:{{ I1},{ I2},{ I3},{I5},{II,I2},{ I2,I3},{I1,I3},{I1,I5),{I2,I5),{I1,I2,I3}, {I1,I2,I5}}。

四、结束语

本文以超市购物为实例,首先介绍了数据挖掘和关联规则的相关知识,详细分析了Apriori算法的优缺点,提出了对该算法的改进方法。以超市“购物篮”为实例,详细叙述了改进的Apriori算法的执行过程。

参考文献

[1]陈京民等著.数据仓库与数据挖掘技术[M].电子工业出版社,2012.8:1-55

[2]范明,孟小峰.数据挖掘概念与技术[M].北京:机械工业出版社,2006:26-27,32

[3]邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2008.

[4]夏火松主编.数据仓库与数据挖掘技术[M].科学出版社,2004:1-40

超市数据挖掘论文第4篇

顾客忠诚度是指顾客忠诚的程度,是一个量化概念。它是指由于质量、价格、服务等诸多因素的影响,使顾客对某一企业的产品或服务产生感情, 形成偏爱并长期重复购买该企业产品或服务的程度。

顾客忠诚度的数据系统中蕴藏着大量的信息资源, 企业虽然可以针对明确的信息,利用查询等工具直接获取,但隐藏在大量数据中的关系、趋势等信息却无法从数据表层获得。需要有新的、更有效的技术对大量的数据进行挖掘以发挥其潜能,从中迅速萃取有用的信息以帮助企业提高顾客忠诚度。因此,有必要在研究顾客忠诚度的评价体系中引入数据挖掘技术, 以提高企业的顾客忠诚度和竞争能力。数据挖掘是解决数据丰富而知识贫乏的有效途径,其实质是从数据库中提取隐含的、未知的和潜在有用信息的过程, 被公认为是数据库研究中的一个极具应用前景的新领域。数据挖掘技术包括聚类分析、分类与预测以及关联分析等功能, 它们可以从评价数据中找出大量真正有价值的信息和知识,能够更好地对顾客忠诚做出定量的分析和预测,进而有效的提高顾客忠诚度,更好的为企业和社会服务。

1利用数据挖掘建立评价体系的方法

数据挖掘涉及的学科领域和方法很多,有人工智能、数据统计、可视化、并行计算等。根据挖掘任务可将数据挖掘分为分类模型发现、聚类、关联规则发现、序列分析、偏差分析、数据可视化等类型。

(1) 分类 : 其旨在生成一个分类函数或分类模型 , 该模型能把数据库中的数据项映射到给定类别中的某一个。既可以用此模型分析已有的数据,也可以用它来预测未来的数据。

(2)聚集 :聚集是对记录分组 ,把相似的记录在一个聚集里。聚集和分类的区别是聚集不依赖于预先定义好的类, 不需要训练集。

(3)数据可视化 :数据可视化严格地讲不是一个单独的数据挖掘任务,它被用来支持其他挖掘任务。可视化是采用图形、图表等易于理解的方式表达数据挖掘结果。

(4) 关联规则 : 关联规则是寻找数据库中值得相关性 , 主要是寻找在同一个事件中出现的不同项的相关性, 比如在一次购买活动中所买不同商品的相关性。

(5)序列分析 :序列模式分析同样也是试图找出数据之间的联系。但它的侧重点在于分析数据之间前后关系,因此对数据往往要求引入时间属性。序列模式分析非常适于寻找事物的发生趋势或重复性模式。

(6)偏差分析 :偏差分析是用来发现与正常情况不同的异常和变化,并进一步分析这种变化是否有意的诈骗行为,还是正常的变化。如果是异常行为,则提示预防措施:如果是正常的变化, 那么就需要更新数据库记录。

2顾客忠诚度模型的构建

2.1超市顾客数据准备和数据选择处理

2.1.1数据准备

数据挖掘的对象是数据, 只有对数据充分了解之后才能进行数据挖掘工作。结合超市企业的商业目标,理解、熟悉顾客信息,能将商业目标转化为对数据的理解,从而准确地进行数据挖掘。在超市数据库中可获得如下数据:持会员卡的会员此次消费商品的品牌、型号、价格、数量、消费时间等。建立的度量指标为:

(1)超市顾客忠诚度的衡量。超市销售的商品大部分为生活日用品。会员卡购物多以家庭为单位,家庭购物存储期一般不超过6周,故以周为平均计算单位。建立超市顾客忠诚度系数的衡量指标计算方式为: 每周购物次数标准差比上平均每周购物次数再加上每周购物金额标准差比上平均每周购物金额,式中,两项之比都表示重要性权重,用层次分析法确定。认为在超市购物中, 忠诚顾客是那些在一段时间内购物次数和购物金额相对稳定的顾客,即具备较稳定的购物习惯的顾客。结果的数值越大, 表明该顾客购物行为波动越大,越不忠诚;结果的数值越小,则相反。

(2)超市客户盈利性的衡量。基于数据的可获得性和可实现性的考虑,认为购物金额高的客户为企业带来的利润也高,即近似用购物金额的高低来衡量客户盈利性的高低。

2.1.2数据选择处理

数据选择:通过确定数据挖掘目标和进行数据理解,从XXX市某超市数据库中抽取顾客数据, 其中一部分数据用于建立模型、获取规律,最后剩余数据用于模型检验。

数据预处理:数据预处理技术可改进数据的质量,从而有助于提高其挖掘过程的精度和性能。主要为:

(1)缺失的值处理。本研究存在两种类型的缺失的值 :一是正常缺失,表现为当周的购物次数和购物金额同时表现为缺失。这种缺失是由于顾客在当周并没有发生购买引起的, 缺失用数字“0”填充。二是非正常缺失,表现为当周购物次数和购物金额任意一者缺失。这种缺失是由于人为的疏忽和错误引起的,可采用各属性均值填充。SPSS能很方便地对缺失的值进行处理,可替换满足特定条件的属性值, 也可用这个节点来替换、填补空缺值。

(2)极值处理。少数顾客的个别行为可能引起聚类中心的偏移, 从而影响聚类分群的准确性。在研究各属性值的图形分布后,去掉部分极值。利用SPSS可产生各属性值的分布图,能直观地看出少数极值分布的区域。

(3)数据规范化。对基于距离的聚类算法 ,规范化可帮助防止具有较大或较小初始值域的属性权重过大引起聚类中心偏移而影响聚类的准确度。由于顾客的月消费额对顾客价值存在正相关影响,即M值越大,顾客价值越大。

2.2超市顾客群模型的建立和评估

2.2.1聚类分析模型

根据商业目标,建立盈利性、忠诚度系数模型,运用聚类算法对超市顾客进行聚类分析。本模型中的顾客分类是将每个顾客的类别聚类中心盈利值和忠诚度值分别与当月的总盈利值和总忠诚度的平均值进行比较来决定的。而单个指标的比较只能有两种情况,即大于、等于或小于平均值,因此可能有4种类别。选定顾客细分数目的值为4,将SPSS中聚类节点中的值设为4。在SPSS中建立聚类模型的流程,分别对数据库中的客户数据进行聚类分析。在聚类过程中,聚类算法结束后自动产生类别标号如“cluster-n”,其中n代表第n类,且类别标号是按照各类数据出现的先后顺序依次标记的。因此,为了方便分析比较各个月的顾客细分群的变化,在聚类前将类别标号进行统一:A表示盈利值的簇均值小于当月盈利值的总均值, 忠诚度的簇均值大于总均值的簇;B表示盈利值和忠诚度的簇均值大于当月的总均值的簇;C表示盈利值的簇均值大于当月盈利值的总均值,忠诚度的簇均值小于总均值的簇;D表示盈利值和忠诚度的簇均值小于当月的总均值的簇。结果分析:根据以上聚类模型,可得到A, B,C,D四类顾客 :

(1)A类顾客具有很高的消费能力 , 但是忠诚度很低 , 这类顾客是企业应该着重争取的顾客,是推销的重点顾客。对这类顾客进行详细分析, 并针对这类顾客的特点和需求制定有针对性的服务和推销策略, 将他们从竞争对手中争取过来变为自己的忠诚顾客。

(2)B类顾客是产生利润最高和忠诚度最高的顾客。这部分顾客是企业的“黄金顾客”,是企业最有价值的顾客,也是企业应重点保持的顾客。

(3)C类顾客的忠诚度很高 ,但购物水平相对较低。这样的顾客可能更倾向于物美价廉的产品, 他们可能更注重性价比而不是品牌。对于这类顾客应向其推销一些价格较低、性价比适中的产品。

(4)D类顾客的忠诚度较低 , 消费额也相对较低 , 他们是竞争对手的忠诚客户,对他们推销存在很大的风险,应适当放弃。

2.2.2序列分析模型

SPSS中的序列节点用来建立序列分析模型 , 序列节点是基于CARMA关联的规则演算法, 此外由序列节点创建生成的模型节点可插入到流程中生成预测。从数据库中抽取数据,在SPSS中建立序列模型的流程。其中,序列节点参数过大或者过小,都会导致信息的丢失或产生无用信息,从而影响模型的准确性。因此,参数的设定应该反复调试、谨慎进行。最小规则支持度可设定限定标准,规则支持度是指数据的集中包括完整序列的ID比例,规则支持度数值越大,序列越普遍。本研究中的序列分析对象是超市顾客群的忠诚度。通过统计客户聚类数据发现,数据中A、B、C和D平均每个月的顾客人数占总的顾客人数的百分比分别为17%、24%、20%和39 %。为了不丢失有用的信息,将设为最小规则支持度6.0, 最小置信度是指在所有做预测的ID中预测正确的ID百分数。置信度的计算方法是用序列中包含完整序列的ID数目除以仅含有前提条件的ID数目。由于此参数表示预测的准确率,故本研究将其设为50.0。最大序列规模可指定序列中项的最大个数。如果有用序列相对较短,可降低该项值。本研究的最大序列为4,因此将次参数设为4。加入流程的预测数指定添加到最终生成模型节点流中的预测数。由于最终生成的预测结果是按照置信度由高到低排列的,即第一个预测的置信度是最高的,对研究也是最有意义的,因此本研究将此参数设为1。

运行序列分析流程, 生成的序列模型结果的每一行都代表一个满足模型参数的规律,该规律是按照置信度的降序排列的。前项规律的“if”部分,结果规律的“then”部分,例子包含整个序列的ID数,支持度的记录只包含前项ID的百分比,置信度的显示所有作为预测的ID中正确预测的ID百分数; 规则支持度与支持度不同,规则支持记录包含整个序列的ID百分数,即同时包含前项和结果的ID百分数。如果顾客有2个月属于B,接下来有89.7%的可能性仍然属于B。这说明忠诚的高价值顾客保持两个阶段将很可能成为企业的长期忠诚高价值客户, 这种客户的流失率较小,是企业的重要利润源。 C是相对较稳定的顾客群。 C类顾客忠诚程度高,但是消费水平较低,如果超市考虑为这类顾客提供价格较低、性价比较好的商品, 这类顾客是很容易保持的。在两个阶段都属于D的顾客,有82.2%的可能仍属于D。顾客在某一阶段表现为D类顾客, 接下来的阶段有53.5%的可能仍然表现为D。这就说明,当顾客表现出低忠诚低消费的特征之后将很难被挽回。 A类顾客如果在2个阶段内,超市对其提供的顾客挽留策略没有使其成为忠诚顾客, 则这类顾客在以后阶段将很难再挽回,可能出现永久性流失。 C类顾客通过实施相应的策略,如为他们提供符合其消费特点的商品,使其成为超市企业的高忠诚、高价值顾客后,很可能在下阶段成为企业永久性的高忠诚、高价值顾客。仔细分析A类顾客的消费倾向,将其转变为B类顾客,很可能成为企业永久性的高忠诚、高盈利顾客。

3结语

超市数据挖掘论文第5篇

关键词：数据挖掘,连锁超市,逆向物流

世界著名品牌雅诗兰黛在全球范围的年销售额达到40亿美元，但同时每年退货、过量、报废和损坏的数额达到1.9亿美元，约占销售额的4.75%。每年的巨额流失使雅诗兰黛公司决定花大力气改善其忽视的逆向物流领域，公司于三年前投资130万美元发展逆向物流的商业智能系统，扫描系统、效果显著。在整个系统运转的第一年就为公司追回了原先要通过裁员和降低管理费用产生的成本价值。通过对24%以上的退货运用商业智能工具进行分析、评估，从中分拣出可以再次分销的数量是真正需要退回的1.5倍，从而每年节省了约47.5万美元的成本。与此同时，系统对超过保质期的产品识别也在大大提高，因为超过保质期而被销毁的退货从37%降到了27%。据雅诗兰黛逆向物流部门经理预计，未来几年，只要系统能够给予更严格的退货时间识别出超过保质期的产品，产品销毁率完全可能降到15%以下。

除雅诗兰黛外，IBM、通用汽车业等也于几年前开始在逆向物流中运用商业智能系统技术和其他相关技术，进行深度挖掘，强化管理，降低成本，提高服务满意度。

数据挖掘又被称为数据库中的知识发现或探测性的数据分析，它是一个从大量的、冗余的、有噪声的甚至缺损的数据中提取有用知识的复杂过程。逆向物流可分为两大类：回收物流和废弃物物流。零售行业的顾客驱动特征比较明显，因顾客退货、零售企业日常管理等原因产生的回收物流比例较大。这类逆向物流数据来自生产实践环节，不但数量大，而且更新速度快，为运用统计分析方法进行数据挖掘带来了便利。[1]

1 研究连锁超市逆向物流的意义

1.1 增强战略竞争优势价值。

成本领先战略和差异化战略是迈克尔·波特 (Michael Porter) 提出的两大竞争战略。逆向物流直接和企业成本领先或者服务领先战略相联系，公司利用其逆向物流能力降低成本，提高服务质量，确立企业的成本或服务竞争优势。

1.2 改善和提高顾客价值。

买方市场的经济环境下，维系顾客的满意度，培养顾客的忠诚度，方能占据长久不败的市场份额。对于消费者来说，逆向物流的成功运作能够确保不符合订单要求的产品及时退货;保证有质量问题的商品能够及时得到维修调换，最小化购买风险，增加其对企业的满意度及忠诚度。另外，逆向供应链关系是“多对一”，当发生逆向物流时，出现的退货和产品召回是众多的下游顾客面对上游零售商。如果零售商采取宽松的退货和产品召回策略，就能够减少顾客的发散状的投诉意见，避免企业社会性的公关危机，提高美誉度。

1.3 增强企业内部整合能力价值。

企业的质量管理活动为一个闭环式活动--计划、实施、检查、改进。逆向物流恰好处于检查和改进两个环节上，作用于计划、实施两端。通过对返品的检查、归类、改进与处理，可以直接搜集、记录、分析、追踪所发生的逆向物流成本及原因，为正向物流的运作提供正确、及时的信息反馈。逆向物流的成功实施，实质上就是企业内和企业间职能部门或区域的信息沟通与整合能力的强化。

1.4 评估产品质量与供应商。

在供应链管理中，价格、质量、交货提前期、服务水准等4个因素是对供应商进行评估的关键因素。质量是评价供应商的基本指标之一，是指供应商的产品满足企业需求的程度。客户企业对产品注重的是整体质量，次品过多可能直接导致客户企业无法按计划运营，而少量产品质量过高只会增加供应商的成本。因此，每一个零售企业都应建立自己的质量标准，产品质量符合双方的约定即可。在这里，质量标准用每100件产品中的破损数量值即次品率来表征。通过对逆向物流数据进行数据挖掘，可提取包括次品率在内的很多新信息。这些知识既可用自身选择供应商的决策，也可反馈给供应商以改进产品质量，增强本供应链的竞争力。[2]

1.5 提高企业形象价值。

生活水平和文化素质提高后，人们对环境和社会责任的承担期望越来越高;目前不断恶化的环境污染和资源短缺和社会分化现状，使政府和消费者愈加关注人、经济和环境的可持续发展。企业的环境行为，社会行为已成为政府、消费者评价企业声望的重要指标。从社会或者环境的角度看，如果企业通过逆向物流和适当的废弃品处理方式增加消费者或公众福利，会为公司创造持久的顾客忠诚度和政府支持。[3]

2 连锁超市逆向物流中的数据挖掘应用

2.1 必须加强对返品信息的搜集和存储。

(1)识别和确定数据源。逆流信息体系的数据来源于企业内部或企业外部。如：订单信息、顾客信息、产品信息、库存信息、财务信息、退货信息、处理信息等。(2)进行数据集成和存储管理。对返品信息的搜集和存储可运用数据仓库技术对现在和历史数据进行数据集合，把数据处理技术与商业规则相结合以降低逆流成本，减少企业运营风险。从逆向物流环节和内容来看，门店是返品实体和信息的扭结点，所以从门店着手，建立商品购销存退和最后处置情况的基本资料数据库，并设定保质期提前预警系统，在单品保质期前发出警报，可以增加返品传递的可见度，有利于逆向物流中心管理人员从容、迅速处理逆流商品。

2.2 进行数据分析和建模。

逆流信息体系建立的根本目的是降低成本，获得高回报率。运用逆向物流信息体系所提供的数据分析工具，通过数据分析、建模将数据转化为信息和知识。对返品信息数据的分析可运用数据挖掘和联机分析处理技术。它主要通过多种的方式对数据进行分析、查询和报表处理，从大量的数据中发现隐藏的规律或关系。通常采用机器自动识别的方式，而不需要太多的人工干预。数据挖掘中常用的数据模型有：分类模型，根据商业数据的属性将数据分派到不同的组中;关联模型，描述一组数据的密切度和关系;顺序模型，用于分析数据仓库中的某类同时间相关的数据，并发现某时间段内数据的相关处理模型;聚簇模型，按照某种相近程度量方法将用户数据分成互不相同的一些分组，组中的数据相近，组之间的数据相差较大。

2.3 进行数据的应用和共享。

对逆流商品进行时间、数量、消费者情况等数据搜集并据此原因分析后，为正向物流供货商提供商品的生命周期、产品品质和性能改进方案等参考资料，对商品运输仓储状况对商品的包装和流通加工环节给予指导;为供应厂商和连锁企业总部提供包括质量评价、产品生命周期、销售评价在内的各类营销信息，及时调整连锁企业的商品结构，减少逆向物流。从而实现供应商与连锁企业配送(逆流)中心之间、门店与配送(逆流)中心之间、门店与门店，门店与供应商之间共享返品信息。使返品在最短时间内分流，为企业节约库存和运输成本。

连锁超市逆向物流的退货数据部分来自顾客因质量缺陷的退货，部分来自顾客无条件退货，还有的来自零售企业自身的经营活动。[4]为了准确地反映某种商品的次品率，在逆向物流数据中只选择来自顾客因质量缺陷的退货数据。这样做排除了零售商自身业务活动的干扰，在顾客足够理性的前提下，影响产品质量分析只剩供应商单因素，对来自各供应商的次品率数据进行方差分析后，若发现数据间存在明显差异，下一步就进行成对t检验。对2个供应商进行评估，判断供货质量是否有显著的优势。依次进行上述假设检验方法，了解某种商品中不同供应商的供货质量，为选择和评估供应商提供依据。

3 结束语

数据挖掘技术在连锁超市逆向物流领域具有广泛的应用前景，如通过收集商品退货信息，可了解产品的真实销售情况，对市场变化做出快速反应;通过收集逆向物流信息，可了解顾客对商品的外观或功能建议，与上级供应链成员共享信息，优化整个供应链。本文提出的统计分析方法用于在产品质量上对供应商进行评估。为减少干扰，可适当增大样本容量，灵活设置显著性水平α的值，以提高数据挖掘的有效性。在当今的全球金融危机形势下，连锁业更需要有效的数据挖掘帮助企业高效决策。

参考文献

[1]薛顺利, 徐渝, 宋悦林.再制造逆向物流结构整合优化[J].系统工程, 2006, 4:45-47.

[2]刘晓峰, 陈通, 柳锦铭, 张红兵.基于网络分析法的逆向物流回收模式选择评价[J].电子科技大学学报, 102-103.

[3]张素娟.我国企业逆向物流运作模式选择的研究[D].对外经济贸易大学, 2007:77-79.

超市数据挖掘论文第6篇

在这个转换过程定义中,ETL设计工具的功能模块涉及到数据源的定义、数据库模式的自动获取、转换过程的定义、任务的自动生成、临时表的管理。由于业务系统可能使用不同的数据库厂商的产品,各种数据库产品提供的数据类型可能不同,因此需要将不同格式的数据转换成统一的数据格式。调度器模块主要完成对ETL任务的分配调度。从元数据文件中读取ETL系统的元数据,然后将各个ETL任务分配给连接到调度器上的执行模块。加载器在ETL工具集合中的作用是将中间层的数据分插到数据仓库中的事实表和维表中。具体实现是接收调度器发来的加载脚本,功能主要是将一个源视图中的数据按脚本的分解要求,形成由事实表和维表组成的星型数据模型的实例。中间层管理器在ETL工具集中的作用是负责操作中间数据库,对中间层数据的操作脚本从调度器处接收,解析出其中的SQL脚本,送交具体的DBMS解释执行。

1 ETL设计

数据仓库的建立,需要从各种数据源中通过数据的提取、清理、转换和加载将数据导入到数据仓库中。而ETL的设计就包括这一系列的转换过程,然后记录这些转换规则,生成转换任务,交由调度器调度,给各个模块(抽取转换器、加载器等)处理。

ETL的描述对应于ETL脚本,这个脚本是由ETL设计工具生成。ETL设计可以直观的设计整个ETL过程,然后保存为ETL脚本到元数据库中。调度器读取这些ETL脚本,解析这些脚本然后进行任务分配调度优化,保证执行的流程。

1)添加数据库

首先定义数据源、中间层和数据仓库。仍以销售分析主题为例,数据源名称是chaoshi,即转换为SQL Server数据格式的原始数据;中间层的名称是Mid_chaoshi;数据仓库的名称是ChaoShiCK,具体包括事实表SalesAnalyse和维表Goods、Time、Clerk、Discount。如图1所示。

整个ETL过程被描述成多个ETL活动的组合,数据仓库中的每一个主题数据的生成过程就是一个ETL活动。每一个ETL活动都是由一系列相关的ETL任务组成的,任务主要分成以下几个类型:抽取任务、清理转换任务、加载任务、中间表处理任务。整个活动是以一个或多个(中间表处理任务+抽取任务)为起点,一个(加载任务+中间表处理任务)为终点,中间存在着多个其他类型的任务。任务与任务之间存在关联性,即一个任务的执行需要以一个或多个任务的结束为条件。同时一个任务可能被多个活动所共享,即一个任务出现在多个ETL活动中,不能在这个活动结束的时候就将任务的结果清除,因为它的任务结果需要被多个ETL活动中的后续任务所使用。

对于已经定义好了任务的具体描述,我们需要做的就是如何去定义ETL活动,即如何将各种任务组织起来,如何描述一个ETL活动中的任务信息。将整个ETL过程描述成多个ETL活动,每一个ETL活动又描述成多个任务的组成,而且任务与任务之间存在着一定的先后关系,我们使用任务链的方式来描述ETL活动。将一个ETL活动描述成一个任务链,任务链由开始节点、结束节点、中间节点组成。开始节点是空结点,不包含任何任务,只描述后续的中间节点,表示开始后所需要进行的任务。结束节点也是空结点,不包含任何任务,只描述前续中间节点,表示哪些任务完成后就结束了整个ETL活动就结束了。中间节点包含了一个任务,以及前续中间节点和后续中间节点。

上半部分用于定义和显示数据库的信息,下半部分是用于显示数据库的模式信息,可以对DBMS数据库进行添加、修改、删除操作。DBMS数据库的添加是通过ADO进行连接和身份验证的,要注意的是,同一个物理数据库只能添加一次,即数据库服务器和数据库名具有唯一性,而且目前只支持Oracle和SQL Server连接。在选中一个DBMS数据库时可以使用修改操作,可以修改DBMS数据库的访问信息,即用户名和密码,因为如果DBMS数据库的其他信息改变的话,就相当于增加一个新的DBMS数据库,而非修改了。

特别的,有一个“从文件导入”命令,这是用于从文件导入数据仓库模式。由于数据仓库需要建摸,它的模式信息由建摸工具生成,保存在相应模式文件中而不是数据库中,所以为了获取数据仓库的模式信息,需要从模式文件中导入。

2)添加数据源、中间层、数据仓库的数据库别名

这里的数据源、中间层、数据仓库只是对DBMS数据库进行分类,一个DBMS数据库可以属于其中之一或者其中几个,而一个数据源或者中间层或者数据仓库也可以对一个DBMS定义几次,只要它们的别名不同,例如在数据源中,有两个定义ds1,ds2,它们可以表示同一个DBMS数据库。下面就用别名数据库来统一表示数据源、中间层和数据仓库。

在别名数据库对应的树项上可以对相应的树项进行添加、删除、修改等。别名数据库的修改,可以修改对应数据库的别名和它对应的DBMS数据库的访问ID。别名数据库的删除,就是给出一个确认窗口,予以确认删除。

3)自动获得对应数据库的模式

目前只能获得SQL Server、Oracle的元数据。一个定义了DBMS数据库,定义了数据源、中间层、数据仓库,并获得了DBMS数据库相应的模式信息。

4)过程命令

编辑过程、增加活动。

5)活动命令

主要包括:增加活动、编辑活动、删除活动、增加节点、临时表管理等。

6)节点命令

增加节点就是定义转换规则,可以说这是整个ETL设计的核心部分,根据定义的转换规则生成节点,并生成节点对应的任务。增加节点共分为五个步骤:节点基本信息、数据源表定义、目的表定义、数据转换规则和增量处理。

7)ETL设计的结果

经过增加节点,共设计了五个抽取器和一个加载器,并利用中间层数据库,最终生成了数据仓库的五个表,分别是:dw.Goods、dw.Discount、dw.Clerk、dw.Time和dw.SalesAnalyse。整个ETL设计的结果如图2所示。

结果由两类图标组成:表图标和转换图标。通过表图标(奇数列为表图标,偶数列为转换图标),可以参看这个表的基本信息、表内容,还可以定义这个表为临时表;通过转换图标,相当于选择编辑节点命令,可以编辑对应的节点。

2 提取

数据源是整个ETL过程的开始,所以数据源的情况对于整个ETL过程的调度起非常关键的作用。数据源的分析主要从:数据源的访问、数据源的位置、数据源的数据量、数据源类型进行分析。

数据源可能处于内部网络中,这样可以直接连接到数据源进行抽取;数据源处于网络外部,但不可以直接访问,这种模式需要让数据源提供数据文件来进行抽取处理;数据源处于网络外部,但可以直接访问,比如网络上的数据,可以直接通过抽取网页上的数据。

执行过程报告的目标是可以及时获取分发出去的任务的执行情况,可以跟踪各个任务的执行情况向管理员反映执行的状态信息。原有的设计中只有当执行模块执行完成了或者执行出错才向调度器汇报任务,在发出去到汇报之间可能要很长时间,而且不知道任务是否有无执行,所以整个系统的执行还是存在一定的风险。

两种汇报的处理不同,第一种汇报不需要调度器进行确认,第二种一定要调度器进行确认才可以,如果调度器没有确认,需要不断发送到调度器进行确认。从元数据文件中读取ETL系统的元数据,然后将各个ETL任务分配给连接到调度器上的执行模块。

由于整个ETL采用一个分布式的运行框架,是一个以调度器为中心,抽取器、转换器、加载器、中间层管理器为任务执行器的星形框架。我们采用IP地址和端口号定义每一个模块,由于需要考虑到除了调度器和中间层管理器以外,其他的模块都可以是一个扩展的,即存在多个相同的模块来完成相同的工作,但是要求这些相同模块不能在同一台机器上,即如果有相同的模块,那么它们的IP地址一定是不同的。

3 清理转换

字段的清理主要是对于数据源中抽取过来的数据进行清理和字段复制过程中的处理工作。字段清理分成正常转换和异常清理。正常转换针对不同的字段有不同的处理。主要有不同类型的转换、同类型之间的转换、运算、填写预设值和置空值。每一种转换都涉及到空值NULL的处理。异常清理包括:主键冲突、空值处理、字段中的非法值、日期不完整等。模式转换主要是将原有的存储模式转变成中间存储模式(主要是关系数据)。关系模式的转换比较简单,但是如果是从其他数据源转换就需要不同的算法来转换。模式转换的还有一种就是将数据对象进行投影获取其中的一部分数据信息,或者将多个数据对象进行连接操作形成新的数据对象。

4 加载

加载就是将中间层的数据分插到数据仓库中的事实表和维表中(脚本中源视图只有一个,数据仓库的事实表和维表默认第一个字段为ID,其值由加载器自动生成)。其实现是接收调度器发来的加载脚本,具体是将一个源视图中的数据按脚本的分解要求,形成由事实表和维表组成的星形数据模式的实例。

加载时必须将下列四个文件放在同一目录下:loader.exe(加载器可执行程序);config.txt(加载器参数配置文件);log.mdb(日志数据库,注:其中有日志表);script.txt(中间脚本文件,用于程序中解析脚本时使用)。一次脚本执行中每个数据源最多10个表;一次脚本执行中每个表的最多字段数40;程序最多同时接收15个脚本;于char类型的数据一对一转移时,要求目的数据表的字段长大于等于源数据表字段的长度。

5 总结

我们主要从应用的角度,对数据仓库理论进行了研究,并在此基础上,结合超市的具体业务环境,对数据仓库与ETL技术在决策支持中的应用作了进一步的探讨。通过对数据仓库理论的研究和超市决策支持系统数据仓库的建立,加深了对数据仓库的理解,并积累了开发数据仓库系统的经验。在设计的过程当中,根据已经建立的数据仓库模型,由ETL设计工具定义一系列的转换过程,然后记录这些转换规则,生成转换任务,交由调度器调度,给各个模块(抽取器、转换器、加载器)处理,最后生成适用于联机分析处理的数据仓库。在今后的工作中会我们会不断改进这个系统,使得系统的各项功能更加完善。

参考文献

[1]王能斌,董逸生.数据库设计与实现[M].武汉:华中理工大学出版社,1991.

[2]王能斌.数据库系统教程[M].北京:电子工业出版社,2002.

[3]王珊.数据仓库技术与联机分析处理[M].北京:科学出版社,1998.

[4]毕然,杨科华,徐立臻,董逸生.一种基于XML的数据仓库元数据表示模型[J].现代计算机,2003(7).

超市数据挖掘论文第7篇

关键词：连锁超市,分布式数据库,信息管理系统

0 引言

虽然近几年国内零售企业发展速度较快,但连锁化规模较低,平均在10家以下的占一半以上,少的2~3家,远远达不到国际公认的平均拥有14家才能赢利的最低标准。经营较为粗放,成本、费用没有得到有效的控制,利润增长缓慢。其次,规范化水平低,管理手段落后。当这些连锁超市按照传统的发展模式,不断开拓更多的分店来想以此扩大自身实力的同时,伴随着的不是实力的正向提升,反而增加了管理上的难度,还在管理上耗费了巨大的时间和金钱,造成成本的急剧上升。由于无法及时掌握最新的各连锁店的各项实时数据信息,导致决策的延迟和滞后,甚至管理上的混乱,以至无法对商品进行及时有效的调配和流转,造成无法计算的损失。此外,如果连锁超市难以做到真正的统一进货、统一配送、统一管理、统一核算,就不会产生集约效益,就不容易同竞争对手展开全方位竞争,在市场竞争中将显得处处被动,这在很大程度上限制了这些连锁超市的进一步发展,面对愈发狭窄的发展空间,这些连锁超市面临着严峻的考验。

本系统通过对连锁超市的具体情况进行详细的分析与研究探索,并在此基础上努力实现具体的连锁超市管理系统的应用方案。为此将为连锁超市软件部分提出可行的实施方案。

1 分布式数据查询简介

本系统将用到分布式数据库查询,而数据库应用的不断发展,规模的不断扩大,逐渐感觉到集中式系统的不便之处。如大型DBS的设计和操作都比较复杂。DDBS是物理上分散逻辑上集中的数据库系统,系统中的数据分布存放在计算机网络的不同场地的计算机中,每一场地都有自治处理(即独立处理)能力并能完成局部应用,而每一场地也参与(至少一种)全局应用,程序通过网络通信子系统执行全局应用。分布式数据库的组成框架如图1所示。

2 系统总体设计

根据系统总体分析,画出系统总体结构图如图2、图3所示。

3 数据库的设计

3.1 数据库概念设计

在本系统中,每种商品可以由多个销售人员销售,每名销售人员也可以负责销售多种商品,一个销售人员只能在一个终端销售商品,一个终端也只能由一个销售人员操作,每个供应商可以供应多种商品,每种商品可以由多个供应商供应,一个入库人员可以对多种商品入库,同种商品也可以被多个入库人员入库,商品、销售人员、终端、供应商从属于一间分店,分店与上述实体之间是一对多关系。根据上面描述,可以构建如下的E-R图:

3.2 数据库逻辑设计

根据系统功能需求与数据流程图,本数据库需要9个数据表6个数据视图,分别是人员信息表、考勤信息表、商品信息表、商品销售信息表、入库信息表、分店信息表、临时表。为了实现分布式数据查询,本系统采用相同版本的数据库管理系统SQL server 2005,构建同构同质型数据库,分片模式采用水平分片模式。由于所有数据并不集中于同一个数据库,而是分布于各个场地,对其中需要统一管理的6个数据表进行水平分片,并组成分布式数据视图进行统一数据查询,这6各视图分别是人员视图、商品信息视图、商品销售视图、分店视图以及供应商视图。这些视图建立的前提是每个数据库管理系统都已存在各分店自身的数据库,属于动态生成的视图。每个表的数据逻辑结构如下(仅列出主要表):

说明:SQL server 2005中规定能进行分布式查询的数据表必须至少具备两个条件:

(1)表中必须要有主键;

(2)表中需具备约束条件,且同类表的约束条件不能相同。

因此,本系统采用分店id作为6个分布式数据表的check约束条件。这样,各分店的数据库虽然具有高度的自治性,但是又相互协作构成一个整体,达到物理位置上分散但逻辑结构上一致的效果。此外,对于创建分布式数据视图,可以采用如下语句实现:

首先创建链接服务器,在SQL Server2005数据库管理系统中,创建链接服务器的语句如下:

其中,第一个语句中,testlink为自定义的链接服务器名称,SQLOLEDB为数据库接口类别,192.168.1.6为要连接的数据库的IP地址;第二个语句当中,testlink同样是链接服务器的名称,sa为登录到远程服务的用户名,12345为登录远程服务器的密码。通过上述语句就可以创建本地服务器到远程服务器的连接,就能够执行对远程数据库的各种语句查询操作。

创建完链接服务器后,就可以创建分布式数据视图。分布式数据视图是一个把本地数据表与远程数据库中的数据表结合起来的视图,通过创建分布式数据视图就可以屏蔽掉各数据库之间的地域差异,在逻辑上成为一个整体,执行操作时就像对同一个数据库进行操作一样,是获取远程数据库数据的一种重要手段。下列语句创建各个分布式视图:

4 结论

本系统通过采用终端+应用程序服务器+数据库的三层设计模式的方法实现了单间分店系统的设计,通过分布式数据库查询的方法实现了多间分店数据的统一查询,从而实现数据的互联互通。通过分布式数据库查询的方法把不同地域结构相同的系统的数据进行统一管理。

参考文献

[1]熊珍琴.经济全球化趋势下我国零售业应对跨国零售巨头的策略选择[J].社会科学家,2010,(3).

[2]邓远志.数据库设计方法[J].南昌教育学院学报,2005,20(4).

[3]李爽.基于multi-Agent的连锁企业物流配送[J].集团经济研究,2007,7.

[4]朱树人,李伟琴.EEP体系结构研究[J].系统工程,2005,3.

[5]Gerge Culuris、Jea Dllimre:分布式系统概念与设计(原书第3版)机械工业出版社;第1版(2004年1月1日)

[6]Charles S.Bowen:"Delphi:Considered Locally,Morally,and Politically"NABU PR(Feb2010)

[7]张淑珍.分布式数据库中垂直分片算法研究[D].西安工程大学学位论文,2007

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处

【超市数据挖掘论文】相关文章：