系统聚类分析范文

2024-07-05

系统聚类分析范文(精选10篇)

系统聚类分析 第1篇

关键词:EDM,聚类分析,酒店信息

1 论文背景

EDM精准营销推荐系统的主要功能有两个: (1) 促进销售, 提高成功预订的转化率。吸引更多客户购买, 在用户购买时实施交叉销售, 给出最适合于用户的酒店信息, 辅助网站及时推出有热销潜力的特色酒店, 实现与其他网站的差异化销售。 (2) 改善客户关系, 提升网站的品牌价值。个性化推荐系统要能够在用户的使用过程中尽可能地满足用户的需求, 实时地和用户保持互动和联系, 吸引潜在客户。

我们发现公司原有的EDM投递系统所用的协同算法在现在已经达到了一个瓶颈, 我们的主要努力方向设定为是建立用户profile和酒店的特征集, 找出两者之间的关联规则进行精准匹配, 即根据用户行为及特征对用户感兴趣的酒店进行精准匹配和推送。同时还有一些附属功能如邮件标题关键字和发送时段的用户个性化选择功能等等。

在酒店方面设定酒店级别、酒店价格、酒店区域、酒店服务、酒店类型五个酒店属性特征分类。对于每个属性根据用户的兴趣点进行区间划分, 而后根据用户浏览和点击的酒店所属的不同区间对用户的兴趣进行定义。最后根据得出的用户兴趣进行匹配的酒店推送。但在第一次拟合实验中, 发现酒店所属地理地区拟合效果并不理想。拟合实验为, 利用已更新的算法计算出每个客户感兴趣的TOP 9酒店, 然后将每个用户的TOP 9酒店列表, 同用户的实际下单酒店进行对比, 同时分别对比酒店属性的命中率。

我们抽取了公司2013年5月13日至19日一周的数据。将浏览并下单的用户分为Tusr1与Tuser2。

Tuser1:浏览酒店后当天下单的客户。

Tuser2:浏览酒店后未当天下单但一周内下单的客户。

由于之前在对用户研究分类中发现, Tuser1中的大部分用户可能已经有明显的选择倾向, 因此在线行为过少或没有相应的用户profile, 所以主要关注于Tuser2的数据, 拟合命中结果如下表所示 (如表1) :

(类型与服务的属性数据还在完善中, 暂时不统计拟合结果)

酒店的拟合结果为实际命中数即用户实际下单的酒店在EDM系统为用户推荐的TOP9中, 而在其余属性拟合命中则代表实际用户下单的酒店的属性和推荐的TOP9酒店的属性有吻合。

从上面的拟合结果总表中可以清晰的发现地区的命中率远远低于星级与价格区间。

因此需对酒店地理信息进行进一步的聚类, 而后再进行下一次的匹配推送拟合, 地理信息作为酒店信息中不可回避的部分, 进行合理的地区聚类是提高拟合命中率的有效手段。此论文主要解决如何优化酒店地区聚类, 达到提高拟合命中率的效果。

2 原因分析

2.1 维度过低

用户的行为定义为Usearch () 和Uview () 。

原本的*Zone Score生成规则如下:

1) 每天计算当天兴趣度累加分值前均为0;

2) 用户每次Usearch (Zone=i) 行为可以为编号为i的商圈累加2次分值;

3) 用户每次Uview (Hotel.Zone=i) 行为可以为编号为i的商圈累加1次分值 (Hotel.Zone=i表示该酒店属于标号为i的商圈) ;

4) Z o n e S c o r e (z o n e=i) =2*num (Usearch (zone=i) ) +num (Uview (Hotel.Zone=i) ) ;

可以发现, 原先的算法中, 单独以一个独立的地区进行统计即是将酒店的地区属性当做一维考虑, 而在实际用户使用中一个地区中可能包含多个用户关心的因素。

在酒店的属性分类中, 酒店级别、价格、服务、类型都能清晰明确的反应用户的喜好和兴趣, 而酒店的区域是则是用户的兴趣引起的结果。例如, 用户可能是旅游, 因此只要是旅游经典附近都会感兴趣, 也可能是商务考察, 因此金融区和工业区可能更受用户青睐。

2.2 数据庞杂

酒店的其他属性相比于酒店的区域属性更加简单, 以星级为例只有二星及以下, 三星, 四星和五星五个类别。而在如上海北京这些大城市中, 地区属性中的种类多达60余个。在如此庞杂的数据中, 用户在搜索和浏览操作会不易集中, 难以判断。

因此, 需要对酒店的地区属性根据用户的兴趣目的和地区本身特点进行聚类分析, 并对聚类结果进行拟合分析。

3 数据研究

3.1 酒店方面

公司原本酒店端的地理信息数据混乱且单薄, 以上海这个城市的某个地区的数据为例 (如表2) :

可以清楚的发现在原本的地区数据中, 关于地区的描述只有一个Zone Desc的描述, 而且为一个长的文本字段。

因此我们首先对要对原本的长文本信息进行分析和提取, 通过对上海多个地区数据的Zone Desc字段进行了简单的观察并利用Python编写相应的文本处理脚本对总共59个Zone Desc字段数据进行了关键字提取分析。为防止“上海”, “交通”等不具有地区代表性的字段的干扰, 对提取的关键字进行了人工筛选, 最后得出的能表现地区特点出现频率最高的前10个关键字为:

因为Zone Desc文本描述过于随意不够全面规范, 因此筛选出的关键字并不相互独立不能直接作为聚类的分类手段, 但从中可以发现用户兴趣方向。

根据所提取出关键字进行归纳整理, 将相关联的关键字进行合并, 提取出原本地区字段描述中的类别为:<金融>, <景点>, <购物>, <工业>, <机场>, <车站>, <文教>。

3.2 用户方面

同时在用户端, 采取用户访谈和历史订单数据分析两种方式, 研究用户对于酒店地区属性的偏好和兴趣。在用户访谈中, 我们归纳出用户预订酒店时关注酒店地区信息的关注点多为:

1) 是否贴近地铁

2) 是否靠近商业区

3) 是否靠近出差工作地点 (厂区)

4) 是否靠近旅游景点

5) 是否靠近机场或火车站

6) 是否靠近学校

同样是对2013年5月13日至19日一周下订单的用户的浏览和查询行为进行分析, 发现用户在设定搜索条件时, 72.3%的用户会首先设定地区或地标进行搜索。而在这72.3%的用户中, 80.6%的用户会更改地区进行二次搜索。

4 数据更新

由于现在系统内还未对地区数据进行进一步的整理更新, 因此无法提取出二次搜索和第一次搜索地区之间的关联。

但从以上用户端的行为可以看出用户更加关心的是地区所包含的属性, 而一个地区包含多种属性, 因此原先的一维分析方式过于简单粗暴, 需要对原先的数据库进行字段的增添以实现多维数据的聚类算法。

根据酒店和用户端两边的数据分析, 将对于地区属性划分为<金融>, <景点>, <购物>, <工业>, <机场>, <车站>, <文教>。在酒店的地区数据中增添与之相对应的七个字段为:, , , , , , 。当对应地区包含所属特性时, 则定义为1, 无则为0。形成酒店端的属性向量。

酒店端的增添字段为:

用户每次Usearch (Zone=i) 行为可以为编号为i的商圈所包含的属性累加2分值;

用户每次Uview (Hotel.Zone=i) 行为可以为编号为i的商圈所包含的属性累加1分值存放在用户的UZone Score表中, 累积形成用户行为的向量。

进行打分评价时, 将此两向量相乘, 即得出用户对该酒店的兴趣值。而后代入原算法通过动态加权方式进行修正。

5 拟合实验

利用原先的算法结构结合新的地区聚类进行新的拟合, 同样使用原本的数据得出以下结果 (如表3) :

6 结论

由于地区聚类后, 优化了原先的结果, 不仅地区由于相同聚类命中率有了大幅提升, 酒店的命中率也有小幅提升。但酒店的命中率仍然不高, 并且在实际应用中会有大量缺失数据的加入命中率还会有大幅下降, 因此在拟合实验中, 命中率应达到25%以上, 在接下来的拟合中, 需要调整权重计算模式, 优化算法。

参考文献

[1]Jain, Murty and Flynn:Data Clustering:A Review, ACM Comp.Surv., 1999.

[2]汪莹.企业信息化的效应理论与评价方法研究[M].北京:中国经济出版社, 2006.

系统聚类分析 第2篇

关键词:僵尸网络;IRC;聚类分析

中图分类号:TP309.5

学术界自2003年开始关注僵尸网络这一新型的网络安全威胁,和以往的病毒、蠕虫等威胁不同,僵尸网络是一种从传统恶意代码形态进化而来的新型攻击方式,控制者在成功完成攻击后,在受攻击的系统上植入一个具有远程控制功能的小程序(bot),并将这些攻陷的机器(僵尸计算机)组成了一个具备一定规模的网络,由一台或多台控制端控制[1]。僵尸网络为攻击者提供了较为隐匿、并且灵活、高效的一对多命令与控制的机制,可以控制大量的僵尸计算机以达到窃取信息、分布式拒绝服务攻击(DDos)和垃圾邮件发送等攻击的目的。

僵尸网络主要分为三类:IRC僵尸网络、HTTP僵尸网络和P2P僵尸网络。IRC僵尸网络是最早产生的,由于IRC网络结构简单、灵活、容易控制,因此直到现在仍然是僵尸网络的主流类型。IRC僵尸网络是基于互联网在线聊天协议IRC,IRC协议是一种常用的实时网络聊天协议,应用很广泛,目前大部分聊天软件都使用的是IRC协议,而这也为黑客带来了可乘之机,他们以IRC协议为基础建立了他们可控制的IRC僵尸网络。如何鉴别网络中的计算机是否感染僵尸病毒是网络安全的重要任务之一,本文通过分析研究IRC僵尸网络通信数据的特征,提出使用聚类分析的技术来对IRC僵尸网络进行检测。

1 IRC僵尸网络的工作原理

IRC僵尸网络主要是利用IRC协议的形式,以一对多的命令和控制的信道来构建其控制服务器,继而控制IRC服务器,转发指令给僵尸计算机,最常见的有AGOBOT,GT-BOTS等。

IRC僵尸网络的基本原理是:黑客通过控制IRC服务器传播僵尸病毒到正常计算机,然后创建他们特殊的通信频道,被感染了僵尸病毒的计算机会根据病毒程序所设定好的配置登录到黑客指定的通信频道,黑客本身并不直接登录IRC服务器,而是通过网络中的某一台主机发送各种控制指令,僵尸收到指令后开始实施攻击,进而对僵尸网络实施控制。其工作原理如图1所示。

IRC僵尸网络从传播到发起攻击主要经历了僵尸病毒的传播、僵尸网络的控制、攻击目标三个步骤,其中命令控制僵尸网络是其整个工作机制的核心部分。

1.1 僵尸病毒的传播

僵尸网络主要是通过在主机上植入僵尸程序来构建的,传播的方式主要是通过远程漏洞扫描、弱口令扫描、邮件附件、恶意文档、文件共享等。对于IRC网络来说,黑客通过找到IRC服务器的漏洞,将僵尸病毒上传到IRC服务器上,使得登录IRC服务器的用户在安装聊天软件时被植入僵尸病毒,成为僵尸计算机。黑客一般使用动态域名服务将僵尸程序连接的域名映射到他所控制的多台IRC服务器上,以避免由于单一服务器被摧毁后导致整个僵尸网络瘫痪。

1.2 僵尸网络的控制

黑客会将僵尸程序加入其私有的IRC命令与控制信道中,当黑客和已被其植入僵尸病毒程序的僵尸计算机,登录到其控制的IRC服务器上时,黑客会用一些常用的口令如login、!login、!auth等来验证僵尸计算机。

1.3 攻击目标

当黑客的控制权限被僵尸计算机认证通过后,这些僵尸计算机就会即可执行由黑客发出的各种指令。目前黑客对僵尸网络的攻击主要还是分布式拒绝服务、垃圾邮件、网络钓鱼、点击欺诈、信息窃取等,虽然没有新的攻击形式,但其攻击的能力逐渐增强,可以让大面积的服务发生故障。

通过IRC僵尸网络的工作原理,我们可以知道在僵尸计算机登录IRC服务器时,其登录的昵称的命名规则会被僵尸病毒所记录,因为很多僵尸计算机可能登录的是同一台IRC服务器,因此昵称会有相似性,对于登录同一台IRC服务器的僵尸计算机还会具备集群性。在黑客攻击指令发送时,僵尸计算机接受到的是同一指令,这样又具有了一致性。因此,总结下来IRC僵尸网络的行为具有相似性,集群性和一致性的特征,而正常的计算机在通信过程中表现出的则是随机性、离散性及模糊性等特点,介于这两种计算机的不同特征,我们可以利用聚类分析的方法找出计算机在通信时数据的不同来区分IRC僵尸网络和正常网络。

2 聚类分析技术在IRC僵尸网络检测中的应用

2.1 聚类分析技术

由于在同一个僵尸网络中,所有的僵尸计算机都会被植入同一类型的僵尸病毒,因此这些僵尸计算机会显现出一些相似的特征。我们可以将这些表现出来的各种特征通过聚类分析的技术来检测僵尸网络。

聚类分析是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程[2]。聚类分析可以从大量数据中自动归纳出这些数据的相似性,同时将不同特征的数据进行分类。目前在数学、计算机、统计学、经济学等领域都运用到了大量的聚类分析技术,并取得了良好的成效。本文对于IRC僵尸网络的检测,也将采用聚类分析的方法,对僵尸网络中的各个节点的行为特征的数据进行分析。

2.2 僵尸病毒分析

在上面的IRC僵尸网络的工作原理中,我们了解到正常计算机在通信过程中的数据的特点是随机性、离散性及模糊性,而在僵尸计算机中,其在通信过程中的数据的特点是相似性、单向性和聚集性,并且结构简单,不够灵活。因此,我们可以通过找出正常计算机和僵尸计算机的昵称命名规则、通信端口号、应答次数、数据包流量、数据包的数据信息等来进行僵尸病毒的分析。

在模拟的IRC僵尸网络的环境中,我们发现僵尸计算机的登录名称信息表现出了高度的相似性。通过分析,可以归纳出以下几点规律:

(1)僵尸计算机通常使用的昵称是比较有规律的,一般由字母、数字和符号组成;

(2)僵尸计算机一般用比较固定的IP地址连接到IRC服务器;

(3)僵尸计算机主要是接收数据信息;

(4)僵尸计算机的任务管理器中会出现异常进程,例如:sdbot.exe等;

(5)僵尸计算机产生的IRC协议数据包总是处于一个比较低的比例。

2.3 聚类分析技术在IRC僵尸网络检测算法中的应用

由于IRC网络的应用广泛,使得IRC网络中的僵尸病毒品种繁多,经常变异,很难获取到合适的比对样本,针对此类情况,本文将采用聚类分析技术对僵尸网络的昵称特征和异常行为特征进行分析检测。

聚类分析的常用算法有马氏距离算法(MABC)和欧氏距离算法(ONF),前者可以排除数据包总量及产生字节数等大数量级向量特征所造成的数据计算偏差[3],后者能够在计算昵称字符串长度等数量级较小的向量属性的距离系数时发挥出更好的性能[4],因此,对昵称特征的聚类分析应用欧氏距离算法,对异常行为特征的聚类分析应用马氏距离算法并加以改进。

首先,我们将现有网络进行设置,拓扑图如图2所示:

(1)基于MABC的异常行为特征检测算法

马氏距离(MABC)是由印度统计学家马哈拉诺比斯(P.C.Mahalanobis)提出的,表示数据的协方差距离,是计算两个未知样本集的相似度的方法。由于在同一个僵尸网络中的僵尸计算机在与控制端进行相互通信的过程中所表现出来的特点是一个包含多个要素的复杂特征向量,且存在某些要素属性的数值的数量级要明显大于其他属性的数量级的情况。为了能够更好地利用僵尸计算机的通信特征差异值非常小的特点,选用了基于MABC的算法来计算各个检测点之间的距离系数。

MABC算法的主要步骤设计如下:

1)从IRC服务器的通信数据中提取特征向量,设为x;

2)将提取到的特征向量与预定的特征向量维度(设为y)进行比较,如果x>y,则建立特征向量矩阵;反之则表示特征向量值处于正常状态,继续提取特征向量;

3)将建立好的特征向量矩阵运用算法,计算出距离系数,判断是否在预定的阙值范围里,如果在阙值范围的则表明是受到僵尸病毒感染的,反之则是正常计算机。

(2)基于ONF的昵称特征检测算法

欧氏距离算法,是求两个数据项间的差是每个变量值差的平方和再平方根,最终要计算其间的整体距离即不相似性。僵尸计算机在与控制端联系过程中所表现出的昵称命名规则可以用欧氏距离的算法进行检测。

ONF算法的主要步骤设计如下:

1)从IRC服务器的通信数据中提取特征向量;

2)对提取的特征向量计算其距离系数,并求出其最大距离系数(设为a)和最小距离系数(设为b);

3)采集在{(b-a)/2,(a-b)/2}范围内的数据,如在这范围内的数据在预定的阙值范围里,则判断为僵尸计算机,反之则为正常计算机。

针对以上两种检测算法的特点,我们可以将两种算法进行整合,对IRC僵尸网络进行检测,主要步骤如下:

1)首先,搭建IRC僵尸网络的实验环境,将环境中的计算机分为两部分,一部分为正常用户,另一部分为僵尸计算机,同时设置一台IRC服务器;

2)然后,选择一段时间,让正常计算机和僵尸计算机随机产生通信数据;

3)将正常计算机和僵尸计算机产生的通信数据进行提取,记录在实验环境中的异常通信行为和僵尸计算机的昵称特征;

4)根据昵称特征算法,对提取到的昵称特征数据计算其特征向量,求出距离系数;根据异常行为特征算法,对提取到的异常行为数据计算其特征向量,求出距离系数;

5)根据计算得出的距离系数,分别建立昵称特征向量集和异常行为特征向量集,然后判断这些集合是否大于预定的特征向量维度值;

6)最后根据获得的结果进行对比,区分网络中的计算机哪些是僵尸计算机,哪些是正常计算机,一般情况下两种结果都命中的即为僵尸计算机。

3 总结

僵尸网络已经成为安全领域共同关注的热点,其破坏力是非常惊人的,而且僵尸网络的数量增长快速,对僵尸网络检测的方法和工具还不是很完备,仍然是以特征的对比检测以及流量的检测为主,本文以IRC僵尸网络为研究对象,借助聚类分析的两种算法,即MABC算法和ONF算法对僵尸计算机的昵称特征和异常行为特征进行检测,从而区分僵尸计算机和正常计算机。

参考文献:

[1]诸葛建伟,韩心慧,叶志远.僵尸网络的发现与跟踪[C].中国网络与信息安全技术研讨会论文集,2005:183-189.

[2]吕新荣,陆世伟.基于聚类技术的僵尸网络检测方案[J].计算机工程,2011,37(7):166-170.

[3]张翔,王士同.一种基于马氏距离的可能性聚类方法[J].数据采集与处理,2011,26(1):101-105.

[4]Xiangyang Li,Cluster and classification algorithm for computer intrusion detection[J],Arizona State University,2009.

[5]王威,方滨兴,崔翔.基于终端行为特征的IRC僵尸网络检测[J].计算机学报,2009,32(10):1980-1988.

[6]孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008,19(1):51-52.

[7]孙彦东,李东.僵尸网络综述[J].计算机应用,2006,26(7):1628-1630.

[8]谢静,谭良.半分布式P2P僵尸网络的伪蜜罐检测方法[J].计算机工程,2010,36(14):111-116.

[9]董开坤,刘扬,郭栗等.P2P僵尸网络检测技术[J].信息安全与通信保密,2008,(4):34-36.

[10]应凌云,冯登国,苏璞睿.基于P2P的僵尸网络及其防御[J].电子学报,2009,31(1):31-37.

系统聚类分析 第3篇

在此将K-means聚类分析技术应用于图书管理系统中, 不仅可以了解用户访问图书馆的目的、特征和趋势, 而且可以在了解用户的兴趣和需求的基础上, 改进服务质量, 变被动服务为主动服务, 同时还可以为管理部门进行图书购买决策提供及时、准确、可靠的信息依据。

1 改进的遗传算法

K-means算法的工作原理为, 首先从n个数据对象中任意选择k个对象作为初始聚类中心, 而对于剩下的其它对象, 则根据它们与这些聚类中心的相似度 (距离) , 分别将它们分配给与其最相似的 (聚类中心所代表的) 簇。然后再重新计算新的聚类中心值 (即每个簇中对象的平均值) 。之后不断重复这一过程, 直到准则函数收敛为止。

K-means算法主要包括以下几个步骤:

(1) 从n个对象构成的集合{x1, x2, …, xn}中随机选择K个对象{c1, c2, …, ck}作为初始的K个聚类集合的中心。

(2) 以K个对象{c1, c2, …, ck}为中心, 将每个对象划分给最类似的集合, 具体的划分原则是:如果xi-cj

(3) 计算新划分出的每个对象集合中的对象的平均值: , i=1, 2, ..., K其中ni为集合Ci中对象的个数, 令 , i=1, 2, ..., K。

(4) 计算准则函数E:

(5) 直到E不再明显的发生变化, 否则转到第2步。

其基本思想是:随机选择k个对象, 每个对象初始地代表一个类的平均值, 作为类的质心, 对剩余每个对象, 根据其到类质心的距离, 被划分到最近的类;然后重新计算每个类的平均值, 不断重复这个过程, 直到所有的样本都不能再分配为止或达到终止条件为止。

2 改进遗传算法的实例研究

2.1 实例计算

从数据库中提取三个表:用户借阅表、书目库、读者记录表。需要对提供的数据表进行预处理, 用SQL语言对用户借阅表、书目库、读者记录表进行操作, 以得到比较规范的图书聚集表, 如表1所示:

2.2 读者特性的聚类挖掘

2.2.1 读者院系聚类

读者因为所属的院系的不同, 而可能因为工作需要等有不同的借阅爱好。因此所属院系不同就会有不一样的特征趋势, 因此根据所属单位来聚类分析, 可以得到如图1所示的借阅情况。院系读者对图书的选择如图1所示。

从图1中我们可以观察到, 在借阅的院系中, 机械系, 材料系, 外语系这几个院系的借阅量都排在前面, 然后管理系, 环境系, 电气系的借阅量相对比较少。

2.2.2 读者年级聚类

对于图书馆读者, 我们除了可以有所属院系的聚类, 还可以对各年级的读者的借阅量聚类, 经分析得到如下结果:

大一和大三的学生借阅量居首位。当然, 对于大一, 大二的学生考虑到扩招方面的因素, 对于大三, 大四的读者, 我们应该多加采取一些积极的措施鼓励和吸引他们前来图书馆借阅, 增加其借阅人数。

2.2.3 特性综合聚类

利用聚类分析找出组别与大类间的关系, 我们利用K-means算法, 输入院系、年级属性, 选择要分群的个数为3个, 数据处理完后, 得到如下结果:

使用率高类:I 247.5 (社会、言情小说) , H319.4 (英语读物) , H 31 (英语考试类) 。

使用率中类:TP 312 (程序语言、算法语言) , H 31-44 (大学英语四级统考模拟试题) , I267 (散文类) , H313.1 (英语基本词汇) 。

使用率低类:H 314 (最新英语四、六级应试技巧、语法) , I 216.2 (现代个人作品集) , 013-44 (高等数学习题) , I 25 (报告文学) , H 315 (外语写作、修辞) 等其它中图分类号等。

3 结果分析

分析以上读者聚类结果可得出:

(1) I 247.5属于社会、言情小说, 属于使用率高的类。

(2) H 319.4、H 31是英语类图书, 属于使用率高的类。

(3) H 313.1、H 31-4 4、H 319.9的借阅量处于中层。

总结与展望

在此详细地介绍了K-means聚类算法在图书管理系统的应用。由于时间仓促, 对K-means算法改进的思想并没有成熟。在以后的工作中, 要针对K-means算法存在的缺点进行改进, 并将该进后的K-means算法应用到图书馆中对图书进行聚类。

摘要:结合信息管理系统原理和数据库原理, 构建了图书管理系统。在此基础上, 对读者流通数据库进行了的数据挖掘实现。试验证明:将K-means聚类数据挖掘技术应用于图书管理信息系统, 能有效地解决传统图书管理系统所存在的分析结果不可靠、数据处理效率低、难以将数据转化为信息等问题。

关键词:图书管理系统J,AVA,聚类分析,K-means算法

参考文献

[1]周鲜成, 申群太, 王俊年.基于微粒群的K均值聚类算法在图像分类中的应用[J].小型微型计算机系统, 2008.

[2]王向阳, 于雁春.基于改进K-均值聚类的快速分形图像编码算法[J].计算机科学, 2009.

[3]周涛, 张艳宁, 袁和金, 等.粗糙核k-means聚类算法[J].系统仿真学报, 2008.

[4]田大东, 邓伟.改进的K均值聚类算法在支持矢量机中的应用[J].计算机工程与应用, 2007.

数据挖掘中聚类分析算法性能分析 第4篇

关键词:数据挖掘;聚类分析算法;性能分析

中图分类号:TP311.13;TP18 文献标识码:A 文章编号:1674-7712 (2014) 16-0000-01

在技术水平的发展之下,数据挖掘技术也得到了迅速的发展,在传统领域下,数据挖掘技术仅仅是基于统计学与计算机技术基础上产生的技术,目前,数据挖掘技术已经在各个行业中得到了广泛的应用,其最大的目标市场主要集中在数据集市、数据仓库与决策支持业界之中,下面就针对数据挖掘中聚类分析算法的性能进行深入的分析。

一、数据挖掘中聚類分析算法的应用

聚类就是将数据集划分不同类的一个过程,不同聚类数据对象相似度小于同一个聚类对象相似度,在使用聚类分析方法应用数据集后便可以帮助研究人员分析出数据集的稠密区域与稀疏区域,辨别出各个数据之间的相关性。将聚类分析法应用在商业领域可以帮助研究人员对客户群体进行深入的挖掘,并根据客户群体的消费心理与特征来制定营销策略;将聚类分析法应用在生物学领域能够帮助了解人员了解人类的基因;将聚类分析法应用在经济领域中能够帮助研究人员来评价各个地区的经济发展能力。同时,聚类分析还可以帮助用户挖掘出网页中的有用信息,聚类分析能够作为独立工具,也可以与其他数据挖掘算法进行联合使用。

二、聚类分析算法的应用要求与方法简介

聚类分析算法的应用需要满足几个特性,这包括可扩展性、不同类型属性处理能力、任意形状聚类、减少输入参数量、噪声数据处理力、高维问题、约束聚类几个内容。根据处理数据目的、要求与类型的不同,聚类分析算法可以分为几种不同的形式,其中代表性的算法有层次方法、划分方法、基于网格算法与基于密度算法。

(一)层次方法

层次方法是一种层次广泛的分析方法,层次方法有两种类型,即自上而下分析法与自下而上分析法,前者强调将数据对象作为独立分组,对这些对象组进行合并处理,直至满足终止条件;后者将所有对象作为一个分析,逐步将其分为小组,直至满足终止条件。常用的分析法有CURE算法与BIRCH算法两种类型。

层次方可可以得出粒度不同的多层次聚类结构,但是,由于各类因素的影响,这一分析法也有一些缺陷,其中最大的问题就是难以进行回溯,在分析的时候必须要考虑到这一问题。

在进行计算时,需要按照相似度来进行分析,也能够将不相似的部分分离开来,判断各个类的相似性,再根据距离来计算出类与类的差异度。

层次分析法引入了聚类特征树与聚类特征,是针对大规模数据的一种算法,该种算法可以有效减少数据处理量,在完成压缩之后也能够满足聚类信息需求,也不会影响聚类的质量。此外,该种算法只要进行一次扫描即可完成聚类,但是,该种算法只能够使用直径与半径概念进行分析,因此,只能够用于对象为球形的计算中,如果数据输入顺序不同,那么就很可能产生不同的聚类结果。

(二)分析方法

使用分析方法可以将数据集划分为k个聚类,这些聚类需要满足几个条件:(1)聚类是要包含一个及以上数据对象的;(2)每一个数据对象只与一个聚类相关,对于一些模糊划分方法,能够适当放宽要求。

对于所有聚类,都需要使用优化的分析方法进行划分,缩小聚类对象距离,分析划分方法质量的标准就是聚类相似度,理想的划分方法能够提升数据对象相似度,常用的划分法包括K-medoids算法与K-means算法两种类型。

(三)基于网格方法

基于网格方法强调将对象空间划分成网格结构,这些网格结构的数目单元是有限的,一般情况下,如果划分过于粗糙,就会影响边界的清晰度,如果划分过于细致,也会导致小聚类数量过多。为此,在使用网络分析法时,就需要从小单元先进行聚类,在逐步增加其体积,指导聚类质量达到标准。

划分对象网格数对于数据库集处理时间有着重要的影响,这会有效简化个数对于数据的影响,这即可有效提升网格分析法的处理速度。

假设N为数据库对象数据,且N无限大,数据对象特征会产生d维特征空间,在进行计算时,数据复杂度是o(N),在对象扫描完成后需要将其分配到相应单元中,若特征空间一个维有m个单元,就一共会出现md个单元,在下一步,就可以使用小波转换来进行处理,建立好查询表,在数据引入其中之后,即可处理相关数据,这些数据复杂度与数据对象数是没有直接关联的,算法时间复杂度即为o(N)。

(四)基于密度算法

基于密度算法可以分析出各种形状聚类,这一算法主要通过获得聚类到相邻密度阈值获取结果,该种算法可以起到很好的除燥作用,挖掘出形状不同的聚类,其中最为常用的基于密度算法就是DBCLUES、OPTICS与DBSCAN。

三、结束语

总而言之,聚类分析已经在数据挖掘领域中得到了广泛的使用,聚类分析算法可以分为几种不同的形式,其中代表性的算法有层次方法、划分方法、基于网格算法与基于密度算法。每一种算法都有其不同的特征与适用性,层次方法适宜用在不同粒度多层次聚类结构的分析;划分方法多用于球形聚类形状;基于网格算法能够迅速处理数据对象;基于密度算法可以能够有效消除噪声,相信在大数据时代的发展下,聚类分析技术定可以得到更加广泛的使用。

参考文献:

[1]王成,王继顺.基于因子分析与聚类分析的学生成绩综合评价[J].甘肃联合大学学报(自然科学版),2011(01).

[2]王亮红,宋代清,徐娜.聚类分析在学生成绩分析中的应用[J].东北电力大学学报(社会科学版),2009(04).

[3]刘思,徐静瑞,张建伟.基于蚂蚁孵化分类行为的聚类算法[J].郑州轻工业学院学报(自然科学版),2009(05).

聚类分析在入侵检测系统中的改进 第5篇

近年来研究人员将聚类的方法用于入侵检测,以达到检测异常数据的作用。基于聚类分析的入侵检测算法的基本思想是源于入侵与正常模式上的不同以及正常行为数目应远大于入侵行为数目的条件,因此能够将数据集划分为不同的类别,分辨出正常和异常行为来检测入侵。基于聚类的入侵检测是一种无监督的异常检测算法,通过对未标识数据进行训练来检测入侵,因此能发现新型的和未知的入侵类型。数据挖掘中常用的聚类算法有K-Means、模糊聚类、遗传聚类等。

传统的K-Means聚类算法存在以下几个问题:(1)K-Means聚类算法中聚类个数K需要预先给定;(2)算法对初始值的选取依赖性极大以及算法常陷入局部极小解;(3)K-Means算法对噪声点和孤立点非常敏感;(4)K-Means聚类算法一般只能发现球状簇。

入侵检测由于其应用领域的特殊性,要求聚类算法具有可伸缩性、处理不同类型属性的能力、发现任意形状聚类的能力、处理噪声数据的能力及对输入记录顺序不敏感等特点。然而,在实际的网络环境中,在没有先验知识的情况下人为地指定这些参数是不现实的,再加上实际网络中数据的不可知性,都导致了在入侵检测中应用这些聚类算法的低效性。本文针对以上问题提出了一种无监督的聚类方法,并将这种聚类算法应用于入侵检测。

1 一种适应入侵检测需求的改进K-Means算法

针对K-Means算法对初值选择的依赖性以及一般只能发现球状簇等问题导致在入侵检测中对检测率和误报率的影响,提出一种新的基于划分和连接度的聚类算法应用于入侵检测。首先采用基于密度的初始质心选择的K均值方法对数据集中的数据对象生成一个初步的聚类,得到一些大小相似的初始簇,然后分析初始簇间连接度,最后合并连接度大的相邻初始簇,从而完成聚类操作。该算法适用于高维数据集,能发现任意形状聚类,是一种能处理不带标识且含异常数据样本的训练集数据的高效的网络入侵检测方法。从K-Means算法的介绍可以看出,K-Means聚类效果受初始时聚类中心的影响很大,选取初始的聚类中心传统上是随机选定的,这样聚类结果往往是局部最优。如果它们选择较为合理,聚类结果就会更合理,而且聚类的速度也会更快一些。

1.1 初始质心点选择算法

输入:有N条记录的数据集D,密度半径dentist R,质心合并距离阈值EPS1;

输出:初始质心集合S。

1.2 算法参数的确定

由以上算法思想和流程可以看出,这种初始质心点选择方法不需要预先给定聚类个数K,算法生成的初始聚类个数是动态生成的,受密度半径dentist R和质心合并距离阈值EPS1的影响。相比较传统的K-Means算法需要人为确定K值,该算法需要设置参数密度半径dentist R和质心合并距离阈值EPS1。对于一个给定的样本集,对于EPS1可以设置它为dentist R的一定倍数即可;对于dentist R,取值太大或太小都失去了对象点密度的意义,从而找不出合理的初始中心点,而且dentist R的取值很敏感,它和样本集中的数据密切相关。所以dentist R的取值在该算法中相当重要。下面给出本文中dentist R和EPS1的设置方法。

密度半径dentist R和质心合并距离阈值EPS1的取值方法:

在KDDCUP99数据样本集中,随机抽取2950条正常数据,50条异常数据形成一个子样本集,在此样本集上实验结果如表一所示。

从实验结果可以看出,当EPS1>3.0时,随着EPS1的取值增大,算法的检测率逐步降低;当dentist R<=3.0时,算法的检测率和误报率都较为理想,但随着EPS1的减小,算法的时间复杂度也越高。所以EPS1取3.0时是最佳取值,既保证有理想的检测率和误报率,又有较低的时间复杂度。

所以在本实验中dentist R=0.8,EPS1=3.0为较佳取值。通过以上方法选择出来的初始质心点是优化了的初始聚类中心,能为聚类过程提供一个好的聚类起点。相比较传统的K-Means优势在于:

(1)K-Means算法需要预先给定聚类个数K值,而K值的估计往往难度很大。本算法无需确定K值,引入密度半径dentist R和质心合并距离阈值EPS1,这两个参数可以通过实验简单准确地得到较佳取值。

(2)K-Means算法选取初始的聚类中心传统上是随机选定的,这样聚类结果往往是局部最优。本算法动态生成初始质心,使初始质心取得较为分散,不过于集中,避免局部最优。

2 结果分析

2.1 对同一种攻击进行聚类的结果及分析

为了对比本文算法与K-Means算法以及常用的K-Protypes,改进的K-Protypes算法对单独攻击种类检测性能,分别选取KDDCUP99数据集四大攻击类型中的一种攻击作为代表(其中nepture属于DOS攻击,guess,passwd属于U2R攻击,buffer overflow属于R2L攻击,portsweep属于PROBE攻击),得到实验结果如表二所示。

表二本文算法与K-Means等算法对攻击类型检测结果对比(单位:%)

2.2 对混合攻击类型进行聚类的结果及分析

从KDDCUP99的10%的样本中选择5500条记录作为训练集Tl,由5000条正常数据和500条入侵数据组成,入侵数据包括7种攻击类型(选取back,buffer-overflow,Neptune,nmap,pod,ortsweep,satan等7种类型)。从剩下的数据中选出5组数据作为测试集T2,每组测试集数据包含正常数据9200条,入侵数据800条,共15种攻击类型,其中包含有训练集中未出现的入侵数据。参数设置为:dentist R=0.8,EPS1=3.0,EPS2=40,EPS3=10。表三给出的是本文提出的算法进行实验得到的检测率和误报率结果。

对比单种攻击类型的数据的检测结果,混合攻击类型的误报率较理想,但检测率有所降低。这主要是由于很多U2R和R2L入侵是伪装合法用户身份进行攻击,使得其特征与正常数据包比较类似,造成算法检测的困难。许多应用入侵检测算法对这两种类型的攻击检测效果都不是很理想,本算法中对于这两种类型的检测率有了一定的提高。

3 结束语

网络入侵检测系统的性能可以由检测率和误报率来度量,在保证较低误报率的基础上,能获得尽可能高的检测率。通过上述实验表明,不管对于存在单种攻击的网络连接记录集还是多种攻击同时存在的网络连接记录集,应用本文提出的聚类算法和检测系统设计,都能够在保持较低的误报率的基础之上,很好地检测出记录集中的攻击数据,包括未知类型的攻击数据。而且在此过程中并没有利用记录集中的标签进行学习,即判定过程中没有利用所标记类别属性进行判断,标记仅用于验证判定结果是否正确,在实际应用中已无需标记数据进行训练。

实验结果表明本文提出的聚类算法是一种有效的无监督入侵检测方法,本文的入侵检测系统设计是有效可行的。

参考文献

[1]徐菁,刘宝旭,许榕生.基于数据挖掘技术的入侵检测系统设计与实现[J].计算机工程,2002,28(6):9-1.

[2]向继,高能,荆继武.聚类算法在网络入侵检测中的应用[J].计算机工程2003,29(16);48-50.1-56.

[3]张光英,张千里,李星.基于SVM分类机的入侵检测系统[J].通信学报,2002,23(5);5.

[4]李鸿培.基于神经网络的入侵检测系统模型[J].西安电子科技大学学报,1999,26(5);67-70.

[5]韩宗芬,刘科.基于数据挖掘的分布协同入侵检测[J].华中科技大学学报(自然科学版),2002,30(7);33-35.

[6]王金磊.数据挖掘技术在网络入侵检测中的应用[D].郑州;郑州工业大学,2005(,5).

系统聚类分析 第6篇

近年来, 随着我国高等教育规模的持续扩大, 高校的管理制度也向着"规范化、信息化、网络化"的方向发展。其职能从事务管理型向学习型、研究型、服务型、创新型转变, 并为学校的决策、管理、改革和建设提供详尽的数据支持。目前, 大部分高校都引进了教务管理系统, 可以高效地实现数据的录入、查询、统计等功能, 但仅仅是在线事务处理 (OLTP) , 只是把大量纸质信息输入到计算机, 利用计算机管理日常教学运行。由于缺乏挖掘数据背后隐藏的知识的手段, 无法发现数据中存在的关系和规则, 无法根据现有的数据预测未来的发展趋势, 导致了"数据爆炸但知识贫乏"的现象, 即各类教务数据迅速增长, 高校管理人员却被各种孤立的海量数据所困扰, 如何发掘大量的数据 (如:四六级成绩、毕业情况、教师工作量、选课历史记录) 中蕴含的规律, 把这些规律运用到教学管理中, 提高办学水平及管理水平成为一个亟待解决的问题。

数据挖掘的出现为人们开辟了一种从海量历史数据中提取知识的新技术, 让人们有能力发现隐藏在大量数据后的信息或知识, 最终认识数据的真正价值。数据挖掘技术正被逐步的应用到教务管理的方方面面, 例如, 分类分析法应用于个性化人才培养;聚类分析法应用于大学英语四级通过率的分析;关联规则应用于合理设置课程和学习评价;Web挖掘应用于全面决策支持等等[1]。

2、数据挖掘简介

2.1 数据挖掘技术简介

数据挖掘 (Data Mining) 一种公认的定义是W.J.Frawley和G.Piatetsky-Shapiro等人提出的[2]:就是从大型数据库的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的、但潜在有用的信息, 提取的知识可以表示为概念<Concepts) 、规则 (Rules) 、规律 (Regularities) 、模式 (Patterns) 等形式。简而言之, 数据挖掘其实是一类深层次的数据分析方法。意味着在一些事实或观察数据的集合中寻找模式的决策支持过程。它主要有五类功能:预测趋势和行为、关联分析、聚类分析、概念描述和偏差检测[3]。粗略的, 可以将数据挖掘过程分为数据准备、数据挖掘和知识的解释与评估三个步骤。

数据准备包括数据集成、数据选择和数据预处理。在数据挖掘(数据开采)阶段, 包括确定开采的任务, 决定采用挖掘的算法和具体的数据挖掘操作。在知识的解释和评估阶段, 是根据数据挖掘阶段挖掘出来的模式, 经过用户或机器的评价, 发现存在的冗余或无关的模式并将其剔除;判断是否满足用户要求, 如果不满足用户要求, 需要重新挖掘, 若满足要求, 将其表达出来, 反馈给用户[2]。

2.2 聚类分析概述

2.2.1 聚类分析定义

将物理或抽象的集合分组成为由类似的对象组成的多个类的过程被称为聚类分析。聚类是根据最大化类内的相似性、最小化类间的相似性原则对海量数据进行聚类或分组, 从而产生属性相近的各个类。聚类分析其实是无监督分类, 其目的在于实事求是地按被处理对象的特征分类, 有相同特征的对象被归为一类。聚类分析法的输入集是一组未标定的记录, 即输入的记录没有作任何处理。目的是根据一定的规则, 合理地划分记录集合, 并用显式或隐式的方法描述不同的类别。

2.2.2 聚类分析的过程

典型的聚类过程包括以下的步骤: (见图1)

1) 聚类对象表示 (特征提取和选择) ;

2) 定义相似性度量函数;

3) 聚类;

4) 聚类结果的评估;

聚类后的输出会对属性子集的选择和相似性的计算产生影响, 所以有一个反馈循环的过程。这整个聚类过程中, 对象表示指的是类别个数、对象的个数、聚类所用的属性的个数、类型。属性选择是从聚类所用的原始属性空间中选择最有效的属性子集。对象间相似性度量的定义是聚类过程中的一个关键, 最常用的就是欧氏距离;聚类可以根据聚类对象的特征和定义的相似性度量方式来选择合适的聚类算法;聚类结果的评估通常采用聚类有效性函数来进行评判。

3、高校教务系统中聚类分析算法研究

3.1 高校教务系统数据特点分析

教务管理系统中保存着丰富学生信息, 包括每个学生的基本档案, 各个专业的学生学习哪些课程, 学生每门课成绩如何, 学生是否在校、学生的作息情况、学生的消费情况等等。

以学生四级成绩主题为分析对象, 根据学校组织机构及教学管理系统中与学生四级成绩信息相关的表可以确定, 四级成绩主题包括学生性别、科类、性质、班级大学英语1成绩、大学英语2成绩、大学英语3成绩、大学英语4成绩、班级、专业、学院、民族、生源地、教师的性别、职称及所在的部门等属性。上述数据集中除了数值型属性以外, 还包括其他非数值型的属性。如描述性别的属性:男或女;描述科类的属性:文科、工科、理科;描述专业属性:会计学、审计学、国际经济与贸易;描述民族的属性:汉族、少数民族等等。如果聚类算法仅能对数值型属性的数据集进行分类, 必然会由于仅使用数据集的部分属性分类而导致分析结果偏离实际的情况;而另一方面, 效率不佳的聚类分析算法肯定不能胜任对大型数据集进行分类的要求。这就对实现数据挖掘的聚类分析算法的选择提出了很高的要求。

3.2 聚类分析算法应用及其改进

聚类分析算法根据其实现思想基本上能被分为以下五种:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法, 目前, 这些算法已被广泛地应用在许多领域, 取得了一些成果。但在实际应用中, 人们发现这些算法的一个共同特点是仅能对数值型属性的数据进行分类, 但现实生活中, 很多数据对象都包含有非数值型属性, 如描述大学英语四级主题的性别属性:男和女;描述生源地的属性:上海, 江苏, 安徽, 四川等。因此, 人们需要开发能同时处理数值型和非数值型属性的聚类算法。

3.2.1 k-prototypes算法

k-prototypes算法[4]是ZHEXUE HUANG提出的一种对数值型和分类型混合属性数据集进行聚类的算法。算法的基本思想是:用数据对象间分类型属性相匹配和不匹配的数目表示它们之间相似或相异程度, 这样就可以把分类型属性间的比较转化为数值型属性间的计算问题, 从而解决对混合属性数据集进行基于距离的聚类问题。

算法描述:

从数据集中随机选择k个初始点, 每一个初始点代表一个聚类原型代表点;根据公式 (6) , 把数据集中的每个点分配给距离它最近的聚类, 每次分配后, 立即更新每个聚类的原型代表;把所有的对象分配给聚类后, 重新计算每个对象与当前所有聚类原型间的距离, 如果发现一个对象距离其它聚类原型的距离比它本身所在聚类原型的距离要小, 那么把此对象分配给距离它最近的聚类, 并更新这两个聚类;重复第三步, 直到没有一个对象改变聚类关系为止;k-prototypes算法引进了对带有分类型属性数据的处理方法, 使其能够对包含数值型和分类型混合属性数据集进行聚类, 但从根本上讲, 其还是k-means算法的一个改进算法, 其主要的不足之处与k-means算法相同:即这两种算法都定义一个关键性的初始化点匹配解决方案, 此点为给定模式的局部最大相似点, K-Means和k-prototypes算法经过有限聚集到这一点, 这意味着聚类结果的好坏在很大程度上取决于选择初始点的质量, 也就是说这两种算法对初始点的选择是敏感的。kprototypes算法中初始点的选择采用随机选择的方法, 其优点是简单高效, 但缺点也很明显, 即随机产生的初始点却缺乏代表性, 甚至会导致聚类结果远远偏离实际情况, 其结果如图2所示:

图2中a) 和b) 表示使用不同初始点对同一数据集进行聚类所产生的不同结果。a) 图表示在初始点质量较好情况下的最终聚类结果, b) 图表示在初始点质量较差情况下的最终聚类结果。从中我们不难看出, 初始点选择的质量在很大程度上影响了kprototypes算法最后聚类结果的质量。因此, 在k-prototypes算法中采用随机法选择初始点是不恰当的, 必须对此做出改进, 故我们提出一种分组选择初始点算法, 其具体描述见下文。

3.2.2 基于k-prototypes的改进算法

在k-prototypes算法中, 选择初始点采用在数据集中随机选择不同数据对象的方法。这种方法的优点是简单、方便, 有很高的执行效率, 但其缺点也是很明显的, 即由于初始点的质量不高而导致聚类结果质量的不佳。在本文中, 我们提出了一种新的初始点选择方法--分组选择初始点算法, 选出更具代表性的数据点作为聚类原型的代表点, 从而为获得较好的聚类结果打下基础。新的初始点的选择方法如下:

1) 根据数据集中对象的个数和要产生聚类数目, 将整个数据集分组。

其中, 数据集X=[X1, X2, …, Xi]是n个对象的集合, Xi∈Ω (i=12, …n) 。对象Xi=[xi, 1, xi, 2, …, xi, m], 表示其属性。要进行聚类的数目是k, 则将数据集划分为G_Num个子集, 每个数据子集中数据对象的个数为k, 其中:G_Num=n/k

如果最后分组后, 还有剩余的数据对象, 可以将这些剩余的对象分配到前面的分组中。

2) 获取一个初始点。

从1步骤得到的每个分组中随机抽取一个数据对象, 得到G_Num个数据对象组成一个数据子集。对于数据子集中的数值型属性, 计算这个数据子集中每个数值型属性的平均值, 作为其初始点中数值型属性的数值;对于分类型属性, 则统计这个数据子集中每个分类型属性值出现的次数, 然后选择每个分类型属性出现次数最多的属性值作为其初始点中分类型属性的值。

3) 重复第2步k次, 以获得k个初始中心点, 作为k个聚类原型。

4、聚类结果

本文采用改进后的k-prototypes算法对学生四级成绩数据集相关属性进行聚类, 得出如表1的规则集。

表1中的规则集, 在一定程度上反映了影响学生英语四级成绩的因素, 可以看出在置信度70%以上的这些规则中, 大学期间的英语成绩全部及格是四级成绩及格的充分条件, 英语成绩全部及格并且是国际会计专业的女生, 四级成绩及格的置信度最高89%, 如果大英3不及格则四级成绩不及格率高达98%。所以,大学英语教育应该重点抓大学英语3的教学工作, 为提高四级通过率做充分准备。

5、结语

教务处作为人才培养职能机构, 在高等教育中承担着重要角色;数据挖掘技术作为一种工具, 可以有效地在海量数据中发现隐藏的规律或模式。把数据挖掘技术应用到教(下转第10页)务系统中, 帮助教育者获取一些反映规律性、倾向性的信息, 为学校决策提供更准确的咨询服务, 以推动学校教学改革和建设的全面发展, 已成为教育领域信息化发展的趋势。本文粗略的探讨了就数据挖掘技术在教务系统中英语教学方面的应用, 更深入的工作还有待今后进一步研究。

摘要:随着高校教务管理从职能型向学习型、研究型的转变, 对教务系统中数据挖掘的研究已经成为大部分高校的人才培养研究部门、职能部门所共同关注的问题。本文选取大学英语四级相关数据作为研究对象, 以聚类分析为挖掘向导的实现技术, 对聚类分析算法中k-prototypes算法进行了详细的介绍, 并提出了基于该算法的改进算法。

关键词:教务系统,数据挖掘,聚类分析,k-prototypes

参考文献

[1]邱文教潘晓卉数据挖掘技术在教务管理中的应用[J].安徽工业大学学报, 第22卷第3期, 2005.133-134

[2]安海忠, 刘宁, 郑链数据挖掘系统原形架构的研究[J].无线电工程, 2005, 01 (1) .56-57

[3]牛慧卿数据挖掘在高校信息管理系统中的应用研究[J]机械管理开发, 第23卷第1期, 2008.131-132

[4]W.Wang, Yang, R.Muntz, STING:A Statistical Information grid Ap-proach to Spatial Data Mining[C], VLDB'97

系统聚类分析 第7篇

大学时期是人生中非常宝贵的一段时期, 其中大部分时间被紧张的课程学习所占。大学生在校学习成绩作为大学生在校期间学习任务完成情况的综合表现,其不仅直接影响大学生们能否顺利完成学业, 而且对今后的求职和职业选择都有着重要的影响。因而,对大学生在校学习成绩进行分析,探索其影响因素,不仅对于提高大学生综合素质意义重大,而且能为高校有关部门进行教育与管理提供有效的辅助作用。

1 聚类分析方法概述

聚类分析又称群分析,它是研究如何将研究对象按照多个方面的特征进行综合分类的一种统计方法[1]。聚类分析将个体或对象分类,使类内对象的同质性最大化和类间对象的异质性最大化[2]。聚类分析的内容非常丰富,有系统聚类法、动态聚类法、模糊聚类法、K-均值法、有序样品的聚类、分解法、加入法等。聚类分析的应用十分广泛,其中应用最为成熟的方法为系统聚类法,这也是本文将采用的方法。

系统聚类分析方法的基本思想是:对一个统计问题,若其中有n个样品, 每个样品测得P项指标。通过考察,便可得到样本观测矩阵为:

其中,Xij为第i个样品第j个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述。

对样品分类常用距离法, 即将一个样品看作P维空间的一个点, 并在空间定义距离。类与类之间用不同方法来定义距离, 就产生了不同的系统聚类方法[3]。在统计分析软件SPSS 19.0中, 所提供的系统聚类方法有组间联系法、组内联系法、最短距离法、最长距离法、重心聚类法等。距离测度主要有欧式距离、平方欧式距离、明氏距离等。本文中系统聚类分析方法采用最短距离法。距离测度选择平方欧式距离, 其计算公式为:

Dk (p, q) =min{djl/j∈Gp, l∈Gq}———最短距离法

2 大学生在校学习成绩及其影响因素分析

2.1 大学生在校学习成绩

“成绩”是一个耳熟能详的名词,虽然成绩一词经常出现在日常生活中,但目前“成绩”的概念不多,仅有的概念也大不一致。结合本研究的特点,将“成绩”定义为:学生在校学习期间,校方对学生各学科课程考试分数经过累加或加权等方式,对学生的阶段性学习活动所取得的效果及学习能力所做出的量化的有针对性的评价和反馈的综合考试成绩。

本研究中,大学生在校学习成绩包括德育成绩、智育成绩、体育成绩。每一部分均分为基本分、加分、减分三部分。其中,德育成绩包括导师、任职、荣誉、处分成绩等;智育成绩包括学习成绩、发表学术论文、承担科研课题、学术科研获奖、文学美术音乐获奖、社会实践、不及格成绩等;体育成绩包括校内外运动会、其他体育竞赛、无故缺席处分成绩等。

2.2 大学生在校学习成绩的影响因素分析

影响大学生在校成绩的因素复杂多样,通常有生源地、性别、家庭出身、所学专业、学习习惯、个性特征、自控能力等。李瑾[3](2005)指出学习成绩是智力因素与非智力因素相互作用的产物,以意志、态度、兴趣为主的非智力因素对学习成绩起决定作用;曾志嵘、夏欧东[3]等(2006)认为,学习活动是内在因素和外在因素共同发挥作用的过程, 各种因素之间的积极和消极的作用都会影响学生的学习成绩;高丽红[3](2007)认为学习兴趣、基础知识、努力程度、教师水平和教学方法对大学生学习成绩有较大的影响,学习方法、学习氛围和家庭因素对大学生学习成绩有较小的影响。

综合先前的观点,本研究认为,影响大学生在校学习成绩的因素可分为外部因素与内部因素。内部因素主要包括:学习态度、努力程度、性别、基础知识、智力因素;外部因素主要包括:学习环境、家庭因素、生源地、教师水平和教学方法。

2.3 大学生在校学习成绩影响因素的实证分析

2.3.1 数据说明及来源

在数据、时间等条件的限制下,为了尽可能典型、全面、准确地把握每个大学生的真实学习情况,在描述现状时,本文选取山西财经大学管理科学与工程学院08级项目管理系48名学生4年7个学期的综合成绩作为统计指标。以上所有指标数据,均来自《山西财经大学管理科学与工程学院2008级项目管理系在校学习成绩汇总表》。

2.3.2 聚类结果统计分析

本文运用SPSS 19.0软件进行计算,通过多次聚类可以得出聚类图谱。由系统聚类结果可知,学生总体可分为3类,各个类别的基本特征如下:

第一类:构成学生成绩的基础结构。由27名学生组成,占总人数的56.25%,呈现出总成绩均分81~91之间的特点,虽然学生个人成绩时有波动,但成绩总体较为稳定。这类同学学习态度积极,日常学习中认真听课,努力程度较大,且同学之间积极沟通学习。而且,仅有5名男同学, 可见,学生学习成绩与性别表现出密切相关性。此外,这27名同学的成绩分布带有明显的宿舍效应,即同一宿舍的同学之间,其学习成绩往往联系紧密。值得注意的是,这27名学生的生源地遍布全国各地,并未表现出较为明显的特征。

第二类:学生共19个人组成,占总人数的39.58%,该组学生的总成绩均分位于73~81之间。这类同学,学习态度一般,日常学习中可以做到按时听课,但努力程度一般,同学之间缺乏沟通,行动较为自由,迟到早退现象时有发生。值得一提的是,这组学生中有12名男同学,学生学习成绩与性别之间关系密切。此外,这19名同学成绩分布的宿舍效应、圈子效应也很明显。

第三类:学生共2个人组成,占总人数的4.17%,两位同学的总成绩均分较低,位于67~73之间,且成绩波动密切。这类同学学习态度消极,经常迟到早退,甚至逃课;经常挂科,偶尔高挂;值得注意的是,这2名学生为同一宿舍的男同学,圈子效应明显。

通过以上聚类结果的分析,可以发现:大学生在校学习成绩主要集中在第一类与第二类,其影响因素是多方面的。影响因素的主要方面,归结起来有以下三点:

第一,大学生在校学习成绩与其学习态度与努力程度联系最为密切。往往越是学习态度积极,日常学习中认真听课,努力程度大,沟通积极的同学,其学习成绩越好。

第二,大学生在校学习成绩与性别关系密切。在此样本中,男同学学习成绩普遍没有女同学学习成绩高,女同学相对更注重学习成绩。

第三,大学生在校学习成绩与其学习环境有很大联系,同学的成绩分布带有明显的宿舍效应与圈子效应,即同一宿舍或同一朋友圈的同学,其学习成绩往往较为相近。

另外,研究发现:此样本中,山西籍同学有18个,非山西籍同学有30个,但学习成绩与生源地没有显著关系;学生入学时的成绩排名,与大学生在校学习成绩之间也无显著关系。

因此, 在高校日常的教学与管理中, 要着重从以下四方面着手:

首先, 要格外注重端正大学生的学习态度, 培养学生良好的学习态度;其次, 要注重大学生学习氛围的熏陶, 好的学习氛围是提高大学生学习成绩与综合素质的重要保证;再次, 要注意“男女有别”, 对男同学学习动态要密切关注与辅助调整, 对女同学要在鼓励的基础上继续发扬;最后, 针对重点个别学生, 要具体问题具体分析, 帮助同学找到自身存在的问题与解决方法, 引导学生养成良好积极的学习习惯。

在系统聚类分析的基础上,进行研究可以看出:根据这些聚类结果,高校有关部门可以查找出大学生在校学习成绩出现显著差异的原因,然后有针对性地提出一些方法建议,全面提升学生的培养质量,为进行更好的高校教育与管理提供了积极有效的辅助作用。S

摘要:本文以山西财经大学管理科学与工程学院2008级项目管理系48个学生大学期间7个学期的综合测评成绩为例, 通过系统聚类法进行综合评价, 划分出三类学生群体, 并分析了各类的基本特征, 进而得出:影响高校大学生学习成绩的主要内外部因素有学习态度、努力程度、性别因素和学习环境, 与学生生源地、入学成绩没有明显的关系。高校的教学管理应从以上主要影响因素方面进行教育与引导, 从而全面提升学生的培养质量。

关键词:聚类分析,系统聚类法,大学生,在校学习成绩

参考文献

[1]袁志发, 周静芋.多元统计分析[M].北京:科学出版社, 2002:241.

[2]何晓群.多元统计分析[M].3版.北京:中国人民大学出版社, 2012:41.

系统聚类分析 第8篇

在经济全球化背景下, 当今世界国家间竞争日益激烈, 区域自主创新能力的强弱日益成为一个地区乃至国家获取竞争优势的关键因素。20世纪末开始, 我国政府越来越重视自主创新对我国经济和科技发展的重要指导作用, 自主创新已经由政策层面提升到了国家战略的高度, 成为我国经济发展工作的一个重要战略。在2006年1月的全国科学技术大会上, 胡锦涛明确指出:“自主创新能力是国家竞争力的核心, 是我国应对未来挑战的重大选择, 是统领我国未来科技发展的战略主线, 是实现建设创新型国家目标的根本途径”, “一个国家只有拥有强大的自主创新能力, 才能在激烈的国际竞争中把握先机、赢得主动”, 并强调要坚持把推动自主创新摆在全部科技工作的突出位置, 坚持把提高自主创新能力作为推动结构调整和提高国家竞争力的中心环节。

1 区域自主创新能力概述

1.1 区域自主创新能力概念的理解

区域自主创新能力是自主创新能力在区域层面的表现, 是“国家自主创新能力”的一种特殊表现形式。它是指一个地区的自主创新主体依靠其自身优势通过其自组织的区域自主创新网络, 而形成的通过资源的有效配置创造新产品、新技术、新工艺并将其市场化, 并最终实现区域可持续发展的能力。对于区域自主创新能力的内涵, 可以从以下几个方面来进一步理解:

(1) 区域自主创新能力, 在强调创新的同时, 强调其“自主”性。区域自主创新按照其技术获取来源的不同, 可以分为区域原始自主创新能力、集成自主创新能力以及引进、消化再吸收的自主创新能力。其中, 原始创新能力, 是区域自主创新能力的关键, 它强调创新的自发性;集成创新能力是指将各种相关科学技术有机融合, 促进创新主体互动发展的能力;引进基础上的再创新能力强调一个地区对引进技术的消化吸收能力。

(2) 区域自主创新能力的形成、发展是一个开放性的过程。区域自主创新能力强调区域对新产品、新工艺和新技术的“自主”开发, 但是“自主”并不意味着封闭。相对于国家的自主创新, 区域自主创新能力具有开放程度较高的特点, 它体现一个地区利用外部资源、信息、科技成果的能力。

(3) 区域自主创新力的提升是一个持续的动态演进过程。当今世界, 科技发展日新月异, 一个地区短时间内所具备的自主创新能力优势随着科技发展也会日益弱化被取代。因此, 区域的自主创新必须随着国际竞争态势的变化而逐渐调整, 使其在不断地学习中不断提升, 从而满足经济社会发展的需要。

(4) 区域自主创新能力并不是各个主体要素创新能力的简单叠加, 而是多方面的能力系统性相互作用的结果, 不仅体现各主体要素的集体合作能力, 同时也强调创新主体与创新环境以及当地经济社会协同发展的能力。

1.2 区域自主创新能力的构成

1.2.1 我国学者对区域自主创新能力的构成的主要观点

刘凤朝, 潘雄锋, 施定国 (2005) 认为, 自主创新能力是创新主体对资源的掌握和运用能力、为创新活动提供需要的载体能力和环境能力、科技成果的创造能力以及市场品牌的培育能力等多种要素复合作用的结果。赵彦云, 甄峰 (2007) 在分析了区域自主创新内涵的基础上, 将其划分为:资源能力、攻关能力、技术实现能力、价值实现能力、人才实现能力、辐射能力、支撑发展能力和网络能力。林迎星 (2008) 、朱孔来 (2008) 则结合区域自主创新的内涵、特点和目标, 将区域自主创新能力分解为:创新资源的投入能力、创新载体的建设能力、创新环境的保障能力以及创新成果的产出能力。

1.2.2 本文对区域自主创新能力构成的界定

在详细总结和分析了国内外学者对创新能力、区域创新能力和区域自主创新能力内涵和构成的研究之后, 作者发现, 大多数学者都是从区域自主创新能力的影响因素角度来研究其构成, 但是缺乏从创新系统的角度对区域自主创新的构成要素及其互动关系的描述。作者认为, 区域自主创新能力是以企业为核心的创新主体、创新环境以及二者之间的互动而构成的关系结构, 主要包含企业自主创新能力、大学和研究机构自主创新能力、区域自主创新载体能力和区域自主创新支撑能力。

2 我国区域自主创新能力评价指标体系构建

2.1 区域自主创新能力评价指标体系研究综述

2.1.1 国际上对国家创新能力的评价

OECD自1963年起, 出版了《弗拉斯卡蒂系列手册》①, 对研究发展 (R&D) 活动、科技活动产出、技术创新、专利统计以及科技人力资源的测度等科技统计标准和规范的制定工作作出了重要贡献。欧洲创新记分牌 (EIS) 体系被认为是非常全面的国家创新能力评价体系。2010年1月发布的EIS2009包括29项评价指标, 分为投入、企业活动及产出3类主要内容, 根据计算结果将27个欧盟成员国分为创新领先型国家、中等创新型国家、创新追赶型国家和创新落后型国家4类。全球竞争力报告 (Global Competitiveness Report) 是全球最具权威性的各国经济竞争力评价报告, 包含139个经济体的最新数据、竞争力排名及分析, 是各国政府 (经济体) 衡量经济竞争力的重要参考。全球创新指数 (Global Innovation Index, GII) 研究由世界上最大和最有影响力的独立商学院之一——欧洲工商管理学院 (INSEAD) 于2007年首次启动, 每年发布一次。报告涵盖了132个占全球国民生产总值96%和全球人口91%的经济体, 是国际上目前关于创新对竞争力和经济增长影响的最全面的评估研究之一。它包含机构、人力资本、常用与信息和通讯技术基础设施、市场环境和商业环境5个投入指标, 科学成果与创造性成果2个产出指标以及各自下设的若干指标。

2.1.2 我国相关组织和专家学者的研究

中国科技发展战略研究小组的《中国区域创新能力报告》基于“知识创造”、“知识获取能力”、“企业创新能力”、“创新环境和管理能力”和“创新绩效”5个方面指标对区域创新能力进行综合评价。通过加权综合评价法, 用专家打分得到的权重, 分层逐级综合, 最后得出每个省市创新能力的综合效用值。《中国企业自主创新能力分析报告》则从技术创新能力的角度构建了一个企业自主创新能力的评价指标体系, 包括潜在技术创新资源指标、技术创新活动评价指标、技术创新产出能力和技术创新环境指标4个一级指标以及若干二级指标。此外, 以中国人民大学校长纪宝成为总负责人、赵彦云教授为研究负责人的创新指数研究课题组借鉴了美国和欧盟创新指数的实践, 从我国实际出发, 从创新资源、攻关能力、技术实现、价值实现、人才实现、辐射能力、持续创新和网络能力8个主要方面, 下设39个指标, 研究了中国31个省市区的创新指数, 并将中国与其他国家创新指数进行了对比。

3 我国区域自主创新能力评价指标体系的构建

3.1 指标选取的原则

区域自主创新能力则是由多种构成要素和影响因素共同影响和协同作用下形成的一种综合能力, 它涉及社会、经济、人文、政治等多方面因素。在选取评价指标构成评价指标体系时, 遵循以下原则:

(1) 科学性与实用性相结合。指标体系的构建既要具备充足的理论依据和严谨、合理的逻辑结构, 又要能客观地反映评价对象的实际情况, 具备实用性和可操作性。

(2) 系统性和导向性相结合。评价的指标体系具有较强的综合性和内在的关联性, 系统地描述变量之间的关系, 同时兼备目标的导向性, 有针对性地引导各个区域在区域创新能力构建和提升过程中向正确的方向和目标发展。

(3) 全面性与代表性相结合。指标体系既要考虑创新要素的投入量, 也要考虑产出量;既要考虑绝对指标, 也要考虑相对指标;既要包含定性指标, 也要包含定量指标;既要考虑指标的增量, 也要考虑指标的减量, 同时关注指标的发展性。

3.2 区域自主创新能力评价指标体系的构建

根据区域自主创新能力的内涵和构成要素, 在参考了诸多区域自主创新能力评价指标体系构建的基础上, 在指标评价原则的指导下, 将区域自主创新能力的评价指标体系分为4个层次 (见表1) , 不仅考虑到了区域自主创新能力所包含的资源投入、成果产出、载体能力、环境能力、政策能力等内容, 而且反映了区域自主创新主体的创新能力、主体间的互动以及创新主体与创新环境之间的关系。

4 评价方法的选择

在区域自主创新能力评价指标体系中, 由于所选取的指标个数较多, 且彼此之间存在着一定程度上的相关性, 因此, 本文在对比多种分析方法以及相关学者的研究基础上, 选择了因子分析方法来对区域自主创新能力进行评价。同时, 将因子分析方法与聚类分析方法相结合的集成研究在研究区域创新能力的分类和差异等问题上有较好的效果, 二者的分析结果具有互补性和一致性 (周立, 吴玉鸣, 2006) 。

4.1 因子分析方法

4.1.1 因子分析的基本模型

心理学家Chales Spearman在1904年最早提出了因子分析这一概念, 它的基本思想是将实测的多个指标, 用少数几个潜在的指标 (因子) 的线性组合来表示, 从而考察原变量之间的联系和区别。

假设有N个样本, P个指标, X= (X1, X2, …, Xp) T为随机向量, 要寻找的公因子为F= (F1, F2, …, Fm) T, 则因子分析的一般模型为:

也可将其描述为矩阵的形式:X=AF+ε0

其中, x1, x2, …, xp为实测变量;

aij (i=1, 2, …, p;j=1, 2, …, m) 为因子载荷 (Loading) ;Fi (i=1, 2, …, m) 为主因子 (或公共因子) , 其含义须结合具体问题的实际意义而定;εi (i=1, 2, …, p) 为特殊因子, 各特殊因子之间以及特殊因子与所有公共因子之间都是相互独立的。

4.1.2 本文使用SPSS16.0进行因子分析的基本步骤

(1) 将原始数据录入并进行无量纲化 (标准化) 处理。

在原始数据的无量纲化处理过程中, 使用的是正规化方法, 即把原始数据数值标准化到0~1的范围, 具体公式为:

x′ij = (xij-xminj) / (xmaxj-xminj)

其中, xij为某指标值, xminj为某项指标的最小值, xmaxj为某项指标最大值;在指标中涉及某些逆向指标 (如, 创新支撑能力中的“GDP能耗量”指标) , 需现对指标做正向化处理, 再进行标准化, 逆向指标正向化的公式为:

x′ij=1/xij

(2) 检验变量之间是否存在相关关系。在SPSS中, 可以通过Bartlett球形检验来判断, 如果相关阵为单位阵, 则各变量之间相互独立, 因子分析无效。另外, 通过KMO检验, 考察变量间的偏相关性。KMO值取值在0~1之间, 越接近于1, 变量间的偏相关性越强, 因子分析效果越好。实际分析中, KMO值在0.7以上, 因子分析效果较好;KMO小于0.5时, 便不适合使用因子分析。

(3) 求得相关系数矩阵、特征值、累计贡献率等相关指标。

(4) 对提取的核心因子进行分析和命名, 使其具备实际的经济含义并具备可解释性。

(5) 建立因子分析模型, 计算各个因子的得分以及综合得分, 从而为进一步的分析和评价奠定基础②。

4.2 层次聚类分析方法

4.2.1 基本方法

层次聚类法 (亦为系统聚类法) 因其聚类结果之间存在着层次关系而得名。它的基本原理是, 首先将一定数量的样品指标或各自看成一类, 然后根据样品 (或指标) 距离的远近, 将距离接近的两类指标进行合并。然后考虑合并后的类与其他类之间的距离, 再进行合并。重复这一过程, 直至将所有的样品 (或指标) 合并为一类。

4.2.2 本文使用SPSS16.0进行层次聚类分析的基本步骤

(1) 将企业自主创新能力、高校和研究机构自主创新能力、自主创新载体能力、自主创新支撑能力和区域自主创新综合能力的因子得分数据录入系统;

(2) 使用SPSS16.0, 按照“地区”对上述数据分别进行聚类分析。本文使用“Ward's method”法 (即, 离差平方和法) , 在聚类的距离测量方法 (Interval) 上, 使用系统默认的平方欧式距离 (Squared Euclidean Distance) 法。

(3) 输出聚类分析结果和聚类图谱, 结合各组数据的实际情况进行分类。

5 基于多层次因子分析法和层次聚类分析方法的中国区域自主创新能力评价

5.1 因子分析

基于上述指标体系以及评价方法, 本文首先分别对企业自主创新能力、高校和研究机构自主创新能力、创新载体能力和创新支撑能力进行了分析, 并在此基础上对区域自主创新综合能力进行了分析。通过spss16.0软件的分析, 我们发现企业自主创新、高校和研究机构自主创新、创新载体以及创新支撑的指标数据均通过了Bartlett球度检验, KMO值也都在0.6~0.7之间, 可以进行因子分析。

通过分析和计算, 各系统层构成要素以及区域自主创新综合能力的得分情况如表2。

由于指标数据经过无量钢化处理, 因此平均水平为0, 得分大于0代表区域自主创新能力在平均水平之上, 反之, 则低于平均水平。从图1可以看出, 共有12个地区的自主创新能力综合得分超过了全国平均水平, 其中9个地区 (北京、天津、辽宁、上海、江苏、浙江、福建、山东和广东) 来自东部, 1个地区 (湖北) 来自中部, 两个地区 (四川和陕西) 来自西部, 区域间自主创新能力的差距十分悬殊。北京凭借其高校和研究机构超强的自主创新能力以及创新载体能力, 在区域自主创新综合能力上成为全国的领头羊, 江苏和广东紧随其后分列2、3位;而区域自主创新综合能力较弱的3个城市分别为宁夏、海南和青海, 与排名前几位的省区差异很明显。

5.2 区域自主创新能力的聚类分析

按照上文介绍的层次聚类分析方法, 本文在这部分首先以各地区自主创新能力的综合得分为变量, 再次进行了聚类分析;随后又将4个系统要素共同作为变量, 进行了集成聚类。

5.2.1 按照区域自主创新能力综合能力进行的聚类

根据多层次因子分析的结果, 将区域自主创新能力的综合得分进行聚类分析, 分析得到的树状图如图2所示。

结合各个地区区域自主创新能力综合因子得分以及聚类分析的结果, 本文将区域自主创新综合能力划分为4类 (如表3) 。第Ⅰ类, 为综合得分区间在2.0778~1.5810的地区, 包括北京、江苏、广东, 可以将其看做区域自主创新的“领先型区域”;第Ⅱ类, 为综合得分区间在1.2570~0.8684的地区, 包括上海、山东、浙江, 可以将其看做区域自主创新的“优势型区域”;第Ⅲ类, 为综合得分区间在0.4271~-0.2315的地区, 包括辽宁、天津、湖北等, 可以将其看做区域自主创新的“潜力型区域”;第Ⅳ类, 为综合得分在-0.3310~-1.0525的地区, 包括河北、吉林、广西等, 可将其看做区域自主创新的“后进型区域”。

5.2.2 多变量聚类分析

为了检验上文中对区域自主创新综合能力的聚类分析结果是否可靠, 作者进一步用企业自主创新能力、高校和研究机构自主创新能力、创新载体能力和创新支撑能力共同作为变量再次进行层次聚类分析, 分析方法同上, 结果如表4。从两次聚类结果看, 对与区域自主创新能力的划分方向基本是一致的, 只不过分类的结果略有不同。

注:每个地区后面的数字代表第一次聚类中所属类别

5 结 论

本文通过相关分析主要试图解决以下问题:

(1) 对区域自主创新能力的概念和构成进行了明确的阐述, 提出了作者的观点和认识, 即:区域自主创新能力是以企业为核心的创新主体、创新环境以及二者之间的互动而构成的关系结构。

(2) 从创新系统的角度, 创建了基于创新系统的区域自主创新能力评价指标体系, 试图从不同层次、不同侧面反映我国省级行政区域的自主创新能力。

(3) 利用多层次因子分析方法和聚类分析方法, 对我国30个省级行政区域自主创新能力进行了评价, 并将30个区域划分为:领先型区域、优势性区域、潜力型区域和后进型区域。

参考文献

[1].纪宝成, 赵彦云.中国走向创新型国家的要素:来自创新指数的依据[M].第1版.北京:中国人民大学出版社, 2008

[2].成邦文.OECD的科技统计与科技指标[J].中国科技信息, 2002, (5) :18~22

[3].何健坤, 李应博, 等.研究型大学与区域创新体系——首都地区案例研究与数量分析[M].第1版.北京:清华大学出版社, 2008

[4].刘凤朝, 潘雄锋, 施定国.基于集对分析法的区域自主创新能力评价研究[J].中国软科学, 2005, (11) :83~89

[5].彭建娟, 李建华.区域自主创新能力及其特征研究[J].中国科技论坛, 2007, (11) :11~15

[6].邵云飞, 唐小我.中国区域技术创新能力的主成份实证研究[J].管理工程学报, 2005, (3) :71~76

[7].中国科技发展战略小组.中国区域创新能力报告 (2006~2007) [M].科学出版社

聚类分析在某市小学管理中的应用 第9篇

关键词 聚类分析 小学 学校管理

中图分类号:G71 文献标识码:A

0 引言

为了更好的管理某市的各小学,可将小学分类以便于管理。表1给出了某市小学的教育资源的资料。这里列出了13所小学,其中类型1表示教育局直属,类型2表示企业直属。

1聚类分析

(1)打开spss软件,录入表1的数据,并设置变量。

(2)选择分析—分类—系统聚类,弹出下列对话框,进行参数设置。

2聚类过程分析

表2表示了详细的聚类过程。由表2可以看出,本次聚类共进行了12次,得到每次聚类结果。表中系数列显示的是观测样本之间的距离,可以看出第一步首先将距离最小育才小学1和龙隐小学3合并,该合并类第二次出现在第5步中,与民师附小小学11进行合并。表中下一阶所表示的是这一步中合并得到的类将在第几步与其他类合并。

将该聚类过程用冰柱图表示则如下图所示,能够更直观的看出聚类过程:

上图为冰柱图,图像中横坐标表示了类别间的相对距离,在所需类别数量纵向切线可以得到聚类结果。

从图中可以看出,如果要将学校分为两类,则可得到二药小学7单独一类,其余学校归为一类,这说明二药小学7与其他学校的差异性较大。

系统聚类分析 第10篇

在进行电力系统运行模式分析过程中一个非常重要的前提工作就是进行负荷模式的日相关性分析[1]。以往分析所采用的方法计算工作量大,而且模糊矩阵的元素含义并不十分明确,本文针对这一情况提出了一种进行电力系统负荷日相关性的模糊聚类分析方法。这里所选模式特征为系统总负荷功率及地区负荷功率与系统负荷总功率的比值。

1 典型样本日选取

在总负荷曲线方面,反应其特征的关键之处仍是峰、谷、腰荷的数值以及爬坡、降谷段的曲线斜率。把握住这些关键点,就能给出总负荷曲线的重要特征。因此,在求节气样本中心日时,对上述关键之处应给予足够的重视。这一点可以通过加权的欧式距离达到。

undefined

其中A为节气样本中心,P*i(k)为节气样本中心日样本,a1,a2,a3为权系数,i∈Ac表示除去峰、谷、腰荷之外的其它段落集合,即图1中的B-C,C-D段落集合。j∈Acf表示峰荷所属采样点集合,即≥D段落集合。R∈Acg表示低谷负荷所属采样点集合,即≤B段落集合。y表示腰荷,在这里只取腰荷中心点一个采样数值。这样可以减轻节气样本中心形成过程中对爬峰、降谷曲线斜率的弱化程度。取其一点的好处可以从图1中看出。

图1中给出了2天负荷的爬峰曲线,分别标有1,2;图中虚线4为按平均类法形成的节气样本中心日曲线,可以看出只有在腰荷的中心点,理想节气样本中心才与平均类法求得的节气样本中心相交。故在爬峰、降谷段只对腰荷中心一点(y)给予加权考虑。

为了考虑其爬峰、降谷段曲线斜率。需要在腰荷处的中心采样点前后各一个采样点来求取这一节气所有样本日的平均爬坡、降谷斜率

有了爬峰、降谷段曲线斜率的平均值,在公式(1)的基础上进行改进有:

公式(3)考虑了总负荷曲线中峰、谷、腰及其爬坡、降谷段曲线斜率在描述其负荷曲线特性方面的重要作用,给出了求取节气样本中心的广义加权欧式距离公式。

2 日相关性的聚类分析

在模糊数学理论中进行聚类分析的方法通常使用模糊最大数聚类方法与模糊相似优先比矩阵R=(rij)法等[2]。下面通过模糊相似优先比矩阵法的对比引入本文的方法。

确定模糊相似优先比矩阵R=(rij)的元素rij的汉明距离计算方法定义如下[3]:

其中Dki=Xk-Xi;Dkj=Xk-Xj而Xk是指定模式特征样本,Xi,Xj是被选样本。

从(4)式可以看出rij可以很好的反应Xi,Xj两样本和指定模式样本的相似程度。但在计算样本undefined时所得的undefined和rij的大小并不能反应Xi,Xj,X,X之间的和指定模式样本Xk的相似程度。下面举例说明这一点。

其中Xk=0.162,X1=0.163,X2=0.157,如选undefined,显然undefined与Xk的相似度降低了,但把undefined代入(4)式得undefined,仍和r12相等。可见按(4)式计算的rij只是很好的反应了i,j对k的相对相似程度。而对k的相似程度也只是undefined,undefined之间的对比,并不能反应它与i,j对k的相似程度,它们缺少可比性。因而,对按(4)式计算得出的模糊相似优先比矩阵R(rij)进行λ水平截集的聚类分析是有疑义的。作为一个聚类分析的整体,undefined中的元素应是一个被选样本和一个具有恒值的能反应全体样本整体综合信息的参照样本Xw之间与指定模式样本Xk的相似优先比,而不是两个被选样本与Xk的相似优先比。只有这样模糊相似优先比矩阵中元素之间才有可比性。因为这时的undefined中的元素是建立在统一的参照样本Xw基础上的,而且这时的模糊相似优先比矩阵仅是Xi(i=1,2,…,n)和Xw一个样本的关系,所以其模糊相似优先比矩阵的维数由n×n维降到1×n维。Xw可由下式推出。

这时ri则由下式给出:

和(4)式相比可以发现(5)式中的Xk-Xw每次计算值不变,只有Xi-Xk变化。而(4)中的各项每次计算都要变化。所以在形成undefined的全过程中不仅矩阵维数降低节省了大量的计算工作和计算机内存。而且每次计算中Xk-Xw这个不变值也节省了一些计算量。

3 两种算法在进行电力系统运行模式日相关性方面的对比分析

日相关性方面的对比分析:设W1,W2,…,W6为6个待分析样本日。W0为指定模式特征样本日,R,P分别为地区与系统总功率之比及系统总功率样本特征。下面对6个待分析日按原优先相似比和本文给出的方法进行聚类分析,以便更清楚的展示本文方法的特点。设某省区电力系统,在某关键时刻如峰,谷,腰的系统总功率及地区与系统功率之比如表1所示。

利用(4)式对表1所示数据进行处理得2个6×6阶模糊相似优先比矩阵undefined,然后对undefined进行λ水平截集分析,得相似程度如表2所示。

从表2中可以看出考虑以上两模式特征指标的各自相似程度。

下面按(5)式本文给出的方法计算

计算的undefined 0.89 0.45 0.23 1.32 0.87]1×n相似程度如表3所示。

由此可以看出按(4)式和(5)式计算出的相似程度是略有不同的,原因就是按(5)式计算的结果消除了按(4)式计算中的元素之间可比性差这一因素的影响。同时undefined也从原来的n×n阶降到了1×n阶。而且聚类分析也由原来通过λ水平截集分析变成只是对1×n阶矩阵按大小排队的问题。同理可得出按系统总功率模式特征分析的结果及其综合相似顺序,见表4。

从表4可以看出按系统总功率及地区与系统总功率之比这两个模式特征考虑W2日和模式样本日W0最相似。表5给出了某省区1993年4月7日-25日(根据9:30-16:00时的采样数据)进行日相关性的聚类分析结果。

注:930405表示93年4月5日

从表5中可以看到节假日,天气异常等均能从聚类分析中区别出来。

4 结束语

在聚类分析中模糊相似优先比方法的主要计算量在于形成模糊相似优先比矩阵undefined和截集分析上。本文给出的方法不但克服了按(4)式计算undefined中元素可比性差的不足,而且成功的减少了模糊相似优先比方法在聚类分析中的计算量,它节约了计算机内存,提高了计算速度,这一优点在模式特征增多的时候将起更大作用。

摘要:在进行负荷模式的日相关性分析中,模糊相似优先比矩阵法的元素含义不是十分明确,现给出了一种电力系统负荷模式的日相关性模糊聚类分析方法,该方法具有意义明确,计算速度快和占用计算机内存少的特点。

关键词:模式,相关性,负荷

参考文献

[1]刘有斌.基于运行模式的电力系统状态估计拓展研究[D].哈尔滨:哈尔滨工业大学,1992.

[2]郭宗祥.模糊信息处理[M].成都:成都电讯工程学院出版社,1989.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

【系统聚类分析】相关文章:

聚类分析06-25

文本聚类分析09-18

聚类分析论文提纲09-10

聚类分析实验报告07-25

聚类分析论文范文05-12

工作分析系统05-08

分析对比系统05-08

故障分析系统05-24

系统噪声分析06-01

电能分析系统06-02

上一篇:传统文化缺失原因分析下一篇:化学实验室管理