模糊聚类的方法及应用

2024-08-26

模糊聚类的方法及应用(精选7篇)

模糊聚类的方法及应用 第1篇

通常铸钢企业主要生产铸件、铸锭、铸坯等三种类型的产品。该类型企业的生产特点是:铸件、铸锭根据订货合同按照生产计划组织生产;而铸坯既需要考虑实际生产能力, 又需要考虑市场需要变化。铸坯需求即每月销售铸坯的数量, 如果不能进行有效的市场预测, 将会造成铸坯成品库存积压, 资金周转缓慢;铸坯需求与原材料库存呈现线性比例关系, 影响原材料库存中主要材料的存储量。因此对铸钢企业铸坯需求进行预测是很重要的。

马尔可夫预测法[1]是应用马尔可夫链的基本原理对预测对象未来所处状态的预测, 其特点是无后效性、不需要大量历史资料。具有较普遍应用的预测方法[2]如时间序列法、回归分析法、趋势外推法等, 需要根据大量历史数据建立预测模型, 而灰色预测法和神经网络预测法对数据要求不严格, 但这些预测方法都不适应事物的无后效性。无后效性即事物未来的状态只与现在的状态有关, 而与先前的状态无关。需求具有马尔可夫性——无后效性, 即只与上一期的需求状态有关。状态是指事物可能出现或存在的状况。传统的状态划分都是根据预测对象本身状态界限人为确定, 例如, 商品的销售分为二种状态:畅销、滞销。此种传统的划分方式定性分析因素极大, 在某些没有明显界限和界限划分需要严格界定的预测对象中并不适合。模糊聚类[3]可以有效处理这些客观事物中间过渡的“不分明性”即“模糊”, 可根据数据自身特性的亲疏程度进行区间划分。本文采用基于模糊聚类的马尔可夫预测方法, 对铸坯需求进行了马尔可夫顶测。预测结果证明该改进的方法优于传统方法, 在实际预测应用中有效地指导了铸坯需求。

1 改进的马尔可夫预测

1.1 基于模糊聚类的马尔可夫状态区间划分

模糊聚类是获取模糊规则的一个基本手段, 是对给定的有限样本确定一个模糊划分。聚类样本即预测对象初始数据为x= (x1, x2, ..., xn) , (i=1, 2, ..., n) 。每个对象有m个聚类特性指标, 即xi= (xi1, xi2, ..., xim) , 状态区间划分的模糊聚类步骤[4,5]如下:

(1) 采用标准差变换公式的样本标准化处理

xij´=xij-xj¯σj

式中xj¯=1ni=1nxij, σj=i=1n (xij-xj¯) 2

(2) 采用欧氏距离法标定相似度

rij=1- cdij来标定被预测对象初始数据xikxjk之间的相似程度。式中c是常数, 为使0≤rij≤1, cdij最大值的倒数。其中:dij=i, j=1m (xi-xj) 2

(3) 采用平方自合成法计算模糊等价矩阵

R·R=R2×1, RR2=R2×2, …, R2 (p-1) ·R2 (p-1) =R2p, 经过有限的P (2Pn) 次运算, 一定有P0使R2 (p0-1) =R2p0, 得到模糊等价矩阵R*=R2p0

(4) 基于求解布尔矩阵的模糊聚类

从模糊等价矩阵R*中选择所有不同的阈值λ∈[0, 1], 对R*进行截割。当rij*λ时 (rij*R*中的元素) , 将rij*置为1, 否则置为0。将等价矩阵R*转换成布尔等价矩阵Q。对Q进行分组, 对应不同的状态区间分类结果, 选择与实际最接近的状态区间划分方案。

(5) 阈值λ的选择规则[6]

状态区间划分时, 随着阈值的减小, 区间组数将减小, 同区间数据增多, 相似性降低。因此期望相同状态区间的数据满足最大程度相似且同区间数据平均数量增幅最大。选择的判定函数为:min{αk=αk/βk}。其中:αk=λk-1/λk 为相邻阈值所对区间划分的相似性倍数关系, βk=ηk-1/ηk同区间数据扩大的平均程度。

1.2 状态转移概率矩阵的确定[7]

马尔可夫预测中, 用状态相互转移的频率来描述转移概率。事物在运行过程中按一定特点可分为m个状态 (s1, s2, …, sm) , 用pij表示由t时期的状态si转移到t+1时期的状态sj的概率。转移概率的理论分布是未知的, 在实际预测中, 近似估计概率公式如下:

pij=aijj=1maij, (i, j=1, 2, ..., m)

式中aij表示状态si转移到状态sj的次数。 将所有的pij依次排列, 构成一步转移概率矩阵:

p=[p11p12p1mp21p22p2mpm1pm2pmm] (1)

式中0≤pij≤1, j=1mpij=1, (i, j=1, 2, …, m) 。

1.3 马尔可夫预测[8]

假设目前预测对象处于状态si, pij (j=1, 2, …, m) 描述了si向各个状态转移的可能性, pij表示转向状态s1的可能性, pi2表示转向状态s2的可能性, pim表示转向状态sm的可能性。将m个状态转移概率按大小排列成不等式, 可能性最大者就是预测结果, 即可得知预测对象经一步转移最大可能达到的状态。

2 铸坯需求预测应用及软件实现

2.1 计算结果

某铸钢厂铸坯的生产数量既影响成品库存又影响原材料库存中主要材料的库存数量, 需求量的状态划分不能粗糙, 需要精细一些。若根据经验人为划分, 状态区间范围会较大, 预测误差范围在几百吨内。根据模糊聚类原理, 按照数据自身亲疏程度进行的范围划分可有效减小状态区间范围, 减小误差。

从系统中选取18个月铸坯历史销售量数据进行铸坯需求的马尔可夫预测, 数据如表1所示。

(1) 状态区域划分

将表1的18个月历史数据进行模糊聚类。当λ取0.9180时, 得到表2所示的4个状态区间。

(2) 一步状态转移矩阵

将表2数据代入公式 (1) 可得p=[01000132301803848003414]

(3) 下期需求预测

表1中第18个月的销量处于S4状态, 初始状态为E0= (0001) , 计算下期状态E1为:

E1=E0p= (003414)

因为max (E1) =34, 则下月铸坯需求在S3[7703.52, 8525.44]区间。

2.2 软件实现

铸坯需求预测软件的客户端展示采用面向对象的软件平台Delphi 7.0实现, 其算法由MSSQL SERVER 2000后台存储过程实现, 形成方法库。该实现方法可与原系统有很好的兼容性、维护性和可移植性。决策者可以简单的执行按钮操作即可完成预测分析, 减少大量的人机对话操作。系统结构如图1所示。

2.3 结果对比分析

通过软件编程实现, 对某铸钢厂的铸坯需求进行了长期预测。系统运行的连续5个月的预测结果如表3所示, 并将其与传统的马尔可夫预测结果进行了对比分析。传统方式的马尔可夫预测是通过咨询厂领导和决策人员, 根据他们的经验及历史数据的特征将数据划分为5个固定连续的状态区间:10000以上、9000至10000、8000至9000、7000至8000和7000以下, 经传统马尔可夫预测方法预测得出结果。改进后的方法采用模糊聚类算法按照数据自身相似度每次重新确定状态区间划分, 并计算“一步状态转移概率矩阵”, 得出预测结果。厂领导和决策人员在预测下月铸坯需求的预测值时, 采用预测区间均值作为预测值。从表3对比数据可得, 改进后的马尔可夫预测方法在预测区间范围、预测值与实际值的贴近度均优于传统方式。

3 结束语

基于模糊聚类的马尔可夫预测方法可有效提高状态区间内数据的相似性, 减小状态区间的划分范围, 减小预测误差。在实际长期预测时, 动态确定状态区间的方式在预测结果和预测区间方面均优于传统方式。改进方法在铸坯需求预测应用的预测结果表明该方法合理可行, 有效地控制了企业的铸坯产量, 从而可有效地控制成品库存量和原材料库存中主要原材料的库存量。

参考文献

[1]罗积玉, 邢瑛.经济统计分析方法及预测[M].北京:清华大学出版社, 1987.

[2]Spyros Makridakis, Steven C Wheelwright, Victor E Mcqee.forecasting:methods and applications[M].John Wiley and Sons, 1983.

[3]Lowen R.Mathematics and fuzziness[J].Fuzzy Sets and Systems, 1988, 30 (1) :1-3.

[4]高新波.模糊聚类分析及其应用[M].西安电子科技大学出版社, 2004.

[5]谢季坚, 刘承平.模糊数学方法应用[M].华中科技大学, 2000:58-118.

[6]鲁开讲, 张宁, 杨峰.基于零件分类编码的模糊聚类分析[J].轻工机械, 2003 (3) :9-11.

[7]宁宣熙, 刘思峰.管理预测与决策方法[M].科学出版社, 2003.

模糊聚类的方法及应用 第2篇

中文文本分类还处于在试验研究阶段, 正在逐渐向商业化的软件应用靠拢, 并已经尝试开发了一批自动分类系统, 如何找到合理的应用并且在实践中逐步改善算法, 提高性能成为文本分类算法的当务之急。目前国内外常用的文本分类方法基于文本内容的相似度对文本进行分类。网络内容分类系统大都是基于平面的分类, 即多采用基于词或词串信息的动态聚类方法和基于特征属性的分类技术来实现, 挖掘深度不够, 执行速度慢, 聚类的准确度较低。

为了克服现有技术的不足, 该发明提供一种基于模糊聚类的网络文本数据检测方法, 能够提高网络安全审计中对于文本分类的精度与可靠性, 改善网络内容中目标文本的获得取效率, 实现网络内容的智能检索。

该发明所采用的技术方案是:首先对提取的网络内容进行预处理;其次, 对需要聚类的预处理后网络内容进行特征提取;然后, 对网络内容进行取类, 设定初始聚类数。在聚类过程中, 一个聚类数对应一个隶属度矩阵, 每个隶属度矩阵都有一个平均信息熵值, 平均信息熵基于密度函数选择初始聚类中心, 算法迭代过程中修改聚类数, 当平均信息熵达到最小值时, 所对应的聚类数为最佳聚类数。最后, 将聚类结果返回给用户。

本发明具体包括以下步骤:

(1) 网络内容预处理:如果以原始的网络内容作为特征向量提取的对象, 那么, 网络内容的特征向量维数会相当大, 因此, 必须进行降维的处理。降维的方法采用特征抽取方式, 首先对原始的网络文本进行分词, 然后, 计算每个词出现的频率, 删除所有出现频率超过10的功能词, 从而降低网络内容特征提取时所获取特征向量的维度。由于特征向量维数降低, 不但能加快聚类算法计算的速度, 而且还能提高分类结果的精度和避免重复匹配问题。

(2) 网络内容特征提取:应用向量空间模型作为网络内容特征的表示方法。在该模型中, 网络内容空间被看作是由一组正交词条向量所组成的向量空间。所述的词条向量是指将每次捕获到网络流的网络内容作为一篇网络内容文档, 经过步骤 (1) 的网络内容预处理后, 将网络内容文档中的词条项在整个网络文档中出现的频次作为该词条项的权重, 将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量。词条向量表示为V (d) = (ti, wi (d) ;i=1, 2, …, n) , 其中, n表示降维和分词后整个网络文档的词条数目, d表示此网络文档, ti为词条项, wi (d) 为词条在此网络内容文档中所占的权重, 被定义为ti在d中出现的频率。

(3) 模糊聚类:现有技术的模糊聚类方法存在对孤立点数据比较敏感, 须预先指定聚类数目和模糊加权指数的缺陷。为降低孤立点对聚类结果的影响, 本发明对数据对象的隶属度增加一个权值, 使隶属度的值高的数据对象对聚类中心位置的影响增大, 隶属度小的数据对象降低它们对聚类中心的影响。

(4) 聚类结果输出。将聚类结果返回给用户, 聚类结果包括聚类中心的数目以及聚类中心。

该发明的效果是:在性能良好的网络内容特征提取技术、基于密度函数获取初始聚类中心技术、优化的隶属度计算技术以及聚类数的评判标准确定技术的基础上研发。与已有的相应技术相比, 该技术具有智能聚类效果, 并且可以根据应用的不同, 调整聚类的精度, 兼顾聚类的速度。

联系人:赵安军

地址:陕西省西安市科技路30号合力紫郡大厦B-2001室

模糊聚类的方法及应用 第3篇

关键词:数据挖掘,逐步聚类,老年痴呆,临床检验系统

随着医学信息系统(HIS)的发展,我们通过临床检验系统(CLIS)可以有效地实现数据的录入、查询、统计等,并将这些宝贵的数据资料加以分析利用得出指导性的结论。

1 材料和方法

1.1 原始数据的获取

该文原始数据资料收集了2003年至2005年的血流变检验室的数据5990个。通过医院LIS系统,使用计算机语言将服务器ACCESS数据库中的数据,提取到EXCEL文件中,录入到EXCEL中的数据如表1所示。具体步骤如下:

在原始的Microsoft Access数据库查询设计网格的“字段”行或“条件”行中输入SQL语句,用结构化查询语言(SQL)来查询、更新和管理。通过检索、组合、重用和分析数据从数据库中提取出所需的数据,并且生成新的数据表“查询表”。

Select TestWholeNo,PatientName,PatientSex,PatientAge,PatientDepartment,PatientDoctorName,TestDate,TimeSampleing,TimeWatering,TimeBlowing,TimeHeating,QXTestStatus,QXTestMode,QXStrParam1,QXStrParam5,QXStrParam10,QXData1,QXData5,QX-Data10,XJTestStatus,XJTestMode,XJStrParam,XJData,RltCalcParam1,RltCalcParam2,RltCalcData1,RltCalcData2,RltCalcData3,RltCalcData4,RltCalcData5,RltCalcData6,RltCalcData7,RltCalcData8,RltEnterData1,RltEnterData2,RltEnterData3,PatientBed,SendDate from血流变检验。

Where(((year)>#6/1/2003#And(year)<#1/1/2006#))order by TestWholeNo;

再使用SQL=“select*into sheet1 in'”d://ZWP/分析表.xls“′′EXCEL 8.0;′from查询表”′//sheet1将数据导出至EXCEL表中便于下一步的计算、图表表示等。

1.2 检验数据的指标

本文所收集到的检验者数据项目包括血液粘度、血浆粘度、血沉等19项指标属性其中含有性别与年龄。详细情况见表1。

1.3 原始数据预处理

该文主要采用的数据预处理技术:数据清洗、数据消减、数据变换。

1.3.1 数据清洗

因为全血粘度是液粘度是血液最基本的血流变特性,是血液流变学的基本参数[7],采用检验指标中的全血粘度(低切)测量值5-9mpa/s,作为度量值,每一个不在这个范围内的数据可视为噪声被舍弃。经过数据清洗整理,原始数据为2856个(附录A)。

1.3.2 数据的消减

本文采用维数消减来减小数据量。采集的数据中17个指标中,通过实验室直接测量的参数只有血粘度(低切,中切,高切),红细胞压积,血浆粘度,血沉等5个指标,其余的参数都是在此基础上通过公式算出的,那么删除这些冗余的属性。除此之外,本文从实验数据中剔除了姓名,科室等不相关属性,保留了年龄、性别相关属性,使以后的数据挖掘更加有效。

1.3.3 数据的变换

为了便于相互比较分析,首先必须将原始数据进行变换处理,将它们转化为无量纲判别的标准化值。本文采用规格化法进行数据处理。

经过变换后,每列最大数据变为1,最小数据为0其余数值在0-1之间。

表3中,Xi2max=89,Xi2min=12,X12=37,X22=55,X32=70,…X28542=70,X28552=53,X28562=41

注:X1性别,X2年龄,X3低切全血粘度,X4中切全血粘度,X5高切全血粘度,X6血浆粘度,X7红细胞压积,X8血沉

根据公式(1)得规格化值:

X12’=(37-12)+(89-12)=0.32468

X22=(55-12)+(89-12)=0.55844

X’28542=(70-12)+(89-12)=0.75325

X’28552=(53-12)+(89-12)=0.53247

X’28562=(411-12)+(89-12)=0.37662

同理对X3、X4、X5、X6、X7、X8进行数据规格化处理,见表3。另外,该文中变换还包括定性数据的量化:女=0,男=1。

经过以上预处理后的数据才能成为有效的数据,进入挖掘平台,并通过适应的数据挖掘算法就可以训练了。规格化处理后的全部数据2856个(附录B)。

1.3.4 数据挖掘的算法及依据

本文的挖掘的数据对象没有类别的标记,事先并不知道每个类的性质是什么,而聚类是可以由学习算法自动确定。聚类是把一组个体按照相似性归成为若干类别,即“物以类聚”。其目的是使得属于同一类别的个体之间的距离尽可能的小,而不同类别的个体之间的距离尽可能大。现实的分类往往伴随着模糊性,在多数场合,一组事物是否形成一个类群、一个事物是否属于某一个类别,都不是明确的,这是有一个聚类隶属程度问题。这种方法我们称为模糊聚类。

该文采用模糊聚类中的动态聚类即逐步聚类算法,逐步聚类具有计算工作量小、占用计算机内存空间较小,灵活简便的优点。

2 逐步聚类在血流检验中的应用

2.1 逐步聚类的基本原理

逐步聚类是以样本组内的离差平方和达到最小为标准,通过反复调整每个样本组中的个体数,从而达到样本组内具有最大同质性,而样本组间具有最大异质性,这一优化目标。此法,是先将样本进行一次粗略的分类,称为初始分类,然后根据最优原则进行反复不断的修改,知道分类合理为止。

2.2 逐步聚类的步骤

2.2.1 逐步聚类的标准化处理

本文在2.3.3已介绍了规格化法对数据进行处理,规格化的数据表如表4,所有数据的转换在DPS软件完成。

2.2.2 变换取整法进行初始分类

选取变换取整法进行初始分类,其方法为:对每个样本xi,令

即SUM(i)表示为每个样本指标变量值总和(m为指标变量数)。若欲将全部样本分为类,对每一个样本计算:

若与该数接近的整数为k,则将样本xi归入k类(1≤k≤K)。其中由表4中可得,,[.]表示取整运算。对于K值的选取,根据医学知识的经验以及反复上机调试实验,将2856个样本初始分为3类较为合适,根据公式(2)、(3),在DPS软件系统中进行初始分类。

2.2.3 选择凝聚点

凝聚点是指被当作待形成类中心的代表点。凝聚点的选择对对分类结果有很大的影响。若凝聚点选择的不同,最终分类结果也将有所不同。

本文采用重心法,首先人为地将对象分成几类,然后计算每一类的重心,以此作为聚类重心。

以该类样品的均值作为凝聚点。其计算公式如下:

其中gj(j=1,2,…m))为第k类(1≤k≤K)类的重心坐标,nk为第k类的样本数。那么,根据(4)式计算初始分类的重心,得到凝聚点。

由步骤3.2.2分类及重心计算公式(4)得到初始分类重心坐标如表4。

2.3.4 将所有的样本按最近凝聚点归类

目标函数S定义为:

这里,ni为第i个样本组的样本数,xi为其均值,为N个样本的总均值,m为N个样本,所分类的组数。显然。S为样本xi与类凝聚点的距离。

计算每个样本到各个类凝聚点的距离,并将样本归入最近凝聚点所在的类。

2.3.5 修改分类,使分类趋于合理

初始分类形成后就要进行逐步修改,修改分类法有两种,即逐个修改法和成批修改法。这儿是采用成批修改法。

按批修改:

初始分类选择凝聚点后,每个样品按与其距离最近的凝聚点归类。每个凝聚点自成一类,将样品一次归如其距离最近的那一类,并立即重新计算该类的重心(步骤2.3.3)以代替原来的凝聚点,再计算下一个样品的归类,直到所有的样品都归类为止。当所计算的重心与原来的凝聚点完全相同时,则过程终止,否则将重复步骤2.3.4,按目标函数S计算10次。

3 结果分析

根据医学知识与临床经验,血流变的化验结果很大程度上与年龄和性别有关。分类结果:男女性别截然分开,由于数据量大,我们可以在同一类中分别做出年龄与每个样本属性的散点图进行对比分析,发现有趣的信息。通过仔细观察与研究发现两个较为明显特征:

1)女性中年龄与血沉关系与男性中年龄与血沉关系的不同,如图1。

血沉即红细胞沉降率(正常值0-20),血沉虽不是特异性检验项目,但在功能性疾病与器质疾病的鉴别上有一定参考价值。如图1所示,男女结果有差别,结果提示:随着年龄增大,红细胞沉降值呈增快趋势,其中第一类(女性)、第二类(女性)血沉增快年龄在50岁左右,第二类较为明显,第三类(男性)血沉增快年龄大都在60岁以后,女性血沉增快年龄比男性血沉增快年龄提前的原因,是与女性生理因素(如绝经期)有关。

2)女性中年龄与血栓长度关系与男性中年龄与血栓关系的不同,如图2。

体外血栓(正常值6-17毫米)是血液流变学高凝的一个重要指标,是心脑血管疾病及一切缺血性疾病的重要发病因素。

由图2观察到,第一类、第二类女性在40岁到60岁血栓长度超过40毫米要比第三男性的数量也多,而且男性血栓长度超过40毫米要到60年岁以后,而且女性在40岁-60多岁间,血栓长度随年龄增长而增长。过了70岁后,血栓长度随年龄缓慢下降。根据有关资料表明,女性患老年痴呆的要比男性多,而且发病年龄早,这与女性的生理因素及文化水平等有关。

聚类结果与文献相符,聚类结果符合医学意义,同时也验证了临床血流变指标具有临床诊断意义。

4 讨论

采用逐步聚类有如下特点:

1)逐步聚类不必计算所有样本间的相似系数矩阵,仅需要计算每个样本到聚类中心距离,也就是求出离差平方和,因此可以大大缩短计算时间和计算机内存单元,提高工作效率。

2)逐步聚类法是通过对样本组成员的不断调整,实现最优化分类目标。

3)逐步聚类的聚类结果受奇异值和不合适的聚类变量的影响较小,对于不合适的初始聚类可以进行反复调整,但其缺点是逐步聚类结果对初始聚类非常敏感,这是逐步聚类法的一个缺点。

4)聚类算法性能与数据集密切相关的,没有万能的聚类算法。目前研究者们提出的每种聚类算法都有自身的优缺点及特定的使用范围,对于相同的数据集,采用不同的聚类方法的到不同的划分结果。

本研究将在以下方面做进一步的研究:运用关联规则在CLIS中的应用,可以得到可信度高的强关联规则,以提高疾病诊断的准确性。逐步聚类法与神经网络结合,克服对初始化敏感的缺点。

参考文献

[1]焦李成,刘芳.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社,2006.

[2]徐建军.医院信息系统的数据挖掘技术的研究[D].浙江大学硕士论文,浙江大学图书馆,2006.

[3]张世红,徐国桓,刘会霞,等.数据挖掘在医学上的应用[J].医学情报工作,2004,(6):408-410.

[4]孙扬.模糊聚类在智能医疗诊断系统的研究与应用[D].浙江大学硕士论文,浙江大学图书馆,2006.

[5]Margaret H.Dunham.数据挖掘教程[M].北京:清华大学出版社,2005.

[6]魏茂元.宏观血液流变学常用检测指标及临床意义[J].中国医学物理学杂志血液流变学专集,2005:19-24.

[7]唐启义,冯明光.实用统计分析及其DPS数据处理系统[M].北京:科学出版社,2004.

[8]杨小兵.聚类分析中若干关键技术的研究[D].浙江大学博士论文,浙江大学图书馆,2005.

[9]梁循.数据挖掘:建模、算法、应用和系统[J].微机发展,2006,2(1):34-36.

基于模糊聚类的弯曲回弹分析 第4篇

弯曲工艺作为常见的一种冲压工艺,可以加工的零件种类很多,如汽车纵梁、自行车车把、仪器电表外壳等。弹性回弹是影响弯曲工艺质量的最常见因素之一,也是弯曲工艺中的技术难点之一。回弹问题的存在将增加试模、修模和校形的工作量,故在生产中迫切需要对此采取行之有效的措施[1]。为了从板料冲压成形生产和实验的数据中获取弯曲回弹的规律,发现各个工艺参数对成形结果的影响,本文将模糊聚类的方法和统计理论相结合[2],构建了弯曲回弹模糊聚类预测模型,并对V形件的弯曲回弹进行了分析和研究。

2 基于模糊聚类的弯曲回弹预测模型的构建

在通常情况下,板料成形影响因素与工艺设计目标之间呈复杂的非线性关系[3],直接根据多个工艺影响参数建立与工艺设计目标之间的关系模型,通常精度较低,难以满足实际设计的需要。为了提高设计质量,本文将模糊聚类与统计理论相结合,建立了板料成形工艺的模糊聚类预测模型[4]。

设板料成形工艺设计样本集X和Y目标集分别为:

板料成形工艺存在多个工艺参数的交互影响,导致影响因素与工艺设计目标之间关系的复杂性[5]。由于样本集中的各元素是由各影响因素指标向量构成的,所以,可将样本集中的元素表示为向量:

则样本集X的影响因素特征值矩阵为:

式中:xij——样本j的影响因素i的特征值(i=1,2,

…,m,j=1,2,…,n)。

根据板料成形工艺影响因素与工艺设计目标存在的关系,定义正相关、负相关两种不同情况,并构建不同的相对隶属度函数。正相关表示板料成形工艺影响因素同工艺设计目标变化趋势相同;负相关表示板料成形工艺影响因素同工艺设计目标变化趋势相反。即当工艺影响因素与工艺设计目标呈正相关时,板料成形工艺影响因素的相对隶属度按照下式确定:

当工艺影响因素与工艺设计目标呈负相关时,板料成形工艺影响因素的相对隶属度依下式确定:

式中:rij——样本j的影响因素i对工艺设计目标的相对隶属度。

不同的工艺影响因素具有不同的量纲,在进行聚类时要先消除物理量量纲的影响,即需要对影响因素特征值矩阵进行规格化。通过上述两隶属度函数公式,对样本集X中各元素进行规格化,得到板料成形工艺影响因素对工艺设计目标的m×n阶相对隶属度矩阵为:

假设将样本集X根据m个影响因素分为c类模式,也就是根据工艺影响因素将n个样本分为c类,则各类模式中预测因子(各个影响因素)对某个工艺设计目标的m×c阶模糊聚类中心(原型)矩阵可以表示为:

式中:sih——分类模式h对影响因素i的相对隶属

度(h=1,2,…,c)。

由于n个样本分为c类,其模糊聚类矩阵可表示为:

其描述的是各样本相对于各个分类的相对隶属度值,并满足条件:

考虑m个影响因素对工艺设计目标的影响程度不同,设影响因素权向量为w=(w1,w2,…,wm)T。一般来说,某个影响因素对工艺设计目标影响越大,则该影响因素的权重就要越大。本文构建了板料成形工艺设计目标与影响因素之间的相关系数,解决了权向量初始化的问题,即影响因素初始权向量为:

式中:ρi——板料成形工艺设计目标与影响因素之间的相关系数。

根据相关分析,有:

式中:——工艺影响因素i的均值;

——工艺设计目标样本均值。

样本j的m个影响因素相对隶属度函数值可表示为向量:

h类的聚类中心向量可表示为:

sh=(s1h,s2h,…,smh)T

本文中,采用广义欧式距离加权的方法构建模糊聚类算法的优化目标函数。则样本j与h类的差异,采用广义欧式距离可表示为:

为了更加完善地描述聚类样本j与h类之间的差异,将广义欧式距离乘以样本j归属于h类的相对隶属度值uhj,即d(rj,sh)=uhj||wi(rj-sh)||,d(rj,sh)称为样本j与h类之间的加权广义欧式距离。

为了求解最优模糊聚类矩阵与最优模糊聚类中心矩阵,建立了优化目标函数:

该目标函数的意义为聚类样本集X对于全体类别加权广义欧氏距离平方和最小。

如果已知矩阵S,求解最优模糊聚类矩阵U为:

如果已知满足约束条件的模糊聚类矩阵U,求解最优模糊聚类中心矩阵为:

上述两式可以共同组成循环迭代公式,用以迭代求解最优模糊聚类矩阵与最优模糊聚类中心矩阵。首先设定uhj和sih的计算精度ε,然后对最优模糊聚类矩阵和最优模糊聚类中心矩阵迭代求解。若对应元素满足精度要求,即,则迭代结束;如果达不到精度要求,则进行下一次迭代。最终求得最优模糊聚类矩阵与最优模糊聚类中心矩阵为:

由最优模糊聚类矩阵可以求得每个样本的类别变量的特征值向量为:

为了描述样本集与类别变量特征值之间的相关程度大小,建立样本集与类别变量特征值之间的相关系数公式为:

式中:Hj——样本j的类别变量特征值;

H——类别变量特征值的均值。

最终板料成形工艺类别变量特征值与工艺设计目标之间的回归方程为:

式中:分别为

y与H的均方差。

影响弯曲件成形的因素极其复杂,其影响因素包括材料力学性能、相对弯曲半径r/t、弯曲角α、工件形状、模具工作部分尺寸、弯曲方式、摩擦力等。为了简化V形件弯曲回弹预测模型的构建,本文将影响V形件弯曲回弹的因素归结为材料性能、弯曲半径、弯曲角这三个主要影响因素,其他次要因素忽略不计。因此,弯曲回弹影响因素向量可表示为:

式中:v1——材料性能;

v2——相对弯曲半径;

v3——弯曲角大小。

将V形件的弯曲回弹角作为工艺设计目标集。

模糊聚类预测模型的具体算法流程主要包括以下步骤:①根据手册或者实验获取建模样本数据;②根据工艺影响因素与设计目标呈正相关、负相关两种不同情况,给出不同的规范化公式,对冲压工艺样本数据进行规范化处理,获得规格化矩阵R;③定义回弹大小隶属度函数,构建初始模糊聚类矩阵;④由于m个影响因素对工艺设计目标的影响程度不同,对各个影响因素初始权向量,运用求解最优模糊聚类矩阵和最优模糊聚类中心矩阵两公式进行循环迭代,求解矩阵U*与S*;⑤计算类别变量特征值向量H和相关系数r,如果相关系数未达到要求,则调整影响因素的权向量,直至满足要求为止;⑥建立弯曲回弹工艺模糊聚类预测模型。

3 弯曲回弹的模糊聚类分析

在构建了模糊聚类预测模型的基础上,通过查阅锻压手册[6],选取了600对数据作为建立V形件弯曲回弹预测模型的样本,部分数据样本见图1。

由于模糊聚类结果的准确与否,与模糊聚类矩阵的初始化是极其相关的,因此,必须构建合理的弯曲回弹角隶属度函数。根据数据样本中弯曲回弹角的范围分别构建了模糊概念弯曲回弹角S (小)、M(中)、B(大)的隶属度函数,如图2所示。

通过弯曲回弹角的隶属度函数可以求得初始模糊聚类矩阵U0,然后将所选取的样本数据以及计算所得的初始模糊聚类矩阵读入自编程序,通过一系列的迭代运算后便可求得预测样本的弯曲回弹角。

4 弯曲回弹预测结果检验与分析

为了对所构建的弯曲回弹模糊聚类结果进行检验,分别选取测试样本,对弯曲回弹模糊聚类结果进行了分析检验。

(1)材料性能影响

根据前面所建立的弯曲回弹模型,设定相对弯曲半径为6mm,弯曲角为90°,材料性能参数σs/E分别为1×10-3、1.175×10-3、1.425×10-3、1.575×10-3,建立测试样本。预测结果与真实值的对比如图3所示,由此可发现随着材料性能参数σs/E的增加,回弹预测值也变大,所建立模型的回弹趋势与手册所描述的相同。如果材料的弹性模量相同,材料屈服强度大,则材料的回弹量就大。

(2)相对弯曲半径

设定相对材料性能参数σs/E取1×10-3,弯曲角为90°,相对弯曲半径(单位mm)分别为2、4.6、8、9.5、10、12、14,建立测试样本,预测结果与真实值的对比如图4所示。从图中可以明显看出,随着相对弯曲半径r/t的增加,弯曲回弹角预测值也变大,所建立模型的回弹趋势同实验规律是一致的。

(3)弯曲角

设相对材料性能参数σs/E为1×10-3,相对弯曲半径为5mm,弯曲角为30°、60°、80°、90°、120°、150°,建立测试样本,预测结果与真实值如图5所示。图中可见得模糊聚类弯曲回弹预测结果的变化同真实回弹趋势是一致的,预测值比回弹值稍大。

(4)随机测试样本

随机选取12组数据对弯曲回弹聚类结果进行了研究,弯曲回弹预测结果与真实值如图6所示。

从图中可以看出,模糊聚类对弯曲回弹的知识分析获得了良好的效果,误差均在工程误差范围内,最大误差只为5°。误差产生原因,主要是由于弯曲过程本身的复杂性,其他各个参数如模具结构、弯曲方式、摩擦力等都对回弹存在影响,而本文只考虑了材料性能、相对弯曲半径、弯曲角这三个主要影响因素。

5 结束语

弯曲成形过程是一个复杂的过程,受到很多因素的影响,如何对弯曲回弹进行准确的预测和控制具有十分重要的理论意义和工程意义。模糊聚类算法能够很好地提取事物中的潜在特征。本文采用了基于模糊聚类算法和统计学理论相结合的方法,选取了材料性能、相对弯曲半径和弯曲回弹角这三个主要影响因素构建了V形件的弯曲回弹预测模型,利用预测模型对形件的弯曲回弹角进行了预测,并对预测结果进行了分析。预测结果总体上符合实际实验弯曲回弹趋势,从而说明了模糊聚类算法的科学性及合理性,为冲压工艺缺陷预报提供了新的方法和思路。

摘要:弯曲工艺中,影响弯曲回弹角的因素很多,难以建立准确的弯曲回弹预测模型。将模糊聚类算法和统计学理论相结合,建立了弯曲回弹的模糊聚类预测模型。对V形件的弯曲回弹进行了预测并对预测结果进行了分析,预测结果符合实际实验弯曲回弹趋势,说明了模糊聚类算法的科学性及合理性。

关键词:机械制造,弯曲回弹,模糊聚类,预测模型

参考文献

[1]刘斌,王敏杰,柳瑞清,等.V形件弯曲回弹的影响因素及其实验研究[J].锻压机械,2002,37(5):22-25.

[2]陈水利,李敬功,王向公.模糊集理论及其应用[M].科学出版社, 2005.

[3]刘伟.板料成形工艺与模具多目标优化设计技术及应用研究[D].哈尔滨:哈尔滨工业大学博士学位论文,2005.

[4]高新波,模糊聚类分析及其应用[M].西安电子科技大学出版社, 2004.

[5]王剑,林忠钦,陈杰,等.车身冲压件变形的模糊聚类分析[J].机械科学与技术,2002.

基于模糊C均值聚类的火焰检测算法 第5篇

K均值聚类和模糊C均值聚类 (FCM) 是比较典型的基于模糊集合理论的聚类方法。K均值聚类是1种对数据进行硬性划分的方法。模糊C均值聚类算法是1种基于划分的聚类算法, 它的意思就是使得被划分到同一簇的对象之间相似度最大, 而不同簇之间的相似度最小。模糊C均值算法是普通C均值算法 (如, K均值聚类算法) 的改进, 它对于数据的划分则是1种柔性的模糊划分。

1 模糊C均值聚类

模糊C均值聚类 (FCM) 是用隶属度确定每个数据点属于某个聚类的程度的1种聚类算法。1973年, Bezdek提出了该算法, 作为早期硬C均值聚类 (HCM) 方法的1种改进。

FCM把n个向量xi (i=1, 2, …, n) 分为a个模糊组, 并求每组的聚类中心, 使得非相似性指标的价值函数达到最小。FCM与HCM的主要区别在于FCM用模糊划分, 使得每个给定数据点用值在[0, 1]间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应, 隶属矩阵U允许有取值在[0, 1]间的元素[1]。不过, 加上归一化规定, 1个数据集的隶属度的和总等于1:

undefined, (1)

那么, FCM的价值函数 (或目标函数) 就是式 (2) 的一般化形式:

undefined, (2)

这里uij介于[0, 1]间;ci为模糊组i的聚类中心, dij=‖ci-xj‖为第i个聚类中心与第j个数据点间的欧几里德距离, 且m∈[1, ∞) 是1个加权指数。

构造新的目标函数式 (3) , 可求得使式 (2) 达到最小值的必要条件:

undefined

这里λj (j=1, 2, …, n) 是式 (1) 的n个约束式的拉格朗日乘子。对所有输入参量求导, 使式 (2) 达到最小的必要条件为:

undefined, (4)

undefined。 (5)

由上述2个必要条件, 模糊C均值聚类算法是1个简单的迭代过程。在批处理方式运行时, FCM用下列步骤确定聚类中心ci和隶属矩阵U。

步骤1:用值在 (0, 1) 间的随机数初始化隶属矩阵U, 使其满足式 (1) 中的约束条件;

步骤2:用式 (4) 计算a个聚类中心ci (i=1, 2, ……a) ;

步骤3:根据式 (2) 计算价值函数。如果它小于某个确定的阈值, 或它相对上次价值函数值的改变量小于某个阈值, 则算法停止;

步骤4:用 (5) 计算新的U矩阵。返回步骤2[2]。

上述算法也可以先初始化聚类中心, 然后再执行迭代过程。由于不能确保FCM收敛于1个最优解。算法的性能依赖于初始聚类中心。因此, 要么用另外的快速算法确定初始聚类中心, 要么每次用不同的初始聚类中心启动该算法, 多次运行FCM。

2 算法设计

2.1 锅炉燃烧火焰图像特征分析

基于模糊C均值聚类的火检算法, 自动算出煤粉区和燃烧区的平均亮度, 这一方法是对早期基于梯度的火检算法的改进。

由于煤粉的着火及燃烧特性, 产生的噪声也会影响3个区域的定位。为了抑制噪声, 笔者将各行图像进行平均得到水平方向的一维灰度分布值, 然后在一维灰度分布中利用模糊C均值聚类方法将煤粉区, 着火区和灼烧区分割出来。

取图像的左上角为坐标零点, 垂直向下为x正方向, 水平向右为y正方向, N行图像取平均运算相当于图像向y轴进行投影。

undefined。 (6)

图1给出某行图像灰度分布的1个例子, 图2是平均结果。图2信号上的噪声明显小于图1中信号上的噪声[3]。

事实上, 由随机信号分析理论可知, 4个分布相同且不相关的噪声信号的平均值的方差减小为原噪声的undefined。在f (y) 上进行聚类分析可以避免确定区域边界的困难, 提高算法的稳健性, 同时还加快了分类的速度。

2.2 基于模糊C均值聚类的火焰检测算法

由前面分析可知, 运用模糊聚类算法将f (v) 按灰度值分成3类, 还要确定的参数就是m, 它是控制算法的柔性的参数。若m过大, 则聚类效果会很差;如果m过小则算法会接近HCM聚类算法。由图2看出, f (v) 数值总体上逐渐增大, 对模糊性要求不是非常高, 在实现该算法的时候取m为5, 就可以达到比较精确的分类的目标了。

模糊C均值聚类算法是1个复杂的迭代过程。在批处理方式运行时, FCM用下列步骤确定聚类中心c和隶属矩阵U。

步骤1:用值在 (0, 1) 间的随机数初始化隶属矩阵U, 使其满足式 (1) 中的约束条件;

步骤2:用式 (4) 计算3个聚类中心ci (i=1, 2, 3) ;

步骤3:根据式 (2) 计算价值函数。如果它小于某个确定的阈值, 或它相对上次价值函数值的改变量小于某个阈值, 则算法停止;

步骤4:用 (5) 计算新的U矩阵。返回步骤2。

这里的聚类中心 (c1, c2, c3) 就是我们要的煤粉区的中心。根据隶属度矩阵U求出煤粉预热区和燃烬区的平均灰度G1, 和G3, 就可以判断出燃烧器火焰燃烧状态[4]。

3 算法的实现

3.1 算法检测

得到一帧图像数据后, 先将燃烧区域转换成一行, 像素亮度值按列累加的均值, 然后根据K均值聚类, 将数据分成3类, 将3类中亮度大的均值与亮度小的均值求差, 就得到需要求的梯度值。函数MethodTiDu () 的返回值是第一类的均值和第三类的均值的差[5]。

3.2 实验结果

根据K均值聚类算法原理, 在实验系统上进行了多次试验后, 将火焰图像通过DVD送到图像采集卡, 使用VisualC++6.0实现该算法, 计算出AG值, 同时记录系统输出AG随时间的变化曲线 (见图3) 。

从t1燃烧器开始停止喷煤, ΔG值明显下降, 到t2时火焰完全熄灭。由于锅炉内其他燃烧器还在燃烧, ΔG值变小到50左右。这一结果表明, 只要将ΔG的门限设在60~80之间, 由系统输出就可以很准确地判别火焰燃烧状态, 从而实现灭火预警。

结果表明, 该算法不仅能准确地检测煤粉火焰燃烧状态, 而且耗时很少, 效率较高。

4 结语

在进行理论分析的基础上, 根据火焰燃烧相关特征及早期基于梯度的火检算法, 提出了基于模糊C均值聚类的火检算法, 后者是在前者的基础上的改进。由实验数据可以看出, 所提出的算法简便实用, 可实现对锅炉煤粉单燃烧器的燃烧火焰进行实时检测。

参考文献

[1]赵铁成, 张银桥, 徐伟勇.火焰图像检测器着火判据的设计与实验研究[J].动力工程, 2001, 21 (1) :1054-1058.

[2]欧阳元煌, 余岳峰.锅炉燃烧火焰数字图像处理方法[J].上海电力学院学报, 1997, 13 (4) :43-46.

[3]赵铁成, 张银桥, 徐伟勇.新型火焰图像检测器及其着火判据[J].仪器仪表学报, 2002, 23 (1) :98-100.

[4]宋文忠, 姜昌金, 胡克定.锅炉燃烧器火焰闪烁特性试验与分析[J].热力发电, 1995, 64 (4) :45-50.

模糊聚类的方法及应用 第6篇

通过弯曲工艺可以加工的零件种类很多,如汽车纵梁、自行车车把、仪器电表外壳等。弹性回弹是影响弯曲工艺质量的最常见因素之一,也是弯曲工艺中的技术难点。回弹问题的存在将增加试模、修模和校形的工作量,因此,在生产中迫切需要对此采取行之有效的措施[1]。为了从板料冲压成形生产和实验的数据中获取弯曲回弹的规律,发现各个工艺参数对成形结果的影响,本文将模糊聚类的方法和统计理论[2]相结合,构建了弯曲回弹模糊聚类预测模型,以期对弯曲件的弹性回弹进行分析和研究。

2 弯曲回弹的模糊聚类预测模型

在通常情况下,板料成形影响因素与工艺设计目标之间呈复杂的非线性关系[3],直接根据多个工艺影响参数建立与工艺目标之间关系的模型。模型通常精度较低,难以满足实际设计的需要。为了提高设计质量,本文将模糊聚类与统计理论相结合,建立了板料成形工艺模糊聚类学习模型。

设板料成形工艺设计样本集X和目标集Y分别为:X={x1,x2,…,xn};Y={y1,y2,…,yn}。

通常板料成形工艺设计目标与单一影响因素之间的知识分析比较容易,但由于板料成形工艺存在多个工艺影响参数的交互影响,导致了影响因素与工艺目标之间关系的复杂性[4]。为此,研究如何建立板料成形工艺的多个影响因素与设计目标之间的相互关系,是十分必要的。

由于样本集X中的各个元素是由各影响因素指标向量构成的,所以将样本集中的元素的影响因素表示为:

则样本集X的影响因素实测值特征值m×n阶矩阵为:

式中:xij———样本j的影响因素i的特征值,i=1,2,…,m;j=1,2,…,n。

根据板料成形工艺影响因素与设计目标存在的关系,定义正相关、负相关两种不同情况,并构建不同的相对隶属度函数。正相关代表着板料成形工艺影响因素同工艺设计目标变化趋势相同;负相关表示板料成形工艺影响因素同工艺设计目标变化趋势相反。

当板料成形工艺影响因素与工艺设计目标呈正相关时,取相对隶属度为0的左极点对应于ximin,相对隶属度为1的右极点对应于ximax;反之,亦然。ximin、ximax分别为样本集影响因素i的最小、最大特征值。xij介于ximin与ximax之间。

即当工艺影响因素与工艺设计目标呈正相关时,板料成形工艺影响因素的相对隶属度按下式确定:

当工艺影响因素与工艺设计目标呈负相关时,板料成形工艺影响因素的相对隶属度按下式确定:

式中:rij———样本j的影响因素i对工艺设计目标的相对隶属度。

将样本集X的各个元素通过上述两式,可以得到板料成形工艺影响因素对工艺设计目标的m×n的相对隶属度矩阵:

假设将样本集X根据m个影响因素分为c类模式,也就是根据工艺影响因素将n个样本分为c类,矩阵表示为各类影响因素对某个工艺目标的m×c模糊聚类中心(原型)矩阵:

式中:sih———分类模式h对影响因素i的相对隶属度,h=1,2,…,c。

由于n个样本分为c类,其模糊聚类矩阵可表示为:

它所描述的是各样本相对于各个分类的相对隶属度值。并满足条件:

根据各个影响因素对工艺设计目标的影响程度不同,设各影响因素的权向量为:

当某个影响因素对工艺设计目标影响较大,则该影响因素的权重要大一些。为了减少工程师对权重的影响,将相关系数计算公式引入模糊聚类,构建了板料成形工艺设计目标与影响因素之间的相关系数,解决初始权向量构建的问题,即:

式中:ρi———板料成形工艺设计目标与影响因素之间的相关系数。

根据相关分析,有:

式中:———工艺影响因素i的均值;

———工艺设计目标样本均值。

样本j的m个影响因素相对隶属度函数值向量可表示为:

h类的聚类中心向量可表示为:

样本j与h类的差异,采用广义欧式权距离表示为:

为了更加完善地描述聚类样本j与h类之间的差异,将广义欧式权距离乘以样本j归属于h类的相对隶属度值uhj,即d(rj,sh)=uhj丨丨w(rj-sh)丨丨,d(rj,sh)称为样本j与h类之间的加权广义欧式权距离。

为了求解最优模糊聚类矩阵与最优模糊聚类中心矩阵,建立目标函数:,该目标函数的意义为聚类样本集X对于全体类别加权广义欧氏权距离平方和最小。

如果已知矩阵S,求解最优模糊聚类矩阵U:

如果已知满足约束条件的模糊聚类矩阵U,求解最优模糊聚类中心矩阵:

上述两式可共同组成循环迭代公式,用以迭代求解最优模糊聚类矩阵与最优模糊聚类中心矩阵。

应用模糊聚类循环迭代公式,设定uhj和sih所要求满足的计算精度ε,对最优模糊聚类矩阵和最优模糊聚类中心矩阵迭代求解,若对应元素满足精度要求,则迭代结束;如果达不到精度要求,则进行下一次迭代。求得最优模糊聚类矩阵与最优模糊聚类中心矩阵为:

由最优模糊聚类矩阵求得类别变量的特征值向量为:

建立样本集与类别变量的特征值之间的相关关系,用统计相关关系系数公式确定相关系数为:

式中:Hj———样本j的类别变量特征值;

———类别变量特征值的均值。

如果计算得到的相关系数r不够大,可以在抽样误差范围内调整相关系数,以使样本与类别特征值之间的相关系数比较大。则板料成形工艺类别变量特征值与样本之间的回归方程建立如下式:

式中:σy、σH———y与H的均方差,分别为:

3 弯曲回弹样本集、目标集及预测模型算法流程

影响弯曲件成形的因素极其复杂,其影响因素包括材料力学性能、相对弯曲半径r/t、弯曲角α、工件形状、模具工作部分尺寸、弯曲方式、摩擦力等。为了简化V形件弯曲回弹预测模型的构建,将影响V形件弯曲回弹的因素归结为材料性能、弯曲半径、弯角这三个主要影响因素,其他影响因素就不予考虑。因此,弯曲回弹影响因素向量可表示为V={ν1,ν2,ν3},其中ν1代表材料性能,ν2代表相对弯曲半径,ν3代表弯曲角大小;V形件的回弹大小将作为工艺设计目标集。

模糊聚类预测模型的具体算法流程见图1,主要包括如下步骤:根据手册或者实验获取建模样本数据;根据工艺影响因素与设计目标呈正相关、负相关两种不同情况,给出不同的规范化公式,对冲压工艺样本数据进行规范化处理,获得规格化矩阵R;定义回弹大小隶属度函数,构建初始模糊聚类矩阵;由于m个影响因素对工艺设计目标的影响程度不同,对各个影响因素初始权向量;进行循环迭代求解矩阵U*与S*;计算类别变量特征值向量H,计算相关系数r;如相关系数未达到要求,需要调整影响因素的权向量;建立弯曲回弹工艺模糊聚类预测模型。

4 结束语

弯曲成形过程是一个复杂的过程,受到很多因素的影响,如何对弯曲回弹进行准确的预测和控制具有十分重要的理论意义和工程意义。而模糊聚类算法在提取潜在知识这方面具有天然优势[5],所以本文采用了基于FCM模糊聚类算法和统计学理论相结合的方法,构建了V形件的弯曲回弹预测模型,以期对弯曲回弹工艺分析提供新的方法和思路。

摘要:弯曲工艺中,影响弯曲回弹角的因素很多,难以建立准确的弯曲回弹预测模型。本文对模糊聚类算法及弯曲回弹问题进行了系统分析,采用基于FCM模糊聚类算法和统计学理论相结合的方法,构建了V形件的弯曲回弹预测模型。模型构建过程简洁,能够很好地从样本数据中提取潜在的弯曲回弹工艺知识。

关键词:机械制造,回弹,弯曲,模糊聚类,预测模型

参考文献

[1]刘斌,王敏杰,柳瑞清,等.V形件弯曲回弹的影响因素及其实验研究[J].锻压机械,2002,37(5):22-25.

[2]陈水利,李敬功,王向公.模糊集理论及其应用[M].北京:科学出版社,2005.

[3]刘伟.板料成形工艺与模具多目标优化设计技术及应用研究[D].哈尔滨工业大学博士学位论文,2005.

[4]王剑,林忠钦,陈杰,等.车身冲压件变形的模糊聚类分析[J].机械科学与技术,2002.

模糊聚类的方法及应用 第7篇

关键词:计算机支持的协作学习,分组,相异度,模糊聚类

0 引言

协作小组形成是计算机支持的协作学习CSCL(Computer Supported Collaborative Learning)[1]中重要一环。当前CSCL中学习者分组研究主要集中于根据一定的分组策略,采用某种算法对学习者进行最优化分组。例如,文献[2]只考虑学习者的二元属性,采取简单匹配系数度量学习者间的差异,进行层次聚类;文献[3]根据thinking style把学习者映射为一个五维空间向量,采用基于空间距离的算法寻找最优组划分;文献[4]提出了一种基于学生二元特征测量的自动分组系统。在这些研究中,有的只考虑定性属性,有的只考虑定量属性,有的对个性特征进行建模时,产生过多的二元变量。事实上,学习者个体之间有许多差异,比如,性别、年龄、智力水平、认知风格、学习成绩、动手能力等,如何合理综合计算这些差异,是能否进行最优化分组的关键。

针对以上问题,本文引入学习者各种不同属性特征的相异度计算方法,把学习者定性与定量属性进行有机耦合,并使用模糊聚类方法对学习者进行分组。

1 分组策略

协作学习的核心概念是分组协作,科学合理地划分小组的学习效果远胜于单个个体或任意分组的效果。分组时就要考虑学生的实际情况,如性别、年龄、知识水平、认知风格、性格特征等。就目前而言,有两种分组策略:同质分组,以某一项或多项关键属性作为分组依据,将性质相同或相近的学生放在同一个小组;异质分组,以某一项或多项关键属性作为分组依据,将性质相异的学生混合搭配进行编组。各有各的优点,同质分组,组内成员学习情况相似,教师能更好地因材施教;异质分组,小组成员之间互补互助,更能体现正互依赖性。据实验研究,组内异质互补的分组方式,收到效果最好[5]。无论采用何种分组策略,要进行分组,必须先定义和计算学习者之间的相异度。

2 相异度量度定义

定义1[6]称S=为知识系统,其中U表示对象的论域;A为属性集,A=C∪D,C为条件属性子集,D为决策属性子集;V为A的值域;F:U×A→V是信息函数集。如果A=C,则称S为一个信息表。

例如,fj(ui,aj)=vij,表示在函数fj作用下,对象ui在属性aj上的取值为vij。

定义2ui,uj∈U,用d(ui,uj)表示对象ui和uj的测量差或相异度,ui和uj越相似或越“近”,d(ui,uj)越接近0;相反,ui和uj越不同,其值越大。

定义3设S=为信息表,如果fj(ui,aj)是一种粗略线性标度的连续度量[7],则称fj为区间标度型函数。

典型的区间标度度量包括重量、高度、气温等。如果区间标度度量采用不同的单位,则直接影响相异度计算,因此,计算前必须把区间标度度量数据进行标准化,把数据映射到[0,1]区间。

定义4设S=为信息表,如果f∈F,f均为区间标度型函数,U上对象间的相异度可用加权的闵可夫斯基(Minkowski)距离[7]表示,记为:

特别地,当p=1时,变为加权的曼哈顿(Manhattan)距离;当p=2时,变为加权的欧几里得(Euclid)距离。

定义5设S=为信息表,u∈U,如果fj(u,aj)∈{0,1},0表示属性值不出现,1表示属性值出现,则称fj为二值函数。如果函数的两个状态具有同等价值和相同权重,则称函数的状态是对称的;否则为非对称的[7]。

例如,性别就是对称的二元变量,疾病检查的阳性和阴性结果就是非对称二元变量。通常把比较重要的或出现几率较小的结果编码为1(例如HIV阳性),而将另一种结果编码为0(例如HIV阴性)。给定两个非对称的二元变量,两个都取值1的情况认为比两个都取值为0的情况更有意义。

定义6设S=为信息表,f∈F,f为二值函数,如果f的状态是对称的,则U上对象间的相异度[7]记为:

如果f的状态是非对称的,相异度记为:

其中,q是ui和uj都取1的数目,r是ui取1,uj取0的数目,s是ui取0,uj取1的数目,t是ui和uj都取0的数目。

定义7设S=为信息表,aj∈A,vi∈V为fj(u,aj)(u∈U)的值,wi为vi的重要性,如果l,pwl=wp(1≤l,p≤n),n为aj值的个数,则称fj为分类函数[7]。分类函数是二值函数的推广。

例如,颜色就是一个分类变量,它可取红色、黄色、绿色、蓝色,每个值的重要性均等。

定义8设S=为信息表,f∈F,f为分类函数,则U上对象间的相异度可用不匹配率[7]计算,记为:

其中,l是ui和uj匹配(取值相同)的数目,m是属性数目。

定义9设S=为信息表,aj∈A,vi∈V为fj(u,aj)(u∈U)的值,wi为vi的重要性,如果l,pwlwp,(1≤l

序数函数和分类函数类似,但序数函数的状态是有意义的序列,各个状态权重不一样,例如,职称由低到高分别为助教、讲师、副教授和教授,其对应的秩分别为1,2,3和4。

定义10设S=为信息表,f∈F,f为序数函数,对vik进行标准化处理,记为,其中,rik为vik对应的秩,Mk为fk的值数目。U上对象间相异度[7]记为:

定义11设S=为信息表,F为混合类型的函数集,假设A中包含m个混合属性,wk是属性ak的权重,对象ui和uj之间的相异度d(ui,uj)定义为:

其中,指示项δ(ijak)按以下方式计算:

(1)如果fk(ui,ak)或fk(uj,ak)缺失(即对象uik或ujk没有属性ak的度量值),则指示项δij(ak)=0。

(2)如果fk(ui,ak)=fk(uj,ak)=0,且fk是非对称的二值函数,则指示项δ(ijak)=0。

(3)除以上两种情况外,指示项δ(ijak)=1。

属性ak对ui和uj之间相异度的贡献d(ak)ij按以下方式计算:

(1)如果fk是区间标度型函数:

其中u∈U。

(2)如果fk是二值或分类函数:如果fk(ui,ak)=fk(uj,ak),d(ijak)=0;否则d(ijak)=1。

(3)如果fk是序数函数:对秩rik进行标准化处理:

显然d(ui,uj)∈[0,1],值越大,说明对象ui和uj之间差异越大;反之,则越小。定义11适用于混合属性,且二值属性和分类属性较少的情况,对于二值属性或分类属性较多的情形,可以分别采用定义6或定义8单独计算,然后再把结果加权综合。

3 模糊聚类定义

定义12[8]设U,V是两论域,是U×V的一个模糊子集,它的隶属函数:U×V→[0,1],,确定了U与V的关系程度,则称为从U到V的模糊关系。特别地,当U=V时,称为U上的模糊关系。

定义13[9]设U={u1,u2,…,um}和V={v1,v2,…,vn}为有限集,则U×V上的模糊关系可用一个m×n阶的矩阵表示,这种表示模糊关系的矩阵称为模糊矩阵,记为,其中,。

定义14[9]设给定有限集U上的一个模糊矩阵,如果满足:

(1)自反性即rii=1。

(2)对称性即rij=rji。

(3)传递性即。

则称是一个模糊等价矩阵。如果只满足(1)和(2),则称为模糊相似矩阵。

定理1[6]设是U上的n阶模糊相似矩阵,的传递闭包的充要条件是存在最小正整数,使得R2k=Rk。

定义15[9]设给定模糊矩阵,对λ∈[0,1],记,其中,,则称为λ截矩阵。注意,λrij并不代表λ与rij的乘积。

定义16设给定两模糊矩阵和,如果给定模糊矩阵平方运算式如:,其中∨、∧为最大、最小运算法则。

定理2设ui,uj∈U,d(ui,uj)为对象ui和uj的相异度,为一模糊矩阵,取rij=1-d(ui,uj),则为模糊相似矩阵。

证明

自反性由定义2可知,当i=j时,d(ui,ui)=0,rii=1,满足自反性。

对称性由定义2可知,对象ui和uj的相异度,与对象uj和ui的相异度在概念上是一致的,因此d(ui,uj)=d(uj,ui),满足对称性。

因此,具有自反性和对称性,为模糊相似矩阵。

4 实验应用

4.1 抽取学习者特征

CSCL系统中,需要根据学习者的情况,例如,以前是否修过相关内容(前修)、智力水平、认知风格[10]、前一个知识点的基础知识测试成绩、实际动手能力水平等,进行合理分组,这里抽取8个学生的个性特征,组成一张信息表(见表1)。学生用对象标识OID表示,对能力水平和前修赋予相应的编码。

学生信息表中,前修就是非对称的二值属性,智力水平和基础知识测试是区间标度属性,认知风格是分类属性,能力水平是序数属性。混合属性信息表对象间的相异度用式(6)进行计算。

4.2 计算模糊等价矩阵

计算对象间的相异度,各属性可根据需要给予相应的权重,例如,如果分组侧重于解决实际问题,则可提高能力水平的权重;如果分组侧重于学生的学习方式,则可把认知风格权重提高。现分别对前修(a1)、智力水平(a2)、认知风格(a3)、基础知识测试(a4)、能力水平(a5)分别给予权重w1=0.2、w2=0.1、w3=0.1、w4=0.3、w5=0.3。计算所有对象两两间的相异度,构建模糊矩阵,取rij=1-d(i,j),由定理2可知,糊矩阵此时变为模糊相似矩阵;

4.3 聚类

求的传递闭包,即求最小的k,使得,经过计算得,k=4,即:

此时即为模糊等价矩阵,取λ=0.75,的λ截矩阵为:

行或列值为1表示归为一类,可把学习者分成{1,6,8}、{3,4}、{5}、{2,7}四个同质类。λ取不同值时的动态聚类图如图1所示。

由聚类图可以看到,λ取中间值时,聚类结果较为理想。由表1可知,对象(1,6,8)都没有前修,智力差异不大,认知风格一致,测试差异小,能力水平基本一致,可归属中上水平类;对象(3,4)都有前修,其它各方面差异很小,并且很优秀,很容易归属优秀水平类;对象5各方面水平都很差,是一个离群点,单独归属差类;对象(2,7)虽然前修不一样,智力有差距,但其它各方面基本一致,表明综合能力还是相近,归属中等类。本算法根据混合属性计算差异度并进行模糊聚类分析的结果,较为准确和可靠。

聚类分析并不能直接进行异质分组,此时可先进行同质聚类,然后从各个同质组中抽取适当比例的学习者混合互补编排,就可进行异质分组。

4.4 实验程序

本文用C语言实现了全部算法,程序接受输入数据(学习者特征信息),然后输出相似矩阵、模糊等价矩阵、k值以及各个λ值下的分类。部分算法程序如下所示:

4.5 实验结果比较

文献[2]和文献[4]采用的对象距离计算方法不适用于本文数据。本文用多属性方法来近似模拟文献[3]提出的空间模型。本文抽取4组有代表性数据,每组数据20个样本,分别使用单属性方法(C1)、多属性方法(C2)和混合属性方法(C3)测量对象之间相异度。C1只包含“测试”属性列,C2包含“智力”、“测试”和“能力”三个属性列。C1和C2均使用层次聚类算法。测试前,先对每组数据采用人工方法进行分组,三种方法的聚类结果个数在与人工分组相同的情况下,采用Jaccard Coefficient[11]方法分别与手工分组结果进行比较。Jaccard Coefficient值越大,表明聚类结果越与人工分组结果相似。结果如图2所示。C2和C3有相近的效果,C1方法误差较大。混合属性方法在计算对象综合相异度方面比单属性或多属性方法均要好。

5 结束语

CSCL中学习者的个体特征包含了较多的属性信息,分组时不能单单依赖一个或几个量化属性,应该充分综合考虑定性和定量属性。本文介绍了学习者混合属性相异度的计算方法,通过对混合属性的相异度进行了计算,并使用模糊聚类方法对学习者进行了分组,较其它方法准确。但同时也发现本算法存在的一些不足,例如模糊聚类结果容易产生大项集,对离群点比较敏感。今后需要改进算法,使聚类项集大小均匀,减少离群点对结果的影响。

参考文献

[1]Lipponen L.Exploring foundations for computer-supported collaborativelearning[C]//Stahl G.Proc.Of the Computer Supported CollaborativeLearning.Mahwah:Lawrence Erlbaum Associates,Inc.,2002:72-81.

[2]刘均,李人厚,等.一种面向个性化的协同学习的任务生成方法[J].软件学报,2006(1):79-85.

[3]Sun C T,Lin S S J.Learning through collaborative design:a learningstrategy on the internet[C/OL]//31th ASEE/IEEE Frontiers in Edu-cation Conference.[2009-7-19].http://www.coexploration.org/blog/lib/items/7143/0/sun01learning.pdf.

[4]李洁,王咸伟,等.协作学习中协作小组分组系统的设计与开发研究[J].华南师范大学学报:自然科学版,2007(3):62-68.

[5]胡小勇,李闫莉,等.优化分组学习效果的实践策略——以《教育传播学》课程为例的研究[J].华南师范大学学报:社会科学版,2009(1):107-110.

[6]巩增泰,姚红霞.基于粗糙集属性重要性的模糊聚类决策及应用[J].兰州理工大学学报,2007,33(3):135-138.

[7]Han J W,Kamber M.Data Mining:Concepts and Techniques,SecondEdition[M].San Francisco:Morgan Kauffmann Publishers,2005:386-396.

[8]陈金强,关永,等.模糊聚类分析在古陶瓷研究中的应用[J].计算机工程与设计,2007(23):5778-5783.

[9]贺仲雄.模糊数学及其应用[M].天津科学技术出版社,1983:152-187.

[10]仇芒仙,刘景宜.CSCL学习系统中分组策略的设计与实现.嘉兴学院学报,2008(11):107-112.

上一篇:模式节奏下一篇:水电站厂房设计