判别分析范文

2024-07-26

判别分析范文(精选12篇)

判别分析 第1篇

膨胀土是黏性土的一种特殊土体,湿胀干缩和反复湿胀干缩是其主要特征.膨胀土对工程建设的危害几乎无所不包,且其变形破坏具有反复性.大量的实践经验证明,对膨胀土漏判将给工程建设埋下隐患,而将普通土误判为膨胀土,将给工程建设造成浪费,因而在膨胀土地区进行工程建设,膨胀土的判别是一项十分重要的工作,目的就是把膨胀土与普通黏性土区别开来,并对其膨胀潜势进行判别,从而提出相应的处置措施.

目前,一般采用多指标对膨胀土进行判别与分类,如模糊综合评判法[1,2,3,4],灰关联分析法[5],灰色聚类法[6]人工神经网络法[7,8],物元分析法[9,10],支持向量机法[11],距离判别法[12],Fisher判别法[13]以及属性数学方法[14]等综合评判法.

本文将判别分析理论应用于膨胀土的综合评判中,建立膨胀土判别与分类的Bayes判别分析模型.参考已有的研究成果,选用液限WL,胀缩总率eps,塑性指数IP,天然含水率w,自由膨胀率Fs等5个指标作为判别因子,结合多元统计分析的数学知识,建立膨胀土分类与判别的Bayes判别函数.研究表明,该模型所建立的Bayes判别函数可较理想地应用于膨胀土胀缩等级的判别与分类中,并在实际工程中进行了.应用,取得了较为理想的效果.

1 Bayes判别分析[15,16]

1.1 判别分析的基本思想

已知有g个p维总体G1,G2,…,Gg,每个总体Gi可认为是属于Gi的指标X=(X1,x2,…,Xp)T取值的全体,它们分别具有互不相同的p维概率密度函数f1(x),f2(x),…,fg(x),对于任一给定的新样品关于指标X的观测值x=(x1 x2…xp)T,我们要判断该样品属于这g个总体中的哪一个.因而判别分析是根据所研究个体的某些指标的观测值来推断该个体所属类型的一种统计方法.

1.2 Bayes判别函数

设两个p维正态总体G1,G2,其概率密度函数为

式中,μi,∑i为两总体的均值向量和协方差矩阵,|∑i|为∑i的行列式,i=1,2.

假设∑1=∑2=∑,根据马氏(Mahalanobis)距离和判别函数的概念,可得

式中

称为Bayes判别函数.

1.3 多正态总体的Bayes判别

式(3)可方便地推广到多正态总体的判别分析中.

设g个P维正态总体G1,G2,…,Gg,其概率密度函数为式(1),此时,i=1,2,…,g.

假设各正态总体的协方差矩阵相等,即:∑1=∑2=…=∑g=∑,则得到Bayes判别函数为

实际应用中,若μi,∑i未知,则以训练样本作估计,即以训练样本的样本均值和样本方差Si作为μi和∑i的估计,此时

1.4 多正态总体的Bayes判别准则

设总体G1,G2,…,Gg的先验概率分布分别为q1,q2,…,qg,误判损失为c(j|i)(i,j=1,2,…,g,i≠j).记c(i|i)=0.在等误判损失下,其Bayes判别准则为

判别准则可解释为:对给定的样品x,计算g个总体在x处的概率密度函数值(以Bayes函数值Wi(x)代替),最大值所属的总体Gi即为x所属的类别.

1.5 判别准则的评价

为考察上述判别准则的优良性,采用以训练样本为基础的刀切法来计算误判率.其基本思想是每次剔除训练样本中的一个样本,利用其余容量为n1+n2+…+ng-1的训练样本建立判别函数,再用所建立的判别函数对删除的那个样品作判别,重复上述步骤,以其误判的比例作为误判概率的估计,则总的误判比例为

2 膨胀土评判的Bayes模型

2.1 评价因子

膨胀土判别因子的选择须反映膨胀土的胀缩特性和物理力学的基本特征,并综合各类指标,这些指标应具有可操作性、广泛性和适用性.参考有关研究成果,本文选择液限WL(x1),胀缩总率eps(x2),塑性指数IP(x3),天然含水率w(x4),自由膨胀率Fs(x5)等5个指标作为判别因子,并将膨胀土的胀缩等级分为极强(G1)、强(G2)、中(G3)、弱(G4)4个等级,将这4个等级作为B ayes判别分析的4个正态总体,建立膨胀土综合评判的Bayes模型.

2.2 Bayes判别分析函数

以文献[4]和[9]提供的膨胀土样品作为训练样本,建立Bayes判别函数.数据见表1.

假定误判损失相等,总体先验分布相同,并且4个总体服从协方差矩阵相等的正态分布,于是按照第1节的方法建立Bayes判别函数.具体过程如下:

(1)由表1中的样品可知,g=4,n1=n2=n3=4,n4=3;q1=q2=q3=4/15,q4=3/15.

(2)根据式(5)计算得到

根据式(6)和式(7)得到

(3)根据式(4)计算得到

(4)以1.5节的判别准则对上述判别函数的优良性进行检验,总误判率为13.3%,识别正确率达86.7%,而用所建立的准则对训练样本进行回判,却完全符合实际情况,貌似误判率为0.

2.3 判别实例

邵阳地区是湖南膨胀土分布的典型地区之一,潭邵高速公路全长217.763km,穿越膨胀土区域达22km.在路基工程建设中进行了大量的土样实验,获得了许多膨胀土样本,以其中6个土样作为本研究的判别实例,其检测结果见表2.

将表2中的土样检测数据,分别代入Bayes判别函数式(10)中计算Wi(x)(i=1,2,3,4),按式(8)进行判别,即以Wi(x)中的最大值所对应的总体G,为样品所归属的总体.判定结果见表3.

在上述实例研究中,还以属性数学理论建立了膨胀土判别与分类的属性识别模型[14],以该模型对表1的样本进行判别,结果与实际情况完全一致;对表2的样品进行判别,结果分别为强,中,弱,中,中,中.两种模型的判别结果一致性较好.

3 结语

(1)选用5个指标:液限,胀缩总率,塑性指数,天然含水率和自由膨胀率作为判别因子,综合考虑了膨胀土的胀缩特性和物理力学特性,并考虑这些指标在实际工程评判中的可操作性、广泛性和适用性.

(2)结合多元统计数学知识,以Bayes判别分析方法建立膨胀土综合评判的数学模型,为膨胀土胀缩等级评判与分类提供数量化和定量化的途径.

(3)模型采用刀切法对判别准则进行评价,客观合理,由于识别正确率达86.7%,因而具有较高的工程应用价值.

(4)研究中,还以属性数学理论建立了膨胀土综合判别的属性识别模型,将两种模型的评判结果进行了对比,取得了较好的一致性.

判别分析 第2篇

Fisher线性判别分析的基本原理:将高维空间中的类映射到低维空间,并且要求在低维空间类与类之间较好区分,是一降维处理技术。Fisher线性判别分析的基本思想:对于多个类来讲,我们希望类内离散度越小越好,类间离散度越大越好。对于原始的类,我们想通过将其投影到低维空间,并且要求经过投影后达到类内离散度最小,类间离散度最大。在投影的过程中,如果投影到一维空间效果不是很好,我们可以将其维数增多[4]。

2 实例

现对三类品种的鸢尾属(Iris)植物进行研究,希望通过研究鸢尾属植物的几个主要指标,可以将一个未知样本进行归类。对鸢尾属植物的`四个指标进行了统计。对统计数据作如下变换:

①对所有样本数据X进行中心化标准化。

②对处理后的数据求解相关系数矩阵R得

③求解R的特征值λi和特征向量ei。

由上表可以看出,前三个特征值的累积贡献率已达到99。485%,所以我们选取前三个特征值所对应的特征向量为主成分,这样我们就将四维空间降到三维空间。原始数据经过主分量分析,位数降低,得到变换Y=X*E。

经过主分量分析,原始数据已经降到三维,我们将对得到的三维空间里的数据再次进行降维处理。我们选取各类中的前40个样本代表该类进行研究。

④分别计算出各类的样本均值mk和所有样本的均值m

⑤计算类内离散度矩阵Sw和类间离散度矩阵Sb

⑥计算Sb和Sw的广义特征值和特征向量

⑦对Y进行Fisher线性判别,得到变换Z=Y*W。

⑧计算经过变换后所得到的类的均值

通过主分量分析和Fisher线性判别,我们将样本由四维空间降到一维空间。由上面的计算,我们可以得到公式Z=X*E*W。

随机选取45个样本得到样本组x,在选取样本时,前15个样本是从第一类中抽取的,中间15个样本是从第二类中抽取的,最后15个样本是从第三类中抽取的。我们首先对需要判别的样本进行变换, 然后分别计算这45个样本到三类均值的距离

表2中加粗的数字表示该样本距离某类均值距离最小,也就是样本属于这个类。判别结果为前15个样本判为第一类,中间16个样本判为第二类,最后14个样本判为第三类。其中第31个样本通过距离判别判为第二类,而这个样本是从第三类中抽取的;其他样本判别均正确。在这次判别中,错误率为1/45,我们认为判别是比较合理的。对所有的样本都进行分类判别,其错误率为4/150,我们认为对数据的处理以及距离判别的方法是比较合理的。

3 小结

细胞分裂图像判别及典例分析 第3篇

关键词:生物学;细胞分裂图像判别;典例分析

中图分类号:G632 文献标识码:A 文章编号:1000-8136(2010)03-0135-02

高中生物学中,细胞分裂图像的判断一直是重点和难点,许多学生遇到此类题目,往往不能分辨属于哪种细胞分裂图像。其实,不同方式的细胞分裂在不同时期表现出的染色体行为、位置、数目等也不同,由此可对细胞分裂方式、分裂时期及细胞名称进行识别。

下面结合笔者多年的教学实践,对同源染色体判定、细胞分裂图像判定进行总结,并对典型例题进行解析。

1同源染色体的判断方法

细胞分裂图像中同源染色体的存在与否是细胞分裂图像辨别的前提,因此首先应明确其判断方法。

正常的二倍体体细胞染色体由父方精子和母方卵细胞各提供一套染色体组成(某些图例中分别用不同颜色标识),故染色体数目一定是偶数。若题干中有体细胞染色体数目提示或性细胞染色体数目提示,可根据体细胞(或性细胞)染色体数目关系判断,细胞分裂后期判断时为排除姐妹染色单体形成的姐妹染色体的干扰,仅判断一极;若所判断细胞染色体数目与性细胞染色体数目相同,则不含同源染色体;若判断细胞染色体数目与体细胞染色体数目相同,则含同源染色体。若题干中无体(性)细胞染

色体数目提示,则在不考虑性染色体时其两套染色体大小、形态为一一对映关系,即染色体中若考查一条染色体形状、大小时,则细胞内一定有另一条与其相同;若考虑性染色体时,则雌性体内一对性染色体(X、X)也相同,而雄性体内一对性染色体(X、Y)不同,但仅此一对染色体形态、大小不同,而其它则一一对映相同(此为XY型生物情况,ZW型生物在性别方面刚好相反),由此可判断正常细胞内是否存在同源染色体。若所判细胞有多个时且为同一物种时,则可相互借助判断,即染色体数目是其它细胞染色体数目一半时(不考虑后期),则该细胞内不含同源染色体。

2细胞分裂图像辨别方法(二倍体细胞)

2.1细胞中有奇数条染色体(一定无同源染色体)

(1)染色体含单体,且散乱分布,则该细胞处于次级精(卵)母细胞前期;染色体含单体且有规律排与赤道板上(若从一侧观察,染色体在一条线上;若从一极观察,染色体在一个面上且散乱分布),则该细胞处于次级精(卵)母细胞中期。

(2)染色体不含单体,则该细胞是有性生殖细胞——卵细胞或精子细胞。

2.2细胞中有偶数条染色体

2.2.1细胞中含同源染色体

(1)同源染色体联会,出现四分体且散乱分布,该细胞处于减数第一次分裂前期;四分体排于赤道板(每对同源染色体上下对应排列),则该细胞处于减数第一次分裂中期。

(2)细胞中同源染色体无联会,含单体的染色体散乱分布,则该细胞处于有丝分裂前期;含单体的染色体排与赤道板上呈一行(若从一极观察,染色体在赤道板上散乱分布),则该细胞处于有丝分裂中期;含单体的染色体移向两极(同源染色体分离),则该细胞处于减数第一次分裂后期;不含单体的染色体移向两极,则该细胞处于有丝分裂后期。

2.2.2细胞中不含同源染色体

(1)细胞中若有单体,并规律排与赤道板中央,为减数第二次分裂中期(且染色体数目为体细胞染色体数目的一半);若细胞中有单体且染色体散乱分布,则该细胞处于减数第二次分裂前期。

(2)细胞中若无单体且散乱分布,则该细胞为有性生殖细胞——精子细胞或卵细胞;细胞中无单体且染色体移向两极,则该细胞处于减数第二次分裂后期。

2.3减数分裂中后期细胞生物性别判断方法

(1)细胞分裂后期出现不等质分裂,若染色体中含单体,则该细胞为初级卵母细胞,若染色体不含单体,则该细胞为次级卵母细胞。

(2)细胞分裂后期出现等质分裂,若染色体含单体时,该细胞为初级精母细胞;若染色体不含单体,则该细胞为次级精母细胞或第一极体。

2.4判断动、植物细胞有丝分裂方法

判断动植物细胞有丝分裂最准确方法是看细胞壁存在与否(或分裂末期是否出现细胞板形成细胞壁),若存在细胞壁或末期出现细胞板形成细胞壁,则该细胞为植物细胞;否则,该细胞为动物细胞,且动物细胞有中心体发出星射线。

3典例分析

根据图1所示,回答下列问题(假设该物种体细胞内染色体数目为4条)。

(1)存在同源染色体的图有___________________。

(2)属于体细胞的图是_______________________。

(3)属于有丝分裂的图是____________________。

(4)属于减数第一次分裂的图是________________。

(5)属于减数第二次分裂的图是__________。

(6)图4处于____分裂_____时期,图5处于____分裂_______时期。区分二者的依据是______,图5中排列在细胞中央的是___________。

(7)图8处于______分裂_______时期。区分图4和图8的依据是:图4有______,图8没有_______。

(8)图12可能由上图中_____细胞直接分裂而来。

图1

解析:由细胞分裂图像辨别方法可知:以上12个图中染色体数目均为偶数(后期图像一极的染色体也是偶数),且该物种体细胞内染色体数为4条。则根据细胞内染色体数目(后期一极的染色体数目)与体细胞染色体数目相同时,则一定存在同源染色体;若细胞内染色体数目是体细胞染色体数目一半时,则不含同源染色体;再根据前期、中期、后期的染色体行为,可判断该细胞分裂所处的时期。根据后期细胞膜凹陷的方式——等体积分裂(等质分裂)与不等体积分裂(不等质分裂),可判断出细胞的大致性别。

答案:存在同源染色体的图有1、2、3、4、5、9、10,因细胞内染色体数目与体细胞染色体数目相同(分裂后期的一侧染色体数目与体细胞染色体数目相同)。属于体细胞的图是1、3、4,因它们是有丝分裂的细胞,分别是1前期(染色体散乱分布);3后期(一侧有同源染色体),4中期(染色体着丝点平均分布于赤道板上)。属于减数第一次分裂的图是 2、5、9、10因它们含同源染色体且出现联会,四分体即同源染色体的分离,分别是2前期,5中期,9、10后期,其中9、10因膜凹陷不同而判为:9等体积凹陷——初级精母细胞后期,10不等体积凹陷——初级卵母细胞后期,属于减数第二次分裂的细胞:6、7、8、11、12;因细胞内不含同源染色体,其染色体数目或一极染色体数目等于体细胞染色体数目的一半,且分别是7染色体散乱分布为前期,8染色体分布于赤道板上为中期,6、11染色体移向两极为后期,6为等体积分离,为次级精母细胞或第一极体,11为不等体积分离,为次级卵母细胞,12无单体且为体细胞染色体数目一半,则为性细胞——精细胞或卵细胞。区分4和5的依据是:4中排列在细胞中央的是染色体的着丝点,图5排列在细胞中央的是四分体或各对同源染色体。区分4和8的依据是4有同源染色体8无同源染色体,12可由6或11分裂而来。

Cell Division Image Distinction and Typical Cases Analysis

Hao Zhizhong

Abstract: In the high school biology, the cell division image’s judgment has been key and the difficulty, the author union oneself many year teaching practices, to the homologous chromosome determination, the cell division image determination carries on the summary, and carries on the analysis to the typical sample question.

物流需求类型的判别分析 第4篇

物流需求是指一定时期内社会经济活动对生产、流通、消费领域的原材料、成品和半成品、商品以及废旧物品、废旧材料等的配置作用而产生的对物在空间、时间和费用方面的要求, 涉及运输、库存、包装、装卸搬运、流通加工以及与之相关的信息需求等物流活动的诸方面。

对物流需求的良好掌握, 不但可以提高企业内物流设施的利用率, 降低保有量, 还可以对客户有更好的信誉, 做到有的放矢, 有求必应, 不会产生需求不足或库存过剩的后果。

2 物流需求的类型

物流中心的需求主要有以下几种类型:

(1) 均匀需求

这是一种最为普遍的需求类型, 所谓均匀, 就是指需求量按日、月、年等呈均匀分布, 即需求量大体不变, 就像平时的柴米油盐酱醋茶之类, 每日必需的东西。

(2) 周期需求

这种需求最大的特点就是其需求量呈周期状 (如图1所示) 。举个例子, 每年冬天北方人都会有腌大白菜的习惯, 一到11月份大白菜的销量就非常大, 但这种需求量是短暂的, 一年仅有这么一次, 同时又是周期性的, 年年如此。又如, 每年5~8月份, 天气日益炎热, 那么人们对饮料的需求量就会随之增长, 到8月最热的时候需求量达到顶峰。其实, 所谓周期性主要就是天气、气候等因素决定的。

(3) 加速需求

指数分布就是一种典型的加速需求分布, 开始时增长速度缓慢, 随着时间的增加, 其增长速度越来越快。比如近几年来作为大连人最深有体会的就是私家车数量的激增, 随着经济的稳步增长, 人民生活水平也日益提高, 两年前私家车增长量每年只有几百台, 如今增长量已达到几千台, 据统计大连近两年的私家车猛增了上万台。又如前面举的饮料需求量的例子中, 5~8月份的需求量本身就是加速需求。

(4) S形生产函数需求

所谓S形生产函数需求实际上就是加速需求在时间上的一个延展 (如图2所示) 。没有任何事物是一直做加速运动的, 物流需求量也是一样, 它总会有稳定或者下滑的趋势。譬如拿格兰仕微波炉来说, 它在刚开始创业时无论是产品性能还是价格都没什么优势, 但为了打开市场, 格兰仕决定降价销售, 以取得市场份额, 这样他们以低于市场平均价30%的价格销售, 这样一来, 大家纷纷抢购格兰仕, 需求速度显著增长, 一举打开市场, 不仅在国内, 格兰仕还远销国外。到2008年统计数字表明, 全球50%的微波炉都来自格兰仕。由它的成长历程我们不难看出, 由于“降价”策略使得需求量快速增长, 格兰仕快速占领市场, 之后需求量就趋于稳定状态。

(5) 一次需求

所谓一次需求, 就是在可统计的时间范围内, 仅有一次的需求量, 譬如2008年我国要召开奥运会, 在物资上将有很大的需求量, 而且在十几年甚至几十年里这样的机会只有一次, 这就是一次性需求。

(6) 随机需求

所谓随机需求, 就是无法在时间上作出明确描述的需求, 它不服从于任何已知的函数, 比如2003年爆发的那场SARS风波, 导致板蓝根和口罩的需求量激增, 最后甚至有些地区都脱销了, 虽然已经过去好几年了, 但谁也无法预料到在将来的某个时段里会不会再次卷土重来。

一次需求是可以预料到的, 而随机需求是无法预料的, 这就是两者的差别之处。

除以上的有效需求外, 还有无效需求和恶意需求。无效需求是指无法满足的需求, 比方说客户要求的提货时间短或库存量无法满足客户需求;恶意需求是指信用不好的客户的需求, 他们经常退货、不付钱、爱挑毛病索要赔偿等。

物流中心每天都会接到无数订单, 那么在这些订单中哪些是有效需求, 哪些是无效需求甚至是恶意需求, 如果有了一套有效的判别体系, 不但可以提高物流中心的工作效率, 还可以减少不必要的开支。

3 贝叶斯判别

贝叶斯方法解决统计问题的思路不同于经典的统计方法。它的一个显著特点就是在保证决策风险尽可能小的情况下, 尽量应用所有可能的信息, 不仅包括样本信息, 还包括现场试验之前的信息。作为一种数据融合方法, 贝叶斯方法可以用于小子样试验分析。

所谓判别问题, 就是已知研究对象可分为若干个类, 并且每类的特征已知, 现需要建立一个分类规则, 以便对任意一个新的观测样品进行分类。

贝叶斯判别需要首先知道各类即各个母体的分布密度, 但各母体的分布密度往往都是未知的, 所以实践中一般都假设母体的分布密度为正态密度。有了确定的密度函数, 就可应用贝叶斯准则建立判别函数。

假设母体G (1) , G (2) , …, G (k) 均服从正态分布, 且具有相等的协差阵∑, 则各个母体的分布密度函数为:

undefinedexp

undefined

推出的判别函数为:undefined

判别规则为:

undefined

在实践中, 若各类的均值向量和协差阵未知, 则可以从每一类中分别抽取一个随机样本, 用样本均值向量和协差阵来对总体均值向量和协差阵进行估计。

4 物流需求类型的贝叶斯判别

例如对某市的物流客户需求进行评定。评定的指标由三大要素构成:客户信用度、客户忠诚度和企业资产。从该市的物流公司中随机抽取了10家客户进行判别。所调查如表1所示, 另选4个公司作为待判样品作Bayes判别分析。

带入判别函数, 得两组的判别函数分别为:

φ1=-323.17194+5.79239x1+0.26383x2+0.03406x3

φ2=-236.02067+5.14013x1+0.25162x2+0.02533x3

将各组样品进行回判结果如表2:

回判结果表明, 总的回代判对率为100%, 这与统计资料的结果相符。

待判样品判别结果如表3。

待判样品的结果表明, 公司K、L属于第二类恶意需求客户, M、N属于第一类有效需求客户。

5 结 语

本文介绍了物流需求的类型, 并采用贝叶斯数学方法对需求类型加以判别。在实际应用中采用此方法既可以识别有效需求, 又可以提高物流企业工作效率, 减少不必要的浪费。

参考文献

[1][日]菊池康也.物流管理[M].北京:清华大学出版社, 1999.

[2]苏彦生.物流企业管理[M].北京:清华大学出版社, 2000.

[3]丁立言, 张铎.物流系统工程[M].北京:清华大学出版社, 2000.

[4]张恒喜, 等.小样本多元数据分析方法及应用[M].西安:西北工业大学出版社, 2002.

判别分析 第5篇

对湖南主要人工增雨对象--积云和积层混合云作了多普勒天气雷达回波分析与判别,发现对流云在不同发展阶段回波特征有明显差异,而积层混合云持续时间长,回波特征变化小.综合分析回波强度、回波顶高、含水量、云顶温度、回波移速、回波面积等参数,得出湖南的人工增雨指标和评分规则,并依此建立地面人工增雨多普勒天气雷达指挥系统.它可实现实时指挥,发布作业预警信息以及作业方位角、仰角、用弹量等作业参数指令,结合作业点GPS信息及GIS地理信息将指导产品通过网络分发到各作业炮点.试验表明,它能有效提高对作业时机的.预判能力、对作业对象的选择能力以及对实时作业的指导能力.

作 者:唐林 魏鸣 王治平Tang Lin Wei Ming Wang Zhiping 作者单位:唐林,Tang Lin(南京大学中尺度灾害性天气教育部重点实验室,南京210093;湖南省人工影响天气办公室,长沙410007)

魏鸣,Wei Ming(南京大学中尺度灾害性天气教育部重点实验室,南京210093;南京信息工程大学中美合作遥感实验室,江苏省气象灾害重点实验室,南京210044)

王治平,Wang Zhiping(湖南省人工影响天气办公室,长沙410007)

判别分析 第6篇

关键词:核Fisher判别分析;高职教育;考试成绩预测

中图分类号: TP391 文献标志码:A 文章编号:1673-8454(2016)16-0076-04

一、引言

随着国家“十三五”规划的顺利进行,加快发展职业教育已经越来越成为国家、社会和教育界的共识,高职院校不可避免的成为了培养实用技能型人才的主要基地。随着高职招生人数的不断扩大,以及社会还没有摆脱对职业教育的传统观念,高职院校的生源质量每况愈下。一部分学生的基础知识较差,学习新知识的意愿不强,无论在课堂上与老师的互动,还是课下的平时作业完成情况,都不尽如人意,使得教师很难在真正考试之前评估教学效果,从而造成教学质量下降。因此,如何提高高职学生的学习成绩,成为社会和学校都关注的问题。在教学过程中、期末考试之前,有针对性的建立模型预测考试成绩,提前评估教学效果,可以起到预警的作用。对那些有可能不及格的学生及时纠正其不良学习行为,并进行单独辅导,则有助于提高学生成绩,减少不合格现象,进而提高学生培养质量,优化课程设计,促进教师教学进步。

正是意识到学生成绩预测对提高教学质量、促进教学改革的重要性,国内一些学者在几年前就已经开始对该领域展开研究。大部分学者将成绩预测视为分类问题,于是多采用数据挖掘或机器学习领域的算法,如决策树、人工神经网络、支持向量机等来建立模型。其中,决策树方法因为理论发展成熟、易于理解等优点,被广泛用于大学生英语成绩预测[1]、大学生计算机等级考试成绩预测[2]、一般性课程的成绩预测[3, 4]等;而人工神经网络和支持向量机也因为扎实的理论基础和广泛应用,被用于大学生课程成绩预测[5,6],并取得良好的效果。

核Fisher判别分析作为基于核函数的机器学习算法的典型代表[7],其分类效果在其他模式识别和预测领域得到了很好的验证[8,9]。学者们前期的研究成果表明,决策树、神经网络和支持向量机方法在学生考试成绩预测方面均取得了不俗的成绩。但是到目前为止,我们尚未发现有学者应用完整的核Fisher判别分析进行大学生成绩预测的系统报道(虽然有学者利用线性Fisher判别分析对SVM模型中的数据因素进行加权[6])。因此,本文提出利用核Fisher判别分析作为工具,尝试寻找学生学习属性与成绩之间隐含的非线性复杂关系,从而建立高职在校学生期末考试成绩预测模型。实验分析中以深圳信息职业技术学院物流管理专业2015级3个班级的学生作为研究对象,采用学生性别、生源地、考勤表现和平时作业成绩等作为模型的输入变量,来预测学生的期末考试成绩。实验结果证明,核Fisher判别分析的泛化能力强,其预测精度与支持向量机十分接近,并且优于C4.5决策树方法。

二、核Fisher判别分析

核Fisher判别分析[7]是基于核函数的机器学习算法中的一种,其结合了线性Fisher判别分析与核函数的思想,能够有效地解决现实中的分类问题[8, 9] 。

1.线性Fisher判别分析原理[10]

线性Fisher判别分析是一种有监督学习的分类方法。给定一组d维空间的样本数据x∈R(i∈1,2,.....n),n为样本数据集的大小,他们分别属于不同的两类,则样本类别标识记为yi∈{1,2}。属于类1的n1个样本记为X1={x11,x12,......x1},属于类2的n2个样本记为X2={x21,x22,......x2}。算法“学习”或者“训练”的过程,就是要找到样本数据与其类别隐含的内在关系模式x→y。线性Fisher判别分析构造学习模型的核心目标是寻找一个d维向量w∈R,当样本数据向该方向投影时,最大化类间散度和类内散度的比值,使得样本数据在这个方向上尽可能的分开,达到清楚辨识的目的。定义某一类样本(i=1,2)数据类内均值为:

2.核Fisher判别分析原理

线性Fisher判别分析是一种线性分类器,当样本数据与类别呈现线性关系时其分类效果会很好。但是实际问题中,样本数据与其类别的关系往往呈现出复杂的非线性,则线性Fisher判别分析的分类效果就会差强人意,而且也无法解决模式识别中常见的维数灾难问题。在支持向量机中成功应用的核函数的出现解决了这个问题[11, 12]。核函数首先将数据从低维的输入向量空间R映射到高维(甚至是无限维)的特征空间,即φ:R→。通过某些核φ(·),映射可表示为xi→φ(xi)=(a1φ1(xi),……,amφm(xi),……)。在这个高维的特征空间中应用线性Fisher判别分析,在特征空间得到的线性分类器通过核映射回原始的输入数据空间R时,就得到了非线性分类器。

基于线性Fisher判别分析的原理,核Fisher判别分析在特征空间要寻找w∈,使得下式F(w)最大化:

三、实验及分析

为了评估本文提出的基于核Fisher判别分析的预测模型的实际效果,我们将深圳信息职业技术学院物流管理专业2015级3个班级共151名学生作为研究对象,收集第一学年某门专业基础课的期末考试成绩及相关因素作为模型的输出和输入变量。预测模型的输入变量(样本属性)应该与考试成绩密切相关,我们选择输入向量时主要根据日常教学经验反馈的以下几点事实:①大学生个体的期末成绩往往与其旷课、迟到次数(出勤反映学习态度)负相关,与平时作业成绩(平时作业代表学习态度和对知识的理解程度)正相关;②本专业学生的自有特点是女同学平均成绩比男同学略胜一筹;③深圳市外生源较市内生源入学平均成绩高。因此,我们选择学生的性别、生源地、出勤表现和平时作业成绩作为样本的属性变量,具体总结如表1所示。

此外,将所有学生分为两类,期末考试成绩大于等于60分记为“合格”,否则记为“不合格”。数据集中的部分样本示例如表2所示。

我们在MATLAB环境中编写核Fisher判别分析的实现代码,并装载收集到的原始数据集进行实验研究。为了比较核Fisher判别分析对高职学生成绩的预测效果,我们还测试了支持向量机SVM算法和C4.5决策树方法,这两种方法同样在MATLAB环境中实现。在核Fisher判别分析和SVM建模时,为了防止样本中某个维度的数值过大而在核函数计算中淹没其他维度数据的作用,我们先对原始数据进行预处理,即将原始数据标准化在[-1,+1]的范围内。在使用C4.5决策树建模时,因为其能够同时处理连续值和离散值的属性,训练和测试过程不受数据大小的影响,所以C4.5方法实现中仍旧保持原始数据,不进行额外处理。

由于实验用的原始数据集较小,如果简单地分为训练和测试两个数据集合,评估效果容易出现偏差。为了能够全面反映各种算法预测的精度,我们对整个样本数据进行多次划分,每次从全体数据集中选择10%的数据作为测试数据,其余数据用于训练模型和确定最优参数。此外,核Fisher判别分析和SVM均采用RBF径向基核K(xi,xj)=exp(-γ||xi-xj||2)作为核函数,其中γ是核参数。由于训练得到的模型的泛化能力高度依赖于核函数参数、正则化参数或惩罚系数的选择,因此选择最优的参数很有必要。在实验中,核Fisher判别分析的正则化参数设为δ=10-3,核Fisher判别分析和SVM中用到的核参数γ和惩罚系数由10-交叉验证网格搜索法来确定[13]。在最优参数设置下对测试样本数据进行预测,每次测试的准确率定义如下:

准确率=×100%(14)

实验的结果是进行十次测试的平均值,如表3所示。

从实验结果可以看出,基于核函数方法的核Fisher判别分析和SVM预测精度相近(其中核Fisher判别分析预测准确度的平均值略微高于SVM),这一点与两者在标准数据集上的测试结果一致[7],但是两者的预测精度都明显高于C4.5决策树算法。C4.5决策树方法训练模型时,主要采用信息增益率作为选择根结点和各内部结点中分支属性的评价标准,训练速度快,得到的模型直观性强,规则易于被使用者理解。但是决策树方法在训练集上的预测效果往往优于测试集,即容易出现过拟合的现象。核Fisher判别分析和SVM利用的核函数将数据从低维的输入空间映射到高维的特征空间,在特征空间都基于各自的分类原理构建线性分类器使得两类数据集尽可能的分开,得到的线性分类器经过核函数映射回输入空间后,即成为非线性分类器。因此,核Fisher判别分析和SVM得到的预测模型泛化性能良好,能够挖掘出输入样本属性与其类别之间隐含的非线性复杂关系。另外,本文用到的原始实验数据采集自学生的实际情况,其中包含着一部分不完全、有噪声的数据,比如有些学生学习能力强、成绩突出,但是有个别作业没有提交或是迟到的情况,却依然会通过考试。噪声数据会使得决策树方法产生的过拟合现象更加严重,减小了泛化能力,从而影响测试效果。与之对应的是,核Fisher判别分析和SVM分类的基本原理保证了尽可能将噪声数据的影响降到最低,所以会取得较好的预测效果。

四、结束语

在我国的长期规划中,高等职业教育受到越来越多的重视。基于目前高职教学和生源的自有特点,建立准确的学生考试成绩预测模型,能够帮助教师提前评估教学成果,改进教学方法,对提高教学质量具有非常重要的意义。本文在MATLAB环境中建立了基于核Fisher判别方法的学生考试成绩预测模型,可以在期末考试之前,根据学生的自身特点和平时表现来预测其成绩。在以本校高职学生为研究对象的实验中,核Fisher判别方法取得了良好的预测效果,可以成为一线教师提高教学的有力工具。同时,只要能够正确地选择输入变量的属性,该模型可以被直接推广到一般本科院校的学生考试成绩预测中,同时也为后续建立教育信息化决策系统打下基础。

在后续的研究中,可以在两个方面进行进一步的拓展。第一,在实际情况中,经常会出现通过考试的学生数量远远超过未通过考试的学生数量,使得不同类别的原始采样数据数量不平衡,这有可能影响模型的泛化能力。未来可以考虑如何针对不平衡数据集进行训练和测试。第二,本文建立的分类模型,仅仅可以根据输入向量来预测学生是否通过考试,而不能预测学生具体的考试分数。期望以后能够应用基于核函数的回归分析算法[11],进行学生成绩的分数预测。

参考文献:

[1]孙力,程玉霞.大数据时代网络教育学习成绩预测的研究与实现——以本科公共课程统考英语为例[J]. 开放教育研究,2015(3): 74-80.

[2]黄振功.决策树在高校计算机等级考试成绩分析的应用[J].科技资讯,2013(25):18-19.

[3]武彤,王秀坤.决策树算法在学生成绩预测分析中的应用[J].微计算机信息,2010(3): 209-211.

[4]于立红,张建伟.基于数据挖掘的高职生成绩分析与预测[J].郑州轻工业学院学报,2006(3): 77-79.

[5]邱文教.基于人工神经网络的学习成绩预测[J].计算机与信息技术,2010(4): 5-6.

[6]李建萍.基于加权支持向量机的学习成绩预测模型[J].中国科教创新导刊,2009(14): 137-138.

[7]Mika S, R tsch G, Weston J, et al. Fisher discriminant analysis with kernels[C]. Neural Networks for Signal Processing IX, 1999. Proceedings of the 1999 IEEE Signal Processing Society Workshop.

[8]李建云,邱菀华.核Fisher判别分析方法评估消费者信用风险[J].系统工程理论方法应用,2004(6): 548-552.

[9]李映,焦李成.基于核Fisher判别分析的目标识别[J].西安电子科技大学学报, 2003(2):179-182.

[10]Bishop C.Pattern Recognition and Machine Learning[M]. Springer Science & Business Media, 2006.

[11]Vapnik V.The nature of statistical learning theory[M]. Springer Science & Business Media, 2013.

[12]Mercer J. Functions of positive and negative type, and their connection with the theory of integral equations[J]. Philosophical transactions of the royal society of London. Series A, containing papers of a mathematical or physical character,1909, 209: 415-446.

[13]Chang C, Lin C. LIBSVM: a library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology (TIST),2011, 2(3): 27.

放大电路中反馈类型的判别分析 第7篇

关键词:反馈,输入端,输出端

1 反馈的概念

在电子电路中, 将输出量 (输出电压或输出电流) 的一部分或着全部通过一定得电路形式送回到输入回路, 以影响净输入量的措施称为反馈。按照反馈放大电路中各部分电路的功能, 可分为基本放大电路和反馈电路两部分。前者主要功能是放大信号, 后者主要功能是传输反馈信号。基本放大电路的输入信号称为净输入量。它不但决定于输入信号 (输入量) , 还与反馈信号 (输出量) 有关。

2 反馈类型的分类

(1) 按交、直流性质分类:反馈可分为直流反馈和交流反馈。 (2) 按反馈的信号极性分类:反馈可分为正反馈和负反馈。 (3) 按输出端取样对象分类:反馈分为电压反馈和电流反馈。 (4) 按输入端连接方式分类:反馈分为并联反馈和串联反馈。

3 反馈极性及类型的判别

3.1 有无反馈的判断

若放大电路中存在将输出回路与输入回路相连接的通路, 即为反馈通路, 并由此影响了放大电路的净输入信号, 表明电路引入了反馈, 否则电路中便没有反馈。

3.2 交流反馈和直流反馈的判别

根据反馈信号本身的交直流性质, 把反馈分为直流反馈和交流反馈。若反馈信号中只有直流成分, 反馈作用只影响电路的直流性能, 则为直流反馈。若反馈信号中只有交流成分, 反馈作用只影响电路的交流性能, 则为交流反馈。在多数情况下, 反馈信号既有直流成分又有交流成分, 此时称为交直流反馈。

判别方法:由于电容具有隔直通交的作用, 所以当反馈元件 (或反馈电路) 两端并接电容则为直流反馈;当反馈元件与电容串联构成的反馈电路则为交流反馈;此外的情况是则为交直流反馈。更直接的方法是将电路的直流通路和交流通路分别画出, 若反馈仅在直流通路中存在则为直流反馈;若仅在交流通路中存在则为交流反馈;若在交、直流通路中都存在则为交直流反馈。

3.3 正反馈和负反馈的判别

若反馈信号与输入信号极性相同或同相, 则两种信号混合的结果将使放大器的净输入信号大于输出信号, 这种反馈叫正反馈。

若反馈信号与输入信号极性相反或变化方向相反 (反相) , 则叠加的结果将使净输入信号减弱, 这种反馈叫负反馈。放大电路和自动控制系统通常采用负反馈技术以稳定系统的工作状态。

判断正反馈和负反馈的基本方法是瞬时极性法。即首先假设输入信号处于某一瞬时极性 (在电路中常用“+”“一”号来表示瞬时极性的正负, 分别代表该点瞬时信号的变化为升高或降低) , 可假定输入信号为正半周期, 根据C级与B级反相位, E级与B级同相位, 逐级分析找到取出反馈信号的输出端的相位, 从而判断反馈信号是加强还是削弱输入信号, 加强的为正反馈, 削弱的为负反馈。当然, 反馈极性的判断还可以采用更直观的判断方法:如果输入信号与反馈信号在同一点进行合成, 两信号的极性相反则为负反馈, 极性相同则为正反馈;反之, 如果输入信号与反馈信号在不同点合成, 两信号极性相同则为负反馈, 极性相反则为正反馈。

3.4 电压反馈和电流反馈的判别

当反馈量取自输出电压时称为电压反馈, 取自输出电流时称为电流反馈。判别电路是属于电压反馈还是电流反馈采用以下办法:将输出端负载短接, 看反馈信号是否存在, 若不再存在为电压反馈, 若继续存在为电流反馈。电压反馈和电流反馈框图如图1所示。更直观的判别方法:除公共地线外, 若输出线与反馈线接在同一点上, 则为电压反馈;若接在不同点上则为电流反馈。

3.5 并联反馈和串联反馈的判别

当反馈量与输入量以电压方式相叠加时称为串联反馈, 以电流的方式相叠加时称为并联反馈。判别电路是属于串联反馈还是并联反馈采用以下办法:将输入端短路, 观察反馈信号是否继续起作用, 若反馈信号仍注入输入端而起作用则为串联型, 反之则为并联型。串联反馈和并联反馈框图如图2所示。更直观的判别方法:出公共地线外, 若反馈信号与输入信号线接在同一点则为并联反馈;接在不同点 (一个接基级, 一个接发射极) 或两个不同输入端 (如差动放大器和运算放大器) , 则为并联反馈。

4 应用举例

用以上方法分析两个反馈电路如图3, 图4。

在图3中, 由T1和T2组成一个多级放大电路, 在整个电路的输入和输出之间由Rf和电容构成了反馈回路, 并且因为Rf旁边串联一个电容, 所以为交流反馈。根据瞬时极性法, 见图中的“茌”、“苓”号, 反馈端与输入端没有接在一个端点, 反馈端与输入端极性相同可知是负反馈。因反馈信号直接从输出端引出, 故为电压反馈;因反馈信号和输人信号加在T1的两个端子上, 故为串联反馈。所以此电路反馈为电压串联负反馈。

在图4中, 由T1和T2组成一个多级放大电路, 在整个电路的输入和输出之间由Rf和构成了反馈回路, 并且因为Rf旁边没有电容, 所以为交、直流反馈。根据瞬时极性法, 见图中的“茌”、“苓”号, 反馈端与输入端接在一个端点, 反馈端与输入端极性相反可知是负反馈。因反馈信号没有从输出端引出, 故为电流反馈;因反馈信号和输入信号都加在T1的基极上, 故为并联反馈。所以此电路为交直流共存的电流并联负反馈。

总结

从以上实例分析可见, 通过反馈元件、输入端、输出端, 将集成元件同相、反相输入端与晶体管元件三个极进行对照使用来判别反馈电路的类型。使反馈的判别更为简单、方便, 易于掌握, 克服了过去判别方法中令其输出端短路, 判别反馈元件中是否有反馈信号存在, 交直流共存而难以判断交流信号是否存在的缺点。是在反馈元件工作原理的基础上, 利用其接入电路的不同方式而总结出的一种判别反馈类型的新方法, 使学生更容易理解和掌握。

参考文献

[1]康华光等.电子技术基础 (模拟部分) .第四版.[M].北京:高等教育出版社, 1987.

[2]童诗白, 华成英.模拟电子技术基础.第三版.[M].北京:高等教育出版社, 2001.

[3]邓宽林.反馈电路的判别方法[J].十堰职业技术学院学报, 2003, 6.

判别分析 第8篇

关键词:羽毛杆折痕,协方差矩阵,黎曼流形,Fisher判别分析

羽毛球所使用羽毛片直接影响着羽毛球质量和经济效益。羽毛杆 (以下简称“毛杆”) 上的折痕会损害羽毛球耐打性。目前人工检测折痕存在劳动强度大, 分拣质量不稳定等问题, 目前对此做了一定的研究工作[1—3]。毛杆具有宽度1~3 mm之间的细长结构, 采用侧光技术以及毛杆拱度弯度所导致的光照不均对折痕特征识别造成干扰。关于表面缺陷检测文献[4—6]所采用的处理方法都有着一定针对性, 并不适合用于折痕识别。在机器视觉和模式识别领域矩阵型子空间分析算法有着广泛应用。Sommer等人提出OPGA (optimization principal geodesic analysis) 方法将矩阵李群样本做李代数映射到切空间后求解李群主测地线方向向量[7]。Zhang等[8]提出以张量矩阵表达来扩展局部Fisher判别分析, 也没有改进类内类间散度矩阵的结构问题。文献[9]提出了仿射不变度量并把样本映射为切空间的向量形式完成类别判别。

针对毛杆结构特性, 首先将二维毛杆图像简化为一维灰度信号, 通过非线性双稳系统降低光照不均干扰, 并结合模极大值理论完成折痕子图像提取。然后提出一种黎曼流形与线性Fisher判别相结合的折痕特征判别方法。最后通过最近邻法分类器验证了该方法的有效性。

1 协方差矩阵与仿射不变度量

1.1 协方差矩阵建模

假定I为待提取协方差特征的灰度图像, 提取的特征F (x, y) =φ (I, x, y) , 式中函数φ指代一种映射, 可以张成d维实空间。定义映射φ如式 (1) ~式 (5) 所示。

式中I (x, y) 为坐标 (x, y) 处灰度值, 是x方向一阶和二阶梯度;是y方向一阶梯度;Ivi是采用4级sym5小波重构的i层垂直方向细节图像。这里通过φi取不同构造特征判断影响识别率的因素。定义协方差矩阵为, 式中N表示像素点个数, φik表示第k个像素点对应的F值, 表示所有像素点对应的φik均值;该模型融合小波重构细节图像, 灰度, 梯度等统计特性。

1.2 仿射不变度量

具有对称、半正定属性的协方差矩阵是一个微分流形。通常一个r维流形Gr并不是一个向量空间, 然而r维流形Gr局部同胚于Rr, 可以寻找一个同胚映射将Gr局部嵌入到Rr。这就需要在流形Gr上定义黎曼度量结构。文献[9]指出对于黎曼流形M上的任意点X和Y, 均可作一个切空间TX和TY, 并构造切空间和流形Gr的微分同胚。切空间TX中的向量可通过指数映射为流形Gr上从点X出发到点Y的等长同向测地线。对数映射则将流形上点X到Y的测地线映射为切空间TX中等长同向的向量。可定义仿射不变黎曼度量如下

该度量下黎曼指数映射定义为

对数映射定义为

则流形上的均值点可表示为式 (9) , 它要求均值点和各点间的平方距离之和最小。

两点间测地距离为

式中lg为矩阵对数, λk (k=1, 2, …, n) 为矩阵 (X, Y) 的广义特征值。

2 改进的Fisher判别分析

FLD基本思想就是寻找使Fisher准则达到极大值的向量使投影后样本具有最佳可分离性。通过最大化式 (11) 可以寻找线性判别的投影方向, 其中w是特征空间内的任意非零向量。

若总体样本集为Φ={X1, …, XN}分别属于l个集合, Xi={x1 (i) , …, xi (i) }为第φi类样本集, 第i类样本数为ni, 则样本类间离散度矩阵Sb、类内离散度矩阵Sw和分别定义为

式中mi为类内均值, m为样本总均值。结合式 (9) 和式 (10) , mi和m分别定义为

。该定义通过引入仿射不变度量使得向量均值求解转换为矩阵均值求解。由广义Rayleigh商的极值性质可以求得使函数J (w) 最大化的最佳投影方向w, 再通过指数映射可得样本点映射空间W=expX (w) 。

3 实验与分析

3.1 折痕位置检测

自制羽毛片采集系统实物照片如图1所示。图像采集装置采用LED白色光源, 打开侧光环形灯完成羽毛片图像采集。图2是对羽毛片图像分割提取所获得的毛杆图像。经分析可知折痕大致位于毛杆法线方向, 反映了图像灰度不连续性。通过计算毛杆每列像素灰度均值可获得水平方向灰度变化曲线, 如图3所示, 其中真实折痕位于横坐标247处。这样就把二维信号奇异线检测转化成一维信号奇异点检测。

侧光技术有利于更好地表现细微折痕缺陷, 同样也加剧了光照不均。为了降低光照不均对折痕位置检测的影响, 首先采用随机共振系统对图3进行噪声增强, 再通过模极大值理论完成奇异点位置预判。非线性双稳系统是随机共振系统模型。作为描述受噪声与外加驱动信号作用的一阶非线性双稳态模型朗之万方程具有双势阱性质[10], 其表达式如下

式 (14) 中;s (t) 为外加驱动信号;Γ (t) 为均值为0, 方差为2D的高斯白噪声, D为噪声的强度。U (x) 为随机共振系统的双稳态势函数, 双稳系统参数a、b取值为1。由于奇异点不代表一定存在折痕, 为了减少误判和漏判, 取n个模极大值作为奇异点, 此处n取3。图4 (a) 是直接进行模极大值检测所得结果, 可以看到真正折痕位置并没有找到。图4 (b) 是首先利用随机共振系统对奇异点能量进行增强, 然后通过模极大值完成奇异点位置检测。可以看出通过随机共振系统可以降低光照不均干扰, 有利于检测到折痕位置。根据奇异点位置获得目标区域如图5 (a) 中白色区域所示, 图5 (b) ~图 (d) 是白色区域对应子图像。实验所使用测试样本皆使用上述方法获得。

3.2 实验结果对比

主要将OPGA、文献[8]方法、文献[9]方法与本文算法进行识别性能对比。图6是根据式 (1) ~式 (5) 构造不同子空间维数下的协方差矩阵所获得折痕识别率。图中纵坐标为折痕识别率, 横坐标i为i下标。OPGA对样本进行李代数映射后在其切空间采用PCA方法求解主测地线方向向量;文献[8]方法则是利用仿射不变度量完成矩阵降维。这两种算法都获得了数据降维能力, 但从实验结果可以看出这种向量型算法并不能保证映射结果具有较好的线性可分性。文献[9]方法以二维矩阵表示目标进行分类, 由于样本不一定是线性空间, 维数增加会加剧数据空间信息缺失, 所以折痕识别率有着大幅度下降。通过结果比较可知本文算法效果更优, 这说明利用黎曼指数映射所得映射空间对样本的非线性分布结构得以较好地保持。

为了更好地对比各种算法性能, 表1给出了使用不同公式构建目标特征时相应的查准率。可以看出OPGA、文献[8]方法、文献[9]方法查准率都低于本文方法, 这就造成大量无折样本误识为有折样本。而且从图6和表1可以看出, 选择不同公式进行数据表达对折痕判别性能有着较大影响。当协方差矩阵包含纵向信息时识别率发生很大波动, 其中包含信息后识别性能下降剧烈。这是因为纵向梯度突出了生理纹理特征, 特别在粗杆处水平生理纹理更加明显, 这就会减弱或掩盖折痕特征。这也说明在进行特征建模时应避免纵向信息干扰。

4 结束语

由于羽毛杆上的折痕特有结构难以找到通用检测方法进行折痕判别。通过随机共振结合模极大值理论完成毛杆折痕位置预判, 避免了对毛杆进行整体搜索带来的误判;提出了一种黎曼流形和Fisher判别相结合对毛杆折痕特征识别方法。利用仿射不变度量完成类间散度最大和类内散度最小定义, 求解了流形样本的最佳映射空间, 最后通过最近邻法完成判别。同OPGA、文献[8]方法、文献[9]方法相比, 实验结果显示了本文方法的有效性。通过不同的建模公式也说明了构造特征元素对于类别判断有着很大影响, 在进行特征识别时应该避免包含纵向信息。由于目前羽毛球行业还处于人力密集型阶段, 高强度的毛片挑拣劳动对工人视力有着一定伤害, 本课题研究有助于该行业产业转型。

参考文献

[1] Yue H W.Research on Feather quill image denoising.Computer Modelling and New Technologies, 2013;17 (4) :51—57

[2] 岳洪伟, 汪仁煌, 金迎迎, 等.流形核与LPP相结合的毛杆折痕识别方法.光电工程, 2014;41 (2) :47—52Yue Hongwei, Wang Renhuang, Jin Yingying, et al.Feather quill crease recognition method by combing manifold kernel with LPP.Opto-electronic Engineering, 2014;41 (2) :47—52

[3] Yue Hongwei, Wang Renhuang, Zhang Jinghua, et al.Fusion of gray and grads invariant moments for feather quill crease recognition.Proceedings of 2013 Intelligent Automation Conference.Springer Berlin Heidelberg, 2013:121—128

[4] 邵家鑫, 都东, 石涵, 等.基于厚壁工件X射线实时成像的焊缝缺陷自动检测.清华大学学报 (自然科学版) , 2013;53 (2) :150—154Shao Jiaxin, Du Dong, Shi Han, et al.Automatic weld defect detection based on X-ray images of thick-wall workpieces.Journal of Tsinghua University (Science and Technology) , 2013;53 (2) :150—154

[5] 龚芳, 张学武, 孙浩.基于独立分量分析和粒子群算法的太阳能电池表面缺陷红外热成像检测.光学学报, 2012;32 (4) :169 —177Gong Fang, Zhang Xuewu, Sun Hao.Detection system for solar module surface defects based on constrained ICA model and PSO method.Acta Optica Sinica, 2012;32 (4) :169—177

[6] 姚明海, 李洁, 王宪保.基于RPCA的太阳能电池片表面缺陷检测.计算机学报, 2013;36 (9) :1943—1952Yao Minghai, Li Jie, Wang Xianbao.Solar cells surface defects detection using RPCA method.Chinese Journal of Computers, 2013;36 (9) :1943—1952

[7] Sommer S, Lauze F, Nielsen M.Optimization over geodesics for exact principal geodesic analysis.Advances in Computational Mathematics, 2013;38 (2) :281—320

[8] Zhang Z, Chow W S.Tensor locally linear discriminative analysis.IEEE Signal Processing Letters, 2011;18 (11) :643—646

[9] Pennec X, Fillard P, Ayache N.A Riemannian framework for tensor computing.International Journal of Computer Vision, 2006;66 (1) :41 —66

Fisher判别分析及R语言实现 第9篇

一、Fisher判别分析

判别分析是利用已知类别的样本培训模型,为未知样本判类的一种统计方法。它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用,比如在税务稽查中,要判断某企业是否偷漏税;在资产投资分析中,信用风险的判定、成功概率的判定、企业运行状态或财务状况的判定等。

判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。判别分析有距离判别分析法、Fisher判别分析法、bayes判别分析法等,其中最基本的是Fisher判别分析法,也称为线性判别分析法。

Fisher判别法是1936年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上,投影的原则是将总体与总体之间尽可能的放开,然后再选择合适的判别规则,将新的样品进行分类判别。在模式识别中经常用到的一个叫做Flasher线性判别的方法。Fisher判别的基本思路就是投影,针对P维空间中的某点x=(x1,x2,x3,…,xp)寻找一个能使它降为一维数值的线性函数y(x):y(x)=∑Cjxj,然后应用这个线性函数把P维空间中的已知类别总体以及求知类别归属的样本都变换为一维数据,再根据其间的亲疏程度把未知归属的样本点判定其归属。这个线性函数应该能够在把P维空间中的所有点转化为一维数值之后,既能最大限度地缩小同类中各个样本点之间的差异,又能最大限度地扩大不同类别中各个样本点之间的差异,这样才可能获得较高的判别效率。在这里借用了一元方差分析的思想,即依据组间均方差与组内均方差之比最大的原则来进行判别

二、基于R语言的线性判别分析程序

在R软件中,用MASS程序包中函数lda()进行Fisher判别分析。基本调用格式如下:

lda(formula,data,...,subset,na.action)

其中formula为一个形如groups~x1+x2+x3…的公式框架

Data为数据框,subset指明训练样本。

三、应用举例

对于A股市场2009年陷入财务困境的上市公司(ST公司),我们收集了7家ST公司陷入财务困境前一年(2008年)的财务数据,同时对于财务良好的公司(非ST公司),收集了同一时期8家非ST公司对应的财务数据。数据涉及4个变量:资产负债率x1、流动资产周转率x2、总资产报酬率x3和营业收入增长率x4。类别变量G中2代表ST公司,1代表非ST公司。数据如下表

某公司2008年财务数据为:x1=78.3563,x2=0.8895,x3=1.8001,x4=14.1022。试判定2009年该公司是否陷入财务困境。

R程序如下:

数据来源:WIND资讯。

>row.names(X)<-c(“ST中源”,“ST宇航”,“ST耀华”,“ST万杰”,“ST钛白”,“ST筑信”,“ST东航”,“洪城股份”,“工大首创”,“交大南洋”,“九鼎新材”,“恩华药业”,“东百集团”,“广东明珠”,“中国国航”)。

输出结果

结果分析

从输出结果可以看出,该公司在该判别规则下,归为类别变量G中2中,即2009年该公司陷入财务困境。

在Fisher判别分析中,利用R软件是最方便最简单最易学的,而且根据不同的情况,可以自己修改别人的程序,比较方便;可以在处理多元数据Fisher判别分析中,利用R软件具有很大的优势。

摘要:多元统计Fisher判别分析方法已被广泛应用于自然科学和社会科学的各个领域。而在现实处理多元数据Fisher判别分析中,利用R软件是最方便、最简单、最易学的。R软件由于其免费、开源、强大的统计分析及其完美的做图功能已得到越来越多人的关注与应用,而且,根据不同的情况,可以修改别人的程序,比较方便。

关键词:R软件,Fisher判别分析,多元统计分析

参考文献

[1]王斌会.多元统计分析及R语言建模[M].广州:暨南大学出版社,2010

[2]汤银才.R语言与统计分析[M].北京:高等教育出版社,2005

[3]高惠璇.应用多元统计分析[M].北京:北京大学出版社,2005

[4]李卫东.应用多元统计分析[M].北京:北京大学出版社,2008

随机变量独立性的判别方式分析 第10篇

一、随机变量独立性的概念及意义

概率统计是数学学习中的一门重要课程, 而随机变量是数学概率统计当中的一门重要分支。其实随机变量当中最重要的是随机现象, 也就是随机事件。而随机现象是相对于一种绝对性的现象而言的。随机现象在日常生活中出现的非常广泛, 无论是我们的日常生活还是我们的经济社会发展都会出现随机现象, 而随机变量其实就是对于随机现象的一种数量表示, 是将随机现象加以数学性的总结而出现的一种概念。概率论和数量统计当中很多研究都是基于随机变量产生的。没有随机变量, 那些研究就成了一纸空谈。所以随机变量的独立性是研究概率论与数量统计的重中之重。

其实随机事件独立性的概念非常好理解, 那就是如果两个事件A和B, P (AB) =P (A) P (B) , 则称AB两个事件相互独立。对于随机变量这个领域也一直有研究, 在上世纪九十年代, 这个研究有了进一步的发现, 将随机变量分为连续型变量和非连续性变量, 非连续性变量又称为离散型变量。

我们要搞清楚随机变量的独立性, 就要搞清楚什么是随机变量, 其实随机变量就是研究不同的事件当中一些结果的数值表示。比如在某一定特定的时刻火车站的客流数量。而实际变量的独立性就是:ξ1, ξ2, …, ξn相互独立, 则其中任何一部分随机变量仍然独立。

二、随机变量独立性的判别方法

首先我们要介绍的是用定义法来研究随机变量的独立性。

1) 定义法, 其实就是用定义研究随机变量的独立性, 是对独立性的一种尊重和本质回归。设X、Y是两个随机变量, 对于任意区间的 (a1 b1]与 (a2 b2], 事件{a1小于X小于等于b1}与事件{a2小于Y小于等于b1}都相互独立, 则称随机变量, X与Y相互独立, 简称X, Y相互独立。由这个定义我们也能知道, 随机变量的独立性是随机事件独立性的一种简要的概括形式, 而随机事件的独立性是随机变量独立性的本质。所以我们要学好随机事件的独立性, 这对我们学好随机变量的独立性有很大的帮助和提高, 而且随机事件的独立性是随机变量独立性的灵魂与精华。

2) 就是通过分布函数法。通过随机变量的分布函数来判断随机变量的分布性。这种方法就是将随机变量的独立性转化为对函数的独立性进行研究, 判别方法较为简单, 因此应用广泛。通过x y的联合密度函数来判断变量x和y的独立性, 这种方法较为繁琐, 计算量大, 对数学的要求也较高。

第三种方法就是分布率法, 第四种方法就是特征函数法, 适用于随机变量x的及其对应的函数。第五种方法就是条件密度法, 适用于二维相互独立的随机变量。随机事件a与b是相互独立的。该定理揭示了随机变量之间的本质独立特征。而且b的独立性不受a独立性的影响。第六种方法就是相关独立性。通过随机变量X和Y的线性相关性讨论他们的独立性。

这就是鉴别随机变量独立性的几种方法。其中除了最后一种方法, 前几种方法既可以验证其独立性, 也可以验证其非独立性。最后一种方法只能够证明非独立。前几种方法都或多或少借用了函数关系, 最后一种方法是利用随机变量本身的相关性, 与函数无关, 也不用构造函数。我们在运用时可以比较不同方法之间的区别和联系, 仔细甄别不同方法的优缺点, 选取最适合的方法来解决问题。

实际生活证明判断随机变量的独立性与研究方法当中的复杂高深的数学没有没有太多联系, 反而经常用到生活经验。这些排名方法经常适用于解答研究性题目。我们要学会随机应变和运用这些方法, 掌握随机变量的本质, 仔细鉴别每一种方法的优缺点。学会利用随机变量的各个定理和性质, 解答实际生活中的难题。

三、结语

随机变量的定义其实非常好理解, 与随机事件的定义相关, 我们要搞清楚随机事件, 进而推理出随机变量, 我们才开始学习随机变量的独立性, 然后再学习和研究它的鉴别方法。用简便方法解答实际问题。这也是学习随机变量独立性的重要意义。

参考文献

[1]吴燚, 丁洋, 邓新, 王学军.广义负相关随机变量阵列的q阶完全矩收敛性[J].兰州大学学报 (自然科学版) , 2016 (05) .

[2]黄兆霞.可交换随机变量与独立同分布随机变量之间的关系[J].安康学院学报, 2014 (02) .

[3]甘媛.随机变量的分布函数求解方法的讨论[J].襄樊职业技术学院学报, 2012 (06) .

三维度判别好基金 第11篇

这些还是好基金吗?

目前基金投资者的这种心理,其实质在于不懂得基金优劣的评价标准。

大多数人简单地认为,赚钱的基金就是好基金。这个道理没有错,但忽视了很多相关指标,比如赚钱的时间段、基金产品的特点、买入和卖出的时间点、基金经理变更、公司重大事件等等。这些因素,均会改变基金投资盈亏的方向。

综合起来才是较为靠谱的评价参照系。

排名并非绝对

银华领先策略基金2009年以103%的收益率位居去年股票型基金前10名,最近一周(3月18日至24日)以-0.67%的收益率位居243只股票型基金中的倒数第二名;中邮核心优选基金去年的收益率也进入前10名,最近一周和今年以来则落为中下游。

但这并不能完全证明这两只基金的好坏。基金的业绩排名在不同阶段相差巨大,除了这两只基金,还有很多基金的业绩排名具有相同的特点。

既然不同阶段的相对业绩排名容易出现差别,那么判定基金的优劣就需要拉长考察时间段,并非短时间或者某一时间段所能厘清。

如果某只基金在近一年内为投资者盈利,收益率位居前列,并且在近两年、三年都盈利,且位居前列,那么,即便近期表现不是很好,也没必要很快下结论该基金不是一只好基金。

反之亦然。

设定风险级别

更加深入的判断,需要考虑风险和收益对等。

高风险对应着高收益。投资者手中如果持有的基金风险很高,那么就必须有相应的收益率来补偿承担的风险。

有些投资者认为,股票型基金就是高风险基金,混合型基金是次高风险基金,债券型是低风险基金、货币基金是无风险的基金。殊不知这是对基金风险和收益对等最简单的分类方法,只是第一步;更高的要求,则是对相同类别基金风险分类的把握。

同样投资股票型基金,有些基金风险更小,有些基金风险很大。从近几年股票型基金的风险收益率差来看,在牛市行情下,收益率可以相差超过100%,熊市行情也可以相差到30%,混合型基金也类似。

投资者要判定自己手中的基金在同类基金中的风险级别,最简单的方法,就是同类基金的相对排名变化,或与同期上证指数比较。

如果这只基金在同类基金中的排名忽高忽低,即便该基金几年下来总收益率可观,但也属于高风险基金。这类基金能锦上添花,也能落井下石。

反之,收益率在同类基金中的排名一直稳定处在前1/2,几年累计收益率也能排在前列,这样的基金风险也较低。无论在那种行情下,它都能让投资者有踏实的收获。

风险和收益的高低是两面,不能单以风险来判定,还是要看投资者的风险偏好。

喜风险者,高风险高收益的基金就是好基金;厌风险者,低风险而较高收益才是好基金。

关键是投资者心中要有一个清晰的评判标准。

关注团队变动

上述判定比较静态,判断基金是否值得持有,还需要投资者动态跟踪手中持有的基金,因为与基金有关的一些因素在不断变化。

最容易发生变化的是基金经理,这在国内很常见。其变动有主动变更和被动变更,投资者要重点关心的是基金经理主动变更的那类基金:这类基金往往使优秀基金经理转投私募。

目前基金行业排名压力巨大,公募基金的收入体制难以满足基金经理的需求。2006年以来,吕俊、石波、江晖等等一些大腕级的基金经理“公转私”,这对其曾管理的基金业绩一定会产生影响。今年以来类似的基金经理也不少。2009年初,业绩优异的基金经理纷纷离职,持有这些基金经理原管理的基金,就需要仔细分析和慎重考虑。

另一类是被动离职。这类往往是管理的基金业绩不太理想,基金公司为了改善业绩,试图换来更好的基金经理。对这类基金,静以待变是最好办法。

基金经理变更带来的往往是投资风格的变化,这也需要投资者重點关注。

基金会每半年对招募说明书进行更新或者不定期修改基金合同,这些更新和修改会涉及费率及投资方向变化,这些变化将会影响持有人的利益,因此投资者需要关注这些变化是否改变了基金性质。

正则化最小二乘线性判别分析算法 第12篇

LDA可用于数据的降维上,在一个广义的条件下[7],LDA与最小二乘具有等价性。转换矩阵上的元素若都是非零的,会使模型不具有稀疏性,而具有稀疏性的模型具有更好的解释性和更广的广泛性[8]。众所周知的有L1范数即lasso(the Least Absolute Shrinkage and Selection Operator)[9],可为模型自动选择变量,从而产生稀疏模型;还有一些其他具有不同惩罚项的正则化最小二乘方法,如L2正则化和P正则化。弹性网络综合了L1和L2的优点。最小二乘LDA引入了弹性网络惩罚项,用于解决具有高维奇异值样本数据。通过使用基于benchmark的文本数据来对比使用不同惩罚项的算法的预处理的有效性。实验结果显示,提出的正则化的LS-LDA方法具有很好的有效性。

1 回归分析

通常情况下,用OLS(Ordinary Least Squares)来解决线性回归问题,在OLS计算中,先将观察值X与目标值y中心化,每个变量x的系数都包含在加权向量w中,而w可通过计算下列函数的最小值求得:

其中w=[w1,w2……wk]是加权矩阵,得到w的解为:

如果测试一组不可见的观察值时,若允许出现稍小偏差而不影响结果,那么就可以得到比OLS具有更低错误的估计值。实现这种效果的最常用的方法是在加权向量w上加一些限制条件,方法有L1范数、L2范数和弹性网络等。

在最小二乘的公式上加上w的L1范数的惩罚项即对回归系数加以约束条件,称为lasso,wlasso的解可通过求lasso惩罚公式的最小值得到,即:

用L2范数替代L1范数惩罚项可得岭回归公式(Ridge regression)[10],wridge的解可通过求岭回归惩罚公式的最小值得到,即:

Lasso是一项非常好的处理回归问题和变量选择的方法,但lasso也有一些局限性。若维数d大于样本数n,lasso会选择n个变量中最大的一个,而这并不能满足我们的要求。岭参数k的确定依赖于未知参数,但若只凭样本推断,就会使大量的经验和信息作用无从发挥。为了克服这些缺点,弹性网络被提出来了[11]。弹性网络吸纳了岭回归和lasso回归的惩罚项并进行了组合。对于任意一个非负参数λ和θ,弹性网络的wEN估计值可由下式给出,即:

当λ=0时,该式就是lasso问题了。在弹性网络的设置中,给一个固定值λ,通过计算一个简单的最小二乘式子,最小角回归可以给出一个与任意θ相符合的解。

2 改进的LS-LDA及其详述

2.1 线性判别分析(Linear Discriminant Analysis)

LDA的目的是使同类内尽可能地相似,不同类间尽可能地相异,从而达到对数据进行降维的效果。设有一组d维的样本数据{(xi,yi)}ni=1,其中xi∈,yi∈{1,2……,k}是第i中样本的类别属性,n是样本个数,d是样本维数,k是类别。数据矩阵X=[x1,x2,……,xn]被划分为k类,即X=[X1,X2,……,Xk],其中xi∈d×ni,ni是第i类中样本Xi的个数,且k i=1Σni=n。对于有k类的分类问题,要寻找(k-1)个投影向量wi=[i=1,…k-1],作为投影矩阵W的行向量。因此,任何一个降维后的观察值xL都可以用投影向量与原始观察值xh线性组合组成,即xl=wTxh。在线性判别分析中,三个散布矩阵即类内散布矩阵、类间散布矩阵和全局散布矩阵,定义如下:

其中第i类的中心值为μi=是全局的中心值,即,从定义可知St=Sw+Sb。

2.2 ULDA(Uncorrelated Linear Discriminant Analysis)与多元线性回归的关系

经典的LDA不适合应用于文本分析,是因为文本数据的全局散布矩阵是奇异的。ULDA是LDA的推广,用于解决小样本问题。通过求解下列函数的最优解来得出ULDA的转换矩阵WULDA,即:

由广义特征值分解可知,最优解WULDA是由St+Sb前几个非零特征值对应的特征向量组成的,其中全局散布矩阵St是奇异的。在最小二乘线性判别分析中[11],可知,其中μi是第i类的中心值,μ是全局中心值,e是n×n单位矩阵,则Sb和St可用下式表示,即:

用奇异值分解(SVD)方法将Ht矩阵分解,得Ht=UΣVT,U、V都是正交矩阵,Σ=是对角矩阵,且St的秩等于t,那么:

把U矩阵分成两子块运算即U=[U1U2],U1∈n×t,U2∈n×(n-t),所以U2是处于St的空的空间中,即U2TStU2=0。由于St=Sb+Sw,且Sw是半正定矩阵,因此U2TSbU2=0,所以可得下列等式,即:

定义

多元模型的输出目标值y□可由下式得出:

其中w是加权向量,用于估计w值的常用方法是最小二乘算法,通过求解下列函数目标的最小值可得出w估计值,即:

由上所述的ULDA中可知,最优转换矩阵WULDA是由St+Sb的前几个非零特征值对应的特征向量组成,可得WULDA和WLS的关系如下所述。从等式(12)、(13)和(14),可知St+Sb可以被分解成如下等式:

因此,ULDA的最优转换矩阵可写成:

由于对角矩阵Σb的前q个列是非零向量,所以Pq矩阵是由P矩阵的前q列组成的。另一方面

其中Q是正交矩阵,从等式(20)中可知WULDA和WLS的区别只在于对角矩阵Σb0.p5。

若矩阵Σbq是一个以q为长度的识别矩阵,在一个广义条件S1下,WLS和WULDA在本质上是等价的,这个广义条件S1即为[7]:

这个条件在包括具有高维和小样本数据的多种领域上都有广泛的应用。

2.3 正则化LS-LDA

基于上述的ULDA与LS之间的等价关系,可推出将正则化方法应用到ULDA的分析中。正则化通常用来控制模型的复杂性和改善模型性能。使用L2正则化的线性回归叫做岭回归[10],使用等式(17)中的类指示矩阵,就可以获得L2规则化的最小二乘LDA算法(简称S-LDA2),其公式为:

其中W=[w1,w2,……,wk],λ>0是正则化参数。

在数值分析中,可知使用L1正则化来选择变量可得稀疏模型。在最小二乘里加入L1惩罚项产生的模型叫lasso。基于ULDA与LS之间的确立关系,可推出L1正则化的最小二乘LDA,简写为LS-LDA1,其目标函数为:

其中W=[w1,w2……wk],θ是正则化参数。

由Zou和Hastie提出的弹性网络,它结合了L1正则化和L2正则化的优点,使得其能以高效率的速度解决回归问题。在最小二乘LDA中加入弹性网络惩罚项,可得弹性网络的最小二乘LDA,简写为LS-LDAEN,其目标函数为:

当1≤j≤k,最优解wj*为:

3 实验结果与分析

在这节中,将提取一组多类的数据作为实验仿真数据,通过此实验来说明我们所提出的算法的有效性。在这次实验中,将这五种方法即ULDA,LS-LDA,LS-LDA1,LS-LDA2和LS-LDAEN进行效果对比。所有的LDA方法可将高维数据投影到低维空间中,用KNN(K-Nearest-Neighbor)作为分类器进行类别分类,得到的实验结果与理论分析具有一致性。采用标准的文本数据TDT2作为实验数据。TDT2的数据集是在1998年上半年收集的,来自于六种资源,即两个通讯录(APW、NYT),两个广播节目(VOA、PRI)和两台电视节目(CNN、ABC)。它是由被分为96个语义类别的11201个主题文本组成的。在这个数据集里,这些文件出现在两个或多个类别被删除,留下9394文件中最大的30类被列出来,如表1所示:

样本数据是从数据集2种类到10种类中取得的,这些样本都是高维的,而且都是维数大于样本数的。实验数据都是随机分配的,取2/3全部类样本作为训练样本,剩下的作为测试样本数据。每次对比用的数据都是在具有相同的维数下,用这五种方法进行结果对比,用KNN作为分类器进行分类。进行10次的实验对比,取平均正确率作为实验结果,如图1所示:

从图1中,可以看出,在用KNN分类之前,用正则化的方法即LS-LDA1,LS-LDA2和LS-LDAEN处理数据,所得到的分类效果比用LS-LDA和ULDA处理后的数据所得到的分类性能要好,而且还可以看出LS-LDAEN方法是这五种方法中最好的预处理方法。为了解释其原因,我们做了LS-LDA1与LS-LDAEN加权向量w的对比,如图2和图3所示:

图2和图3显示了LS-LDAEN的回归系数相比于LS-LDA1的回归系数要小,同时也可得出LS-LDA1回归系数不是很稳定,而LS-LDAEN有稳定的系数。此外,采用LS-LDAEN进行变量选择的系统具有稳定性和稀疏性,从而可将具有零系数的变量从系统中剔除。

为了能充分说明正则化算法具有优越性,且采用LS-LDAEN处理过的数据得到的分类效果较采用其他四种方法更好,可从这四种算法的平均运行时间而得出,如表2所示:

总之,通过此次实验可得出下列结果:

(1)条件S1适用于具有高维数据的样本;

(2)当条件S1成立,ULDA和LS-LDA具有等价性;

(3)即使条件S1不成立,ULDA和LS-LDA也可产生相类似的效果。

所以,在多元分类下,LS-LDA可推广到广义的最小二乘算法中去。从图1中,规则化的LS-LDA较LS-LDA和ULDA有较好的分类性能,而且LS-LDAEN在文本数集分类中较其他四种算法具有优越性。

4 结束语

在多元分类样本且满足S1条件下,ULDA与最小二乘具有等价性。基于这种等价关系,可推出正则化的LS-LDA算法。对文本数据进行实验仿真,验证了正则化LS-LDA算法的有效性,可将具有零系数的变量从系统中剔除,得到稀疏性的系统,使该系统具有更好的解释性。今后将对无记录的多元类别用正则化LS-LDA进行学习验证,并用正则化LS-LDA方法应用到网页中的文本特征提取中。

参考文献

[1]P.N.Belhumeour,J.P.Hespanha,D.J.Kriegman.Eigenfacesvs Fisherfaces:Recognition using class specific linear projection[C].Saudi Arabia.KFUPM ePrints.IEEE Trans Pattern Analysis and Machine Intelligence,1997,19(7):711-720.

[2]D.L.Swets,J.Y.Weng.Using discriminant eigenfeatures forimage retrieval[C].Saudi Arabia.KFUPM ePrints.IEEETrans.Pattern Analysis and Machine Intelligence,1996,18(8):831-836.

[3]J.H.Friedman.Regularized discriminant analysis[J].Journalof the American Statistical Association,1989,84(40):165-175.

[4]Y.Guo,T.Hastie,R.Tibshirani.Regularized linear discriminant analysis and its application in microarrays[J].Springer,2007,8(1):86-100.

[5]J.Ye.Characterization of a family of algorithms for generalized discriminant analysis on undersampled problems[J].The Journal of Machine Learning Research,2005,6(3):483-502.

[6]T.Hastie,A.Buja,R.Tibshirani.Penalized discriminantanalysis[J].Annals of Statistics,1995,23(1):73-102.

[7]J.Ye,T.Xiong.Computational and theoretical analysis ofnull space based and orthogonal linear discriminant analysis[J].Department of Computer Science and Engineering,2006,7(3):1183-1204.

[8]T.Hastie,R.Tibshirani,J.H.Friedman.The elements of statistical learning:data mining,inference,and prediction[J].The Mathematical Intelligencer,2005,27(2):83-85.

[9]R.Tibshirani.Regression Shrinkage and Selection via theLasso[J].Journal of the Royal Statistical Society,1996,58(1):267-288.

[10]J.Ye.Least squares linear discriminant analysis[C].ZoubinGhahramani.Computing Literature.Proceedings of the 24thinternational conference on Machine learning,2007,227(9):1087-1093.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

【判别分析】相关文章:

黑龙江省上市公司财务风险预测基于判别分析实证研究09-13

判别标准05-14

类型判别07-11

特征判别07-29

故障判别09-02

综合判别09-07

判别指标05-25

判别指标范文05-19

根的判别式08-23

Eisenstein判别法论文01-10

上一篇:电子电工实验下一篇:中法酒文化差异