支持向量回归模型

2024-08-23

支持向量回归模型(精选10篇)

支持向量回归模型 第1篇

关键词:配网,故障,预测,支持向量机,SVM

近年来社会公众对供电企业供电服务的要求和期望越来越高,电力保障水平和供电服务水平更是广大人民群众最关心的问题。配网抢修业务是体现供电企业服务水平的重要环节,准确的配网故障预测,为超前配置抢修资源、科学开展抢修工作提供了有力依据,在目前供电企业抢修压力普遍较大的情况下,具有重要意义。

目前,国内外对于配网故障方面的研究较少,主要在故障定位[1]、抢修任务分配[2]、抢修流程优化[3]等方面,文献[4]提出了一种基于气象因素和时间序列分析的配电网故障数量预测模型,时间序列模型是一种典型的时序分析方法,其特点就是重点考虑故障的时序相关性,该方法将气象信息以附加模型的方式加入建模,在一定程度上弥补了单纯时间序列方法的不足。

本文提出了一种基于支持向量回归和统计分析方法的配网故障分区预测模型,支持向量回归是不同于传统时间序列模型的新一代智能算法,随着电网采集和监控技术的发展,更多的配网数据可以被收集利用,采用智能算法可以更好地挖掘数据之间的相关性,发现隐含信息,从而更好地实现配网故障的精准预测。

1 支持向量回归模型简介

支持向量机是由Vapnik及其领导的贝尔实验室提出的一种机器学习技术,在很多应用领域中获得目前为止最好的性能。故障预测领域用到的主要是支持向量回归模型。下面简要介绍一下本文用到的ε-支持向量回归模型原理。

对于(1)式的最小化求解问题,可以将其等价为如下优化问题:

由Lagrange理论,(2)式所描述的问题可化为如下对偶问题:

根据(2)问题化为Lagrange问题时需要满足的KKT条件,可以计算得到b,进而可以得到回归拟合函数:

支持向量回归是基于结构风险最小化的,而不是传统意义上的经验风险最小化,在样本不多的情况下仍旧可以保证较好的预测能力,目前被广泛应用于各种类型的预测之中并取得了良好效果。

2 城市配网分区预测模型

模型以支持向量回归算法为核心,将预测日之前一段时期的故障、天气数据作为训练样本,以预测日前2日的故障情况和当日预测天气数据为输入,获得预测日的故障数量预测值。

将预测范围划分为若干个区域,基于历史数据进行统计分析,得出每个区域发生故障数量和类型概率,并将其与总体预测故障数量相结合,即可以得出每个区域发生的故障数量、类型预测值,为抢修计划安排与驻点优化提供有力支撑。

2.1 回归参数选择

支持向量回归的参数选择问题,主要就是核函数K(x,y)及其参数、惩罚因子C的选择问题。核函数K(x,y)的选择没有固定依据,但为了更好地模拟样本非线性,应把样本向量尽量映射到非线性空间中,一般都采用非线性的核函数如多项式核和RBF核。

核函数参数和惩罚因子的选择可通过交叉验证法(Cross-Validation)、引导指令法(Bootstraping)和贝叶斯方法(Bayesian)等;本文采用了文献[8]介绍的网格搜索法(Grid Search)网格搜索法看似简单,但却是简洁实用的方法,其优点是可以保证收敛性和局部优解且寻参时间短。当然,网格搜索范围和步长选择的好坏也直接影响着搜索结果的优劣。

2.2 基于统计分析的分区预测

使用标准网格或其他分区方法将预测配网范围划分为A个区,根据历史故障数据统计可得一段时期内该范围中总故障量为F,第i个分区内的第j类故障数量为Bij(i∈[1,A];j∈[1,R],R为故障类型总数),则第i个分区内的故障发生频率Pi(x)为:

第i个分区内第j类故障发生的频率fij(x)为:

其中λiλij为实际根据区内设备更新状况引入的人工调整系数。这样,就可以将预测故障量具体到分区范围,为配网抢修工作计划提供更

多参考依据。

2.3 预测模型完整流程

基于支持向量回归和统计分析的配网故障分区预测模型整体流程如下所示:

3 算例分析

将基于支持向量回归和统计分析的配网故障分区预测模型应用于华北某市配网算例中,以验证该模型的有效性。输入选择预测前两日故障数量、预测日最高温度、预测日降水状况、预测日风力等输入数据。模型训练样本选择预测日前30日的相应输入值作为历史样本,输出值作为检验目标值。

本文采用华北某市电网2016年5月1日~6月10日共41组数据进行算例分析。其中采用5月1日至5月31日31组数据作为初始训练样本,对6月1日至6月10日10个工作日的数据进行模拟预测,以检验预测精度。算例的核函数采用多项式核,网格搜索法搜索范围为,经搜索,确定参数值分别为、核函数参数g=0.25。以此为基础预测10天的故障总量值如表1:

可以看出,预测准确率在94%以上,总体预测值具有良好效果。将城市划分为9个区域,以6月2日为例,可得9个区域的预测值如表2所示:

由上表可知,分区预测的最大误差绝对值为2,误差量很低,进一步证明了模型预测的效果。

4 结语

本文采用支持向量回归和统计分析结合的方法对城市配网故障进行了分区预测,并结合灵敏度分析、参数选择等方法对模型进行了进一步优化,给出了预测模型建模的完整流程,经算例检验模型具有较强的实用性和可操作性。随着今后数据采集技术的不断提升,数据维度和精度的不断提高,该方法可以将更多维的数据进一步纳入输入输出空间,不断提升预测精度,对配网抢修工作进行更大的支撑。

参考文献

[1]翁蓝天,刘开培,刘晓莉等.复杂配电网故障定位的链表法[J].电工技术学报,2009,24(5):190-196.

[2]杨丽君,张晶,程慧琳等.基于最优效用的配电网多故障抢修任务分配策略[J].电工技术学报,2014,29(6):263-270,289.

[3]周元祺,陈志樑,张麟等.利用故障抢修管理系统优化配电网故障抢修流程[J].供用电,2012,29(3):51-54.

[4]张鹏飞,瞿海妮,肖其师等.基于气象因素和时间序列分析的配电网故障数量预测[J].陕西电力,2016,44(1):68-72.

[5]Nello Cristianini,John Shawe-Taylor,支持向量机导论(中文版),北京:电子工业出版社.

[6]李元诚,方廷健,于尔铿.短期负荷预测的支持向量机研究,中国电机工程学报,2003,23(6):55~59.

[7]Dug Hun Hong,Changha Hwang.Support vector fuzzy regression machines,Fuzzy Sets and Systems,2003,138:271~281.

支持向量回归模型 第2篇

回归型支持向量机在发动机参数测量分析中的应用

发动机参数的.测量与分析处理是发现发动机故障隐患的重要方法.记述了回归型支持向量机的原理和基于回归型支持向量机的诊断方法,实现了传感器故障隔离与信号重构,利用发动机参数测量的实验数据对支持向量机进行训练,并进行了仿真验证.结果表明:基于回归型支持向量机的传感器故障诊断具有很高的预测精度.

作 者:王永华 孙涛 蒋科艺 王秀霞 作者单位:海军航空工程学院,飞行器工程系,山东,烟台,264001刊 名:实验技术与管理 ISTIC PKU英文刊名:EXPERIMENTAL TECHNOLOGY AND MANAGEMENT年,卷(期):201027(7)分类号:V231.3关键词:发动机 传感器 故障诊断 回归型支持向量机

支持向量回归模型 第3篇

关键词计学习理论;支持向量回归;加权系数;加权支持向量回归

中图分类号TP文献标识码A文章编号1673-9671-(2011)042-0212-02

支持向量机(Support Vector Machine,SVM)是20世纪90年代中期由AT&T贝尔实验室的Vapnik等人提出的一种新的机器学习算法,它是以统计学习理论(StatisticalLearning Theory,SLT)为基础的,因此支持向量机具有很强的理论基础和泛化能力。

统计学习理论是建立在结构风险最小化原则基础上的,该理论为机器学习问题建立了一个良好的理论框架,较好地解决了小样本、非线性和局部极小点等实际问题。支持向量机就是专门针对小样本情况下的机器学习问题而建立的一套理论体系。它的核心思想是对于一个给定的具有有限数量训练样本的学习任务,如何对其准确性和机器容量进行折衷,以得到最佳的推广性能。

设计支持向量机最初的目的是为了处理模式识别分类问题,即首先在训练集中寻找支持向量,然后在其上构造决策函数,使其具有良好的分类性能。

支持向量回归则是Vapnik在定义了ε-不敏感损失函数的基础上提出来的(以下简称ε-SVR)。并广泛应用到非线性回归估计和曲线拟合中;在非线性系统辨识、预测预报、建模与控制等领域都有潜在的广泛应用。

但是,支持向量回归机算法也存在着一些明显的缺憾。

1)在ε-SVR中,该算法在构建原始问题的时候,对所有样本采用的是相同的惩罚参数C和回归精度ε,即对不同样本的误差惩罚和精度的要求是平等的。但在实际应用中,有些数据比较重要,要求的训练误差较小;相反有些数据则容许有一定大小的误差。因此当样本中存在噪声或野点时,导致SVM在这些点较为敏感,由此产生过拟合现象。

2)ε-SVR算法在求解大规模问题时存在学习速度过慢的问题。因此,如何减少计算时间、存储空间及避免过学习问题成为回估计的学习算法的研究点。针对这种情况,本文在此引入权值,根据每个样本偏离数据域程度的不同赋予不同的权值系数,使噪声点的权值接近于一个很小的实数,以减小对回归函数的影响。在确定权值系数的训练中,拟采用线性规划下的一类分类方法。

1改进的回归型支持向量机算法

1.1支持向量回归机的改进算法简介

针对回归问题时样本中出现噪声或野点的情况,提出的加权支持向量回归算法,主要有:

1)模糊支持向量机,2002年Lin.C.F等将模糊隶属度的概念引入到SVM分类中,将输入样本集模糊化,提出了模糊支持向量机(fuzzy support vector machine—FSVM)的概念。该方法提高了SVM抗噪声的能力,尤其适合于未能完全揭示输入样本特性的情况。

2)基于数据域描述的模糊支持向量回归,其基本思想是:首先得到数据域描述模型,然后根据每个样本偏离数据域的程度的不同赋予不同的隶属度。

3)加权稳健支撑向量回归方法(WR-SVR)。其基本思想是:首先由SVR方法得到一近似支撑向量函数,基于这一近似模型给出给定数据的损失估计。软剔除即以加权的方式剔除奇异值:数据偏离模型愈远,损失函数的权重愈小,其对模型参数估计的影响亦愈小。

目前对权值系数的确定还没有一个统一的方法,本文所做的工作主要是对(2)中提出的方法进行调整研究和实践,采用线性规划下的一类分类方法,根据每个样本偏离数据域程度的不同赋予不同的权值,从而使噪声点的权值接近于一个很小的实数,以减小对回归函数的影响。

1.2加权支持向量回归算法

设给定的训练集T={(xi,yi),…,(xl,yl)}∈(x×y)l,xi∈x=Rn,yi∈Y=R,i=1,…,l。

基于支持向量机的最优回归函数是指满足结构风险最小化原理,即极小化优化问题:

min

(1)

其中,第一项是使函数更为平坦,从而提高泛化能力;第二项为减小误差,常数C为惩罚系数,对两者做出折中;ε为一正常数,控制回归精度。

由上节叙述可知,引入Lagrange函数及核函数后,得到优化问题的对偶形式,即改进的加权ε-支持向量回归机,其算法可描述为:

1)设已知训练集,T={(xi,yi),…,(xl,yl)}∈(x×y)l,xi∈x=Rn,yi∈Y=R,i=1,…,l;

2)选择适当的正数ε和C>0;选择适当的核K(x,x');

3)构造并求解最优化问题

(2)

得到最优解;

4)构造决策函数

=ρ (3)

其中按下式方式计算:选择位于开区间中的

(4)

2权值系数的确定

对于权值系数的确定,采用线性规划下的一类分类算法。定义权值如下:

(5)

其中:fmax=max( f(xi)|xi∈X),fmin=min( f(xi)|xi∈X),σ<1为足够小的正实数;f(xi)为样本xi的决策函数,表达式为:

(6)

从上述定义可以看出,当ρ≤f(xi)≤fmax时,说明xi是区域内的样本,在支持向量回归中,该样本在回归间隔附近;当fmin ≤ f(xi)<ρ时,说明xi是区域外的样本,其权值接近于一个很小的实数。

3实验验证与分析

本文以某水处理实验机构采集的60组实验数据,这里首先随机抽取40个样本作为训练样本,再抽取20个样本作为测试样本,分别采用标准的支持向量回归机与改进算法的加权支持向量回归机,对其进行训练与预测仿真,来验证改进算法的有效性。

3.1实验参数设定

1)对于训练出来的模型的优劣,本文使用均方误差(Mean Squared Error—MSE)的大小来衡量。MSE越小,则表明训练出来的模型越好。

其中:MSE有以下定义式给出:

; (7)

式中:l表示样本个数,yi为xi对应的测量真实值,f(xi)为对应的预测值。

2)对于核函数的选择,本文采用比较流行的RBF-Gauss径向基核函数,其定义式如下:

(8)

其中:σ为高斯核函数的宽度,反应了边界封闭包含的半径。

3)本文采用台湾大学林智仁教授开发的LibSVM工具箱,并针对本文的改进算法进行了相应的改进。运行平台为MATLAB-7.0。其丰富的脚本文件和函数及与C++语言的优良兼容性,为SVM技术的工程化、实用化提供了一个良好的环境。

3.2实验过程与数据分析

首先对输入样本进行训练,取C=45,g=10,利用线性规划得到ρ=480.31,fmin=456,fmax=520,则确定权值为:

(9)

分别采用标准的支持向量回归机与改进算法的加权支持向量回归机,对其进行训练及测测仿真由所得仿真数据分析,可得如下表格:

由此,我们得出结论:标准支持向量回归在样本中无噪声点时,具有很好的学习和泛化能力;但当样本中存在噪声或野点时,回归间隔偏向噪声点移动,从而出现过拟合现象,回归产生误差。针对这一现象,本文引入权值系数,根据样本偏离决策超平面的距离,对不同的样本采用不同的公式计算其权值。实验表明,该方法与标准支持向量回归算法相比,减小了回归误差,提高了支持向量机的抗噪能力即泛化能力。

参考文献

[1]Hornik K.M.,Stinchcombe M.,White H.Multilayer feedforward networks are universal approximators[J]. NeuralNetworks,1989. 2.

[2]Vapnik V.N.An Overview of Statistical Learning Theory[J].IE Neural Networks,1999,10.

[3]HuangHP,Lin YH.Fuzzy suport vector machine for paRem recognition and data mining[J].In Journalof Fuzzy Systems,2002,4(3):826-835.

[4]CF Lin,S D Wang.Fuzzy support vector machines with automatic membership setting[J].StudFuzz,2005,177:233-254.

[5]邓乃扬,田英杰.支持向量机[M].北京:科学出版社,2009.

[6]李国正,王猛,曾华军.支持向量机导论[M].北京:电子工业出版社,2005.

基于支持向量机的回归研究 第4篇

统计学习理论和支持向量机建立了一套较好的有限样本下机器学习的理论框架和通用方法,既有严格的理论基础,又能较好地解决小样本、非线性、高维数和局部极小点等实际问题,因此成为目前国际上机器学习领域新的研究热点。

支持向量机是从统计学习理论发展而来的,设给定训练样本集其中表示第i个d维向量,称为输入特征向量。yi∈R,表示输出,i=1, 2, 3...,n。通过训练学习寻求Rd上的函数f (x) ,使得训练样本集要满足对任意xi,存在yi=f (xi) ,对于xn+1, xn+2, ...的数据,也同样存在这样的f (x) 。

回归问题,是输入变量和输出变量通过函数关系表示,并以此函数为规则,通过输入新的变量,得到新的输出作为预测值。

依据结构风险最小化准则,用数学语言表达,支持向量回归机要求解的问题是:

其中,常数C (C>0)用来调整训练模型,用于平衡结构风险和置信风险。

2、交叉验证原理

参数的取值对支持向量机有很重要的影响,选择合适的参数,能够使支持向量机既有好的学习能力,又有好的泛化能力。

交叉验证是度量SVM回归结果的首选方法,并且它具有指导参数选择的能力。其原理是将训练样本分成数据量相同的k个子集,记性训练算法k次。对于每个子集i,在第i次训练时,要用除去第i个子集后的k-1个子集作为训练集训练模型,用第i个子集作为测试计算模型预测的误差。最后将k次预测模型的平均误差值作为模型的近似误差值。

3、实例研究

本文以麦克-格拉斯混沌微分方程为对象进行研究。麦克-格拉斯混沌微分方程:

计算时,取1200个点,如图1所示:

用数组记录方程中的点:a是1200个点的数组。

应用-支持向量机进行回归研究,以a对支持向量机进行训练,训练中,以交叉验证的方法确定最优的参数值,并做预测。图2是预测结果:

均方误差MSE=0.0715相关系数R=0.4981。

为了取得更好的效果,训练中对数组a进行归一化处理,预测后再进行反归一化,预测结果如图3所示:

均方误差MSE=0.1024相关系数R=0.8627。

3. 结论

根据预测结果可见,对训练样本进行归一化处理后,预测结果要优于未进行归一化处理的结果。不过不是所有的情况均适用归一化处理,有时候归一化后结果反而比较差,需要具体数据进行分析。

摘要:支持向量机在非线性回归中, 有着成功的应用。本文通过-支持向量机进行回归的实例研究, 通过交叉验证确定最优的系数, 为研究者提供参考。

关键词:非线性回归,ε-svm,交叉验证

参考文献

[1]金桃等.基于SVM的多变量股市时间序列预测研究, 计算机应用与软件, 2010.6, 27 (6)

[2]邓乃扬, 田英杰著.数据挖掘中的新方法――支持向量机.科学出版社, 2004, 6

支持向量回归模型 第5篇

关键词:信用风险评估;支持向量机集成;预测

中图分类号:F830.51

文献标识码:A

文章编号:1003-5192(2009)04-0057-05

1 引言

商业银行作为国民经济的总枢纽和金融信贷中心,发挥着融通资金、引导资产流向和调节社会供需平衡等诸多不可替代的作用。然而商业银行在营运过程中面临着各种各样的风险,包括系统风险和非系统风险,其中在非系统风险中信用风险占有特殊的重要地位。世界银行对全球银行业危机的研究表明,导致银行破产的最常见原因就是信用风险。信用风险又称违约风险,是指借款人、证券发行人或交易对方因种种原因,不愿或无力履行合同条件而构成违约,致使银行,投资者或交易对方遭受损失的可能性[1]。信用风险是商业银行信贷风险管理中一项基础性的工作,其目的在于分析银行在贷款业务中可能面临的信用风险——借款人如期履行特定债务的能力与意愿,从而为贷款决策提供依据。

信用评估方法在不断演进,大致经历了定性分析、统计分析和人工智能三个发展阶段,最初它只是通过信贷分析员阅读申请表并决定是否放贷,但是这一方法主观因素太强,必然存在误判的可能性。统计方法主要是判别分析(DA)[2],判别分析是分类预测的主要研究范畴之一[3],但是判别分析在操作上的一个缺点是其基本假设很容易被打乱。另外,模型只能在已被通过的贷款样本中进行估计,因此存在参数估计的样本偏差。随着信用行业的发展以及贷款组合种类的不断增加,信用评估的准确率哪怕只提高零点几个百分点,都会带来巨大的效益,因此,人们积极探索开发更加准确的信用评估模型,先后就非参数统计模型、人工智能等方法在信用评估方面的应用进行了尝试[4],尤其是最近几年中己经开发出来包括分类树[5]、神经网络[6]以及多元判别法分析[7]等在内的多种方法。但是,这些方法都存在一些缺点,即不能量化解释指标的重要程度,在分类树分析中没有参数,而在神经网络中则没有参数解释,用于信用风险评估具有一定的片面性。同时,神经网络的训练是在黑箱中进行的,这种运算摒弃许多行业经验和专家经验,具有一定的盲目性,人们不能对之进行干预。神经网络适合于对数量指标的分析,而忽略对影响因素中的定性指标的分析,显然是不合理的、片面的。而且用神经网络来评价经济问题时,很难说明神经网络训练后,各网络参数和阀值的经济含义,使得模型缺乏说服性。

研究表明组合分类器的分类精度一般比单个分类器的分类精度高,但是神经网络集成[8]在信用评分中的应用结果表明,神经网络集成的分类精度不如单个神经网络。因为神经网络分类建立在大样本的基础上,而目前银行所保存的数据样本量有限,用集成神经网络分类则必须把所收集的样本分割成多个子样本,从而减少了单个神经网络的训练样本数,进而影响了其分类精度。基于此,许多学者在支持向量机[9~11]的基础上又发展了基于小样本学习的支持向量基集成[12~14],许多领域都用此方法来改善分类精度,应用结果表明支持向量机集成的分类精度至少和单个支持向量机的分类精度一样好。但是目前的研究普遍是基于最多投票原则的集成方法,该方法没有考虑子支持向量机分类器的输出重要性。

长期以来信用风险评估一直被看作是模式识别中的一类分类问题,依据的信用风险衡量标准是贷款企业“违约与否”,利用的是模型与方法的分类功能,形成信用风险的分类评估模式,这种做法被称为“粗暴的经验主义方法”。分类评估模式所反映的有限的经济信息并不能充分满足信贷风险决策的需要,转变评估模式的关键在于确立更为有效、客观的信用风险衡量标准和评估预测模型, 而实施贷款风险的五级分类体系可以提高分类准确性,本文建立基于模糊积分的支持向量机集成方法,该方法考虑了各子分类器的分类结果和各子分类器判决对最终决策的重要程度,并对商业银行信用风险进行五级分类,以某商业银行的实际数据进行实证研究,评估结果表明该评价方法具有科学、简洁、预测精度高等特点,而且模型的结构与方法应用前景广阔。

2 基于模糊积分SVMs集成的模型构建

2.1 Bagging个体生成

Bagging[15]的基础是可重复采样(Bootstrap Sampling)。在该方法中,各支持向量分类器的训练集由原始训练集中随机抽取若干示例组成。训练集的规模通常与原始训练集相当,训练例允许重复选取。这样,原始训练集中某些示例可能在新的训练集中出现多次,而另一些示例可能一次也不出现。Bagging方法通过重新选取训练集增加了分类器集成的差异度,从而提高了泛化能力。

3 模糊密度的确定方法

由模糊积分的定义可知,确定描述各个子支持向量分类器重要性的模糊密度值是基于模糊积分的多分类器集成的关键所在。本文使用混淆矩阵来确定各个支持向量分类器的模糊密度值。

在子支持向量分类器训练完毕后,用子分类器各自的训练集对各个子分类器进行测试得到各自的混淆矩阵。

假定一个K类分类问题,对于子分类器SVCk,其混淆矩阵可以定义为

通过混淆矩阵可以得到各个支持向量机的模糊密度,为利用模糊积分进行支持向量机集成奠定了基础。

4 五类别问题实证分析

4.1 试验过程

仿真实验在Libsvm软件的基础上进行,采用Visual C++编译实现。验证平台为256MB内存的AMD Athlon 1800+,操作系统为Windows 2000。支持向量机集成流程如图1所示。

实验过程如下:

第1步 使用Bagging方法从原始训练集中产生各个子支持向量分类器的训练集,对各子支持向量分类器进行训练;

第2步 给出各训练完毕的子支持向量分类器的五级分类的概率输出模型[17];

第3步 根据第3节中介绍的方法确定模糊密度{g({SVMi,}),k=1,…,c},以此来表示各子支持向量机SVMi,i=1,…,m在各自训练样本上执行好坏的概率密度;

第4步 当给定一个测试样本,得到各子支持向量分类器对该测试样本的类概率输出;第5步 对于ωk,k=1,…,c,根据2.2计算模糊积分ek,集成各子支持向量机;

4.2 指标体系的建立

商业银行面临的信用风险主要与贷款企业本身的信用状况有关,另外还与银行自身贷款分布和行业集中度等因素有关,具体可分为贷款企业风险、商业银行风险、宏观经济风险和其他风险因素。

综合考虑信用风险的各影响因素,依据指标选择原则,借鉴我国财政部统计评价司的企业绩效评价指标体系和中国工商银行企业资信评估指标体系,并参考国内外有关文献,兼顾我国信用风险的特殊性和数据的可获得性,最终确定以下16个指标(图2)用作商业银行信用风险评估。

图2 信用风险评估指标体系

4.3 样本的获取

本文的数据来源于中国工商银行哈尔滨某分行,在采集数据时,注重样本自身的行业特征,不同行业的企业经营环境和业务范围差距很大,企业的各项财务指标和非财务指标也不具有可比性,而且又缺乏必要的行业标准和经验值,因此模型中选用同一行业短期贷款的样本数据来避开这一问题。采集的数据检索条件如下:

(1)样本行业范围:制造业;

(2)贷款种类:短期贷款(一年及一年以内);

(3)贷款发放日期:1998年1月1日至1月31日;

(4)贷款余额截止日:2001年8月13日;

(5)贷款金额:贷款实际发放金额;

(6)贷款余额:截止2001年8月13日确定为损失的贷款余额;

(7)贷款形态:贷款目前所处的形态;

(8)企业全称及代码:识别企业的唯一标识码;

(9)报表日期与报表:1997年12月31日的企业资产负债表和损益表;

(10)经过收集、整理共获取176个样本,涉及贷款额50多亿元人民币。

4.4 样本数据处理

首先对样本进行稳健性处理,选用两倍、三倍标准差检验法进行异常数据剔除,最终获得157个样本数据。将样本集划分为训练样本集和测试样本集,随机抽取35%(56家)作为训练样本集,用于构造SVMs集成模型,其余的65%(101家)作为测试样本集,用于检验模型的泛化能力。以风险为依据,按银行所承受的风险大小来划分贷款质量的分类法,即通常所说的将贷款分为正常、关注、次级、可疑、损失五类的“五级分类法”(表1)。原始数据中,关于原始数据的实际信用等级,该商业银行是按贷款损失占贷款总额的比率来进行统计的。本文采用的是用贷款损失/贷款总额来确定贷款划分的类型,因此不可能完全按照中国人民银行规定的贷款五级分类法的标准,具有一定的预测性,但是,同样,对贷款风险也有较好的指导作用。

在因子分析之前还需要进行巴特利特球体检验和KMO测度,测试结果显示有必要对模型输入指标进行因子分析。本文采用主成分分析法求解初始因子,依据特征值准则(取特征值大于等于1的主成分作为初始因子),因子个数应该确定为4,根据碎石检验准则(Scree Test Criterion)也得到同样的结论,而此时因子累计解释方差的比例可以达到74%以上,保留了原有数据的主要经济信息,并且各因子经济含义较为明确,表明因子个数的确定较为适宜。由于在因子负载矩阵中,相对于0.3的负载而言,变量的方差能够被该因子解释的部分不足10%,所以对于绝对值小于0.3的负载一般可以不予解释,各因子的经济含义较为明确,而且因子与指标间的内在联系比较显著,各因子依次可以归结为营运能力因子、偿债能力因子、盈利能力因子和贷款方式因子。

4.5 实证结果分析

依据表1,按银行所承受的风险大小来划分贷款质量,将贷款分为正常、关注、次级、可疑、损失五类,再将分类结果和实际的分类进行比较,判断分类的正确性,以此对信用风险模型进行评价。

本文采用一对一策略来实现多类别分类,训练出9个SVMs。各子支持向量分类器使用RBF核函数,每个SVM通过10重交叉验证的方法来选择相应的参数,本文进行了10次实验,并将本文提出的模糊积分支持向量机集成方法在五级分类上的执行效果与单一SVM和基于最多投票原则的SVMs集成等的执行效果进行比较,图3为平均执行效果比较,从左到右依次是:(1)神经网络集成;(2)单一模糊神经网络,(3)单一SVM,(4)基于最多投票SVMs集成,(5)基于模糊积分的SVMs集成。由图3可知,基于模糊积分的SVMs集成的分类正确率为87.10%,基于最多投票的SVMs集成的分类正确率为85.17%,单一SVM的正确率为84.524%,模糊神经网络的分类正确率为82.59%,神经网络集成的分类正确率为81.72%。

应用结果表明,基于模糊积分SVMs集成比单个SVM、基于最多投票的SVMs集成和单个模糊神经网络的分类效果好,而单个模糊神经网络的分类正确率比神经网络集成的分类正确率高。支持向量机集成的分类精度最高,可能是因为银行目前所保存的样本量有限,支持向量机适合小样本训练,而神经网络训练则需要大样本支持,在有限的样本中重复抽样,会减少样本量,这样就会降低神经网络的训练精度,从而进一步证明了支持向量机对于小样本训练的优势;并且模糊积分在进行多分类器决策融合的时候综合考虑了各子分类器的分类结果和各子分类器判决对最终决策的重要程度的缘故,证实了本文提出的方法的准确性和有效性。

5 结束语

本文提出了一个基于模糊积分的支持向量机集成方法。该方法最主要的优点是它不仅组合各个分类结果,而且考虑不同SVMs分类器的相对重要性。将此方法应用于商业银行信用风险评估,模拟结果表明该方法比单个SVM、基于最多投票的SVMs集成方法、神经网络和神经网络集成的效率高,效果好。说明基于模糊积分的SVMs集成的商业银行信用风险评价是可行和有效的。进一步研究的方向是设定更加合理的模糊密度和用其它方法(如加速法)来构建SVMs。

参 考 文 献:

[1]丁欣.国外信用风险评估方法的发展现状[J].湖南大学学报(社会科学版),2002,16(3):140 142.

[2]Jackson P, Perraudin W. Regulatory implications of credit risk modelling[J]. Journal of Banking and Finance, 2000, 24(1): 1 14.

[3]De Andres J, Linda M, Lorca P. Forecasting business profitability by using classification techniques: a comparative analysis based on a Spanish case[J]. European Journal of Operational Research, 2005, 167(2): 518 542.

[4]West D. Neural network credit searing models[J]. Computers & Operations Researeh, 2000, 27(4): 1131 1152.

[5]姜明辉,王欢,王雅林.分类树在个人信用评估中的应用[J].商业研究,2003,(12):15 19.

[6]Lee K C, Han I, Kwon Y. Hybrid neural network models for bankruptcy predictions[J]. Decision Support System, 1996, 18(1): 63 72.

[7]方洪全,曾勇.运用多元判别法评估企业信用风险的实例[J].预测,2004,23(2):6568.

支持向量回归模型 第6篇

台风是发生在我国沿海城市最主要的自然灾害,随着中国经济的飞速发展,沿海城市人口和财富的聚集度逐步变高,其造成的损失不断增加,台风的每次肆虐都给人民生命财产造成巨大的危害。因此,对台风可能造成的灾害进行有效的预评估,实现动态的抗台方案,以最大程度提高抗台防台的效率是当前刻不容缓需要研究的课题。

目前来说,国内也有专家和学者在做一些这方面的研究,并且也取得了一些成果[1,2,3]。其中,梁必琪、马清云等综合考虑致灾因子、承灾体和孕灾环境以及防台减灾能力因子的作用建立灾害评估模型,但是就其结果来看只能评估得出表征台风灾情等级的指数[1]。陈佩燕等在分析台风灾情的基础上建立了灾害损失的评估方程,能够进行定量的评估,但是其在影响因子选择方面考虑不全,只考虑了致灾因子的影响[2,3]。综合考虑以上两种思路的方法,本文欲在全面考虑致灾因素、承灾因素和抗灾因素的基础上,根据历史数据建立台风灾害损失的评估模型进行定量的计算。

支持向量机是数据挖掘中的一项新技术,其以Vapnik提出的统计学理论为基础,通过核函数实现非线性映射,将样本映射到高维特征空间,实现分类和回归[4,5]。其解决了神经网络导致的过学习与欠学习、局部极小等问题,近年来在气象领域得到了越来越广泛的应用。

本文选取我国台风影响较为严重的省份浙江作为研究对象,运用支持向量回归机对各影响因素与灾害损失数据进行历史拟合,得出训练模型,从而利用模型实现对台风灾害损失的定量预测。该研究对于应急救灾决策的部门制定科学的、合理的防台减灾及救灾的策略有着重要的意义。

1 支持向量回归机原理

支持向量机理论是统计学习理论发展以后形成的一种新型的机器学习的方法。传统的神经网络学习算法是基于经验风险最小化的准则的,即最小化训练误差从而试图使得期望风险最小。而SVM则是最小化训练误差准则基本思想的具体实现,但是为了最小化期望风险,做到同时最小化训练误差和置信范围,其以训练误差作为优化问题的约束条件,而以置信范围作为优化问题的目标,将问题转化为经典的二次规划问题,兼顾期望风险和经验风险,在两者之间折中选择,从而避免了局部最优解。而且,由于其算法中的核函数概念,使得在高维属性空间采用线性算法对样本的非线性特性进行分析成为可能,有效地克服了维数灾难。因此,无论是在理论基础还是在实际应用中,SVM都表现了其他机器学习方法无法超越的优越性。本文就非线性支持向量回归机的原理做简单的介绍(文中使用的方法)。其支持向量的分类以及线性回归理论在此不再赘述,具体可参考文献[6]。

支持向量机最初是用来分类的,后来才慢慢演变,被划分成如今的支持向量分类机和支持向量回归机。文中采用的是支持向量回归机的理论,其基本的思想是:对于给定的训练样本,通过支持向量机回归出一个函数f(x),使得通过该函数求出的每个样本的输出值和实际样本对应的输出值误差不超过ε,同时使得回归出的函数尽量平精[4,5]。文中通过支持向量回归机进行训练,建立了支持向量预测模型,并利用Matlab和其工具箱lib SVM进行了实例预测。

对于非线性回归,支持向量回归机的基本思路是通过非线性映射将输入空间映射成高维的特征空间,然后在特征空间中进行线性回归。它是通过核函数映射将非线性映射到高维空间的,目前核函数有很多种,但本文使用的是径向基核函数为:

因为径向基核函数对应的特征空间是无穷维的,有限的样本在该特征空间中肯定是线性可分的。

假设非线性模型为:,式中w为权矢量,b为偏置量,则通过优化方法得到的二次规划问题如下:

此时,非线性函数是未知的,而特征空间的维数很高,因此无法显式的表示出来,此时设核函数为k(x,x'),其满足k(x,x')=〈Φ(x),Φ(x')〉,则二次规划问题又变为:

2 资料和因子选取

台风数据的搜集和选取是一项比较复杂的工作,因为不同的国家部门对于数据的计算规则和期望不同,所以各部门的上报数据会大小有些差别。所以选择同一标准下的台风数据,对于台风的灾情评估准确度有着很重要的意义。本文选取1949年以来对浙江有影响,且灾情记录相对完整的33条数据组合成案例集,其中台风资料来自于《热带气旋年鉴》[7]和浙江省气象台数据,台风灾情的资料来源于国家救灾中心统计数据和浙江省统计年鉴,而省情的数据则来自于《浙江60年统计资料汇编》。

以所搜集的数据作为参考,本文选取“中心最低气压”、“最大瞬时风速”、“日降雨量”、“影响时长”作为台风致灾因素,选取“影响区域人口密度”、“农作物总播种面积”、“影响区域的地区生产总值”、“住房密度”作为受灾体的承灾因素,选取“人均GDP”、“就业人员”、“每万人在校大学生数”、“单位面积公路里程”、“每千人拥有床位”、“每千人拥有医生”作为受灾体的抗灾因素。以上综合考虑了台风灾害损失产生的一些影响因素,作为模型的输入。其中“中心最低气压”、“最大瞬时风速”是台风登陆时的中心气压和近中心最大风速,“日降雨量”取自于台风发生时间内各站点前五个值的日平均值。“影响区域的人口密度”为浙江省各年份年末总人口与浙江省面积的比值,单位为人/平方公里。其余数据直接取自于各参考资料。

统计资料显示,农作物受灾面积、因灾死亡人口、因灾损毁房屋和直接经济损失等是政府及相关部门最关注的核心灾情[8]。因此,本文选取“农作物受灾面积”、“因灾死亡人口”、“因灾损毁房屋”和“直接经济损失”分别作为模型的输出,进行定量预测。其影响因素罗列如图1所示。

本文将全部33个样本中30个样本作为训练样本,其余样本作为独立样本进行模型的检验。

3 支持向量回归机模型的建立、分析与检验

本文使用台湾某教授开发的LIBSVM工具包进行实验,通过多次训练,以相关系数和均方差为标准,分别将农作物受灾面积、因灾倒塌房屋、因灾死亡人口和直接经济损失为输出,对模型进行训练。

首先,评估台风灾害的直接经济损失是一个备受争议的问题[9,10],一般分为两种处理方式,一种是评估时直接取当年的直接经济损失值,另一种则是取当年直接经济的损失值与当年承灾体的地区生产总值(地区GDP)的比值,也即对直接经济损失率进行评估。

如图2所示,为归一化后GDP、直接经济损失和直接经济损失率的变化图,图中横坐标是样本序列按照时间顺序排列的,随着年份的增长,地区生产总值不断增加(·线所示),带来的是同样强度的台风造成的直接经济损失显著增加(线所示-样本序列的前半部分以明显低于后半部分的直接经济损失存在),而对应的直接经济损失率则表现了不一样的起伏(×线所示)。因此评估中若使用直接经济损失值来表示台风灾害损失的情况,会使得早期台风灾情的情况偏小[11]。灾害的直接经济损失大小也与很多因素有关,本文选取最简单的直接经济损失率来表征灾情的损失情况,有一定的可行性。所以本文在对直接经济损失作处理时,特地将直接经济损失和直接经济损失率都进行了学习,并训练得到相应的训练模型,考虑历史数据的拟合度上,直接经济损失率的拟合度要高的多,进一步证明了本文对直接经济损失率进行评估是合理的,因为从1949年至今的经济跨度是不可度量的,只有对发生在当下的数据处理才能更符合实际情况。

其余损失情况按照原值处理,因为各指标值有自己的量纲,所以在进行训练之前,必须将所有指标进行无量纲化处理。不同的数据标准化方法,对评价结果影响较大。常见的各种标准化方法都有各自的特点。若评价只是为了排序,则无论使用什么标准化方法,都不会对排序产生什么影响。而对于需要进一步分析评价对象差距以及评价对象进行分级的评价[12],则需要慎重考虑所使用的标准化方法。本文通过多次实验使用最大最小法实现对数据的归一化处理,该部分通过Matlab程序与svr一起实现。

3.1 直接经济损失率

图3是直接经济损失率的历史数据拟合情况,从图中可以看出回归预测的曲线与原始数据曲线表现出了很好的拟合度,其均方误差为0.00133656,相关系数或称拟合度达到98.2945%。而实验过程中,尝试对直接经济损失直接进行评估时发现,其历史数据的拟合度只达到78.7%。从历史数据的拟合上看,直接经济损失率更加能够满足机器学习的规律,但是对于实际样本的预测效果还需要看后期样本的检验结果。

数据训练完成之后,将剩下的三组样本作为预测样本进行检验,以验证网络的精度和适用性。

其中,r为预测三组数据对应的输入矩阵,model为训练出的模型,以下预测采用同种方法进行检验。其对剩余三个样本的直接经济损失率拟合结果如表1所示。

3.2 因灾死亡人口

图4是因灾死亡人口的历史数据拟合图,从图中可以看出整体来说,大部分点的拟合性良好,只在个别样本出现大的差别,例如5612号台风和9417号台风,其中5612号台风为超强台风,其灾害造成死亡的人数为4925人,而9417号台风造成死亡的人数为1126人,究其模型不能很好地学习的原因是该两个台风登陆时,都适逢农历天文大潮汛,沿江潮位历史极高使得伤亡惨重,在加上以前水利工程调节能力不足,导致模型在此两个台风出的拟合灾情较轻。但其模型的的均方误差为0.020875,拟合度为86.3449%。运用模型对检验样本进行拟合的结果如表2所示。

3.3 因灾倒塌房屋

图5是因灾倒塌房屋的历史数据拟合图,其与因灾死亡人口的情况类似,在个别点表现出了不太理想的吻合性,分别为5612、9417和9711号台风。因为在台风影响因子中,没有考虑天文大潮因子,所以在因受到天文大潮影响而使得灾情严重的台风的拟合上,模型的学习效果不好。该模型的历史数据相关系数为81.3379%,均方误差为0.0149753。随着科学技术的发展,房屋的建造技术和坚固程度不断提高,但其房屋的密度也在不断增大,房屋倒塌损失的影响因子有很多,本文也并无考虑台风路径对该损失的影响,台风发生的地点、经过的路径是其破坏程度的重要影响因子,这也可能是导致因灾倒塌房屋拟合度稍低的重要原因。其用于台风0608、0713和0716号台风的预测结果和实际结果比对如表3所示。

3.4 农作物受灾面积

图6是农作物受灾面积的历史数据拟合图,该模型的拟合度为93.4451%,均方误差为0.00398815。拟合结果良好,其用于检验样本的结果比对如图所示。其大部分数据差不多是完全吻合的,在三个点处出现分歧,其分别为8921、8923和9507,其与很多原因有关,随着年代的变化,沿海经济的发展使得沿海滩涂大面积开发,其极易受到潮汛洪水的危害,同时影响浙江的热带气旋强度也在增大,使得部分点的预测量不能够很好吻合。表4是农作物受灾面积预测结果的比对情况。

模型预测误差存在的原因有很多,上面只是一些简单的分析,时代在不断前进,偶然因素、环境因素、样本数据的多少等都会导致预测的精度发生巨大的变化,本文旨在找出一种模型或方法,使其尽量与实际情况吻合,能够在一定程度上反映台风灾害造成损失的深度,并初步预测出未来台风能够造成损失的程度,为防灾减灾工作提供一些依据。消除误差是不可能的,尽量减小误差提高预测的精度才是一项长久的课题。

4 结束语

本文给出基于支持向量回归机理论构建的台风灾害损失评估模型,提出的评估方法是在前人研究的基础上做的探索。利用收集到的台风数据,选取台风发生前能够知晓的各项预测数据及可能承灾体相关信息的15个参数,基于支持向量回归机的理论方法,建立台风灾害损失的预测模型,该训练方法使得训练模型的历史数据拟合度分别为:98.29%、86.34%、81.34%和93.45%。样本检验的结果表明,利用支持向量回归机理论方法构建的预测模型在台风灾害损失预测中是有效的,其评估结果在一定程度上与实况是相符的,但比较而言对于其中一些灾损的评估效果还有提升的空间,为进一步完善评估模型,需要对更多致灾案例和承灾体进行评估,同时重点加强对支持向量机方法的研究,以便在今后的应用中能够更加准确快速地进行灾前预测和评估,为防台减灾工作提供有力的依据。

参考文献

[1]樊琦,梁必骐.热带气旋灾害经济损失的模糊数学评测[J].气象科学,2000,20(3):360-365.

[2]马青云,李佳英,王秀荣,等.基于模糊综合评价法的登陆台风灾害影响评估模型[J].气象,2008,34(5):20-25.

[3]陈佩燕,杨玉华,雷小途,等.我国台风灾害成因分析及灾情预估[J].自然灾害学报,2009,18(1):64-73.

[4]安金龙,王下欧.一种适合于增量学习的支持向量机的快速循环算法[J].计算机应用,2003,23(10):12-14.

[5]Smola J,Scholkopf B.A Tutorial on Support Vector Regression[Z].Technical Report NC2-TR-1998-030.NeuroColt2 Tech-nical Renort Series,1998:1-20.

[6]刘勇.一种新的支持向量回归预测模型[D].华中科技大学硕士学位论文,2007.

[7]中国气象局.热带气旋年鉴[M].北京:气象出版社,2000-2008.

[8]周媛.江苏省沿江开发绩效综合评价模型研究[D].南京信息工程大学硕士学位论文,2006.

[9]董玉恒,白求恩.曲线拟合度和拟合优度检验的局限性及新设想[J].现代预防医学,1996,23(3):137-138.

[10]王红芳.集中分析在频率曲线拟合度定量评价中的应用[J].水利水电技术,2007,38(4):1-3,15.

[11]Su S F,Lin C B,Hsu Y T.A High Precision Global PredictionApproach Based on Local Prediction Approaches[J].IEEE Trans.Syst.,Man,Cybern.,2002,32(4):416-425.

支持向量回归模型 第7篇

在计算机视觉领域,随着图像处理技术的不断发展,人们开始尝试使用数字图像处理技术来提高图像分辨率。图像的分辨率越高,细节表达就越清晰,从而提供的信息就越精确。图像的超分辨重建研究成为图像处理领域里的一个研究热点,研究学者致力于使用超分辨率重建技术对输入的低分辨率 (LR)图像进行处理,以得到一幅或多幅高分辨率 (HR)图像。经过处理后得到的高分辨率图像一方面在图像的视觉质量上得到了改善,另一方面也更利于图像特征提取与目标识别。图像超分辨重建是一种图像融合技术,其基本思想是结合一定的先验信息,通过对图像之间的相关或相似信息进行融合来重构出高分辨率图像,弥补了观测图像在信息提供方面的局限性。

目前图像超分辨重建技术已成为获得高分辨率图像的一个实用且有效的方法,它不仅可以克服图像在成像过程中的限制,达到提高图像分辨率、改善视觉质量的目的,同时也能在不改变成像设备的前提下节约经济成本。

支持向量机回归(SVR)是一种基于核函数的回归方法,具有较好的非线性映射能力。在文献[1]中将超分辨率重建看成是一个回归问题, 使用SVR方法在DCT域中解决超分辨重建问题, 随后又提出了一些改进方法[2],但传统SVR方法需要大量的图像来获得训练模型,计算复杂度比较高,而现有图像统计研究[3]表明,图像可以从过完备字典中通过稀疏线性组合很好地表示。当图像块特征用稀疏表示系数表征后, 能够更加简单、明了地对图像块进行表示,从而使计算复杂度降低,同时图像的重建效果还能有一定的提高。

1 传统的基于支持向量回归的算法

传统的基于SVR的超分辨算法主要分两步:训练过程和学习预测过程,具体算法流程图如图1所示。

图1(a)训练过程 (b)预测过程

训练过程中的图像退化模型一般可以表示为:

Y=HFX+V (1)

其中的X是已知的标准数据集的高分辨率图像, H为相应的模糊函数,F是下采样矩阵,V是噪声。

传统的SVR的特征一般是用简单二维高斯分布来确定小图像块中像素的权重。

图像的特征提取的合理与否,对SVR训练的模型将产生巨大的影响,而在预测阶段,通过训练得到模型的优劣很大程度上决定SVR在图像重建时效果的好坏。因此,图像特征表示方法将决定SVR算法对图像超分辨重建的结果。

2 改进的基于支持向量回归的算法

我们提出的改进的不同于传统SVR的算法中, 并不是用传统简单的二维高斯分布来确定小图像块中像素的权重作为特征来进行训练。我们采用分割的小图像块的稀疏表示系数向量作为小图像块的特征用于SVR训练。下面将详细介绍。

(1)在训练阶段时,先将原来已知的训练样本的HR图像X进行模糊和下采样得到相应的LR图像Y, 用Mean-Shift算法提取Y图像的高频部分并标记,再通过插值将LR图像变换成与原来HR一样大小的图像X1,X1图像中将会含有Y中标记的图像块,以用于X1图像中标记高频图像块部分和低频图像块部分分别训练。

(2)特征提取用稀疏表示系数时,不是直接建立LR和HR对应的分割图像块训练对,而是用Dh和D1分别对应低频和高频的图像块对的字典,然后用K-SVD[4]字典算法来得到训练字典。当输入一幅图像时,通过OMP[6]算法来获得图像的稀疏表示系数向量。

(3)下面介绍稀疏表示系数的建立过程。

稀疏表示要解决的问题用公式可以表示为:

其中D1是低频部分的训练字典,d1是低频图像块的稀疏表示向量,F是图像块的特征表示算子,y是低频图像块。

上式零阶范数是一个NP问题,但最近的研究结果表示,只要d1稀疏表示向量是足够稀疏,那么它可以有效地从最小化一阶范数恢复出来,即:

而一阶范数可以用拉格朗日乘子法得到等价的公式:

其中λ用来平衡稀疏结果和图像块y的保真度。上式能比较容易地求解得到特征系数。

高频图像块的特征表示和低频图像块的特征表示过程是一样的。

(4)改进的SVR特征表示不是用传统简单的二维高斯分布来确定像素值的权重作为特征来进行训练。我们分别通过OMP[5]算法根据训练好的字典获得低频图像块和高频图像块的稀疏表示系数向量, 替代原来支持向量回归中用的特征表示方法,用于训练阶段的模型的建立过程。

而在预测过程中也是用同样的稀疏表示系数向量来表示特征的。

(5)在训练阶段,SVR要解决的问题可以表示为:

其中y是一个标签表示在图像块中的心位置;n是训练样例个数;φ (ai)是图像块稀疏表示向量;w表示被学习的非线性映射函数;C是松弛变量ζ , ζ*的平衡因子。

其对偶问题是:

这就变成一个容易计算的凸二次规划问题。训练完成后得到训练模型用于预测输入的低分辨的图像块对应的高分辨图像中的像素值。

(6)在预测阶段,对输入的图像进行与训练阶段一样的预处理后,用OMP[5]算法,分别获得相应低频和高频块的稀疏系数向量用作SVR的预测的输入,通过上面已经训练的模型获得高分辨率图像中对应的低频和高频图像块的中心像素值,至此,高分辨率图像重建完成。

3 实验结果

实验图像来源于南加利福尼亚大学图像数据库 (USC-SIPI),下采样和图像超分辨率重建倍数均为2。SVR是用的LIBSVM[6],其中核函数采用的是高斯核函数,在SVR中的参数是经交叉验证,其中C=363, ε=1.8,高斯核函数的标准差为1。用于训练和测试的图像分别如图1和图2所示。PSNR为峰值信噪比,常用来作为图像重建结果的客观评价指标, 其数学定义形式如下:

其中M,N分别为重建图像的尺寸大小,f表示重建后的图像,f表示原始的高分辨率图像。PSNR的值越大,表示重建图像和原始图像越接近。

训练图像分别为lena,man,tree,lake,truck,house,Elaine,girl

测试图像分别为boat,cameraman,pepper,clock,synthetic,car

PSNR的实验结果如表1所示。

通过PSNR表可以看出,本文提出的方法与已有三种方法相比在重建效果上有一定的提高。由于篇幅 所限仅给 出其中两 幅图像 (boat如图3, cameraman如图4)的重建效果图。

boat (a)原图(b)插值法(c)传统SVR[2]d)稀疏方法[3] (e)本文

cameraman(a)原图(b)插值法(c)传统SVR[2] (d)稀疏方法[3](e)本文

4 结束语

本文提出了一种基于SVR和稀疏表示的图像超分辨率重建算法,是对传统SVR方法的一种改进。算法中用图像块的稀疏系数作为支持向量机的输入, 通过学习低分辨率图像块的稀疏系数和高分辨率图像块的中心像素点之间的关系进行重建,这种SVR和稀疏表示的有效结合实现了图像超分辨率重建质量的提高,实验结果验证了算法的有效性。本文中只是简单的运用了图像块的稀疏表示系数与SVR结合进行图像重建,在未来,SVR的非线性预测能力和稀疏表示对信号的线性逼近能力如何更有效地联合运用是一个值得研究的方向。

参考文献

[1]Ni K S,Kumar S,Vasconcelos N,et al.Single image super resolution based on support vector regression[C]//Acoustics,Speech and Signal Processing,2006.ICASSP 2006 Proceedings.2006,2:II-II.

[2]An Le,Bhanu Bir.Improved image super-resolution by support vector regression[C]//Neural Networks(IJCNN),The 2011 International Joint Conference on.IEEE,2011:696-700.

[3]Yang J C,Wright J,Huang T S,et al.Image superresolution as sparse representation of raw image patches[C].CVPR,2008.

[4]Aharon M,Elad M,Bruckstein A.The K-SVD:An algorithm for designing of over-complete dictionaries for sparse representation[J].IEEE Transactions on Signal Processing,2006,54(11):4311-4322.

[5]Needell D,Vershynin R.Signal recovery from incomplete and inaccurate measurements via regularized orthogonal matching pursuit[J].IEEE Journal of Selected Topics in Signal Processing,2010,4(2):310-316.

支持向量机模型参数选择方法综述 第8篇

支持向量机模型参数是影响其性能的重要因素,但是目前模型参数的选择并没有固定的方法和理论,因此SVM的参数选择一直是一个研究的热点问题。

1 模型参数的影响

经分析对支持向量机有着重要影响的参数是:惩罚因子C,核函数及其参数的选取。

惩罚因子C用于控制模型复杂度和逼近误差的折中,C越大则对数据的拟合程度越高,学习机器的复杂度就越高,容易出现“过学习”的现象。而C取值过小,则对经验误差的惩罚小,学习机器的复杂度低,就会出现“欠学习”的现象。当C的取值大到一定程度时,SVM模型的复杂度将超过空间复杂度的最大范围,那么当C继续增大时将几乎不在对SVM的性能产生影响。

SVM的核函数包括线性核函数,RBF核函数,多项式核函数,高斯核函数等,对于构建一个SVM模型来说首先需要做的就是选择核函数和核参数。根据Vapnik等人的研究表明[2],对于不同类型的核函数,SVM模型所选择的支持向量的个数基本相同,但是其核函数参数和惩罚因子C的选择却对SVM模型的性能有着重要影响,如RBF核函数的参数gamma的取值就直接影响模型的分类精度,也就是说对于一个RBF核的SVM模型,要想提高其分类精度首先需要考虑的就是如何选择其核参数gamma和惩罚因子C。

2 模型参数的选择方法

2.1 穷举法

所谓穷举法就是在支持向量机模型确定以后,先根据经验对其惩罚因子C和核函数固有参数进行初始化赋值,然后通过实验测试,再根据测试数据反复调整参数值,直到得到满意的结果为止。实验表明,随着C的增加,分类精度迅速提高,但是继续增加C,性能的变化并不明显,当C的值足够大的时候,模型的性能将不再随着C的变化而变化了。通过分析我们可以知道,当C开始增加,模型的复杂度随之增加,支持向量的个数随之减少,而处于边界的支持向量则迅速减少。而当C的值足够大的时候,模型中边界支持向量的数量为0的时候,C的变化就不会再影响模型的性能。

穷举法是目前使用最为广泛的参数选择方法之一,其操作简单而有效。但是其对参数的调整完全凭借经验,缺乏足够的理论依据。该方法对于不同数量的样本,不同的核函数来说,其调整方法都可能是不同的,特别是当调整幅度比较大以及核函数参数比较多的时候,调整将会变得比较复杂。

2.2 交叉验证法

所谓交叉验证法就是指在训练SVM模型开始之前,对其训练数据进行一部分保留,然后利用这部分数据对训练后的模型进行评估。一般比较常用的是K折交叉验证法(K-fold cross validation)。首先,将训练数据平均分成K组,然后取出其中一组进行保留,然后使用剩下的K-1组进行训练构建模型,最后用保留下的一组对训练出来的模型进行评估检测。将以上过程重复K次,保证每组数据都被保留测试过,然后根据K次评估检测得到的值来估计期望泛化误差,以此选择最优的参数。

交叉验证法是统计学习中的著名方法,被称为对泛化误差的无偏估计,它能够有效的防止过学习现象。它既具有一定的训练精度,又获得良好的泛化性能。目前该方法使用广泛,但是如果参数较多该方法将耗费大量时间,而且计算量大也是其缺点之一。

2.3 梯度下降法

2002年,Chapelle[3]等提出了一种采用梯度下降法、通过最小化一般错误的分解上界实现SVM参数的自动选择。梯度下降法,就是利用负梯度方向来决定每次迭代的新的搜索方向,使得每次迭代能使待优化的目标函数逐步减小。其公式如下所示:

xn+1=xn-a*gn

其中a为称为学习速率,可以是较小的常数。gn是xn的梯度。使用梯度下降法来对SVM参数进行选择首先需要根据经验确定一组参数,作为梯度下降法的初始点,然后再使用梯度下降法寻找最佳参数。

虽然该算法在计算时间上比之交叉验证法和试凑法有了明显改善,但是梯度下降法对初始点要求较高,而且是一种线性搜索法,因此极易陷入局部最优。

2.4 网格搜索算法

2003年,Hsu,Chang,和Lin[4]提出使用网格搜索算法,求SVM惩罚因子和RBF核参数的最优解。网格搜索法是目前比较常用的数据搜索方法之一,对于RBF核SVM模型来说,其算法流程如下所示:

首先,对于惩罚因子C和RBF核参数gamma分别确定其取值范围和搜索步长,从中得到M个C的值以及N个gamma的值。

然后,根据M个C和N个gamma构建M*N组不同参数,使用每个参数构建SVM模型得到分类精度,以此确定最优的参数组C和gamma。

最后,如何最佳分类精度依然没有达到要求,就可以根据分类精度曲线重新选择取值范围和搜索步长,进行细搜索直到满足要求为止。

网格搜索法的优点就是可以对多个参数同时进行搜索,参数之间相互联系相互制约的关系,使其能够更好更快的得到最优解。而M*N组参数之间则是相互独立,这使得其可以进行并行搜索提高运算效率。其缺点就是当参数比较多时,如多项式核参数有3个,再加上惩罚因子C,也就是说对于多项式核SVM模型来说,需要对4个参数同时进行选择,假设4个参数的取值个数分别为M,N,P,Q,那么使用网格搜索法将计算M*N*P*Q组参数,计算量巨大。

2.5 基于遗传算法的SVM模型参数选择

通过分析,我们可以知道SVM模型的参数选择问题就是一个优化搜索问题。而遗传算法本身就是一种被广泛应用的随机搜索优化算法。遗传算法本身具有很强的鲁棒性,不依赖于问题的具体领域。强大的全局搜索能力和可并行性使其能够快速有效的搜索到全局最优解。因此使用遗传算法对SVM模型参数进行选择是可行的。其算法流程如下所示:

首先,选择SVM模型的核函数并确定惩罚因子C和核参数的编码方式和染色体结构。根据染色体结构设计和构建遗传算法的选择,交叉,变异等算子。

其次,随机产生染色体的初始种群,并对种群中的所有染色体进行解码,每个染色体就是一组参数。

然后,使用每组参数训练SVM分类模型并使用该模型对测试数据进行测试,得到其识别率。将该识别率作为参数所对应的染色体的适应度值。

最后,判断种群中最优适应度值是否达到要求,如果是,则将最优适应度所对应的染色体进行解码得到最优参数组,否则,开始遗传操作,对种群进行选择,交叉,变异等操作得到新一代的种群。

Chen[5]和Zheng[6]采用不同的推广能力估计作为遗传算法的适应度函数,提出了两种基于遗传算法的SVM模型参数优化方法,结果表明利用遗传算法对SVM参数进行优选不仅缩小了计算时间,而且还降低了对初始值选取的依赖度。

2.6 基于粒子群算法的SVM模型参数选择

2006年,Lee和Cho[7]提出使用粒子群算法用于求解SVM参数优化问题。粒子群优化PSO(Particle Swarm Optimization)算法是一种新兴的基于种群智能的随机全局优化算法,通过种群中粒子间的合作与竞争产生的群体智能指导优化搜索,与进化算法比较,PSO算法保留了基于种群的全局搜索策略,采用简单的速度位移模型,避免了复杂的杂交、遗传和变异等操作整个粒子群算法中体现了粒子在寻找食物源(最优解)中既保持自身惯性,又利用个体认知和社会认知不断修改自身飞行方向,最终导致群体朝食物源靠近。

PSO算法首先随机产生n组参数作为初始粒子群,然后通过迭代找到最优解,在每一次迭代中粒子通过个体最优解和群体最优解两个值来更新自己,使得整个种群朝着最优解的方向进化。

3 总结

综上所述,试凑法,交叉验证法因其操作简单被广泛应用,但是对于参数较多的情况来说,它们都有着计算大,速度慢,效果不好等缺点。梯度下降法比前两种方法在速度上有了很大改善,对其初始点要求较高,而且是一种线性搜索法,因此极易陷入局部最优。网格算法的优点在于可以并行处理,而其缺点为计算量巨大。遗传算法具有鲁棒性强,便于并行处理,对函数要求不高,不容易陷入局部最优,但是其操作比较复杂,需要针对不同的问题设计和调整选择,交叉,变异算子。粒子群算法则存在易于陷入局部最优导致的收敛精度低和不易收敛等缺点。以上几种SVM模型参数选择方法是目前比较常用的方法,本文只是对各种算法的基本原理进行了介绍。而针对特定问题为以上算法进行改进从而获得更好的性能是目前研究热点之一。

支持向量机的输入特征子集是影响SVM性能的另一个重要因素。由于SVM模型参数选择和特征子集的选择是相互影响相互制约的,所以如何实现它们的同步优化是目前的主要研究方向之一。2006年,Huang和Wang[8]提出使用遗传算法同时对SVM进行模型参数优化和特征选择。同年,Huang和Wang将基于遗传算法的SVM应用于信用评估系统。2008年,Shih-Wei Lin和KuoChing Ying[9]提出使用粒子群算法同时对SVM进行模型参数优化和特征选择。

总的来说,随着支持向量机在人工智能,模式识别,数据挖掘等领域的深入发展,制定一套通用性比较好的标准化的模型参数方法是所有相关专家的共同目标。

摘要:支持向量机是机器学习和数据挖掘领域的热门研究课题之一,作为一种尚未完全成熟的技术,目前仍有许多不足,其中之一就是没有统一的模型参数选择标准和理论。在具体使用中,对支持向量机性能有重要影响的参数包括惩罚因子C,核函数及其参数的选取。文章首先分析了模型参数对支持向量机性能的影响,然后对几种常用的模型参数选择方法进行介绍,分析以及客观评价,最后概括了支持向量机模型参数选择方法的现状,以及对其发展趋势进行了展望。

关键词:支持向量机,模型参数选择,惩罚因子,核函数,核参数

参考文献

[1]Vapnik V.Statistical learning theory[M].New York:1995.

[2]Vapnik V.统计学习理论的本质[M].张学工,译.北京:清华大学出版社,2000.

[3]Chapelle O,Vapnik V,Bousquet O,et al.Choosing Multiple Parameters for Support Machines[J].Machine Learning,2002,46(3):131-159.

[4]Hsu C W.Chang C C,Lin C J.A practical guide to support vector classification[R].University of National Taiwan,Department of Computer Science and Information Engineering,2003:1-12.

[5]YAN X F,CHEN D Z,HU S X.Chaos-genetic algorithms for optimizing the operating conditions based on RBF-PLS Model[J].Com-puters and Chemical Engineering,2003,27(12):1393-1404.

[6]ZHENG Chunhong,JIAO Licheng.Automatic parameters selection for SVM based on GA[C].Proc of the5th World Congress on Intelli-gent Control and Automation.Piscataway,N J:IEEE Press,2004:1869-1872.

[7]Tsair-Fwu Lee,Ming-Yuan Cho,Chin-Shiuh Shieh,Fu-Min Fang.Particle Swarm Optimization-Based SVM Application:Power Transformers Incipient Fault Syndrome Diagnosis[C].International Conference on Hybrid Information Technology,2006:468-472.

[8]Huang Ch L,Wang Ch J.A GA-based feature selection and parameters optimization for support vector machines[J].Expert Systems with Applications,2006,31:231-240.

支持向量回归模型 第9篇

关键词:证券投资,移动平均线,支持向量机

0引言

随着金融市场的逐步完善,参与证券交易的投资者在不断的增多,研究判断当前市场的运行趋势成为广大投资者密切关注的问题。由于传统的证券分析方法需要投资者有较丰富的金融知识和证券投资经验,并且主观性较强,对普通投资者而言不宜掌握。近年来,国内外学者纷纷采用人工神经网络、支持向量机(SVM)等机器学习方法对证券交易数据进行处理,试图揭示证券交易数据背后所蕴含的意义。典型的如文献[1]应用一种改进的时间序列分析算法对股票走势进行了预测,并取得了不错的预测效果。文献[2]应用Elman递归神经网络建立股市预测模型并进行了实证研究,研究结果说明Elman递归神经网络应用于中国股票市场的预测是可行和有效的。文献[3]运用SVM对韩国的股指进行了预测,结果表明SVM的预测效果明显优于BP神经网络和基于案例学习的预测效果。

在使用SVM对证券投资进行实际研究时,常常涉及增量学习的样本选择和动态模型选择问题。传统的样本淘汰算法是基于支持向量或权重的,但前者应用在证券分析中并不理想,而后者的权重设置也缺乏适当的衡量标准[4,5]。我们认为对于实时动态变化的证券市场而言,SVM模型应随时间的推移而进行动态的调整,其中相关参数的动态优化是非常必要的。另外,为提高预测的实时性,有必要将样本集大小进行适当的控制。本文针对以上问题,提出基于动态边界缩放的PSO优化算法和基于移动窗口的支持向量回归相结合的预测方法,对沪深300指数进行预测[6]。模拟实验证明,该方法提高了模型训练预测的实时性,并一定程度上提高了预测效果,实际效果较佳。

1基于动态边界缩放的PSO和移动窗口的SVM预测方法

1.1基于动态边界缩放的PSO优化算法

PSO粒群优化算法是一种进化优化算法,模拟简单个体组成的群落与环境以及个体之间的互动行为,由Eberhart博士和Kennedy博士提出,其思想源于对鸟群捕食的行为研究,是一种基于迭代的优化工具[6]。算法最初初始化为一组随机解,然后通过不断的迭代搜寻最优值,目前已广泛应用于函数优化、SVM的参数优化和模型选择、神经网络训练、模糊系统控制等应用领域。

设第i个粒子表示为Xi=(xi1,xi2,…,xin),它飞过的最好位置记为Pi=(pi1,pi2,…,pin),称为个体极值pbest。群体所有粒子经历过的最好位置记为gbest。粒子i的速度用Vi=(vi1,vi2,…,vin)表示。对于第i次迭代,其计算公式如下:

其中1≤dD,D为搜索空间维数w称为惯性权重,调整参数w可以针对不同的搜索问题,平衡算法的全局和局部搜索能力。c1和c2为加速常数。rand()为取值在[0,1]范围里的随机函数。与遗传算法中染色体之间互相共享信息不同,PSO中信息的共享是一种单向流动,由gbest传递给其它粒子,整个的寻优过程就是跟随当前最优解的过程。这使得粒子可以更快的速度收敛于最优解。

由于SVM模型的预测精度与参数的选择密切相关,因此通常的做法是在SVM学习前使用PSO算法进行参数优化以提高模型的预测精度。但这种静态优化方法应用在如指数这种时变的序列中却存在一些问题:因为随着时间的推移,训练样本集逐渐发生变化,导致对应的最优参数也随之逐渐改变。一个很自然的想法是在每一次新的模型训练之前,重新进行参数优化。但随之而来的问题一是每次重新搜索的计算开销较大,特别是在证券指数预测这种流数据情况下,究其原因是PSO算法实质上是一种在多维空间中进行优化搜索的算法,搜索空间的大小对其计算开销影响较大。二是新的优化过程无法利用上一次的优化结果,使得参数的优化过程缺乏连续性。基于以上两个原因,我们提出基于粒子边界的动态缩放来实现基于PSO的动态优化从而提高SVR参数优化的效率。

这种策略基于以下推测:假如当前训练集的最优参数为Bestc和Bestg,则增加或减少一个交易日的数据之后,新的最优参数Newbestc和Newbestg应当可以在前最优参数的附近区域找到,毕竟两者的训练集只有一个样本点的差异。显然,如果推测成立,则新的PSO搜索边界可在当前最优参数的基础上乘以一缩放因子获得。这样一是可以大幅缩小搜索空间从而提高优化效率,二是可保持优化过程的连续性和动态特性。通过上百次的测试发现,该算法可行且效果比较理想。以RBF核函数的SVR参数优化为例,其示意代码如下:

其中Bestc、Bestg为当前最优参数值,k1、k2、k3、k4为缩放因子,Cmaxnew、Cminnew、gmaxnew和gminnew为C、g参数新的搜索区间的上下边界。缩放因子的取值按实际情况选定,在我们的研究中,一般取k1=k3=1.5,k2=k4=0.5,测试效果较好。

1.2基于移动窗口的支持向量机回归

设以某种未知概率分布p(x,y)生成的样本集T={(x1,y1),…,(xl,yl)}∈(χ×y),其中xiχ=Rn,xiy=R,寻找一适当的实值函数f(x)=w.ϕ(x)+b来拟合这些训练点,使得期望风险R[f]=∫c(x,y,f)dP(x,y)最小,这就是支持向量回归,其中,c(x,y,f)为损失函数。与支持向量分类机yi∈{-1,1}取值不同,在支持向量回归中yi可以在整个实数范围内取值,即yiR

由于概率分布p(x,y)未知,因此无法直接求解minR[f],因此考虑最小化:

e(w)=12w2+ci=1l|yi-f(xi)|ε (4)

这里第一项表示函数f(x)的复杂性,第二项表示训练集上的总损失。引入参数C来度量平衡函数类的复杂性和训练集上损失的折中关系。这等价于求如下最优化问题:

按拉格朗日乘子法,可推出其对偶形式并最终得到其最优解α¯=(α¯1,α¯1*,α¯l,α¯l*)Τ

由于证券指数是一个动态变化的时间序列,随着时间的推移,样本数据也随之增加,导致训练时间也随之增加,加上参数动态优化的时间,使得回归模型的实时性能降低。因此,在基于SVM的在线学习与预测中,样本集的选择和淘汰策略是必须加以重点关注的。现在常用的样本选择策略是从非支持向量中选择样本进行淘汰,但这种策略对于指数预测而言却并不是十分恰当的,其原因在于:一是在在线学习中,随着新样本的加入,最优分类面会发生轻微变动,原来的非支持向量可能会成为支持向量;二是这种策略没有考虑样本在时间维度上的权重。而对于指数预测而言,样本数据时日的远近对近期指数预测的影响是不同的。有研究指出,当日指数只对随后最多八个交易日的指数产生影响,并且时日相距越远,影响越弱。除此之外,样本集大小的选择对SVM在线训练和预测的时间开销也有较大的影响。选择适当大小的样本集,可以减少训练时间,降低存储消耗,在一定程度上还能提高学习器的精度和准确率。

那么样本集如何确定呢?就理想情况而言,样本集大小应该是可随着市场的变化而动态调整的,类似参数动态优化一样。不过为了将问题简化,我们将样本集大小在整个训练和预测过程中保持不变,并根据证券指数本身的特点来减少样本选择上的时间消耗,样本集的淘汰策略直接采用先进先出的策略。这种策略可以形象地视为一个观察窗口在一个时间序列上的移动,在整个过程中,窗口大小不变,每新增一个样本数据,则淘汰一个最先的样本数据。上述过程用数学语言可简要表述如下:

设每日收盘指数构成的时间序列index=s1,s2,…,sn,以采样周期d生成样本集,其中输入向量和输出向量可以表示为:

xi=(si-1,…,si-d) yi=sii=1,…,l

这里l代表采样后的样本集大小。如设移动窗口大小为w,则由移动窗口策略,第T个交易日对应的训练集为:

Xt=(xt,…,xt-w+1) Yi=(yt,…,yt-w+1) t=w,…,l

对应的最优化问题变为:

min12(w.w)+Ck=tt-w+1|yk-f(xk)|ε (6)

该最优化问题可由前面所述的支持向量回归机算法求解。

2实证分析

2.1实证研究设计

本文采用500个交易日的沪深300收盘指数作为原始数据,以采样周期3生成输入向量,使用移动移动窗口技术和动态边界缩放的PSO参数优化方法,测试不同情况下的预测结果。对于预测结果的评价,我们综合多方面的考虑,采用以下的评判标准:

• 均方误差 其计算公式为ΜSE=1ni=1n(yi*-yi)2。该值衡量回归的拟合程度,得数越小越好,其中yi*表示预测值,yi表示真实值。

• 平均绝对偏差 计算公式为e=1ni=1n|yi*-yi|2。该值越小越好,其中yi*表示预测值,yi表示真实值。

• 预测方向的正确率 计算公式为Rate=1ni=1nwi,其中wi按如下定义:

wi={1(yi*-yi-1*)(yi-yi-1)00

该值表示预测值与实际值方向的一致性。

• 时间开销 每一次窗口移动(一次窗口移动包括参数寻优、训练、预测和训练集调整)或每一个新增样本所花费的时间,其计算公式为time=T/(L-wsize)。其中,T指本次训练所花费的总时间,L代表输入向量集的大小,wsize为移动窗口大小。

测试程序在Matlab 2008环境下编程实现,程序流程如图1所示。

2.2实验结果与分析

实验结果如下述各表所示。其中表1为基于边界缩放的动态优化和移动窗口的在线预测,表2为基于动态优化和移动窗口在线预测,表3为增量学习和移动窗口的在线预测的测试结果,其参数在预测过程中保持不变。从三个表可以看出,基于边界缩放的动态优化和移动窗口的在线预测在三个方面都要优于传统的增量学习和单一移动窗口方法,也优于基于动态优化和移动窗口在线预测。如同样采用移动窗口方法,基于边界缩放的PSO动态优化与传统PSO动态优化相比,其均方误差、平均绝对偏差都远小于后者,时间开销也较小。另外,从表1可以看出,随着移动窗口取值的增大,其测试结果有变差的趋势,特别是处理时间增长较快。多次测试结果显示,窗口的较佳取值范围在25~75之间。

为更直观地比较这几种方法的优劣,我们将部分测试结果绘制成图,如图2所示。

从图2可以清晰看出,基于边界缩放的动态优化并结合移动窗口的在线预测,其预测值和真实值体现出很好的一致性,而其余几种方法波动性较大,其中增量学习算法在一段时间后,预测值和真实值甚至出现急剧分离的现象。

3结语

支持向量机作为一种新的机器学习算法,现在已在包括金融投资等领域得到了广泛的应用。本文针对上证指数研究证券投资的指数预测问题,提出基于边界缩放的PSO动态优化和移动窗口相结合的新方法,取得较好的效果。但如何进一步提高预测的方向准确性,并将之应用于投资实践,是下一步要做好的工作。

参考文献

[1]周广旭.一种新的时间序列分析算法及其在股票预测中的应用[J].计算机应用,2005,25(9):217-218.

[2]林春燕,朱东华.基于Elman神经网络的股票价格预测研究[J].计算机应用,2006(2).

[3]Kim K J.Financial Time Series Forecasting Using Support Vector Ma-chine[J].Neurocomputing,2003,55(2).

[4]Nello Cristianini,John Shawe-Taylor.支持向量机导论(中文)[M].李国正,王猛,曾华军,译.北京:电子工业出版社,2004.

[5]邓乃扬,田英杰.数据挖掘中的新方法—支持向量机[M].北京:科学出版社,2004.

支持向量回归模型 第10篇

1 模型理论

1.1 支持向量回归 (SVR) 原理

支持向量回归的思想是通过非线性映射将输入数据映射到高维空间进行线性回归。主要有两种支持向量回归方法, 分别是ε-SVR和v-SVR, 下面主要介绍ε-SVR。

考虑如下数据集:

X={ (x1, y1) , (x2, y2) , … (xi, yi) }, 其中xi∈Rn是输入向量, y∈R是输出值, l是样本数量, 假设这些样本数据是相互独立的, 且服从某种分布P (x, y) , 那么数据回归的目标就是找到一个函数使得期望风险最小化:

其中c (x, y, f) 为基于数据集的损失函数。由于并不知道分布函数P (x, y) , 所以只能根据估计函数代替积分, 这就是所谓的经验风险函数:

由于经验风险最小化很容易造成过度拟合和过度学习, 于是提出了ε不敏感的损失函数:

则ε-SVR转化为如下优化问题:

其对偶形式为:

则回归函数为:

其中K (xi, x) 为核函数, 主要有以下几种类型:

线性核函数:

多项式核函数:

径向基核函数:

神经网络核函数:

其中γ, r, d是核参数

1.2 BP神经网络原理

BP (back propagation) 网络, 也就是误差反向传播网络, 它共由3层组成:输入层、隐藏层、输出层, 方向是输入层到隐藏层, 再到输出层, 各层之间一般采用全互连方式, 如图1, 相邻的两层之间通过权值相连接, 根据激活函数传到输出层, 这种网络可以模拟任何连续有界的函数。

BP神经网络的步骤如下:

第一步, 初始化神经网络模型的参数, 将神经网络中的连接权值Wij、λjt和阈值θj、αt赋予在 (0, 1) 或 (-1, 1) 之间, 并设定误差函数e, 计算精度ε和最大学习次数M;

第二步, 随机选取第个输入样本及期望输出:

第三步, 计算隐藏层各神经元的输入与输出;

第四步, 利用网络期望输出和实际输出, 计算误差函数对输出层各神经元的偏导数δ0 (k) ;

第五步, 利用隐藏层到输出层的连接权值、隐藏层和输出层的输出δ0 (k) , 计算误差函数对输出层各神经元的偏导数δh (k) ;

第六步, 利用输出层各神经元的偏导数和隐藏层各神经元的输出来修正连接权值wh0 (k) , 利用隐藏层和输入层各神经元的输入修正连接权值;

第七步, 计算全局误差, 并判断网络误差是否达到所需要求, 若不满足, 则返回到第三步。

2 以创业板指数为例的实证分析

2.1 数据来源

本文以创业板指数2010年6月2日到2013年11月22日的数据为样本, 如图表1, 分别用支持向量回归 (SVR) 和BP神经网络两种方法对开盘价预测的适用性进行分析。

2.2 支持向量回归 (SVR) 预测

首先, 绘制出创业板开盘指数2010年6月2日到2013年11月22日的时间序列图, 如图2。

再将数据进行归一化处理, 这主要是为了方便SVR工具箱的应用。这里默认采用径向基核函数进行预测, 经过粗略选择和精细选择两次选择, 最后打印出如下结果, 如表2。

iter为迭代次数, nu是选择的核函数类型的参数, obj为SVM文件转换为的二次规划求解得到的最小值, rho为判决函数的偏置项b, n SV为标准支持向量个数, n BSV为边界上的支持向量个数。同时得到回归预测分析最好的SVM参数c=1和g=4以及支持向量的MSE=0.000221714。其三维立体图如图3。

再利用得到的最佳参数进行SVM网络回归预测, 得到最后的MSE=3.79×10-5相关系数R=99.9237%, 共花费了157.68秒。可以得到原始数据和回归数据的序列图, 如图4。

2.3 BP神经网络预测

将840个样本数据的前640个作为学习和训练, 后200个作为检验, 经过了19次迭代, 在第13次达到最佳, 得到最好的的MSE=5.59×10-5, 时间仅用了2秒。训练过程如图5。

3 结论分析

经过比对支持向量回归和BP神经网络的运行结果, 可以知道, 虽然支持向量机的训练时间要长, 迭代次数要多, 但是均方误差要小, 并且支持向量机的训练是一个二次规划的问题, 它的解是全局最优解, 而BP神经网络是基于共轭梯度算法的, 它很有可能会陷入局部最优解的陷阱, 基于以上分析, 在对小样本进行预测和分析时, 支持向量机算法在预测的精度和全局最优性问题上都比BP神经网络算法具有一定的优势, 具有更高的应用价值。

摘要:本文主要选取了中国创业板指数2010年6月2日到2013年11月22日的840个样本数据, 分别用支持向量回归 (SVR) 和BP (back propagation) 神经网络对其开盘指数进行了分析和预测, 预测结果表明, 支持向量回归在小样本的条件下在预测精度、全局最优上要优于BP神经网络, 对新型的算法进行了一定的探索。

关键词:支持向量回归,BP神经网络,创业板指数,开盘指数

参考文献

[1]陈浩, 陈立辉, 毕笃彦等.BP网络和支持向量机在非线性函数逼近中的应用[J].航空计算技术, 2004, (3) .

[2]孙德厂, 史海波, 刘昶.支持向量回归在不确定面向订单装配环境下交货期预测中的应用[J].航空计算技术, 2013, 33 (8) .

[3]饶屾, 杨志平, 甘志刚.SVR算法在指数预测中的应用研究[J].浙江交通职业技术学院学报, 2012, 13 (4) .

[4]夏国恩, 邵培基.改进SVR在金融时间序列预测中的应用[J].金融理论与实践, 2008, 11:95-98.

[5]Cao L.J, Support vector machines experts for time series forecasting, Neurocomputing 51 (2003) :321-339.

上一篇:教学过渡语论文下一篇:手术无影灯