随机森林模型范文

2024-05-19

随机森林模型范文（精选11篇）

随机森林模型第1篇

当今钢铁工业面临着信息化与工艺化的“两化”深度融合, 促进企业转型升级, 实现节能减排、绿色生产的艰巨任务。在钢铁工业生产流程中, 高炉炼铁是主要耗能的上游工序, 因此, 进一步提高高炉冶炼过程的信息化与工艺化水平, 通过提高冶炼过程智能控制水平进一步节能减排, 具有特殊的重要意义。

在传统的高炉冶炼操作中, 炉温预测控制是工长稳定操作高炉的关键, 其中铁水硅质量分数则是反映高炉炉温的关键参数。为了科学预测铁水硅质量分数, 多年来国内外建立了众多机理模型[1,2,3]和数据驱动模型, 后者包括非线性时间序列模型[4]、神经网络模型[5,6]、灰色理论模型[7]、小波分析模型[8]、贝叶斯网络模型[9,10]和支持向量机模型[11,12]等。但是, 这些预测模型的应用与冶炼过程的实际操作需求仍然存在着差距。深究其原因, 既有所建立预测模型算法方面的差距, 也有在线数据驱动建模方面的信息联网与自学习的实时性脱节问题。因此, 需要不断改善数据驱动建模的研究工作。

本文提出的高炉铁水硅质量分数预测模型采用随机森林 (RF) 算法进行建模, 它融合了Bagging算法[13]和随机特征选取两大机器学习技术, 在数据驱动建模方面拥有较其他算法更多的优势, 例如:可以处理高维度数据;训练速度快;在训练过程中, 能够检测到变量之间的互相影响;算法简单易实现等[13]。随机森林算法能处理回归和分类两种问题, 本文用基于随机森林的回归学习算法研究铁水硅质量分数的数值预测模型。

1 RF模型

假设X={ (Xm, ym) , m=1, 2, …, M}是一组训练数据, 其中Xm是第m个输入样本点数据, ym是第m个输出样本点数据。通过对训练数据X的随机抽样可以产生L棵决策树f (X, X, θk) (k=1, 2, …, L) 的集合构成随机森林, 其中, X是输入向量, θk是第k棵决策树用来选择样本点的随机向量。本文通过Bootstrap采样方法[13]随机生成θk (即随机抽取2/3的训练样本点生成第k棵决策树) , 随机向量θk相互独立且服从统一分布。在处理回归问题时, 每棵决策树产生一个预测值, 随机森林的预测值是通过对所有决策树的预测值取平均获得的。图1给出了随机森林学习算法模型的结构框架示意图。

为了提高随机森林的预测精度, 采用如下的随机特征选取策略:首先, 在每棵决策树的每个节点处, 从N个总输入变量中随机抽取n (n≤N) 个变量, 并从中选取一个最优变量对节点进行分割;然后增加或减小n的数值, 直至获得最小的测试误差。理论研究表明:随着RF算法中决策树数量的增加, 模型的测试误差率收敛于某一极限值, 从而可以有效避免单棵决策树存在的过拟合问题[13], 保证了RF算法性能的稳定性。

2 预测模型建立

2.1 模型变量选取及数据预处理

由于数据采集条件的限制, 因此无法全面考虑工艺操作的所有变量, 只能结合工艺的关系与需求, 选用若干主要变量。本文高炉铁水硅质量分数预测模型选取的控制参数是:小时喷煤量 (x1) , 风温 (x2) , 风量 (x3) ;状态参数是:上一炉的铁水硅质量分数 (x4) 和出铁铁量差 (x5) , 本炉透气性指数 (x6) 和料速 (x7) 。将3个控制参数和4个状态参数一起作为模型的原始输入变量。由于高炉冶炼过程中各变量与当前炉铁水硅质量分数存在时间滞后问题, 因此, 我们对每一个变量都进行了时间延迟处理 (例如:在状态参数中采用上一炉出铁铁量差x5和本炉的透气性指数x6以及料速x7进行预测计算) 。同时, 考虑到高炉冶炼过程中各变量的数量级差别较大, 为使模型计算更加有效, 我们对原始输入变量进行规范化处理, 转变为无量纲变量。规范化处理公式如式 (1) 所示, 处理后各输入变量均服从均值为0、方差为1的分布。

其中, xj*为规范化后的第j个输入变量;, Sj分别为第j个原始输入变量的均值和样本方差。

将标准化后的向量X= (x1*, x2*, x3*, x4*, x5*, x6*, x7*) 作为RF算法的输入, 对应的铁水硅质量分数为RF算法的输出。

2.2 模型参数选择及模型的建立

RF算法中有2个重要参数: (1) RF中决策树的个数L; (2) 决策树在每个节点处从7个输入变量中随机抽取的用来分割节点的变量数n。决策树个数L的设置相对容易, 只要其数值足够大, 能够保证随机森林算法的收敛性即可, 本文中决策树个数L选作1 000。n是影响RF算法的关键参数, 同时也是该算法中唯一需要通过实验选取的参数。为了更加全面地比较RF算法的性能, 本文采取遍历法选取n的数值, 即从7个模型输入向量中分别随机抽取n=1~7个变量来分割节点, 建立相应的RF模型并考察其性能。在实际应用中, 可以采用交叉验证的方法确定参数n的最佳数值。在此基础上, 再利用第1节中所述的RF学习算法, 便可得到基于RF算法的铁水硅质量分数预测模型 (以下简称RF预测模型) 。

3 预测模型结果对比

本文对RF预测模型进行了仿真验证, 仿真实验数据来源于L钢1号高炉专家系统在线采集的具有不同统计特征的2组300炉生产数据。分别取每组数据的前200炉数据作为模型的训练样本集 (即M=200) , 后100炉数据作为模型的测试样本集 (测试样本集A和B) , 其铁水硅质量分数的时间序列图如图2所示。从图中可以看出, 测试样本集A (标准差为0.083 4) 比较平稳, 测试样本集B (标准差为0.158 1) 的波动情况显著大于测试样本集A。因此本文用测试样本集A和B分别代表炉况较平稳和波动较大两种生产情形。

为了分析所建立的RF预测模型的有效性, 本文将其仿真结果与基于支持向量机 (SVM) 的铁水硅质量分数预测模型 (以下简称SVM预测模型) 进行了综合的性能对比分析。SVM方法是目前公认比较先进的数据驱动建模方法之一, 并在高炉铁水硅质量分数预测方面表现出优异的性能[12]。在仿真过程中, SVM的核函数采用径向基函数K (xm, xn) =exp (-‖xm-xn‖2/σ) (其中, xm, xn分别表示不同样本点的输入) ;对于SVM的核宽度σ和正则化参数γ, 采用基于Hsu和Lin提出的排列组合方式[14]进行网格搜索 (搜素范围:σ=[2-4, 2-3, …, 210], γ=[2-2, 2-1, …, 212]) , 并结合10折交叉验证的方法对σ和γ进行参数寻优。

为了更加全面地评价预测模型的性能, 我们对所建立的RF和SVM预测模型得到的结果分别从以下4个评价指标进行分析比较。

(1) 预测命中率 (Hrate)

其中,

上述式中, Ht表示第t炉铁水硅质量分数是否命中;y (t) , 分别为铁水硅质量分数实际值和预测值。

(2) 相关系数 (CC)

式中, 分别为原始铁水硅质量分数实际值序列和模型预测值序列的均值;σ (y) , 分别为两个序列的标准差。

(3) 均方根误差 (RMSE)

(4) 绝对误差 (MAE)

以上4种指标都是冶金行业中经常被使用的模型评价标准, 它们在效果上具有一定的互补作用。

表1给出了平稳炉况下测试样本集A中RF和SVM预测模型各预测指标统计结果, 其中SVM模型的参数 (σ, γ) 分别表示利用网格搜索和交叉验证得到的最佳参数组合, RF模型的参数n (1~7) 表示随机抽取的分割节点的变量数。表中RF预测模型优于SVM预测模型的结果用黑体显示 (下同) 。

从表1可知, 在炉况相对平稳的情况下, RF预测模型 (除n=1的情形外) 的各项预测性能指标全面优于SVM预测模型;并且随着参数n的增加, RF预测模型的性能 (除Hrate外) 越来越好。当n=7时, RF预测模型取得综合最优性能, 4项指标分别比SVM预测模型提高了4.20%, 7.92%, 7.00%和4.29%;当n=4时, RF预测模型预测命中率达到最大值88.8%, 比SVM预测模型提高了4.47%。

当炉况出现较大波动时, 铁水硅质量分数时间序列变化的幅度明显增大, 一般建模方法的预测性能会明显降低或失效。因此, 研究炉况波动较大情形下的炉温预测方法, 具有更加重要的意义。表2给出了炉况波动较大的测试样本集B上两种模型预测性能的结果对比。

表2表明, 在炉况波动较大的情况下, RF和SVM预测模型的预测性能较炉况平稳情况均出现明显下降, 例如, RMSE增加了近一倍, 命中率Hrate降低了10多个百分点。但是, 与炉况平稳情形下类似的是, RF预测模型表现出比SVM预测模型更优的总体预测性能。当n=3时, RF预测模型获得最优性能, 例如, 在CC指标上, RF比SVM预测模型改进的幅度达到87.7%。

图3直观显示了RF和SVM预测模型在两组连续100炉测试样本集上的预测误差对比, 其中, RF预测模型中随机选取分割节点的变量数n均为7。由图3可以看出, 在不同炉况状态下, RF预测模型能获得比SVM预测模型更高的预测精度。由此可知, 在实际高炉冶炼过程中, RF预测模型能够为高炉工长提供更加准确、可靠的预测信息, 帮助工长对炉况做出正确判断。

4 结论

本文研究了基于RF算法的铁水硅质量分数预测模型, 并与目前公认比较优秀的建模方法之一SVM进行了性能比较, 结果表明, 对于炉况有比较大波动或炉况较平稳的情形, RF都能获得与SVM相近或更优的建模性能。

光纤陀螺随机漂移的ARMA模型第2篇

光纤陀螺随机漂移的ARMA模型

分析了传统时间序列分析法建立ARMA模型的不足,提出了一种利用模型阶数判断准则和长自回归法建模的新方法.对数据进行了预处理和模型识别,比较了不同模型阶数判断准则的特点,研究了用长自回归法估计模型参数的步骤和方法.最后对光纤陀螺随机漂移进行了建模实验,通过对模型残差的白噪声检验,证实了使用新方法建立的.ARMA模型具有很好的适用性.

作者：汤霞清 ZONG Yan-tao 郭理彬 SANG Zhi-yong TANG Xia-qing ZONG Yan-tao GUO Li-bin SANG Zhi-yong 作者单位：装甲兵工程学院,控制工程系,北京,100072刊名：装甲兵工程学院学报英文刊名：JOURNAL OF ACADEMY OF ARMORED FORCE ENGINEERING年，卷(期)：22(3)分类号：V241关键词：光纤陀螺随机漂移长自回归法 ARMA模型

随机森林模型第3篇

关键词期权定价；倒向随机微分方程；拟线性抛物型法；概率表示；分层方法

中图分类号F830.9， O241.81 文献标识码A

1引言

期权是金融衍生工具的一种基本形式，近年来，金融衍生工具变得越来越重要，主要是因为它可以作为保值和减小风险的工具，又可以被当做高风险和高收益的机会.金融衍生工具本身是一种证劵，其价值依赖于其他更基本的“标的资产”，在今天的国际金融市场上，金融衍生工具形形色色，多种多样，且新产品层出不穷，但最基本的形式有期权（Option），期货（Futures），远期（Forwards）和掉期（Swaps）等等.

在金融经济学中，期权定价及其套期保值策略的构造具有重要的地位，对于定价已有很多研究成果[1，2]，传统的期权定价理论一般以随机分析中的鞅表示定理和Gisanov定理作为研究工具，近年来，随着倒向随机微分方程理论的迅速发展，文献[3，4]采用不同方法分别研究了期权定价问题，并得到相应的结果，即对期权定价模型的处理最终转化为求解倒向随机微分方程或偏微分方程，而对倒向随机微分方程的离散也可转化为求解相应的偏微分方程，故求解偏微分方程变得非常重要.然而，由于非线性偏微分方程的解析解一般很难给出，人们开始转向寻求其数值解，进行数值模拟.在相关的数值研究方面，关于确定性方法研究的文章和著作比较多[5]，通过不确定性的方法来构造数值算法的研究成果相对较少[6-9].本文引入的分层方法就是通过随机方法构造一类求解偏微分方程的数值方法，进而给出求解期权定价模型的数值模拟方法.

经济数学第 29卷第4期

谷伟等：倒向随机方程期权定价模型的一类随机算法

2传统期权定价模型

其中X为期权的执行价格，式（2）中第一个条件是买入期权的终端支付条件；第二个条件是说当股票价值为零时，由于以后的股票价一直为零，故期权价值也为零；第三个条件是说当股票价格无限地递增时，期权越来越可能执行，且执行价格的大小变得不太重要，此时，期权价值就变成了股票价值.引入记号

由以上对传统欧式期权定价公式的介绍可见，欧式期权价格的求解最终转化为对方程（1）的求解，这些抛物型方程只是线性形式的偏微分方程，容易求出其显示解.而对于更复杂的期权模型的研究，很难找到其解析解，就需要通过其他办法来处理，文献[3，4]是其中代表性的研究成果，引入倒向随机微分方程对期权进行定价研究.

3基于倒向随机微分方程的期权定价模型

通过可以由解正倒向随机微分方程得到BlackScholes公式这一事实，不仅说明了倒向随机微分方程理论可以用来对期权定价问题进行更精确更合乎实际的计算和分析，更重要的是人们可以用它来帮助投资者进行回避风险的套期保值及其他各类风险分析.特别是倒向随机微分方程理论可以用来对不完全市场中的各种派生证券的定价及套期保值问题提供有力的分析和近似计算方法.

4离散抛物型微分方程的分层方法

下面考虑如下稍复杂些的一维二阶拟线性抛物型偏微分方程初值问题的离散方法：

方法（17）就是所构造的分层方法，它是隐式格式.以上就是分层方法的基本思想.虽然在分层方法的构造中采用了解的概率表示，但方法本身却是确定性的，事实上，由于对数学期望的计算采用的一般是显示方法，这种不确定性就不存在了.值得注意的是它和通常所见的差分方法的区别是这里仅需对时间区间进行离散，而和x没有必然联系，因此分层方法的优越性就在于它的稳定性是方法本身所固有的[6-9].后来尽管也对x进行了离散，那也只是为了减少计算量.

5算例分析

案例1设股票A现在价格为58.875元，年无风险利率为0.08，设股票年回报标准差为0.22，估计三个月后到期，求执行价格为60元的欧式看涨期权的值？

从表1中可以看出，本文所提供的新的数值算法能够很好的近似期权定价问题的真实解，说明这种新的数值算法在应用上的可行性.并且随着步长h的变小，数值解会越来越接近真实解，并且不同算法获得结果之间的差异也越来越小.本文的算法还适合于求解更为复杂的半线性和拟线性抛物型方程，进而可以用于求解更复杂的期权定价问题.所构造的新算法具有相当的精确性、实用性和可执行性.

总之，自1973年Black和Scholes得到BlackScholes公式时还没有倒向随机微分的概念，而若干年后，人们又从倒向随机微分方程理论再一次推导出来该公式，科学竟产生了如此美妙的共鸣.期权定价理论的发展在客观上极大的促进了倒向随机微分方程的产生和发展，并进一步推动了偏微分方程在理论和计算技术上的发展，而倒向随机微分方程和偏微分方程在期权定价问题中也发挥着越来越重要的作用.

随着市场经济的深入发展，以及我国经济与国际经济的全面接轨，期权定价理论和倒向随机微分方程理论以及偏微分方程计算技术在我国经济金融领域必将得到更加广泛的应用，并且势必对其他的理论产生更大的促进作用和深远的影响.

参考文献

[1]P WILMOTT， S HOWISON， J DEWYNNE. The mathematics of financial derivativesA student Introduction[M]. United Kingdom：Cambridge University Press， 1995.

nlc202309032000

[2]Y K KWOK. Derivative security： mathematical models[M]. Singapore ： Springer， 1998.

[3]彭实戈. 倒向随机微分方程及其应用[J].数学进展，1997，2：97-112.

[4]雍烔敏. 数学金融中的若干问题[J]. 数学实践与认识， 1999，2：97-108.

[5]A QUARTERONI， A VALLI. Numerical approximation of partial differential equations[M] Berlin：Springer， 1994.

[6]G N MILSTEIN. The probability approach to numerical solution of nonlinear parabolic equations[J]. Num. Methods Partial Differential Equations， 2002， 18：490-522.

[7]R N MAKAROV. Numerical solution of quasilinear parabolic equations and backward stochastic differential equations[J]. Russ. J. Numer. Anal. Math. Modelling， 2003，18（5）：397-412.

[8]G N MILSTEIN， M V TRETYAKOV. Numerical algorithms for forwardbackward stochastic differential equations[J]. SIAM J. Sci. Comput， 2006，28：561-582.

[9]G N MILSTEIN， M V TRETYAKOV. Stochastic Numerics for Mathematical Physics[M]. Berlin：Springer， 2004.

[10]郁俊莉，韩文秀，李泽峰. 倒向随机微分方程及其在证券投资组合中的应用[J]. 数量经济技术经济研究， 2001，18（11）：90-93.

[11]J MA， P PROTTER， J YONG. Solving forwardbackward stochastic differential equations explicitlya four step scheme[J]. Probab Theory Rel Fields，1994， 98：339-359.

[12]谷伟，张诚坚. 一类抛物型方程初值问题的随机数值算法[J].应用数学， 2007， 20（4）：760-766.

随机森林模型第4篇

关键词：随机森林,逻辑回归,违约预测,汽车贷款

1 引言

21世纪初, 车辆信贷市场在国内打开, 许多银行预感汽车信贷的获利机遇, 纷纷开始进入车贷市场。在接下来的几年里, 车辆信贷业务发展迅猛, 仅仅两年多的时间里, 银行车辆信贷业务增加了数倍, 据统计, 仅2003年车贷额就增加30亿左右, 平均每月增加2亿至3亿, 最多的月增加达到6亿多。2003年底, 上海一个市的银行发放汽车贷款超过80亿。然而在车贷市场迅猛发展的同时, 车贷违约问题逐渐暴露出来, 因为车贷风险要比房贷来得快而高, 车贷风险释放使银行违约率上升的同时, 车贷坏账最终的受害者也是银行本身。为了降低坏账率, 构建一个适用的违约判别模型就成为了各家信贷机构关注的重大点。本文在传统决策树模型的基础上引入随机森林组合算法, 使得模型在易于解释的同时能得到更好的预测结果。

2 随机森林与逻辑回归组合模型

2.1 决策树与随机森林

决策树是一个贪婪算法, 它代表的是对象属性与对象值之间的一种映射关系。决策树通过熵增益率或Gini系数下降幅度对对象属性进行分组判断, 理想的分组应尽量使两组输出变量值的Gini系数下降幅度或熵增益率最大。

其中为样本类别在当前分类样本下出现的频率。

随机森林最早起源于贝尔实验室Tin Kam Ho提出的随即决策森林 (Random Decision Forests) 算法, 后由Leo Breiman和Adele Cutler提出。随机森林实际上由许多决策树组成, 最后分类结果取决于各个决策树分类器的简单多数选举。

随机森林是一个由一组决策树分类器 (h (X, fk (θ) ) , k=1~K) 组成的分类器集合, 其中为输入向量集, f (x) 表示单个决策树, θk是服从独立同分布的输入向量集的子集, K表示随机森林中决策树的个数, 在给定自变量X的情况下, 每个决策树通过投标来决定最优的分类结果。

随机森林算法构造如下:

(1) 对给定的训练样本, 随即可重复取样, 形成新的子样本数据;

(2) 对新的子样本数据中的M个特征变量随机抽取m (m<M) 个特征, 构造完整的决策树;

(3) 重复前两个步骤得到K个决策树, 形成随机森林;

(4) 每个决策树投票, 选出最优的分类。

随机森林模型如图1所示。

2.2 逻辑回归

逻辑回归是一种广义线性回归 (Generalized Linear Model) , 因此与多元线性回归分析有很多相同之处。它们的模型形式基本上相同, 都具有βx+β0, 其中β为权重, β0为阈值, 区别在于它们的因变量不同, 多元线性回归直接将βx+β0作为因变量, 即y=βx+β0, 而逻辑回归则通过逻辑函数对表达式进行logit变换, 然后根据阈值设定大小决定因变量的值。

逻辑回归算法构造如下。

(1) 对给定的训练样本X进行多元线性回归得到逻辑回归的输入向量h (x) :

(2) 对h (x) 进行logit变换, 得到预测向量集P:

(3) 得到差值函数Cost (p i, y i) :

(4) 联立三式得到总差值函数J (β) 并对β的最优解:

由于逻辑回归本身并没有变量选择的功能, 当我们对样本数据没有足够的先验知识时, 直接使用逻辑回归非常容易发生多个变量之间有较强共线性的问题, 由于先验知识不足, 只能通过逐步回归来消除有共线性的变量, 这是十分繁琐且耗时的。

基于以上原因, 本文通过将随机森林与逻辑回归相结合组成一种新的算法模型 (RFL) , 这种模型在没有先验知识的情况下能有效减少参数调优和去除共线性所需的时间, 提高建模效率, 并且比传统的模型拥有更强的拟合度和泛用性。

3 建模与实验结果分析

本实验数据来自于某商业银行的汽车信贷数据, 其中包括是否违约、汽车购买时间、曾经是否破产、五年内信用不良事件数等36个属性一共6 000条数据。数据分析平台为R, 使用模型为随机森林与逻辑回归组合算法 (RFL) 。

3.1 建模过程

3.1.1 数据预处理

首先对数据进行去重, 消去可能由输入错误导致的重复数据, 并且填补缺失值, 连续变量用均值、分类变量使用众数进行填补。对于只有二分类的缺失变量则将缺失变量单独作为一类。其次, 通过盖帽法消去可能存在的异常值, 将所有属性中1%以下和99%以上的值去除。最后, 由于违约数据属于偏态数据, 为了使得建模更加准确本文使用SMOTE法对样本进行采样, 并将数据按照7:3的训练集:测试集比例进行随机抽取。

3.1.2 提取建模变量

假定在对训练样本没有先验知识的情况下需要从训练样本中提取建模变量, 将测试样本导入随机森林模型, 对于模型参数ntree (决策树数量) 和mtry (最小叶节点) 的调校, 由于只需要通过随机森林提取出重要程度 (varimpt) 高的变量, 所以并没有最优参数, 本文使用的参数为ntree=20、mtry=2。

得到重要度 (varimpt) 在2e-03以上的属性, 如表1所示。

3.1.3 预测模型建模

将随机森林提取出的五个变量作为建模变量进行多元线性回归, 得到多元线性回归预测模型。通过共线性检查和交叉验证, 该模型没有发生共线性且泛化能力以及预测正确率良好, 设阈值为0.5, 测试集正确率为0.68, 召回率为0.73, ROC指标达到0.748。各属性逻辑回归估计结果如表2所示。

3.2 算法比较

为了检查随机森林与逻辑回归 (RFL) 的优势, 本文将该模型与KNN最近邻算法、决策树算法以及BP神经网络算法进行横向比较。

通过比较得到表3, 其中各个算法的阈值调整规则为使得召回率 (RECALL) 保持在70左右。由表3可知, RFL模型在召回率指标达到0.73的情况下正确率 (ACCURACY) 指标达到了0.68, BP神经网络在召回率0.69的情况下正确率为0.67, 随机森林和KNN最近邻在相近召回率的情况下正确率分别为0.55和0.56。此外, ROC指标下RFL模型为0.78, BP神经网络为0.74。综合比较各个算法的性能, 在车辆信贷违约预测中RFL模型是最优的。

4 结语

通过研究发现, 车辆信贷市场违约率与用户的FICO评分、失信事件数量等特征有着显著的关系, 使用RFL算法对数据建模后得到的结果也基本与实际吻合, 说明RFL算法有着较高的精度和泛用性, 可以有效降低车贷企业遭遇违约的风险。

参考文献

[1]宋荣威.信用风险度量:基于多元判别分析模型的实证研究[J].经济参考研究, 2007.

[2]徐晓萍, 马文杰, 非上市中小企业贷款违约率的定量分析——基于判别分析法和决策树模型的分析[J].金融研究, 2011 (3) .

[3]PP Bonissone, JM Cadenas, MC Garrido, et al.A fuzzy random forest[C].International Conference on Information Processing&Management of Uncertainty in Knowledge-based Systems.2008.

混凝土二维随机骨料模型的改进第5篇

关键词：混凝土，随机骨料模型，粒径分布，黏结界面层，算法改进

中图分类号：TU528 文献标识码：A 文章编号：1674-1161（2015）03-0049-04

为研究混凝土细观结构与其力学性能的关系，根据骨料在混凝土结构空间内随机分布的特性，提出混凝土随机骨料模型。随机骨料模型理论认为，混凝土是由粗骨料、水泥砂浆和二者间的粘结界面组成的三相复合材料，借助蒙特卡罗方法，在投放空间内随机确定骨料的形状、位置和尺寸，产生的随机骨料结构。近年来，研究人员在二维随机骨料生成算法方面做了大量研究，取得了丰富的成果，从不同角度解决了随机确定骨料形状和位置的问题，其中高政国、孙立国、严兆等先后提出了不同的二维随机骨料生成算法。随机骨料结构中骨料粒径分布通常借助Walraven公式来确定，其方法有代表粒径法和反函数法，但前者是一种简化方法，对粒径分布的描述较为粗略；后者将随机概率值Pi直接代入Walraven公式求取粒径值Di。然而，事实上Walraven公式中的概率值是面积百分率，与颗粒数目百分率是不等同的，由此生成的骨料结构中大粒径颗粒严重偏多。

针对这两种方法存在的缺陷，以Walraven公式为基础推导混凝土结构横断面骨料数目累积分布函数PN（D），并用统计学方法对该骨料分布函数的合理性进行论证，然后通过模型对比证明该方法能够有效提高随机骨料模型的仿真程度。

在混凝土随机骨料结构中，黏结界面层可视为粗骨料与硬化水泥砂浆之间的一个过渡薄层，相当于在原有骨料颗粒表面均匀地向外延伸一个厚度。许多研究表明，黏结界面层的力学特性在很大程度上决定混凝土的宏观强度，因此在进行混凝土结构的细观数值模拟时，生成的界面层是否合理将直接影响模拟结果的准确性。在实际建模中，通常的做法是通过投放比要求颗粒粒径稍大的颗粒，然后按比例缩小，完成界面层的生成。但这种处理方法仅适合圆形骨料，椭圆形和任意多边形骨料很难保证界面层厚度的均匀性。在网格尺寸以微米计量的有限元分析中，这种非均匀性导致的误差对结果的影响是不容忽略的。为此，针对椭圆形骨料和任意凸多边形骨料的几何形状特征，提出各自的界面层生成算法，以期达到提升模型精度的目的。

1 骨料粒径分布的随机性改进

1.1 混凝土三维骨料级配的平面转化

20世纪80年代，Walraven.J.C将混凝土三维试件中的骨料颗粒简化为以骨料形心为圆心、以骨料粒径为直径的球体，根据Fuller级配曲线和骨料在试件空间等概率分布的几何学概念，推导出三维骨料级配的平面转化公式，即Walraven公式：

式中：PC（D）为截面上任意一点位于粒径小于D的骨料颗粒上的概率，即截面上直径小于D的截面圆面积占截面面积的百分比；PK为骨料（粗骨料和细骨料）体积与混凝土总体积的百分比；Dmax为骨料最大粒径。

1.2 骨料粒径分布的随机性改进

近年来，随着混凝土数值模拟研究的逐渐深入，模拟的精度也不断提升，由代表粒径法生成的骨料形状多样、骨料粒径特定的随机骨料结构已经不能满足应用要求。反函数则由于混淆了两个概率值，因此确定的骨料结构严重偏离实际，也存在严重不足。为实现随机骨料结构中骨料尺寸的随机确定，提高建模水平，亟需找出一种可实现骨料粒径随机生成的数学控制方法。

此处需要加以说明的是，在数理上面积百分率与数目百分率是完全不同的概念，例如单个大粒径骨料在粒径-面积率和粒径-数目百分率累积曲线上的Y轴增量明显不一致，因此一些研究直接将随机概率值代入Walraven公式求解粒径值的做法是不合理的。

1.3 统计验证

生成Fuller级配曲线的三维混凝土球形随机骨料模型，对模型各截面上不同直径截面圆数目和累积面积率进行数理统计，得出统计D-PS和D-PN关系曲线，同时绘制骨料粒径分布函数PS（D）和PN（D）的函数曲线，如图1所示。

图1（a）中，PS（D）函数曲线和统计D-PS曲线极为吻合，这说明PS（D）能够准确描述骨料累积面积率和粒径的函数关系；图1（b）中，PN（D）函数曲线和统计D-PN曲线非常一致，这表明PN（D）对骨料累积数目和粒径函数关系的描述符合实际。由此可见，推导的骨料分布函数能准确描述混凝土实体结构横断面的骨料粒径分布规律，具备数理上的合理性。

1.4 模型对比

分别运用两种常用方法和本文提供的改进方法建立随机骨料模型，生成的骨料结构分布如图2所示，其中图2（a）为二级配混凝土，骨料粒径代表值为12.5，30.0 mm。从三维模型中随机截取一个截面作为实体对照，其骨料结构如图2（d）所示。

图2（c）的骨料粒径分布与图2（d）非常相似，骨料含量也很接近。相对而言，图2（a）的颗粒数目较少且级配较差，图2（b）大粒径颗粒过多、骨料数目最少且级配也最差。上述对比显示，改进方法生成的骨料结构对混凝土骨料级配及含量的数值化表现更为准确合理。

2 界面层厚度的均匀性改进

在综合考虑运算规模及计算效率的情况下，混凝土细观结构模型中的界面层厚度一般会偏大于实际界面层厚度，通常取0.05～0.10倍粒径。目前，大多通过按比例放大粗骨料来获得一个厚度近似均匀的界面层，但实际上椭圆和任意凸多边形骨料（尤其是扁度偏大的椭圆和各边长相差较大的凸多边形）生成的界面层在厚度上存在明显差异。就椭圆形骨料而言，其差异最大为半长轴a与半短轴b差值的0.05～0.10倍（当a=40，b=20时，为1～2 mm）。在较高的模拟精度要求下，这些差异对模拟效果的影响难以忽略。

2.1 椭圆形骨料均匀界面层的生成

以式（14）为参数方程，便可生成一个厚度均匀一致的界面层，如图4（b）所示。图4（a）是通用方法所生成的椭圆形骨料界面层。

从图4（a）可以明显看出，通用方法获得的界面层在厚度上很不一致，椭圆长轴两端界面层最厚，而短轴两端则最薄；而图4（b）所示的骨料界面层厚度完全均匀一致。

2.2 任意凸多边形均匀界面层的生成

在工程实际中，配置混凝土时最常用的粗骨料是碎石。因而在建立混凝土随机骨料模型时，一般会将骨料形状设定为任意凸多边形。图5（a）是采用放大骨料的方法生成的单个凸多边形骨料结构，骨料表面不同部位的界面层厚度差异显著。

均匀界面层生成思路是：将多边形各边的端点延垂线向外侧等距平移，再用半径等于界面层厚度的圆弧连接各相邻线段的端点，将平移后的孤立线段封闭成一个等厚度包裹在凸多边形表面的圆角多边形，如图5（b）所示。和图5（a）相比，图5（b）中黏结在骨料表面的界面层厚度完全均匀一致。

3 结论

受网格质量以及计算规模的限制，混凝土细观数值模拟的研究重点仍限于二维层面。合理构建三维级配和二维骨料粒径分布的转化关系，是二维随机骨料生成方法中的核心问题。

改进二维随机骨料生成方法弥补了传统方法的缺陷，真正实现了骨料粒径的随机生成，生成的随机骨料结构中，骨料粒径分布和含量更符合混凝土结构横断上骨料的分布实况。此外，改进的均匀界面层的生成算法，提高了模型数理上的精确性。

这两方面的改进可显著提高随机骨料模型的仿真程度，使混凝土细观数值分析在更高精度下进行，为揭示混凝土细观结构和宏观力学性能的关系提供模型基础。

参考文献

[1] 高政国，刘光廷.二维混凝土随机骨料模型研究.清华大学学报（自然科学版），2003，43（5）：710-714.

[2] 孙立国，杜成斌，戴春霞.大体积混凝土随机骨料数值模拟[J].河海大学学报（自然科学版），2005，33（3）：291-295.

[3] 严兆，汪卫明.全级配混凝土随机骨料二维模型生成的块体切割方法[J].武汉大学学报（工学版），2013，46（4）：484-488.

[4] WALRAVEN J C， REINHARDT H W. Theory and experiments on the mechanical behavior of cracks in plain and reinforced concrete subjected to Abstract： With the requirement of simulation accuracy increasing， the method of generating uniform interface layer by managing ellipse aggregate and arbitrary polygon aggregate based on improved aggregate distribution function derived by Walraven formula is presented. It solves the problems existing in the control of particle size distribution in random aggregate structure and the links of bonding interface layer generating， and effectively improved the simulation level of random aggregate mold， provided a aggregate mold of more logical and higher quality for the research of mesoscopic numerical simulation of concrete.

随机森林与支持向量机分类性能比较第6篇

分类是数据挖掘领域研究的主要问题之一,分类器作为解决问题的工具一直是研究的热点。常用的分类器有决策树、逻辑回归、贝叶斯、神经网络等,这些分类器都有各自的性能特点。本文研究的随机森林[1](Random Forests,RF)是由Breiman提出的一种基于CART决策树的组合分类器。其优越的性能使其在国外的生物、医学、经济、管理等众多领域到了广泛的应用,而国内对其的研究和应用还比较少[2]。为了使国内学者对该方法有一个更深入的了解,本文将其与分类性能优越的支持向量机[3](Support Vector Machine,SVM)进行数据实验比较,客观地展示其分类性能。本文选取了UCI机器学习数据库[4]的20个数据集作为实验数据,通过大量的数据实验,从泛化能力、噪声鲁棒性和不平衡分类三个主要方面进行比较,为研究者选择和使用分类器提供有价值的参考。

1 分类器介绍

1.1 随机森林

随机森林作为一种组合分类器,其算法由以下三步实现:

1.采用bootstrap抽样技术从原始数据集中抽取ntree个训练集,每个训练集的大小约为原始数据集的三分之二。

2.为每一个bootstrap训练集分别建立分类回归树(Classification and Regression Tree,CART),共产生ntree棵决策树构成一片“森林”,这些决策树均不进行剪枝(unpruned)。在每棵树生长过程中,并不是选择全部M个属性中的最优属性作为内部节点进行分支(split),而是从随机选择的mtry≤M个属性中选择最优属性进行分支。

3.集合ntree棵决策树的预测结果,采用投票(voting)的方式决定新样本的类别。

随机森林在训练过程中的每次bootstrap抽样,将有约三分之一的数据未被抽中,这部分数据被称为袋外(out-ofbag)数据。随机森林利用这部分数据进行内部的误差估计,产生OOB误差(out-of-bag error)。Breiman通过实验证明,OOB误差是无偏估计,近似于交叉验证得到的误差。

随机森林分类器利用基于Breiman随机森林理论的R语言软件包random Forest 4.6-6[5]来实现。需要设置三个主要的参数:森林中决策树的数量(ntree)、内部节点随机选择属性的个数(mtry)及终节点的最小样本数(nodesize)。

1.2 支持向量机

支持向量机是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,已在众多领域得到了广泛的应用。支持向量机最初是为了求解二分类问题而诞生的,其基本思想可以表述如下。目标是寻找一个最优分类超平面(separating hyperplane),使两类间相邻最近的样本点之间的边缘(margin)最大化。在最大化边缘边界上的样本点被称为支持向量(support vectors),边缘的中间切面为最优分类超平面。被边缘误分的点,其权重将被降低,以减少其影响。当数据线性不可分时,通过核函数将数据点映射到高维空间,使其线性可分。寻找超平面的过程可以转化为求解一个二次规划问题。

支持向量机分类器采用R语言软件包e1071 1.6[6]实现,该软件包是以台湾大学林智仁教授的libsvm[7]源代码为基础开发的。libsvm包含了四种主要的核函数:线性核函数(Linear)、多项式核函数(Polynomial)、径向基核函数(Radial Basis Function,RBF)以及Sigmoid核函数。本文采用径向基核函数,原因有四方面:(1)线性核函数只能处理线性关系,且被证明是径向基核函数的一个特例[8];(2)Sigmoid核函数在某些参数上近似径向基核函数的功能,径向基核函数取一定参数也可得到Sigmoid核函数的性能[9];(3)多项式核函数参数较多,不易于参数优选;(4)本文实验数据均非高维数据,径向基核函数可以适用。径向基核函数支持向量机包含两个重要的参数:惩罚参数Cost和核参数Gamma。此外,libsvm可用于多分类问题,采用的是“一对一”(one-against-one)的策略,即每两类建立一个支持向量机分类器,共建立k(k-1)/2个分类器,k为类别数,最后采用投票的方式决定新样本的类别。

2 分类器性能比较

实验将从三个主要方面比较两个分类器的性能:泛化能力、噪声鲁棒性和不平衡分类。选取UCI机器学习数据库的20个数据集作为实验数据,数据集信息见表1,编号1到10的数据集为二分类,11到20为多分类。为了更好地比较,对两个分类器均进行参数优选。随机森林参数优选过程分两步:(1)在整个训练集上训练,根据OOB误差选择ntree和nodesize,选择标准是使总误差或目标类别误差降到足够低且稳定;(2)采用训练集十折交叉验证(Cross-validation)对参数mtry进行遍历确定最优值,参数选择标准可根据实际问题确定,最低误差或最大AUC(Area under ROC Curve)。支持向量机采用训练集十折交叉验证对参数Cost和Gamma进行网格寻优(Grid-search)确定最优值,参数选择标准同上。两个分类器在每个数据集上均进行10次参数优选。为了判断两个分类器是否有显著差异,引入了非参数置换检验[10,11](Permutation Test)进行统计比较,显著性水平设置为0.05。全部实验均在R 2.14.1软件平台上完成。

2.1 泛化能力比较

采用泛化误差作为泛化能力的评价标准。先在训练集上确定最优参数,然后在整个训练集上训练模型,最后利用测试集计算泛化误差,该过程迭代10次。考虑到对数据进行预处理可能影响分类器的性能,分别在预处理前后的数据上进行了实验。预处理的方法主要为异常值归约、0-1归一化等。实验结果见表2和表3,表2为二分类数据实验结果,表3为多分类。表中给出的误差值为10次迭代的平均值,粗体的数值为各分类器的最优值,“前”和“后”表示数据预处理前后,名义胜者是比较两分类器最优值得出的结果。

从表2和表3可以得到以下信息:

(1)数据预处理的影响。两种分类器的训练集交叉验证误差在预处理前后的差异都不大,而从测试集预测误差在预处理前后的结果可以看出两者的明显差异。数据预处理对随机森林基本没有影响,而对支持向量机影响较大,数据预处理使支持向量机在二分类数据上的泛化误差平均降低27.3%,多分类平均降低29.1%。因此,在使用随机森林时,可以不对数据进行预处理,而在使用支持向量机时,有必要进行数据的预处理。

(2)二分类泛化误差比较。从表2训练集交叉验证误差这栏可以看出,支持向量机在5个数据集上显著优于随机森林,而随机森林没有在任何一个数据集上显著优于支持向量机。对10个数据集训练集交叉验证误差进行置换检验,得到的P值为0.135,未达到设定的显著性水平0.05,认为两个分类器在训练集上的泛化误差不存在显著差异。重点考虑测试集预测误差这一栏,随机森林在4个数据上显著优于支持向量机,支持向量机只在2个数据集上显著优于随机森林。由10个数据集测试集预测误差的置换检验得到的P值为0.459,从而认为在二分类问题上两种分类器的泛化能力不存在显著差异。

(3)多分类泛化误差比较。分析同上,在训练集交叉验证误差的比较上,二者没有显著差异,但在测试集预测误差的比较上,随机森林显著优于支持向量机。因此,认为随机森林泛化能力在多分类问题上优于支持向量机。

2.2 噪声鲁棒性比较

数据噪声包括属性噪声和类别噪声,本文主要从分类器对类别噪声的鲁棒性来进行比较。从20个数据集中选取了10个数据集的训练集,二分类和多分类数据各5个,两种分类器根据表2和表3的训练集交叉验证误差最优值,确定是否采用预处理后数据。随机抽取每个训练集5%的样本,打乱其类别,人为制造类别噪声。在含噪声的数据上进行十折交叉验证,得到的交叉验证误差与表2和表3的训练集交叉验证误差最优值进行比较,计算交叉验证误差的增加值,该过程迭代10次。实验结果见表4,表中误差值为10次迭代的平均值,名义胜者为误差增加较小的分类器。

由表4可得,噪声使两种分类器的交叉验证误差均提高了。随机森林在3个数据集上的误差增加值显著低于支持向量机,支持向量机在1个数据集上的误差增加值显著低于随机森林,二者在其他数据集上均没有显著差异。10个数据集的置换检验得到的P值为0.1641,没有达到要求的显著性水平,因而两种分类器在噪声鲁棒性方面是没有显著差异的。

2.3 不平衡分类比较

不平衡数据是指数据中某一类的样本数目明显少于其他类样本的数目。本文选取10个二分类数据的作为实验数据,以不平衡度(小类样本数:大类样本数)小于0.5来界定不平衡数据,对于不平衡度大于0.5的原始数据集,通过随机删减小类样本以达到理想的不平衡度。以实验数据集上的十折交叉验证AUC值来比较分类器性能,相应参数寻优也以最大AUC值为目标,每个实验数据进行10次迭代。实验结果见表5,表中AUC值为10次迭代的平均值,名义胜者为能得到较大AUC值的分类器。

从表5的实验结果可以明显地看出,随机森林在不平衡分类性能上显著逊色于支持向量机。本实验是在未设置类权重的情况进行的,我国学者李建更等对加权随机森林(Weighted Random Forest,WRF)进行了实验研究,结果表明对不平衡数据进行权重设置在大多数情况下能取得优于普通随机森林的结果[12],其在研究中还就权重的设置提出几点很有价值的规律,详见文献[12]。此外,还可以通过数据层面的处理来提高分类器的性能,常用的技术有欠抽样(undersampling)、过抽样(oversampling)及两种技术的混合。

3 结论

通过数据实验,得出以下关于随机森林与支持向量机在分类性能方面的几点结论:(1)使用随机森林无需预先对数据进行预处理,而若使用支持向量机则有必要进行数据预处理;(2)在二分类问题上,二者的泛化能力无显著差异;(3)在多分类问题上,随机森林的泛化能力显著优于支持向量机;(4)二者对数据类别噪声的鲁棒性无显著差异;(5)在不平衡分类问题上,随机森林显著逊色于支持向量机。

参考文献

[1]BREIMAN L.Random Forests[J].Machine Learning,2001,45:5-32.

[2]方匡南,吴见彬,朱建平等.随机森林方法研究综述[J].统计与信息论坛,2011,26(3):32-38.FANG K N,WU J B,ZHU J P,et al.A Review of Technologies on Random Forests[J].Statistics&Information Forum,2011,26(3):32-38.(in Chinese)

[3]VAPNIK V.The Nature of Statistical Learning Theory[M].New York:Springer-Verlag,1995.

[4]FRANK A,ASUNCION A.UCI Machine Learning Repository[DB/OL].http://archive.ics.uci.edu/ml.

[5]LIAW A,WIENER M.RandomForest:Breiman and Cut-ler's random forests for classification and regression[CP/OL].http://CRAN.R-project.org/package=randomForest.

[6]EVGENIA D,KURT H,FRIEDRICH L,et al.E1071:Misc Functions of the Department of Statistics[CP/OL].http://CRAN.R-project.org/package=e1071.

[7]CHANG C C,LIN C J.LIBSVM:A Library for Support Vector Machines[J].ACM Transactions on Intelligent Sys-tems and Technology,2011,2(3):27:1-27:27.

[8]KEERTHI S S,LIN C J.Asymptotic Behaviors of Support Vector Machines with Gaussian Kernel[J].Neural Computa-tion,2003,15(7):1667-1689.

[9]LIN H T,LIN C J.A Study on Sigmoid Kernels for SVM and the Training of non-PSD Kernels by SMO-type Methods[R].Department of Computer Science,National Taiwan University,2003.

[10]MENKE J,MARTINEZ T R.Using Permutations Instead of Student’s t Distribution for p-values in Paired-Differ-ence Algorithm Comparisons[C].Proceedings of2004IEEE International Joint Conference on Neural Networks2004,2:1331-1335.

[11]GOOD P I.Permutation Tests:A Practical Guide to Resa-mpling Methods for Testing Hypotheses[M].New York:Springer,2000.

随机森林模型第7篇

在红外视频监控系统中, 对目标的识别尤为重要, 因为往往需要对特定目标 (人) 进行识别, 而在较为复杂的场景中, 常常会因为背景环境中的车辆、建筑、动物、电线杆以及风吹草动等影响, 造成误检及漏检。

为了对人体目标进行有效的识别, 需要选择目标的相应特征进行分类器的学习, 就特征提取而言, 常见的有利用其几何特征, 比如宽高比、形状复杂度、紧密度等, 但往往较难区分视场中的树叶、电线杆等伪目标;或者利用灰度特征, 但当背景区域亮度与人体相近, 比如房屋、海边等区域, 甚至比人体更亮时, 难以识别出人体目标。

此外, 为了提高识别率, 需要选择相应的算法对目标特征进行学习, 以形成分类器。常见的有基于Ada Boosting的学习, 但该算法实时性较差, 不能满足本文场景中实时处理的要求, 且在学习过程中需要大量的样本。此外有基于二叉树的学习, 虽然算法速度最快, 但识别性能太差。还有基于SVM分类器的学习, 在实现目标的二分类时效果较好, 但在解决多类分类的时候存在困难, 同样不适合本文的场景特征。

为了适应复杂场景中的不同目标分类, 实时处理, 并要求有较好的鲁棒性, 本文将HOG (Histogram of Oriented Gradient) 算法对图像局部区域外观和形状的良好表征和随机森林分类器稳健的目标分类性能有效结合, 提出了一种针对复杂场景的基于HOG的随机森林分类器的人体识别模型。

1 HOG特征提取

在对人体目标进行目标分类训练之前, 需要对感兴趣目标的特征进行相关的提取, 并且该特征要尽可能最大程度地区分感兴趣目标和其他目标, 而HOG能够对图像的局部区域特征进行描述, 它通过计算局部区域上的梯度方向直方图来构成人体特征, 能够很好地描述人体的边缘和轮廓特征[1,2,3], 并且对光照的变化、目标的少量偏移以及目标的远近不敏感, 因此可以较好地表征人体与其他目标的差异。

HOG的流程图如图1所示。

HOG特征计算的具体步骤如下:

1) 对于输入的视频逐帧处理, 并提取感兴趣的矩形区域。

2) 建立方向坐标系, 将-90°~+90°平均分成NSTAGE个区域, 并且得到各区域的正切范围, 便于后面根据各区域的梯度范围进行目标的分类。

式中:i∈[1, NSTAGE-1]。

因为正切值在-90°和+90°的位置为无穷大, 为了方便计算, 定义

3) 对于图像中的某一点的像素I (x, y) , 其一阶梯度为:

水平方向为

垂直方向为

4) 根据各点像素的一阶梯度值dx (x, y) 和dy (x, y) 获得各点的梯度方向α (x, y) 和梯度幅值Z (x, y) 。

梯度方向为

梯度幅值为

5) 根据各点像素的梯度方向α (x, y) 确定该梯度幅值在坐标系中所处的范围, 并对各区域的梯度幅值累加求和。

若α (x, y) Stage[k], 则HOGvector[k]+=Z (x, y) , 其中k∈[0, NSTAGE]。将各区域梯度值进行二范数的归一化, 各区域梯度幅值的二范数为

二范数归一化为

获得HOG特征向量:将各个区域归一化后的向量连接起来, 得到HOG特征向量, 并且, 该特征向量作为生成随机森林分类器的训练特征。

2 随机森林分类器

2.1 各分类器的比较

为了实现对人体目标的有效分类, 需要基于HOG特征向量, 选取适合的算法进行学习, 生成分类。学习算法很多, 下面简要介绍几个常见的算法。

1) Boosting[4]

它是判别分类器的组合, 分类决策是由各个子分类器的加权组合决定的, 在逐个训练分类器的时候, 数据样本的权重会被重新分配, 使之能够给予错误数据更多的注意力。训练不断地进行, 直到总错误低于某个特定的阈值, Boosting算法有较高的准确率, 不需要先验知识, 只需要选择合适的迭代次数, 但速度过慢, 需要大量数据进行训练, 且易受到噪声影响。

2) 决策树[5]

它是一个判别分类器, 该树在当前节点通过寻找数据特征和一个阈值, 最优划分数据到不同的阈值, 处理流程是不停地划分数据, 并向下到树的两端节点之一。和其他算法相比, 其性能不为最优, 但速度最快。

3) SVM[5]

支持向量机分类器, 需要设定一个高维空间中任意两点的距离函数, 采用基于最大类间隔的线性分类技术, 得到某种意义上较优地区分类别的非线性分类器, 当数据有限时, 该算法可以获得较好的性能, SVM算法对大规模训练样本难以实施, 且解决多类分类存在困难。

以上几种是目前较为常见的学习方法, 然而各自均存在一定的局限性, 而随机森林学习算法却能够很好地解决这一问题。

2.2 随机森林的原理

随机森林可以通过收集很多树的子节点对各个类别的投票, 然后选择获得最多投票的类别作为判断结果。随机森林包含随机选择的多个决策树, 此外, 它继承了树的很多属性, 通过构造不同的训练集增加分类模型间的差异, 从而提高模型的分类能力。此外, 为了提高鲁棒性, 随机森林使用袋外 (out of bag) 方法来检验分裂, 随机森林的具体流程如图2所示。

由图2所示, 多个分类器的组合模型, 其性能远优于单个决策树的预测, 鲁棒性较好。

2.3 基于HOG的随机森林分类器的建立

1) 首先, 从实验场景中提取感兴趣的正样本53个和负样本169个, 如图3所示。

2) 提取样本的HOG特征向量HOGvecor, 并设置参数responses的值。正样本:responses=1;负样本:responses=0。

3) 通过以下代码对样本进行学习、训练, 生成分类器:

forest.train (data.CV_ROW_SAMPLE, responses, 0, sample_idx, var_type, 0, Cv RTParams (10, 10, 0, true, 5, priors, true, 6, 100, 0.01f, CV_TERM-CRIT_ITER)

4) 调用随机森林预测函数对目标特征进行预测, 并且将返回值r转换成整数来标志是否预测正确, 代码为:

5) 使用不同数量的testsample (包括正反样本) 验证分类器的识别率。

2.4 实验结果

为了验证不同测试样本数以及梯度区域分类数目对识别结果的影响, 采用不同的数据进行观测, 此外, 本文对比了不同分类器的性能。

1) 选取15个正样本, 33个负样本, HOG分成10个区域, 各分类器的识别率如表1所示。

2) 选取15个正样本, 33个负样本, HOG分成40个区域, 各分类器的识别率如表2所示。

3) 选取15个正样本, 33个负样本, HOG分成60个区域, 各分类器的识别率如表3所示。

通过表1、表2、表3的结果可知, 通过一定数量的测试样本对4种分类器进行检测, 随机森林分类器的识别效果最佳, 并且随着HOG区域细分程度的增加, 分类越精细, 识别率越高。

3 复杂场景中的人体识别

前文简要介绍了HOG特征的提取, 并且基于HOG产生的特征向量, 进行随机森林分类器的学习, 建立了随机森林分类器, 并利用测试样本验证了随机森林分类器的性能优于其他分类器。为了进一步说明该分类器在复杂场景中的鲁棒性, 选择一些复杂的场景进行验证。

测试视频为红外摄像机拍摄所得, 环境温度0~10℃, 分辨率为384×288。程序运行环境为:VC++2008, Open CV 2.10, Intel Core i5-2430M/2 Gbyte内存。

1) 场景一:街道, 如图4所示 (原图为彩色图片) 。

场景说明:图4a中右下方狗的目标框为绿色;图4b中中心汽车的目标框为黄色;图4c中左上方的吊车的目标框为蓝色;图4中的人体目标框均为红色。

场景分析:街道环境较为复杂, 有电线杆、树木、运动的吊车、宠物以及汽车的出现。从图4a知, 没有将狗 (绿框) 识别成人体目标;从图4b知, 没有将汽车 (黄框) 识别成人体目标;从图4c知, 没有将运动的吊车 (蓝色区域) 识别成人体目标;从图4d知, 当视场中出现多人体目标时, 没有出现漏检, 分类器鲁棒性较好。

2) 场景二:草原, 如图5所示 (原图为彩色图片) 。

场景说明:图5中, 人体目标框为红色。

场景分析:草原环境中, 背景灰度和人体目标差异较小, 且存在电线杆、风引起草坪的晃动等干扰, 从图5a和图5b中可知, 分类器均能较好地识别出人体目标, 并且无虚警, 分类器鲁棒性较好。

3) 场景三:野外, 如图6所示 (原图为彩色图片) 。

场景说明:图6中, 人体目标框为红色。

场景分析:野外环境中, 存在电线杆, 有许多土坡, 并且树木较多, 地面杂草丛生, 因此在风大的时候会对目标识别产生一定的干扰, 从图6a和图6b中可知, 分类器能够较好地识别出人体目标, 无虚警, 分类器鲁棒性较好。

以上3个场景是比较有代表性的复杂场景, 此外还有河套、海边、工地等其他复杂场景, 就不一一列举了, 它们有以下一个或几个特点:1) 视场中存在汽车、宠物等其他运动物体;2) 存在电线杆、灌木桩等物体;3) 当环境中风较大时, 引起的树叶和草丛的晃动会带来干扰;4) 背景温度较高, 比如房屋、村庄、海洋等, 造成背景环境和人体灰度接近, 带来干扰。

针对以上复杂环境, 基于HOG的随机森林分类器依然可以较好地对人体目标进行准确识别, 不会出现误检和漏检, 鲁棒性较好。

4 总结

本文通过对ROI区域HOG特征的提取和学习, 并对一定数量的正负样本进行训练, 建立了基于HOG的随机森林分类器, 并通过测试样本验证了该分类器的鲁棒性。此外将基于HOG的随机森林分类器与二叉树、SVM和Ada Boosting等算法进行比较, 验证了其优越性。最后, 将生成的分类器用于街道、草原以及旷野等复杂场景, 观察到在不同情况下均可以实现对人体目标的准确识别, 在视频监控中发挥着重要的作用。

摘要：针对目前复杂场景中人体目标的识别率低、误检率高的问题, 提出了一种基于HOG的随机森林分类器, 将HOG算法对图像局部区域外观和形状的良好表征和随机森林分类器稳健的目标分类性能和效果有效结合, 并将其性能与二叉树、AdaBoost和SVM等分类器进行了比较, 证明其具有较好的鲁棒性, 且在复杂场景中得到了有效验证。

关键词：HOG特征,随机森林,人体识别

参考文献

[1]胡仕玲, 顾爽, 陈启军.基于HOG的物体分类方法[J].华中科技大学学报, 2012 (11) :124-126.

[2]李晖, 曲仕茹.基于分层梯度方向直方图和SVM的人体识别[J].计算机测量与控制, 2010, 18 (11) :2062-2064.

[3]TRIGGS D.Histogram of oriented gradients for human detection[C]//Proc.the IEEE Conference on Computer Vision and Pattern Recognition.[S.l.]:IEEE Press, 2005:886-893.

[4]董乐红, 耿国华, 高原.Boosting算法综述[J].计算机应用与软件, 2006 (8) :27-29.

随机森林模型第8篇

2016年以来, “互联网+”行动计划和“宽带江苏”工程助力江苏互联网的发展, 江苏省的互联网水平不断提升。与此同时, 网络安全方面的威胁也层出不穷, 特别是僵尸网络等网络攻击给我们带来了极大的网络安全威胁。《2015年江苏省网络安全报告》中指出, 2015年江苏省内被境内外主机通过僵尸木马控制的事件有2亿余起, 涉及受控IP地址134.74万个, IP个数与去年同比上升103.62%, 攻击次数全年达7 408万次, 总数较去年大幅增加。僵尸网络攻击仍然是威胁江苏省网络安全的重大问题。如何有效检测和防御僵尸网络攻击是亟待解决的问题。

僵尸网络 (Botnet) 是指通过入侵网络空间内若干非合作用户终端构建的、可被攻击者远程控制的通用计算平台。传统的僵尸网络域名检测方法, 如:程序逆向、DPI (Deep Packet Inspection, 深度包检测技术) 等基于内容的检测技术, 具有部署复杂、覆盖范围狭隘、匹配精确度低等不足。此外, 已有的研究方法大多基于小数据集上的实验说明检测的有效性, 不适用于分布式环境下海量数据中的僵尸网络域名检测。很多研究方案是针对特定的应用场景而设计, 没有考虑方案的可移植性。

本文通过对DNS (Domain Name System, 域名系统) 解析数据进行特征提取、使用改进的随机森林算法从DNS数据中挖掘出僵尸网络使用的僵尸网络域名。通过发现和封堵僵尸网络域名, 进一步有效阻断控制服务器传播僵尸木马, 从根源上防御和阻断僵尸网络攻击。

1 僵尸网络域名检测方案

1.1 总体方案

本文检测的总体方案如图1所示, 主要包括5个模块:1) 数据预处理模块:负责对DNS数据进行抽取、清洗、转换、加载, 过滤掉字段不全的脏数据, 并且去除掉DNS数据中与检测无关的字段。2) 知识库:作者所在单位长期收集的白域名和非法域名的集合。3) 特征提取模块:负责对DNS数据进行特征提取, 构建DNS数据的特征矩阵。4) 数据分类模块:引入随机森林分类算法, 在数据的特征矩阵上构建僵尸网络域名检测模型。5) 僵尸网络域名检测模块。

利用模块3) 中构建的检测模型, 以天为周期进行检测, 发现真实域名中存在的僵尸网络域名。下面将针对方案中的关键模块进行研究和实现。

1.2 特征提取模块

DNS解析数据中包含了正常域名和僵尸网络使用的僵尸网络域名。以下从域名、IP和时间特征三方面总结了正常域名和僵尸网络域名的7个特征:

(1) 域名特征

1) 域名长度:僵尸网络域名的域名长度大于一般的正常域名。攻击者使用的僵尸网络域名大部分由DGA (Domain Generation Algorithm, 域名生成算法) 算法自动生成。为避免与正常域名冲突而影响使用, DGA算法生成域名长度偏长, 并且会大批量生成候选域名。

2) 域名熵:熵是衡量一个系统内在的混乱程度的度量方式, 熵越大, 表明分布越混乱。基于DGA算法生成的僵尸网络域名, 在字符分布上多为随机分布。与正常域名相比, 域名的字符种类更多, 混乱的程度更大, 熵也越大。

3) 域名包含的连续数字个数:正常的域名会具有一定语义, 其中使用数字表示的语义很少。而僵尸网络域名的可读性较差, 其中出现连续数字的数量相比于正常域名要多。

(2) IP特征

1) 域名对应的IP数量:僵尸网络域名对应的IP地址数量多于正常域名。僵尸网络域名是维系僵尸网络的重要部分, 所以攻击者会给僵尸网络域名分配较多的解析IP。而正常域名指向的IP地址是由其业务量及流量的多少来决定的, 大部分的正常域名指向的IP地址数量相对较少。

2) IP的16位前缀熵:僵尸网络域名对应的IP地址差异性较大。社会上单位企业的正常域名解析出的IP地址一般会分配固定的网段, 如:218.94.0.0网段、117.23.0.0网段。僵尸网络域名由于通过非正常手段取得IP地址, 其对应分布的网段相比于正常域名更加混乱, 可以使用熵来度量其的混乱程度。

(3) 时间特征

1) TTL的最大值:TTL (Time To Live, 生存时间值) , 该字段指定IP包被路由器丢弃之前允许通过的最大网段数量。因为僵尸网络中的节点通信的质量参差不齐, 稳定性低, 经常会出现失效的状况。为了保证可用性, 攻击者会将IP的TTL值设置的较小, 更新的速度加快。因此, 僵尸网络域名的TTL最大值会比正常域名的TTL最大值小。

2) TTL的最小值:每次通信中, 每个IP的TTL值是会有所变化的, 不同的TTL值组成集合就具备了集合的分布特征。本文在不增加检测模型计算量的前提下, 选择使用TTL的最大值和最小值作为IP的TTL值的分布特征。

2 实验评测与分析

2.1 实验数据与实验过程

通过对全省的网络安全事件进行跟踪、处理, 收集了一批僵尸网络域名作为知识库。从该库中选取了30 000个典型的僵尸网络域名作为标签数据, 再从Alexa网站排名中截取前30 000的白域名组成标签数据集合。从中随机抽样36 000个标签数据作为训练数据集合, 剩余的24 000个标签数据作为测试数据集合。

DNS解析的原始数据包含7个字段:1) 域名名称;2) 域名别名;3) 域名解析的IP地址;4) 请求域名的源IP地址;5) 最大TTL值;6) 最小TTL值;7) 时间戳。

实验过程中, 首先引入训练数据集训练僵尸网络域名的检测模型。随机森林算法中, 需要提供算法3个必要的输入参数:1) 决策树的个数;2) 候选切分点的个数;3) 切分点的划分标准。实验的参数为决策树100个, 候选切分点个数12个, 切分点的划分标准选择Gini不纯度, 其公式如下所示:

其中, pi为样本集合中属于类别i的样本个数和样本总个数的比值。

1_ (, ) () vv Gini index D a Gini DD (28) (28) 在随机森林算法中, 属性a的基尼指数定义为:

其中, D为参与训练的样本集合。V为属性a上的取值集合。Dv为在属性a上取值为v的样本集合。选择最优划分属性即选择公式 (2-2) 取最小值时的属性。

利用上述的训练数据集和随机森林算法训练, 可得到一个僵尸网络域名的检测模型。下面对检测模型进行测试。

2.2 实验评测

实验分类属于二分类问题的范畴, 因此引入ROC (Receiver Operating Characteristic, 受试者工作特征) 曲线作为分类器的评价指标。

对于一个二分类问题, 分类结果会出现四种情况, 如表1所示。

正类TruePositive (TP) FalseNegative (FN) 负类False Positive (FP) True Negative (TN) 将训练得到的分类器和分布式环境下基于决策树C4.5得到的分类器从准确率、召回率和精确率三方面进行性能比对, 如表2所示。

决策树随机森林在分分表类类器2器中, 分8892类..2755器%%的准确8391率..0563、%%召回率8695..和4372精%%确率均优于决策树分类器。分布式环境下, 决策树分类器的建树时间很快, 但同时也存在着容易过拟合、分类准确度不高的问题。本文的随机森林分类器, 在构建森林的同时, 利用包外数据进行剪枝, 避免了过拟合的问题, 使得泛化误差收敛;此外, 随机森林分类器通过每棵决策树投票, 按照“少数服从多数”的方式确定一个样本的最终分类。这也提高了分类器的分类的准确率。

2.3 数据验证

对某省2015年8月25日至2015年9月10日真实DNS数据进行分析, 域名访问记录总数大约为738亿条, 访问的域名总数有33 256 246个, 其中过滤了已知的域名17 329182个。剩余域名中, 检测得到的疑似僵尸网络域名2 074个。本文主要采取三种验证方法:1) 利用权威组织的域名黑名单作为验证依据;2) 认为域名不可达则为僵尸网络域名;3) 人工校验如域名是否提供可访问的页面、域名对应IP的主机开放的端口情况。真实域名检测实验的结果如表3所示。

表3中, 经过验证, 得到的僵尸网络域名1 907个。其中, 已知的僵尸网络域名数占检测出的僵尸网络域名的33.87%, 其余均为分类器发现的僵尸网络域名。新发现的僵尸网络域名中, 不可达域名有46.1%;经过伪装需要人工校验的僵尸网络域名有20.03%, 检测的精确度为91.95%。数据验证的结果和测试阶段的精确度接近, 表明分类器处理大规模域名数据时精确度保持稳定, 反应了本文提出的分类器在分布式环境下精确度高兼具稳定性, 具有实际应用价值。

3 结束语

本文从僵尸网络的安全威胁出发, 分析了僵尸网络域名在僵尸网络中的重要性。以检测僵尸网络域名为目的, 从域名、IP和时间性三方面提取了僵尸网络域名的特征。通过分布式的随机森林算法, 实现了僵尸网络域名的检测模型。通过实验和真实数据验证, 表明本文设计的僵尸网络域名检测模型在分布式环境下精确度高且比较稳定, 取得较好的效果。

摘要：本文研究了僵尸网络和僵尸网络域名的关系, 针对已有的僵尸网络域名检测方法存在的不足。本文引入改进后的分布式随机森林算法, 从域名、IP和时间性三方面建立了僵尸网络域名的检测模型。通过真实域名验证, 表明本文提出的僵尸网络域名检测方案在分布式环境下精确度高且比较稳定, 具有较好的应用效果。

随机森林模型第9篇

基因表达数据分析的主要任务就是对样本进行分类，希望用较少的基因数目获得较好的分类效果，而基因表达谱数据集的一个显著特点是样本少、维数高，大量的样本属性中仅有少量基因包含了样本的分类信息。因此如何找出影响样本信息的特征基因，就成为基因表达谱分析的关键。

目前常用的特征选择方法可分为过滤法（Filter）、封装法（Wrapper）[1]。过滤法计算简便、速度快；封装法较复杂但分类效果优于过滤方法。在基因表达谱的特征选取中，结合Filter、Wrapper的优点，采用启发式搜索算法和分类器进行封装逐渐成为当前的热点。

本文结合了Filter、Wrapper的优点，提出一种基于量子粒子群和随机森林封装的特征选择方法。将量子粒子群算法用于特征选择，优化特征子集，采用随机森林分类器评价特征子集的性能，指导特征子集更新，以寻求一组最优的特征子集。实验结果表明，基于量子粒子群和随机森林的特征选择方法能够找到最少的特征子集达到比较高的分类效果，同随机森林自身的重要性排序具有可比性。

1、量子粒子群和特征选择

1.1 量子粒子群简介

粒子群优化算法 (Particle Swarm Optimization, PSO) [2]，是由J.Kennedy和R.C.Eberhart等于1995年开发的一种演化计算技术，来源于对鸟类和鱼群捕食等行为的模拟。在鸟类捕食的群体行为中，每只鸟被看作一个粒子，而每个粒子代表一个被优化问题的解。在D维搜索空间中，设微粒xi本身所找到的最佳位置为pi= (pi1, pi2, ..., piD) ，称为粒子个体最优点。整个粒子群迄今为止搜索到的最佳位置为pg= (pg1, pg2, ..., pg D) ，称为粒子群全局最优点。粒子当前速度为vi= (vi1, vi2, ..., viD) ，每个粒子将根据一定的公式来调整自己下一步位置。

基本的PSO粒子群系统，粒子的收敛索空间是一个有限的区域，不能保证以概率1搜索到全局最优解。Sun等人从量子力学的角度出发提出了一种改进的PSO算法———具有量子行为的粒子群算法 (Quantum-behaved Particle Swarm Optimization) 。其粒子的速度和位置信息都将归结为一个参数β，如下所示：

式中，p Best为个体极值，gBest为全局极值，mBest为中值最优位置，M为群体中所含粒子数，r1, r2, u是（0, 1）之间的随机数，β为系数创造力，调节它的值控制算法的收敛速度。通常情况下，β从1.0线性减小到0.5时，算法可以达到比较好的效果。在迭代过程中，式（3）中±是由随机数u决定的，当u大于0.5时取+，否则取-。

1.2 用于特征选择的量子粒子群

量子粒子群工作在连续空间，对其进行离散二进制处理，使其可应用于特征选择。

将各特征作为位置点，若有D个特征，则粒子为D维向量。产生初始粒子群，随机产生n个粒子，每个粒子x (t) 为D维二进制向量，值为（0, 1）之间的随机数。对x (t) 取整，x＿B (t) =round (x (t) ) ，每个粒子表示为由0、1构成的二进制向量，将值为0的特征选出，值为1的特征不选择，由此得到每个粒子的初始特征子集。

每个初始特征子集，用随机森林分类器评价其性能，适应度函数定义如下：

式中，Accuaray是每个粒子分类的错误率，ones是每个粒子选取的特征数，All是全体特征数，k是准确率和特征数的平衡系数，k值越大，表示特征数量越受重视。计算所有粒子适应度的大小，每个粒子的初始位置作为个体极值pBest，全局极值gBest，为适应度值最大的粒子。

根据式（1）-（4），更新每一个粒子x (t+1) ，限制更新后的粒子x (t+1) 的每一维是在[0, 1]之间的数，将大于1的设为1，小于0的设为0。对x (t+1) 取整，x＿B (t+1) =round (x (t+1) ) 。每个粒子又表示为由0、1构成的二进制向量，将值为0的特征选出，值为1的特征不选择，由此得到每个粒子的初始特征子集。如此反复，得到一组组新的特征子集。

2、量子粒子群和随机森林的特征选择

基于量子粒子群和随机森林的特征选择结合了Filter、Wrapper的优点，利用信噪比[4]方法去除掉了多数不相关的特征，减少算法计算复杂度后，将量子粒子群算法用于特征选择，采用随机森林分类器评价特征子集的性能，指导特征子集的计算和更新，使搜索快速收敛。具体过程如下：

2.1 信噪比过滤不相关的基因

以信噪比方法衡量基因的重要性

sn (i) 是第i个特征的表达差异值，u+ (i) 是第i个特征类标识为正类的样本的平均值。σ+ (i) 是其标准差。u- (i) 是第i个特征类标识为负类的样本的平均值，σ- (i) 是其标准差。选取前300个sn (i) 值较大的基因，滤去了多数不相关特征，大大减少了特征选择的计算复杂度。

2.2 分类器的选择

随机森林是Leo Breiman于2001年提出的一个组合分类器算法，是由许多单棵分类回归树（CART）组合而成的，最后由投票法决定分类结果。整体的泛化误差取决于森林中单棵树的分类效能和各分类树之间的相关程度。Breiman采用Bagging和Randomization相结合的方法，在保证单棵分类树效能的同时，减少各分类树之间的相关度，提高了组合分类器的性能。能较好地解决小样本、高维数数据的分类问题，且分类速度快，因此随机森林作为搜索过程的分类器。

随机森林同时是一种重要的特征选择方法，可与提出的方法进行比较。

2.3 量子粒子群和随机森林的特征选择

信噪比得到的300个基因，用量子粒子群算法进行特征选择，用随机森林分类器评价特征子集的性能，其适应度函数如式（5）所示，k取值为0.02。具体算法实现如下：

(1）产生初始粒子群

按上文提到的方法产生初始粒子群，转换成二进制向量，得到初始特征子集；

(2）根据式（5）计算所有粒子的适应值，每个粒子的初始位置作为个体极值pBest，全局极值g Best为适应度值最小的粒子；

(3）更新粒子的速度和位置

根据式（1）-（4），更新每一个粒子。由更新后的二进制粒子向量x＿B (t+1) ，将值为0的特征选出，值为1的特征不选择，得到新的特征子集，根据式（5）计算所有粒子的适应值。更新个体极值和全局极值。若更新后的二进制粒子向量x＿B (t+1) 全为1，无特征可选。则x＿B (t+1) 更新为一组随机产生的二进制向量；

(4）判断循环是否终止，产生全局最优解和最优特征子集。否则，返回至（3）ㄢ

3、实验及分析

为了验证量子粒子群特征选择的性能，采用4个基因数据集进行实验，数据集如表1所示：

用信噪比得到的300个特征利用随机森林分类器对所有样本进行分类。树大小ntree=500，其余参数为默认，得到300个特征的重要性排序。根据特征重要性排序，取出最重要的特征做为初始特征子集，样本按类别分为5份，每次取1份做为测试集，剩余4份为训练集。5份测试集的准确率平均得到该特征的适应度值，做20次得其平均值及标准差。再取出剩余特征中最重要的特征，与初始特征组成新的特征子集。重复，直到特征数达到50个。记录下最少特征子集达到最比较好的分类效果。

量子粒子群特征选择，利用信噪比获得的300个特征基因进行迭代，粒子群大小设定是30，迭代次数为100，对每一个特征子集，样本按类别分为5份，每次随机取1份做为测试集，剩余4份为训练集。做20次得其平均值及标准差。实验结果如表2所示：

基因表达数据具有维数高、样本少等特点，采用一定的特征基因选择方法以减少特征数是非常必要的。本文结合Filter、Wrapper的优点，提出了基于量子粒子群算法和随机森林分类器相结合的特征基因选择方法，从实验结果可以看出，特征选择算法去掉大部分不相关基因，减少特征数，提高分类准确率，具有较高的有效性和可行性。

提出的方法能取得较好结果主要原因：

(1）使用信噪比挑选出300个基因，滤去多数不相关特征，大大减少了特征选择的计算复杂度；

(2）量子粒子群不断更新粒子，使得粒子具有多样性，避免局部最优；

(3）采用特征组合的方式，避免随机森林等方法每次对单个特征计算忽略特征之间的相关性；

(4）量子粒子群算法在搜索过程中只有一个参数，当从1减少到0.5时，粒子收敛，避免陷入局部最优，提高了算法的性能。

参考文献

[1]段艳华.基于基因表达谱的肿瘤分类特征基因选择研究[D].北京:北京工业大学, 2008

[2]KENNEDY J, EBERHART RC.Particle swarm optimization.In:Proc IEEE Conference on Neural Networks.Piscataway, NJ, 1995, (4) :1942-1948

[3]SUN J, FENG B.Particle swarm optimization with particles havingquantum behavior[C].China:Congress on Evolution Computation, 2004

[4]GOLUB R R, SLONIM D K, TAMAYO P, et al.Molecular classifi-cation of cancer:class discovery and class prediction by gene expressionmonitoring[J].Science, 1999, 289 (5439) :531-537.

随机森林模型第10篇

关键词诶尔曼神经网络；人工神经网络；随机游走模型；组合预测；金融时间序列

中图分类号 F224 文献标识码 A

1 引言

金融时间序列与经济环境及商业环境有关，如股市，汇率，物价指数，国民收入和净出口等.选择一个合适的金融数据模型，需要正确地识别金融市场与整体经济之间的内在关系[1].在实践中非常困难.因为一个金融时序数据的动态变化受到多个经济变量的影响，包括经济增长，利率，通货膨胀，通货紧缩，政治决策和心理因素等多个复杂的经济变量[1].

这些年来，关于金融时间序列的分布特征、模型模拟及预测等已经有了大量的研究工作[2，3].线性统计模型，如指数平滑法[4]和ARIMA[5]模型等，已经大量应用于金融数据的预测.ARIMA模型的一个分支，即随机游走模型（Random Walk model）[1，6]，已经成为这个领域的主流统计技术.在一个简单的随机游走模型中，每一期的预测值被认为是最近一期的观测值和随机误差项的总和.目前，简单随机游走模型是金融时间序列分析中最主要的线性模型（尤其是汇率数据）[7].对随机游走模型的改进，如带漂移项的随机游走模型和误差修正，也有了很多相关的研究[1].尽管随机游走模型具有简单性和显著的预测精度，但是其主要缺点是内在的线性形式.随机游走模型未能捕获存在于金融时间序列中的非线性特征[2，7].非线性是金融时间序列的缺省特征，因此，通过一个随机游走模型近似它是不充分的.在这种情况下，人工神经网络是一种不错的选择.由于其非线性，非参数，自适应和噪声耐受性，人工神经网络在金融时间序列预测领域获得了广泛的关注[2，3].这些显著的特征使得人工神经网络模型能够有效地识别解释变量之间导致金融时序图产生不规则波峰和波谷的内在机理.与其他非线性统计模型不同的是，人工神经网络能够在不了解底层数据计算过程的情况下进行非线性模拟[8].不少研究者对比了人工神经网络和随机游走模型预测金融数据时的表现，也研究出了许多有益的结果：如Dunis and William发现神经网络相对于一般的统计模型可以提供更高的预测精度；Sun[1]发现在预测汇率时，人工神经网络表现出比随机游走模型更差的预测精度等等.但是，对于预测金融数据，一个金融时间序列一般包含了线性部分和非线性部分，单独使用人工神经网络模型或随机游走模型并不合适.上述研究无法确定人工神经网络模型和随机游走模型中哪一个更适应于预测这类金融数据.从而激励着去寻找一种组合机制去预测汇率.对于金融数据模型的预测，zhang[7]首次将随机游走模型和神经网络模型结合起来，国内学者熊志斌也做了ARIMA融合神经网络的人民币汇率预测模型研究[9].

本文假设任何金融时间序列由线性部分和非线性自相关部分组成，且可以从时间序列中剥离、单独建模.将随机游走模型和神经网络模型结合起来对金融数据进行预测.主要步骤如下：首先，随机游走模型用于拟合金融时间序列的线性部分，由观察值和随机游走模型拟合值之间的差计算样本内残差.根据假设，这些残差只包含非线性关系；第二，FANN和EANN将用于分别拟合这些残差值，并由2个模型产生的预测值的平均值得到想要的残差估计；第三步，由随机游走模型预测时间序列的线性部分；最后，将线性部分和非线性部分所得到的预测值加总，获得期望的最终预测.

2 随机游走模型

随机游走模型是金融时序分析最流行和有效的统计模型，也被广大的研究生所研究和使用，这个模型假设最近的观察值是对下一期预测值的最佳指南.在数学上，一个简单的RW模型被表示如下：

其中，和yt是时间序列中的观察值，εt是一个白噪声并且εt～N（0，σ2）.

从式（1）中可以看出，一个随机游走模型表明所有与未来相关的信息已经包含在可用的数据里，这个模型因为被使用较多，所以非常容易理解和实现.根据有效市场的假说，随机游走模型是外汇汇率预测中最主要的线性模型，而且大量研究指出许多基于线性结构的预测技术并没有比简单的随机游走模型更有效.

一个随机游走模型的成功很大程度上取决于随机误差项，按照定义，随机误差项是独立同分布的.在本文中将生成独立同分布的伪随机正态变量εt～N（0，σ2），其中σ2是样本内数据集的方差.

3 人工神经网络（ANN）模型

3.1 前馈神经网络（FANN）

在所有可用的仿生预测方法中，人工神经网络无疑是最流行且最成功的.人工神经网络最初起源于对人脑结构的模仿，渐渐地，神经网络技术在众多领域起到了极为重要的作用，如分类、识别和预测.人工神经网络通过若干互相连接的分布在不同层的神经元来学习数据的内在关系.多层感知器（MLP）是最被认可的人工神经网络的结构，用于时间序列预测问题.一个MLP基本上是一个输入层，一个或多个隐藏层和一个输出层的前馈结构.在每层中有许多个处理结点，其通过不可逆的链接连接到下一层.单层次的隐藏节点已经足以解决许多最实际的问题.图1描述了一个典型的MLP结构（p个输入结点，h个隐藏结点和一个输出结点）.

在没有任何限制条件的情况下，简单的多层感应器模型或前馈神经网络模型能以任何给定的精度去近似逼近任何非线性函数.考虑到计算的要求，简单的神经网络往往是更合适的.选择合适的网络结构很重要，但并不是一个简单的工作.网络结构的选择主要包括确定输入节点、隐藏节点和输出节点的个数，以及隐藏层的层数.在不同文献中有着不同的参数优化选择方法，但这些方法并不简单，而且都是针对着具体的问题.

广泛应用的神经网络选择方法包括了赤池信息准则（AIC），贝叶斯信息准则（BIC），施瓦茨的贝叶斯准则（SBC）和偏差校正的赤池信息准则（AICC-）.这4种准则基于对增加神经网络中参数个数的惩罚.在本文中，使用BIC准则作为神经网络的选择标准，因为它比其他3种准则更严重地惩罚了额外的参数.对于一个的FANN模型，BIC的数学表达式由式（5）给出：

3.2 诶尔曼人工神经网络（EANN）

类似于常见的前馈型神经网络（FANNs），时间递归神经网络在金融时间序列预测领域也相当流行.诶尔曼人工神经网络是一种简单的时间递归神经网络，除了3种常见的层次，还有额外的上下文层和反馈连接.在每一个计算步骤中，隐藏层的输出被再次反馈到上下文层，如图2所示.这种递归使得神经网络动态化，从而能够实现对处理结点非线性时间依赖的映射.EANN模型通常比相同结构的FANN提供了更好的预测性能.然而，EANNs比FANNs需要更多数量的网络连接和记忆单元.

使用相同的网络结构的FANN和EANN模型，不同之处在于EANN模型隐藏层的神经元是对应FANN模型中神经元的5倍.

4 组合方法的建模

在本文中，决定同时利用随机网络模型和神经网路模型来预测金融数据.虽然这些模型有着广泛的应用，但是他们之中没有一个模型能够在所有预测情况之下都最好.例如，RW模型不适合于识别非线性模式，类似地，使用人工神经网络处理线性问题时产生的结果也好坏参半.因此，更科学的做法是找一种组合方法去结合这两种模型的长处，而不是单独地去应用它们.假设，一个金融时间序列由从线性和非线性两部分构成，能从时间序列中分离出来并单独地建模.从数学上讲：

这种组合方法的显著特点如下：①任何金融时间序列都由线性部分和非线性部分组成，通过随机游走模型拟合线性部分，神经网络模型拟合非线性残差部分，提高了总体的预测精度；②类似的组合方法最早由Zhang推出，在他们的方法中，时间序列的线性部分由ARIMA模型来拟合而剩余的非线性残差部分由FANN来拟合.然而，该组合方法同时结合了FANN模型和EANN模型两种模型的优势，能更好地识别非线性自回归结构；③这种组合机制是基于一种简单而有效的想法，相当容易实施和解释.④值得注意的是，如果金融时间序列中的线性和非线性部分存在着适当比例的自相关结构，那所提出的组合方法将能显着改善预测精度.如果这2个部分自相关程度较弱，那该方法可能并不合适.

5 实验结果与讨论

为了验证所提出的组合方法的有效性，本文用到了三组数据：①港币兑换美元汇率，包括了从1994年8月到2015年6月港币兑换人民币的每月汇率；②美元兑换人民币汇率，包含从2005年5月到2015年6月美元兑换人民币的每月汇率；③人民币兑换港币汇率，包括了从1995年1月到2015年6月人民币兑换港币的每月汇率.（数据来源：汇率数据取自国泰安数据库）（见表1）

从图3中可以清楚地看到3个时间序列中不规则非平稳的变化.

图4和5中，画出了3种时间序列的实际曲线和通过组合模型所描绘的预测值曲线.在每个图中，实线和虚线分别表示实际和预测序列.港币美元汇率与人民币港币汇率数据的预测误差较小，预测值与原始值的走势趋于一致.预测人民币港币汇率的预测效果没有港币美元汇率与人民币港币汇率好，预测值的总体走势与原始值一致.三组汇率数据的原始值和他们的预测值之间的接近程度是显而易见的.

6 总结

众所周知，设计一个合适的模型来预测金融数据是时间序列研究领域的一个重大挑战，也是极其不易之事.这主要是因为金融时间序列中的不规则运动及突然的转折点使得实际中很难去理解和预测.基于金融数据独特的随机性特征，本文构建了人工神经网络和随机游走模型对中国的汇率数据进行预测.

本文构建的新模型结合了随机游走模型，FANN模型和EANN模型3种模型的优势去预测金融数据.并且从实证结果表明，预测值与原始值的走势趋于一致，港币与人民币之间的预测误差不大，但是对于相对于人民币汇率的预测，美元汇率的预测效果更好.从预测误差看，均比每个单独的模型效果要好.从三组真实的金融时间序列的实证结果清楚地表明，本文新构建的组合方法极大地提高了整体的预测精度.因此，我们的新模型在汇率预测方面上有更高的准确性和适用性.

参考文献

[1] Y SUN. Exchange rate forecasting with an artificial neural network model： can we beat a random walk model？ [D] New Zealand：Christchurch，Lincoln University， 2005.

[2] A HUSSAIN， A KNOWLES， P LISBOA，et al. Financial time series prediction using polynomial pipelined neural networks[J]. Expert Systems with Applications， 2008， 35（3）： 1186-1199.

[3] M SEWELL. The application of intelligent systems to financial time series analysis[D].London：Department of Computer Science， UCL，2010.

[4] C LEMKE，B GABRYS. Metalearning for time series forecasting and forecast combination[J]. Neurocomputing， 2010， 73（10）： 2006-2016.

[5] G BOX， G JENKINS， G REINSEL. Time series analysis： forecasting and control[M].London John Wiley & Sons， 2011. 734

[6] E TYREE， J LONG. Forecasting currency exchange rates： neural networks and the random walk model[J]. Citeseer， 1995（1）：981-996.

[7] G ZHANG. Time series forecasting using a hybrid ARIMA and neural network model[J]. Neurocomputing， 2003， 50： 159-175.

[8] G ZHANG. A neural network ensemble method with jittered training data for time series forecasting[J]. Information Sciences， 2007， 177（23）： 5329-5346.

随机森林模型第11篇

1 建模

本模型采取(Q,R)库存管理策略(其库存模型如图1所示),对库存系统的存储量进行严格监控,当现有库存量降低至再订货点R时,发出订单,订购量为Q,考虑连续盘点型(Continuous Review ) 库存控制策略, 决策变量是订货批量和提前期。

1.1 模型假设

假设1:假定在一个批量Q到达仓库后, 现有库存水平总是高于再订货水平R, 因此在一个提前期内, 只会有一次订货, 即不会发生合同交叉的问题。这个假设也保证了连续订货, 产生随机提前期问题。

假设2:连续的随机提前期是相互独立的, 订货合同之间不发生交叉。

假设3:提前期t为随机变量,L为提前期的平均值,σt为提前期的标准差。

假设4:单位时间需求变量X:服从期望值为ux,标准差为σx的分布。

假设5:C1为单位时间单位货物的储存费用;H为储存费用;C2为单位时间单位货物的缺货费用;V为缺货费用;C3为一次定购费用;y为提前期需求量。

假设6:CSL:周期服务水平(所有补货周期中能满足顾客所有需求的补货周期所占比重),CSL=P(y≤R)=α。

1.2 计算库存费用

由假设4可知,提前期需求量y:服从期望值为Lux,标准差为 $\sqrt{L} σ_{x}$ 的分布且密度函数为 $f (y, L u_{x}, \sqrt{L} σ_{x})^{[4]}$ 。

因为再订货点的值等于提前期内的平均需求量加上安全库存量,即:

R=Lux+ss (1)

又由假设6:CSL=P(y≤R)=α,所以:

$C S L = Ρ (y \leq R) = \int_{0}^{R} f (y, L u_{x}, \sqrt{L} σ_{x}) d y = F (R, L u_{x}, \sqrt{L} σ_{x}) = α (2)$

由(1)、(2)可以求出: $R = F (α, L u_{x}, \sqrt{L} σ_{x})^{- 1}$ ,

$s s = R - L u_{x} = F (α, L u_{x}, \sqrt{L} σ_{x})^{- 1} - L u_{x}$ 。

每周期的平均库存为:

$Ι = \frac{Q}{2} + s s = \frac{Q}{2} + R - L u_{x} (3)$

平均存储费用为:

$Η = C_{1} \times Ι = C_{1} \times (\frac{Q}{2} + R - L u_{x}) (4)$

每周期的期望缺货量为:

$B = \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y (5)$

单位时间有ux/Q个周期,则:

$V = \frac{u_{x}}{Q} \times C_{2} B = \frac{C_{2} u_{x}}{Q} \times \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y (6)$

每单位时间的期望总成本(不包括货物成本):

$\begin{array}{l} E [C (Q)] = \frac{u_{x}}{Q} C_{3} + V + Η = \\ \frac{u_{x}}{Q} C_{3} + C_{1} \times (\frac{Q}{2} + R - L u_{x}) + \frac{C_{2} u_{x}}{Q} \times \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y (7) \end{array}$

等式(7)两边分别对Q求一阶导数,并令其等于0,则以求出:

$\begin{array}{l} Q^{*} = \\ \sqrt{\frac{2 u_{x} [C_{3} + C_{2} \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y]}{C_{1}}} (8) \end{array}$

2 案例分析

本文用一个实际案例来验证模型并进行灵敏度分析。设某企业采用连续盘点 (Q,R)策略管理某种原材料的库存.该原材料的每年需求服从ux=6000,σx=40的正态分布,每次订货费为200元,每件物品的每年存储费为18元.若该原材料发生缺货会延缓产品生产进度,根据以往经验得知,每件原材料的缺货费为65元,CSL=0.9,L=0.04年。

2.1 库存费用计算

C1=18,C2=65,C3=200。

因为原材料的每星期需求服从μx=6000,σx=40的正态分布,L=0.04,所以,在提前期内需求y服从均值为Lux,标准差为 $\sqrt{L} σ_{x}$ 的正态分布,所以公式(8)可化为:

$\begin{array}{l} Q^{*} = \\ \sqrt{\frac{2 u_{x} [C_{3} + C_{2} \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y]}{C_{1}}} = \\ \sqrt{\frac{2 u_{x} (C_{3} + C_{2} A)}{C_{1}}} 。 \end{array}$

其中 $A = \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y =$

$\begin{array}{l} L u_{x} + R + R F (R, L u_{x}, \sqrt{L} σ_{x}) - \\ L u_{x} F_{s} (\frac{R - L u_{x}}{\sqrt{L} σ_{x}}) + \sqrt{L} σ_{x} f_{s} (\frac{R - L u_{x}}{\sqrt{L} σ_{x}}) 。 \end{array}$

其中, $f_{s} (\frac{R - L u_{x}}{\sqrt{L} σ_{x}})$ 为标准正态分布密度函数, $F_{s} (\frac{R - L u_{x}}{\sqrt{L} σ_{x}})$ 为标准正态分布函数。

$R = F (α, L u_{x}, \sqrt{L} σ_{x})^{- 1} = 250.2524 ‚ s s = R - L u_{x} = 10.252$ 。

A=-0.84974,Q*=310。

$\begin{array}{l} E (C (Q)) = \frac{u_{x}}{Q} C_{3} + C_{1} \times (\frac{Q}{2} + R - u_{x}) + \\ \frac{C_{2} u_{x}}{Q} \times \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y = 5776 。 \end{array}$

EOQ模型求解结果为:EOQ=412,TC=5 816;基于随机需求、随机提前期的(Q,R)库存模型求解结果为:Q*=310。E(C(Q))=577 6,可以清楚地看出, 在考虑提前期的情况下, 可以更加清楚地定义出订货批量大小和再订货点, 并且保证了成本的最小。

2.2 参数灵敏度分析

1)C1为单位时间单位货物的储存费用对最优订货批量的影响。

$\begin{array}{l} R_{1} = \frac{E_{Q^{*}}}{E_{C_{1}}} = \frac{\partial Q^{*}}{\partial C_{1}} \times \frac{C_{1}}{Q^{*}} = \\ - \frac{1}{2} {\frac{2 u_{x} [C_{3} + C_{2} \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y]}{C_{1}}}^{- \frac{1}{2}} \times \\ \frac{2 u_{x} [C_{3} + C_{2} \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y]}{C_{1}^{2}} \times \frac{C_{1}}{Q^{*}} = - \frac{1}{2} (9) \end{array}$

2)C2为单位时间单位货物的缺货费用对最优订货批量的影响。

$\begin{array}{l} R_{2} = \frac{E_{Q^{*}}}{E_{C_{2}}} = \frac{\partial Q^{*}}{\partial C_{2}} \times \frac{C_{2}}{Q^{*}} = \\ - \frac{1}{2} {\frac{2 u_{x} [C_{3} + C_{2} \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y]}{C_{1}}}^{- \frac{1}{2}} \times \\ \frac{2 u_{x} \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y}{C_{1}} \times \frac{C_{2}}{Q^{*}} = \frac{1}{2} \times \frac{C_{2} \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y}{C_{3} + C_{2} \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y} (10) \end{array}$

3)C3为一次定购费用对最优订货批量的影响。

$\begin{array}{l} R_{3} = \frac{E_{Q^{*}}}{E_{C_{3}}} = \frac{\partial Q^{*}}{\partial C_{3}} \times \frac{C_{3}}{Q^{*}} = \\ - \frac{1}{2} {\frac{2 u_{x} [C_{3} + C_{2} \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y]}{C_{1}}}^{- \frac{1}{2}} \times \\ \frac{2 u_{x}}{C_{1}} \times \frac{C_{3}}{Q^{*}} = \\ \frac{1}{2} \times \frac{C_{3}}{C_{3} + C_{2} \int_{R}^{\infty} (y - R) f (y, L u_{x}, \sqrt{L} σ_{x}) d y} (11) \end{array}$

由公式(9)、(10)、(11)可得:R1=-0.5,R2=-0.19077,R3=0.6907|R1|≤1,|R2|≤1,|R3|≤1,最优订货批量对于C1、C2 和C3的变动率不敏感,在现实中,C1、C2 和C3可能随时间变化而有所变化,但是,由于最优订货批量对C1、C2和C3不敏感,由此可见,该最优订货批量在实际生产中仍具有很高的价值。

3 结束语

经济订货批量模型是目前大多数企业最常采用的货物定购方式,同时,该模型的确曾给企业带来了一些利益。但随着市场变化,市场竞争已从传统的、简单的、成本优先的竞争模式, 向时间优先的时间竞争转化[4],因此, 传统的经济订货批量模型已经不能满足企业库存优化需求了,为了增强企业的竞争力,企业不得不考虑对其他参数的优化,特别是提前期的优化。本文中针对采用(Q,R)库存策略的单类物品库存系统,建立了基于随机需求、随机提前期的最优订货批量模型,模型假设提前期的需求函数是可知的,从而求得使单位时间库存总成本最小的最优订购批量。通过举例说明,该模型能有效解决随机需求、随机提前期的库存管理问题。

参考文献

[1]RONALD H BALLOU.Business logistics management plan-ning,organizing and controlling the supply chain[M].4thed.Prentice-Hall,Englewood,UpperSaddle River,NJ,1998:248-290.

[2]李丽.模糊随机供需环境下的供应链库存管理[M].北京:科学出版社,2011:35-42.

[3]LEEHL TANGCS.Modeling the costs and benefits of de-layed product differentiation[J].Management Science,1997,43:40-53.

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处

【随机森林模型】相关文章：

基于随机波动模型的双障碍期权问题的研究02-05

计算机随机信号控制组合数学模型算法建模研究09-12

随机生成05-10

随机模式05-16

随机策略05-27

随机特性05-31

随机环境06-12

随机振动07-08