神经元函数范文

2024-09-15

神经元函数范文(精选7篇)

神经元函数 第1篇

然而,泛函网络同神经网络一样,其结构设计是一个复杂问题,其复杂性重要表现在三个方面:第一,采用什么类型的泛函网络结构和基函数簇,往往由人类专家根据经验知识做出判断;第二,泛函网络的结构和泛函参数的确定,这一点往往很难由人工确定;第三,在网络结构确定的基础上,同样存在局部极小问题。目前,也有一些用遗传规划[4]来解决以上问题,并取得了很好的成果。但是基函数簇如何选取,理论上至今还没有给出一个通用的设计方法,基函数簇选取的好坏直接影响着泛函网络的逼近性能,如何避免因基函数簇样本选取不足而导致泛函网络的逼近误差过大或过多而导致过配问题。文章提出熵的聚类思想来解决这问题提供了一条新的更有潜力的途径。熵聚类的思想最大的特点是对输入数据进行分析,根据每个点的熵值进行归类。利用熵聚类得出泛函网络中基函数集中函数的个数,如选择径向基函数作为基函数集的话,通过熵聚类不仅能找出基函数个数还能确定其中心值。

基于此,文中将熵聚类思想与泛函网络结合,把泛函网络看成是结构和参数的优化搜索过程,对泛函网络结构和泛函参数共存且相互影响进行最优搜索实现泛函网路结构和泛函参数的共同学习,提出一种基于熵聚类的泛函网络方法。为了更能体现出熵聚类的优越性,文章将采用径向基函数来作为基函数集。可以通过熵聚类来确定中心的位置。最后仿真实验证明,利用熵聚类确定网络的结构及大小,最终改善了泛函网络的性能。

1 基于熵聚类的泛函网络设计方法

1.1 泛函网络模型

一般地泛函网络[1]由以下元素组成:1)输入单入层:这是输入数据的一层单元,输入单元以带有相应名字的实心圆来表示;2)输出单元层:这是最后一层单元,它输出网络的结果是数据。输出单元也是带有相应的名字来表示。3)一层或是多层神经元:每一个神经元是一个计算单元,它计算的是一组神经元或输出单元提供数据。神经单元相互连接,没一个神经元的输出可作为另一个神经元活输出单元输入数据的一部分,一旦给定输入值,输出便由神经元的类型来确定,它由一函数定义。例如,假如有一个神经元具有S个输入(x1,x2,....,xs)及k个函数fj,j=1,2,...,k,使得yj=fj(x1,x2,...,xs);j=1,2,...,k.函数fj又网络的结构来确定,神经元由带有相应fj函数的名称用圆圈来表示;(4)有向连接线;他们将输入层、中间层、输出单元层连接起来,箭头表示信息流向,所有这些元素一起形成了泛函网络的结构,它确定了网络的泛函能力。

图1给出了一简单的泛函网络结构以及与它对应的神经网络结构图2。

图1中输入模式是{x1,x2,x3},神经元函数fj,j=1,2,3;输出x6。其中最重要的是神经元函数fj的选择。根据Castillo的做法是将每一个神经元函数fj表示成一些已知基函数簇的线性组合的形式,如多项式、三角函数、Fourier展开级数等。至于与神经网络区别,本文不再赘述,请参考文献[3]。

1.2 基于熵聚类的泛函网络设计方法

与神经网络一样,泛函数网络也有各种各样的结构。我们不可能用一个统一的通用的结构来描述所有的泛函网络,也不可能用一个统一的泛函方程来表示所有的泛函网络。我们只能选取其中的具体的某种网络结构来介绍。目前,在泛函网络中应用最广泛的是可分离的泛函网络。如图3所示:

从以上图可以看出,逼近能力的好坏完全取决于神经元函数的正确选择,据Castillo的做法是根据问题所蕴含的“先验知识”采取一定简化假设选取一些基函数簇,将每一神经元函数fj表示成一些已知基函数簇的线性组合的形式,再由最小二乘法等回归技术确定其中的泛函参数,通过对比选择其中最好的一个作为最终结果。

函数fj由泛函网络结构确定,泛函网络结构优化过程只对基函数和变量进行操作,无需考虑泛函网络参数的影响。先利用熵聚类的思想对输入数据进行分析,找出聚类的中心,中心的个数相当于基函数的个数。如果选择的径向基函数,聚类中心就为径向基函数的中心。

1.3 熵聚类算法选择RBF中心

该思想基于信息熵理论的基本原理:越是有序排列的数据(如有聚类特征的数据),熵越小;越是无序的、混沌的数据,熵越大。

设M维空间的N个输入数据点X=(x1x2…xN),熵聚类算法将输入数据中的每个点xi的熵Ei表示如下:

其中:i=1,2,…,N;Sij是表示两点xi和xj的相近度。它的定义如下:

其中:Dij表示xi和xj的欧几里德距离;α表示指数函数的曲率。

函数Sijlog2Sij+(1-Sij)log2(1-Sij),其中0≤Sij≤1,在Sij=0.5处取得极大值1,而Sij→0或Sij→1,函数均趋于极小值0,由此估算曲率参数表示数据点间的平均距离[5]。因此,和某些数据点距离很近和很远的数据点对该点的熵贡献极小,而和该点距离接近平均距离的点对该点的熵贡献很大。由以上分析可知,熵值越小的数据点,越是分布在密集的中心区域,越有较高的概率成为聚类中心;熵值越大的数据点,越是分布在稀疏的区域,越有较低的概率成为聚类的中心。然而,对于远离中心区域的孤立点也具有极小的熵值,显然这些点不应成为聚类中心,应该拒绝接受它为聚类中心,算法对这些点进行了处理。该算法描述如下:

熵聚类算法:

1)设M维空间的N个输入数据点X=(x1,x2,…xN),计算各数据点xi的熵Ei,并设循环控制变量m=1;

2)选择第m个聚类中心xcm,满足:(选含最小熵值的点作为聚类中心);

3)计算X中与xcm的相近度大于β的数据点集Xm;

4)考虑到远离聚类中心的孤立点也拥有极小的熵值,或者在X中除去一些数据后,剩余的分布在分散区域的零散点都不适合做聚类中心.设阈值γ=0.05N,N表示数据点的总数.若Xm中的数据点大于γ,则接受xcm为聚类中心.从X中去除Xm:X=X-Xm,转6);

5)若Xm中的数据点数不大于γ,则拒绝接受xcm为聚类中心.为加快算法收敛速度,标志Xm中的点数不在作为聚类中心的候选点;

6)若X中的聚类中心候选点数不大于γ,结束;否则,m=m+1,转2)。

将训练样本的数据应用上述聚类算法,将会得到数据的聚类中心的个数和初始值。如果将图3中的Φi取为G‖x-ci‖∈{G(‖x-c1‖),G(‖x-c2‖),G(‖x-c3‖),…},通过此算法就确定了ci的值。

基函数的个数已经确定,根据图3的泛函网络结构可构造其能量函数。

其中,u=xj+1-xj,yj=y(xo+ju),j=1,2,…,n-k.a1,a2,…,ak+m是常数。ej+k是在xj+k处的逼近误差。{Φi}={G(‖x-c1‖),G(‖x-c2‖),G(‖x-c3‖),…},其中ci由熵聚类算法来确定它的个数和值,。其中dmax为所选取中心之间的最大距离。对Q求导可得:

构造学习算法如下:

2 计算机仿真实验

考察已知函数的逼近性能,其曲线形式图4。我们仍采用图3的泛函网络结构,基函数集F={Φi(x)i=1,2,3,},其中Φi定义为{G(‖x-c1‖),G(‖x-c2‖),G(‖x-c3‖),…}。x在[0,5]之间通过随机选取或是均匀选取100个样本点作为训练样本。学习率α,β取为0.001,通过熵聚类算法,得到神经元基函数的个数和初值。再人工规定F={fj},j个数和径向基函数的中心。两种算法都用fig.3的泛函网络结构来训练,其训练结果如表1所示。在[0.5]上以0.1为间隔取50个点做测试样本对训练好的网络进行测试,其测试结果如表2所示:

从表中可以看出,利用熵聚类的思想设计泛函网络,对网络结构和泛函参数共存且相互影响进行最优搜索实现泛函网络结构和泛函参数的共同学习,有效地提高了泛函网络的收敛精度。

3 结论

文中把泛函网络看作是结构和泛函参数的优化搜索过程,利用熵聚类的思想设计泛函网络,对网络结构和泛函参数共存且相互影响进行最优搜索实现泛函网络结构和泛函参数的共同学习,有效地提高了泛函网络的收敛精度,并且可获得更为合理的网络结构。

摘要:泛函网络是神经网络的一般化推广,同神经网络一样,至今还没有系统设计方法能够对给定问题设计出近似最优的结构。鉴于此,利用熵聚类的思想来设计泛函网络,对网络每一神经元的基函数和泛函参数共存且相互影响的最优搜索来实现泛函网络结构和泛函参数的共同学习。提出一基于熵聚类思想来设计泛函网络的方法,有效地提高了泛函网络的收敛精度,并可获得更为合理的网络结构。

关键词:泛函网络,熵聚类,神经元函数

参考文献

[1]Castillo E.Functional Networks[J].Neural Processing Letters,1998,7:151-159

[2]Castillo E,Cobo A,Cutierrez J M.Functional Networks with Applications[M].Kluwer Academic Publishers,1999

[3]Iglesias A,Arcay B,Cotos J M,et al.A comparison between functional networks and artificial neural networks for the prediction of fishingcatches[J].Neural computer&applied,2004,13:24-31.

[4]Zhou Yongquan,Wang Dongdong,Zhang Ming.Proceedings of the 6th World Congress on Intelligent Controland Automation[C].2006:21-23.

函数逼近的发展——神经网络 第2篇

1、什么是神经网络

简略地说, 神经网络是一类模拟大脑结构与信息处理机制的计算模型, 它是由大量被称之为人工神经元的简单处理单元广泛互联, 并以并行、分布、协同作用方式完成复杂计算任务的网络系统。

所以, 要说清什么是神经网络, 有必要对人的神经元与生物神经网络系统作一概括的回顾。我们大脑组织的基本单元是神经元 (一种特别形式的生物细胞) , 整个大脑由1010~1013个神经元组成, 其中90%的神经元集中在大脑皮层 (大脑皮层的厚度约为2~3 m m, 表面积约为2200cm2) 。虽然在所有的神经元中, 没有任何两个绝对相同的神经元, 但从功能和形式上讲, 大体上有34种不同形式 (完成180多种基本功能) 。所有这些神经元都呈现以下基本特征:

生物特征:整个细胞体由细胞核和细胞质组成;细胞体周围有大量丛林状分布、聚合结构的树突, 其功能在于从其他神经元中接收信息;存在唯一的一根轴突 (常称为神经纤维) , 它以扩散式的结构与其他神经元相连, 其作用是传出神经冲动。

信息传递方式:每个神经元大体上与它周围的1010~1013个其他神经元有连结, 整个大脑大约有1014~1015个连接通道;整个神经元呈现层状结构 (如有接收外界信息的皮层, 有专责传出信息的运动神经元) ;神经元与神经元之间的传递是通过释放神经传递物质 (非常复杂的生化物质) 和改变神经元内外膜电位来实现的 (频率) 。

信息处理机制:对时空有整合功能, 换言之, 不同时间和不同位置神经元所传来的信息对一个神经元的神经冲动都产生作用;每一个神经元是否传出神经冲动取决于外部神经元的作用是否超过神经元的阀值 (阀值作用) 。

网络特征:整个神经元广泛互联, 单个神经元结构简单、反应慢 (慢计算) ;所有信息分布存贮在神经元及其连接上;网络整体以并行、协同方式完成任务。

人工神经元是指抽象上述生物神经元的结构与信息处理机制所形成的一个下述数学模型:

其中

vj (t) ─神经元j在t时刻输出的信息;

wj─神经元j传递信息到当前神经元经轴突、树突所引起的衰减或扩放 (通常简单称为两神经元间的连接强度) ;

θ─神经元的阀值 (决定是否产生神经冲动) ;

∑─对时空信息的整合作用

─引起神经元产生冲动的复杂机理 (称之为激活函数) 。

大量生物证据说明, 神经元对各种信息的时空整合作用是极为复杂的 (换言之, 并不完全像 (1) 式中那样一个简单的求和∑能刻画的) , 而引起神经元产生冲动的机理通常呈非线性性。应用中常取为满足的一个非线性函数, 例如, 取为

(Ⅰ) 函数:

(Ⅱ) 符号函数:sgn (u) =0如果u<0, 反之sgn (u) =1。

现在, 如果把当前神经元标记为i, 而标记与之相关的激活函数为, 连接强度为wij, 阀值为θi, 则从 (1) 可直接获得一个由n个人工神经元组成的人工神经网络模型如下:

上述神经网络显然可看作是一个动力系统模型 (依赖于如何处理时滞和处理时间尺度, 它将分别表现为差分方程或微分方程) 。随着的选择与神经元结构的选择, 神经网络模型 (2) 能用于求解各种各样的信息工程问题, 如模式识别、聚类分析、回归分析、时间序列预报等等。

应用中, 通常将神经网络安排成 (或搭建成) 具有特定结构。例如说, 让它具有某种的分层结构 (方法是在式 (2) 中限定某些神经元之间的连接强度为0) 。如果进一步限定这种分层结构的神经网络的信息传输方式是单向的 (例如从下至上) , 这样的网络即称为是一个前向神经网络。前向神经网络是用于函数逼近的人工神经网络结构形式。

2、前向神经网络作为万有逼近器

前向神经网络的基本功能是实现函数映照, 而基本意义在于它能实现对任意非线性函数 (更精确地说, 多维映照) 的自适应逼近。

更具体地, 让我们假定一个前向神经网络的最下端为输入层, 它含有n个神经元, 最上端为输出层, 含m个神经元, 其他共有k层 (称为隐层) , 分别含神经元数依次为N1, N2, …, Nk, 这样结构的前向神经网络简记为

则显然任何一个实现了一个从Rn→Rm的映照。FN (x) 能借助于第一部分人工神经元的定义严格地解析表达, 例如说, 对任何可表达为

其中

是隐层中第k个神经元所使用的激活函数, 是输出层中第i个神经元所使用的激活函数, 是输入层与隐层之间神经元的连接强度 (矩阵) , 是隐层与输出层之间神经元的连接强度, 是隐层元的阀值 (向量) , 是输入层的阀值 (向量) 。

前向神经网的主要特征是:它可用作对任何函数的逼近。

定理 (神经网络万有逼近定理) 设Ω是Rn中的任一有界闭集合, 是任何连续映照 (可减弱到有界值域) , 是满足使的任一激活函数, 则, 存在隐元个数为N的三层前向神经网络满足

上述定理说明, 三层前向神经网络即具有万有逼近性。这一定理显然是极其重要的, 它解决了神经网络的可逼近性问题, 但是与之相关还有两个问题需要解决:上述定理所述的隐元个数N (即隐层及隐层元个数) 如何确定?如何确定FN中所关联的连接权值W (1) 和W (2) ?前者涉及神经网络的模型选择问题, 后者则涉及涉神经网络的学习问题。这两个问题都已得到了广泛研究, 已有大批成果。

以下, 简要讨论一些有关前向神经网络的学习问题。学习问题的提法是:给定一个来源于整体数据集Z={x, y}的有限样本集和一个用于模拟 (逼近或近似) 该样本集的前向神经网络它含有基本变量W= (w (1) , w (2) , …, w (n) ) ) , 如何确定W使FN不仅在Z0上很好刻画该样本数据, 而且在总体Z上近似函数映照F。这里F假定是描述y与x之间对应关系的非线性映照 (它可能存在或可能不存在解析表达) 。令

则解决前向神经网学习问题的一般原理是:通过求解优化问题

来求解FN的连接强度, 即

求解优化问题 (3) 通常采用逐次校正的方法, 但常用两种不同的格式 (常称为前向神经网的不同学习模式) :或“等待所有样本所引起的误差累计起来以后校正”, 或“计算出一个样本所引起的误差后即校正一次”, 前者称为Batch学习格式, 而后者称为On-line学习。假如说均应用梯度下降法求解 (3) , 则这两种学习格式分别对应迭代

这里ηn是学习因子, 是E的梯度, 是MSE (X, W) 关于W的梯度, x (in) 是第n步校正时所使用的样本 (常从Z0中随机均匀选取) 。自然, 任何求解优化问题 (3) 的方法都可以构成前向神经网络的一种学习算法, 但 (4) 与 (5) 是目前最普遍使用的方法

对上述学习方法 (特别例如 (4) 与 (5) ) , 有两个问题显然需要考虑。第一, 从技术层面上, 如何计算梯度和MSE (X (in) , Wn) ;第二, 学习算法是否收敛。对于第二个问题, 目前仍然没有很好地解决, 但对第一个问题, Rumelhat Hinton在Science上的文章给出了完满的解决。它给出了从输出层到输入层逐层递推计算导数的公式 (即现在广为人知的backpropagation (BP) 公式) , 这一工作的意义在于首次给出了能高效计算 (评估) 网络性能误差变化率的算法 (复杂性从O (|w2|) -O (|w|) ) 从而引发了全世界应用与深入研究人工神经网络的热潮。

用神经网络作为函数的逼近有许多诱人之处:首先它提供了一个标准的逼近结构与随隐层个数改变而能达到任意精确的逼近工具;第二, 有标准的确定逼近函数参数的学习算法, 而且这一过程是拟人的 (即很好模拟了人的学习过程) ;第三, 能处理的数据对象非常广泛, 可以是非常大规模的、高度非线性的和不正则的 (例如不完备, 不精确) 等等;第四, 潜在的可硬件实现, 即制造出所谓的神经网络计算机。

由于上述原由, 神经网络现已被广泛地应用到经济、社会、科学与工程的方方面面。对它的基础理论以及更一般地对学习理论与机器学习的研究正是当今数学与信息科学交叉的一个热点研究领域。

摘要:函数逼近是函数论的重要组成部分, 其在数值计算中起着举足轻重的作用。通过生物神经网络来模拟函数的逼近。为函数逼近论的发展提供了一条新颖的发展思路。

关键词:神经网络,函数逼近,映照

参考文献

[1] 王仁宏, 朱功勤.有理函数逼近及其应用[M].第1版.北京: 科学出版社.2004, 93-95.

[2] 孙延奎. 小波分析及其应用[M].第1版.北京: 机械工业出版社.2005, 166-168.

神经元函数 第3篇

近年来,混沌理论得到广泛研究,混沌优化方法为全局寻优提供了新手段。在解决各种优化问题中,混沌神经网络利用混沌遍历搜索特性克服了Hopfield神经网络极易陷入局部极小点的缺点[1]。研究神经网络的目的,最终是神经网络的硬件实现,即构造神经计算机。因此构造硬件线路、观察混沌神经元或神经网络混沌响应,不仅可以观察其动力学行为,还为制造混沌神经计算机打下基础。

1 带白噪声的混沌神经元模型

x(t)=1/(1+exp(-y(t)/ε))

y(t+1)=ky(t)+ηGn(x(t))-z(t)(x(t)-

I0)

z(t+1)=(1-β)z(t)

Gn(x(t))=AWGN(x(t),SNR)

其中,x(t)为神经元在时刻t的输出;y(t)为神经元在时刻t的内部状态;k为神经隔膜的阻尼因子,0≤k≤1; ε是Sigmoid函数的陡度参数;z(t)是自反馈连接项;I0为一正参数,β是退火参数;Gn(x(t))是用来产生白噪声的函数,SNR为信噪比,η是噪声调节参数。

选取适当参数,使神经元表现出暂态混沌行为。通过神经元的倒分岔图和最大Lyapunov指数来分析其动力学特性。

ε=0.004,y(1)=0.5,z(1)=0.1,k=1,I0=0.15,β=0.002, SNR=50,η=0.01的倒分岔图和最大Lyapunov指数时间演化如图1所示。

通过调节白噪声系数η=0.02,此时的神经元的倒分岔图和最大Lyapunov指数图如图2所示。

也可以根据实际环境而适当的减少噪声所带来的干扰,使系统更稳定。取η=-0.01,如图3所示。

通过倒分岔图和最大Lyapunov指数时间演化图得知:该网络具有暂态混沌动力学行为,随着z(t)在时间上的不断衰减,通过一个混沌分岔过程,网络将逐渐趋于稳定的平衡点。

保持其他参数不变,调节η会发现:只要控制噪声在合理的范围内,系统是可以接受的。但当噪声干扰过大时,系统将会受到干扰失去混沌特性或者很难达到平衡状态。因此,在实际应用环境中可以通过适当的调节噪声系数,以使系统有一个良好的运行环境。

2 带白噪声的混沌神经网络

根据以上混沌神经元模型,构造带白噪声的混沌神经网络:

xi(t)=11+exp(-yi(t)/ε)

yi(t+1)=kyi(t)+α[jij=1nwijxj(t)+Ιi]-zi(t)(xi(t)-Ι0)+ηGn(xi(t))Gn=AWGΝ(x(i),SΝR)

网络模型中i=1,2,3,…,n;xi(t),yi(t),zi(t)分别为神经元i的输出、内部状态和自反馈连接项;wij为从神经元j到神经元i的连接权值;Ii为神经元i的输入偏差;ε是Sigmoid函数的陡度参数;k为神经隔膜的阻尼因子,0≤k≤1;α为不应度参数;I0为一正参数,β是退火参数;Gn(x(t))是用来产生白噪声的函数,SNR为信噪比,η是噪声调节参数。其中Gn的性质如下:Gn(xi)=xi±ψ,ψ值根据信噪比SNR的不同,使得0≤ψ≤1内产生小随机噪声干扰。

3 网络的能量函数及稳定性分析

Lyapunov能量函数分析方法是非线性复杂系统稳定性的一个重要方法,它能够将非线性复杂系统的状态分析转到系统的能量函数分析上来[2]。根据Chen-Aihara方法,本文提出网络能量函数并进行稳定性的分析。

为方便起见,xi(t)将写成xi,

E(X)=-α2i,jnwijxixj-αinΙixi+in0xizi(x-Ι0)dx-in0xiηGn(x)dx-(k-1)εin0xilnx1-xdx

其中,

0xilnx1-xdx=xilnxi+(1-xi)ln(1-xi)X=[x1,x2,,xn]Τ,W=WΤ,wii=0,k0dyidt=-Exi=(k-1)yi+α[j=1,jinwijxj+Ιi]-zi(xi-Ι0)+ηGn(xi)(1)

用离散时间步长为1的Euler离散法化简式(1)得:

yi(t+1)=kyi(t)+α[j=1,jinwijxj(t)+Ιi]-zi(t)(xi(t)-Ι0)+ηGn(xi(t))

xi(t+1)=11+exp{-1ε[kεlnxi(t)1-xi(t)+α[j=1,jinwijxj(t)+Ιi]-zi(t)(xi(t)-Ι0)+ηGn(xi(t))]}α[j=1,jinwijxj(t)+Ιi]-zi(t)(xi(t)-Ι0)+ηGn(xi(t))=εlnxi(t+1)1-xi(t+1)-kεlnxi(t)1-xi(t)(2)

稳定性的详细分析如下:

E(X(t+1))-E(X(t)=-α2i,jnwijΔxiΔxj-αi,jnwijxj(t)Δxi-αinΙiΔxi+inxi(t)xi(t+1)zi(x-Ι0)dx-inxi(t)xi(t+1)ηGn(x)dx-(k-1)εinxi(t)xi(t+1)lnx1-xdx(3)

其中,Δxi=xi(t+1)-xi(t),Δxj=xj(t+1)-xj(t);

根据积分中值定理,

xi(t)xi(t+1)zi(x-Ι0)dx=[xi(t+1)-xi(t)]zi(xi-Ι0)=Δxizi(xi-Ι0)(4)

其中,xi(t)=xi(t)+θiΔxi0θi1;

同理:

xi(t)xi(t+1)Gn(x)dx=[xi(t+1)-xi(t)]Gn(x˜i)=Δxizi(x˜i-Ι0)(5)

其中,x˜i(t)=xi(t)+θ˜iΔxi0θ˜i1;

将式(4)(5)带入式(3)得:

E(X(t+1))-E(X(t))=-α2i,jnwijΔxiΔxj-αi,jnwijxj(t)Δxi-αinΙiΔxi+inΔxizi(xi-Ι0)-inΔxiηGn(xi)-(k-1)εinxi(t)xi(t+1)lnx1-xdx+inΔxizi[(xi-Ι0)-(xi-Ι0)]-inΔxiη[Gn(x˜i)-Gn(xi)]=-α2i,jnwijΔxiΔxj-inΔxi{α[i,jnwijxj(t)+Ιi]-zi(xi-Ι0)+ηGn(xi)}-(k-1)εinxi(t)xi(t+1)lnx1-xdx+inziθi[Δxi]2-inΔxiη[Gn(x˜i)-Gn(xi)](6)

根据Gn的性质得:

Gn(x˜i)-Gn(xi)=x˜i-xi±ψ=θ˜iΔxi±ψ(7)

根据积分中值定理:

xi(t)xi(t+1)lnx1-xdx=[xi(t+1)-xi(t)]lnφi1-φi=Δxilnφi1-φi(8)

其中,φi=xi(t)+θiΔxi,0≤θi≤1

将式(2)、(7)、(8)带入式(6)中,同时考虑到wii=0,得:

E(X(t+1))-E(X(t))=-α2i,jnwijΔxiΔxj-inΔxi{εlnxi(t+1)1-xi(t+1)-kεlnxi(t)1-xi(t)}-(k-1)εinΔxilnφi1-φi+in[Δxi]2ziθi-inΔxiη(θ˜iΔxi±ψ)(9)

根据微分中值定理:

lnxi(t+1)1-xi(t+1)-lnφi1-φi=(xi(t+1)-φi)(lnx1-x)´[XC9.ΤΙF,JΖ]x=γi1=(1-θi)Δxi1-(γi1-1/2)2+1/44(1-θi)Δxi(10)

其中,γi1=φi+γ1[(1-θixi],0<γ1<1;

lnφi1-φi-lnxi(t)1-xi(t)=(φi-xi(t))(lnx1-x)´[XC9.ΤΙF,JΖ]x=γi2=θiΔxi1-(γi2-1/2)2+1/44θiΔxi(11)

其中,γi2=xi(t)+γ2[θiΔxi],0<γ2<1。

将式(10)、(11)带入式(9)得:

E(X(t+1))-E(X(t))-α2i,jnwijΔxiΔxj-εin{4(1-θi)+4kθi}[Δxi]2+inθizi[Δxi]2-inΔxiη(θ˜iΔxi±ψ)=-12i,jn{wij+2ε[4(1-θi)+4kθi]δij}ΔxiΔxj=-12ΔX(t)Τ{W+2ε[4(1-θi)+4kθi]Ιn}ΔX(t)

δij={1,i=j0,ij{wi,ji=αwi,jiwii=αwii-θizi+η(θ˜i±ψ˜)=ηθ˜i-θizi±ηψ˜,ψ=ψ˜Δxi

In为单位矩阵,ΔX(t)=X(t+1)-X(t)。所以,当矩阵W′的最小特征值λ′满足

-λ′<2ε[4(1-θi)+4i]=8ε[1-(1-k)θi]

即:

-λ{8ε,θi=08kε,θi=1

时,E(X(t+1))-E(X(t))≤0,网络渐进稳定。

通过以上分析,得如下结论:

带白噪声的混沌神经网络渐进稳定的充分条件是:存在一个具有最小特征根为λ′的矩阵W′以及与网络有关的θiθ˜iηψ˜(0θiθ˜i,η,ψ˜1),满足

{wi,ji=αwi,jiwii=αwii-θizi+η(θ˜i±ψ˜)=ηθ˜i-θizi±ηψ˜,-λ{8ε,θi=08kε,θi=1

带白噪声的混沌神经网络的渐进稳定性定理说明了该网络能够达到渐进稳定,带白噪声的混沌神经网络满足渐进稳定的连接权矩阵的对角线上的元素发生了变化。由于该网络模型可以控制噪声系数η和信噪比SNR,因此ηψ˜都可以控制在一定允许范围内,使得网络具有很好的稳定性能,以上对于带白噪声的混沌神经元的动力学特性的分析也有效的证明这一点。该模型与其他网络模型相比具有了更好的可控性。

4 带白噪声的混沌神经网络在优化问题中的应用

优化问题分为函数优化和组合优化[3,4,5],很多实际问题都可以转换成为其中一种进行求解。为了进一步研究适当调节白噪声及相关参数对混沌神经网络的影响,将其分别应用于函数优化和组合优化问题。

4.1 在连续函数优化中的应用

这个非线形优化问题如下式:

f(x1,x2)=(x1-0.7)2[(x2+0.6)2+0.1]+

(x2-0.5)2[(x1+0.4)2+0.15]

函数的最小值为0,对应的坐标分别是 (0.7, 0.5),为目标函数的全局最小点,局部极小点有三个,分别是(0.6,0.4)、(0.6,0.5)和 (0.7,0.4)。

使用本文中的模型求解该问题时,对要优化的函数取ε=0.5, α=0.1,k=1,I0=0.5,β=0.008,SNR=50,η=0.001,y1,2(1)=0.283。经过500次的运算,得到最小值是1.3953e-005,最小值点是(0.7, 0.5)。网络求解函数的能量函数演化图与x1,x2的变化如图4-5所示。

可以看出,网络经过暂态混沌搜索后,达到一个不稳状态,此时网络开始梯度下降,很快达到一个稳定状态,搜索到全局最小值点。适当增加白噪声,并且适当调节参数,会发现系统搜索到全局最小值点速度加快。

4.2 在组合优化中的应用

TSP是一个经典的组合优化问题,问题描述如下:给定n个城市和两两城市之间的距离,要求确定一条经过各城市当且仅当一次的最短路线。本文将上述混沌神经网络应用于10城市TSP

达到最短路径并满足所有限制条件的一个能量函数可以描述如式(12)所示。在式(12)中:Vxi为神经元输出,代表第x个城市在第i次序上被访问,dxy为城市x、y之间的距离。由于行列式的对称性,系数A=B,一个全局最小的E值代表一条最短的有效路径。此时,带白噪声的小波混沌神经网络模型可以描述为式(13)。

E=A2x=1n(i=1nVxi-1)2+B2i=1n(x=1nVxi-1)2+D2x=1ny=1ni=1ndxyVxiVy,i+1(12)yi(t+1)=kyi(t)+ηGn(xi(t))+α[-A(j=1nVxj-1)-B(y=1nVyi-1)-Dy=1ndxyVy,i+1]-zi(t)(xi(t)-Ι0)(13)

本文采用以下归一化后的10个城市坐标:

(0.4, 0.4439),(0.2439, 0.1463),(0.1707,0.2293),(0.2293,0.716),(0.5171,0.9414),(0.8732, 0.6536),(0.6878, 0.5219),(0.8488, 0.3609),(0.6683,0.2536),(0.6195,0.2634)

该10城市最短路径为2.6776,如图6所示。

首先研究不同的参数η对求解10城市TSP的影响。

A=1,D=1,k=1,I0=0.5,β1=0.008,z(1)=0.3,ε=1/250,α=0.015,SNR=50,表1是在噪声参数η取不同值1000次随机分配初始值的仿真试验数据。

通过表1分析得出如下结论:

①该系统具有一定的抗干扰能力。只要控制噪声在一定范围内对系统应用不会产生太大影响。

②当噪声过大时,系统优化能力会受到影响。通过上面对神经元动力学特性分析知道噪声系数η会对其混沌特性产生影响,通过适当调节η来改变该网络模型混沌特性,进而可以控制系统的优化能力。

③当系统环境中有噪声干扰时可以通过调整噪声系数为适当的负值,从而消除噪声干扰,适当控制η值能得到如表1所示的优化结果。

5 结束语

①噪声对神经网络的硬件实现有很大的影响,所以网络的抗噪声能力也是神经网络能否最终硬件实现的一个方面。

②与无噪声的理想环境相比,在噪声不是很大的情况下,通过适当的调节参数,带噪声的混沌神经网络仍然能够以较高的精度求解函数优化和旅行商问题。

③Chen’s混沌神经网络有一定的抗噪声能力,适当选取参数很重要。

④通过对噪声系数取负值,可以在实际应用环境中消除白噪声,提高系统的优化能力。

摘要:为研究混沌神经网络抗噪声的能力,在陈的混沌神经网络模型中引入噪声函数,研究带白噪声的混沌神经网络模型,给出混沌神经元的倒分岔图和Lyapunov指数图,分析其动力学特性。基于该混沌神经元模型,构造带白噪声的混沌神经网络,并进行能量函数分析,验证其稳定性。结果表明,只要适当的调节噪声系数,系统仍将具有良好的稳定性,系统具有一定的抗噪声干扰能力。在实际应用环境中可以通过调节噪声系数为适当的负值,从而使系统具有更好的优化能力。

关键词:白噪声,混沌神经网络,能量函数

参考文献

[1]Chen L,Aihara K.Chaotic simulated annealing by a neural networkmodel with transient chaos.Neural Networks.1995,8(6):915-930.

[2]Yamada T,Aihara K,Kotani M.Chaotic Neural Networks and TheTraveling Salesman Problem[C].Proceedings of 1993 InternationalJoint Conference on Neural Networks,1993:1549-1552.

[3]Hopfield J.Neural networks and physical systemswith emergent col-lective computational abilities[J].Proceedings of the National A-cademy of Sciences,1982,79:2554-2558.

[4]张强,马润年,许进.一种混沌神经网络模型及其在优化中的应用[J].系统工程与电子技术,2002,24(2),48-50.

神经元函数 第4篇

在科学计算与工程实践中,经常遇到积分计算问题,最常用的是著名的Newton-Leibniz公式。但在工程实际中,大量被积函数找不到原函数,有的被积函数是由试验测得,如PID调节器的偏差信号,这就无法使用Newton-Leibniz公式,因此需要研究积分的数值计算方法。迄今为止,传统的数值积分的计算方法有很多,如Newton-Cots方法、Romberg方法、Gauss 方法等[1,2,3],其中Newton-Cotes方法是一种利用插值多项式来构造数值积分的常用方法,但是高阶的Newton-Cotes方法的收敛性没有保证,因此,在实际计算中很少使用高阶的Newton-Cotes 公式;Romberg方法虽收敛速度快、计算精度较高,但是计算量较大;Gauss方法积分精度高、数值稳定、收敛速度较快,但是节点与系数的计算较麻烦,而且要求已知积分函数f(x)。因此寻找一新的数值积分方法有着重要的理论与应用价值。国内外众多学者在数值积分应用领域提出了神经网络、进化策略等新方法[4,5,6,7],有效地解决了许多工程实际问题。

本文提出了一种基于幂基函数变步长神经网络算法的数值积分计算方法,并通过几个仿真实验论证算法可靠性。

1幂基函数神经网络模型

1.1幂基函数神经网络模型

幂基函数神经网络模型如图1所示。

其中wj为神经网络权值。设权值矩阵W=[w0,w1,w2,…,wm],激励矩阵Φ(x)=[1,x,x2,…,xm],xj为隐层神经元激励函数,x∈[0,1],则神经网络输出为:

y(x)=Φ(x)WΤ=j=0mxjwjx[0,1] (1)

误差函数:

e(k)=f(xk)-y(xk) (k=1,2,…,n) (2)

其中n为样本点数,f(x)为被积函数。每输入一个样本点,调整一次权值,当所有样本点都训练完成则为一个训练周期。设误差矩阵为E=[e(1),e(2),…,e(n)]T,则网络训练的性能指标为:

J=12E22=12k=1ne2(k) (3)

式中,‖·‖22为 Euclidean 范数的平方。根据梯度下降法学习规则,在第k次迭代中,权值调整公式为:

wj(k+1)=wj(k)+Δwj(k) (4)

Δwj(k)=-μJ(k)wj(k)=-μJ(k)e(k)e(k)y(xk)y(xk)wj(k)=μe(k)xkj

记:

Dj(k)=J(k)wj(k)=e(k)xkj (5)

则:

wj(k+1)=wj(k)-μDj(k) (6)

其中μ为学习步长,且0<μ<1。

1.2算法收敛性分析

下面给出算法的收敛性定理及其证明,为神经网络训练过程中学习步长的选取提供了理论依据。

定理1 设μ为学习步长,则当0<μ<2m+1时,神经网络算法是收敛的,其中m+1是隐层神经元个数。

证明 取Lyapunov 函数为:V(k)=12e2(k),则有:

ΔV(k)=12e2(k+1)-12e2(k) (7)

e(k+1)=e(k)+Δe(k)=e(k)+(e(k)W)ΤΔW(k)

ΔW(k)=-μJ(k)W=-μJ(k)e(k)e(k)W=-μe(k)e(k)W

所以

Δe(k)=(e(k)W)ΤΔW(k)=-μe(k)(e(k)W)Τe(k)W=-μe(k)e(k)W22

ΔV(k)=Δe(k)[e(k)+12Δe(k)]=-μe(k)e(k)W22[e(k)-12μe(k)e(k)W22]=e(k)W22e2(k)[-μ+12μ2e(k)W22]

由上式可知,要使神经网络算法收敛,必有以下不等式成立,

-μ+12μ2e(k)W22<00<μ<2e(k)W22

由式(1)和式(2)有:e(k)W22=-Φ(xk)22=j=0mxkj2<m+1

e(k)W22=m+1,即学习步长μ满足0<μ<2m+1时,有ΔV(k)<0,从而该算法是收敛的。证毕。

1.3变步长神经网络算法

通常情况下,每一个权值wj的学习步长μ相等,且在神经网络的学习过程中,μ的取值不变。本文提出变步长神经网络算法,每一个权值wj的学习步长为μj,且学习步长矩阵U=[μ0,μ1,…,μm]随着迭代的进行而变化。

设在第k次迭代中,jxkjwj(k)=y(xk)

wj(k)=wj(k-1)-μj(k)J(k-1)wj(k-1)

性能指标

J=12ke2(k)=12k[f(xk)-y(xk)]2

则有:

J(k)μj(k)=J(k)e(k)e(k)y(xk)y(xk)wj(k)wj(k)μj(k)=-J(k)wj(k)J(k-1)wj(k-1)

步长μj的修正公式为:

Δμj(k+1)=-γJ(k)μj(k)=γJ(k)wj(k)J(k-1)wj(k-1)(γ>0)(8)

其中

J(k)wj(k)=Dj(k)J(k-1)wj(k-1)=Dj(k-1) (9)

式(8)中,当k时刻与k-1时刻对wj的负梯度同号时,学习步长增加;否则,学习步长减少。当相继两时刻的导数同号但幅值很小时,正Δμj很小,但相继两时刻的导数异号但值很大时,Δμj为负,甚至会使μj(k+1)为负。本文采用的步长修正公式如下:

Δμj(k+1)={l/epochDj(k)Dj(k-1)>0-r/epochDj(k)Dj(k-1)<0(10)

式(10)中,epoch为训练周期,lr为正参数,其大小的选取对神经网络算法的收敛速度有很大影响,太大或太小都会使神经网络算法的收敛速度很慢,本文取k=0.0007,r=0.0007,神经网络算法的收敛速度最快。则第k+1次迭代时的步长调整公式:

μj(k+1)=μj(k)+Δμj(k+1) (11)

权值调整公式:

wj(k+1)=wj(k)-μj(k+1)Dj(k) (12)

1.4幂基函数变步长神经网络算法训练步骤

Step1 获取神经网络训练样本集:{xk+1=a+b-an-1k|f(xk),k=0,1,,n-1},n为样本点数;给定误差精度ε

Step2-1 在第一个训练周期,即epoch=1时,对于样本点x1,给定初始学习步长,μj(1)=2μ0m+1(0<μ0<1);随机产生初始权值wj(1);并令Δμj(2)=0,(j=0,1,…,m)。

Step2-2 根据式(5)计算Dj(1);根据式(12)调节权值,得到wj(2)。

Step3 当k≥2时,根据式(5)计算J(k)wj(k)=Dj(k),根据式(10)—式(12)调整步长及权值。

Step4 如果样本集未训练完,返回Step3 ,重复上述步骤,直到样本集训练完成。这时根据xn得到下一次迭代的步长μj(n+1)及权值wj(n+1)。

Step5-1 判断性能指标J,如果J>ε,令J=0,epoch=epoch+1,返回Step2,开始新的训练周期。为保证周期间网络训练的连续性,初始步长及权值作如下调整:

μj(1)=μj(n+1)

wj(1)=wj(n+1)

Dj(0)=Dj(n)

然后根据式(5)计算Dj(k),(k=1,2,…,n);根据式(10)—式(12)调整步长及权值。

Step5-2 如果Jε或满足最大训练周期,结束网络训练,输出网络权值。

1.5基于神经网络权值的数值积分定理

定理2 设a,b为积分上下限,且0≤a,b≤1,W=[w0,w1,…,wm]为神经网络权值,则有:

Ι=abf(x)dxw0(b-a)+j=1m1j+1wj(bj+1-aj+1)

证明Ι=abf(x)dxaby(x)dx=abj=0mwjxjdx=ab[w0+j=1mwjxj]dx=w0(b-a)+j=1mwjabxjdx=w0(b-a)+j=1m1j+1wj(bj+1-aj+1)。证毕。

推论 当积分上下限a,b在0~1之外,即a<0或b>1时,对变量x做变换:x=(b-a)t+a,t∈[0,1],这时Ι=abf(x)dx(b-a)(w0+j=1mwjj+1)

证明Ι=abf(x)dx=(b-a)01f[(b-a)t+a]dt(b-a)01y(t)dt=(b-a)01j=0mwjtjdt=(b-a)01[w0+j=1mwjtj]dt=(b-a)(w0+j=1mwjj+1)。证毕。

2数值积分算例

例1 在积分区间[0,2]分别计算被积函数x41x+11+x2sinxex等五个函数的积分。取神经网络结构为1×30×1(即m=30),性能指标为J=10-6,训练样本集为{xk=2100k|f(xk),k=0,1,,100}μ0=0.6k=0.0007,r=0.0007。每个函数分别进行30次独立实验,最后取平均值作为最终积分近似值。表1列出了本文算法与文献[7]中的方法所得结果的比较。

例2 求Ι=0πxsin(x)1+cos2(x)dx

被积函数中有三角函数和幂函数,因此直接求出其原函数是有困难的。本文算法中,取神经网络结构为1×30×1,性能指标为J=10-6,训练样本集为{xk=π100k|f(xk),k=0,1,,100}μ0=0.6k=0.0007,r=0.0007。进行30次独立实验,取其平均值得到积分近似值为2.4677091,积分精确值为2.46749110。

例3 计算积分∫0πexcos(100x)dx

被积函数为激励振荡函数,积分准确值为0.00221385。在本文算法中,先作变量代换,令t=100x,原积分变为11000100πet100costdt,然后将积分区间进行100等分,在每个子区间上分别取100个样本点,进行神经网络训练,在每个子区间上分别求积分,最后求和得到积分近似值。取神经网络结构为1×30×1,性能指标(经我们大量试验而获得)取为J=10-6,μ0=0.6,k=0.0007,r=0.0007,求得积分结果为0.00225109。

3结语

本文提出了一种基于幂基函数变步长神经网络算法求解数值积分的新方法。通过典型数值积分算例,计算机仿真实验表明,文中提出的基于幂基函数变步长神经网络积分算法相比传统的数值积分方法,具有计算精度高、收敛速度快、算法稳定等特点,并且给出了求解振荡函数数值积分的一种有效方法,给科学计算与工程技术人员提供一种求解数值积分的新方法,能有效解决建模困难的系统或未知系统的求积分问题,在工程实际中有较大的应用价值。

参考文献

[1]沈剑华.数值计算基础[M].上海:同济大学出版社,1999:73-109.

[2]王能超.数值分析简明教程[M].北京:高等教育出版社,1997:66-296.

[3]Richard L,Burden J.Douglas Faires.Numerical Analysis(Seventh Edi-tion)[M].北京:高等教育出版社,2001:186-226.

[4]熊华,杨国孝.一类振荡函数的数值积分方法[J].北京理工大学学报,1999,19(3):280-284.

[5]薛峰,丁纯,薛禹胜.数值积分自动中止的算法及其工程应用[J].电力系统自动化,2001(10):9-13.

[6]罗玉雄,文卉.一种基于神经网络算法的数值积分方法[J].传感技术学报,2006,19(4):1187-1194.

神经元函数 第5篇

作为近几年发展起来的一种自动编程技术——遗传程序设计,它是在遗传算法的基础上加以改进而得到的一种新的并行算法,遗传程序设计的思想最早由Stanford大学的J.R.Koza在九十年代初提出,遗传程序设计是从遗传算法演化而来,传统的遗传算法是根据自然界的生物进化、优化劣汰的原则而提出的,遗传算法利用编码技术和繁殖机制来表现复杂的现象,从而解决非常复杂问题如NP问题。而遗传程序设计是把问题解表示为树的形式。叶子是数据的输入,而中间节点就是把这些输入数据进行处理的函数。遗传程序设计的问题解可以直观地表示出来而不用进行转化,也不用经过复杂编码方案表示。在遗传程序设计中,从一系列的群体中进行自然选择——复制、杂交、变异生成新一代群体,新群体较上一代有更好的表现,这种表现由适应度来度量,适应值度量把问题的性质传递到计算机和它的学习模式置中,通过若干代的遗传能得到较好适应值的群体和个体。然而它本身具有自适应、自组织、自学习、自优化的特点,很适合解决不需要太多专业知识或者非常了解原问题的背景知识。

每一个程序个体是由适合问题域的函数集,端点集中的若干个函数端点组合而成。函数集可以是各种运算子程序,分支或循环结构的集合。端点集是由变量原子或常数原子集合。初始群体实际上是计算机在搜索空间上进行随机搜索生成的子程序模型或表达式。虽然初始代是随机生成的,但其子代的产生并不是盲目的,通过一致概率分布选择可使有较好的适应值的父体会有更多的机会遗传到下一代或与其他个体杂交,其下一代会有比上一代更好的适应值,而这个过程是递归的,非常适宜计算机实现。

神经网络理论的应用已经渗透到各个领域,并在智能控制。模式识别、非线性优化、自动目标识别等方面取得很大进展。神经网络是根据对输入和输出数据直接建模、具有大规模并行处理能力、并且有很强的容错性、神经网络建模无需对象结构的,并有很强的自适应能力,因此对非线性对象建模有较好的应用。

神经网络的应用是建立在人工神经网络的数学模型之上。神经网络的学习模型主要是在神经元的生理特性基础上,通过抽象数学表达式描述。人工神经网络的数学模型包括三个方面:网络结构学习规则以及激励函数。目前常用的网络结构常有步函数、Sigmoid函数。由此构造了著名的感知器神经网络模型—反传神经网络模型。

但是,无论是感知器神经网络模型还是反传神经网络模型均存在各种各样的缺陷。一是其适应对象的结构有一定的局限性,二是遗忘、收敛速度缓慢。目前从理论上讲,还没有找到有效的通用的方法来提高收敛速度。事实上,对不同的对象,采用相同的数学模型其效果是有区别的。另一方面,针对某一类对象创建具体的数学模型又失去网络的广泛自适应的特点,因此根据问题的对象结构进行人工神经网络的自动动态建模具有十分重要的实际意义。

1遗传程序设计对神经网络激励函数的优化

鉴于遗传程序设计的自适应性、自组织性、自优化特点,比较适合于根据问题的实际情况寻找最优个体函数,本文引入遗传程序设计自动、动态建模的优势对所给实际问题进行节点激励函数的自动搜索,以能够建立符合问题对象结构的神经网络模型。由Kolmogorov定理知,采用S形函数作为节点激励函数就可使神经网络模型逼近任何连续函数。同时,Horik等认为对于神经网络模型而言,重要的是大量神经元间的相互连接作用,而神经元特性的特定选择在网络逼近中无关紧要。其实,此种观点并不正确,我们通过仿真实验证明,对神经网络来说,其神经元节点激励函数(神经元特性)对网络的泛化能力影响很大。可见,神经元节点激励函数的选择至关重要。若对于神经网络神经元的激励函数仅选择常见的几种激励函数类型:线性函数、s函数、双曲正切激励函数、高斯激励函数,大大削弱神经网络的泛化能力。因此,在实际应用中仅选择某几种激励函数的做法是有片面性的。

1.1遗传设计搜索神经元激励函数的原理

通过GP的自然选择找到适合问题的神经网络的激励函数,尽管现在已经有一些激励函数在人工神经网络的建模中具有通用性,但对于不同问题收敛速度有较大差异,而根据实际问题确定激励函数确要有较强的先验知识,有时无从下手,然而利用GP可很好地解决上述矛盾。在没有任何先验知识的情况下,GP能够根据实际问题找到适合于问题的人工神经网络最优的激励函数,以更好建立正确的人工神经网络模型。实践证明,这种方法能明显提高精度和收敛速度。为简单起见,不失一般性,我们通过具GP搜索节点激励函数的过程。

(1) 确定函数集与端点集

神经网络的节点激励函数可能是线性的也可能是非线性的,因此函数集可选择+,-,×,/,exp,sin,ln等操作的集合,端点集可选择(x,a),其中x是变量,a是预先给定的常量。

(2) 适应值函数

适应度函数是GP得以自动运行的激励机制,适应度函数的不同直接影响GP的运行效果和寻找到最优解的运行速度。因此,根据我们的经验,在GP运行过程中,对每次所得到的个体作为神经网络的激励函数,此神经网络在一定学习规则下通过有限次的学习之后,取神经网络在有限的学习样本下的均方误差值作为此个体的激励函数的适应值。因此适应值即为在本个体下神经网络学习后的所有输出与期望输出值之差的平方和。

(3) 复制、交叉、变异

复制、交叉、变异是GP运行过程的三种基本操作方式,使群体不断地搜索新的最优解将适应度值较小的个体在合适的复制概率与交叉概率下选入交配池,再进行复制、杂交生成新的一代,复制是直接将适应值较好的程序遗传到下一代,杂交则是将两个父本剪取随机枝后再相互嫁接,生成不同的后代个体,保持个体多样性。

(4) 控制参数

好的收敛速度依赖于好的控制参数的选择,在运行允许的前提下,适当增加群体规模和杂交代数有利于GP搜索到全局最优解。控制参数有群体规模、最大代数、杂交复制概率和最大深度等。

1.2利用伪代码形式描述GP搜索神经元激励函数

2实验

在下面的实验中,利用神经网络中感知器去拟合下面的分段函数:

传统激励函数如下:

y=1.01.0+exp(-x) (2)

接下来,利用GP去搜索神经网络的激励函数。

对于本实例,选取实验参数如下:

群体规模=200。最大代数=150。

初始深度=6。最大深度=12。

复制概率pc=0.1。杂交概率pr=0.9。

常数a=1.3。感知器训练次数500。

其中初始树深度和最大树深度指GP学习过程生成的表达式树的深度。群体规模指GP学习的初始种群的大小。最大代数指GP学习的迭代代数。

将GP运行的最好个体和次优个体作为神经元激励运行于感知器拟合上述分段函数中,比较三个神经元激励函数在感知器训练2000次过程中的平均误差,实验结果如表1所示。

由此可以看出,通过GP自动学习得到的函数在性能上要优于传统的那几种固定的激励函数。

3结论

通过实验,我们能够通过遗传程序设计的自然选择找到适合问题的神经网络的好的神经元激励函数,尽管现在一些常用的激励函数在人工神经网络的建模中具有通用性,但对于不同的问题收敛速度有较大差异。而根据实际问题,人工确定激励函数却要有较强的先验知识,采用GP可很好地解决上述矛盾。在没有任何先验知识的情况下,GP能够根据实际问题找到适合于问题的人工神经网络最优的激励函数,以更好地建立正确的人工神经网络模型。实践证明,这种方法能明显提高精度和收敛速度。当然,利用GP也可以搜索到适合已知神经网络的学习规则,这有待于我们去进一步研究。

参考文献

[1]Banzhaf W.Genetic Programming.Morgan Kaufmann Publishers,Inc San Francisco,California,July1997.

[2]潘卫东.利用遗传技术辅助设计人工神经网络.模式识别与人工智能,1994,17(1):7277.

[3]MAntardzic.数据挖掘—概念、模型、方法和算法.闪四清,陈茵,等译.北京:清华大学出版社,2003.

神经元函数 第6篇

1 卷积神经网络

卷积神经网络是一个多层的非全连接的神经网络,核心思想是用局部感受野、权值共享、子采样这三种结构特性使其自适应实现图像的旋转、平移和缩放等变换。卷积神经网络主要包括卷积层和采样层,基本结构如图1所示。

卷积层的输入是通过一个可以学习的W×W大小的卷积核与前一层的一个小邻域内的神经单元(局部感受野)相连接,并提取出该局部特征,在提取特征时,同一个特征图使用相同的卷积核,为了提取多种特征,需要选取不同的卷积核去卷积图像。CNNs使用这种权值共享的方式降低了网络模型的复杂性,大大减少了网络模型训练的参数。卷积层输入形式为

输出形式为

式(1)中的zj表示输入特征图的一个选择;xil-1是第(l-1)层的第i个特征图的激活值;Wlij是第l层的第j个特征图与第(l-1)层的第i个特征图相连的卷积核;bjl是第l层的第j个特征图的偏置。式(2)中的f(·)表示神经元的激活函数。

采样层是将卷积层得到的特征进行抽样,即把输入的特征图像划分为多个不重叠的子块,然后对每个子块进行池化操作。CNNs的采样层池化方法主要有均值池化、最大池化和随机池化。其中均值池化是依据划分的子块来计算特定范围内像素的平均值Pa;最大池化是计算每个子块像素的最大值Pm;随机池化则是随机选取每个子块的一个像素值Ps[15]。在文献[15]中还提出了一种专门用于测试阶段的概率加权池化方法,它是计算每个子块区域元素加权平均数,此方法是用来解决训练阶段使用随机池化而测试阶段也使用随机池化会带来噪声干扰问题的。通过池化操作,可以降低特征图的分辨率,减少输出时关于平移和缩放的灵敏度。

卷积神经网络通过卷积层和采样层的交替作用直接学习原始图像的视觉模式,一般再经过若干个普通神经网络里的全连接层,通过反向传播(back propagation,BP)算法更新相应的卷积核权重和偏置值。BP算法权重值的更新式为[16]:

式(3)中的x(t)表示该神经元的输出;δ(t)表示该神经元的误差项;η表示学习率。

除输入层神经元无激活函数之外,其它各层神经元均可以有某种激活函数作为传递函数,但实际应用中采样层的神经元一般情况下不用激活函数,而输出层使用CNNs模型提取的特征向量进行分类,一般情况用Sigmoid函数。因此,本文探讨卷积层使用不同激活函数,而全连接层都使用Sigmoid函数的网络性能。

2 常用激活函数及其特性

在卷积层中,常使用的激活函数有饱和非线性函数(Tanh、Sigmoid函数)和不饱和非线性函数(Softplus、ReLUs函数),它们的公式(图2和图3所示)如下。

2.1 饱和非线性函数

2.2 不饱和非线性函数

ReLUs函数f(x)=max(0,x);

Softplus函数f(x)=lge(ex+1)。

从图2可以看出,Tanh函数曲线在零点附近有一个比较稳定的状态,但它关于零点反对称,不符合生物神经元的基本特点[17];Sigmoid函数曲线尽管具有“柔软性”和可微分性,但它经常需要借助惩罚因子来产生稀疏数据,收敛速度很慢。从图3可以看出,ReLUs函数曲线是强制将小于零的数据置为零,具备了稀疏表达的能力,而大于零的数据保持原来的值不变,并没有进行非线性纠正;Softplus函数曲线是ReLUs函数曲线的近似光滑表示,对全部数据进行了非线性映射,并不具备稀疏性。

3 非线性修正激活函数及其特性

基于ReLUs和Softplus函数各自的优点,将ReLUs函数的稀疏表达能力和Softplus函数的光滑特性结合起来,提出一种使用非线性修正激活函数作为神经元激励的方法,也就是先作Softplus族函数变换,再作Re LUs族函数变换。非线性修正的激活函数继承了这两种族函数的所有优点,它是一个非线性修正函数,最基本的非线性修正激活函数首先将Softplus函数曲线向下平移lge2个基本单位,然后把小于零的数据置为零,此非线性修正激活函数记为ReNLUs-Softplus(rectified nonlinear units-softplus)。因此,ReNLUs-Softplus的公式、图形及导函数图形(图4所示)如下:

从图4可以看出,ReNLUs-Softplus激活函数不仅具备稀疏表达的能力,而且大于零的数据进行了非线性映射,更接近生物学的激活模型,进一步增强了对模型表达的能力。此外,不同于Re LUs导函数的是,非线性修正激活函数的导函数在大于零一侧为连续光滑函数,并且随着神经元激活数值的增大,导函数呈递增趋势,而导函数与反向传导的残差有直接关系[1,18],再根据式(3)可知,权值的更新机制使得网络更容易收敛和得到最优解。

4 实验及结果分析

本文基于MNIST和CIFAR-10数据库进行测试,对比卷积层使用非线性修正激活函数和传统激活函数的网络性能。实验在Matlab2013a环境下完成,采用的操作系统为Windows 8.1,CPU为Intel i5-4210m,主频为2.6 GHz,内存为8 GB。

4.1 MNIST实验

MNIST手写字体(0~9数字)数据集包含60 000张训练图片和10 000张测试图片,每张图片都是28×28大小的灰度图像,实验中只需要将其归一化为[0,1]。采用的网络结构设置为:6C-(2×2)S-12C-(2×2)S-200F,卷积核大小为5×5。网络结构设置中的C表示卷积层,对应的数字表示相应层的特征映射图个数;S表示采样层,对应的数字表示采样窗口的大小;F表示全连接层,对应的数字表示神经元的个数。在CNNs模型的训练过程中,选择激活函数不同,训练时间也不同,训练一次所需要的时间为146~183 s之间。

在采样层采取最大池化的方法下,卷积层使用Tanh、Sigmoid、ReLUs、Softplus和ReNLUs-Softplus函数作为激活函数的网络分类正确率随着训练次数变化曲线如图5所示。

从图5可以看出,在MNIST数据集上使用Tanh函数作为激活函数的网络虽然收敛速度比较快,但是识别率仅为98.86%;使用Sigmoid函数作为激活函数的网络收敛速度很慢,最高识别率只有98.85%;使用Softplus函数作为激活函数的网络最大识别率为99.03%;使用ReLUs函数作为激活函数的网络收敛速度较快,识别率为99.08%;而使用非线性修正激活函数的网络收敛速度更快,正确识别率最高为99.27%。

实验也测试了采样层训练阶段使用随机池化方法,测试阶段分别使用随机和概率加权池化方法,最大训练次数为50次的网络最低分类错误率,测试结果如表1所示。

从表1可以看出,在采样层测试阶段采取随机池化的方法下,由于测试过程中引入了噪声干扰导致网络性能急剧下降,使用传统激活函数的网络分类错误率都在1.5%左右,而使用非线性修正激活函数的网络性能得以改善,正确率提升较多;在采样层测试阶段采取概率加权池化的方法下,使用Tanh函数作为激励的时候,由于负数的存在,使得测试阶段计算出来的加权激活值与训练阶段随机选取的激活值差别很大,分类效果非常差。通过以上两种测试方法可知,在采样层训练阶段采取随机池化方法下,使用非线性修正激活函数的网络分类正确识别率显著高于其他激活函数。

4.2 CIFAR-10实验

CIFAR-10数据集包含10类50 000张训练图片和10 000张测试图片,每张图片都是32×32大小的彩色自然图像,实验中先转换成灰度图像,再进行均值和方差归一化,最后进行白化操作。采用的网络结构设置为:8C-(2×2)S-16C-(2×2)S-240F,卷积核大小为5×5。在CNNs模型的训练过程中,训练一次所需要的时间为432~485 s之间,训练次数设置为50次。在采样层采取不同池化方法下,五种激活函数的网络分类错误率如表2所示。

从表2可以看出,在CIFAR-10数据集上,训练次数相同时,不论采用哪种池化方法,相比较于其他激活函数,使用非线性修正激活函数的网络分类错误率都是最低的。

上述实验结果说明,使用非线性修正激活函数的网络在MNIST数据集上的错误率为0.73%;在CIFAR-10数据集上的错误率为33.34%,比Tanh函数低6.21%,比Sigmoid函数低2.68%,比ReLUs函数低3.39%,比Softplus函数低8.65%。相比较于传统激活函数,使用非线性修正激活函数不仅可以提高网络收敛速度,也可以提高识别准确率,同时也不依赖于池化方法的选择。

5 结束语

神经元函数 第7篇

精确地预测地下水位可以有助于合理管理和规划地下水资源但是地下水资源系统是一个比较复杂的系统, 地下水位的变化受很多因素的影响。

传统的数值法能能解决复杂的地下水位预测问题, 但其需要大量的含水层参数, 这些参数受前期工作程度的限制而难以获得, 因此很大程度上限制了数值法的应用。因此, 人们又开展很多其他的研究。廖伙木等利用组合组合时间序列分析法建立地下水位的预报模型。门玉明等以北京市浅层地下水位预报为例, 讨论了季节性指数平滑法在地下水位预报中的应用。近年来, 神经网络模型在地下水水位预报中得到越来越广泛的关注。本文以吉林西部1990-2012年的月平均地下水位为例, 建立径向基神经网络预报模型, 并把预报结果与自回归模型 (AR) 的预报结果进行比较。对比分析了两者的建模过程及其模拟精度, 以期了解二者在地下水位预报中的优劣。

2 RBF神经网络原理

径向基函数神经网络, 简称RBF神经网络, 由Moody和Darken提出。RBF神经网络是典型的三层前向网络, 包括输入层、隐含层、输出层。输入层神经元只传递输入到隐含层, 隐含层神经元由高斯函数作用函数构成, 而通常输出层神经元只是简单的线性加权。

3 模型应用

以白城市的地下水位资料作为研究数据, 其中1990–2010年的数据用于模型训练, 2011-2012年数据用于模型的测试。

根据相关分析技术, 求得自回归阶数为10, 即每月水位与前10个月的水位密切相关。因此可以确定网络的输入层有10个神经元, 输出层的神经元是1个。根据试错法确定出中间层神经元数为8。利用MATLAB编制计算程序对网络进行训练。运行程序, 经训练误差达0.03, 小于给定允许误差, 网络收敛。

一个预报的好坏关键要看它对真实情况的逼近程度, 因此在将模型用于预报前还要进行预报检验。采用未参加建模的2011-2012年地下水位进行检验。其后验结果见图1。

从图1可看出, 自回归模型和RBF神经网络模型地下水位预报效果均不错, 经计算可知最大绝对误差分别为0.22m和0.12m, 最小绝对误差分别为0.02m和0.01m, 平均相对误差分别为1.2%和1%, 虽然两种模型均可应用于该区地下水位预报, 但RBF神经网络模型预报精度略高于自回归模型, 预报结果更具有准确性。结语

本文运用RBF神经网络进行地下水位预报, 以吉林西部地区为例, 应用其1990-2012年的月平均地下水位数据, 并建立自回归模型进行比较。结果表明:径向基函数神经网络模型能很好地进行地下水位预报, 同自回归模型相比, 径向基函数神经网络模型预测的精度更高。RBF神经网络模型为地下水位预报提供了一种行之有效的方法。

摘要:本文在介绍径向基函数神经网络原理的基础上, 研究径向基函数神经网络模型在地下水位预报中的应用, 以吉林西部地区为例, 应用其1990-2012年的月平均地下水位数据, 建立径向基函数神经网络模型。为进一步证明预报结果的准确性, 把预报结果与自回归模型的预报结果进行比较。结果表明:径向基函数神经网络模型能很好地进行地下水位预报, 同自回归模型相比, 径向基函数神经网络模型预报的精度更高, 预报结果更具有准确性。

关键词:径向基函数神经网络,地下水水位,自回归模型,吉林西部

参考文献

[1]杨忠平, 卢文喜, 龙玉桥, 李平.两种随机地下水位动态预测模型在吉林西部的应用与对比[J].水文, 2008, 28 (02) :49-54.

[2]廖伙木, 董增川, 束龙仓, 汝安.地下水位预报中的组合时间序列分析法[J].山东大学学报 (工学版) , 2008, 38 (02) :96-100.

上一篇:测绘科学下一篇:建筑玻璃