贝叶斯模型平均方法

2024-06-04

贝叶斯模型平均方法(精选7篇)

贝叶斯模型平均方法 第1篇

互联网为生活带来的便利同时也为犯罪者提供了方便, 电子商务中诈骗以及钓鱼攻击层出不穷。对于这些攻击, 传统的用户名/口令的静态认证用户的方式无法阻止犯罪者, 我们需要更为先进的安全机制来保护网络和用户的安全。当今的认证方法可分为以下三类:

(1) 用户所知, 例如:密码, PIN码, 问题及答案等;

(2) 用户所拥有, 例如:动态口令令牌, 数字证书令牌等, 用户拥有硬件设备才可以成功认证;

(3) 用户是谁, 例如:指纹等生物特征, 这类型的认证也称为生物识别, 通常需要在需要访问的系统上安装特定的识别硬件。

如果将这些静态认证手段组合以达到增强系统安全性效果的话, 同时也会因过于繁琐的认证会对用户体验造成影响, 可能会丧失电子商务的便利性和高效性特征。基于应用环境中的统计数据与贝叶斯方法提出一种通过设备指纹可信度计算识别应用方案, 就是利用设备识别技术在对用户透明的情况下加强系统认证安全性方式。

1 设备识别技术现状

设备识别又可称为设备认证和设备指纹。理想状态下, 假设所有网络设备具有惟一指纹并保持不变, 就很容易区分认证所有设备, 有利于网络安全实现。但在实际应用中很难找到能够惟一全局辨识设备的信息并确保该信息不被篡改。随着电子商务等市场发展, 关注设备识别技术已成为网络安全交易焦点。这种技术可以通过设备携带的特有信息来将其与用户关联绑定, 利用用户所拥有这一类认证因素进行额外认证。

网络设备的识别通常是通过设备通信过程中携带的一些信息对其进行认证和辨识。实现的方式分为主动式和被动式, 主动式通常是指服务提供商 (SP) 将某种构造的信息发送给设备, 其目的是触发某些期望的设备回应, 从而辨识出设备。被动式则是SP不主动发送信息, 而只是基于设备请求中携带的信息进行分析判断。被动式的方式对应用环境和用户体验的影响更小, 是一种理想的方式, 但通常其所提供信息量和可靠性不如主动式。

目前的设备识别研究可分为两类, 第一类是针对设备提供的某些信息, 希望生成近似惟一的设备指纹, 与储存的可信信息匹配来辨识设备。这类的识别技术包括网络报文指纹, flash芯片指纹, 蓝牙信号指纹等;第二类则是通过统计数据等已有信息来计算设备指纹的可信程度, 从而进行设备辨识。本文设计的模型中采用的方式属于第二类设备识别。

2 基于统计数据与贝叶斯方法的设备识别模型设计

2.1 信息采集

我们将能够采集的信息分为惟一信息以及非惟一信息。惟一信息是指可以惟一确定一台设备的信息, 如果这个信息与储存的可信信息匹配, 那么我们就可以认为该设备为可信设备。非惟一信息是指该设备所携带的, 可能会由用户更改的信息, 这些信息通常是设备的一些属性, 但在正常情况下也有可能被改变, 它们可以在惟一信息不可用的时候帮助我们评估和计算设备的可信度。

拥有惟一信息对于我们判断设备可信与否是非常有利的。在当今市场有不乏有一些商业化产品, 通过HTTP Cookie或者Flash Object等方式, 将特定的信息存入用户的设备中, 来达到认证设备的目的, 这就是一种通过惟一信息进行设备识别的方式。

对于非惟一信息的采集, 我们利用被动式设备指纹的采集方法。例如对于网络银行等基于web的应用, 可以从HTTP/HTTPS协议中获得诸如浏览器和操作系统版本, 语言, User Agent, 语言编码等信息。

用户请求提交惟一信息时, 只需要验证该信息的有效性。但是在很多情况下, 我们是无法采集惟一信息的, 比如用户清除了本地浏览器的cookie, 或者用户的终端设备不支持我们提供的惟一信息采集机制。这些时候我们就要通过那些非惟一信息来判断设备的可信度。如果将我们能够采集的所有非惟一信息按照一定格式组合在一起, 未能得到的信息留空, 组合成一个字符串, 这就成为一个由非惟一信息构成的设备指纹。

2.2 模型设计

传统的计算设备指纹可信度的方式便是静态字符串匹配, 将本次用户请求的设备指纹与存储的可信指纹做匹配来判断认证的可信度。常见的两种做静态匹配的方式是基于指纹元素匹配个数的计算方式和完形模式匹配 (gestalt pattern matching) 的计算方式。计算获得结果后, 大于可信阈值百分比的设备指纹被认为是可信的, 反之则不可信。

静态字符串匹配的方式易于实现, 但是缺点也很明显。在实际应用中这些指纹元素各自具有意义与背景, 静态匹配的方式忽略了这些元素间的差异化信息以及本身的意义。并且面对SP环境的变化, 不具备适应性和动态学习的功能。

在应用环境中, 当前设备指纹与可信指纹完全匹配时, 可认为其设备指纹的可信度为100%。设备指纹与可信指纹有所不同时, 由可信用户对设备指纹进行的修改是可信的, 那么指纹可信度也可以等同于其被可信用户更改的概率。设备指纹元素个数是确定的, 每个元素的可信度为Pi (1≤i≤n) , n为指纹元素个数。如果该指纹元素没有发生更改, 则可信度Pi=1。如果发生了更改, 则Pi为该指纹元素可信更改的概率。这样, 我们就可通过Pi的乘积来求得设备指纹可信度P:

通过这种方式计算可信度, 如果对Pi的计算是独立的, 那么对于不同的Pi我们可以使用不同的计算方式。

(1) 方式一:方式一中首先对环境中所有的可信指纹更改进行统计, 计算出每个指纹元素在可信的更改情况下的改变概率。统计出环境中设备指纹可信更改总次数N以及每个指纹元素的可信更改次数Ni (1≤i≤n) , 很容易计算得出每个指纹元素发生可信更改的概率:

M的取值需要大于某一设定的阈值。一次设备指纹更改可能出现多个指纹元素变化, Pi只与本指纹元素的可信更改次数以及设备指纹可信更改次数有关, 与其他Pi之间并不存在联系, 因此是独立的。

(2) 方式二:方式一只考虑了可信更改统计数据的概率, 忽略了系统中非可信指纹变化对概率计算的影响。引入两个事件A和C, A为本指纹元素发生可信更改, 而C为本指纹元素发生更改。便是在所有指纹元素更改中, 可信更改的概率。

方式二相较方式一对数据有更高的要求, 需要统计该指纹元素所有更改的数据。

(3) 方式三:上述计算方式未能体现指纹元素取值对于结果的影响。为了考虑元素取值, 我们需要在算法中引入贝叶斯方法。贝叶斯公式中的事件是随机事件, 其相互之间没有关联。令事件A为指纹元素发生更改的前提情况下, 该指纹元素发生可信更改。令事件B为本次设备指纹中, 该指纹元素为特定值。, 事件A和B之间是独立的。通过这种方式, 我们就可以得出在指纹元素特定值的时候, 其可信更改概率:

公式中表示在该指纹元素为特定值的概率。为方式二的计算结果。为可信更改的情况下, 该设备指纹元素取值为特定值的概率。

上文中我们介绍了静态以及三种基于统计数据的设备识别方式。在系统初始化时, 由于数据不足, 可以采用静态的方式在系统中对设备进行识别, 或让设备识别系统处于静默学习状态。当数据达到一定量时, 例如方式一中M的值足够大时, 系统可以进入动态识别模式。在动态识别模式中, 采用分层算法计算指纹可信度:

2.3 实验测试

实验数据采用国外某网站一定时间内的181296条网站访问记录以及Google Analytics统计数据。我们从网络访问记录中采集User Agent, IP以及区域语言数据, 从Google Analytics采集屏幕分辨率数据, 设备指纹结构如表1。

对于User Agent的解析, 实验中采用Python库httpagentparser1.2.1实现。对于无法解析的日志, 通过观察是Google, 百度等网络爬虫或机器人的访问记录, 忽略这些数据。最终得到可以解析的数据127696条, 其中设备指纹可信更改次数为1950次, 非可信更改次数228次。由于数据来源的局限性, 屏幕分辨率数据无法与设备指纹变更数据关联, 在本模型中将其变更以75%的可信度代入计算。表2、表3、表4为指纹元素更改统计数据。

我们使用以下三个案例对传统静态字符串匹配计算方式和我们提出的分层结构进行测试, 比较其计算结果 (表5) 。其中静态匹配的方式采用按指纹元素比例的计算以及完形模式匹配两种, 完形匹配采用python库difflib的Sequence Matcher实现。

经过三种不同的方式对案例进行计算, 设备指纹的可信度结果如表6所示。

计算过程中案例1与案例3采用计算方式三。由于区域语言的数据不足, 案例二采用计算方式一得出结果。

从实验结果可以得出基于统计数据以及贝叶斯方法的设备识别模型对于设备指纹可信度的计算结果有以下特点:

(1) 计算结果受到指纹元素特征的影响, 体现指纹元素差异性。

(2) 指纹元素的特征对最终结果影响大, 案例之间的差异性充分体现在结果的取值范围上。

(3) 如果环境发生变化, 统计数据更新后计算结果也会随之发生变化, 实现自动学习。

3 总结

本文中我们设计了一种通过分层结构的模型, 基于统计数据以及贝叶斯方法的计算设备可信度以及设备识别的方法。本可信度结果可以用于认证系统, 作为额外的认证环节或是为认证请求的风险评估提供参考依据。这种方式相较于静态匹配方式考虑了设备指纹元素在实际情况下的差异性, 并且具有动态学习的能力。采用分层的模型可以在现有的数据基础上得出最为符合实际环境的结果。

参考文献

[1]Federal Financial Institutions Examination Council:Authentication in an Internet Banking Environment[R].2001.

[2]Keiji Takeda:User Identification and Tracking with Online Device Fingerprints Fusion[R].Security Technology (ICCST) , 2012IEEE International Carnahan Conference.2012.

[3]Peter Eckersley:How Unique Is Your Web Browser?[R].Elec-tronic Frontier Foundation.2010.

[4]Russ Fink:A Statistical Approach to Remote Physical Device Fin-gerprinting.[R].Military Communications Conference.IEEE 2007.

[5]Ke Gaol, Cherita Corbett2, and Raheem Beyah:A Passive Ap-proach to Wireless Device Fingerprinting[R].Dependable Systems and Networks (DSN) , IEEE/IFIPInternational Conference.2010.

[6]John W.Ratcliff, David E.Metzener:PATTERN MATCHING:THE GESTALT APPROACH[OL].1987.

[7]Stanford Encyclopedia Of Philosophy:Bayes’Theorem, [OL].http://plato.stanford.edu/entries/bayes-theorem/.

贝叶斯模型平均方法 第2篇

水电设备是复杂的机、电、液、汽设备, 其结构关联复杂, 每个单一的故障都可能由不同的部分共同作用产生。故障和原因之间的因果关系不一定是确定的一一对应的映射关系, 而是表现为随机性和不确定性[1,2]。水电设备运行工况的传统态势评估都是由现场的水电专家根据经验人工实现。由于现场水电设备数量众多、型号各异, 通过专家进行现场评估建立模型已经无法满足现代化水电厂生产的需要。而目前国内外常用的专家系统诊断方法虽然在解决这一问题时会得到相对准确的诊断结果, 但由于其自身的一些局限性, 在解决不确定性和实时性问题上存在一定的缺陷。为此, 面对不确定性的设备特征信息, 建立水电设备的通用态势评估诊断模型, 准确地对水电设备的运行工况进行快速态势评估, 并建立水电设备的通用态势评估诊断模型成为本研究领域的研究热点[3,4,5]。

态势评估是一种多假设动态分类问题, 在工业控制、系统故障诊断、军事数据融合等领域中具有广泛应用[2,3]。态势评估不仅需要多层次、多角度的信息视图, 而且要把对目标的估计量化, 进而识别产生观测事件和行动的可能态势[2]。目前对态势进行评估诊断的手段如概率推理、判决树、信息融合、Petri网络等得到了深入研究[6]。这些方法在信息准确、完备的情况下, 大多能够得到比较满意的结果。然而, 实际上人们得到的往往是不完备、不精确的数据, 从而需要应用柔性方法来处理。虽然基于模型的诊断方法 (MBD) 克服了传统专家系统的诊断知识不完备性、知识表述歧义性、诊断结果不易解释等重大缺陷[7], 其应用越来越广泛。然而, 针对同一观测值存在多个诊断解可以描述时, MBD一般很难确定系统的最优诊断解。特别是, 在样本缺少关键信息的情况下, 诊断正判率过低。

贝叶斯网络对于解决复杂系统不确定因素引起的故障具有很大的优势, 被认为是目前不确定知识表达和推理领域最有效的理论模型[6,8,9]。随着从数据中学习贝叶斯网络结构和概率分布技术的发展, 贝叶斯网络已经在多个领域中获得了广泛关注, 特别是在医疗诊断、设备故障诊断等方面得到深入的研究并应用于实践[8]。近年来, 贝叶斯网络在电力系统中的应用也开始得到研究, 文献[10]将贝叶斯网络应用到电网故障诊断中, 建立了面向元件的电网故障诊断模型, 取得了较好效果。

由于贝叶斯网络是解决不确定性问题最好的方法[11,12,13], 为了使得构建的网络简洁、条件概率计算简单、较容易确定诊断的最优解, 本文在引入超件概念的基础上, 提出以MBD生成的最小诊断集构建贝叶斯网络 (BN) 的诊断方法, 通过BN确定候选诊断解的发生概率, 进而确定系统最有可能的诊断解。通过在水电设备调速系统的现场诊断应用中验证了该方法能够更有效、更直观地进行故障诊断, 易于进行属性和故障类型扩展, 方便处理不完整数据和不精确数据。

1 水电设备态势评估诊断模型

1.1 设备通用态势评估诊断的体系结构

设备的性能降低状态可以在总体上定义, 也可以在细节上定义。在总体上定义, 是指设备的任意一个指标只要出现性能降低, 设备即为性能降低状态, 不一定完全失去其功能。在细节上定义, 往往是指某个指标或在性能指标的某个范围内出现性能降低的现象。对性能降低状态进行详细定义的好处是我们对产生的影响可以了解得比较准确。如果能够及时地检测, 则可以在性能继续降低前就主动采取维护措施 (图1) 。

设备态势评估是通过建立关于设备运行过程中的各种参数组织形成的视图, 将评估设备的当前运行工况和周围环境、运行相关设备有机结合起来, 分析并确定故障事件发生的可能原因, 从而获得设备运行特性和可能的故障事件趋势的态势估计, 并形成最终的综合态势评估视图[14]。因此, 可将态势估计归为一个多假设分类问题。为对水电设备性能降低状态进行有效的在线检测和诊断, 本文提出了一套计算方法, 其工作原理见图2。

在水电设备通用态势评估诊断模型中, 从功能上将模型分为3层结构:态势特征层、态势理解层、态势评估层。每层可以根据不同的问题域实现不同的功能, 3层过程结构共同完成态势评估诊断的过程。为此, 将态势评估的过程分为态势特征提取过程、态势理解过程、态势评估过程 (见图2) 。

(1) 态势特征提取过程。特征提取过程的输入源为该时刻当前环境下的多源传感器采集的水电设备态势单元信息向量, 表示如下:

St={SΤ1, SΤ2, , SΤn} (1)

式中:Stt时间的单元信息向量;Tjt时间第i个传感器采集的设备特征信息。

为此, 连续时刻的水电设备态势单元信息向量就组成了态势信息空间S, 态势特征提取的过程就是从态势信息空间S中提取态势特征向量Ai的过程。态势提取过程实质上是寻找映射f:SA的过程。

(2) 态势理解过程。态势理解过程根据态势特征层生成的态势特征向量Ai对当前态势进行解释, 用于判断当前设备的各种运行状态, 进一步形成设备态势理解空间P, 并通过不断到来的特征向量修正态势理解空间P

全部工况假设态势空间为Pt={PT1, PT2, …, PTn}, 其中元素为设备运行工况中全部可能出现的态势分类。当前获取的态势特征向量集合为At={AT1, AT2, …, ATn}, 态势理解过程实质上是寻找映射g:AP的过程。

(3) 态势评估过程。态势评估过程是基于当前已经获得的设备态势理解空间P, 对未来可能出现的故障发展态势进行预测, 从而以可能性的方式给出设备的工况态势趋势, 即已知t时刻的态势P (t) , 求tt时刻的设备运行工况态势P (tt) 。态势评估过程是建立映射φ:P (t) →P (tt) 的过程。

简单来说, 图2所示的计算装置, 它的输入是矢量S= (S1, S2, …, Sn) , 输出是矢量P=F (S) 。根据给定的输入状态S来计算输出矢量P, 需要进行映射变换f:SA;g:AP

其中, A是中间单元矢量 (association cell vector) , 通常由一个比较大的内存地址表组成。对于给定的一个输入矢量S= (S1, S2, …, Sn) , 映射函数f即指向一些内存地址, 这些位置是在中间单元矢量A中, 通常被叫做中间响应单元 (active association cells) 。每个中间单元都配有一定的权重 (即对输出产生影响的一组成数值) 。如果输出矢量P是一维的, 就只有一个权重, 如果Pn维的, 就有n个权重。映射函数g使用中间响应单元的权重, 并生成输出值。如果每个中间响应单元都有权重, 函数g可以是简单的求和, 也可能根据记忆训练和存储过程不同, 情况也会不同。因此, 任何输入矢量都是一组内存地址指示器, 而输出矢量最简单的形式是这些地址指示器的权重的和。每个输出矢量P= (p1, p2, …, pn) 的元素都由一个分立的计算装置按照下面的公式计算:

p (k) =a1 (k) ω1 (k) +a2 (k) ω2 (k) ++an (k) ωn (k) (2)

式中:A (k) ={a1 (k) , a2 (k) , …, an (k) }是第k个看门狗的中间单元矢量;W (k) ={ω1 (k) , ω2 (k) , …, ωn (k) }是第k个计算装置的权重矢量。对应于每个输入的输出值可以通过改变中间响应单元的权重值来改变。

给一个计算装置输入函数的步骤是:

(1) 假定F是本文计算装置计算的函数, P=F (S) 是输入空间每个点上的输出矢量所期望的值。

(2) 在输入空间中选择点S, 其中P是要存储的, 与在此点上的函数值P*=F (S) 进行比较。

(3) 对P= (p1, p2, …, pn) 和P*= (p*1, p*2, …, p*n) 中的每个元素, 如果|pI-p*i|<ei, 其中ei是可以接受的误差, 则不需计算所期望的值被存储。但当|pI-p*i|>ei时, 则在P*每个的权重值上加上Mi= (pI-p*i) /N, 其中Np*i的权重值的个数。

一组输入数的数值就像指向随机数表格的指针, 这些随机数又组成了权重值的一组地址。这些地址所指示的权重值表中的数值经过求和后成为输出值。训练的过程是指根据当前的求和值与某个输入值所形成的输出期望值之间的误差, 来调整表中的权值。

1.2 用于态势评估的基于MBD的贝叶斯网络模型

为了克服基于模型的诊断 (MBD) 方法不能确定诊断最优解的缺陷, 提出以MBD生成的最小诊断集构建贝叶斯网络 (BN) 的诊断方法, 它能通过BN确定候选诊断解的发生概率, 进而确定系统最有可能的诊断解。

(1) 定义1。一个系统可以由一个三元组 (SD, COMPS, OBS) 表示, 其中SD为系统描述, 是一阶谓词公式的集合, 它描述了系统正常输入、输出行为以及它们之间的拓扑关系等;COPMS为系统组成部件, 是一个有限的常量集;OBS为一个观测集, 是一阶谓词公式的有限集, 它反映了系统的某些可测点在特定情况下的值。另外, 系统行为是指系统所有可测量点在系统各种正常工作情况下的集合, 用BEH表示, 因而当系统正常工作时, 任作一次测量, 都有OBS∈BEH;系统故障时, 任作一次测量, 都有OBS∉BEH, 称其为征兆。通常BEH不能显式表示, 仅推理时对特定值做预测。

从上面的定义可知, 对于同一征兆, 若有多个最小诊断解, 如果不考虑各最小诊断解发生概率的话, 检测次数将会增加, 从而增加检测成本。因而本文考虑通过贝叶斯网络 (BN) 确定候选诊断解的发生概率, 进而对系统最有可能的故障件进行检测, 以减少检测次数, 降低检测成本。然而, 当最小诊断解较多时, 构建的贝叶斯网络将非常复杂, 增加诊断难度[1,12]。对此, 本文在文献[7,15]的基础上引入超件概念, 以简化所构建的BN。

(2) 定义2。对于一个系统可能存在的各种不同征兆引出的所有最小冲突集, 总存在这样一组元件, 它们总是同时属于其中的某个 (些) 最小冲突集, 或同时不属于其中的某个 (些) 最小冲突集, 由该组元件所组成的器件称为超件, 符号S。 该组中的元件称为超件S的子件, 当该组元件数目为1时, 则其超件为该元件自身。

超件具有如下特性:

①性质1。令符号c¯为故障件, 符号c为正常件, 若SON (S1) ={c1, c2, …, ck}, 则Ρ (S1) ¯=Ρ (c¯1c¯2c¯k) , 且对于S1任意一个子件ci, 都存在Ρ (S1¯|c¯i) =1;

②性质2。系统的每一个观测点输出对应于一个超件的输出, 即一个超件输出不能包含2个 (或以上) 观测点输出且一个观测点输出不能包含2个 (或以上) 超件输出;

③性质3。一个超件 (输出值为观测值的除外) 的输出肯定同时影响2个 (或以上) 不同超件的输入。

(3) 定义3。Dl-1是超件层诊断问题, 即Dl-1= (SD, SUPER-COMPS, OBS) ;Dl是零件层诊断问题, 即Dl= (SD, COMPS, OBS) 。

(4) 性质4。令∏l-1、∏l分别为Dl-1与Dl的最小冲突集, Δl-1、Δl分别为Dl-1与Dl的最小诊断集, 显然∏l-1与∏l一致且Δl-1与Δl一致, ∏l-1只是∏l的抽象, Δl-1只是Δl的抽象。

由该性质可知Dl-1诊断解Δl-1不存在失真, 即用Dl-1诊断时, 诊断解Δl既不会被丢失也不存在多余诊断解, 因而可以用Δl-1构建贝叶斯网络, 这比直接用Δl构建来得简洁, 条件概率计算更简单。这是因为用Δl-1将大大减少最小诊断解。

直接根据定义确定超件是十分繁琐的, 将失去引入超件的意义, 因而我们利用系统有向图及超件性质构建超件。

(4) 定义4。系统有向图G=<C, E, I, O>。C为系统的组成元件集, C={c1, c2, …, cn};E为有向边, E={e1, e2, …, em}, 反映元件之间的数据流向;I为系统的输入, I={i1, i2, …, ik};O 为系统的输出, O={o1, o2, …, oj} 。

(5) 定义5。超件中作为超件数据输出的元件称为超件的输出节点;作为超件数据输入的元件称为超件的输入节点;超件是由超件的输入、输出节点以及超件的输入节点输出数据在流入输出节点之前经过的所有元件组成。

显然超件的输出节点必与其他某一 (些) 超件的输入节点相连, 因而只要确定了超件的输出节点cO, 就能够确定超件。

由超件性质2和3, 可以得出确定其输出节点cO的方法, 即输出为观测值 (OBS) 或其输出与2个 (或以上) 其他元件的输入相连且那2个 (或以上) 元件的输出数据最终流入至少2个不同观测点的元件就是cO

基于上述方法, 我们可以直接根据系统有向图确定系统中的超件, 如图3。本文所构建的BN分为4层, 分别为观测层、最小诊断层、超件层、元件层。观测层为系统当前的观测值;最小诊断层是根据当前的观测值, 并通过MBD确定的所有最小诊断集 (解) ;超件层是每个最小诊断解分解的所有超件集, 当最小诊断解只包含一个超件, 则该超件既在最小诊断层又在超件层;元件层是组成超件的所有元件集, 当元件自身为超件时, 则该元件既在超件层又在元件层。

设系统是由一组元件{c1, c2, …, cm}组成, 其中每一个元件在未对系统做观测之前, 都有一个先验概率值, 如元件出厂时标定的故障概率, 假设pi是元件ci正常概率值, 即P (ci) =pi, 则其故障 (先验) 概率值为Ρ (c¯i) =1-pi, 根据超件性质1可求得超件的概率值, 进而求得每个最小诊断解及当前观测值的发生概率。再通过式 (3) 求得各层节点间的条件 (后验) 概率, 例如元件ci的故障后验概率Ρ (c¯i|S¯j) =Ρ (S¯j, c¯i) Ρ (S¯j) Sjci的超件。最终根据式 (4) 确定在观测值B发生的前提下, 每个元件的故障概率, 概率大的将优先检测, 直到找到准确解。

Ρ (A|D) =Ρ (A, D) Ρ (D) (3) Ρ (c¯i|B) =Ρ (Μ|B) Ρ (S¯j|Μ) Ρ (c¯i|S¯j) (4)

式中:D为上层节点;A为下层节点;M为某一最小诊断解;B为当前观测值;ci为某一元件;Sjci的超件。

2 实例分析

水电厂采用水力能源进行发电, 水电厂调速器系统是根据水轮机的转速来调整水轮机的导叶开度的设备, 调速器系统是水电厂中的关键子系统, 可用于稳定发电机的输出电压和频率[4]。

2.1 贝叶斯模型属性变量、类变量的确定

本文从多个地区水电厂的历史资料和近年有关文献资料上收集了大量具有明确结论的水电厂调速器故障数据, 并参考了文献[1,2,3,4,5,6]对故障实例与决策表的划分经验, 将调速器系统工况异常态势分为接力器故障S1、甩负荷故障S2、空载频率故障S3等态势。考虑节点的状态为:偏低、正常、偏高。整理的故障属性集、故障类、训练样本集分别如表1、表2、表3所示。

注:表3中的值0、1、2分别表示属性值和趋势值均不超标、属性值或趋势值超标、属性值和趋势值均超标;“*”表示不能确定的属性值。

2.2 贝叶斯网络分类器的选择和参数的确定

在不同领域中, 贝叶斯网络分类器表现的性能不同。当样本数量较少时, 在众多的分类模型中适宜选择NB网络分类器或者TAN网络分类器[16,17,18]。贝叶斯网络分类器参数包括结构参数和概率参数, 参数设置可根据专家经验确定, 也可从样本集中学习获得。通常, 由领域专家给出属性变量和类变量的因果图, 或者从样本集中学习网络结构。给出众多节点变量的条件概率参数, 对领域专家比较困难, 此时可以通过学习样本集得到条件概率参数。本文首先按照选定的模型, 从样本集中学习获得结构参数和概率参数, 然后, 依据可靠性指标对模型参数进行调整, 实现专家经验与样本知识的结合。

通过故障树分析和专家经验, 可以获得贝叶斯故障诊断模型 (见图4) 。图中的SF (System Fault) 是顶层系统运行态势。

选取贝叶斯先验概率是用贝叶斯模型求解的第一步, 也是比较关键的一步。常用的选取先验分布的方法有主观和客观2种。主观的方法是借助人的经验、专家的知识等来指定其先验概率。而客观的方法是通过直接分析数据的特点, 来观察数据变化的统计特征, 它要求有足够多的数据才能真正体现数据的真实分布。在实际应用中, 这2种方法经常是结合在一起使用的[19]。为此, 本文利用历史数据和专家经验知识, 在定义随机变量的基础上确定参数的先验分布密度 (采用共扼先验分布, 如果对先验分布没有任何信息, 就采用无信息先验分布的贝叶斯假设。) , 最终根据式 (4) 确定贝叶斯网络的条件概率矩阵如下:

Ρ (S1|SF) =[0.50.30.20.20.50.30.30.20.5]Ρ (S2|SF) =[0.70.20.10.10.70.20.20.10.7]Ρ (S3|SF) =[0.60.20.20.20.60.20.20.20.6]Ρ (A1|S1) =[0.80.10.10.10.80.10.10.10.8]Ρ (A2|S2) =[0.40.30.30.30.40.30.30.30.4]Ρ (A3|S2) =[0.50.20.30.30.50.20.20.30.5]Ρ (A4|S2) =[0.60.30.10.10.60.30.30.10.6]Ρ (A5|S3) =[0.20.40.40.40.20.40.40.40.2]

在网络中, A1、A2、A3、A4、A5 都是证据节点, 可以将多传感器系统采集的数据作为证据输入到这些节点, 并进行证据传播更新过程。通过专家经验, 我们可以获取SF节点的的先验概率为π (S) = (0.3 0.4 0.3) 。

2.3 故障诊断分析

将该评估模型应用在调速器系统设备诊断中, 上百次诊断的平均正确率为95% (见表4) , 证实在调速器诊断中应用该态势评估诊断模型可以有效地提高评估系统的判决可信度。

实际工作中常常无法获得完备信息, 从而影响诊断方法的直接判断。应用贝叶斯网络分类器进行故障诊断并非在任何情况下都很完美, 研究表明在测试样本属性信息缺失较少的情况下正判率较高, 但当属性信息缺失较多时, 由于非关键属性的不完整干扰, 模型的正判率明显下降 (见表5) 。

图5为本文诊断方法和专家系统方法在不同样本的情况下诊断准确率的拟合曲线变化规律图。

从上述实验经数据对比分析, 可以得出如下的结论:

(1) 传统的专家系统方法和本文方法均能给出正确判断。专家系统的诊断性能明显低, 其主要原因在于:在专家系统方法中, 主要以当前的实际运行数据与规则库中的规则阈值相对比, 以判断发动机当前的运行状态, 因而核心问题在于阈值的选取, 阈值过高或过低都会引起故障诊断的误差。

(2) 本文方法的诊断准确率明显高于专家系统的方法。其主要原因在于专家系统是事前学习, 当规则确定后, 很难改变, 无法适应复杂的不确定的故障的形式。专家系统的规则是由专家经验总结得出的, 对某些关键参数非常敏感, 当这些参数值超过正常值范围很多时, 专家系统很容易得出诊断结果。而当这些参数值在正常值附近波动时, 专家系统就很难给出正确的诊断结果。而本文方法实现了在线学习的功能, 以不断适应运行过程中传感器获取的不断变化的数据, 在任何情况下都可以得到准确率较高的诊断结果。

3 结 论

针对水电设备故障诊断中属性变量常常不完备, 已有故障诊断方法处理不完备信息存在不足的状况, 将贝叶斯网络分类器应用于水电设备故障诊断领域。本文在贝叶斯网络的基础上, 建立了一种用于水电设备的态势评估诊断模型, 提出以MBD生成的最小诊断集构建BN的诊断方法, 通过BN确定候选诊断解的发生概率, 进而找出系统最有可能的诊断解, 并针对当最小诊断解较多时, 构建的BN将非常复杂, 不易诊断的问题, 提出了超件的概念, 并将超件应用于BN构建, 使得构建的BN简化, 有利于提高诊断效率。通过对水电厂调速设备系统的诊断过程为例, 与传统的专家系统诊断方法加以对比, 经数据的分析表明基于在线思想的贝叶斯网络故障诊断方法可以有效地处理不确定信息带来的复杂性, 从而实现高效、准确的故障诊断的进行。

摘要:鉴于水电设备故障诊断中的信息和知识具有随机性和不确定性的特点, 利用贝叶斯网络表达知识灵活、分析处理不确定性与关联性问题能力强的优点, 提出了以MBD生成的最小诊断集构建BN的诊断方法, 并建立了一种用于水电设备的态势评估诊断模型。该态势评估模型的功能分3层结构:特征级、理解级、评估级。将贝叶斯网络中的节点按照功能分为态势节点和事件节点, 并在推理过程中将传感器采集信息作为事件节点的证据用来更新态势节点概率, 并反过来影响事件节点的概率。详细阐述并验证了该方法解决信息不完备问题的优越性。该模型还可以通过不断积累完善训练样本, 自动修正网络结构参数和概率分布参数, 提高诊断效果。实例验证表明了该方法的有效性。

网络故障管理的贝叶斯模型参数学习 第3篇

贝叶斯网络也被称为信念网络或者因果网络,是描述数据变量之间依赖关系的一种图形模式[1]。贝叶斯网络表现为一种赋值的复杂因果关系网络图,网络中每一个节点表示一个事件,各节点之间的有向弧表示事件发生的直接因果关系[2]。

在研究网络故障诊断方面,贝叶斯网络能集成定性和定量信息,具有充分利用先验信息,发挥学习作用的优点[3]。但Bayesian网的精确推理是NP难题[4],并且其近似推理也是NP难题[5]。例如,故障征兆节点有n个父节点,就需要2n个条件概率;同时在现实条件下很难搜集几种因素相互作用可能产生的结果。在确定贝叶斯网络有向弧的问题上,需要一定程度的简化。

我们可以将Noisy-OR、Noisy-AND节点模型组成的贝叶斯网络应用于网络故障诊断。Noisy-OR、Noisy-AND节点模型将规则库直观地映射成一个开始学习的初始网络,通过参数的学习和修正,实现了诊断知识的不断完善,并具有精确的语义和良好的可理解性[6] 。

2 Noisy-OR/AND模型

2.1 Noisy-OR节点

Noisy-OR节点和逻辑OR相似。当所有前提条件(Ni)都为“假”时,Noisy-OR节点(Nj)也为“假”。所不同的是,如果有一个以上前提条件为“真”时,Noisy-OR节点并不一定为“真”。我们定义参数cij来表示前提条件Ni取真时对Nj取真的认可度。给定网络中各节点的信任度和每一条连接的认可度,可以用下面的公式表示Noisy-OR节点的信任度:

2.2 Noisy-AND节点

Noisy-AND节点的定义是:当所有前提条件(Ni)都为“真”时,Noisy-AND节点(Nj)才为“真”,Noisy-AND节点(Nj)的一个前提条件(Ni)为“假”时,并不表示该节点的一定为“假”。定义参数cij来表示前提条件Ni取假时对Nj取真的否定度。下面的公式表示Noisy-AND节点的信任度:

3 参数学习

3.1 学习算法

借鉴用于神经网络的反向传播算法,可以推导贝叶斯网络的参数调整梯度公式如下[7]:

其中η是学习率,δj是对于节点Nj的误差。对于输出节点,δj=ζ(Nj)-P(Nj),其中ζ(Nj)是对于这个学习样本在Nj的期望值,P(Nj)是这个学习样本在目前条件下的计算值。对于隐层节点Ni,从子节点Nj反向传播到Ni的误差:

3.2 交叉验证方法

在网络训练过程中,当训练样本造成的训练误差随学习循环次数增加而逐次降低,由测试样本同步测试网络训练品质时,发现测试误差曲线在某处停止下降,并反转向上增加,即产生了过度训练现象,如图1所示[8]。

根据输入节点的个数和样本数量,可以采用k-折交叉验证法(k-fold cross validation)来获得学习循环的最适合停止点。在N个样本中随机选取R个(R<=N),均分为k组。轮流选择第i组作为测试样本,剩余k-1组作为训练样本。每次训练后,用测试样本计算训练结果的平均误差。在获得第i组的最小平均误差时停止训练,并记录训练次数mik组样本都作为测试样本后,mi的平均值m就可以作为N的学习次数。

4 应用实例

在实际应用中,考虑如图2所示的网络。这是一个具备多种接入方式的呼叫中心中应用层各设备之间的逻辑关系图。PBX(A)、传真服务器(D)、短信网关(B)、Web服务器(C)分别接入话音、传真、短信、Web呼叫,并递交CTI服务器(G)处理;CTI服务器将呼叫分发到普通座席(I)和VIP座席(J);普通座席通过访问本地数据库(E)处理呼叫;VIP座席则需要通过应用服务器(H)访问本地数据库(E)和VIP数据库(F)。相应贝叶斯网络的拓扑如图3所示,设定工作正常为“假”(0),发生故障为“真”(1),则隐层节点G、H为Noisy-OR节点,结果结点I、J为Noisy-AND节点。

经过统计,将得到的50个故障样本及相应输出点期望值输入,前3条输入如表1所示。

随机选取cij的值,采用5折交叉验证法,选取学习率为0.1,得到平均学习次数为288次。再将所有样本学习288次,获得的贝叶斯网络权值如图3标注。

当发生故障时,可以根据故障体现的输出节点状况和原因节点发生故障的概率,采用贝叶斯方法推导出在当前情况下,哪些节点发生故障的概率更高,进行有针对性的排查,提高故障定位的效率。在实际应用中,原因节点的故障率分别为:P(A)=0.0001,P(B)=0.0002,P(C)=0.001,P(D)=0.0005,P(E)=0.0009,P(F)=0.0005。当J发生故障时,推断出VIP数据库发生故障的概率最高,与实际情况相符。

5 结论与展望

本文对网络故障管理中的贝叶斯模型进行了研究,应用Noisy-OR/AND模型和反向传播算法建立了基于某个呼叫中心的网络故障管理模型,结合k-折交叉验证方法从统计数据中快速地完成贝叶斯网络的有向边参数学习。在故障发生时得到了验证。

参考文献

[1]冀俊忠,刘椿年,沙志强.贝叶斯网模型的学习、推理和应用.计算机工程与应用,2003,39(5):24-27.

[2]Neapoi Itan R E.Probabilistic reasoning in expert systems[M].New York:Wiley,1990.

[3]王华伟,周经伦,何祖玉,等.基于贝叶斯网络的复杂系统故障诊断.计算机集成制造系统,2004(2).

[4]Cooper G.Probabilistic inference using belief networks is NP-hard.Ar-tificial Intelligence.1990,42:393-405.

[5]Dagum P,Luby M.Aproximate probabilistic inference in Bayesian net-works in NP hard.Artificial Intelligence,1993,60:141-153.

[6]霍利民,朱永利,苏海锋.基于贝叶斯网络的电网故障诊断新方法.华北电力大学学报,2004,31(3):30-34.

[7]Sowmya Ramachandran,Raymond J Mooney.Revising Bayesian Net-work Parameters using Backpropagation[C].Proceedings of the1996IEEE International Conference on Neural Networks,Washington D.C.,1996:82-87.

基于贝叶斯理论的刀具维修决策模型 第4篇

关键词:维修决策,刀具,贝叶斯理论

0 引言

随着生产技术的高速发展, 电力和机械等行业的设备日趋大型化和精密化, 设备的正确维修对企业的安全和经济生产都具有重要意义。设备工作性能的好坏、效率的高低都与维修有关, 对故障原因症候诊断的正确处理以及维修方式的运用, 这些都需要维修计划的指导[1]。维修策略的选择与时机的确定成为研究者们关注的热点问题。

近年来, 国内外许多学者对维修决策进行了研究, 提出了各种决策模型。Murray A和Ko T J等人利用神经网络或自回归时序等模型对磨损量进行计算或监测[2~4], CAO X和陈保家等人利用比例危险模型或Logistic回归模型预测刀具有效剩余寿命[5,6]。周奇才等人提出了基于风险的维修决策, 对堆垛机的风险进行定量分析并利用风险为决策目标建立维修策略以降低堆垛机的运行风险[7]。程志君等人针对部件间存在经济相关性的复杂系统, 提出一类基于机会策略的视情维修优化模型, 解决系统层事后维修与视情维修的综合优化问题[8]。王进才等人运用马尔可夫决策模型, 提出了以费用效果为指标的维修策略[9]。罗运虎等提出基于风险的用户可靠性需求决策模型, 得到了用户可靠性需求的最优值[10]。此外, 林月平等人将最短路径算法应用在工程装备应急维修决策中, 提高了维修保障效率[11]。刘晓平等人将进化蒙特卡洛方法引入机械故障诊断的特征选择, 提高机械故障诊断精度和诊断效率[12,13]。还有一些学者开发了关于维修决策的软件支持系统, 李敏等人引入了基于状态的维修, 设计并开发了自行火炮状态维修决策支持系统 (CBMDSS) [14];吴军等人提出基于隐马尔科夫链模型的数控装备可靠性预测方法, 在此基础上, 开发了数控装备可靠性预测原型软件系统, 该系统对于提高数控装备利用率、减少数控装备维修费用以及延长数控装备使用寿命等具有重要的意义[15]。

在维修实际中, 由于设备自身特性以及实际运行条件等各种原因, 设备状态劣化的发展过程通常不是严格按照统计出来的性能曲线的过程发展, 而是劣化程度存在偏差的情况[16~18]。针对这一问题, 本文根据修正的思想将先验概率加以修正, 建立基于贝叶斯理论的维修决策模型, 以实现基于设备实际状态的维修决策。

1 基于贝叶斯理论的维修决策模型

基于贝叶斯理论的维修决策模型, 从刀具个体差异性角度出发, 根据贝叶斯理论得到刀具当前状态的后验分布, 然后再结合性能曲线确定刀具未来某一时刻状态, 得到不同时刻点的维修成本, 最后根据基于维修成本最小化的原则确定最优的维修方案。

1) 状态向量A

状态向量指设备的全部可能状态的集合。一般, 设备状态可分为正常、不正常和故障三种状态。由于设备处于故障状态时必须进行维修, 而本文讨论的主题是选择最佳设备维修时机, 因此, 故障状态不需要考虑, 设备状态只需考虑正常和不正常即可。设设备状态向量A为:

根据产品质量, 产品状态分为合格和不合格, 因此, 定义产品状态向量C为:

2) 先验概率和后验概率

先验概率指根据以往经验和分析得到的概率。设备性能曲线通常由历史统计数据分析得到, 如图1所示, 反映了设备正常/异常概率与工作时间的关系。因此, 设备状态的先验概率可以由性能曲线获得, 根据设备运行时间t即可在性能曲线上得到设备正常的先验概率Pt1 (A1) 以及设备不正常的先验概率Pt1 (A2) 。

后验概率指利用新的信息修正先验概率后获得的更接近实际情况的概率估计, 表示为Pt1 (A2|B) , 其中, B为抽样事件:在t1时刻, 在设备加工后的产品中抽取m件产品, 有n件不合格, 其余合格。本文将利用贝叶斯理论来计算后验概率。

根据贝叶斯理论, 设有构成事件完备组的2个事件Ai (i=1, 2) , t1时刻各事件发生的概率分别为Pt1 (Ai) , 独立事件B发生的概率为P (B) 。假设事件B在事件Ai条件下发生的概率为Pt1 (B|Ai) , 则t1时刻事件Ai在事件B条件下发生的概率为:

公式 (3) 中, Pt1 (Ai|B) 为t1时刻事件Ai的后验概率, Pt1 (Ai) 为t1时刻事件Ai的先验概率, B为观测样本事件。

根据条件概率公式可以得到:

式 (4) 、 (5) 中m, n分别为抽样总数和抽样次品数, 将式 (4) 、 (5) 代入公式 (3) 中, 得到t1时刻设备状态为正常、异常的后验概率Pt1 (Ai|B) (i=1, 2) 为:

后验概率Pt1 (Ai|B) 是在设备统计概率Pt1 (Ai) 基础上修正得到, 通过对设备设置抽样事件增加信息量, 克服了统计概率不针对个体的缺点, 得到更加符合设备自身实际的概率分布。后验概率的引入, 为更准确地评价设备所处状态提供了一个途径, 也为正确选择维修决策提供了基础, 是一种简单的基于状态的维修策略。

根据后验概率Pt 1 (A2|B) 在性能曲线中得到相应的运行时间t1’, 即性能曲线上t1’时刻概率Pt1’ (A2) =Pt1 (A2|B) , 记Pt1’ (A2) 为考虑设备实际运行状态后t1时刻对应的当量概率, 则有Pt1’ (A2) =Pt1’ (A2) =Pt1 (A2|B) , 反映了设备的实际劣化状态。修正后的概率才是设备实际的故障概率。应当是根据修正后的概率, 找到一个对应的时间点 (当量时间) , 就相当于设备已经运行了更长的时间, 所以才有更高的故障率。从时间上说, 由于设备加剧了劣化, 所以更接近于失效, 寿命变短, 不能运行到预期的时间点。当然, 如果设备保养得好, 也有可能是修正后的概率更低, 那就意味着设备可以使用更长的时间。

设下一维修时刻为t2时刻, 由当前修正后的点t1’时刻容易得到下一维修时刻t2时刻, 并在性能曲线中得到t2时刻对应的设备状态异常的概率Pt2 (A2) , 如图1所示。继而得到t2时刻设备状态正常概率Pt2 (A1) =1-Pt2 (A2) 。

3) 概率矩阵P

把某一时刻设备各状态的概率组成一个矩阵, 称为该时刻的概率矩阵P。设t1时刻的概率矩阵为P1, t2时刻的概率矩阵为P2, 则有:

4) 维修决策向量Q

维修决策向量指设备全部可能维修方案的集合, 设维修方案包括立即维修和暂不维修。则维修决策向量Q为:

5) 约束条件

当设备运行时间超过最大允许运行时间或抽样事件次品率超过允许值时, 均需立即维修。为了保证设备安全性, 设约束条件:

公式 (10) 中, t为设备运行时间, tmax为设备最大允许运行时间, p (B) 为抽样次品率, p (B) max为抽样允许最大次品率。

6) 维修成本矩阵F

维修过程中可能存在零件更换、生产产品质量、设备停机和人力资源等方面的损耗, 同时零件的使用寿命也影响着维修的总成本, 当零件使用时间超过其设定寿命时, 超出的使用时间会减少厂家对零件的投资成本, 本文把因为零件使用寿命延长所减少的投资称为节省投资成本;当零件超出其寿命时, 节省投资成本为正值, 反之为负值。因此, 本文所讨论的维修过程中的成本包括次品成本、零件成本、停机成本、人工成本和节省投资成本。在给定设备状态下, 不同的决策行为会有不同的维修成本。将不同设备状态、决策行为下, 各维修成本的数值表示成一个矩阵, 称为维修成本矩阵, 记为F。因此, 采取qi (i=1, 2) 维修决策时的维修成本矩阵Fi为:

公式 (11) 中各元素分别表示采用决策qi时的各维修要素。ui11、ui12分别是设备状态为正常 (A1) 、不正常 (A2) 时的次品成本;ui21、ui22分别是设备状态为正常 (A1) 、不正常 (A2) 时的零件成本;ui31、ui32分别是设备状态为正常 (A1) 、不正常 (A2) 时的停机成本;ui41、ui42分别是设备状态为正常 (A1) 、不正常 (A2) 时的人工成本;ui51、ui52分别是设备状态为正常 (A1) 、不正常 (A2) 时的节省投资成本。

7) 维修总成本U

维修总成本是各维修决策方案所产生的维修成本。维修总成本矩阵可表示为:

公式 (12) 中, u1i, u2i, u3i, u4i, u5i分别为qi决策时考虑设备状态后得到的次品成本、零件成本、停机成本、人工成本和节省投资成本。因为节省投资成本对维修是有利的, 减少了维修总成本, 所以有qi决策时维修总成本Ui为:

根据最小维修成本的原则, 得到基于贝叶斯理论维修决策模型的最优决策qmax为:

若U1

2 加工中心刀具维修时机决策

刀具是加工中心的重要部件, 刀具状态的好坏直接影响着工件的加工质量。因此, 刀具的合理更换是生产质量和经济性的重要保证。已知厂家提供的刀具性能曲线如图2所示, 刀具平均寿命为加工工件950件, 刀具已经加工工件数为800件, 在刀具加工的产品中, 抽取300件产品, 有1件不合格, 其余合格。

工厂历史运行数据表明, 刀具状态正常时产品合格率为99.9%, 刀具状态不正常时产品合格率为99%。厂家规定:产品抽样不合格率不得高于1%, 刀具加工工件数不得超过1200件。以一天为时间段, 刀具状态为正常、不正常时产生的次品数分别为1件和5件, 一件次品损失500元, 停机时间一小时损失30000元, 因为刀具原因而停机后维修时间一般为0.5小时, 即每次停机损失为15000元, 刀具寿命延长一天节省的投资成本为1000元。刀具维修过程中, 维修类型分为预防性维修和故障维修。当设备状态正常时, 实施预防性维修;当设备状态不正常时, 实施故障维修。当前时刻 (t1时刻) 和下一时刻 (t2时刻) 的维修成本如表1、表2所示。

在图2中, 横坐标为刀具已加工工件数, 纵坐标为刀具失效率。由刀具加工工件数为800, 可知其先验失效率为0.007, 即刀具先验概率分布为:

由已知条件可知, 当设备状态为正常或不正常时, 产品合格率分别为:

将上述先验概率与条件概率的数据带入公式 (6) 和公式 (7) , 得到此时刀具状态的后验概率为:

通过图2和Pt1’ (A2) , 得到修正后的当量工件数为680件, 按每天加工100件工件, 往后推一天得到第二天t2时刻加工工件数为780, 由图2可知t2时刻刀具状态分布为:

得到t1时刻和t2时刻概率矩阵分别为:

因t1时刻和t2时刻刀具均未超出平均寿命, 其节省投资成本分别为:

采用决策q1即立即维修时, 维修类型为预防性维修, 记此时维修成本矩阵为F1;采用决策q2即暂不维修时, 维修类型为预防性维修或故障维修, 记此时维修成本矩阵为F2, 有:

得到:

因为U1>U2, 所以最优决策为q2:暂不维修。

曲线中t2时刻异常概率Pt2 (A2) 可以作为t2时刻的先验概率, 在t2时刻时, 同样可以采用抽样事件增加信息量, 得到t2时刻的后验概率, 不断修正刀具所处状态, 使其更真实地反映劣化状态, 并在此基础上得到t2时刻的最优维修决策, 如此反复, 依次得到下一时刻点的最优维修决策。

3 结束语

基于贝叶斯的防病患欺诈模型研究 第5篇

目前社会上存在着一些不法分子在履行参保缴费义务上虚构事实, 隐瞒真相, 以骗取医保权益, 或在医疗行为上虚构事实, 隐瞒真相, 以骗取医保基金或医保待遇。这类欺诈行为在各个国家普遍存在。美国联邦政府多次表示, 打击医疗保险诈骗案, 是医疗保险改革议程的重要组成部分。这些违法行为已经给我们国家带来了极大的经济损失, 严重影响我国医疗行业的进一步发展。我国虽还没有完整的社会医疗保险欺诈统计数据, 但防病患欺诈已经成为引起学者重视的社会问题。

就目前业界人士认为, 防范欺诈的手段有两个, 一是政策调控, 采用行政手段, 依靠法律和行业互助来限制这种不良行为;二是利用技术手段, 防范于未然。两者相比, 利用技术手段是目前最佳的防范欺诈手段。实践证明较为有效的有NCR公司开发的Teradata数据仓库。Taniguchi等学者也提出了三种欺诈侦测方法。国内对这种防病患欺诈主要采用的还是行政手段。夏宏等认为要加强法律法规建设, 完善医疗保险制度等措施。李连友等梳理了相关制度, 指出应该做一些实证研究。杨鹤标等提出了基于概率分布的异常检测模型, 但该模型只能应用于已结束治疗且有医疗欺诈嫌疑的情况。

综上可知, 国内对防病患欺诈问题的研究处于起步阶段, 需要一种技术为作为重要手段来解决目前存在的病患欺诈问题。与此同时, 贝叶斯分类以其简单, 高效与准确等特点, 在一些实际的事例里得到了广泛的研究与应用。本文尝试运用贝叶斯的相关理论与方法建立防病患欺诈模型, 对未知类别属性的患者进行预测, 识别有欺诈趋向的病患。为相关医疗部门有针对性地采取处理措施, 防范病患欺诈行为的发生, 减少欺诈行为带来的经济损失提供理论支持。

1 模型构建

客户的数据主要包括两种:静态数据和动态数据。静态数据指的是通常不会改变的数据, 如客户的基本信息等。动态数据指的是经常或定期改变的数据信息, 如每月消费金额, 交费记录等。由于社会对人的隐私权的尊重, 现在患者的手续已趋于简单化, 一般只需提供证件号码和地址即可办理, 所以现在相关部门所拥有的客户基本信息已经很简单, 很难从中发现对欺诈分析有价值的信息。而动态数据反映的是具体行为, 往往可能隐藏一些行为特征, 所以应从动态数据中进行挖掘, 尝试从中发现欺诈行为的一些规律和特征。通过对欺诈行为的具体分析, 本文得出贝叶斯分类模型所需要的训练样本集的各属性 (如表1) 。

模型建立如下:

(1) 每个数据样本用一个n维特征向量X={x1, x2, …xn}表示, 分别描述对n个属性A1, A2, …, An样本的n个度量, 即为病患设定的基本属性例如年龄、出生, 消费金额等。

(2) 假定有m个类C1, C2, …Cm。给定一个未知的数据样本X (即没有类标号) , 分类法将预测X属于具有最高后验概率 (条件X下) 的类。即贝叶斯分类将未知的样本分配给类Ci, 当且仅当

则, 最大化最大的类Ci称为最大后验假定。可得

(3) 由于P (X) 对于所有类为常数, 只需要P (X|Ci) P (Ci) 最大即可。如果类的先验概率未知, 则通常假定这些类是等概率的, 即P (C1) =P (C2) =…=P (Cm) 。并据此只对最大化。否则, 最大化P (X|Ci) P (Ci) 。类的先验概率可以用计算, 其中si是类Ci中的训练样本数, 而s是训练样本总数。

(4) 给定具有许多属性的数据集, 计算的开销可能非常大。为降低计算的开销, 在下面的模型中们做了类条件独立的假定。给定样本的类标号, 假定属性值相互条件独立, 即在属性间, 不存在依赖关系。这样,

概率可以由训练样本估值, 其中Ak是分类属性, , 其中sik是在属性Ak上具有值Xk的类Ci的样本数, 而si是Ci中的训练样本数。

(5) 为对未知样本X分类, 对每个类Ci, 计算。样本X被指派到类Ci, 当且仅当

2 实验研究

在射阳中医院相关工作人员帮助下, 获得了大约2000条病患的数据。

2.1 数据预处理

首先把获得的数据通过数据清理数据转换形成满足属性表1所示的各类样本数据集, 为实验做好准备。把样本数据集分为两个部分:一部分用来训练模型, 其他数据用于对模型进行修正和检验。

2.2 实验过程

参照了相关资料, 贝叶斯分类对于多属性的数据集计算量会比较大。为降低计算复杂度, 我们做了独立性假设, 同时选取15个训练样本 (见表2) 。通过分析训练数据, 得出Age的三个离散值分别为<20, 20~50, >50;Jy (Freq) 的三个离散值分别为low, medium, high;Yh (Ratio) 的三个离散值分别为<20, 20~40, >40;Bh (Grade) 的三个离散值分别为fair, excellent, bad。

设C1对应Is (Fraud) =“yes”, C2对应Is (Fraud) =“no”。待分类未知样本为:

可知, P (X) 为常量, 需要计算P (X|Ci) P (Ci) 。然后比较值, 取最大的Ci即为样本的类标识属性。

首先计算先验概率P (Ci) , i=1, 2。

然后计算P (X|Ci) , i=1, 2。为了计算它, 需要计算以下条件概率:

显然P (X|C1) P (C1) >P (X|C2) P (C2) , 所以预测得到该样本的类别属性是Is_Fraud="yes"。

2.3 程序实现

因C++面向对象的优点, 用其编写了子程序BaysClass来实现上述模型的功能, 工作流程见图1。具体效果如图2。

数组变量p1用来存储测试样本集中如果类标识属性“Is_Fraud”=“yes”时不同字段取得不同值时的条件概率;数组变量p2用来存储测试样本集中如果类标识属性“Is_Fraud”=“no”时不同字段取得不同值时的条件概率;数组变量q1用来存储测试样本集中如果类标识属性“Is_Fraud”=“yes”时不同字段取得不同值时的条件概率值的积;数组变量q2用来存储测试样本集中如果类标识属性“Is_Fraud”=“no”时不同字段取得不同值时的条件概率值的积。

2.4 性能测试

准确率是用来衡量某个分类模型对整个数据集分类的准确程度。在病患实际应用中, 相比有欺诈趋向的病患和正常病患, 我们更关心有欺诈趋向的病患, 从这个方面来讲, 命中率更能衡量此类模型的优劣。其定义分别说明如下:

准确率=预测正确的记录数/全部记录数

命中率=被准确预测为某个类别的记录数/预测出为此类别的记录数

由于k-折交叉确认方法的优点, 本文选择10-折交叉法对模型进行评估 (k取10具有相对低的偏置和方差[10]) 。

共取1000个数据作为测试数据, 其中欺诈病患共计256个, 正常病患744个。256/744=0.34。把这些数据分为10个大小不等且互不相交的子集:S1, S2, …., S10。其中每个子集的欺诈病患/正常病患都接近0.43。测试的结果见表3, 表4。

从测试结果看, 本文建立的防病患模型的准确率和对有欺诈行为趋向病患的命中率都是令人满意的。

3 结束语

本文建立了基于贝叶斯的防病患欺诈模型, 通过程序进行了实验, 并对其性能进行评估。需要说明的是, 经模型分析出患者有异常行为不一定说明该患者就发生了欺诈行为, 正常患者有时也会因一些特殊的原因或突发事件而表现出异常行为。故模型测试结果仅作为相关医药部门进行防病患欺诈的辅助手段, 为其有针对性的进行跟踪, 节省社会资源提供帮助。

本模型在训练样本集属性的选择上主要是分析了个人病患的就医行为, 下一步将会以病患种类作为分析对象, 并将现有程序延伸成为一个系统继续完善。

摘要:为避免病患欺诈给我国相关部门带来的极大经济损失, 甚至会危害到我国医疗的进一步发展, 采用贝叶斯分类对防病患欺诈模型进行了研究, 并对其性能进行测试。测试结果表明所建模型性能良好。研究成果可为相关部门防范病患欺诈提供理论支持。

关键词:贝叶斯,病患,欺诈,异常检测,社会稳定

参考文献

[1]Taniguchi M, Haft M, Hollmen J, et al.Fraud detection in communication networks using neural and probabilistic methods.In Proceedings of The 1998IEEE International Conference in Acoustics[C]//Speech and Signal Processing, 1998:1241-1244.

[2]夏宏, 汪凯, 张守春.医疗保险中的欺诈与反欺诈[J].现代预防医学, 2007, 34 (20) :3907-3908.

[3]Li Lian-you, Shen Chun-yu.On overview of researches on fraud in China’s social health insurance system[J].Journal of Xiangtan University, 2009, (06) :71-75.

[4]杨鹤标, 史晓丽.基于概率分布的临床行为检测模型[J].计算机工程与设计, 2011, 32 (8) :2857-3860.

[5]王珏, 杨鹤标.序列挖掘在临床行为模式发现中的应用研究[D].江苏大学, 2008.

[6]陈朝大, 梁柱勋, 郑士基.一种利用关联规则的改进朴素贝叶斯分类算法[J].计算机系统应用, 2010, 19 (11) :106-109.

[7]廖阳.基于拓展贝叶斯决策模型的云计算类企业财务风险实证[J].统计与决策, 2013 (24) :179-182.

[8]郭刚正.贝叶斯方法在决策分析中的应用[J].统计与决策, 2013 (16) :67-69.

[9]王姝音, 印桂生, 湛浩旻等.网构软件系统中实体协作的贝叶斯博弈分析[J].计算机工程, 2014, 40 (2) :52-57.

基于朴素贝叶斯的局部放电诊断模型 第6篇

局部放电[1,2]是指因为电场不均匀,高压设备绝缘的局部区域发生的发电。由于局部放电具有重复性,虽然短时间内不会影响设备的正常运行但时间长了会形成电树枝,最终导致绝缘击穿。针对局部放电信号的特征提取和模式识别问题,国内外许多学者进行了深入研究。文献[3]在全封闭气体绝缘开关设备上采集放电指纹数据,并提取了12种特征,利用复合神经网络来提高局部放电识别率;文献[4]提出利用主成分分析的方法对变压器局部放电原始特征参数进行降维,并提取出新的主成分因子,通过概率神经网络分类器对降维前和降维后的特征向量进行训练和识别;文献[5]利用超声波法提取局部放电信号,得到局放分布谱图,获得局部特征参数,通过支持向量机分类算法对典型缺陷信号进行模式识别;文献[6]使用自适应最优核(AOK)的时间-频率表示法获取局部放电的UHF信号。然后,基于时间-频率矩阵由非负矩阵分解辅助主成分分析(NMF-PCA),最后,所提取的特征被用作模糊k近邻(Fk NN)分类器的输入矢量,以获得对PD识别结果。

这些研究针对局放诊断问题提出了很好的思路和方法。但是大都局限于诊断算法的研究,未涉及应用领域中多阶段整体建模问题。在实际应用中,局放诊断主要涉及四个阶段:放电信号接收及处理,谱图产生,特征提取和算法分类。它们构成了一个密切关联的整体,不可分割。因此,本文提出了一种基于朴素贝叶斯的局部放电诊断模型。该模型利用基于电磁波的UHF检测法提取局部放电信号,产生局部放电谱图,基于谱图进行特征提取,最终通过朴素贝叶斯分类算法进行模式识别,给出故障诊断结果。实测表明,作为某变压器监测产品的插件,本模型是可行的和有效的。

1局部放电诊断模型

局部放电诊断模型如图1所示。该模型包括四个部分:信号的接收及处理、谱图产生、特征提取、朴素贝叶斯分类。流程是:从开关设备上接收局部放电信号并进行去噪处理,依次产生PRPS/PRPD/N-P/Q-P谱图,基于以上谱图进行特征提取,并采用朴素贝叶斯算法进行故障诊断。

图1 基于朴素贝叶斯的局部放电诊断模型

2信号的接收及处理

局部放电信号经UHF传感器(天线)和高频传输电缆,送到信号调理单元,经高频滤波、放大、检波,再通过多路信号传输电缆,由高速数据采集单元进行数据采集和抗干扰处理。接收及处理流程如图2所示。

图2 信号接收和处理过程图

1)UHF天线传感器:采集局部放电的超高频信号,提取能够反映局部放电信息的特征量,如放电量、放电次数、放电相位等。天线传感器是局部放电信号接收和处理的关键设备,要求驻波比小、方向性系数高。

2)信号调理单元:采用带通滤波及选频放大技术和包络检波技术,实现了对信号的窄带化处理,有效抑制噪声,滤除UHF传感器输出信号的超高频成分,仅保留信号的幅值和相位信息,从而降低数据采集系统的要求和减少数据量的处理。

3)数据采集单元:数据采集单元要考虑采样率、模拟带宽、单双通道、单通道最大存储能力等。采集卡选用杭州西湖电子研究所生产设计的UHF采集模块,采样率为20M,经过检波、滤波抽点后采用TCP/IP通信协议与装置CPU进行信息交互。采集卡完成所有的采集和抗干扰处理,抽点后的数据以每周波256个点,连续采集1秒,同时4个通道的采样数据以TCP/IP传送到主CPU,每秒钟的数据流量为:256×4×50(周波)×4(通道)=0.19 MByte。

4)信号处理:对采集到的信号进行抗干扰处理,滤除干扰信号,然后对局放信号进行放电特征量提取、放电模式识别。最后通过IEC 61850规约把处理后的放电量、放电类型等上送至综合监测单元。

3谱图产生

采用IEC61850通信协议,将局部放电信息,包括最大放电量及平均放电量、放电次数、放电相位、放电类型上送,单位时间长度选定为1 s(50周波),生成局部放电的工频周期波形图、二维谱图(φ~q图和φ~n图)和三维谱图(φ~q~n图)。模型中图谱产生的方法如下:

1)采用二维数组存储处理后的信号,该数组的三个列向量分别代表相位区间、幅值区间、次数;

2)由二维数组生成三维PRPS谱图,数组的三个列向量分别对应三维图的XYZ轴;

3)由PRPS谱图生成PRPD谱图,其方法为:定义一个三维数组存放PRPS数据,PRPS[i][j][k]。k代表放电相位,3.6度间隔,取值范围为0~99;j代表放电强度,按照d B值或者百分比处理,取值范围0~99;i代表放电周波序号,取值范围为1~50。计算方法参照式(1)。

4)累计PRPD的j坐标值得N-P谱图,参照式(2):

5)统计PRPD的k坐标值最大值得Q-P谱图,参照式(3):

4特征提取

模型中有选择性的提取了谱图的25个主要特征。其中前11个来自PRPD谱图,后14个来自N-P谱图和Q-P谱图。特征信息见表1-表3所示。

表1 基于PRPD谱图提取的特征

表2 基于N-P谱图提取的特征

表3 基于Q-P谱图提取的特征

(1)第I象限的放电集中度:0~90度相位域范围放电脉冲的比率,计算公式为式(4)。

(2)第I和II象限不对称度:先计算II象限即90~180度相位域范围放电的比率,再计算不对称度,即两个象限集中度的差值。计算公式为式(5)、式(6)。

(3)负半周放电次数均值,参照式(7)。

(4)负半周放电次数方差,参照式(8)。

(5)负半周放电总次数峰度,参照式(9)。

(6)负半周放电总次数偏度,参照式(10)。

(7)相位区域平均值:每个相位区间的脉冲数与相位值的乘积累加和与脉冲总数的比值,参照式(11)。

(8)正半周放电次数的峰度和偏度参照负半周放电次数的峰度和偏度的计算公式。放电频度取对数,参照式(12)、式(13)。

(9)第III象限的放电集中度:180~270度相位域范围放电的比率,参照式(14)。放电强度平均值,参照式(15)。

Qmax[k]为最大的放电强度。

(10)负半周放电强度峰度,参照式(16)-式(18)。

(11)负半周放电强度偏度,参照式(19)。

正半周放电强度峰度和偏度参照负半周放电强度峰度和偏度的计算公式。

5朴素贝叶斯算法

朴素贝叶斯算法的主要思想是:将事件的先验概率和后验概率联系起来,利用先验信息和样本数据确定事件的后验概率。为了简化分类运算,朴素贝叶斯分类器在估计类条件概率时假设属性之间条件独立[7]

给定一个实例数据集E,E={X1,…,Xn,C}。其中X1,X2,…,Xn,是属性变量,C是类型变量,其取值为{c1,c2,…,cm},Xi的取值为xi。实例Ii={x1,x2,…,xn}属于cj的概率由贝叶斯表示为:

其中类cj的先验概率是P(cj),类cj的条件概率是P(x1,x2,…,xn|cj),类cj的后验概率是P(cj|x1,x2,…,xn)。朴素贝叶斯选择后验概率最大的类cj为该实例Ii的类标签。

从训练数据估计后验概率时有一个问题:如果有一个属性的类条件概率为0,则整个类的后验概率就为0。朴素贝叶斯分类器无法分类这样的记录。为了解决这个问题,使用m估计方法来估计条件概率,即:

其中,n为类yj中的实例总数,nc是类yj的训练样例中取值xi的样例数,m是称为等价样本大小的参数,p是用户指定的参数[6]

在本模型中考虑到放电数据的特点,分别使用两种方法估计连续属性的类条件概率:(1)离散化每一个连续的属性,用相应的离散区间替换连续属性值。典型的无监督离散化方法为等宽离散化方法和等频离散化方法。(2)高斯分布表示连续属性的类条件概率分布,均值μ和方差σ2是该分布的两个参数。对每个类yi,属性Xi的类条件概率为:

等宽离散化算法和等频离散化算法是两类典型的无监督离散化方法。如算法1、算法2所示。等宽离散化方法是将属性的值域划分成具有相同宽度的区间[6]。等频离散化方法是试图将相同数量的对象放进每个区间[8]

算法1等宽离散化算法

要求:数据集S,实例数n,属性个数m,类型个数k,离散区间数L

算法2等频离散化算法

要求:数据集S,实例数n,属性个数m,类型个数k,,要分的份数a

6实验

6.1实验数据集

实验数据是来自现场的63例放电数据,包括11种放电类型:分别为尖刺放电,绝缘子表面放电,均匀噪声,手机干扰,随机干扰,悬浮放电,沿面放电,噪声,噪声信号,金属颗粒和自由金属颗粒。为了保证实验的合理性,采用十次十折交叉法来求取诊断正确率的总平均值作为平均正确率。

6.2实验分析

分别使用两种估计连续属性的类条件概率的方法做实验,以便得到最好的计算连续属性的类条件概率的方法。

表4展示了等宽离散化并使用m估计的实验结果,表5展示了等频离散化并使用m估计的实验结果,表6展示了使用m估计的等宽离散化方法最优份数和等频离散化方法的最优份数。表7展示了两种计算连续属性的类条件概率的方法的结果,从表7中可以看出第一种方法比第二种方法好,并且第一种方法中等宽离散化比等频离散化的分类正确率高,高出2.5%。

表4 等宽离散化的实验结果(m估计)

表5 等频离散化的实验结果(m估计)

表6 最优份数

表7 最高正确率对比

6.3实验结论

由于贝叶斯分类估计连续属性的类条件概率的方法对局部放电诊断有显著的影响,本文详细研究了两种估计连续属性的类条件概率的方法,进而方便模型的建立。实验表明第一种方法优于第二种方法,并且第一种方法中的等宽离散化优于等频离散化。

7结语

贝叶斯模型平均方法 第7篇

得益于SDN(软件定义网络)技术的飞速发展,OpenFlow逐渐成为SDN的主流技术之一[1,2]。OpenFlow定义的网络架构包括一个OpenFlow控制器和众多OpenFlow交换机,在控制器和交换机上运行OpenFlow协议,彼此之间经OpenFlow定义的安全通道进行交互[2]。

随着OpenFlow技术的发展,其在光网络中的应用得到深入研究[3,4]。SDON(软件定义光网络)已经成为未来光网络发展的新趋势和重要方向。有别于传统的光网络,SDON将传输面和控制面分离,通过在逻辑上集中控制面,极大地加强了网络控制的动态灵活性[4,5]。为了适应光网络波长交换的特点,需要对OpenFlow协议进行相应的改变和拓展,通过控制器和光交换设备之间的交互,对业务连接的操作过程 进行控制[5,6]。基于OpenFlow的SDON具备网络可编程能力,极大地提高了光网络对业务的动态支持能力。

随着SDON规模的扩大,巨大的网络数据流量将会对OpenFlow控制器造成极大的负担。但网络对庞大的数据流量的预测能够使网络更为快速主动地预留出控制操作的提前量,因此利用短期的业务流量特性来预测较为长期的流量显得日益重要。

在流量预测方面,以往的研究方法有回归模型、时间序列算法和神经网络算法。神经网络算法具有强大的逼近非线性映射能力,特别适合对存在非线性和时变性的复杂系统时间序列进行建模和预测[7,8]。但传统的神经网络,比如BP(前反馈)神经网络算法,在实际运用中存在着数学分析困难、学习算法耗时和计算量大的问题。

为了进一步增强SDON对业务的主动支持能力,本文提出一种基于BM-TP(贝叶斯模型的业务流量预测)机制。该机制充分利用贝叶斯模型对SDON的业务流量进行长期预测,在发挥SDON的技术优势的同时也提高了对大业务量的主动支持能力。

1基于OpenFlow的SDON

基于OpenFlow的SDON采用数据平面与控制平面分离的架构,即OpenFlow光交换设备根据流表对业务进行连接的建立、拆除和控制等操作,而路由等功能集中到OpenFlow控制器中实现[5]。此外,在OpenFlow的扩展中还定义了光交换设备与控制器之间消息交互的协议[4,7]。协议的内容包括业务连接ID、光路径、流表修改和特性参数统计等。

目前的研究主要采用在光交换设备中引入协议转换模块的方式,将OpenFlow指令转换成对光交换设备的控制信号[4,6]。基于OpenFlow的SDON架构如图1所示。图中“节点”指光交换设备节点,这些节点与OpenFlow控制器之间通过扩展的OpenFlow协议直接进行交互。

当OpenFlow光交换设备接收到的业务连接请求在流表中没有找到匹配项时,则上报给OpenFlow控制器进行处理。控制器判断是应该丢弃该数据包还是应该增加新的流表,光交换设备根据控制器下达的指令进行光路的建立等操作。

2基于贝叶斯模型的流量预测机制

流量预测是指网络能够在下一个业务流到来之前,充分利用已知的业务特性的关键参数进行趋势分析,通过建立相应的数学模型实现业务流的预测。

2.1贝叶斯模型原理

贝叶斯模型主要是通过某事件的先验概率,利用贝叶斯公式计算其后验概率,即该事件属于某一类的概率,选择具有最大后验概率的类作为该事件所属的类。贝叶斯模型可用网络表示为有向无环图,由节点和节点之间的有向边构成。其中,节点表示待分类的随机变量,有向边表示节点间相互的条件概率关系。贝叶斯网络的结构及各节点的条件概率定义了各个变量之间的概率关系。

如果给定的某个数据参数集合V (V1,V2,…,Vn)是离散变量的有限集,其中V1,V2,…,Vn是属性变量,则节点S与变量间的相对关系必须满足以下条件:p(v1,v2,…,vn)=∏2p(vi|pai),式中,pai为Vi的父节点,则S与P所构成的贝叶斯模型为

2.2基于贝叶斯模型的流量预测

本文提出了一种BM-TP机制,通过建立贝叶斯模型并计算其联合概率分布,最终实现对业务流21量的预测。BM-TP机制可分为以下三个部分:业务特征提取、贝叶斯训练和贝叶斯决策。贝叶斯模型的先验概率需要先用一组训练数据获得。将业务流量的特征集输入训练后的贝叶斯网络,通过计算后验概率获得未来业务流量大小的概率,其中概率最大者为所预测的业务流量。为了进一步提高预测精度,避免联合分布概率为零的情况,本文引入下式进行LaplaceEstimator修正:

BM-TP流程图如图2所示。

2.3机制的实现

BM-TP机制通过在OpenFlow控制器中引入流量预测模块来实现。该模块的功能在于存储业务量的历史记录,并将历史记录与新到达的业务连接请求数相结合,根据贝叶斯模型进行流量预测。本文所提出的BM-TP机制实现步骤描述如下:

(1)提取光交换设备节点上报的业务连接请求的特征参数;

(2)如果业务连接建立成功,则更新流表,并形成业务连接的特征集,存入历史记录;

(3)将历史记录中的所有业务连接的特征集作为训练样本进行贝叶斯训练;

(4)将新到达的业务连接请求通过已经充分训练的贝叶斯模型计算出预测的业务流量;

(5)根据公式(1)对预测结果进行修正。

3预测结果与分析

为了验证所提出的机制,本文采用NS2(网络仿真器第二版)构建了一个SDON仿真平台。采用NSFNET(美国国家科学基金网)作为仿真网络拓扑,其中包含一个OpenFlow控制器、14个OpenFlow光交换设备以及21条双向光纤链路。

在仿真过程中,采用基于C++的客户端模拟业务生成4000个业务数据流,分为10组并分别反复进行20次预测。其中1组业务数据流作为预测的样本,剩余9组则作为贝叶斯训练的数据集。通过与实际的流量进行对比,将BM-TP和BP算法进行比较并分析比较结果。

图3所示为预测精度与训练次数的关系。由图可见随着训练次数的增加,流量预测精度也随之提高;经过充分训练的贝叶斯模型能够获得较为稳定、准确的流量预测。

图4和图5分别为BM-TP和BP算法的预测结果。通过对比可知,BM-TP能够获得高于95%的准确率,而BP算法的准确率为90.4%。可见,BM-TP能够获得更高的准确率,同时避免了BP算法收敛时间慢、计算复杂等问题。

4结束语

上一篇:种植牙修复术下一篇:基础救援

全站热搜