安全度模型范文

2024-06-21

安全度模型范文(精选7篇)

安全度模型 第1篇

关键词:信息系统,攻击,安全度,模型

1、引言

信息系统的安全性本身具有定性和定量两层含义, 在强调其定量含义时, 用安全度来替代安全性, 在实际应用中, 对于安全性这一重要概念, 如果只是做定性的评估是远远不够的, 必须将其进行量化, 信息系统安全量化评估得到了越来越广泛的关注与应用。

要为信息系统进行安全量化评估必须考虑到信息系统与操作环境交互时相互影响而引入的随机性与不确定性。本文对信息系统的安全性指标进行量化, 提出一个关于信息系统的安全定量评估模型。应用于信息系统安全评估方法中, 可以为安全保障分析和安全决策中备选安全技术的确定提供支持。

2、基于概率统计的安全度模型分析

我们可以用概率分布来描述信息系统安全性的随机性与动态性。信息系统安全性分析中至少存在两个随机源, 一个是人为错误, 系统工程师和程序员在分析需求、设计和生产阶段会因为需求和规范的解释错误而带来缺陷, 因此安全漏洞的引入变得和人的行为一样复杂和不可预计。另一个, 信息系统安全性的表现取决于信息系统运行的操作环境, 也就是说, 在某一时刻的状态和输入条件, 决定了信息系统的潜在漏洞是否会被激活, 而成为一个故障引起系统安全的失效。信息系统的安全失效在一小段的时间范围内看来是随机发生的, 但在信息系统长期的正常运行过程中却可能具有比较稳定的失效概率。

对信息系统的安全性进行评估, 就要考察影响信息系统安全的攻击行为。许多入侵者的攻击行为都是基于对攻击技巧的掌握, 所以通过对信息系统和攻击进行深入的分析, 有可能建立一个数据库用于收集各种不同的攻击规则, 其中每种攻击方式分别对应各自的攻击概率φ以及攻击导致的不安全率λ。攻击概率"φ"表示一种攻击方式可能会被入侵者采用的统计概率不安全率"λ"表示一种攻击方式用于攻击时导致信息系统不安全被攻破的概率。

入侵者在实现成功攻击的过程中, 安全度与时间"t"是存在一定比例关系的, 原因如下:

1) 一个信息系统处于被攻击状态的时间越长, 被攻破的概率越大, 安全度随时间"t"降低。

2) 一个入侵者的攻击在信息系统中被检测到或被中断的概率, 与他在信息系统中处于攻击状态的时间长度"t"成正比增长。

3) 一种攻击方法获得成功所需时间"t"越长, 入侵者选择这种方法进行攻击的概率越小, 则信息系统安全受到该种攻击方法的威胁越小。

安全度模型是信息系统安全性量化评估的基础, 安全度总体上随着运行时间"t"呈倒抛物线形变化。我们假设安全度S (t) 表示从初始时间 (T=0) 到某一时刻 (T=t) , 信息系统保持安全状态的概率。考虑信息系统初始时刻安全度为1, 最后将趋于一个常数τ:即有:

一个运行中的信息系统, 可能会在任何时刻变得不安全 (被攻破) , 所以发生安全失效的时间是一个随机变量, 记为ξ。信息系统失效的概率用F (t) 表示, 则有:

基于攻击者的行为, 一个典型的被攻击的信息系统所经历的安全漏洞被攻破的过程, 可以大致划分为训练攻击、正常攻击、创新攻击三个阶段, 如图1所示。

(0) =1, 以上式, 可得

与推导出的公式相一致的是, 统计数字也表明了一个被攻击信息系统在正常攻击阶段, 连续被攻破的时间间隔是近似服从指数分布的。在此本文假定信息系统每次被攻破事件的发生都是相互独立的, 这就意味着一些用于传统可靠性分析的方法可以被同样用来对信息系统的安全性进行定量评估。

3、基于概率统计的安全度模型验证

下面针对一个DDOS预警系统进行分析。该系统利用进程执行踪迹来监测攻击, 实现了实时日志处理及安全预警, 经过多次对局域网服务器进行模拟攻击测试表明, 对分布式拒绝服务攻击有较为理想的预警防范作用。其安全体系结构抽象如图2。

各个部件有各自的不安全率λi, 下表给出了DDOS预警系统的安全参数:

各项安全参数指标

可推导出各个安全部件的安全度分别为:

于是该预警系统一的安全度为:

图3给出了预警系统DDOS的安全度S (t) 随时间t变化的情况。其中, 时间t由横坐标标识, 安全度S (t) 由纵坐标标识, 安全度的变化情况如曲线所示, 逐渐逼近于τ=0.828, 即预警系统DDOS的安全度可以近似为S (∞) =0.828。

由图3可以得出, 随着时间t的增长, 安全度逐渐下降, 最终将趋近于某个常数τ, 验证了上述体系的合理性与有效性。

4、结论

对信息系统进行安全分析和安全策略的制定必须以科学的安全评估方法为基础。我们可以参考本文中提出的信息系统安全的量化评估方法, 通过对评估过程的分析, 评估模型的建立, 提出信息系统安全量化结果, 进行灵敏度分析, 提高系统的稳定性和可靠性。

参考文献

[1].胡勇, 方勇, 肖龙, 李焕洲, 蔡恒.信息系统风险分析的工程方法研究[J].计算机工程.2006年7月, 32 (13) :29-31 (EI源刊)

[2].胡勇, 漆刚, 陈麟, 杨炜.信息系统风险量化评估指标体系[J].四川大学学 (自然科学版) .2006年10月, 43 (5) :1048-1052

[3].王标, 胡勇, 戴宗坤.风险评估要素关系模型的改进[J].四川大学学报 (工科学版) .2005年5月, 37 (3) :110-114 (EI:05269184572)

安全度模型 第2篇

2013年3月19日,中国民航局飞行标准司下发了《连续下降最后进近(CDFA)》咨询通告, 对该技术的运行进行了规范,为航空公司的运用提供了指南。2013年4月27日,民航局提出了 “中国民航决定在非精密进近情况下,全面推广连续下降最 后进近 (continuous descent final approach,CDFA)飞行技术”的总体要求和工作部 署。2014年5月,飞行标准司检查了CDFA技术的开展和普及情况[1]。

CDFA作为1种当前国际较为先进的进近方式,近几年在我国快速普及,众多航空公司纷纷开展了关于CDFA技术的飞行培训工作。同时,航行情报中心累计完成了国内190个机场的CDFA航图修改工作,为该技术的运用扫清了障碍。随着CDFA技术的广泛运用,关于该技术安全性研究显得愈加重要。

因为部分机组成员缺少对CDFA的训练,而且我国部分机场没有支持CDFA的机场航图,因此,机组成员需要自行计算飞机下降率等参数,这些工作步骤在一定程度上增加了机组成员的工作负担,造成了不必要的工作负荷,影响了航班运行的安全裕度。

根据国际民航组织的统计数据表明,在飞机进近过程中,非精密进近和精密进近的事故率比为7∶1,非精密进近引发的事故在机场飞行事故中占有很高的比例。对于传统的非精密进近方法,由于采用梯级下降的剖面,非常容易导致进近的不稳定,所以,当CDFA的方法被美欧等航空先进国家提出后[2],就得到了广泛验证和运用。

1连续下降最后进近(CDFA)

1.1研究现状

首先,CDFA是非精密进近的1种,也是当前被美国和欧盟等航空发达国家极力推崇的1种进近方式。 该技术在 美国下一 代空管运 行系统 (Next Gen)中被称为连续下降进近 (CDA)[3]。 在美国洛杉矶国际机场等地,相关研究人员进行了大量的实验,分别在白天、夜晚和不良天气条件下,研究了航空器的连续下降进近参数。经过了大量的实验验证,其结果表明,在同等情况下,该技术可以为航空公司节省大量燃油,并在一定程度上减少了航空器进近过程中产生的噪声[4]。

藤国梁[5]提到了CDFA对非精密进近安全裕度的影响关系,对CDFA安全性的问题进行了分析。

到2013年底,欧洲100多个机场采取连续下降进近,传统梯级下降进近方式将被取代。为实现此目标,欧洲国际机场协会、欧洲航管中心和国际航空运输协会将联合采取行动计划。该项技术在欧盟统一空域中心被称为连续下降运行(continuous descent operation,CDO),该技术在法国巴黎戴高乐机场已经得到了广泛的运用,该技术可以降低30%的碳排放,并将进近噪声下降3.9~6.5dB[6]。 2014年,荷兰研究人员研发了1种新的连续下降进近安全技术,该理念被命名为时间燃料管理操作(TEMO),TEMO采用优化算法来减少推力和减速板的使用,保证CDFA过程的轨迹精确性和运行的安全稳定性[7]。

目前国内外对CDFA技术研究主要集中在噪音和燃油效率方面,对该技术安全性的研究却较少。从人为因素安全性的角度入手,以机组成员为研究重点,根据机组成员的工作负荷的大小来衡量CDFA操作的安全裕度,分析CDFA的安全性,具有一定的创新性。

1.2CDFA技术与阶级下降方式的区别

非精密进近是1种有方位引导,但却没有垂直引导的进近方式。非精密进近和精密进近最大的区别在于非精密进近缺少垂直引导。连续下降最后进近和阶级下降进近都属于非精密进近的范畴,同时,两者存在着较大的差别。CDFA和阶级下降技术的主要区别如图1所示。

根据相关理论,按照传统的阶级下降方式进近,航空器飞过最后进近定位点(FAF)后,可以马上下降到最低决断高度(MDA),并在航空器快速下降后执行平飞。在平飞的过程中根据相关的机场终端区情况,航空器选择保持一定的下降率完成进近,或者在到达复飞点(MAPT)前执行复飞。 这种方式在国外已经逐渐取消,但是国内的非精密进近仍保留着下 降至MDA后改为平飞的方 法。航空器在到达复飞点之前继续下降着陆,直到建立目视参考,否则执行复飞。

CDFA是1种与稳定进近相关的飞行技术, 在非精密仪表进近程序的最后进近阶段连续下 降,没有平飞,从高于或等于最后进近定位点下降到高于着陆跑道入口大约15m(50ft)的点或者到该机型开始拉平操作的点。CDFA与阶级下降进近的主要区别在于没有平飞。

CDFA技术的另外1个巨大优势在于不需要复杂的设备要求。除去执行非精密进近程序所需要的基本航空器设备外,CDFA不需要添加其他的设备。飞行员从数据库中选定相应的仪表进近程序时,一般会获取航图所公布的下降角度或下滑角度。拥有飞行航迹角(FPA)模式的航空器允许飞行员根据航图所公布的垂直下降梯度或下滑角度输入下滑角的数值。若航空器没有配备此类设备,那么飞行员须自行计算下降率。

在计算下降率和CDFA程序的操作时,对飞行员造成的工作负荷会明显高于飞机的巡航阶段,因此对CDFA过程飞行员工作负荷的研究显得尤为重要。

2CDFA安全裕度评价指标体系的建立

2.1CDFA过程的安全裕度

飞机运行过程中的安全裕度主要指飞行员工作能力和当前飞行任务强度的差值。当飞行员的身体状态和驾驶水平高于飞行驾驶过程中的工作负荷时,飞行员拥有较高的安全裕度,可以保证飞行的安全性。因为疲劳或者其他因素,当飞行员身体状态低于正常水平时,或者工作强度过高时, 安全裕度区间值会降低,飞行员产生人为因素差错的可能性会显著提升,从而影响飞行安全。合理的控制飞行员的安全裕度值,对提高飞机运行安全性和减少人为因素差错具有重要研究意义。 图2为全阶段飞行安全裕度图。

由图2可知,飞机的起飞阶段和进近阶段是飞行员工作负荷强度较大的2个阶段[8]。特别是飞机的进近和着陆阶段,飞行员因为长时间的持续工作,自身的身体状态出现下滑,伴随着高强度的飞行进近任务,安全裕度值随之降低,因此该阶段极易发生人为因素差错而引发事故。

2.2基于CDFA安全影响因素分析的指标体系

对CDFA过程的安全性影响因素进行分析, 在连续下降最后进近阶段,机组成员工作负荷方面可能影响飞行安全裕度的研究因素主要包括以下3个主要方面:常规状态下,连续下降最后进近的工作负荷对安全裕度的研究;非常规情况下,连续下降最后进近的工作负荷对安全裕度的研究; 连续下降最后进近过程中,机组成员配合度对工作负荷影响的安全裕度研究。

常规状态下,连续下降最后进近的工作负荷对安全裕度的研究主要包括以下几个方面:机组成员参照CDFA最后进近定位点的工作负荷;机组成员判断CDFA特定决断高度的工作负荷;机组成员参照CDFA航图下降梯度的工作负荷;机组成员计算CDFA下降率的工作负荷。

非常规状态下,连续下降最后进近的工作负荷对安 全裕度的 研究主要 包括以下 几个方面: CDFA过程中,机组成员确定复飞点的工作负荷; CDFA过程中,机组成员执行复飞过程的工作负荷;CDFA过程中遇特殊情况,需对下降率进行调整时,机组成员的工作负荷;飞行员经过训练,首次执行CDFA过程时的工作负荷;夜间执行CDFA过程时的工作负荷。

影响CDFA过程工作负荷的是1个多因素、 多层次的复杂结构体系。假设机组成员短期能力不变的前提下,安全裕度可以通过飞行员工作负荷的大小进行简单量化,即用工作负荷大小表示安全裕度大小。通过对机组成员执行CDFA过程的工作负荷进行建模分析,可以建立1个关于CDFA过程的工作负荷指标体系,见图3。

在2014年7月份召开的飞行疲劳风险管理研讨会上,向飞行员和航空公司相关工作人员发放了调查问卷。因CDFA技术在国内尚处于推广阶段,所以相关领域专家较少,难以进行多样本评价。因此共发放问卷20份,每份问卷包括10个问题,分别评估了CDFA过程中各阶段工作负荷大小。问卷问题选项包含5档,每一档选项对应的分值如表1所示。专家根据 相应的CDFA工作负荷指标进行打分,根据问卷完成情况,共回收有效问卷16份,其打分结果见表2。

3基于云模型算法的算例

3.1云模型概念

云用期望值(Ex)、熵(En)和超熵(He)来表征其数字特征,其在模型中的具体含义为:

1)Ex代表定性概念的值,表示的是概念在论域的中心值,其隶属度1,即离期望Ex越近,云滴越集中;

2)En用来度性概念的模糊度,是定性概念不确定性的度量,代表了这个定性概念的云滴的离散程度,也是可被接d受云滴的取值范围;

3)He为熵的熵,它用于表征云滴离散的程度,He越大,云滴更趋于离散。

3.2逆向云发生器

逆向云发生器(BCG)是实现从定量值到定性概念的转换模型。它可以将一定数量的精确数据转化为以数字特征 (Ex,En,He)表示的定性概念,其概念图见图4。

其主要的计算方法为,获取大量的真实实验数据,通过逆向云发生器获得相关数据的期望值Ex, En,He,将定量数据转化为定性的概念。其公式为

Matlab软件是一款较为简单实用的仿真模拟软件。在Matlab软件下,分别对二级指标的打分数据进行处理,其在Matlab中逆向云发生器的运行代码如图5所示。

3.3云模型分析

根据专家组打分结果,分别求各指标体系的Ex,En,He,其计算结果,见表3。

根据对整体云模型贡献度的不同,云模型可以分为:骨干元素、基本元素、外围元素和弱外围元素4个区间。见表4。

采用Matlab软件对正常状态下的CDFA过程操作云参数进行模拟分析。因样本数量较小, 利用逆向云发生器生成各项指标的相关云模型图,建立1个基数为5 000的云模型,其云分布见图6。

跟据图6中云模型的相关特性,当飞行员执行正常状态下的CDFA过程时,云模型贡献度区间为[2.515,6.235],其分布基本符合专家的打分结果;熵的值为1.86,超熵的值为0.49,云分布离散情况较小,即正常运行时,飞行员的普遍负荷情况偏小。在正常情形下,飞行员执行CDFA时工作负荷低于自身负荷极限,存在较大的安全裕度。

同理分别根据机组人员配合熟练度对飞行员执行CDFA影响的相关指标参数和执行非正常状态的CDFA过程时的工作负荷参数建立云模型,见图7、图8。

由图7分析可知,云滴数据分布的随机性较大,云模型贡献度区间为[4.76,8.99],其分布基本符合专家的打分结果;;其中熵的值为2.115, 超熵的值为0.76,云分布离散情况较大,即机组人员配合熟练度对飞行员执行CDFA过程的工作负荷影响较大。因离散程度较大,在个别条件下,机组人员在CDFA过程中配合不当所造成的工作负荷可能超过自身负荷极限,其安全裕度值低。

由图8分析可知,当飞行员执行非正常状态下的CDFA过程时,云模型贡献度区间为[3.083,7. 367],基本符合 专家的打 分结果 ;熵的值为2. 142,超熵的值为0.553,云分布离散情况较小。由此分析可得,在执行非正常状态的CDFA过程时飞行员的工作负荷的问题上专家分歧较大。根据云滴的分布情况可以判断,在执行非正常状态的CDFA过程时飞行员的工作负荷较大,略高于正常状态下的工作负荷,安全裕度处于可接受范围之内。

根据美国联邦航空局关于CDFA预计到达时间误差的相关数据[9]可知:4 000组模拟CDFA进近过程的时间误差均值为0.043s,基本符合进近的安全要求,但仍有部分误差数据值较大。因到达时间误差多与下降率有关,根据图9中CDFA预计到达时间的误差分析可知,CDFA过程中下降率的算法是该过程安全性研究的重点。

4结论与建议

1)依照现有CDFA程序,飞行员在正常和非正常2种情况下,其安全裕度满足飞行需要。

2)非正常情况下的安全裕度值略高于正常情况,因此需要制定更加有效的CDFA应急程序手册。

3)机组配合交流出现问题时,会明显提高执行CDFA过程的飞行员工作负荷,因此需要加强机组人员的配合训练。

根据相关结论,对CDFA的安全性推广提出以下2点建议。

1)应继续加强对CDFA航图的修改和优化, 使机组成员执行CDFA过程时更加的方便,有效减少该过程中机组成员的工作负荷,提高进近的安全性。

2)尽量优化CDFA过程中航空器下降率的算法,如设定特定机场和机型的CDFA下降率查询表,减少机组成员的工作负荷,提高进近安全性。

判断CDFA过程安全裕度大小的主要依据为该过程中飞行员的工作负荷大小。在工作负荷的判断过程中,由于采取专家打分的方法,而具有很强的模糊性和随机性,云模型算法很好的实现了数据间定性定量的相互转换,提供更加科学有效的结果。

摘要:随着CDFA技术在我国民航运营中的广泛采用,对该技术的安全性研究显得尤为重要。本研究对CDFA过程中关键操作步骤的安全性进行分析,建立了CDFA安全裕度的评价模型,并运用云模型算法进行CDFA过程的安全性分析。在对国内外相关文献研究分析的基础上,分别对CDFA过程中的常规状态、非常规状态和机组配合交流三方面的安全性进行了分析。根据机组成员工作负荷和安全裕度之间的关联性,建立指标体系评价模型。运用云模型算法,计算各项指标评价结果的云模型参数,并采用Matlab软件生成对应的云模型分布图。研究结果表明:连续进近过程中,机组配合交流问题的云分布介于4.76~8.99之间,明显高于常规和非常规状态下的云分布,因此当机组配合交流出现问题时,飞行员执行该过程的工作负荷会明显提高。

句子相似度计算模型的改进 第3篇

句子语句相似度由词形相似度、语句长度相似度、词序相似度决定的,并在此基础上提出基于此三个特征的新的句子相似度计算模型。其中词形相似度起主要作用,语句长度相似度起次要作用, 词序相似度的作用最小。下面分别加以说明与分析。

1.1 词形相似度

语言(文中以汉字为例)中的一个语句S (Sentence) 是L中的单字和特殊符号(以下简称单字)的一个有序集合。S的长度即是S中单字的个数,此处用Length (S) 表示。SameWC (S1, S2) 表示语句S1, S2Y中相同单字的个数,当一个单字在S1, S2中出现的次数不同时,以出现次数少的计数。语句S1, S2的词形相似度WordSimilar (X, Y) 由下面公式决定:

WordSimilar (X, Y) =SameWC (X, Y) Max (Length (X) , Length (Y) )

容易得出WordSimilar (X, Y) ∈[0, 1],其意义是两个语句相同的字数越多, 两个语句越相似。

例如:S1=正态分布的含义是什么?S2=什么是正态分布?

则WordSimilar (S1, S2) =8/11≈0.73。

1.2 语句长度相似度

Length (S1) ,Length (S2) 分别表示语句S1和语句S2的长度, 即两个语句中的单字的个数。语句长度相似度LenghtSimilar (S1, S2) 由以下公式决定,

容易得出LenghtSimilar (S1, S2) ∈[0, 1],其意义是两个语句的长度越接近, 两个语句越相似。

如上例中Length (S1) =11, Length (S2) =8则LenghtSimilar (S1, S2) ≈0.84。

1.3 词序相似度

OrderOccur (S1, S2) 表示在S1, S2中都出现且都只出现一次的单字的集合。PFirst (S1, S2) 表示OrderOccur (S1, S2) 中的单字在S1中的位置序号构成的向量, PSecond (S1, S2) 表示PFirst (S1, S2) 中的分量按对应单词在S2中的次序排列生成的向量。

例如S1=正态分布的含义是什么?S2=什么是正态分布?

则OrderOccur (S1, S2) ={“正”,“态”,“分”,“布”,“的”,“含”,“义”,“是”“什”,“么”,“?”},S1中单字与序号的对应关系为:

则PFirst (S1, S2) = (0, 2, 3, 7, 8, 9, 10) ,由各分量对应的单词在S2中的顺序为:

PSecond (S1, S2) = (8, 9, 7, 0, 1, 2, 3, 10) ,ReWord (S1, S2) 表示PSecond (S1, S2) 各相邻分量的逆序数。上例中:8<9, 9<7, 7<0, 0<1, 1<2, 2<3, 3<10, 得ReWord (S1, S2) =2。语句S1, S2的词序相似度由公式以下公式决定,

容易得出:OrderSimilar (S1, S2) ∈[0, 1]。

从而可以得到OrderSimilar (S1, S2) =1-2/ (8-1) ≈0.71

这样定义词序相似度的优点是:当一个分句或短语整体发生长距离移动后, 仍与原来的语句很相似。实现快捷, 算法复杂度为O (m) ,其中m=|OrderOccur (S1, S2) |。

由以上三部分可以得到语句相似度公式如下:

Similar (S1, S2) =α*WordSimilar (S1, S2) +β*LenghtSimilar (S1, S2) +γ*OrderSimilar (S1, S2)

其中α, β, γ是常数,且满足α+β+γ=1,显然Similar (S1, S2) ∈[0, 1]。

在语句相似度中我们应该能够理解词形相似度起着主要作用, 语句长度相似度和词序相似度起着次要的作用, 因此α, β, γ取值时应该有α>>β, γ。若取α=0.8, β=0.15, γ=0.05,则上例中的Similar (S1, S2) 为:0.8×0.73+0.15×0.84+0.05×0.71=0.75。由此在检索应用中可设置一个阀值作为相似的一个条件, 当两个语句的相似度高于这个阀值时, 就可以认为这两个语句相似。利用语句相似度可以提高检索的效率和准确性。

2 不同特征加不同权值优化模型

上一小节我们提出基于词型、词序、词长等角度的句子相似度计算改进算法。在本节中我们通过对句子的深入分析,在分别对基于词特征,词义特征的句子相似度计算的基础上,提出一种基于句子相似度平面计算模型。该方法通过对不同的特征加不同的权值来调节各个特征对相似度计算的贡献, 从而使计算结果达到优化。该方法与其他方法相比,描述句子的信息更加全面, 从而使句子相似度计算更加准确。完整的表达一个句子的信息,不但依赖于组成句子的词汇的信息, 而且还包含词汇之间的关系。本节将从句子结构信息和组成句子的词汇信息进行研究, 力求将句子的内部信息尽可能准确的刻画出来,以便更精确的进行句子相似度计算。

2.1 基于关键词特征的句子相似度计算

基于关键词特征的句子相似度计算[1],就是通过利用两个句子中所有有效词 (去掉停用词) 来构成向量空间,然后计算两个句子的向量,利用这两个向量夹角的余弦值作为句子相似度。任给两个句子S1和S2,它们的所有有效词构成的向量空间为V= (X1, X2, …Xn) ,其中Xn为有效词。句子S1的向量V1={ω1, ω2, …, ωn},其中ωn为有效词Xn在句子S1中出现的次数。句子S2的向量V2={ψ1, ψ2, …ψn},其中ψn为有效词Xi在句子S2中出现的次数。则两个句子的相似度为:

这种方法只是简单的利用了词表面信息,对于一些内容相关性较小的语料效果较好。但是这种方法没有考虑词本身的词义信息以及句子的句法信息,因此具有一定的局限性。

2.2 基于词义距离的句子相似度计算

基于词义距离的句子相似度计算[2],需要一定的词义知识资源作为基础。计算句子之间的词义相似度,要确定句子中的词在这个句子中所表达的词义。具体方法如下:

设2个句子M和N, M包含的词为M1、M2、…Mm, N包含的词为N1、N2、Nn,则词Mi (1≤i≤m) 和Ni (1≤j≤n) 之间的相似度可用Similar (Mi, Nj) 表示。这样就得到两个句子中任意2个词的相似度,M和N句子之间的语义相似度Similar (M, N) 为

式中:

ai=max (Similar (Mi, N1) , Similar (Mi, N2) , …, Similar (Mi, Nn) )

bi=max (Similar (Ni, M1) , Similar (Ni, M2) , …, Similar (Ni, Mn) )

在相似度计算时,该种方法充分考虑了句子中每个词的深层信息,使表面不同,深层意义相同的词被挖掘出来,而基于关键词特征的相似度计算就不可识别。但由于词典的不全面和一些未登录词的词义代码的缺失,也给计算带来了误差。

2.3 改进的句子相似度平面计算模型

一个对象可以从线性,平面等角度来描述,对应于空间描述即为一维,二维等。当然维数越高,对象的描述信息越全面准确。如果按照词序列表示句子,是一维线性空间;如果句子中的每个向量按照义元来表达,相当于二维空间。两种形式相比较,从二维的角度描述句子类似于全息照片,可以使句子包含的信息更准确,更全面的表示出来。

由2.1与2.2两部分的分析可知:基于关键词特征的方法体现了句子表面的信息;基于词义距离的相似度方法体现了组成句子的每个词深层的语义信息。我们的目标是,将句子的关键词特征、词义特征,扬长避短,互为补充,共同描述一个句子,从而根据这些特征计算句子和句子之间的相似度,获得较高的准确率。这里就涉及到如何确定这些特征的权重问题,在自然语言处理中,许多问题根据经验值来确定,但我们这里将根据问题建立数学模型,引入线性回归算法进行简单的求解,从而使目标函数在一定范围内达到最优。对于线性回归算法如下:

通过以上论述,我们从两个个侧面对句子所包含的信息进行刻画,即:词特征(KW),词义特征(SE),并将这些特征融合起来进行句子相似度的计算,从而得到一个较准确的相似度计算方法。

由此我们可以得到平面计算模型的句子相似度计算公式如下:

1) 公式一是两个相似度相乘后开平方,

2) 公式二是将两个相似度分别乘系数后相加(其中α+β=1), Similar (S1, S2) =αSimilar1*βSimilar2

其中Similar表示S1和S2两个基于词特征的相似度值,Similar2表示S1和S2两个基于词义特征的相似度值,在此我们的目标函数是寻找一组可能的参数组合{α, β},使得相似度的计算更加准确,其中α+β=1。为了计算α和β,我们首先限定α和β参数取值范围为 (0, 1) ,那么我们怎么样去求α和β的值呢?我们主要通过回归分析(其主要用途是预测,即给出自变量的某些取值,求出相应的点估计和区间估计)来求α和β的值,具体计算过程如下:

假定自变量Similar1和Similar2是普通变量,因变量Similar是随机变量, 并设X=Similar1、Y=Similar2、Z=Similar,对于X, Y的一组值 (X1, Y1) , (X2, Y2) , …, (Xn, Yn) ,做独立实验,得到随机变量相应的观测值Z1, Z2, , …, Zn,这样就得到n对数据, (X1, Y1, Z1) , (X2, Y2, Z2) , (Xn Yn, Zn) , 称为一组容量为n的样本,将n对数据描在xoyz空间上,称为散点图。散点图直观地给出了n个点所呈现的趋势。对于自动评分和人工评分间的关系, 我们将利用二元线性回归,假定对X的每个值,有Z=αX+βY。

其中,α和β是与X, Y无关的常数,称为Z=αX+βY回归方程;α和β为回归系数。我们的目的是用样本来估计α和β的值,得估计值α'和β'。称Z'=α'X+β’Y为经验回归方程。利用该回归方程就可以进行预测。我们用最小二乘法求此回归方程。根据一组样本值 (X1, Y1) , (X2, Y2) , …, (Xn, Yn) ,然后利用最小二乘法[2]α和β的值。

第一个公式适合综合两个“与”关系的因素。而第二个公式更适合于综合两个“或”关系的因素。这里选择后者。因为两个相似度是互补的关系,相对比较独立。即只要其中一个相似度较高我们就认为两个句子相似度很高。而不是一定要两者都很高才认为两个句子的相似度很高。而且选择后者可以通过改变α和β动态调节两个相似度的比重。当然每个相似度都有自己的优点和缺点。只有适当地组合才能充分发挥它们各自优势,从而获得最佳的系统性能。

参考文献

[1]赵妍妍, 秦兵, 刘挺, 等.基于多特征融合的句子相似度计算[D].哈尔滨工业大学计算机学院, 2005.

安全度模型 第4篇

一、我国企业360度测评的现状

1.传统文化冲突。中国传统儒家文化思想根深蒂固,崇尚中庸与稳定。中国员工做事含蓄,不太愿意袒露自己的真实想法,即使评价系统采取匿名制和严格的保密措施,仍难以直接坦白地做出评价。

2.信息系统建设不足和“官本位”思想影响。360度测评对企业中各方面的信息来源的准确性、及时性要求较高,需要企业内部完善的信息网络平台加以支撑。“官本位”思想使大部分组织领导者难以从意识上接受来自下属的监督与批评。

3.无需对考评结果承担责任。实践中由于人事绩效考核的敏感性,为了消除员工顾虑,往往采取匿名的方式,与此同时,员工无需对考评结果负责,考评时具有很大随意性,于是这种不受监督的权利难免会被滥用。

4.忽视考评者培训,未有效利用考评结果。测评前不重视考评者培训工作,统一考评者认识,同时也不关注员工长期职业发展规划,360度考评结果作为员工工资晋级的主要依据和手段,容易导致员工间,尤其是同级之间因为相互利益关系,难以做出客观评价,进而互相猜疑、误解,造成人际关系紧张。

5.考评者自身存在的问题。360度绩效考评主要依托各评估主体的考察视角,因此评估主体的角色特征、参与程度势必影响360度考评方法的应用效果。但目前国内考评者普遍存在获取信息的能力差、容易产生认知偏差、考评动机不存等问题。

二、加权量化模型的建立和处理

针对上述我国企业实施360测评中的相关问题,已有大量相关学术研究和相关解决办法,比如企业组织文化建设、建立科学的评价体系、注意考评过程实施技巧等。上述这些解决方案,往往实现过程复杂、建设周期长,需要企业投入大量的时间、人力和物力。

本文主要从统计分析角度来探寻360度测评的优化办法,通过重点分析同类测评中不同考评者之间评价的宽松或严苛水平差异的现象,从考评者评分和被考评者获得分两个维度,对考评原始数据进行加权量化,建立加权量化模型进行二次处理,简便快捷地使得考评最终输出结果更为科学、有效。

在实践应用中企业为了简化流程,员工素质360度测评一般以企业内设经营组织架构为测评基本单元,本文探讨的加权量化模型是建立在测评基本单元基础之上的。对于360度测评所涉及的每个方位的测评都需建立加权量化模型,下面以同级测评为例进行说明。首先假定测评基本单元中有n名同级互评员工,每位员工需要对其他的(n-1)位员工进行素质测评。则模型建立和量化处理步骤如下:

第一,从素质测评系统上获得员工原始测评分矩阵P,P(i,j)代表员工i对员工j的原始测评分。

第四,对于原始测评分矩阵P中的每一个分值P(i,j),基于加权量化基数进行加权量化,得到加权量化后的测评分矩阵Q。即,Q(i,j)=P(i,j)/H(i)×A。

三、加权量化模型的应用效果分析

下面以示例方式来说明加权量化模型的应用效果。假定某企业某个内设测评单元有7名员工要进行360度素质互评,360原始互评得分如表一所示。

若按照常规360测评统计方法,由于不考虑员工作为考评者的评分水平差距(如表一中H(i)分布从60到100不等)情况,上述测评单元中员工得分及得分排名并未真正体现员工间的素质水平情况。而按照前述步骤,对员工素质原始得分建立加权量化模型进行加权量化后,可以将员工的评分水平按该单元的整体测评素质平均分A(本示例中A=80.9)进行统一,此时员工间的素质得分不存在考评者评分水平差距的情况,能够更为贴切地反映员工间的素质差距情况。本示例测评单元原始测评得分加权量化后的员工素质得分和排名情况请见表二。

对比表二和表一中员工的素质得分和得分排名情况,不难看出加权量化后,该测评单元的7名员工中有6名员工的排名情况发生的变化,调整后员工素质得分的排名情况,也与后续调查验证时的结果排名一致。因此360素质测评中考评者评价尺度的统一与否,对测评结果的有效性、公平性都具有重大的影响。只有在对测评人员的评分平均水平进行综合权衡的基础上,计算出来的素质得分才更为科学有效,更能反映员工的素质水平情况。

四、结语

供热管网系统可靠性模型重要度分析 第5篇

关键词:供热管网,重要度,风险增加因子,风险减小因子

1 基本事件的FV重要度

基本事件是指在试验中可以直接观察到的, 最基本的不能再分解的结果。一般认为, 重要度即一个基本事件或者最小割集对顶上事件发生的贡献, 而我们在对所有包含基本事件最小割集对整个系统稳态不可用度的影响表示时, 常常会利用基本事件的FV重要度来进行。在这个过程中, 基本事件的FV重要度跟系统稳态不可用度的影响成正比, 具体的计算方法为文献[1]中所给出的方法:

2 风险降低因子

在实际应用中, 风险降低因子提出了方法中最为行之有效降低系统风险的方法, 该因子的计算方法是通过提高基本事件的稳态可用度到它的极限进行假设, 即认为它是完全可信赖的, 在金酸系统稳态不可用度时不会存在失效的情况。它的计算方法为:

其中, 风险降低因子为正常计算的系统稳态不可用度, 该因子是将其所要计算的基本事件的稳态不可用度强行设定为零之后, 计算出的系统稳态不可用度, 相对原来基本事件稳态不可用度来说较小。将基本事件循环水泵一为例, 假设降低该基本事件的稳态不可用度为零, 那么系统稳态的不可用度可以降低将近三分之一。

其中其他事件的风险降低因子小于四台水泵的, 因此四台水泵对系统的稳态可用度的贡献度相对于其他事件来说更大。实例管网运行年数较少, 管道及其附属设备的风险降低因子较小。值得注意的是, 随着管网运行年数的增加, 要更加关注管道及其附属设备风险降低因子的增加幅度。

当某个基本事件的状态 (0) 变为故障状态 (1) , 而其他基本事件的状态保持不变的时候, 顶上事件会有四种状态:从0变为1;处于0的状态不会发生变化;处于1的状态不会发生变化;从1变为0等。

3 风险增加因子

风险增加因子是指为了使系统总体的稳态不可用度的一定程度增加, 用来描述增加该基本事件的稳态不可用度的方式方法。风险增加因子的计算方法为:

其中, QTOP为正常计算的系统稳态不可用度;QTOP (Qi=1) 是将所计算的基本事件的稳态不可用度强行设定为1后此时计算出的相对原来较大的系统稳态不可用度, 在这种前提下, 计算出的系统稳态不可用度相对于原来的系统稳态不可用度较大。

4 结束语

对系统稳态不可用度的贡献较大的基本事件为循环水泵1和补水泵1。

让系统更加可靠的有效方法是降低四台水泵的风险。但在实际的工作中仍要综合考虑更换、检修各元部件的难易程度以及经济性指标。而风险降低因子提供了更换、检修元部件的先后顺序, 可以为供热企业确定工作思路和方案提供参考。

通过风险增加因子, 我们可以看出系统存在的潜在风险。就本次分析而言, 材质缺陷、除污器故障、水箱部分的蝶阀破裂三个基本事件是系统存在的潜在风险。

参考文献

[1]宋维.基于故障树技术的中国试验块堆核级循环冷却水系统可靠性分析及局部动态问题研究[D].中国原子能科学研究院, 2007, 8.

[2]郭永基.可靠性工程原理[M].清华大学出版社, 2002, 1.

安全度模型 第6篇

1.1 路由判据问题

(1) WCETT[1]路由判据:考虑了链路质量和intraflow干扰, 反映丢包率和信道带宽。但不足之处在于:

(1) 只考虑一条路径上的相互干扰 (intra-flow interference) , 而在实际应用中, 往往存在多条并行数据流, 其他数据流会对链路产生干扰。WCETT判据只考虑intra-flow干扰, 忽略inter-flow干扰, 所以选择的路由并不是最优的。

(2) WCETT偏向于选择质量好的链路, 容易在质量好的链路上产生拥塞。

(2) i AWARE[2]路由判据:考虑到intra-flow和inteflow的干扰, 但建立在物理干扰模型上, 即在接收节点的SNIR大于某一门限值时, 能够正确收包, 否则只能丢包。

而当前多接口Mesh网络路由算法中, 以LMR[3]的路由算法为优, 但该算法只考虑邻居节点的负载对节点发送数据的影响, 而忽略了干扰域内其他节点产生的干扰。在Mesh网络中, 在两跳范围内都能产生干扰, 所以仅仅以邻节点的负载作为干扰负载的话考虑还不够全面。

2、以最小路径干扰度为判据的路由算法的提出

算法是基于协议干扰模型, 下面先介绍两种典型的干扰模型。

2.1 干扰模型

(1) 协议干扰模型:

定义节点数为N, ni, 1≤i≤N表示节点i, dij表示节点i与j之间的距离。

RT表示节点可传输距离, Rl表示干扰距离, Rl>RT, Rl=QRT。

在使用同一信道的情况下, 满足以下两个条件, 节点i与j可以传输成功:

ⅱ) 任何节点满足dkj≤Rl, 的节点k都不进行数据传输。

(2) 物理干扰模型:

节点ni发送, 节点nj接收, 当接收节点j的信号噪声干扰比满足以下条件时, 传输成功:SNIRij>SNIRthresh

2.2 算法实现

本算法主要在协议干扰模型下进行, 在图1的网络拓扑中, 假设q=2, 即干扰范围是两跳。从图 (a) 可以看出节点1的干扰节点集合是{2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13}, 集合中的节点对节点1在同一信道上传输都会产生干扰。

在此引入一个定义:e= (u, v) 表示节点u, v之间的边, e (i) 表示边e工作在信道i上。Inf (u) 表示对节点u产生干扰的节点集合, Inf (e (i) ) =Inf (u) Ulnf (v) 表示对边e (i) 产生干扰的节点的集合。在图1 (b) 中链路 (12, 7) 的Inf (e (i) ) 是两个线圈内的所有节点。

根据以接口平均缓存包的个数来表示接口的负载[3]。Inf (u) 可以通过以下方式得到:在信道已分配好的情况下, 节点周期性的发送Hello包告知其他节点每个接口上缓存的平均数据包个数及发包速率, Hello包的TTL值设为两跳, 这样节点就能知道在干扰域内工作在相同信道的节点及其负载情况。每条链路也要周期性交换干扰域内节点及负载信息。通过上面的方式每一条链路的Inf (e (i) ) 都可以计算。由此, 得出链路的干扰度公式给出:

Qwi表示w节点工作在信道i的接口平均包缓存个数, 如果节点没有工作在信道i上的接口, 则Qwi=0。r (wi) 表示w节点在接口i上的发送速率。这样每个节点都可以为链路计算出一个干扰度值。假设有一条路径p={e1c1, e2c2, …encn}, 路径干扰度为路径上每条链路的干扰度之和, 则有:

上面定义的干扰度不仅考虑到了干扰域节点的干扰, 而且还考虑到的节点本身已有负载对链路使用的竞争, 这在实际的无线环境中是比较合理的。

同时, 考虑到intra-flow干扰, 定义一个系数a (i) ,

将intra-flow的干扰值定义为X, 则X为:

将路径干扰度I (P) 和intra-fiow干扰概率相加就可得到新的判据MRI,

由此, 将采用MRI判据的路由算法称为MRI算法, 并且该算法是基于DSR路由协议来实现的, MRI算法通过将TTL值设为2的Hello包周期性的跟两跳范围内节点交换负载和发送速率等信息。

3、仿真效果

在NS2中, 采用MRI算法和5x5的网格拓扑, 4个并行数据流情况进行仿真, β=0.5。并与DSR, WCETT算法进行比较, 结果见图2

4、结语

从图2可以看出, 在接口数增加的情况下, MRI算法较DSR和WCETT性能优。这是因为MRI算法是以负载和发送速率来衡量链路的干扰度, 在选择路由时能很好的在各接口之间平衡负载, 吞吐量随着接口数接近线性增加。以最短路径为判据的情况下, 节点是随机选择链路, 容易产生拥塞, 浪费了多接口的资源。

摘要:在分析了路由判据WCETT和iAWARE的基础上, 指出LMR的路由算法的不足之处, 得出了一种新型的基于协议干扰模型的最小路径干扰度算法-MRI算法, 并经过实践, 给出了仿真效果图。结果表明, 本算法是非常优越的。

关键词:路由判据,算法,MRI,改进

参考文献

[1]Richard Draves Jitendra Padhye BrianZill.Routing in Multi-Radio, Multi-HOPWireless Mesh Networks.MobiCom 04, Sept.26-Oct

[2]Anand Prabhu Subramanian Milind M.Buddhikot, Scott Miller, Interference Aware Routing in Multi-Radio Wireless Mesh Net-works, WiMesh06

[3]Anh-Ngoc Le, Dong-Won Kum, and You-Ze Cho.Load-aware Routing Protocol for Multi-radio Wireless Mesh Networks.2008.9, 138-143.

安全度模型 第7篇

当前我国就业形势越来越严峻, 随着我国诸多教育政策的不断推出与执行, 社会的飞速发展这个大的背景下, 高等教育的生源越来越广泛, 高等教育为了国家政策和社会的需要不断地扩招[1], 2013年新增就业大学生达699万, 这导致就业的力越来越大。尽管每年的毕业生在增多, 但仍然存在一些企业出现招工难的问题, 这里主要的问题是招聘不到合适的人才。据调查统计, 江门市劳动力资源在数量上较为丰富, 然而就业结构不太合理, 劳动力文化素质普遍偏低, 高端技术型工种人才较短缺, “招工难”与“就业难”问题并存[2]。

为解决就业存在的各种问题, 结合当前江门市的就业形势, 我们设计了基于向量相似度的招聘就业双向推荐模型, 为应聘者和企事业招聘搭建了一个桥梁, 找到各自合适的岗位和人才。该模型在投入应用后, 取得了较好的成效。

1 相关工作

当前就业推荐采用的方法主要有层次分析法[3,4], 数据挖掘[5], 聚类分析[6], 随机游走[7]等。

层次分析法由T.L.Saaty[8]首次, 是定量和定性分析相结合的多目标决策方法, 它能够有效地分析目标准则体系层次间的非序列关系, 便于综合测决策的判断和比较, 多用于社会、经济和管理等方面。陈玉峰等[3]根据农民工的特征, 采取不同的信息收集方式来采集农民工基本信息特征及操作信息并利用ID3算法进行了相关计算, 在此基础上, 引入层次结构模型设计方法, 提出了更符合农民工特征的用户模型及其表示方法, 能更有效地实现农民工就业岗位的快速推荐。高晓霞等[4]利用层次分析法建立了高职学生就业推荐综合测评模型, 通过对定性因素加以量化并构造判断矩阵, 进行一致性检验, 给出了一种公开、公平的开展高职学生就业推荐的方法。层次分析法的应用较为广泛[8,9,10], 文献[3]和文献[4]将该方法应用于就业推荐, 对就业工作起到了较好的促进作用, 但层次分析法模型较为复杂, 在构造就业推荐模型时需要大量的权重设置和计算, 因此在效率上有所限制。

陈玉峰等[5]前面的研究基础上, 深入分析数据挖掘理论与农民工的主要特征要素, 采用决策树模型中的ID3算法, 对样本进行整理、转换以及分类, 构建了一个基于数据挖掘的农民工就业推荐系统, 从海量的信息中发现规律和知识, 为企业单向推荐相关技术人才。

李晶等[6]将聚类分析应用于就业推荐, 将应聘者和招聘企业数据通过相关度处理, 使用改进粒子群优化的聚类分析算法, 实现招聘企业与应聘者的相互推荐.解决了推荐信息无用、杂乱等实际问题。这种方法将招聘方和应聘方同等处理, 忽略了从双方各自更关注的信息角度出发考虑问题, 比如对于应聘者, 在向其推荐企业时, 显然在同等条件于待遇高的企业要优先推荐, 反过来, 对于招聘方而言, 则希望将薪酬要求低的应聘者优先推荐。

吴迪等[7]设计并实现了一个基于随机游走的就业推荐系统, 通过比较应届和往届毕业生基本特征, 并结合基于随机游走模型的Page Rank算法获得的各个企业的“求职指数”, 将招聘企业排序后推荐给每一名毕业生。经实际数据测试, 该系统能有针对性的为毕业生推荐相关企业, 有较好的效果。

在上述研究中, 主要是单向的推荐, 采用层次分析法在运行效率上有所欠缺, 为更高效的解决就业双向推荐的问题, 我们提出了基于向量相似度的招聘就业双向推荐模型, 该模型将就业意向和招聘信息看成一条向量, 抽取两者共有的重要因素作为组成向量的分量, 并对其进行量化, 通过计算它们之间的相似度来实现双向推荐。

2 基于向量相似度的招聘就业双向推荐模型

基于向量相似度的招聘就业双向推荐模型分以下四个步骤进行。

2.1 筛选

由于实际的招聘应聘数据量达到50万以上, 为了降低模型的计算量, 提高运算效率和准确率, 在进行双向推荐时对求职意向和招聘信息进行了筛选, 主要进行以下筛选操作。

(1) 空值筛选

考虑到某些信息填写不完够整, 系统会对大部分数据根据求职者信息和企业登记信息进行自动填写, 但有些数据无法补充完整, 模型在运行时则将这部分空值数据过滤掉, 以保证进行模型数据的完整性。

(2) 资格筛选

资格筛选主要考虑的是发布的求职意向和招聘信息是否过期, 另外也要将已经求职成功和招聘成功的记录过滤掉。

(3) 条件筛选

条件筛选是对所在的求职意向作招聘进行筛选, 若为求职者推荐岗位, 则以求职者个人的信息为标准, 对招聘信息进行筛选;若为企业推荐求职者, 则以招聘企业的要求为标准, 对求职者进行筛选。条件筛选的主要有以下几个方面:对工种, 按工种编码先使用商用细类代码进行完全匹配筛选, 若无数据再回退使用前4位进行部分匹配筛选;对学历进行覆盖筛选, 对求职者而言, 以求职者的学历对招聘企业进行筛选时, 筛选出学历招聘要求等于或低于求职者学历的招聘信息, 反之则筛选出等于或高于企业学历要求的求职者。

2.2 向量的生成

每条招聘信息或求职意向生成一个向量, 该向量的各分量为招聘企业或求职者的各个条件, 所有招聘信息或求职意向各自形成一个向量集。如, 企业招聘信息向量:招聘 (工种, 学历, 职称, 年龄, 性别, 薪酬, 住宿要求, 工作地点, …) , 个人求职信息向量:求职 (工种, 学历职称, 年龄, 性别, 薪酬, 住宿要求, 工作地点, …) , 可以看到两个向量的各个分量是一一对应的。生成向量时考虑到企业和求职者的实际情况以及双向所注重的因素, 本模型向量只采用了工种, 学历, 职称, 年龄, 性别, 薪酬, 食宿要求和工作地点这8个分量。

为便于算法模型描述, 将上述向量进行形式化:

2.3 向量量化

2.3.1 量化规则

为企业推荐求职者时以企业招聘信息向量为标准向量, 其各个分量的值设为1, 对于筛选出来的个人求职信息向量集, 其每个向量的每个分量的取值范围为[0, 1], 完全不匹配取值0, 完全匹配或不限制取值为1。对个人求职而言, 以个人求职信息向量为标准向量, 其各个分量的值设为1, 对于筛选出来的企业招聘信息向量集, 其每个向量的每个分量的取值范围为[0, 1], 完全不匹配取值0, 完全匹配或不限制取值为1。

对向量各分量 (建立映射表) 逐一进行量化, 各分量量化值为预设值 (可根据模型运行情况调整) , 在充分的实验基础之上, 考虑按工种为各分量设定不同的量化值。各分量量化基本规则如下。

(1) 工种

以工种编码作为量化的基础, 向企业推荐求职者和向求职者推荐岗位均采用以表1数据作为量化的依据。

(2) 学历

在对学历进行量化时, 分两种情况, 一是向企业推荐求职者, 二是为求职者推荐岗位。

向企业推荐求职者时, 采取以下原则:在其他条件相同的情况下, 优先向企业推荐高学历的求职者。根据这个原则设定表2数据作为向企业推荐求职者时匹配向量的量化依据。

若向求职者推荐岗位, 则在满足招聘条件的前提下, 优先向求职者推荐最接近求职者学历的企业, 比如, 求职者的学历为本科, 则筛选出来的企业对学历要求为本科及以下的所有招聘信息, 在向求职者推荐时将学历要求为本科的排在前, 其他学历依次往后排。

在量化时, 参照表2的匹配向量量化值, 采用公式1对企业招聘信息学历要求进行量化。

其中, 为求职者学历按上表对应的量化值, 为企业学历要求按上表对应的量化值。

(3) 职称/技术等级

对职称和技术等级进行量化时, 参照表3进行。

由于当前系统中并没有填写该字段信息, 模型实际运行时将该分量设为0, 即不考虑该分量对推荐的影响。

(4) 年龄

当向企业推荐求职人员时, 考虑到在其他条件相同的前提下, 企业更期望招聘年轻些的求职者, 因此在量化时将更年轻的求职者量化为较高的值, 年龄大的求职者量化较低的值, 采用公式2对求职人员的年龄进行量化。

当向求职者推荐招聘岗位时, 采用区间量化的方案进行量化。设年龄的取值集合为U={50岁, 45岁, 40岁, 35岁, 30岁, 25岁}, 模糊集“年青”可表示为:

A=0/50岁+0.1/45岁+0.3/40岁+0.5/35岁+0.9/30岁+1/25岁, 若年龄介于 (50, 45) 之间, 则量化为一个 (0, 0.1) 间的一个值, 其他以此类推。

(5) 性别

对性别进行量化时, 分别采用表4和表5量化值进行量化。

(6) 薪酬

当向企业推荐求职者时, 从企业招聘角度出发考虑, 仅就薪酬这个因素而言, 会优先考虑对薪酬期望值更低的求职者, 因此在向企业推荐求职者时, 将开出薪酬更低的求职者排在前面, 因此构造以下量化规则。

设企业薪酬最低值为aavg, 求职者薪酬要求最低值为:a1, a2, …, an, 令M=max (a1, a2, …, an) , m=min (a1, a2, …, an) , 则企业薪酬为标准向量, 其值为1, 求职者薪酬按公式3进行量化。

若e6为负数, 则令其为0。

当向求职者推荐岗位时, 分析求职者对薪酬的心理期望, 显然会更优先考虑开出薪酬更高企业, 因此在向求职者推荐岗位时, 将开出薪酬更高的企业排在前面, 因此构造以下量化规则。

设求职者薪酬要求的最低值为aavg, 企业薪酬最低值为:a1, a2, …, an, 令M=max (a1, a2, …, an) , m=min (a1, a2, …, an) , 则求职者薪酬为标准向量, 其值为1, 企业薪酬按公式4进行量化。

(7) 食宿要求

当向企业推荐求职者时, 从企业招聘角度出发考虑, 仅就住宿要求这个因素而言, 会优先考虑对食宿要求越低的求职者, 因此在向企业推荐求职者时, 将食宿要求越低的求职者排在前面, 建立以下映射表 (表6) 进行量化。

当向求职者推荐岗位时, 分析求职者对食宿要求的心理期望, 显然会更优先考虑能够解决住宿问题的企业, 因此在向求职者推荐企业时, 将住宿条件更好的企业排在前面, 建立以下映射表 (表7) 进行量化。

(8) 工作地点

当前模型仅对江门地区的工作地点进行量化, 根据行政区域编码的匹配度来进行量化。行政区域编码共10位, 其中前6位编码及表示的地区如下:440703 (蓬江区) , 440704 (江海区) , 440705 (新会区) , 440781 (台山市) , 440783 (开平市) , 440784 (鹤山市) , 440785 (恩平市) , 编码中第7-8位表示镇及街道, 第9-10位表示村。

建立表8对工作地点进行量化 (为企业推荐求职者和为求职者推荐岗位均按该表进行量化) 。

2.3.2 量化实例

系统随机生成20万条求职信息和10万条招聘信息, 用于模型测试用。模型在量化时, 按推荐求职者和推荐岗位来采用相应的量化规则进行量化, 下面给出一组量化实例。

(1) 向企业推荐求职者

从数据库中抽取招聘编号为“1”的招聘信息, 如表9所示。

由于数据库中存储的各字段内容为相应的编码, 因此表9中给出也是相应的编码 (以下同) , 代表不同的含义 (性别列中值为3表示男女不限) 。在为该招聘推荐求职者时, 该招聘记录向量为标准向量, 除“职称/技术等级”分量外各分量均量化为1, 即招聘向量1 (工种, 学历, 职称, 年龄, 性别, 薪酬, 住宿要求, 工作地点) 量化为E1 (1, 1, 0, 1, 1, 1, 1, 1) 。

模型为该招聘信息筛选推荐出以下求职者, 如表10所示, 相应的, 各字段给出的也是编码 (以下同) 。

模型按2.3.1节的量化规则对求职者信息进行量化, 得到表11所示的量化结果。

为尽可能区分各求职者与招聘要求之间的差距, 表11中的量化结果按四舍五入的规则取四位小数。

(2) 向求职者推荐岗位

从数据库中抽取求职编号为“1”的求职者信息, 如表12所示。

在为该求职者推荐岗位时, 该求职信息向量为标准向量, 除“职称/技术等级”分量外其余各分量均量化为1, 即求职向量1 (工种, 学历, 职称, 年龄, 性别, 薪酬, 住宿要求, 工作地点) 量化为P1 (1, 1, 0, 1, 1, 1, 1, 1) 。

模型为该求职者筛选推荐出以下岗位信息, 如表13所示。

模型按2.3.1节的量化规则对岗位信息进行量化, 得到表14所示的量化结果。

为尽可能区分各岗位信息与求职者要求之间的差距, 表11中的量化结果按四舍五入的规则取四位小数。

2.4 相似度计算

在为企业推荐求职者, 或为求职者推荐岗位时, 需要计算他们之间的匹配度, 匹配度根据2.3节的量化结果进行计算, 即计算每条推荐向量与标准向量之间的相似度, 然后按这个相似度从高到低排序, 使得更符合的求职者或岗位能排在前面。

向量相似度的计算采用夹角余弦公式来计算, 计算公式如式5所示。

其中分子和分母分别按公式6和公式7来计算。

就2.3.2节的例子 (在本节已将相关的编码转换为对应的含义, 这样便于分析比较匹配度结果) , 采用向量相似度计算公式来计算, 向企业和求职者分别进行推荐, 进行就业信息匹配, 得到以下结果表15、表16、表17和表18所示结果。

由于测试数据是随机生成的, 而算法在向企业推荐求职者时, 在其他条件相等的情况下优先推荐推荐学历更高的求职者, 因此会出现表16中博士、硕士去应聘电工这个工种的情况, 实际情况不会出现这种现象。

从上述就业信息匹配实例来看, 基于向量相似度的招聘就业双向推荐模型能较好实现招聘与应聘的对接, 算法模型取得了较好的效果。

3. 实验结果分析与比较

本节实验主要考察模型的运行效率, 模型的准确性在第2节已得到了验证。

3.1 测试数据集实验结果分析

模型实验测试在随机生成的20万条求职信息和10万条招聘信息数据集上进行, 模型运行在以下配置的机器上:Windows7操作系统, CPU为AMD双核5000, 2G内存, 500G硬盘, 从筛选、量化和相似度计算三个环节考察模型双向推荐的运行效率, 共进行了6组实验, 平均结果如表19所示。

表19的结果显示, 该模型大部时间消耗在筛选阶段, 量化和相似度计算阶段取得了较好的运行效率。

3.2 实际数据运行结果分析

模型投入实际运行后, 实际招聘应聘的数据规模约50万条。从筛选、量化和相似度计算三个环节考察模型双向推荐的运行效率。实际系统配置了IBM System X3850系列服务器 (2颗Xeon E7-4807 1.86GH, 16GB内存, 4TB硬盘) , 硬件性能的提升也使模型的效率得到大幅度的提升。实际运行结果如表20所示。

表20的结果显示, 模型在实际数据集上亦能取得很好的运行效率。同时, 从企业和求职者的反馈信息分析, 模型能较好的实现招聘就业双向推荐, 能为双向推荐最合适的岗位和人才, 实现了双赢。

4 结语和下一步的工作

本文实现了一个基于向量相似度的招聘就业双向推荐模型, 通过将招聘和求职信息转化为向量, 并按不同规则对不同分量进行量化, 采用夹角余弦公式计算向量间的相似度, 并以此作为双向推荐的标准, 模型在测试数据集和实验数据集上均取得了较好的效果。

进一步的工作主要有:1) 优化各分量量化数值, 目前模型采用的是经验值, 在模型稳定运行后, 需要根据实验情况来调整量化值, 使用模型更为合理;2) 考虑到在招聘和应聘的过程中, 对各个分量有侧重, 当前模型中各个分量的权重是一致, 在后续的改进中将对各分量进行权重调整, 以突出关键分量的重要性;3) 优化模型算法, 提高运行效率。实验结果和实际运行情况表明, 模型在筛选阶段占用大量时间, 直接影响了模型的效率, 尽管由于机器性能的提升能提高效率, 但仍需要不断优化模型, 以适应大数据集的需要。

摘要:分析了当前国内就业形势, 针对当前“招工难”与“就业难”问题并存的现状, 提出了一个基于向量相似度的招聘就业双向推荐模型。模型首先按条件对候选推荐信息进行筛选;然后将招聘和求职信息转化为向量, 为不同分量建立相应的量化规则并进行量化, 使之可计算;最后采用夹角余弦公式计算向量间的相似度, 并以此作为双向推荐的标准。模型在测试数据集和实际数据集上均取得了较好的运行效率, 准确率高, 达到了最优化推荐, 一定程度上缓解了江门市目前招聘就业困难的压力, 取得了良好的社会效益。

关键词:向量,相似度计算,招聘就业,双向推荐

参考文献

[1]李英.浅析当今我国高校研究生就业现状[J].神州, 2013, (3) :240.

[2]柳彦君.江门市劳动力资源与就业状况研究[J].北方经贸, 2012, (10) :38-40.

[3]陈玉峰, 张红燕, 敬松, 谢元瑰, 隆珂.基于层次结构的农民工就业特征模型研究[J].中国农学通报, 2013, 29 (11) :101-106.

[4]高晓霞.层次分析法在高职学生就业推荐中的应用[J].读与阅杂志, 2010, 7 (12) :46-47.

[5]陈玉峰, 张红燕, 敬松, 谢元瑰.基于数据挖掘的农民工就业推荐系统构建[J].安徽农业科学, 2011, 39 (33) :20896-20898.

[6]李晶, 张磊.聚类分析在就业推荐中的应用[J].科技信息, 2010, (31) :149.

[7]吴迪, 周利娟, 林鸿飞.基于随机游走的就业推荐系统研究与实现[J].广西师范大学学报:自然科学版, 2011, 29 (1) :179-185.

[8]Saaty T.L..Modeling unstructured decision problems-the theory of analytical hierarchies[J].Mathematics and Computers in Simulation, 1978, 20 (3) :147-158.

[9]郭金玉, 张忠彬, 孙庆云.层次分析法的研究与应用[J].中国安全科学学报, 2008, 18 (5) :148-153.

上一篇:美国加州下一篇:职业中专计算机