数据关联模型范文

2024-07-17

数据关联模型范文（精选7篇）

数据关联模型第1篇

随着信息技术在电力系统中应用的不断发展, 电力系统数据网络的规模也在不断扩大, 同时网络中所承载的业务也越来越复杂多样, 电力通信数据网管理及维护工作面临着极大的挑战。而这也对数据网络的运维管理提出了更高的要求, 即需要对数据网络进行精细化监测管理, 更加客观系统地对数据网络的特性与趋势进行描述, “告警关联分析”代表了未来一类综合性的数据网络管理功能, 通过综合性的管理分析功能深入发掘管理数据间的联系, 并最终为优化和完善电力系统数据网络提供可靠的参考依据。

常见网络监测模型应用现状

当前常见的网络流量监测模型利用简单网络管理协议 (simple network management protocol, SNMP) 等网络流量探针, 获取如带宽、链路利用率等网络特性信息, 并仅通过维护人员预先设定监控指标数值固定的上/下限值进行简单比较, 当被监控指标越过预设阀值时生成告警信息。

该网络流量监测模型有一定的流量告警功能, 但仅从单一方面获取流量情况, 不具备多角度、多侧面网络分析能力, 无法系统全面描述数据网络特征;另外由于作为流量判断依据的告警阀值为一个固定的经验数值, 因此告警效率较低, 漏报率和误报率较高, 告警结果常常无法为维护人员提供有效网络流量信息, 其应用缺点如下。

1) 无法系统全面对数据网络特征进行获取和描述;

2) 告警阀值需手工设置, 缺乏智能化变更;

3) 维护人员的经验对阀值设置起关键作用, 阀值设定较为主观;

4) 监控对象流量特征各不相同, 阀值设置难度大。

监测模型建立

模型建立目标

本文拟在电力系统中建立一种科学的数据网络流量监测模型, 通过全网流量实时监测, 对网络设备性能状态、吞吐量、带宽资源利用率、异常流量监控预警、业务应用流向分布等进行精细化的分析管理, 以提供全面的网络流量可视化、量化的运行数据报告, 并提供网络异常流量的监控分析, 从而减少网络故障诊断、异常侦测分析的难度和时间。同时可较好的为网络优化提供数据支持, 减少因网络拥塞或异常而发生的延迟、中断, 保障网络的运行效率, 整体提高数据网络的可靠性和可用性。

通过使用数据网络流量监测模型可实现以下目的:掌握网络流量特性、了解用户网络行为、监视网络流量状态、检测分析异常流量、分析用户行为和量化网络承载能力。该模型为网络服务优化提供了辅助决策依据, 可以提升网络服务安全性, 实现及时检测和解决网络存在的隐患问题, 并最终达到指导数据网络规划、建设和改造的目的。

关键技术

(1) SNMP技术

SNMP是目前应用最为广泛的网络管理协议, 其管理信息库 (management information base, MIB) 含有网络流量数据的变量。

(2) Netflow/netstream技术

网络流量 (Netflow/netstream) 是一套网络流量监测技术, 它运行在路由器中动态地收集经过路由器的流的信息, 并向指定的目的端吐出这些数据。目前在流量分析模型中有广泛应用。

(3) DPI探针技术

DPI (Deep packet inspection) 探针技术是一种就应用层的流量检测, 当IP数据包、TCP或UDP数据流通过基于DPI技术的分析时, 通过深入读取IP包载荷的内容来对OSI七层协议中的应用层信息进行重组, 从而得出整个应用程序的内容, 实现不同应用层的有效识别。

建模思路

监测模型从区域、时间、业务、链路四个维度, 利用SNMP、netflow/netstream、DPI探针网络流量监测工具, 形成不同维度下的流量特征, 从而可根据实际需求, 制定精细化的网络流量分析方案。四维度流量检测模型如图1所示。

建立步骤

采集单元部署:根据实际运行需求, 本模型将采集单元部署数据网络特定的链路上, 从而通过网络探针对流量信息进行收集。如图2所示, 根据电力系统数据网特点, 本模型可以在各级公司边缘网络设备至IDC网络设备间的链路上部署流量采集单元, 获得IDC网络至汇聚层网络链路上的流量信息。

流量特征分析:本模型基于动态基线的制定理念, 将一天分成多个时段, 结合数据网络中每天相同时段的正常流量, 计算其平均值, 并利用这些连续不同时段的流量平均值制定出流量基线特征, 从而可以客观地反映正常行为下网络流量所呈现的变化趋势。

特征库建立

本模型根据时间、地域、业务以及链路区间4个维度的参数变化, 可以获取数据网络的若干网络行为特征, 可以根据实际运行特点以各个侧面描述网络特性, 从而更全面细致地对系统数据网络进行精细化分析。通过综合各项网络特征, 可以建立一套完整的网络特征库, 包括链路流量特征、不同区域流量占比特征、不同业务类型流量特征、不同业务类型流量占比特征等。

模型应用

异常行为告警:通过将初定位网络流量异常的节点与动态临界值基线进行比较, 只把与流量基线明显偏离的时段列为异常流量, 而排除某些尖峰时段网络流量本应高于固定临界值的节点, 从而减少了网络监测误判的情况。如图3所示, 只有与流量基线明显偏离的点才被判定为异常流量。

设备性能与链路流量的告警关联:设备性能通常是指网络设备的CPU/内存利用情况, 现有网管系统只是对该项指标进行监测并触发阀值产生告警。而最终影响到CPU/内存利用率高的具体原因无法发掘。通过经验得出, 能影响到CPU/内存利用率的外在主要因素是链路流量或链路异常数据包成分。链路流量过大, 网络要转发就需要消耗更多的CPU和内存。链路异常数据包过多, 网络设备进行处理也需要消耗更多的CPU/内存。因此, 设备性能告警与链路流量/数据包成分告警的关联是密不可分的。设备性能与链路流量告警关联场景具体实现如图4所示。

当路由器E的CPU/内存触发了预设值的阀值, 所有链路未触发流量阀值, 但是链路中传输的数据包类型或尺寸占比异常时, 所产生的告警级别归为紧急。

网络优化依据:通过模型的建立, 可以针对系统正常运行下高峰拥挤时段, 提供更全面和细致的流量描述和分析, 从而可以更有效地指导随后数据网络的优化和调整。同时可以根据网络流量特征, 总结当前系统数据网络运行规律走向, 为系统网络远期预测与建设提供有效的数据支持。

小结

数据关联模型第2篇

关键词：梯形云模型,电能质量,概念区间划分,关联规则挖掘,相关性分析

0 引言

随着电能质量监测系统规模的不断扩大，电能质量数据呈海量化趋势，这些数据记录了一个地区长期以来的电能质量状况，包含大量信息。现有的电能质量监测系统采用各种形式的图表对这些数据进行展示[1,2,3]，使观测人员能较为直观地了解每一个监测点的电能质量状况，但是数据本身所直接表现出来的信息是有限的，许多有价值的信息并不仅存在于数据表面，而是蕴藏于数据之间的关联性上，这些信息能更深层次地反映电网的运行特性。

数据关联规则最初是由Agrawal等人在文献[4]中提出，主要是研究数据集中反复出现的联系，比如用于大型数据交易的布尔型关联规则。一个典型事例是购物篮分析，该过程通过发现顾客放入购物篮中商品之间的关联性，分析顾客的购物习惯和偏好。这种关联性的发现可以使营业商了解哪些商品频繁地被顾客同时购买，从而帮助他们制定更好的销售策略。例如顾客在购买牛奶的同时也趋向于购买面包，可以用关联规则“购买牛奶→购买面包[支持度为25%；置信度为60%]”表示，支持度为25%表示所有交易中有25%的比例是牛奶和面包被同时购买的，置信度为60%表示购买牛奶的顾客60%也购买了面包。这些信息可以帮助营业商作选择性销售和安排货架布局，从而提高销售量[5]。在电力系统领域，也有利用关联规则进行数据分析的案例，文献[6,7,8]通过关联规则评估电力变压器的运行状态；文献[9]将关联规则和模糊推理方法结合，应用于交联聚乙烯（XLPE）电缆局部放电模式识别；文献[10]提出一种电力负荷与电力系统广域动态特征的相关度分析方法。同样，可以通过挖掘电能质量数据之间的关联性，提取出有价值的信息，为电网管理部门提供良好的决策支持。但是在目前的电能质量监测系统中还缺乏这方面的研究和应用。

针对上述情况，本文提出一种基于梯形云模型的电能质量数据关联性挖掘方法。利用梯形云对各项电能质量指标进行等级概念区间划分，解决传统区间划分的边界过硬问题。在传统支持度—置信度框架基础上采用Kulczynski量度和不平衡比对关联规则进行相关性分析，过滤掉无意义的关联规则，从电能质量数据中提取出有价值的信息。实例分析验证了本文方法的实用性和有效性。

1 梯形云模型原理

1.1 云的概念和特性

设U是一个用数值表示的定量论域，C是U上的定性概念，若定量值x∈U是定性概念C的一次随机实现，x对C的确定度μ（x）∈[0,1]是有稳定倾向的随机数，μ：U→[0,1]，x∈U,x→μ（x），则x在论域U上的分布称为云，记为C(X），每一个x称为一个云滴[11,12]。当分布为正态分布时，云为正态云。云具有以下基本性质。

1）论域U可以是一维的，也可以是多维的。

2）定义中提及的随机实现，是概率意义下的实现；定义中提及的确定度，是模糊集意义下的隶属度，同时是概率意义下的分布。

3）对于任意一个x∈U,x到区间[0,1]的映射是一对多的变换，x对C的确定度是一个概率分布，而不是一个固定的数值。

4）云由云滴组成，云滴之间无次序性，一个云滴是定性概念在数量上的一次实现，云滴整体才能反映出概念的特征，云滴数目越多，越能反映这个定性概念的整体特征。

1.2 梯形云

在描述某些对象时，经常将其分成若干个概念。比如可以将“年龄”分为“少年”“青年”“老年”等，这些概念的期望往往是一个范围，而不仅仅是一个值。又比如在量化“青年”这个概念时，通常将[20,25]岁这个年龄段都归于“青年”，意味着“青年”的期望是[20,25]岁这个区间，而对于[20,25]岁区间附近是否属于“青年”，不同人可能有不同的看法。这种情况可以用梯形云表示，如图1所示。在[20,25]岁区间之内的年龄对于“青年”的隶属度为1，而在区间之外的年龄的隶属度通过梯形云数字特征计算。

梯形云用期望区间[Ex1,Ex2]、熵En和超熵He表示整体定量特性，可以用这4个数字特征构成的四元组（Ex1,Ex2,En,He）描述梯形云。其中Ex1≤Ex2，当Ex1=Ex2时，梯形云特殊化为正态云[13]。

期望区间[Ex1,Ex2]：最符合定性概念描述的区间，分布于[Ex1,Ex2]中的元素对概念的隶属度为1。

熵En：定性概念的不确定量度，由概念的随机性和模糊性共同决定。一方面熵是定性概念随机性的量度，反映了能够代表这个定性概念云滴的离散程度；另一方面又是定性概念亦此亦彼性的量度，反映了论域空间中可被概念接受的云滴的取值范围。

超熵He：熵的不确定性量度，即熵的熵，由熵的随机性和模糊性共同决定，其大小反映了云滴的离散度和云层的厚度，即每个数值隶属于概念程度的凝聚性。

1.3 X条件梯形云发生器

给定梯形云的4个数字特征（Ex1,Ex2,En,He）以及特定的x值，产生满足条件云滴drop(x，μ）的模块称为X条件梯形云发生器[13]，如图2所示。X条件梯形云发生器的功能是计算出每一个特定数据x隶属于（Ex1,Ex2,En,He）所描述的概念的程度，其特点是对于相同的输入值x每次计算都会得到有细微变化的隶属度值，可以体现出不同的人对同一数据隶属于某概念程度看法上的差异。

X条件梯形云发生器的输入为梯形云数字特征（Ex1,Ex2,En,He），需要计算概念隶属度的特定值x；输出为特定值x生成的云滴及其对于概念的隶属度μ（drop(x，μ））。具体算法步骤如下。

步骤1：判断特定值在梯形云模型中的所在区间。如果x属于[Ex1,Ex2]，则隶属度为1，直接输出结果，下面步骤不再执行；如果x<Ex1，则Ex=Ex1；如果x>Ex2，则Ex=Ex2。

步骤2：生成以En为期望值，He2为方差的一个正态随机数En′=NORM(En,He2）。

步骤3：以Ex为期望值（Ex按步骤1进行判断取值），利用公式μ=exp(-(x-Ex)2/（2(En′）2））计算隶属度值。

步骤4：生成云滴并输出隶属度μ。

2 基于梯形云的电能质量数据关联性挖掘

2.1 多维多层空间模式挖掘

2.1.1 概念区间划分

在对电能质量数据的挖掘过程中，可以将各项电能质量指标的值域划分为若干个概念区间，便于发现知识。本文中概念区间的具体含义为以实际监测数据分布情况为基础并结合电能质量国家标准对各项电能质量指标划分的5个等级区间，从1级到5级分别为优、良、中、较差和差。

传统的概念区间划分方法是把数据定义域划分成多个离散相邻的区间，直接将每个数据分别映射到各自的区间上。这种明显的区间划分导致区间边界过硬，将区间附近对该概念有可能作出一定贡献的数据强制排除在外。比如假设电压偏差指标的“良”等级区间为（1.2%,3%]，“中”等级区间为（3%,4.5%]，则3%为两个区间的边界值，当数值为2.99%时，传统划分方法会认定该数据属于等级“良”，与等级“中”没有任何关系，但是处于边界附近的值是具有模糊性的，对于两边的等级区间都有一定联系，强制划分给某一个等级区间并不是一个合理的方法。文献[9]中使用属性概念定义域模糊化的方法，将定义域划分成多个模糊集，使得概念定义域之间有平滑变迁的过程，在一定程度上缓解了区间边界过硬的问题，但是由于隶属函数是人为设定的，具有很强的主观性，一旦隶属函数确定，边界上的数据隶属度也就确定，区间边界仍然较硬。本文采用梯形云模型划分概念区间（见图1），利用云滴的分布特性反映出边界附近数据隶属于概念区间的程度，充分体现了模糊性与随机性，使得区间之间有一个良好的过渡过程，较好地解决了边界过硬问题。

设有数据集T={t1,t2，…，tn}，n为数据集记录总数，ti表示第i条记录；P={p1,p2，…，pn}表示量化属性集，ti[pj]表示记录ti在属性pj上的值。将pj的定义域分成多个梯形云概念区间Cj={cj,1,cj,2，…，cj,l}，第i个概念区间cj,i可以用梯形云数字特征表示。按照上述方法，各项电能质量指标等级区间划分[14,15]情况和梯形云数字特征如表1所示。为使电能质量数据在5个等级区间分布得更均匀，每个等级区间的Ex1和Ex2可以根据数据的分布情况进行调整，将数据较为密集的区间宽度略微调小（Ex1和Ex2的差值变小），则数据较为稀疏的区间宽度会相对增大。熵和超熵的计算公式为：

考虑到电能质量国家标准中各电压等级的谐波含量限值有所差别，因此对谐波含量分电压等级划分概念区间。对于等级5，当数据大于期望上边界Ex2时，概念区间隶属度值取为1。

2.1.2 多维多层关联规则

电能质量数据存储是多维的，包含众多属性，某些标称属性可以分为多个概念层。比如负荷类型分为扰动负荷、敏感负荷和一般负荷，扰动负荷又具体包括电弧炉、电铁等。在对电能质量数据进行挖掘分析时，首先将若干属性的概念层按需组合，形成约束条件集Con={c1,c2，…，cn}，限定待分析的电能质量数据范围，如{“7月份”，“A地区”，“扰动负荷”，“闪变”}。这样可以具有针对性地在特定电能质量数据域中进行挖掘分析工作。

假设在约束条件集Con下得到数据集τ，τT;X={x1,x2，…，xr}，Y={y1,y2，…，ys}是属性集P的子集；A={cx1,cx2，…，cxr}，B={cy1,cy2，…，cys}是概念集，其中cxj和cyk表示在数据集τ中属性xj和yk所属的概念。则在电能质量数据库中需要挖掘的关联规则形式可以归纳为“在约束条件Con下得到的数据集τ中，如果X是A，则Y是B”。

2.2 数据关联性挖掘分析方法

2.2.1 支持度计算方法

支持度指满足某种规则的记录占总记录数的比例，可以反映出所发现规则的有用性。本文将梯形云模型融入到关联规则支持度和置信度的计算公式中，用Sup(<X,A>→<Y,B>）表示“在约束条件Con下得到的数据集τ中，如果X是A，则Y是B”形式的支持度。具体公式如下。

式（2）中，<X,A>和<Y,B>均表示属性—概念对，μcxj(ti[xj]）表示记录ti在属性xj上的值隶属于概念cxj的隶属度，μcyk(ti[yk]）的含义与此类似。对于ti，如果它的各属性值ti[xj](xj∈X,j=1,2，…，r）隶属于概念cxj的隶属度之积大于ε（ε为大于零的极小值），说明此条记录是满足于<X,A>的，而cxj可以用梯形云数字特征表示，当ti[xj]在概念cxj的期望区间内时，隶属度为1，否则利用1.3节步骤计算，隶属度为（0,1）中的某一数值。

2.2.2 置信度计算方法

置信度指同时满足<X,A>和<Y,B>的记录数占满足<X,A>或<Y,B>记录数的比例，反映了所发现规则的确定性，置信度越高说明其可信度越高。本文用Conf(<X,A>→<Y,B>）表示“在约束条件Con下得到的数据集τ中，如果X是A，则Y是B”形式的置信度。具体公式如下。

式（2）和式（3）可以简单表示成：

如果根据式（2）和式（3）计算出来的关联规则支持度和置信度满足最小支持度阈值和最小置信度阈值[16,17]，则可以初步判定为强关联规则。

2.2.3 相关性分析

通过支持度—置信度框架能从电能质量数据库中挖掘出大量关联规则，尽管最小支持度阈值和最小置信度阈值有助于排除大部分无趣规则，但是由于仅从单一方向进行分析，仍有部分无实际意义的关联规则未被筛除，这些关联规则可能产生误导[5]。为解决这个问题，本文采用Kulczynski量度（Kulc）及不平衡比进行相关性分析，对关联规则作进一步过滤。Kulc是波兰数学家Kulczynski于1927年提出的，具有零不变特性[5]，是对两个方向条件概率的综合，定义为：

不平衡比对关联规则蕴含式中两个项集的不平衡程度进行评估，定义为：

从式（6）可以看出，当支持度Sup(<X,A>）和Sup(<Y,B>）相同时，IR(<X,A>,<Y,B>）为零；否则，两者相差越大，不平衡比就越大。Kulc和不平衡比弥补了支持度—置信度框架在关联规则挖掘过程中的不足，对无意义的关联规则作进一步筛除。举个简单例子，假设某变电站有a和b两个监测点，a监测点在35kV侧，b监测点在110kV侧，对两个监测点电压总谐波畸变率之间的关联性进行分析。为简化事例，仅以超标和未超标这种布尔型方式说明，则a和b两监测点电压总谐波畸变率之间的关系可以表示为ab,a-b,ab-,a-b-，其中ab表示a和b两监测点同时超标，a-b表示a监测点未超标、b监测点超标，其余依此类推。

设置最小支持度阈值、最小置信度阈值、最小Kulc阈值和最大不平衡比阈值分别为10%,50%,50%,0.3，不同情况下的数据记录及量度值如表2所示，其中：Nab表示a和b两监测点同时超标的数据记录个数，其余的依此类推；Sup(a,b）表示“a和b两监测点同时超标”的支持度；Conf(a→b）表示“如果a监测点超标则b监测点也超标”的置信度；Conf(b→a）表示“如果b监测点超标则a监测点也超标”的置信度；Kulc(a,b）是对Conf(a→b）和Conf(b→a）两个方向条件概率进行综合；IR(a,b）表示对a和b监测点超标的不平衡程度的评估。

在表2中，D1的各项指标满足要求，说明是具有意义的强关联规则，反映出高、低压侧的谐波具有相关特性；D2的支持度和置信度均达到阈值要求，在支持度—置信度框架下会被认定为强关联规则，但是由于b监测点超标记录数较多，支持度，比Conf(a→b）的91%还高，同时也远高于Sup(a），这种情况下并不能说明关联规则一定成立。经过相关性分析，其不平衡比超过最大阈值，所以是一个具有误导性的关联规则；D3同样由于Sup(b）过高，导致Kulc未达到最小阈值要求，故被剔除；D4支持度、置信度均未达标。从表2可以看出，Kulc和不平衡比在支持度—置信度框架基础上对关联规则作了进一步过滤，使挖掘结果更加准确。本文用AR(<X,A>→<Y,B>）表示最后得到的具有实际意义的强关联规则。

3 实例分析

对某地区电能质量监测数据进行实例分析。首先制定约束条件集{“6月份”，“电铁”，“110kV和27.5kV”，“电压总谐波畸变率”}，根据约束条件集从电能质量数据库中提取出的数据集为该地区一个牵引变电站6月份110kV和27.5kV侧的电压总谐波畸变率实测数据，共有43 200条记录（每分钟记录一次），现利用本文方法对该数据集进行关联性挖掘和分析。用Sup(<THD27.5,i>→<THD110,j>)(i,j=1,2,3,4,5）表示“在所选记录中，若27.5kV侧的电压总谐波畸变率是第i个等级区间，则110kV侧是第j个等级区间”的支持度；Conf(<THD27.5,i>→<THD110,j>),Kulc(<THD27.5,i>,<THD110,j>),IR(<THD27.5,i>,<THD110,j>）分别表示置信度、Kulc和不平衡比。利用表1中谐波含量的等级区间梯形云数字特征和式（2）、式（3）、式（5）、式（6）的进行计算，结果见表3。

从表3可以看出，当取最小支持度阈值、最小置信度阈值、最小Kulc阈值和最大不平衡比阈值分别为10%,50%,50%,0.3时，最后有关联规则AR(<THD27.5,2>→<THD110,2>),AR(<THD27.5,3>→<THD110,3>),AR(<THD27.5,5>→<THD110,5>）符合要求，由于该时间段内的监测数据在等级1和4上分布较少，所以包含等级1和4的支持度计算结果无法满足最小支持度阈值要求。可以看出两个电压等级的电压总谐波畸变率数值总是出现在相同的等级区间，并且随着27.5kV侧的电压总谐波畸变率等级变高，110kV侧也随之升高，当27.5kV侧为最差等级时，110kV侧同样也为最差等级。由此分析出该牵引变电站27.5kV侧的谐波渗透到110kV侧后，对110kV侧产生了显著影响，高、低压侧的电压总谐波畸变率具有明显的相关特性。

4 结语

数据关联算法综述第3篇

1数据关联算法

由于战场环境的日益复杂,如各种电子干扰及自然环境等因素影响,量测有可能是敌目标的正确测量值,但也有可能是来自于噪声、虚假目标、杂波等的错误测量值。数据关联,有时也被称作点迹相关,它是雷达数据处理的关键问题之一,如果数据关联不正确,那么错误的数据关联就会给目标配上一个错误的速度,对于空中交通管制雷达来说,错误的目标速度可能会导致飞机碰撞;对于军用雷达来说,可能会导致错过目标拦截。数据关联是通过建立某时刻雷达量测数据和其他时刻量测数据的关系,来确定量测数据是否来自同一个目标的处理过程[1]。

就多目标跟踪的基本方法而言,概括来讲可分为以下2类:极大似然类数据关联算法和Bayes数据关联算法。

1.1极大似然类数据关联算法

极大似然类数据关联算法的基础是观测数据的似然比,这类算法中比较常见有航迹分岔法[3]、联合大似然算法[3]、0-1整数规划法[1]、广义相关法[1]等。

航迹分叉法最早是在20世纪60年代被提出的,之后Smith和Buechler对其进行进一步研究,其基本原理是假设航迹已起始,此时把目标波门内全部的回波都作为目标回波,原有的目标航迹则以不同的目标回波为基础,分裂为同等数目的新目标航迹,然后通过计算每条航迹的似然函数,设置一个门限进行甄别。联合极大似然算法实质上是对航迹分叉法的一个推广,航迹分叉法的使用条件为单目标或者波门无相交区域的多目标环境,当不同目标的波门相交而且相交区域内有回波时,该公共回波属于哪个目标是不确定的,此时就需要借助联合极大似然算法。联合极大似然算法充分考虑了所有量测的可行组合与划分,计算所有可行划分对应的联合似然函数,取使联合似然函数最大的可行划分为有效划分,进而完成多目标的数据关联。1974年,Morefield在论文中将多目标跟踪问题看作0-1整数规划问题中集合的分解和组合问题,提出了适于多目标跟踪的0-1整数规划法。1975年Steinhe和Blackman提出了广义相关法,给出了计算量测数据和航迹最优关联和交接(称为广义相关)的一般表达式,基本思想是定义了一个得分函数,通过得分函数可完成对航迹起始、确认和撤销的操作。

1.2 Bayes类数据关联算法

Bayes类数据关联算法的基础是贝叶斯准则,主要包括最近邻域(Nearest Neighbor,NN)算法[1,4]、概率数据关联(Probabilistic Data Association,PDA)算法[1,4]、联合概率数据关联算法(Joint Probabilistic Data Association,JPDA)[1,4]、和多假设法[1,4]等。按照确认量测集合的不同,Bayes类算法又可以分为两大类:第一类只对最新的确认量测集合进行研究,是一种次优的Bayes算法,前3种算法即为此类;第二类是包括对当前时刻之前所有的确认量测集合进行研究,是一种最优的Bayes算法,最后一种属于此类算法。

Si nge r等人在20世纪70年代初提出了N N算法,1973年,Singer和Sea在此基础上提出了最近邻域标准滤波器(NNSF)[5]。NNSF的基本思想:先设置相关波门,通过相关波门的设置,尽可能达到真实量测以一个较高的接收概率落入相关波门内,并且里面干扰因素(如其它目标的量测等)尽可能少。在相关波门里的若干候选回波中,从里面选取离被跟踪目标的预测位置最近的回波作为目标回波,进而用于目标状态更新。NN算法结构简单,实现起来比较容易,但是当被跟踪目标附近有其他目标时,得到的目标回波可能并不是属于真正被跟踪的目标,这也是NN算法不够完善的一个方面。

PDA算法[6]认为所有落入相关波门内的回波都有可能源于目标,只是每个有效回波源于目标的概率不同,应首先根据不同情况计算出各回波来自目标的概率,然后利用这些概率值对相关波门内的不同回波进行加权,将各个候选回波的加权和作为等效回波,并利用等效回波对目标的状态进行更新。

PDA算法是一种次优滤波方法,它只对最新的量测进行分解,由于其推导是在假设关联区域内仅存在一个目标的假设下进行的,因而主要用于解决杂波环境下的单雷达单目标跟踪问题,在杂波密集的多目标环境下,容易出现丢失目标或跟错目标的问题。

JPDA算法[7]是在仅适用于单目标跟踪的PDA算法的基础上提出来的,该方法是杂波环境下对多目标进行数据互联的一种良好的算法。然而,JPDA的困难在于难以确定得到联合事件与关联事件的概率,因为在这种方法中联合事件数是所有候选波门数的指数函数,并且随回波密度的增加出现计算上的组合爆炸现象。

西北工业大学潘泉教授在文献[8]中提出了一种广义概率数据关联算法(GPDA),新算法利用了更多的关联事件信息,使新算法的性能得到了改善,其计算量随目标数增加仅成线性变化,具有很好的实时性能,并且在一一对应、一多对应和多多对应这些典型的仿真环境下,详细和全面地对新算法进行了分析比较,结果表明,GPDA算法的性能全面优于JPDA算法。

多假设算法[9](MHT)是基于全邻最优滤波器和JPDA中聚概念的一种算法,该方法考虑每个新接收到的量测可能来自新目标、虚警或已有目标,它通过一个有限长度的时间滑窗,建立多个候选假设,并通过假设评估、假设管理技术实现多目标跟踪。近年来,MHT的研究热点主要是假设管理技术的有效实现。

2结语

众所周知,点迹-航迹数据互联问题是雷达及其组网跟踪系统的基本与核心问题,特别是当有交叉目标、机动目标、密集多目标等情况时,数据互联的难度增加。然而,在多目标数据关联技术的进步的情况下,前面提到的极大似然类数据关联算法未得到更进一步的发展和改进。贝叶斯类的数据关联算法,相对于极大似然类算法等批处理算法来说,在工程应用中更为普遍,目前基于该类数据关联算法的研究工作也更为深入。

参考文献

[1]何友,修建娟.雷达数据处理及应用[M].北京:电子工业出版社,2009.

[2]FARINA A,STUDER F A.Radar Data Processing[M].London:Research Studies Press LTD,1985.

[3]张兰秀,赵连芳译.跟踪和数据互联[M].连云港:中船总七一六所,1991.

[4]李弼程,黄洁.信息融合技术及其应用[M].北京:国防工业出版社,2010.

[5]SINGER R A,SEA R G.New results in optimizing surveillance system tracking and data correlation performance in dense multitarget environments[J].Automatic Control Transactions,1973(6):571-582.

[6]BAR-SHALOM Y,JAFFER A G.Adaptive Nonlinear Filtering for Tracking with Measurements of Uncertain Origin[J].Conference on Decision and Control,1972(11):243-247.

[7]BAR-SHALOM Y,FORMANN T E,SCHEFFE M.Joint Probabilistic Data Association for Multiple Targets in Clutter[J].Proc.Conf.Information Sciences and Systems,1980(1):173-184.

[8]潘泉,叶西宁,张洪才.广义概率数据关联算法[J].电子学报,2005(3):467-472.

安全事件关联模型的研究与实现第4篇

随着网络安全事件的逐年增加,越来越多的诸如IDS,防火墙,VPN等网络安全产品和技术得以应用,在一定程度上缓解了网络安全压力,但同时也引出了许多新问题[1]:

1)各种安全技术和产品之间的异构问题:信息安全建设引入了众多异构的安全技术和设备,但如何对其进行集中统一的管理?

2)海量信息难以统一管理:多种安全设备产生了海量信息,通过传统的手工或半手工方法难于对其进行分析和管理。如果不能够及时识别出其中的不可靠信息并采取相应措施,可能会给网络带来灾难性的后果;

3)IDS的误报/漏报现象:灵敏度和可靠性始终是IDS难以解决的问题,现有IDS产品中,基于异常检测的产品漏报率低,但误报率高;而基于误用检测的产品误报率低,漏报率高。同时,IDS的报警粒度太细,一旦出现攻击可能就报警,报警数量太多,且无法显示攻击意图。

如何对各种异构安全设备进行有效管理,从海量信息中及时提取出重要信息,准确高效地检测出系统中所发生的攻击行为,成为网络安全管理的重要议题。

2 研究基础及设想

事件关联大概可以分为三类:基于规则的关联[2,3,4]、基于统计的关联[5,6]和基于攻击前提和后果的关联[7-8]。

在基于规则的事件关联系统中,已知的安全威胁模式被保存在数据库中,当事件源产生的事件成功匹配了其中一个模式,就认为发生了安全威胁,并采取相应的措施。这种算法的误报率低,但漏报率比较高,而且需要对所有规则精确匹配并且需要及时更新规则库。

基于统计的事件关联建立在系统正常行为的基础之上,当某行为与正常行为的偏移超过预先定义的阀值时,认为发生了攻击并报警。这种算法漏报率低,但误报率比较高,其依赖于对系统正常行为的训练是否足够全面。

基于攻击前提和后果的关联是当某一事件的结果部分满足了另一事件的发生前提时,对这两个事件进行关联。与前两类方法相比,这类方法有效的解决了漏报问题而且可以潜在地揭示出事件之间的因果关系并且不受限于已知的攻击场景。

此次研究是在基于攻击前提和后果的关联思想和其攻击场景重构能力的基础上对其进行了扩充和改进,设法实现一个综合性的分布式实时安全管理平台,其中的事件关联模块是此次研究的重点。研究内容为:安全管理平台的总体设计、事件关联模块中的关键技术、实验分析、总结以及未来的工作。

3 安全管理平台的总体设计

安全管理平台提供对各种安全设备集中统一的配置和管理,并试图通过事件关联和风险评估对网络中的各种事件和日志进行分析,并及时把分析结果(包括报警关联图)通过网络报告给客户端管理员。事件关联和风险评估机制是系统智能的主要体现,也是整个系统最为关键的部分,其中事件关联模块接收各种安全事件,进行关联,给出关联结果并做出响应,其在整个系统中处于底层事件收集器与上层终端控制界面之间,安全管理平台的框架结构如图1所示,它主要包括客户控制端、服务器端、事件收集器和数据库,其中服务器包括事件关联和风险评估等重要模块。

4 事件关联模块的设计

所谓事件关联不单单指关联这一具体操作,它包括一系列的处理过程,如报警规格化、报警过滤和报警融合等。本文中事件关联模块的具体流程见图2。

下面将详细介绍关联模型中的关键技术。

4.1 报警规格化

鉴于不同类型的Sensor具有不同格式的报警事件描述,因此作为事件关联的第一步,需要采用标准的数据格式对报警事件进行描述。IDMEF[9]是IDWG发起的一份建议草案,它通过定义各种安全设备之间进行互操作的数据格式,实现信息共享。

如图3所示,参考IDMEF,本文建立了报警对象(Alert object)数据结构,包括Sensor,Signature,Target,Source,Response等子类,分别描述了Sensor的地址和属性,攻击事件详细说明,被攻击者的地址和主机属性,攻击者的地址和主机属性,安全响应策略等信息,多源异构的Sensor采用报警对象存储报警事件,并向上层结构发送进行统一处理。

4.2 报警过滤

由于网络的复杂性和攻击的不确定性,多源异构的Sensor所产生的报警可能存在某种错误,直接对包含错误信息的事件进行关联处理,将影响关联的准确度和执行效率。因此需要对原始报警事件进行过滤,消除噪音数据。下面总结了报警事件可能出现的几种错误:

时间错误:在分布式系统中,硬件环境的差异或人为因素的干扰,各子系统时钟的不一致是正常现象,但这可能导致错误的关联分析。因此在事件过滤过程中,将针对事件的时间值进行检测;

地址错误:许多黑客在进行DOS攻击时,为了掩盖自身信息往往伪造地址,填写错误的源地址或根本不存在的IP地址。大量的伪造地址将严重影响事件关联分析,因此需要对事件的IP地址进行检查;

攻击错误:网络攻击总是针对特定的操作系统或漏洞进行的,若在事件报告中,攻击事件与目标系统的实际情况不符,则可认为是Sensor的检测信息出现了错误。如:当事件报告了Ftp攻击事件而目标主机根本未开放Ftp时,可以认为这是一个错误的事件报告。

4.3 报警合并

在原始报警信息中,存在这样的情况:两条或多条报警包含相似的信息,具有固定的内在联系,描述同一个攻击事件,由多个异构Sensor产生,本文称其为重复事件。合并重复事件有利于提高关联效率,同时也帮助管理员从整体上把握网络的安全状况。

合并重复事件需要对事件的4个属性进行考察,以确定待检测的事件是否为重复事件,第5个属性给出了重复事件的敏感度:

Attack Name:攻击事件的名称;

Source IP Address:攻击者的IP地址;

Target IP Address:被攻击者的IP地址;

Detect Time:Sensor检测到攻击的时间;

Sensitivity:经过合并处理后的事件敏感度,指出了该事件对系统安全的威胁程度,取值范围是[0,1]。若取值为0时,说明重复事件对系统没有影响,可以丢弃该事件。

当系统收到新的报警事件B的时候,查找、合并重复事件的算法如下:

(1)根据B的Attack Name进行分类,查找相应攻击类型事件列表;

(2)遍历该攻击的事件列表,按B的Source IP Address搜索,假设找到事件A,如果A具有和B相同的源地址,则继续按B的Target IP Address匹配。若匹配成功,转(4);若匹配不成功,则转(2)重新按B的Source IP Address进行匹配。若事件列表已为空,则转(3);

(3)将B加入属于Attack Name攻击类型的事件列表,将Detect Time记入Start_detect_time字段并启动计时器,退出函数,等待下一个事件的到来;

(4)判断B与A是否为重复事件,若是,则A事件Count属性计数加1,调用SensitivityCount()函数计算Sensitivity值,并更新A中Sensitivity属性的值,使用B的Detect Time更新End_detect_time字段,计时器重新计时;

(5)计时器时间到,将重复事件A输出,同时输出Count,Start_detect_time,End_detect_time,Sensitivity等属性,清除事件列表中的过期事件A。

5 实验分析

为了评价上述事件关联技术,本文利用网络安全管理平台做了实验分析。实验中我们使用DARPA入侵检测评价数据库作为背景数据,然后发动一系列攻击行为产生被检测报警数据,下面将详细介绍实验环境、实验步骤和实验结果分析。

5.1 实验环境

实验环境搭建在内部局域网上,如图4所示,利用集线器连接了六台主机,使用snort作为入侵检测工具,使用Nessus作为网络漏洞扫描工具。其中,网络安全管理平台的服务器运行在192.168.80.45上,事件收集器、监控终端以及snort运行在192.168.80.39上,Nessus的客户端和网络安全管理平台的数据库建在192.168.80.43上,主机192.168.80.23上运行Nessus服务器端,而主机192.168.80.40则用于发起攻击,攻击的目标主机为192.168.80.190。

5.2 实验步骤

1)在192.168.80.43上利用Nessus扫描整个局域网,并把扫描结果存放到数据库中。

2)在192.168.80.45上启动网络安全管理平台的服务器。

3)在192.168.80.39上启动snort,使其处于网络入侵检测模式,并启动网络安全管理平台的事件收集器和监控终端。

4)实施攻击。

具体的攻击步骤如下:

(1)利用Nmap对192.168.80.190进行端口扫描,获得其操作系统类型、开放端口及服务类型;

(2)利用ms04011.exe对其发动缓冲区溢出攻击,并获得其访问控制权限;

(3)利用192.168.80.190对192.168.80.23发动Ping of Death攻击。

针对以上攻击步骤,snort产生了15条报警:2条SNMP request udp报警,2条SNMP public access udp报警,3条SNMP AgentX tcp request报警,3条NETBIOS SMB-DS IPC$unicode share access报警,3条NETBIOS SMB-DS DCERPC LSASS exploit attempt报警和2条ICMP Large ICMP Packet报警。

5.3 实验结果分析

先前Peng ning等人利用基于攻击前提和后果的关联技术开发了一个入侵报警分析工具—TIAA[10,11],但此工具是离线的,而且数据源仅为单个IDS。由于本文所提到的安全管理平台目前还处于研究开发阶段,所以我们只对其进行了简单的测试。从测试结果来看,此事件关联模型能够有效的分析报警事件,大大减少了报警数量。与TIAA相比,此事件关联模型具有以下优势:

1)因为它是实时安全管理平台中的核心模块,所以它可以接近实时的处理安全事件以便即时做出响应;

2)它所关联的安全事件来自多种异构安全设备,这样就提高了关联操作的准确度;

3)它在真正执行关联操作之前对原始安全事件做了一系列的处理,包括事件规格化、事件过滤和事件合并,这样就大大提高了安全事件的质量,减少了安全事件的数量,从而可以提高事件关联的效率。

6 总结以及未来工作

本文对传统的基于攻击条件和结果的关联技术进行了改进和扩充,并进行了简单的测试,但由于条件有限,此模型还有待进一步的验证。虽然此模型在真正关联报警之前对报警做了预处理,减少了报警数量,在一定程度上提高了关联效率,但我们的目的是实现一个实时安全管理平台,所以当报警相当多的时候,执行效率仍是一个需要考虑的问题,所以我们下一步的工作重点是要进一步的完善事件关联模型,使其真正达到实时关联。

参考文献

[1]Cuppens F.Managing Alerts in a Multi-Intrusion Detection Environment[C].17th Annual Computer Security Applications Conference New-Orleans,New-Orleans,USA,December 2001.

[2]Carey N,Mohay G M,Clark A.Attack Signature Matching and Discovery in Systems Employing Heterogeneous IDS[R].ACSAC,2003:245-254.

[3]Cuppens F,Autrel F,Mi`ege A,et al.Correlation in an intrusion detection process[R].Internet Security Communication Workshop(SECI),September 2002.

[4]Cuppens F,Ortalo R.LAMBDA:A Language to Model a Database for Detection of Attacks[R].Third International Workshop on the Re-cent Advances in Intrusion Detection(RAID'2000),October 2000.

[5]Valdes A,Skinner K.Probabilistic alert correlation[C].Proceedings of the 4th International Symposium on Recent Advances in Intrusion Detection(RAID 2001),2002:54-68.

[6]Dain O,Cunningham R.Building scenarios from a heterogeneous alert stream[C].Proceedings of the2001IEEE Workshop on Informa-tion Assurance and Security,2001:231-235.

[7]Ning P,Cui Y,Reeves D S.Analyzing intensive intrusion alerts via correlation[C].Zurich,Switzerland:Proceedings of the5th International Symposium on Recent Advances in Intrusion Detection(RAID 2002),2002.

[8]Ning P,Cui Y,Reeves D S.Constructing attack scenarios through correlation of intrusion alerts[C].Washington,D C:Proceedings of the 9th ACM Conference on Computer and Communications Security,2003:245-254.

[9]Wood M,Erlinger M.Intrusion Detection Message Exchange Requirements[Z].Internet-Draft draft-ietf-idwg-requirements-10,October 2002.

[10]Peng Ning,Yun Cui,Douglas Reeves,et al.Tools and Techniques for Analyzing Intrusion Alerts[J].ACM Transactions on Information and System Security,2004,7(2):273-318.

基于关联规则的成绩预警模型的实现第5篇

数据挖掘是一门技术, 它是指从海量的、不完整的、可能是噪声的、模糊的、实际应用数据中, 挖掘出隐含在海量数据中的、未知的但又是潜在有用的信息和知识的过程[1]。大学开设的各门课程之间有一定前后顺序关系, 而且某一门课程掌握的程度可能会对另外一门课程的学习产生较大的影响[2]。若能利用关联规则技术对教学系统中的成绩数据库进行挖掘, 就能从这些数据中挖掘出隐藏在数据背后的有用规则。尤其是对不及格课程的挖掘, 其结果对学生的学习具有较好的预警作用。学生可以据此科学的安排学习计划, 减少不及格科目, 提高学习效率。这对于高校的教学工作有着很好的指导意义。

2 数据预处理及数据库的规范化设计

数据预处理是对源数据进行加工, 包括处理噪音数据, 对丢失的数据进行填补, 消除“脏”数据, 处理重复记录等[3]。原始数据为两个Excel文件, 包括计算机系128名学生、2个学年、30门课程的成绩。原始成绩数据比较完整、数据噪声小。但成绩为数字类型, 无法直接进行数据挖掘, 必须将记录离散化。为此, 对原始数据进行如下处理:

首先, 将Ecxel文件导入到SQL Server 2005数据库系统, 并将导入表命名为“有效成绩”。

其次, 将成绩划分为是三个等级, 优秀、及格和不及格, 具体标准是:优秀:成绩>=90;及格:60<=成绩<90;不及格:成绩<60。

预处理后的数据表DM包括课程名称 (nvarchar (50) , 主属性) , 学号 (int, 主属性) , 姓名 (nvarchar (10) ) , 成绩 (nvarchar (50) ) 4个字段。

关系数据库中的关系必须满足一定的要求, 即满足不同的范式。目前关系数据库有第一范式 (1NF) 、第二范式 (2NF) 、第三范式 (3NF) 、BC范式 (BCNF) 等。一般说来, 数据库设计时要满足第三范式 (3NF) 。

为了使待挖掘数据库满足第三范式, 将表DM分解为学生、课程、成绩三个表, 以消除传递函数依赖。因为学号和课程号在挖掘过程中没有实际意义, 为方便循环, 直接用序号依次原始值。规范化后的结果是:待挖掘数据库包含存储学生基本信息的Student表 (包括学号, 姓名, 其他信息3个字段) , 存储课程信息的Course表 (包括课程编号, 课程名称, 学期3个字段) , 存储成绩信息的Grade表 (包括学号, 课程编号, 成绩, 等级4个字段) , 以及存储频繁项集的PFXJ表 (包括项数、项集、支持频度3个字段) 。

3 基于关联规则的成绩预警模型的实现

3.1 成绩预警模型的系统实现

C#是微软公司发布的一种面向对象的、运行于.NET Framework之上的高级程序设计语言。本文在Windows XP SP3操作系统内, 基于.NET平台, 采用Microsoft Visual Studio 2008开发工

基金支持:江苏省2012年度“青蓝工程”优秀青年骨干教师。具和Microsoft SQL Server 2005数据库服务器, 使用C#语言作为开发语言, 实现了基于关联规则的成绩数据挖掘系统——DMSystem。

对解决方案的部分说明:

(1) Classes文件夹:该文件夹包括四个类文件, 即Apriori、SQLMannage、To Excel和To Word。Apriori类主要为Apriori算法的实现;SQLMannage类是数据库操作类, 所有数据库操作相应函数均封装在该类内;To Excel类为将分析结果导出到Excel文件的实现类;To Word类为将分析结果导出到Word文件的实现类。

(2) Forms文件夹:该文件夹包含三个用户界面的设计及相应代码, Choose窗体为课程选择界面, 可从中挑选要进行数据挖掘的课程;Data Anlysis窗体为数据基本分析界面, 可对成绩数据做基本分析;Data Mining窗体, 是系统主窗口, 用于数据挖掘。

3.2 关联规则分析

取最小支持度为20%, 最小置信度为30%, 事务项数取2, 得到部分重要关联。

部分关联模式举例如下: (1) 操作系统、离散数学、通信概论、计算机网络之间有很强的关联性, 这几门课程均为计算机专业重要的专业基础课, 课程之间关联性很强。 (2) 电工电子、物理、硬件课程设计以及物理实验之间互相影响很大。为此类课程对动手能力和物理硬件知识的要求较高, 关联较强不难理解。 (3) 邓小平理论和三个代表课程与马克思主义原理之间关联性很强, 该规则符合常识。 (4) 从中也发现一些不太常见的关联, 如英语与很多思想课程如形势与政策和史纲之间关联性很强。

据上述关联规则, 结合教学工作实际, 得出下列教学建议: (1) 若某学生物理不及格, 则应提醒他其物理实验和电工电子课程也有可能出现不及格, 另外, 也应提醒他注意硬件课程设计和计算机网络的学习。 (2) 对于离散数学不及格的学生应特别注意, 因为离散数学会对很多计算机专业课程 (如操作系统、计算机网络等) 有较大影响, 从而影响整个计算机专业课程的学习。 (3) 各类思想教育类课程, 如邓小平理论和马克思主义原理等之间关联较强, 应引起学生重视。

据上述分析, 本课题得出的结论是比较可信的, 具有一定的现实指导意义。

摘要：研究如何对待处理数据进行预处理, 对数据库进行规范化设计。使用Apriori算法对某计算机系128名学生的30门课程进行挖掘。在.NET平台上, 使用C#语言实现了Apriori算法, 开发出了可视化的成绩预警模型DMSystem, 得出若干条关联规则, 实现了成绩预警。成果对于学校教学工作具有较好的指导性。

关键词：数据挖掘,关联规则,Apriori算法,成绩预警模型,.NET

参考文献

[1]Jiawei Han, Micheline Kamber著, 范明, 孟小峰译.数据挖掘-概念与技术[M].北京:机械工业出版社, 2007:1-7+30-51+146-155.

[2]张岩, 李爱秋.高校学生成绩预警系统的改进研究[J].沈阳:沈阳师范大学学报 (自然科学版) , 2010.4:225-228.

工程图投影域逻辑关联关系模型研究第6篇

对投影视图的研究, Okino[1]提出了生物型模型的概念。Taylor[2]提出了具有特定工程含义的产品定义单元的概念。孙正兴等[3]定义了逻辑结构单元的概念。伊国栋[4]提出了产品信息的符号建模原理与方法。黄长林[5]提出了基于功能结构-结构视图模型的零件族建模方法。冯毅雄[6]提出了基于联结单元的零件结构进化模型。

以投影视图模型理论为基础, 通过对矢量工程图图元信息的智能化处理, 依据各投影视图蕴涵的内在关联机理及工程图表达产品设计信息的规律, 提出了投影域的概念并对其进行技术获取。根据工程图的投影规律和表达规则, 研究了投影域间的逻辑关联关系。以投影域之间的逻辑关联关系为基础, 给出了逻辑关系的判别算子, 并研究了投影域逻辑关系获取算法。通过对投影域关联关系的获取, 以投影域逻辑关联关系模型为基础, 达到对工程图的检索评价。

1 投影域概念

产品投影域 (PR) 是在投影理论的约束下, 描述对象的几何形状信息和设计特征, 并蕴涵产品的其他非几何信息属性。根据正投影的投影特性、表达产品绘制规范的可视性及构建工程图拓扑结构的层次性, 将投影域分为轮廓投影域 (CPR) 、实投影域 (RPR) 和虚投影域 (VPR) 。

2 投影域间的逻辑关联关系

2.1 投影域的极值域

在工程图中, 空间的每个面域在各视图中都有相应的投影域与之映射对应, 并且它们之间满足正投影的“三等关系”特性。

对任一投影域, 其投影域极值域 (ER) 表示为

式中, max U、max D、max L、maxR分别为PR的最高、最低、最左、最右点坐标值, 如图1所示。

2.2 空间位置关系

空间位置关系 (SPR) 指两投影域之间空间相互拓扑邻接关系。空间位置关系分为方位位置关系 (OPR) 、拓扑位置关系 (TPR) 。如图2为投影与之间的各种方向位置关系。

拓扑位置关系 (TPR) 包括相离位置关系 (DPR) 、邻接位置关系 (APR) 和包含位置关系 (IPR) 三大类, 如图3所示, 定义投影域间的拓扑位置关系集合TPR如下:TPR={DPR, APR, IPR}。

如图3 (a) 投影域PRi和其他投影域之间的TPR为DPR关系;如图3 (b) 投影域PRk和其他投影域之间的TPR为APR关系;如图3 (c) 投影域PRn和其他投影域之间的TPR为IPR关系。

2.3 投影域间的关联关系

根据视图内部逻辑关系, 将投影域间的关联关系分为空间关联关系 (SAR) 和逻辑语义关系 (LSR) 。

SAR关系是投影域间的相对几何位置关系。LSR关系是相邻投影域所组成的投影域组合所表达的功能特征结构视图属性及工程语义等。投影域的关联关系 (PR_AR) 可描述为PR_AR={SAR, LSR}, 其中, PR_AR表示关联关系, SAR表示空间位置关系, LSR表示逻辑语义关系。

如图4 (a) 、 (b) 、 (c) 为投影域构成台阶孔、沉孔和盲孔等不同的特征视图属性。图 (a) 中PRi与PRi+1之间的SPR关系为邻接, 而其LSR关系则聚合为功能特征属性的台阶孔视图特征;图 (b) 中PRj与PRj+1之间的SPR关系为包含且同心, 而其LSR关系则聚合为功能特征属性沉孔的视图特征;图4 (c) 中PRk与PRk+1之间的SPR关系为邻接且对称, 而其LSR关系则聚合为功能特征属性盲孔的视图特征。

3 投影域逻辑关系获取算法

3.1 逻辑关系判别

逻辑关系判别主要包括相离位置关系判定、邻接位置关系的判定和包含位置关系判定。如图5为规则的邻接位置关系示意图。

3.2 投影域逻辑关系获取算法

算法:投影域间逻辑关系获取算法。

输入:获取投影域集合{CPRi}{RPRj}{VPRk}。

输出:反映投影域拓扑逻辑关系矩阵M_SPR。

Step1:依据视图分离和投影域获取算法所得到结果, 即三类投影域{CPRi}、{RPRj}、{VPRk}集合中的每个PR, 进行循环处理, 令k=1, 其中, 1

Step2:对投影视图的视图个数k进行循环处理;

Step3:对投影视图的视图k中的投影域的个数j进行循环处理;

Step4:由于在每个视图中, 都有唯一的{CPRk}投影域, 首先得到视图k中的轮廓投影域{CPRk}, 并将其作为视图k中的第一个投影域单元;

Step5:以投影视图k中的投影域的个数m为依据, 建立投影空间位置关系矩阵SPR_k, 首先对投影空间位置关系矩阵SPR_k进行初始化, 由于对于每个投影视图中的{CPRk}, 包含了其他的所有的投影域域单元, 所以在矩阵SPR_k中, 第一行元素除过第一对角元素为0外, 其他元素和{CPRk}的空间位置关系IPR=1都成立, 即SPR_k矩阵为

Step6:再对投影视图的视图k中的其他投影域进行循环处理, 初始化, 令t=j+1, 其中, j

Step7:在投影视图k中, 对投影域prji和投影域prti的空间位置关系进行判定:IPR (prji, prti) 、DPR (prji, prti) 和APR (prji, prtk) 关系判定, 若其中一个关系成立, 对矩阵SPR_k的j行第t列进行位置关系确认设置;

Step7.1:若DPR (prji, prti) 关系成立, 则对矩阵SPR_k的j行第t列进行DPR位置关系设置, t=t+1, 若t

Step7.2:若APR (prji, prtk) 关系成立, 则对矩阵SPR_k的j行第t列进行APR位置关系设置, t=t+1, 若t

Step7.3:而对于投影域prji, prti之间包含关系的判定, 则需评定包含关系的从属性, 首先评定IPR (prji, prti) , 即第j个投影域是否包含第t个投影域, 若成立, 则设置矩阵SPR_k的j行第t列的IPR关系成立, t=t+1, 若t

Step7.4:评定IPR (prti, prji) 之间的包含关系, 即第t个投影域是否包含第j个投影域, 若成立, 则设置矩阵SPR_k的j行第t列的IPR关系成立, t=t+1, 若t

Step8:j=j+1, 若j<=m, 则转Step6, 否则, 转Step9;

Step9:k=k+1, 若k<=n, 则转Step3, 否则, 转Step2;

Step10:设置并保存投影视图中反映投影域拓扑逻辑关系矩阵M_SPR;

Step11:算法结束。

4 实验结果

建立了组合体投影视图库 (PVR) , 从简单的单面投影视图、复杂的单面投影视图, 到简单的三面投影视图和中等复杂的三面投影视图, 进行了投影域获取的算法实现, 并对获取的多边形投影域端点的排列顺序、端点对应内角的凸凹性、端点对应内角的角度大小、构成多边形投影域边的类型和排列顺序等信息进行获取, 通过实验验证, 取得了较好的实验效果。如表1所示, 为投影域获取实验过程中的部分工程图实例获取属性的结果分析, 分别从视图的数量、投影域的个数和投影域内角的属性等方面进行分析和统计, 取得了较好的实验结果。

表中, View_Obt为视图数目的获取, A-PR为投影视图中的投影域的总数目, M-PR为主视图投影域的总数目, T-PR为俯视图投影域的总数目, L-PR为左视图投影域的总数目, Conv_Conc为所有多边形投影域内角的凸凹性, Or为投影视图中原有的投影域数目, Ob为投影域获取实验对应获取到的投影域数目。Or/Ob为原有和识别出的投影域的数目等其他属性的整体表示, Ra为Or/Ob的比值即投影域及其他属性获取的正确率。

如图6为减压阀阀体工程投影图, 由18个投影域组合而成, 投影域之间具有不同的基本图元构成关系和不同的凸凹性和内角大小的属性。图7为其投影域获取理想投影域的分解图, 图8为投影域获取的实验过程序列截图, 先获取圆投影域, 再获取多边形投影域单元, 实验获取结果与理想的获取结果相符。

5 结束语

通过对矢量工程图底层图元信息的智能化处理, 在投影视图模型的理论基础上, 提出了投影域的概念并对其进行技术获取, 根据工程图的投影规律和表达规则, 研究了投影域间的逻辑关联关系。以投影域之间的逻辑关联关系为基础, 给出了逻辑关系的判别算子, 并研究了投影域逻辑关系获取算法。以此为基础, 达到对工程图的检索评价。

参考文献

[1] Okino N.A prototyping of bionic manufacturing system.Proc of Object Oriented Manufacturing System, 1992;297—302

[2] Taylor L E.Meat-phsycal product modeling.Doctoral Dissertation, Arizona State University, 1993;56—60

[3] 孙正兴, 张福炎.CAD中的逻辑结构造型方法研究.机械设计, 1999;3:1—4

[4] 伊国栋.产品信息符号建模理论、方法及其应用研究.杭州:浙江大学, 2003;98—101

[5] 黄长林, 谭建荣, 张树有.结构-视图模型下零件可变型设计方法.计算机集成制造系统, 2005;17 (10) :2330—2333

两种数据关联算法的比较第7篇

1 最近邻算法

最近邻算法 (NNSF) 是Singer和Sea于1973年提出的一种利用先验统计特性估计相关性能的滤波算法。它的基本原理是首先设置跟踪门以限制参与相关判别的目标数目, 由跟踪门初步筛选得到的回波作为候选回波。跟踪门是跟踪空间中的一块子区间, 中心位于被跟踪目标的预测位置, 其大小的设置应保证以一定的概率接收到正确回波。

如果落入当前相关跟踪门内的量测值仅有一个, 那么直接用该量测值进行航迹更新;当落入当前相关跟踪门内的量测值不只一个, 那么选择离被跟踪目标预测位置统计距离最近的候选回波作为目标回波进行航迹更新。

统计距离最近, 即使:

达到最小的量测。

最近邻算法由于计算简单, 便于实现, 得到了广泛的应用。但其在杂波环境中滤波效果较差, 这是因为杂波环境下离预测位置最近的量测不一定是源于目标的正确量测。

2 概率数据互联算法

在最近邻算法中, 当落入跟踪门内的候选回波有一个以上时, 选择的是统计距离最近的候选回波作为目标回波。而概率数据互联算法 (PDAF) 认为:落入当前相关跟踪门内的候选回波都可能是源于目标的回波, 只是每个回波源于目标的概率不同。PDA方法综合考虑了落入跟踪门内的所有回波, 根据不同的相关情况计算出各个回波来自目标的概率, 然后利用这些概率值对相关的回波进行加权, 并将所有候选回波的加权和作为等效回波对目标进行状态更新。

概率数据互联算法只对最新的量测进行研究, 因而是一种次优的滤波方法。该方法可以很好地解决杂波环境下单雷达单目标跟踪问题, 计算量相对较小且跟踪精度较高, 一经提出, 便受到广泛关注。但其在多目标环境 (特别是波门有交叉的) 下, 常常会发生目标航迹的偏移和聚合, 跟踪性能不佳。

3 仿真分析

目标起始状态为X0=[10, 1, 10, -15]', 波门内虚假量测数m0=λVk=4, 探测概率Pd=1, 门概率Pg=0.997, 门限γ=16, 雷达采样间隔T=1s, 仿真步数100步 (见图1、2、3) 。

图1为NNSF算法估计的目标位置x轴分量的轨迹。从图中可以看出杂波环境下NNSF算法出现了跟踪丢失。图2为PDAF算法估计的目标位置x轴分量的轨迹。图3为两种方法的跟踪对比图。从图中仿真结果可以看出, 在杂波环境下PDAF算法的滤波效果要明显好于NNSF算法。

4 结语

本文对多目标跟踪中最典型的数据关联算法进行了介绍, 阐述了其基本原理, 并结合仿真实验指出了它们的优缺点。NNSF算法计算简单, 但在杂波环境中滤波效果不佳;PDAF算法实时性较好, 在稀疏杂波环境下滤波效果较优, 但在密集回波环境下跟踪性能较差。

参考文献

[1]R.A.Singer, R.G.Sea.New results in Optimizing Surveillance System Track-ing and Data Correlation Performance in Dense Multitarget Environments[J].Au-tomatic Control, 1973, 18 (6) :571～582.

[2]何友, 修建娟, 等.雷达数据处理及应用[M].电子工业出版社, 2009.

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处

【数据关联模型】相关文章：

关联数据库06-10

贸易信贷调查数据与企业会计制度关联性研究11-15

基于FCM的多传感器融合多目标跟踪的数据关联06-17

基于关联规则的数据挖掘技术在网络教学中的应用探讨09-11

基于关联规则的数据挖掘技术在提高课程教学质量中的应用09-11