特征判别范文

2024-07-29

特征判别范文(精选7篇)

特征判别 第1篇

文本可分为主要陈述事实的客观性文本和主要表达意见、情感的主观性文本。倾向性文本判别就是将倾向性文本 ( 即主观性文本) 与无倾向性文本 ( 即客观性文本) 区分开来。它不仅是文本倾向性分析的基础, 且本身也有很多重要的用途。

目前倾向性文本判别多采用基于统计的方法, 其中特征集的选取十分重要。本文统计和分析了倾向性文本判别与词性、依存关系之间存在的客观规律, 得出的结论可以作为倾向性文本判别与分析、文本按主题分类中机器学习算法特征集选取的参考。

文本倾向性分析相关的工作中特征集选取广泛采用词级特征。有以下2 种方法: ( 1) 基于倾向性词典、语料库等识别文本中具有明显倾向性的词 ( 即评价词语) 的方法[1]; ( 2) 利用词语搭配来判别倾向性文本。这种方法具有一定的分析隐含倾向性和领域相关倾向性的能力。

在利用句法特征和依存关系特征作为特征集方面: 徐睿峰、揭春雨主要考虑了情感词类别、情感词与程度副词依存比例以及情感词与情感动作动词共现的比例[2]。郝博一等利用依存分析和词性抽取产品的候选属性[3]。姚天昉等基于句法分析和特定依存关系总结出一些规则, 用于评价单元的识别[4]。赵妍妍等利用句法路径进行情感评价单元自动识别[5]。

1 准备知识

词性是指作为划分词类根据的词的特点, 如名词 ( n) , 动词 ( v) , 形容词 ( adj) 等。本文使用的词性标注集与哈尔滨工业大学社会计算与信息检索研究中心研发的语言技术平台 ( 简称LTP) 相同。词性标注集名称与缩写请参考文献[6]。

依存关系的概念由依存语法衍生而来。依存语法理论又称配价语法, 是由法国语言学家特思尼耶尔创立[7]。周国光将配价 ( 依存) 语法定义为“一种结构语法。它主要研究以谓词为中心而构句时由深层语义结构映现为表层句法结构的状况及条件, 谓词与体词之间的同现关系, 并据此划分谓词的词类”[8]。1970 年美国计算语言学家J . Robinson提出了依存关系的四条公理, 这为依存语法的形式化描述及在计算语言学中的应用奠定了基础。

特思尼耶尔认为句法有别于语义, 他将二者用“结构平面”和“语义平面”加以区分[7]。鲁川[9]将文本中的句子“剖析”成“两个平面”。跟显性的、有序的、省略的、一维的“表层结构”一致的“句法平面”和跟隐性的、无序的、完整的、多维的“里层结构”一致的“语义平面”。词性是句法平面的部分, 依存关系属于语义平面。

徐睿峰、揭春雨将倾向分析技术中的特征集分为词级特征、词语依存特征、语义特征、上下文特征[2]。

Linking Theory是由Levin和Rappaport Hovav在文献[10]中提出的, 揭示了句法平面和语义平面之间存在联系。例如: 在FrameNet[11]中Communication框架中的语义角色SPEAKER一般是名词 ( 短语) 或人称代词, 语义角色TOPIC一般是介词短语或名词, 语义角色MEDIUM一般是介词短语。基于此理论, DanielGildea, Daniel Jurafsky在做自动语义角色标注时将短语 ( 包括词) 类型、句法树中的路径、句法成分间相对位置等句法平面的特征作为机器学习方法的特征集[12]。Pradhan等人在Gildea等的基础上增加了中心词词性等特征[13]。刘挺等在文献[14]中采用了更加复杂的句法特征作为最大熵分类器的特征集。

2 实验准备

本文的训练语料分为倾向性语料和普通文本语料。倾向性语料使用谭松波[15]提供的中文情感挖掘语料-ChnSentiCorp, 包括携程网酒店评论 ( ChnSentiCorp-Htl-del-4000) 、当当网书评 ( ChnSentiCorp-NB-del-4000) 、京东电子产品评论 ( ChnSentiCorp-BK-del-4000) 。普通文本语料使用搜狗分类语料库 ( 精简版) [16]以及哈尔滨工业大学LTP源代码中[17]提供的测试语料 ( test_gb. txt) , 包括新闻、文化、教育、财经、健康、招聘、IT、军事、体育和旅行等10 个领域。测试语料使用手工整理的中国移动客服短信数据, 分为有倾向性客服短信和无倾向性客服短信两种。实验所用语料库的规模较多, 涉及的领域较多, 训练数据具有很好的代表性。

语料的预处理使用了哈尔滨工业大学LTP软件。由于LTP对源数据编码和格式的要求, 我们将上述语料的编码由UTF-8转为GB2312, 并去除了包含不可识别编码的句子和只含有外文的句子。语料的统计结果见表1 所示。

LTP对表1 中的语料进行分句, 分词, 词性标注, 依存关系标注处理后保存为xml文件。如: “我喜欢自然语言处理。”的处理结果核心部分为:

处理结果可视化表示如图1 所示。

LTP处理结果以句子为单位, “sent”标签内表示语料中的一句话的处理结果。每个“word”标签表示一个分词结果, POS属性值为分词结果的词性, parent属性值为依存关系中核心词的id, relate属性值为依存关系。例如: 第一个“word”标签里的POS = ″r″ 表示分词结果“我”的词性是代词。parent = ″1″表示“我”与分词结果id为“1”的词: “喜欢”之间存在依存关系, 依存关系的方向, 如图1 所示, 从核心节点“喜欢”指向依存节点“我”。relate = ″SBV″表示“我”与“喜欢”之间的依存关系是主谓关系。其他属性和标签的含义可以参考LTP文档[6], 数据可视化结果可以参考LTP网站[18]。

我们使用LTP将表1 中列举的语料分别处理成上述xml格式。本实验也可选取具有分词、词性标注和依赖关系标注的其他语料库, 如Chinese Proposition Bank[19]。

3 实验过程与结论

实验过程是将表1 中列举的语料使用LTP进行分句、分词、词性标注、依存关系标注处理后生成xml文件, 编写程序统计这些xml文件中的词性特征、依存关系、依存关系中词的词性特征、邻接依存关系以及邻接依存关系中词的词性特征。下面分别叙述这5 部分的统计过程和结论。

3. 1 倾向性文本与词性特征

为了寻找存在较大差别的词性, 我们定义词性i上绝对差值Ai和相对差值Di。

其中, Si为所有倾向文本中词性i平均占有率, Gi为所有普通文本中词性i平均占有率。相对差值Di定义为绝对差值Ai与词性i在所有测试语料中平均占有率的商。由于所有语料规模较大, 我们使用 ( Si+ Gi) /2 代替词性i在所有测试语料中平均占有率。

分别统计LTP处理后的表1 中列举的14 类训练语料和2类测试语料中名词、动词等26 类词性的占有率, 计算词性i在倾向性语料中的平均占有率Si和词性i在普通文本语料中的平均占有率Gi以及词性i上绝对差值Ai和相对差值Di, 得到数据表1, 根据表2 的数据绘制成图形, 如图2 所示。

从图2 中可以看出, 动词、标点、助词在倾向性文本和普通文本中所占比例差别不大, 而名词、副词在倾向性文本和普通文本中所占比例差别明显。其他词性由于本身比例较小, 差别在图中显示得不明显, 详细的统计图表请查看文献[20]。

从表2 和网址[20]中关于词性绝对差值和相对差值的统计图表可以看出, Ai较大的词性有: 名词、副词、形容词、数词、地理名。Di较大的词性有: 机构名、叹词、前缀、缩写、拟声词、地理名、人名、专有名词。分别考察这些词性, 得出以下结论:

结论1 名词、副词、地理名、拟声词、叹词、专有名词、缩写和机构名在有倾向性文本与普通文本中占有率差异明显。其中名词、副词、拟声词在有倾向性文本中占有率明显高于普通文本, 地理名、专有名词、缩写和机构名则明显低于普通文本。

结论2 形容词、助词、代词、区别词在有倾向性文本与普通文本中也存在差异但明显程度不如结论1 中的词性。动词、连词、前缀、习语、后缀、数词、方位词、人名、处所、介词、量词、代词、时间、标点、外来语在有倾向性文本与普通文本之间区别较小。

结论3 缩写词在新闻和军事语料中占有率较高, 机构名在新闻和体育语料中占有率较高, 时间词在新闻语料中比例较高, 具有领域相关性。

3. 2 倾向性文本与依存关系

分别统计LTP处理后的表1 中列举的14 类训练语料和2类测试语料中实际出现的21 类依存关系d所占的百分比, 计算依存关系d在倾向性语料中的平均占有率Sd和在普通文本语料中的平均占有率Gd, 编写程序按照式 ( 1) 与式 ( 2) 类似的方法分别计算21 类依存关系在有倾向性文本和普通文本中占有率的绝对差值Ad和相对差值Dd。得到数据如表3 所示, 绘制图表, 详细的统计图表请查看文献[20]。

绝对差值前5 位的是: 定中关系、状中结构、语态结构、介宾关系和并列关系。相对差值前5 位的是前附加关系、并列关系、“地”字结构、比拟关系和语态结构。重点考察绝对差值和相对差值较高的依存关系, 结合文献[20]的统计图表可以得出以下结论:

结论4 状中结构、语态结构、定中关系、并列关系、前附加关系在有倾向性文本与普通文本中占有率差异明显。其中状中结构、语态结构在有倾向性文本中占有率明显高于普通文本。定中关系、并列关系、前附加关系则明显低于普通文本。

结论5 动补结构、“得”字结构、介宾关系、后附加关系、比拟关系、连动结构有一定差异。其他依存关系差异小。

结论6 同位关系在财经语料中比例较高, 依存分句在体育语料中比例较底, 独立分句在财经语料中比例较高, 数量关系在体育语料中比例较高。

3. 3 倾向性文本与依存关系中词的词性特征

依存关系中词的词性特征定义为依存关系中箭头两端的词的词性组合, 简记为2-POS。2-POS表示方法: 核心词词性标注在前, 依附词词性标注在后, 中间用“_”连接。如图1 所示:“我”与“喜欢”是主谓关系, 箭头从动词“喜欢”指向代词“我”, 这里的2-POS表示为v_r ( 即动词代词序列的缩写) 。

分别统计LTP处理后的表1 中列举的14 类训练语料和2类测试语料中不同2-POS所占的百分比, 绘制成图形。词性间的组合有28 ×28 =784 种, 详细的统计图表和具体的量化数据请查看文献[20]。

编写程序按照式 ( 1) 与式 ( 2) 类似的方法分别计算每个2-POS的绝对差值和相对差值。绝对差值前5 位的是: v_v ( 即动词动词序列的缩写) , n_v ( 即名词代词序列的缩写) , d_v ( 即副词动词序列的缩写) , u_v ( 即助词动词序列的缩写) 和v_h ( 即句子中心词为动词的缩写) 。相对差值前5 位的是ws_v ( 即外来语动词序列的缩写) , n_a ( 即名词形容词序列的缩写) , d_a ( 即副词形容词序列的缩写) , a_v ( 即形容词动词序列的缩写) , r_v ( 即代词动词序列的缩写) 和d_v ( 即副词动词序列的缩写) 。词性标注的含义可以参考LTP文献[6]。

重点考察绝对差值和相对差值较高的2-POS, 结合文献[20]的统计图表可以得到以下结论:

结论7 副词动词序列、助词动词序列、名词形容词序列、形容词动词序列、副词形容词序列在有倾向性文本中比例较高, 名词名词序列、地理名名词序列在有倾向性文本中比例较低。

结论8 介词动词序列、名词介词序列、量词动词序列、人名动词序列、动词名词序列、数词名词序列、代词助词序列有一定差异, 其他2-POS差异小。

结论9 量词动词序列在体育语料中比例较高, 人名动词序列在体育、文化语料中比例较高, 外来语名词序列在财经、IT语料中比例较高, 地理名名词序列在新闻、军事、旅行语料中比例较高, 数词量词序列在新闻、体育语料中比例较高。

3. 4 倾向性文本与邻接依存关系

如果两个依存关系在句法平面存在共用的词, 且两个依存关系的跨度没有包含关系则称这两个依存关系组合为邻接依存关系, 简记为2-DEP。特殊的, 核心结构不与任何依存关系包含。如图1 所示, 存在四个邻接依存关系组合: HED_SBV ( 即核心_主谓关系序列缩写) , HED_VOB ( 即核心_动宾关系序列缩写) , SBV_VOB ( 即主谓_动宾关系序列缩写) , ATT_ATT ( 即定中_定中关系序列缩写) 。不包括VOB_ATT ( 即动宾_定中关系序列缩写) , 因为动宾关系VOB ( 喜欢, 处理) 的跨度包含了定中关系ATT ( 处理, 语言) 。

分别统计LTP处理后的表1 中列举的14 类训练语料和2类测试语料中不同类型2-DEP所占的百分比, 绘制成图表, 2-DEP组合有21 × 21 = 441 种, 详细的统计图表和具体的量化数据请查看文献[20]。

编写程序按照式 ( 1) 与式 ( 2) 类似的方法分别计算每个2-DEP在倾向性语料与普通文本中的绝对差值和相对差值。重点考察绝对差值或相对差值较高的2-DEP组合, 结合文献[20]的统计图表得出以下结论:

结论10 VOB_MT, SBV_MT, H_IC, ADV_CMP, SBV_IC, ADV_IC, IC_VOB, ADV_ADV, ADV_MT在倾向性文本中比例高于普通文本, ATT_ATT, ATT_DE, VOB_COO, QUN_ATT, ATT_COO, IC_IC在倾向性文本中比例低于普通文本。

结论11 ATT_APP、ADV_ATT在财经语料比例较高, QUN_ATT在新闻和体育语料中比例较高, H_ATT在体育和财经语料中比例较高, ATT_IS在新闻语料中比例较高, ATT_ATT、ATT_SBV在新闻和财经语料中比例较高。

3. 5 倾向性文本与邻接依存关系中词的词性特征

邻接依存关系中词的词性特征定义为两个邻接依存关系句法平面对应的词的词性组合, 简记为3-POS。3. 4 节所述的邻接依存关系HED_SDV, HED_VOB, SDV_VOB, ATT_ATT对应的3-POS分别为: h _v _r ( 即句子中心词为动词与代词的序列的缩写) , h_v_v ( 即句子中心词为动词与动词的序列的缩写) , r_v_v ( 即代词动词代词序列的缩写) 和n_n_v ( 即名词名词动词序列的缩写) 。

分别统计LTP处理后的表1 中列举的14 类训练语料和2类测试语料中不同类型3-POS所占的百分比, 绘制成图表, 词性间的组合有28 × 28 × 28 = 21 952 种, , 详细的统计图表和具体的量化数据请查看文献[20]。

编写程序按照式 ( 1) 与式 ( 2) 类似的方法分别计算每个3-POS的绝对差值和相对差值。重点考察绝对差值或相对差值较高的3-DEP组合, 结合文献[20]的统计图表得出以下结论:

结论12 d_v_v、d_v_u、v_v_u、v_v_a在倾向性文本中比例高于普通文本, p_v_n、v_n_n、h_v_a、h_v_p、p_v_v、n_v_n、n_n_n、n_n_v在倾向性文本中比例低于普通文本。

结论13 n_n_n、n_n_v在新闻和财经语料中比例较高, 在文化和体育语料中比例较低。n_v_n在财经语料中比例较高。nh_v_v在体育语料中比例较高。v _ n _ n在体育语料中比例较低。

4 存在的问题

本文定性地揭示了倾向性文本与普通文本在词性和依存关系等5 个方面客观存在的差异, 整个过程中主要存在以下两方面的问题:

1) LTP在词性标注和依存句法分析方面准确率不够高。LTP依存关系分析的准确率只有75% 左右[17]。一个比较严重的错误是如果依存句法分析器没有找对谓词则整个句子的依存关系将纰漏百出。例如句子: “西门子将努力参与中国的三峡工程建设”。LTP的标注结果如图3 所示, 正确的标注如图4 所示。LTP自动词性标注中将“建设”错标成了动词, 依存句法分析器错认为“建设”为句子的谓词, 没找对谓词, 句子其他部分的依存关系也跟着出错。

另外, 倾向性客服短信语料和非倾向性客服短信语料是来自客服短信的原始数据, 语料中的错字、不规则用语对LTP的准确率的影响也是不可预计的。

2) 为了度量倾向性文本与普通文本在词性或依存关系等5 个方面的差别, 我们定义了绝对差值Ai和相对差值Di, 但依然需要结合词性或依存关系等5 个方面在各个语料中的分布图才能得出准确的判断。主要原因是个别语料的领域相关性也可能造成Ai和Di较高。例如: 人名的Ai与Di均排在前列却不是具有明显差异的词性, 原因如图5 所示, 人名在新闻、文学和体育中比例较高使得Ai和Di较大, 而其他7 类普通文本中人名所占比例与倾向性文本差别并不大。

5 结语

为了获得大规模训练语料, 我们使用了LTP对语料进行自动分析加工。LTP的准确率有限对我们的实验结果有一定的影响: 究竟LTP哪些部分不准确对实验哪些结果有怎样的影响很难判断。但是, 我们提出的问题和实验的方法是有价值的, 且由于我们只是相对定性地得出结论, 相信绝大多数结论是有实际应用价值的。

特征判别 第2篇

关键词:粒子滤波,多实例学习,梯度增强,特征选取

近些年来, 视频跟踪算法在计算机视觉领域得到广泛的研究, 在视频监控、人机交互以及交通管制方面都有着广泛的用途。尽管在背景环境简单目标物不变的情况下, 目标跟踪算法已取得了很多成功, 但跟踪未知的物体仍然存在非常大的挑战。导致跟踪困难的因素有很多, 比如目标物本身存在形变以及突然消失在视野, 以及环境背景存在光照、遮挡的影响以及存在尺度变化等影响。

为提高跟踪的精度, 近年来很多视频跟踪算法都把跟踪视为跟踪与检测两个过程。基于这种模型视频跟踪可看成表现模型与运动模型两部分。由于跟踪序列中目标往往存在变化, 寻找一种自适应的表现模型越来越重要。依据不同的表现模型, 跟踪算法可分为两类:生成模型和判别模型。生成模型从统计的角度观察数据总体分布, 学习一种能表示目标的模型, 然后利用最小重建误差在图像区域内搜素目标。在IVT[1]中, 一种增长的子空间模型被用来学习并搜索目标。通过在线学习机制, 不断更新跟踪模块中显著特征点和检测模块相关模型, TLD[2]算法的精度将会随视频序列的变化不断累加。

与生成模型不同, 判别模型把视频跟踪问题视为一个二值分类任务, 通过寻找分类器的最优决策面进行判断以选取目标。Collins[3]证明了以在线方式选取判别特征会改善跟踪算法的性能。同时, Boosting方法[4]通过结合若干个弱分类器组合成强分类器, 可以显著改善分类器的性能。这些算法中, 以Online Ada Boost (OAB) [5]跟踪算法最为著名。但这些视频跟踪算法只利用观测值附近唯一的正实例, 一旦视频跟踪过程有噪声的引入, 都会遇到目标漂移问题。Babenko提出了一种基于多实例学习的跟踪方法MILTrack[6], 跟踪时以实例集合的形式表示并判断后验概率, 能有效克服跟踪过程中样本的漂移问题。

本文提出的算法能够改善以上提到跟踪算法的漂移问题, 算法的主要贡献有:

①将粒子滤波的运动模型与多实例学习的分类器更新策略相结合, 提出了一种基于粒子滤波运动框架的多实例学习的跟踪算法。运用多实例学习更新分类器模型, 并在下一帧使用粒子滤波运动模型生成所需的样本, 求得每个样本的响应。

②采用粒子滤波的运动模型, 并分解基本运动模型为不同的子运动模型。考虑到粒子滤波运动变化的随机性, 通过构建基于不同方差的运动剧烈情况, 实验跟踪的精度与鲁棒性将会提高。

③提出了一种新的在线特征选取策略。与原始MIL中提到的损失函数不同, 本文在实例水平上主动选取需要的特征, 直接将分类器的权值与样本的重要性相匹配, 并使用梯度增强法搜索目标。

本文提出的算法称为基于在线判别特征选取的粒子滤波跟踪算法, 后文简写为PFFS。算法首先在前一帧的目标周围分别采样半径为α与β (α<β) 正负样本, 通过后文提到的在线主动特征选取方案在上述两个集合中分别抽取特征, 然后在M个弱分类器组成的分类器池中依次迭代选取K个弱分类器, 这些弱分类器线性结合组成强分类器;下一帧到来时, 运用粒子滤波不同的运动模型生成不同的样本集合, 运用强分类器分别求得每个样本不同的响应, 其中最大的响应即为本帧中预测的目标, 重复这一过程即完成视频序列的跟踪。

本文将粒子滤波的运动模型与多实例学习的更新模型相结合, 提出了一种基于粒子滤波框架的在线判别特征选择的跟踪算法 (PPFS) 。后文中, 前两部分将分别讨论粒子滤波运动模型与在线判别特征的选取原理, 第三部分讨论了在线判别特性选取的具体实现细节, 第四部分将以不同的实验环境证明本文提出算法的实际跟踪效果。

1 粒子滤波运动模型

粒子滤波[7]是一种基于蒙特卡洛方法的递归算法。它的基本思想是用一组带权重的随机粒子来近似贝叶斯估计, 进而预测下一时刻的后验概率密度。由于其运动的状态对于非高斯非线性过程没有很严格的约束, 尤其适合视频跟踪。

假定t时刻的状态值为Xt, 直到t时刻的观察值为Y1:t。粒子通过以下的贝叶斯模型预测后验概率p (Xt|Y1:t) :

其中, p (Yt|Xt) 为观测模型, 它用来表示目标对象在t时刻与观测值相似度。p (Xt|Xt-1) 描述的是转移模型, 又称为运动模型, 它表示基于前一时刻的运动状态推算下一时刻运动状态的概率。目标物在t时刻的状态就可以通过最大后验概率估计 (MAP) 求取, 上述概率达到最大值的样本 (粒子) 即为需要预测的状态:

其中, Xt (l) 为状态Xt的第1个样本。

这样, 粒子滤波通过观测与状态模型, 就把运动目标的跟踪问题转化为系统状态的估计问题。值得注意的是, MIL跟踪[6]并没有在每帧中都维护运动分布函数, 下一帧的采样中心点即为上一帧目标物的坐标点, 这样限制了采样目标的随机性。考虑到视频跟踪中, 每一帧的运动变化剧烈程度不同, 本文提出了一种运动模型分解策略。通过把基本的运动模型p (Xt|Xt-1) 分解成若干个子运动模型, 在新的一帧到来时, 分别求取不同子运动模型的最大后验概率p (Xt|Y1:t) , 并在所有运动模型中选取最好的粒子。

假设子运动模型为pm (Xt|Xt-1) , 其中m为运动模型的索引, 并假设实验共选取M个运动模型, 那么每一种特定的运动模型都可以用不同方差σm2的高斯分布来描述:

其中, G表示的是均值为Xt-1, 方差为σm2的高斯分布。

一般来说, 运动的剧烈程度跟方差的取值有关, 方差σm2越小说明选取的样本越集中, 运动就越平滑, 反之亦然。考虑到粒子的运动模型越复杂, 粒子数目也会过剩的原因, 本文中每五帧才更新一次运动模型。

通过不同的运动模型, 实验生成了权值不同的粒子。下一步需要确定每个粒子的权值, 取响应最大的粒子作为视频跟踪的目标位置。第三部分将更详细讨论后验概率的估计方法, 响应结果需转化为概率形式:

其中, 分类器HK由K个弱分类hK构成。

最后, 目标点的位置可由所有粒子中响应最大的粒子决定:

2 在线判别特征选取

与MILTrack[6]中介绍的损失函数不同, 本文提到的在线判别特征直接在实例水平上选取特征。假设样本空间分为两部分R+={x, y=1}以及R-={x, y=0}, 选取这两个样本中置信度平均值之差作为边界函数, 并使用梯度增强的方法选取最优的分类器。边界函数可定义为:

其中, |R+|与|R-|分别表示正负样本集合的基数。正样本集合R+={xi}i=0N-1含有N个样本, 负集合R-={xi}i=NN+L-1含有L样本 (L≈N) 。替换上式中积分为求和公式, 得到:

候选的弱分类器共有M个, h∈{h1, …, hM}, 在M个弱分类器中一次迭代选得到K个弱分类器。为了使Emargin最大, 这里采用了一种贪婪策略:

其中, Hk-1为最先选得的前k-1个弱分类器的线性组合。

为了提高分类器的性能, 使分类器对后一帧更有区分度, 本文使用了一种梯度提升 (Gradient Boosting) 的方法[8], 也称为最速下降方法。利用最速下降法, 可以求得式 (8) 中目标函数的最速下降方向:

其中

若要使得边界函数最大, 可以选取与gk-1最不相关的K个弱分类器, 来限制梯度与弱分类器的关系。利用文献[8]中提到的回归树方法, 对于每个样本求弱分类器的平均值, 并求梯度方向的平均, 可以得到:

。弱分类输出为正实例的平均值, 而不是单一的正实例样本, 考虑多个正实例就可以减轻实验漂移的现象。

3 算法的实现

可以将样本x中特征向量表示为f (x) = (f1 (x) , …, fK (x) ) T, 假设每个x中元素是独立分布的。则分类器H (x) 可以由一个朴素贝叶斯分类器表示成:

其中, 即为弱分类器, 并假设p (y=1) =p (y=0) 。

分类器HK由K个弱分类hK构成。当取得每个正负样本中的特征值后, 就可以更新每个弱分类器hK (x) 的参数。式 (12) 中, 假设每个弱分类器hK条件概率p (fk (x) |y=1) 及p (fk (x) |y=0) 满足高斯分布, 即:

当弱分类器得到新的样本数据后, 使用以下的更新策略是:

得到弱分类器方差与均值参数后, 选取得到的分类器即可用于下一帧, 以求得粒子滤波产生的样本特征值的响应值。值得注意的是, 与MILTrack不同, 这种基于在线判别特征选取的更新模型是基于实例水平构建的, 直接把样本的重要性与分类器权值匹配在一起, 可以简化多实例学习的构建过程并减少实验的计算量。判别特征选取主要步骤可总结如下:

输入:训练的数据集合{xi, yi}N+L-1i=0, 其中yi∈{0, 1}。

①用数据集合{xi, yi}N+L-1i=0更新弱分类器h∈{h1, …, hM}。

②分别计算式 (17) 中正负样本的平均弱分类器输出, m=1, …, M。

③初始化H0 (xi) =0, Hk (xi) 为前k个弱分类器组成的强分类器, 这里初始化第一个强分类器为0。

④从1增长到K的循环, K为选择器的个数。从M个候选弱分类器中依次选择K个分类器, 最后把这些分类器线性组合成强分类器。

⑤依次更新gk-1 (xi) =-σ (hk-1 (x) ) (1-σ (hk-1 (x) ) ) 。

⑥从1增长到M的循环, M为候选的弱分类器的总数。主动特征选取将会在这些弱分类器中寻找K个最优弱分类器以用于下一帧。

⑧m次的循环结束。

⑨选取使得边界函数达到最大值的弱分类器, m*=arg maxm (Em) , 并更新hk, hk←hm*。

⑩把前k个弱分类器依次相加, 线性组合成强分类器, 即, 并归一化。

11 K次循环完成。至此为止, K个弱分类器均已选出。

输出:强分类器HK (x) =∑Kk=1hk (x) 以及置信图函数P (y=1|x) =σ (hK (x) ) 。

4 实验结果分析与讨论

4.1 初始化参数配置

本文使用的特征为文献[6]中提到的类Haar特征, 可以使用积分图减少实验的计算量。实验使用的Haar为随机分布生成的线性组合, 这样能保持图像中特征点原来的区分度同时降低实验的计算量。本文所用的跟踪对比算法是:在线Ada Boost跟踪 (OAB) , 在线多实例跟踪 (MILTrack) 。实验中用到的算法参数都进行了优化, 每种跟踪方法都能达到最佳性能。实验使用的类Haar特征fk由2到6个随机选取的带权值矩阵组成。其中, 本文的算法和MILTrack算法采样的正实例样本半径α设为4, 均使用45个的正样本。作为对比, OAB算法只选取1个正样本。实验中负样本集Xζ, β使用的样本半径β=50, 并在其中随机采样65个样本。弱分类器的学习率η=0.85。最后, 弱分类器候选集的数目M设为250, 需要选取的弱分类器个数K设置为50。实验所用的编程环境为:CPU四核3.2GHz;内存4GB;仿真环境VS2010以及MATLAB7.0。

4.2 实验结果分析

针对不同的场景变化, 本文采用四组不同的对比实验。实验所用的图像序列都处理为灰度图像, 真实数据通过大量的人工标定求平均获得。所用的图像序列来自于MILTrack论文。图1显示了不同算法的中心点误差的变化曲线图。实验同样测试了三种算法平均每秒的视频传输量 (FPS) , 其中PFFS最快为每秒32帧, MILTrack为每秒19帧, OAB为每秒26帧。

实验分析了不同环境对三种算法影响, 其中包括目标物本身的尺度, 姿态, 旋转变化, 存在相似物遮挡以及光照等环境因素。图2展示了不同的背景环境下, 三种算法的实验跟踪对比图。图2 (a) 为经典的david视频序列, 视频序列存在多尺度以及光照变化。第180帧时, 图像背景尺度突然缩小, OAB算法跟踪发生严重漂移。345帧时场景光照突然发生变化, MILTrack跟踪目标也产生了漂移。图2 (b) 为tiger1序列, 此序列由于目标物尺度经常发生旋转, MILTrack和OAB算法都很难准确跟踪, 198帧之后两者丢失了目标。图2 (c) 与图2 (d) 分别为cliffbar与faceocc2序列, 视频序列分别测试了存在目标相似物以及遮挡情况下, 不同的实验结果。通过不同帧目标物的跟踪对比, 可以看到cliffbar序列230帧以及faceocc2序列492帧及720帧MILTrack与OAB均存在均存在漂移情况, 本文提出的算法相对比较稳定。

5 结束语

文中提出了一种新型的基于在线判别特征选取的粒子滤波跟踪算法。通过改进的多实例的学习模型构建更新模型分别采样正负样本集合, 并使用在线特征选取过程来构建强分类器。在新的一帧中, 基于不同子运动模型的粒子滤波生成了不同权值与运动趋势的粒子, 强分类器用于求取每个粒子的响应值, 最后完成整个视频的跟踪过程。实验结果显示, 本文提出的算法在光照变化、目标物发生部分遮挡以及目标物自身形变和姿态发生变化时, 都具有很好的跟踪精度与非常高的实时性。

参考文献

[1]Ross D, Lim J, Lin R-S, et al.Incremental learning for robust visual tracking[J].Int.J.Comput.Vis., 2008, 77 (1) :125-141.

[2]Kalal Z, Matas J, Mikolajczyk K.P-N learning:bootstrapping binary classifier by structural constraints[C]∥Proc.IEEE Conf.Comput.Vis.Pattern Recognit., 2010:45-56.

[3]Collins R, Liu Y, Leordeanu M.Online selection of discriminative tracking features[J].IEEE Trans.Pattern Anal.Mach.Intell., 2005, 27 (10) :1631-1643.

[4]Avidan S.Ensemble tracking[J].IEEE Trans.Pattern Anal.Mach.Intell., 2007, 29 (2) :261-271.

[5]Grabner H, Grabner M, Bischof H.Real-time tracking via on-line boosting[C]∥BMVC, 2006:47-56.

[6]Babenko B, Yang M-H, Belongie S.Robust object tracking with online multiple instance learning[J].IEEE Trans.Pattern Anal.Mach.Intell., 2011, 33 (8) :1619-1632.

[7]Isard M, Blake A.CONDENSATION-Conditional Density Propagation for Visual Tracking[J].Int.Journal of Computer Vision, 1998, 29 (1) :5-28.

特征判别 第3篇

1 冲击地压相关概念

通过相关业务专家对冲击地压进行的研究获知, 冲击地压是因为受到煤矿采动后, 岩层或者煤体将原来的应力平衡破坏了, 岩体或者煤体因平衡被打破而累积了过量弹性能量, 如果这些煤岩体中累积的弹性能量达到了最高值, 那么就会将煤岩体新组建的不具备稳定性的二次受力平衡打破。因此, 大量的能量会急速和突然的被释放, 会有大量有害气体与煤岩体被释放或抛出, 巷道会发生瞬间性大变形, 会使得冲击地压区显著的感觉到地震感受。由此可以看出, 冲击地压产生的影响是非常大的。

2 冲击挤压微震信号分布特征

2.1 煤柱基本情况介绍

通过统计分析平煤十一矿, 发现该矿开采区深度接近1000米, 受冲击地压的影响比较严重。该矿22122切眼在挖掘过程里出现了3次冲击地压。第一次冲击地压发生在2009年的12月27日, 切眼在下挖到100m到105m的中间位置时, 发生第一次冲击, 其释放的能量达到了4.56×105J。第二次发生冲击的时间是2010年的1月15日, 切眼向下挖掘到125米, 根据微震监测系统的数据, 获知此次冲击能量达到了1.52×105J。第三次发生的时间是2010年的2月19日, 切眼在距离下巷3m的地方发生冲击地压, 此次释放的能量有3.33×105J。

2.2 该矿发生冲击地压后, 其微震信号在发生冲击前后的分布特征

从2009/12/1~2010/2/27日, 在这3个月时间里, 监测到发生了微震事件有3300多次, 并发生了3次具有较大破坏力的冲击地压, 图1显示了22122切眼具体的微震活动。在发生每次冲击地压之前, 都具有一段非常清晰的微震活跃期, 这说明围岩系统正在和外界进行能量的交换, 围岩结构此时正处在非稳定性调整阶段, 冲击地压是这段调整时间段内最大能量的震动。发生巨大能量的冲击地压之前, 微震活动都会表现一段相对较短的平静期, 但是每个冲击地压的平静期以及调整期具有很大差别, 所以对于冲击地压的预测工作具有难度。每当发生冲击地压之后, 会明显出现微震活动下降情况, 表现为震后一段时间的平静期。

2.3 冲击事件发生后微震信号具有的空间分布特征

岩层出现破坏是内部萌生和发展裂隙而导致的, 微裂隙累积导致了宏观性的失稳破坏, 在这个过程中会伴随微震信号的产生。微震信号具有的空间分布和微裂隙的发生变化过程相互对应。通常运用分形理论来对微震事件的空间分布计盒维值加以计算, 通过计算来了解其微震前兆信息, 对于十一矿在3月份发生的3300多次微震事件来说, 通过分析与计算其空间分布计盒维值, 发现微震事件计盒维值在发生大震动之前, 都会出现持续下降的情况, 并且如果临近发生大震动时, 该计盒维值会下降到达某一个临界值之下, 具体分布图如图2, 这种空间分布特征对于冲击地压的预测具有非常重大的意义。

3 冲击地压前兆信息判别

通常情况下, 使用相似性识别冲击前兆, 一般需要考虑以下因素:本矿与邻矿具有的冲击地压情况以及其发展趋势;该煤层、邻区或者邻层已经出现过的冲击地压;煤层具有的倾角或厚度突然发生的变化;断裂或褶曲构造带等。在分析了解各个相关因素之后, 依据发生过冲击地压的地质构造与开采条件特点, 能够识别煤层冲击地压具有的前兆信息, 也就是相似性识别。在使用相似性识别手段识别冲击前兆信息时, 需要对相关内容进行了解:

3.1 了解煤层的自然参数

煤层具有的自然参数有:煤层具体的埋深;煤岩具有的力学性质;顶底板坚硬岩层;褶曲和断层区域具有的开采冲击地压特征等。对于煤矿整体来说, 可以使用开采技术以及地质条件对其加以分析, 能够将冲击地压具有危险性的区域划分出来。当不断延深开采深度时, 在煤岩体应力与强度条件相符合时, 就会产生冲击地压。所以, 对于具有相同地质煤柱冲击地压的前兆信息来说, 可以根据其浅部冲击地压来识别相似条件下的深部冲击地压具有的前兆信息。

3.2 了解开采参数

开采参数主要有:相邻煤层中开采边界以及残留煤柱影响强度和范围;回采工作面开采推行到采空区、巷道、褶曲、断层带所需要的时间;工作面长度和回采速度等。形成应力集中区的参数以及其在采掘空间附近具有的影响范围, 是识别冲击地压前兆信息的基础。

4 结束语

通过了解冲击地压的相关概念, 并通过具体的案例分析了冲击地压的微震信号具有的分布特征, 发现在发生每次冲击地压之前, 都会存在一段比较明显的微震活动活跃期, 在发生冲击地压之后, 都会出现一段震后平静期, 并了解到, 可以通过计盒维值来识别冲击地压的危险程度, 这对于提升识别冲击地压危险的准确性有非常重大的意义。

摘要:我国煤矿开采深度在不断增加, 因此受到冲击地压的影响也越来越严重, 而且冲击地压具备突发性与复杂性, 使得煤矿企业在防治与预防冲抵地压的灾害工作遇到了难题。目前, 已经开始使用微震技术对煤矿动力灾害进行预防与检测, 取得了一定的研究成果。本文通过阐述冲击地压产生的特点与原因, 并分析了微震信号的分布特征与前兆信息判别。

关键词:煤柱型,冲击地压,微震信号分布特征,前兆信息判别

参考文献

[1]袁瑞甫, 李化敏, 李怀珍.煤柱型冲击地压微震信号分布特征及前兆信息判别[J].岩石力学与工程学报, 2012.

特征判别 第4篇

网络文本倾向性分析是指通过采集、组织和分析这些网络文本中的立场、观点、看法、态度、情绪等主观信息,从而对文本的情感倾向性做出正负褒贬的判断。目前,这一技术已成为信息处理领域的一个研究热点,已被广泛应用在信息检索、信息过滤、信息安全、自动文摘等多个方面。

1相关研究

文本情感分析可以分为基于机器学习的情感分类方法和基于语义理解的情感分析方法两大类。

基于机器学习的情感分类方法利用训练语料对分类器进行训练,然后将测试语料用已训练好的分类器进行分类测试,得到文本的情感倾向性。例如,Pang等[1]运用朴素贝叶斯网络、最大熵模型和支持向量机三种分类器对于影评进行了分类研究;李素科等[2]针对监督学习分类的不足之处,对情感特征进行聚类,并提出了一种半监督式的情感分析算法。

基于语义理解的情感分析又可以分为两类:基于情感词的倾向性分析方法和基于语义规则的倾向性分析方法。基于情感词的倾向性分析首先抽取出文本中的情感词,然后对情感词逐一进行情感倾向判断,得到各自的情感倾向值,最后通过累加这些倾向值获得文本最终的情感倾向和强度。例如,徐琳宏等[3]采用How Net作为基准词,并在实验中考虑否定词和程度副词的影响,计算待测词与关联度确定语义倾向,对电影评论进行了倾向性识别研究。基于语义规则的倾向性分析首先建立一个情感倾向语义模式库,然后将文本按照这个语义模式库进行模式匹配,计算得到一系列情感倾向值,最后将这些倾向值进行累加,得到整个文本的情感倾向和强度。例如,Ku等[4]对新闻和博客文本从词级、句子级和文档级进行了意见抽取,得出观点摘要,进而对文本进行情感倾向和强度分析。

对上述几种文本倾向性分析的常用方法进行深入的分析和研究后发现,许多方法只是片面地进行文本倾向性的判定,其准确性和有效性得不到保证。本文在精心构建基础情感词典和网络情感词典的基础上,根据网络文本的组成特点,综合利用情感词语、否定词、程度副词、关联词和词句类型等多种特征计算词句的情感极性值,据此判别文本情感倾向性。实验结果表明,该方法提高了网络文本倾向性判别的准确性。

2情感资源的构建

2.1基础情感词典

目前关于中文情感词汇方面的资源较少,基本采用人工的方法获取。本文以How Net发布的“情感分析用词语集”[5]为基础,构建网络文本倾向性分析的基础情感词典。该词语集共包含中文情感分析用词语集和英文情感分析用词语集两个部分,一共包含词语17887 个。该词语集最大的特点在于作者已经根据词语情感倾向将其分成了六类,分别为“正面评价”词语、“负面评价”词语、“正面情感”词语、“负面情感”词语、“主张词语”以及“程度级别”词语。由于网络文本是互联网的产物,其文本信息表达多元化,表现形式常常是消息发布、商品评价、话题讨论、情感宣泄等,故本文选用How Net“情感分析用词语集”中的前四类,即正、负面情感词语与正、负面评价词语。通过人工挑选,去掉一些不太常用以及情感倾向不明显的词语,得到7156个情感词作为本文的基础情感词典。

2.2网络情感词典

随着互联网日益广泛的使用,出现了许多网络用语。这些网络上的非正式语言跟传统词语有着很大区别,它们往往具有强烈的感情色彩。有的是过去已经存在的词语,因为某个事件或某些热门话题而演变成了带有感情色彩的词语。比如:“神马、小强、宝马女、奇葩、……”。有的则是过去不存在,新出现的网络词语,大多为谐音、错别字改成、字母缩写、也有象形字词等。比如:“木有(没有)、稀饭(喜欢)、JJWW(唧唧歪歪)、SP(support)、3Q(Thank you)、7456(气死我了)、弓虽、……”。这些词语在已有情感词典中是不存在的,但在文本情感倾向判别过程中却有着十分重要的作用。

网络情感词的收集是一个漫长的过程,目前还没有现成的情感词典可用,因此只有通过社交网络、BBS、博客、评论、微博等,收集并标注具有感情色彩的词语加入网络情感词典之中。本文收集筛选了75个网络常用词语组成情感倾向分析的网络情感词典。

2.3否定词和程度副词词典

在进行情感分类时,仅考虑情感词语往往不足以支持文本情感倾向的准确判别[3]。例如,“不漂亮”和“非常漂亮”,其中的情感词“漂亮”本来是褒义词,但是由于否定副词“不”和程度副词“非常”的出现,整个句子的语义在不同程度上都有所改变。因此,副词的出现对句子的倾向性起到加强、减弱甚至逆转的作用。由此可见,除了构建基础情感词典和网络情感词典外,还需要构建否定词词典和程度副词词典。

本文从How Net中抽取如“不、并非、不再、不曾、从不、毫不、毫无、绝非、没、没有、未、尚未、未必、未尝、未曾、不大、不太、不很”等的36个否定词作为本文的否定词词典。

程度副词词典则根据每个程度副词的表达程度不同,为程度副词定义不同的强度值。本文选取了如“最、最为、极、极为、极其、过于、分外、很、非常、特别、十分、甚为、异常、深为、多么、尤其、无比、尤为、不甚、不胜、颇为、大、大为、稍微、稍许、略微、较、比较、较为、有点、有些”等76 个程度副词,将其划分为7 个级别,分别赋予不同的强度,其值从1.6到0.7不等。

3网络文本的情感倾向性判别

根据已建立的情感词典、程度副词词典和否定副词词典,能够快速地计算出词语的倾向性,从而可以计算出各句子和整个文本的情感倾向性。

3.1词语的情感倾向性计算

基于How Net的语义相似度的方法反映的是词语语义的相似程度。刘群等[6]提出了计算词语语义相似度的方法,因此本文利用词语的语义相似度概念来计算词语的情感值。

词语的情感倾向值由该词与种子词的语义关联的紧密程度有关,这里的种子词是指褒贬态度非常明显、强烈,具有代表性的词语。与褒义种子词联系越紧密,则词语的褒义倾向越强烈;与贬义种子词联系越紧密,则词语贬义倾向越明显[7]。本文从How Net中人工挑选出若干个褒贬种子词,组成褒贬基准词集合P和N。利用式(1)计算词语w的情感值。

式中,pi和ni分别表示集合P和N中的某一种子词;n和m分别表示集合P和N中种子词的个数;O(w)表示情感词w的情感倾向值,以0作为默认阈值,最终倾向值大于阈值为褒义,小于阈值为贬义。o(w)的数值表示w的情感强度,值越大情感强度越强。

3.2句子的情感倾向性识别

根据句子的组成特点,将句子的情感倾向性分为单句和复句两类分别处理。这里,单句是指只具有主语和谓语的句子以及短语;复句是指具有连词连接的句子,或虽没有连词连接但至少有两个或两个以上的分句构成的句子。

3.2.1单句的情感倾向性

句子的情感倾向性不仅取决于句子中情感词的褒贬倾向,而且还与修饰情感词的程度副词和否定词有着密切联系。因此,对于单句,本文根据句子中情感词、程度副词和否定词等特征计算句子的情感倾向值。

首先,情感词是形成句子倾向性的核心成分,具有稳定的情感色彩,比如“幸福”、“悲惨”等。在仅考虑情感词的情况下,句子的情感倾向性度量O(si)由句子中各情感词强度的累加和确定,如式(2)所示。

式中,wij为当前句子si中的情感词,wn为句子si中情感词的总数。

其次,程度副词修饰情感词时,情感词的情感强度会发生改变,进而影响到句子的情感强度。对一些典型的情感句子的观察发现越是靠近情感词的词语,对整个句子情感倾向的影响越大。因此在有程度副词修饰情感词的情况下,句子情感倾向性计算如式(3)所示。

式中,deg(dk)为程度副词dk的强度,dis(wij, dk)为程度副词dk和情感词wij间的词语距离,n为程度副词的个数。

第三,除了程度副词外,否定词也会对句子的倾向性分析产生重要影响。因此,在式(3)的基础上,考虑否定词的影响,句子情感倾向性计算,如式(4)所示。

式中,m为否定词出现的次数。

3.2.2复句的情感倾向性

在复句中,有时会有一些连词或副词将分句连接在一起,而它们也蕴含了一定的逻辑结构。复句中出现的连接词称为关联词。不同的关联词会使得句子的语义倾向发生变化。根据情感分析的需要,本文针对五类复句进行情感值估值分析,涉及到的关联词如表1所示。

对复句分析时,根据复句关联词表识别出各个复句的类型,然后按照式(5)计算各个复句的情感倾向性O(si)。

式中,O(si-pre)为关联词前的分句情感倾向性,O(si-lat) 为关联词后的分句情感倾向性,α、β表示复句中对应分句的计算权重,取值按复句的不同类型确定:

1并列型复句:情感倾向由各分句所确定。情感倾向强度可表示为前后分句的极性和,设定α=1,β=1。

2递进型复句:应提高后分句中情感极值的权重,以增强后分句的情感倾向,所以α=1,β=1.3。

3因果型复句:由结果句的情感倾向判定整个复句的情感倾向,此时α=0,β=1。

4让步型复句:应降低让步连词分句的情感极性。所以α=0.7,β=1。

5转折型复句:应提高转折词后的分句的情感极值,降低转折词前复句的情感极值,设置α=0.8,β=1.4。

3.3网络文本的情感倾向性判别

文本倾向性计算以句子为单位。首先根据对情感倾向性影响的重要程度确定文本中各句子的权重,然后对文本进行情感倾向计算,并最终由计算结果和区间阈值判别文本的正负褒贬倾向性。

文本的情感倾向性计算公式,如式(6)所示。

式中,sn为文本中句子的总数;O(si)为句子的倾向性,其值由式(4)或式(5)计算;δi表示句子权重,其值根据句子对文本倾向性的影响大小确定,分为以下几种情况:

1首尾句:文章段落中的首尾句往往是主题句或总结句,其表达的情感对整个文本的情感判别影响较大,因此在计算文本倾向性时应有较大的权重。所以取δi=1.5。

2感叹句:当句子中出现一个或多个感叹号时,该句所要表达的情感将更为强烈,在计算文本倾向性时应提高感叹句的情感极值,此时根据连续出现感叹号的个数分别取δi=1.2、1.3、……。

3反问句:若句中出现反问副词,比如“凭什么”、“难道”等,一般是为了加强“不满”、“气愤”、“厌恶”、“憎恨”等负向的情感极值,应提高负向情感极值,所以取δi=-1.4。

4情感指示词:当有情感指示词(如“认为”、“认为”、“想”等)出现在句子中时,就预示着作者在表达个人的情感倾向,所以取δi=1.3。

使用上述方法计算出文本的倾向性值O(t),与经多次测试确定的区间阈值[θ1,θ2]比较,如果O(t)> θ2,则该文本的情感倾向性判别为正面褒义的;如果O(t)<θ1,则该文本的情感倾向性判别为负面贬义的;如果θ1≤O(t)≤θ2,则该文本判别为中性的。

4实验结果与分析

本文实验采用的语料为淘宝网买家购物评论文档。从淘宝网众多买家对多种商品的评价中搜集整理评论文本,对所有评论文本逐一检查,去掉语言不规范的文本。随机选择2000篇文本作为本实验的数据集,对这些文本进行人工褒贬倾向性判定,确定978 篇为褒义(正面评价)文档,935 篇为贬义(负面评价)文档,另有87篇为中性文档。

在文本情感倾向判别实验时,为了评判本文方法的实际效果,选择了准确率(Precision)、召回率(Recall)、F1 评估值三个比较通用的指标进行评价。设A表示正确判别为该类的文本数,B表示不正确判别为该类的文本数,C表示属于该类但没有被正确判别为该类的文本数,则各项指标的计算公式如式(7)-(9)所示。

F1值:

使用本文方法和Ku算法[4]在上述数据集上分别进行实验。表2分别给出了本文方法和Ku算法对文本情感倾向性判断的结果。

从表2 可以看出,本文方法在准确率、召回率和F1 值三项指标方面,相对于Ku算法,正面文本的判别分别提高了13.04% 、15.43% 和14.23% ;负面文本的判别分别提高了19.26% 、21.90% 和20.64% ;中性文本的判别分别提高了19.15%、18.67%和18.91%。实验结果表明本文方法与Ku算法相比,较大幅度地提高了文本情感倾向性判别的精度。之所以如此,是因为Ku算法在句子情感倾向计算时只对情感词语统计计算或仅考虑否定副词的修饰作用,并没有如本文方法那样,还对文本中的程度副词、复句关联词、句子类型及标点符号等可能对文本的倾向性产生重要影响的多种特征进行更深入的剖析。从表2还可以看出,本文方法的准确率和召回率均已达到80%以上,可以对网络文本的情感倾向性作出有效的判断。

5结束语

特征判别 第5篇

越位是指进攻队员触及/踢及球的刹那, 同队队员在对方半场内位于球的前面, 并在他与对方底端线之间的守方队员不足二人时。越位是比赛中经常出现的一种错综复杂的犯规现象, 一轮足球赛事中, 一名运动员平均越位次数达几十次, 它由于出现的时间短、情况多变, 给裁判员准确而及时判断带来了较大的困难。为维护比赛的公正性, 裁判员通常要迅速观察局部和全场的赛况, 并准确地对越位做出判别, 长时间思想高度集中, 精神过于紧张。为减轻裁判员工作负担, 扩充其视野, 本文提出用机器视觉实时、准确、自动地判别越位的新思路。

目前, 国内外已有足球机器人比赛和足球游戏软件方面的研究[1,2,3,4], 使得用机器视觉判别足球越位成为可能。本文主要研究足球越位自动判别系统的软件部分———算法。具体内容包括:实时采集足球比赛图像, 分割双方球员以获取球员的前后位置, 分割禁区线以获取端线斜率, 根据球员的前后位置判别越位, 根据端线斜率画出越位线。

1 材料与方法

1.1 实验设置

在双方球门框后上方各安装一台摄像机, 用遥控器人工控制摄像机云台, 使摄像头左右转动以跟踪半场内的球员密集区域;同时, 在足球球面安装压力传感器。比赛过程中, 一旦踢球或者顶球, 足球所承受的压力超过一定的阈值, 压力传感器立即给摄像机发出一个无线抓拍信号, 摄像头便可立即抓拍到越位瞬间的镜头, 完成图像样本的采集。拍摄时要求各球员上下着装颜色应尽量保持一致, 双方球员着装颜色应有所差异且不同于足球和草坪的颜色。

1.2 图像样本采集

足球越位自动判别系统的硬件部分不在本文研究范围内。受实验条件限制, 本实验从足球比赛游戏软件中抓拍了8个越位瞬间的镜头, 足以模拟球门框后上方的拍摄效果。所获取的8张图像样本的分辨率为600×800, 图像中球员衣着红、兰色, 守门员衣着天蓝色, 另有黑色球门框, 白色足球, 白色禁区线, 深浅绿色条纹草坪。

1.3 研究方法

1.3.1 Hough变换

Hough变换利用图像全局特性检测某些已知形状的目标, 检测过程中受噪声和曲线间断的影响较小, 其基本思想是点-线的对偶性, 也就是图像空间里共线的点对应于参数空间里相交的线[5]。在图像空间XY里过点 (x, y) 的直线都满足方程y=ax+b, 这里, a为斜率, b为截距, 上式也可写成b=-ax+y, 代表参数空间AB里过点 (a, b) 的一条直线。图像空间XY里过点 (xi, yi) 和 (xj, yj) 的直线上的每个点 (图1-a) 都对应着参数空间AB里的一条直线, 这些直线相交于点 (a, b) (图1-b) 。

若直线接近垂直方向, 则a, b的值也接近无穷, 可用直线的极坐标方程λ=xcosθ+ysinθ, 这样图像空间XY里的点对应参数空间θλ里的正弦曲线, 点—线对偶性变成点—正弦曲线对偶性。Hough变换根据这种关系把图像空间里的检测问题转换到参数空间里进行简单的累加统计完成检测任务。

具体计算时, 在参数空间里建立一个2-D累加数组P (θ, λ) , 对图像空间里的每个检测点, 让θ取遍其预期取值范围里的所有值, 并计算对应的λ, 再根据θ和λ的值对累加数组P (θ, λ) 进行累加, 累加结束后, p (λ, θ) 的值就是图像空间里在参数 (θ, λ) 处共线点的个数, 这样便可检测到图像空间里p (λ, θ) 超过某个阈值的直线方程。这里, 阈值的选取是一个难点, 阈值越大, 检测到的线段越长, 反之亦然, 并且应随拍摄距离的远近而改变。

1.3.2 特征点检测算法

特征点通常用其周围八连通邻域内与其相邻的像素点个数来定义, 一般分为端点、连点、三叉点、四叉点, 在这些特征点的周围分别有1、2、3、4个像素点与其相邻。3×3邻域运算可检测细化后的二值图里的特征点, 具体步骤为, 扫描二值图里单像素曲线上的每一个值为1的像素x0, 并按照下式计算其八连通邻域内像素值x1、x2、x3、x4、x5、x6、x7、x8的周长L, 周长为1、2、3、4分别对应端点、连点、三叉点、四叉点。

2 结果与分析

2.1 图像分割

由于不同场次比赛中球员衣着颜色不同, 拍摄角度、场景变化、光照强度、草坪环境色易影响球员和禁区线的颜色, 为保证分割精度, 有必要在比赛之前采集球员和禁区线的颜色样本。实验结果表明, 红、兰方球衣的R、G、B值分布范围广, 颜色值交叠难以区分红、兰方球员, 但其平均值却错落有致, 可代表红、兰方球员的颜色样本 (图2-a) 。草坪和禁区线的R、G、B值之间的位置相对固定, 呈深绿色和浅绿色, 禁区线的R、G、B值明显高于草坪, 可代表禁区线的颜色样本 (图2-b) 。

2.1.1 提取球员区域

为了获取双方球员的前后位置, 首先, 从彩色图像 (图6-a) 中提取接近兰方球员颜色样本的兰色球衣、球裤和球袜, 得到的二值图中含有对方球员、场地杂质所引发的噪声。其次, 对二值图执行形态学膨胀运算以连通兰方球员的衣裤袜。最后, 对二值图执行形态学开启运算去噪, 并以开启运算结果为种子进行区域生长法提取兰方球员 (图3-a) 同理, 可相应地提取红方球员 (图3-b) 。

2.1.2 提取禁区线

为了获取端线的斜率, 首先, 从彩色图像 (图6-a) 中提取接近禁区线颜色样本的白色不连续禁区线区域, 得到的二值图含有球员、场地杂质等环境噪声 (图4-a) 。其次, 利用Hough变换检测图像中共线点数超过某个阈值的直线方程, 并用获得的斜率和截距重新画线来连通禁区线 (图4-b) , 遗憾的是, Hough变换无法区分哪一条线是端线。再次, 细化禁区线以获取单像素宽的禁区线 (图4-c) , 此时, 环境噪声也被细化。最后, 标注细化后的各个对象, 并按各个对象的像素总和降序排序, 显然, Hough变换减少了禁区线对象的个数, 并且禁区线对象的像素总和远远超过了噪声;利用各对象像素总和的最速下降法提取禁区线, 即, 定义梯度为降序排序后相邻两对象像素总和之比, 则截止最大梯度处为禁区线对象。

2.2 越位判别

由于Hough变换可保证至少存在一个三叉点, 基于特征点检测算法获取禁区线的4个三叉点A B、C、D的坐标, 以三叉点C为中心获取三叉分枝的3个端点坐标 (x1, y1) 、 (x2, y2) 、 (x3, y3) (图5) 。

分别计算这3条分枝的斜率, 取其中共线的2条分枝斜率的平均值作为三叉点C的端线斜率 (表1) 考虑到拍摄角度引起的禁区线变形, 最终的端线斜率折中取各交叉点端线斜率的平均值 (-0.385 7) 。

通常, 裁判员希望获取一条比较直观的水平越位线来辅助其判别, 由于越位线平行于端线, 有必要将所提取的红、兰方球员和禁区线图像旋转至端线呈水平状, 旋转角度依据端线斜率-0.385 7, 进一步计算离端线最近的红、兰方球员的坐标, 以画出其中间的水平越位线 (图6-b) 。

3 结论

1) 赛前采集双方球员和禁区线的颜色样本分割图像简单易行, 能够适应不同场次比赛的需要。

2) 利用Hough变换连通禁区线区域既可保证最速下降法有效去噪并提取禁区线, 又可保证存在三叉点以获取特征点坐标。

3) 尽管Hough变换能够获取各条直线的斜率, 但却无法区分端线, 必须依据摄像头的转动方向加以区分。本文利用禁区线特征点坐标获取端线斜率优于Hough变换, 不需要增加硬件开销。

4) 基于双方球员前后位置和端线斜率进行越位判别是可行的, 有助于裁判员肉眼判别越位

摘要:为了辅助裁判员肉眼判别足球比赛越位情况, 根据赛前采集的颜色样本, 基于数学形态学原理和Hough变换, 从彩色图像中分别提取了红、兰方球员和禁区线;基于禁区线上的三叉点和端点坐标获取了端线斜率, 由端线斜率将图像旋转至水平方向, 并在最接近端线的红、兰方球员之间画出水平越位线。用机器视觉技术辅助裁判员进行足球越位判别是可行的。

关键词:足球比赛,越位,图像,球员,禁区线,端线斜率

参考文献

[1]欧宗瑛, 袁野, 等.基于颜色信息足球机器人视觉跟踪算法.大连理工大学学报.2000;40 (6) :729—732

[2]洪炳熔, 刘新宇.基于视觉的足球机器人系统.计算机应用研究.2001;18 (1) :1—3

[3]黄晶, 赵臣, 周明明.基于快速彩色空间变换的足球机器人目标搜索.哈尔滨工业大学学报.2003;35: (9) :1036—1039

[4]汤磊, 王强.基于K-均值聚类的足球机器人的新型图象分割方法.西华大学学报.2007;26 (5) :11—14

特征判别 第6篇

桃园煤矿位于安徽省宿州市区南约11km,为淮北矿业集团主力生产矿井,2012年矿井核定能力为185万吨 / 年。矿井属华北型石炭二叠纪含煤岩系,主采山西组10煤层和下石盒子组71、82煤层。矿井内F2断层将井田划分为南北两块,F2断层以北为北八采区。该采区走向长为3. 8km,倾向宽1.5km,面积约5. 7km2。设计开采71、82、10煤层。一水平( - 520m以上) 合计可采储量383. 9万吨,二水平( - 520 ~ - 800m)可采储量870. 3万吨。随着南部采区一水平煤炭资源的开采完毕,矿井逐步向深部二水平和北部采区进军,并于2005年开始对北八采区进行开拓。在沿煤层顶底板布置的运输大巷以及上部车场等巷道掘进过程中,多处出现砂岩涌水现象,并且呈现砂岩涌水量大、涌水时间长、水温高等异常现象。为此,矿方十分重视,开展了物探、含水层水化学测试、放水试验、水文地质条件评价与水害防治等多项研究工作,本文即是这项研究内容的一部分。地下水水化学探测方法是矿井突水水源判别常用的方法之一[1,2,3,4,5,6],通过对含水层水化学指标的测试与分析,可确定涌(突)水水源。研究成果为矿井水害防治提供了可靠的地质依据,保证了矿井的安全采掘。目前该采区主体巷道已基本完成,首采面8281工作面正实施安全回采,取得了较好的经济与社会效益。

1 矿井水文地质概况

1. 1 矿井边界及其水力性质

矿井北界F1断层为一正断层,落差大,F1断层带没有抽水资料,仅有1 - 2 - 5孔控制,控制程度较低,其导含水性不清。南界为人为边界,各含水层与祁南矿相通,存在补给关系;西界为10煤露头,受新生界底含水的补给以及高水位含水层的顶托补给;东界为人为边界,在深部与矿外相对应的含水层相通,存在补给关系。

1. 2 含水层特征

井田内主要有新生界松散含水层(组)、煤系砂岩裂隙含水层 ( 段)、太灰、奥灰岩溶裂隙含水层(段)。

1) 新生界第四含水层( 组)

本区新生界松散层有四个含水层(组),其中一~ 三含水层( 组),由于有分布稳定、隔水性能良好的三隔的存在,使其与煤系水失去水力联系。

第四含水层(组) (简称四含) 直接覆盖在基岩各含水层之上,在天然状态下与下伏各含水层均有一定的水力联系。煤矿开采以后,四含水已通过浅部裂隙带和塌陷露头带渗入矿坑,引起四含水位下降。矿内四含发育不均。但总体上看,本矿四含水平迳流及区域补给微弱,但部分四含水会渗入井下,从而使矿井涌水量增加。

2) 二叠系主采煤层间砂岩裂隙含水层( 段)

二叠系岩性一般较致密,砂岩裂隙不发育,渗透性弱,主要受区域层间迳流补给,同时浅部露头带接受新生界四含水缓慢入渗补给。由于井巷的开拓和煤层的开采,二叠系砂岩裂隙水以突水、淋水和涌水的形式向矿坑排泄。由于区域范围内二叠系含水层补给水源缺乏,水平迳流微弱,以静储量为主,故区域二叠系含水层之水的补给对本矿开采影响不大。

3) 太灰、奥灰岩溶裂隙含水层( 段)

以层间迳流、补给为主,在浅部露头带接受四含水的补给,区域范围内,若出现大的水位差,则迳流、排泄、补给明显。尤其是奥灰,厚度大,浅部岩溶裂隙发育,本矿南三采区1035工作面于2013年2月3日发生特大岩溶陷落柱突水造成淹井灾害时,远在10km外的祁南煤矿2007 - 观1奥灰水位观测孔水位下降了31m。这说明区域灰岩水,尤其是奥灰水的补给,会给矿井开采造成巨大灾害。

2 常规水化学特征分析

2. 1 矿井各含水层常规水化学特征

1) 第四系四含水

矿化度平均为0. 65 g /L,总硬度平均359. 93mg / L,属于极硬水,无永久硬度,p H值8. 20。在三种主要阳离子成分中,Na++ K+占优势,达58.88% ,而Ca2 +和Mg2 +的总和仅占40. 81% ,Ca2 +含量所占比重较大。在阴离子成分中,HCO3占的比重较大,达73. 40% 左右,Cl-离子所占的比重稍大,四含水的水质特征反映其径流强度较强。主要离子成分含量如表1所示,水化学类型为·HCO3- Mg·Na·Ca型。

2) 二叠系煤系砂岩裂隙含水层( 组) 中的水

主要指6煤 ~ 10煤为顶底板砂岩裂隙水。该层地下水总矿化度平均在1. 881g /L左右,总硬度平均在56mg /L,属微硬水,无永久硬度,存在负硬度为454. 4mg / L,p H值平均8. 58。阳离子中,Na++ K+离子所占比例较大,约达80% 左右,而Ca2 +和Mg2 +两种离子所占比例较小,约10% 左右。三种主要阴离子中,SO24离子占优势,其比例接近50% ,其次是HCO3离子,约占30% ,主要离子成分含量如表1所示,水化学类型为SO4·Cl·HCO3- Na型。与第四系四含相比,砂岩水中的Na++ K+、SO24离子相对富集,反映深部含水层径流条件的进一步变化。

3) 太原组灰岩含水层

太灰含水层由于由于埋藏深度变化很大,不同深度上岩溶发育程度相差较大,导致水动力条件呈现显著的非均一性。矿化度在1. 752 ~ 2. 362g /L,平均为1. 984g /L,变化幅度较大,也充分说明了太灰水质特征的不均一性。总硬度平均在974mg /L,其中永久硬度在603mg /L,属极硬水,无负硬度,p H值平均7. 15。三个主要阳离子中Ca2 +、Mg2 +和Na++ K+占的比例差距不是特别大,比例多在20%~ 45% ,其中多以Ca2 +离子比例稍多,Mg2 +离子所占比例最小;三种主要阴离子成分中,SO24占主导优势,其相对比例多在35% ~ 40% ;Cl-所占比例也较大,约30% 左右;HCO3离子所占比例较少,约20% 左右,主要离子成分含量如表1,水化学类型为SO4·HCO3- Ca·Na·Mg或SO4·Cl·HCO3- Ca·Na·Mg型。

4) 奥灰含水层

总矿化度平均在2. 39g /L左右,总硬度平均在1163mg / L,其中永久硬度在862mg / L,属极硬水,无负硬度,p H值平均7. 72。三个主要阳离子中Ca2 +和Na++ K+占的比例差距不是特别大,比例多在30% ~ 50% ,Mg2 +所占比例相对较少,约10% 左右。三种主要阴离子成分中,SO24、HCO3离子占主导优势,其相对比例多在40% 左右,Cl-离子所占比例较少,约20% 左右,主要离子成分含量见表1,水化学类型为SO4·Cl - Ca·Na类型。

对比各含水层的水文地球化学特征,可以看出,井田内地下水系统的水质有如下特征:

1地下水总矿化度有随深度的增加而增大的趋势。

2各含水层水质不同,相互之间的水力联系程度较弱。

3煤系砂岩含水层水质分布较离散,且与其它各含水层水质存在较大差异,水力联系程度弱。

2. 2 北八采区煤系砂岩含水层水化学特征

1) 北八采区煤系砂岩水水化学指标特征

在北八采区开拓与掘进过程中,对煤系砂岩水进行了取样化验,结果见表2。

水质特征表现如下:该区域煤系砂岩水主要指北八大巷及上部车场一带10煤 ~ 82煤顶底板砂岩裂隙水。该层地下水总矿化度平均在2. 36g /L左右,总硬度平均在1337mg /L,属极硬水,永久硬度1009mg / L,无负硬度,p H值平均7. 24,水化学类型为SO4·Cl - Ca·Mg型。阳离子中,Ca2 +和Na++K+离子所占比例相近,比例多在30% ~ 45% ,且以Ca2 +离子比例稍多,Mg2 +离子所占比例最小;三种主要阴离子 中,SO24离子占优 势,其比例接 近60% ,其次是HCO3离子,约占25% 。主要离子成分含量如表2所示。

2) 北八采区煤系砂岩水与井田南部各含水层水质对比

1北八采区煤系砂岩水与四含水水化学指标相比,两者差别明显,应无水力联系。

3与南部采区煤系砂岩水水化学指标对比可以看出,北八采区砂岩水Ca2 +、Mg2 +、SO24离子含量高,无CO23离子,矿化度高,总硬度大,存在永久硬度,p H值较低,与井田南部煤系砂岩水水化学指标存在较大差异,这在两者水质叠加Piper图上表现更清楚(图1),两者投点相距较远。由此表明,本区“砂岩水”已不 具备正常 砂岩裂隙 水的水质 特征[7,8,9],应与其它含水层的水源补给有关,见表3。

3北八采区煤系砂岩水水化学指标与灰岩水的水化学指标基本相似,但与奥灰水水化学指标更加接近,水质叠加图中两者几乎重合( 图2),由此说明,本区“砂岩水”与奥灰含水层关系密切,应存在水力联系。

2. 3 北八采区煤系砂岩含水层水源分析

据矿井地质资料[10],F2断层倾向NNE,倾角60°,落差大于400m,北八采区位于F2断层上盘,该区煤系地层和太灰与对盘奥灰对接(见图3),形成奥灰水侧向补给煤系砂岩裂隙水和太灰水。据北八采区太灰放水试验成果资料[11],北八采区太灰放水时,井田南部奥灰观测孔水位下降,而太灰观测孔水位基本不变,证明了奥灰水通过F2断层补给北八采区煤系砂岩地层和太灰含水层。

3 结论

1) 桃园煤矿矿井南部四含、煤系砂岩、太灰、奥灰等含水层常规水化学指标存在一定差异,四个含水层之间能够相互区分。

特征判别 第7篇

最近几年来,电力电缆被在我国工矿产业及城网、农网改造中被广泛应用。伴随着城网、农网改造工程的逐步推进,架空线路越来越多,电缆数量也逐步增加。像港口、机场、钢铁、油田、石化、发电等领域,几乎都要用到电力电缆。但是在供用电力电缆过程中,如果出现电缆故障,便难以对故障进行识别和定位检测,故障的存在势必导致无法正常供电。而对电力电缆故障及时、有效判别是处理故障的重要步骤。

本文基于Fisher判别方法对电缆故障进行有效的分类,并分析了通过Fisher判别的结果。

1 Fisher线性鉴别分析原理

1.1基本原理对于d维空间的样本,投影到一维坐标上,样本特征将混杂在一起,难以区分。如果寻找一个投影方向,使得样本集合在该投影方向上最易区分,就是fisher准则的基本原理。Fisher判别法的基本思想是将n类m维数据集尽可能地投影到一个方向(一条直线),使得类与类之间尽可能分开。从形式上看,该方法就是所谓的一种降维处理方法。在此,我以两类问题来说明Fisher判别法的原理,如图1所示。

设有一组数据阵为X∈RN×m,ω1共有N1个样本,ω2共有N2个样本,N=N1+N2。两个类别在输入空间的均值向量为

类似地,样本总均值向量在该方向的投影为

定义类间散度(Between-class scatter)平方和SSB为

两个类的总的类内散度误差平方和为

1.2 Fisher判别法———类间散度平方和(分子)的几何意义

(1)类间散度平方和SB的另一种表示方式为

可以证明,(12)与(6)只相差一个系数。简单证明如下

这说明,(12)与(6)只相差一个与样本数有关的常数。

(2)类内离散度平方和SSE的另一种表示方式为

这正是(8)式。

因此,在应用过程中,我们往往不必求出类间散度阵SB。

确定θ的一些经验公式为:

当然,当类内散度阵SW不可逆时,Fisher判别法无法使用。

1.3算法步骤

Step2:求两类样本类内离散度矩阵Si;

Step3:求总的类间离散度矩阵SW=S1+S2;

Step8:对待侧样本的标本X,计算它在W*上的投影点y=W*TX;

Step9:根据判别规则对样本X进行分类:

2应用Fisher线性判别对电缆故障类型进行识别

2.1电缆故障类型分类

故障相电压和故障相电流中包含许多故障信息,我们可以通过观察故障信号的原始特征进行故障识别。

在线电缆电压零序分量不在不同尺度上的小波分解系数的平方和与电缆不同故障类型之间有一定的内在联系。在此基础上,可以通过求熵得到电缆故障信号的电压故障信号的电压零序分量的幅值、相位,定义幅值熵和相位熵,构成二维特征向量集。

采用三层小波包分解法处理幅值信号Am。先按照高、低频特点将Am分解为低频部分和高频部分,得到与高、低频部分相对应的高频系数向量和低频系数向量,将系数向量进一步分解,得到高、低频两个部分。根据分解情况来看,采用小波包来分解幅值信号,能够充分满足高、低频分解要求。将幅值Am各个频带的能量函数与其对数的负乘积之和定义为幅值熵Hm。

经计算,对于幅值Am的Hm为了方便计算,一般取幅值熵的绝对值的对数作为幅值熵函数特征HM,即:

同理可以求得相位熵特征HP,将幅值熵特征HM和相位熵HP构成二维特征向量集{HM,HP}。

2.2 Fisher线性判别应用于电缆故障的分类

现有正常情况下的40组相位熵和幅值熵数据,以及22组一相和二相短路数据,实现以下功能:(a)试给出该问题的Fisher判别器;(b)有一组待识别的标本,试问这组标本属于那一种。分析如下:

(2)求两类样本类内离散度矩阵;

(3)求总的类间离散度矩阵Sw:SW=S1+S2;

(5)求两类已知样本X1和X2在上的投影点yi:

(8)对待侧样本的标本X,计算它在W*上的投影点y:公式:y=W*TX;

(9)根据判别规则对样本X进行分类

根据(7),阈值W0=-1.7718,可以看出yi>W0,因此,这组样本都属于第一类A类。

2.3实验结果

如图2所示,Fisher对相位熵和幅值熵的判别结果:阈值W0=-1.7718,而待测样本的Y=(-0.3816,-0.4365,-0.4126)T,可以看出yi>W0,因此,这组样本都属于第一类。

3结论

仿真实验表明,利用改进的算法建立的模型能对几种短路故障进行正确地识别,再加上之后对一组数据类别的判断,可以实现对故障类型更有效的识别。用本文的方法对样本进行识别,在不同的样本数和特征数条件下,识别率较高,且识别率具有较好的稳定性。

摘要:针对运用传统的判别方法对电缆故障进行分类时,易出现判别结果不确定等问题,应用Fisher线性判别对电缆故障类别进行了判别。该方法应用基于Fisher对两类已知样本的判别的方法,构造出了一种对未知样本判别的优化方法,并进行了详细的推导。实验表明,该方法有效地解决了对未知样本寻找最优解,并判定判别分离程度的实际问题。

关键词:电缆故障,Fisher线性判别,最优解,分离度

参考文献

[1]J.P.Marques de Sa.Pattern Discrimination[M].Springer,2001.

[2]Edward B.Magrab(美).MATLAB原理与工程应用[M].电子工业出版社,2002.

[3]孙亮,禹晶.模式识别原理[M].北京工业大学出版社,2009:31-36.

[4]杨淑莹.模式识别与智能计算-Matlab技术实现[M].北京:电子工业版社,2008:64-82.

[5]张学工.模式识别[M].三版.北京:清华大学出版社,2010,8:60-119.

[6]马莉.MATLAB语言实用教程[M].北京:清华大学出版社,2010.

[7]周开红,康耀红.神经网络模型及其MATLAB仿真程序设计[M].北京:清华大学出版社,2005.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

【特征判别】相关文章:

判别标准05-14

类型判别07-11

判别分析07-26

故障判别09-02

综合判别09-07

判别指标05-25

判别指标范文05-19

根的判别式08-23

Eisenstein判别法论文01-10

中美表液化判别计算对比09-13

上一篇:疑似传染性浆膜炎下一篇:区域电站