文本信息过滤范文

2024-08-29

文本信息过滤范文（精选7篇）

文本信息过滤第1篇

由于以Internet为主体的信息高速公路的不断普及和发展, 信息技术已经渗透到社会生活的各个角落, 人们真正处于一个信息爆炸的时代。随之而来的是信息安全问题日益突出, 因此出现了各种信息安全技术。但大多数是基于行为的安全, 基于语义的文本信息安全技术很少。对用户来说, 如何帮助人们有效地选择和利用感兴趣的信息成为一个极富挑战性的课题, 信息过滤技术日益被人们重视。原来的信息过滤技术主要用于帮助人们查找感兴趣的信息, 但是随着网络上不良信息的大量涌现, 信息过滤技术遇到了新的挑战, 需要进一步研究如何将这些不良信息进行有效拦截的对策。

网络上的不良信息包括色情、暴力、邪教、赌博等违反国家政策的内容, 有些类型的信息可以通过关键字匹配的方式, 分析得到信息的主题内容。但有些信息则无法简单地通过关键字匹配法判断是否为不良信息, 比如宣言邪教和批判国家的信息。在对此类信息进行分析的时候, 不仅要分析信息包含的主题内容 (topic) , 还要判断它的立场和态度, 即倾向性 (polarity) 。信息过滤的条件不再是依据涉及的主题内容, 而是带有倾向性的主题信息。因此, 不良信息过滤又可以划分为主题性过滤和倾向性过滤, 目前对信息过滤的研究大多集中在兴趣信息过滤方面, 对不良信息过滤也主要采用主题性信息过滤方法, 这些方法对于需要进行倾向性分析的信息, 过滤效果并不十分理想。

本文的主要研究内容是:针对各种自动分词方法中出现的问题, 提出了具有自学机制的智能词典概念, 并实现了智能词典的基本模型;提出了一种基于TFIDF (term frequency/inverse document frequency) 的特征值提取算法, 该算法在TFIDF稳定性的基础上引入相对系数来改善特征子集的选取效果, 剔除与语义分析无关的部分, 以减轻语义分析的工作量, 进一步提高处理的速度和效果;基于朴素贝叶斯算法的分类器模型, 利用特征值的词性系数, 利用统计方法对相关度进行训练分类。

本文着重研究基于语义的文本信息过滤算法, 该算法的优势在于能根据文本上下文, 从语言学的角度去提取文本所表达的立场倾向并依据它进行过滤判断。对于那些冗长文本中因为分散存在的关键字而造成的假匹配, 通过语义分析, 可以给予很好地甄别处理, 从而提高系统的召回率。与基于规则的关键字匹配不同的是, 它能分清各个关键字在句子中的角色, 与其他项的语义关系, 减少盲目匹配, 对于某些领域的倾向性文本可以高效地进行识别和过滤。

1 语义过滤处理流程

目前针对基于语义的信息过滤的基本思想是:利用现有的自然语言的处理成果, 首先在待过滤的信息内容中进行分词操作, 然后提取能够代表文本内容的特征值, 利用语义分析的方式分析特征值代表的类别, 并进行相应的处理。

基于语义的过滤分析器主要由预处理、中文分词、特征提取和过滤分类器4个模块组成。整个平台的过滤流程如图1所示。

1.1 预处理

初始化语义过滤所需要预处理的所有内容, 包括对配置文件的签名进行验证、验证成功后将相关词库、样本库读入内存。样本训练集是从客户方之前的过滤结果中整理出来的纯文本数据。

1.2 中文分词

中文分词是将中文文本分割成汉语最小的、能独立活动的、有意义的语言成分即词条。由于中文汉字的多义性, 单个汉字在不同的词中有不同的意义, 字并不是汉语的确定性表意单元。而词条 (包含单字词条) 在段落或句子中的意义是相对确定的, 因此词条才是汉语的最小表意单元。本课题的中文分词是在中文词典的支持下, 然后结合最大正向和逆向匹配算法, 把文本的内容切分为有意义的中文词条序列。

1.3 特征值选取

特征选取的功能是从词条中挑选出适合于具有分类价值的词条作为文本分类所依据的特征向量的分量。即对文本信息分词后, 特征选取模块是对样本信息的词条进行统计和分析, 筛选出对文本最具分类价值的词条集, 以供文本分类器使用。这就需要从其词条集中将信息量小的词条从词条集中删除, 选取对分类贡献度最大的若干词条组成特征词条集, 从而减少待分类词条集中词条的个数。

实现文本自动分类的主要困难有两点:其一, 特征项空间的维数过高, 一方面导致分类算法的代价过高, 使得计算机处理的时空开销非常大, 另一方面导致无法准确地提取文档的类别信息, 造成分类效果不佳;其二, 某些特征项独立表达的类别信息不强, 对于文本分类不具有代表性, 对分类的准确度造成干扰, 如稀有的词项、感叹词等。因此, 需要在保证分类准确度的情况下尽可能地降低特征项空间的维数 (所谓特征项, 在中文文本中主要指切分处理后得到的词汇, 而特征项的维数则对应不同词汇的个数) , 这样选择有效的特征提取算法, 对于提高短信分类的效率有着关键性的作用。本文的特征提取采用TFIDF中引入相对系数的方法。

1.4 过滤分类器

过滤分类器就是对一定数量的、标注了类别的样本短信 (称为训练集) 进行统计和分析, 建立统计语言模型和算法, 然后用训练集验证和调试这个语言模型和算法, 这一步也称为机器学习。当测试达到一定指标后, 即经学习后的文本分类器就具有较强的智能识别能力, 能够对实时的文本流提取有用的识别特征并进行分析, 指出其属于安全或者垃圾类别的概率, 所属概率最大的类别被认为是文档的目标类别。

2 基于智能词典的中文分词的实现

中文自动分词是信息过滤前提和基础, 直接影响过滤的效率和准确性。一般说来, 计算机自动分词需要有一部后台词典的支持, 但词典中所收录的词是有限的, 如果词典容量较小就不能有效的识别新词, 甚至在切分过程中造成歧义。这时对未登录词的识别就尤为重要, 特别是对新出现词汇的识别更为重要。所谓未登录词, 是指在大规模真实文本处理中, 所遇到的由于在分词词库中没有被收录的词条, 因而不能由分词系统识别、切分的词条, 包括中国人名、中国地名、外国译名、品牌名、术语等。未登录词基本上可以分为两大部分:新词和专有名词。新词是随着社会和科技的发展而涌现出来的通用词汇和各行业的专业术语等;专有名词, 比如人名、地名、机构名、商品名称、商标外文译名、方言习语等, 其作为一种特殊的处理单元, 拥有词的属性, 是一个不可分割的整体, 一般说来, 专有名词有其特有的规则。

新词的数量是难以用数字来衡量的, 随着社会各方面的进步, 特别是对于某些快速发展的行业领域, 比如计算机、生物科技、信息技术等新兴领域而言, 这种类似专业术语这种新词将越来越多, 如随着网络和游戏的发展, “网游”这个词以前是没有的, 但现在就出现在常用词中, 在一些文本处理中经常遇到, 在文本分词时需要将其切分出来。如何从庞大且无序的信息中辨别出有意义的新词就成为当代信息工作的重要内容之一。本系统以机械分词方法为基础, 在分词过程中利用统计学的知识对待分词文本进行处理, 以达到识别第一种未登录词。

那么可以假设有这样一种分词系统:一方面, 这种分词法是基于词典进行分词的, 有着分词速度快、分词准确率高和分词效率高的特点;另一方面, 这种分词法在日常分词过程中自动进行学习新词, 随着学习的增加自动补充新词到分词词典中, 从而逐渐地增强词典的完备性。这种分词方法的主要工作机制在于词典的自学习特性, 也称这种可以在分词过程中通过自学习的方法增强词典完备性的词典为智能词典。

智能词典解决了2方面问题:一是识别第一类未登录词, 即对新词的识别, 逐渐完善分词词典的完备性, 本人认为第二类未登录词应该用规则和语义的方法进行识别, 因为这一类词太多, 而且出现的频率较小, 没有必要将第二类即专有名词加入词库;二是解决部分歧义问题, 基于统计模型理论, 分词程序利用智能词典扫描结果解决部分歧义问题。

2.1 智能词典中机器学习的模型

以学习定义为出发点, 提出了一个简单的学习模型, 如图2所示。

本系统的目的是学习新词, 由于语料库的过时性, 因此本系统没有建立一个语料库使系统自学习, 而是在对文本进行分词的过程中将待分词文本作为基本语料, 将每个待分词文本的学习结果存储起来, 按照一定的规则进行学习, 以达到学习新词的目的。根据自动分词中的特殊性对这个模型进行改进可以得出如下学习模型如图3所示。

2.2 基于智能词典的分词方法运行模式

该分词法的分词基本过程如下:对待分词文本按照基于统计语言模型的分词方法进行特征词提取, 提取后将提取的特征词根据其出现的频率将其分为高频词和中频词, 并将其放入相对应的高、中频词库;在分词时以词典为基础使用传统的机械分词法, 但在分词过程中用高、中频词库对分词过程进行指导。如图4所示。

特征值提取的算法将在第3节详细介绍。

怎样划分高频和中频词, 一般有2种方法来定义特征词字串:

a) 计算绝对频率, 即根据文献的长度, 确定在文献中出现多少次的字串为高频字串, 这种方法是这样规定的:当字符串C的词频P (C) 大于P (length) 时, C为高频字串, 其中P (length) 是根据文献长度length确定的经验值或统计值。

b) 计算相对频率。设字符串C的串频P (C) , 如果P (C) 满足式 (1) , 则称字符串C为特征词字符串, 其中T是用户指定的阈值。

undefined

由上可以看出阈值需要经过测试才能得出。因此, 在项目的前期阶段, 本课题暂时选用绝对频率方法来划分高频和中频词。

2.3 字符串匹配算法

在实现分词算法的过程中, 必须考虑2个方面, 即分词的正确率和分词的速度。无论使用哪种分词方法, 都需要将大量的时间用于计算待切分字符串的成词可能性, 然后通过对切分出的这些词条依据统计或语法方面的规则, 得到一种最有可能的正确切分结果, 来提高分词的正确率。因此, 如果能加快初始切分的速度, 对于提高整个分词算法的速度也会有很大帮助。

首先, 对同一个词用正向最大匹配法和逆向最大匹配法分别切词, 再将结果进行比较。如切分“长春市长春节致辞”, 因为正向最大匹配法有一个词语无法匹配, 故选择使用逆向最大匹配法作为结果。

其次, 参考前面提到的词频的概念, 及每一个词语都会根据其在汉语中出现的概率获得一个词频值。对“长春市长春药店”进行2种方法的分词, 但是因为逆向最大匹配法得到的“春药店”的词频相比于其他词语的词频要低很多。可以认为这种分词方法得到的结果不通用, 取正向最大匹配法得结果。

这样, 采用正向和逆向最大匹配方法相结合的特点, 分词的准确率大大提高, 同时, 配合词频库, 能够有效地消解分词歧义, 也是对分词准确率的进一步保证。

3 特征词选取

文本分类的主要目的是要将相似的文档群聚到一起, 对于中文文本来讲, 其分类的依据是文档的基本语义单元即词条 (term) 。通常文档中的词条数目数以百、千计乃至更多, 如果将这些词条均作为分类所依赖的特征, 显然特征的维度是极高的。这种情况会造成许多分类算法的时空开销极大甚至无法运行。例如若采用神经网络分类算法, 输入节点的数目惊人, 神经网络的结构十分庞大, 学习训练的时间难以估量。对于贝叶斯模型, 特征维度过高将导致过多的交叉计算, 除非做了特征项相互独立的假设。在不牺牲分类的准确性的前提条件下, 降低维度十分必要, 这就要求从众多特征中挑选具有区分意义的特征。特征选取的机制也应该是由机器自动进行的, 无需人工干预。

3.1 TFIDF方法

TFIDF方法是评估特征时使用最普遍的标准, 它使用特征的TF×IDF值来评估一个特征。TF (特征频度) 的定义为特征在页面中出现的次数。考虑到文档长短因素的影响, TF定义为:

undefined

特征集中未出现在文档中的各特征, 可能会出现TF值为0的情况。为避免, 再次修改TF定义为:

undefined

TF值反映了特征相对于某篇文档的重要程度, 默认为出现的次数越多越重要。但是, 有一些特征几乎出现在所有文档中, 且TF值较高, 例如网络教育资源管理系统的文本资源中“计算机”出现的次数非常高。这类特征对分类显然没有多大帮助, 应该从特征集中除去。由此引入IDF (逆文档频度) 概念, 其定义为:

undefined

特征的IDF值显然随DF值的增加而降低。

例如, 待测文本中“计算机”一词出现的次数为15, 文本中词频最高的词的词频为50, 在样本集500份文档中, “计算机”一词出现过的文档数为100, 那么“计算机”一词的TF=0.5+0.5×15/50=0.65, IDF=log (500/100) =0.699。

所以, TFIDF=0.65×0.699=0.454。

3.2 TFIDF中引入相对系数

特征子集选取算法给出的评价函数对于每一个特征赋值, 这个值就代表了这个特征表示这个类别的能力。首先, 通常不同词性的特征表示文本类别的能力不同, 名词最强, 动词其次, 然后是形容词、副词, 所以本课题的改进方案是对不同词性的特征乘以不同的相对系数, 突出不同词性的特征表示文档类别的能力。这样, 引入了相对系数来改善特征子集的选取效果。方法的基本思想是:

a) 对于训练文本的众多的特征给出词性标注。

b) 任意选取一种特征子集的选取方法 (本文用的方法是TFIDF方法) , 为所有特征赋值TFIDF (fi, pj) , 并求出所有特征值的平均值:

undefined

c) 对不同词性的特征的TFIDF值分别求平均值:V1, V2, …, Vn分别为n种词性的TFIDF值平均值。

d) 对于不同词性的相对系数ki (i=1, 2, …, n) 分别为:

undefined

e) 分别对不同词性的特征乘以ki (i=1, 2, …, n) , 再进行特征子集的选取。

4基于朴素贝叶斯算法的相对系数-改进的贝叶斯分类器

本文第3节分别求出不同词性的特征的相对系数, 分别代表了不同词性的特征。所以, 在对文本进行分类时, 对于不同词性的特征进行标识, 并在用朴素贝叶斯分类算法分类时将原公式 (7) 修改为式 (8) 。

undefined

这样在用朴素贝叶斯分类算法进行分类时, 突出了某些词性标识文章类别的能力, 使得修改过的分类算法比原朴素贝叶斯分类算法在对大多数文本进行分类时体现出更高的准确率。

4.1 R-改进的贝叶斯分类器的工作过程

改进朴素贝叶斯分类的工作过程如下:

a) 每个数据样本用一个n维特征向量X={x1, x2, …, xn}表示, 分别描述对n个属性A1, A2, …, An样本的n个度量。并对不同词性属性进行标识, 记录属性的词性。

b) 假定有m个类C1, C2, …, Cn, 给定一个未知的数据样本X (即没有类标号) , 分类法将预测X属于具有最高后验概率 (条件X下) 的类。也就是说, 朴素贝叶斯分类将未知的样本分配给类Ci, 当且仅当:

undefined

这样, 最大化P (Ci|X) 。其中P (Ci|X) 最大的类称为最大后延假定。根据贝叶斯定理有:

undefined

c) 由于P (X) 对于所有类为常数, 只需要P (X|Ci) P (Ci) 最大即可。如果类的先验概率未知, 则通常假定这些类是等概率的, 即P (C1) =P (C2) =P (C3) =…=P (Cn) 。并据此只对P (Ci|X) 最大化。否则, 最大化P (X|Ci) P (Ci) 。注意, 类的先验概率可以用P (Ci) =si/s计算, 其中si是类Ci中的训练样本数, 而s是训练样本总数。

d) 给定具有许多属性的数据集, 计算P (X|Ci) 的开销可能非常大。为了降低计算的开销, 可以做类条件独立的朴素假定。给定样本的类标号, 假定属性值相互条件独立, 即在属性间, 不存在依赖关系。这样:

undefined

式中:k为不同词性的相对系数ki (i=1, …, n) 的相对系数的乘积, 对于不同词性的特征分别乘以词性的相对系数ki (i=1, …, n) ; k是在特征选择时根据上述公式分别计算得到的。

概率P (x1|C) , P (x2|C) , …, P (xn|C) 可以由训练样本估计。

e) 为了对未知样本X分类, 对每个类Ci, 计算P (X|Ci) P (Ci) 。样本X被指派到类Ci, 当且仅当

undefined

换言之, X被指派到其P (X|Ci) P (Ci) 最大的类Ci。

4.2 相对系数-改进的贝叶斯分类器在语义过滤中的应用

(1) 收集大量的垃圾文本 (spam) 和正常文本 (ham) , 建立垃圾文本集和安全文本集。提取2种文本集中的特征词, 并保存为垃圾文本 (spam .txt) 和正常文本 (pam .txt) 2个样本库, 保存形式都为tokens。每个tokens属性包括词频数和词性。

(2) 当待测文本到来时, 首先将前面指定的分词算法进行分词, 得到tokens, 然后从spam .txt或者pam

.txt文件中读取tokens的信息, 如果有该词, 则将对应样本库中该词的数量增加1;如果没有该词, 则在样本库末尾添加该tokens及设置数量为1。

(3) 垃圾文本集对应哈希表spam_hash, 正常文本集对应哈希表pam_hash。假设tokens 串为:t1, t2, …, tn, 它们在spam hash 中出现的次数为:N t1, N t2, …, N tn, 在ham hash中出现的次数为:M t1, M t2, …, M tn, spam hash 中token的次数之和为NUM (spam) , ham hash 中token的次数之和为NUM (ham) 。于是容易得到t1, t2, …, tn在spam和ham中出现的概率:

undefined

(4) 若设事件A为token ti出现的那份文本为spam, 计算那些可以写入概率散列表 (prob_hash) 的概率, 建立prob_hash:

undefined

这里的一些计算细节如下:

a) 为了防止 prob_hash 这张散列表扩展得太快, 不计算那些在ham_hash 和spam_hash 中出现次数不超过3 次得token。

b) 为了降低过滤系统的纠错率, 把在ham_hash中出现的token的概率加倍, 这样可以避免那些偶尔在ham中出现, 或者从不出现的token, 使得邮件被错判。

c) 为了控制一个 token 不至于过分影响整个概率的计算, 限制计算得到的概率:

undefined

(5) 假设由该文本共得到n个token串t1, t2, …, tn, prob_hash中对应的值为P1, P2, …, Pn, P (A|t1, t2, …, tn) 表示在邮件中同时出现多个token串t1, t2, …, tn时, 该文本为垃圾文本的概率。同时, 加上token串t1, t2, …, tn相对应的词性相对系数ki, 能够更加保证判断的正确率。

undefined

(6) 设定阈值, 当P (A|t1, t2, …, tn) 超过预定阈值时, 就可以判定该文本为垃圾文本。

5 结束语

怎样实现有效的智能监控过滤系统是目前信息过滤的研究热点, 市场上普遍采用“关键词”过滤技术, 通过定义某个特定词语将涵盖该词的所有句子全部过滤掉。但是, “关键词”过滤有个明显的缺陷就是会产生“错杀无辜”的现象, 如果用户定义了“打折机票”的字眼, 无论青红皂白, 所有的相关信息都被过滤掉, 包括用户正常收发的短信。“语义过滤”技术则避免了这种情况发生, 它会通过上下文的分析, 依据特有的“语料库”对语言本身的含义进行判断, 最终决定是否过滤删除。因此, “语义过滤”显然更加合理, 更加符合中文语言表达的复杂性。由于语义过滤的智能性, 目前已经成为研究热点, 但同时由于它的灵活性及复杂性, 也使研究处于初级阶段。

在本文中还有许多不足之处, 实现细节还有许多地方可以进行改进, 分类更是有待进一步深化, 更多的领域还需要我们去探索研究。总的来说, 可以进行下列工作:

首先, 本文在特征选择时采用的是基于TFIDF算法的改进, 而用TFIDF标准进行特征选择的结果也不十分准确, 在特征选择时可以采取多种算法相结合的办法, 这样能大大提高特征选择的精确度, 同时复杂性势必会增大。

其次, 本文在分类算法上引入了相对系数改进了最简单有效的朴素贝叶斯算法, 同样相对系数可以应用到其他分类算法中, 如K-最近距离、决策树等方法, 这些方法在某些方面体现出更好的性能。

最后, 在分类器的设计上, 也可以采用多种分类算法相结合的办法将多种分类算法的结果进行融合。

不过, 本文中实现的相对系数-改进的贝叶斯分类器文本过滤算法, 它的优势在于能根据文本上下文, 从语言学的角度去提取文本所表达的立场倾向并依据它进行过滤判断。同时还可以将此算法应用于针对文本内容的分类、搜索操作, 提高其准确度;也可以应用于网络文本的自动分类、自动提取摘要以及机器翻译等领域。既能服务于普通用户, 也能提高网管的效率, 有着广阔的应用前景。

总之, 基于语义的文本信息安全过滤平台为信息安全提供了一种新的方法和思路, 提高了信息安全的强度, 对信息的安全使用和提取提供了新的方法。

摘要：信息安全是人们关注的焦点, 从传统的基于行为的安全向基于内容本身的安全不断发展, 信息安全的外延在不断扩大。Internet提供的海量、庞杂的信息中, 不良信息以不同的表现形式, 从不同的角度对不同人群造成毒害或干扰。因此, 对网络访问进行必要的、有效的内容过滤是营造健康安全网络环境的重要环节。但是, 传统的文本信息过滤算法仅能实现结构对应层次上的判断, 无法体现文本的语义, 过滤效果难以满足智能化的要求。文中结合计算机语言学知识, 提出并实现了一种语义分析的过滤方法, 对于那些冗长文本中因为分散存在的关键字而造成的假匹配, 通过语义分析, 可以很好地甄别处理, 从而提高系统的召回率。

如何获取未经过滤的信息第2篇

在马尔卡希上任后的7年里，公司发生了天翻地覆的变化。她改装了公司的生产线，增强了生产线的生产能力，提高了公司的客户服务水平，使公司恢复到良好的财务状态。

为了保证她和她属下的高层领导者所得到的客户满意度数据是未经过滤的、真实可靠的，马尔卡希采取了一些有意思的措施。她从不通过中间人来传递客户信息，因为中间人可能会篡改信息，导致信息失真。于是，她直接和客户交谈，倾听他们的意见。

深入基层去聆听

马尔卡希雇用了两名技术人员，专门搜集客户服务方面的信息。而通常这些信息是通过层层传递、层层筛选，才最终传达到高层领导者手里的。她的技术人员也进行客户访谈，但不是简单的访谈，他们会在访谈中涉及更多方面的内容。首先，马尔卡希将公司前500名的客户一一对应分配给每一家公司高层管理者团队。有趣的是，她不仅将与客户联系的责任分配给诸如销售部门、市场部门和运营部门这些业务部门的领导，还分配给职能部门的领导。

她解释道：我们所有的管理者都应该参与其中，包括首席会计师、公司法律顾问以及人力资源管理主管。每一个管理者都有责任至少和一个客户沟通交流，了解他们的需求，并且保证施乐能够有效地整合资源，解决顾客遇到的问题，并寻求更多的机遇。

其次，马尔卡希独创了一个项目，在这个项目中，每一家公司高层管理者都参与其中，作为“客服值班人员”在公司总部按月值班，了解客户反馈的信息。她想从使用公司产品出现问题的客户那里，得到真实的评论。马尔卡希甚至要求包括自己在内的公司高层，亲自负责解决客户关注的问题。

她是这样形容这个项目的：最高管理层有20人，我们轮流值班担任“客服值班人员”。每人每月值一天班。在公司总部的服务台值班那天，不论遇到什么问题，受到多少顾客的埋怨，你都必须负责解决。你遇到的那些顾客，在来公司之前，往往有一段不愉快的经历，所以，他们都是非常愤怒和沮丧的。他们打电话到总部的客服，是把这个作为最后的解决途径。施乐公司的“客服中心”有三个职责——聆听客户的投诉，解决客户的问题，负责找出问题的根本原因。这样可以使我们接触到真实的世界，能够更加脚踏实地。

马尔卡希首创的这个制度，在使用产品的一线用户和公司的高层领导者之间，建立了直接沟通交流的桥梁。她没有仅仅依赖于客服部门提交的统计数据和总结，而是将和客户之间的交谈，作为最宝贵的原始信息——这些信息在客户调查报告中是看不到的。马尔卡希意识到客户调查问卷有可能造假。客户可能在调查时填写对公司的满意度，但还是有可能换用其他公司的产品。

马尔卡希描述了这种现象：多年来，我发现了这样一个准则，在问卷调查中表示“满意”的顾客中，大约有75%换用了其他产品。我们自己的研究也证明了这一点。表示“非常满意”的顾客，跟我们继续做生意的概率，是表示满意的顾客的6倍——如果你仅仅是向顾客提供好的服务，他们很有可能刚好满意。这就给我们敲响了警钟。以汽车行业为例，满意度达到90%，第二次购买时选择了原品牌的只有40%。

寻找新的视觉

CVS公司也找到了适合自己的方法，让高层领导者有机会得到未经过滤的客服信息。过去，公司依赖神秘顾客，对每一个店面的服务进行评估。现在，CVS使用一个称为“3S”的方法，即库存、购物环境和服务。商店里有顾客想要的产品吗？商店的购物环境是否整洁有序？商店营业员是否热情有礼，经验丰富？排队等待的时间是否较短？公司采用顾客调查问卷的方式考量“3S”的执行情况。

在CVS消费的顾客，有时会收到一张附有邀请函的购物发票，邀请顾客拨打一个免费电话，并回答一系列问题。拨打电话并回答问题的顾客，就有资格参加每月举行一次的现金抽奖活动。现在，CVS每年可以接到的顾客回复超过100万份。公司发现，商店的销售业绩和它的“3S”得分密切相关。

有趣的是，CVS除了统计每一个商店的“3S”分数，还做了很多其他的工作。管理者不仅仅查阅分析数据后形成的报告：市场部的副总经理海伦娜·福尔克斯说，这些通话是被录音保存的，管理者可以直接听到顾客对商店的实际评价。针对高层管理者团队，CVS实施了“顾客评价日”项目。CVS最高层的10位管理者，每天都会拿到一份电子音频文件，这个文件是前一天的某个顾客打来的电话录音。这段录音中对商店的评价可能是正面的，也可能是负面的。有一个高级经理专门负责挑选这个录音，然后分发给最高层的管理者，以保证挑选出来的录音的新奇，这些录音所反映的事情可能是管理层从前没有想过或者没有听过的。福尔克斯发现，有些评论是非常发人深省的。

最后，和施乐公司的做法类似，CVS要求高层管理团队的每个成员每年接听顾客电话2次，每次大概1个小时。福尔克斯指出，聆听这些电话录音和现场电话交谈都是深入人心的一段经历。这种方式所获得的深刻见解，是无法通过阅读大量数据得到的。

福尔克斯说，“一个零售商在商店中的消费方式，与顾客的消费方式是完全不同的。”因此，在商店中购物的管理者和顾客所获得的体会，是完全不一样的，很难做到从顾客的视角去审视整个商店的运营情况。

倾听不同的声音

2005年，大卫·塔西里接任LTX公司的首席执行官之职。LTX公司位于马萨诸塞州的诺伍德市是一家生产半导体检测设备的制造型企业。塔西里执行严格的客户评价制度，凭借这个制度，定期研究公司的主要客户。他旨在通过日常的评估过程，达到“及早发现客服方面的问题”的目的。因为，他意识到，如果让一个高级经理在会议上就有关客户的问题进行汇报，肯定变味了。正如他所说的那样，“管理者们会试图过滤信息，认为自己可以解决这些问题，所以常常会拖到很晚才告诉别人出现了问题。”

“每次我都是有目的地更换汇报人，如果某次会议上某个问题浮出水面，我会找来上次开会时汇报该项工作的人。我询问他们，在他们上次进行陈述的时候，是否意识到了这个问题。如果意识到了，为什么没有尽早披露这些问题呢？”塔西里说，“关键是要从这些经历中汲取教训，而不是去追究责任，责备下属。试图教会他们开诚布公地就工作问题进行沟通交流，这样才能更有效地解决问题。当然，我也在探寻他们犯错误的模式。如果某个人一而再地过滤信息，对问题避而不谈，我就需要换个方式对待他了，因为，最终我要让他明白，他必须为此负责。”

塔西里要求经理们在会议上做汇报时，尽量减少PPT的页数。他说：“我希望汇报者是在跟我以及其他人交谈，而不是朗读幻灯片。”

拉里·海沃德也一直在寻求不同的声音。海沃德是阿美特克公司商务部的总经理，他也像其他管理者那样，定期进行客户访问。然而，不同的是，海沃德非常重视客户访问工作，他不仅到顾客公司去访谈，还经常通过电话或者邮件与客户进行沟通交流，他希望可以更多地了解客户对于公司的产品和服务的不同看法。■

领导者如何获取未经过滤的信息

企业必须创建一个良好的氛围，在这个氛围中，人们会乐于分享自己获得的新消息，哪怕这些信息与主流观点相背离。但是，要想主动有效地提前发现问题，领导者还要做得更多。

领导者需要不时地绕过信息过滤者，不仅要看他们的报告，而且要直接查阅报告的原始数据，与关键的当事人进行交谈。领导者不仅要向自己亲近的顾问学习，更要向那些和自己持有完全相反观点的人讨教学习，广开言路。

总裁声音

■ 要成功，必须有理想和追求，但又要脚踏实地；每个阶段都要给自己设定通过努力可以达到的目标，不要好高骛远。

——TCL集团董事长李东生说，如果一开始就给自己定位太高，往往因不切实际而不能成功，因为思想决定了你的心态和行动。

■ 人在成功的时候，沉不下心来，这个时候总结出来的东西自然是很虚的。只有在失败的时候，总结的教训才是深刻的，才是真的。

——巨人网络董事长史玉柱认为，有过失败经历的人应该积极从失败中汲取教训。

■ 点子最不值钱，再好的点子也要经得起挑战，通过讨论才能改善，成功是靠长期不断地修正和执行。

——奇虎360公司董事长周鸿祎指出，与点子相比，好团队才是稀缺资源。

■ 一个企业要想获得更好的发展，必须面对两大挑战：能否专注、能否创新。而最后胜出的一定是闹中取静、埋头苦干的企业。

——百度董事长兼CEO李彦宏谈当今互联网市场环境下企业如何抓住机会。

■ 看哪些公司在真心培养员工，应该看他们是否提供机会给员工，让他们在容许错误、重视成长的环境中，着实地磨炼与学习。

——在创新工场CEO李开复看来，考察一家公司培养员工的力度不能只看它的培训经费多少。

■ 财富叠加很容易，轰然倒下更容易，所以，没有坎坎坷坷的成功本身就是一种危机。

文本信息过滤第3篇

作为面向Internet的个性化主动信息服务的一个重要中间环节, 近年来信息过滤 (Information Filtering, IF ) 技术近年来在信息的处理体系中应用越来越广泛。IF系统的作用与传统的信息检索 (Information Retrieval, IR) 系统类似, 用于帮助用户选择感兴趣的文本。但传统的信息过滤技术难以适应这种动态环境的需求。个性化文本信息过滤就是基于这一要求, 根据用户过滤需求, 建立基于样本的信息特征过滤模型, 在词频和词长的基础上, 结合文本中词的属性特征和局部语法结构分析, 从统计特性和知识两方面建立特征模型, 实现对文本的分析过滤, 获得了较好的特定信息过滤准确性和快速性[1,2,3]。采用计算机能够理解的形式表示文本是信息过滤系统所必须解决的问题。之后, 系统可以采用类似于人的工作方式从文本中抽取一些反映文本内容的特征词, 并以适当的方式表示这些特征。

1 文本表示

文档的表示方法有许多种, 如向量空间模型 (Vector Space Model, VSM) 、N-Grams表示法和文档概念分类表示法等[4]。向量空间模型于20世纪60年代末由Gerard Salton等人提出, 因其简单及有效性, 是近几年来应用最为广泛的模型, 检索效果较为显著[5,6]。在VSM模型中, 每一个文本都可以用一个向量来表示。向量的元素是由项 (词条) 及其权重组成的, 该向量称之为文本的特征向量。特征向量是文本的一个特征表示, 在某种意义上可以完全代表文本的特性。在VSM中, 每一篇文本都被映射成多维向量空间中的一个点, 对于所有的文本类和未知文本, 都可用此空间中的向量 (T1, W1;T2, W2;…;Tm, Wm) 来表示 (其中Ti为词, Wi为词对应的权重, 用以刻画该词在描述此文本内容时的重要程度) , 从而将文本信息的表示和匹配问题转化为向量空间中向量的表示和匹配问题来处理。

2 特征向量获取

人们用以辨识或区分该事物的标志就是特征。特征向量就是整个文本的标志, 它在后续处理中直接代表原文本, 特征向量的优劣将直接影响到整个文本处理结果的好坏。因此, 文本的特征向量获取是文本信息处理中的一个重要处理步骤。为了提高特征词条获取的精度和速度, 需要对分词得到的词条进行预处理, 包括无用词条过滤、词频加权、位置加权、同 (近) 义词合并[7,8]。图1为特征向量的获取过程。

2.1 无用词条过滤

无用词条过滤指与Web文本挖掘无关或相关性甚小的词条。它们在各个文本中均可以出现, 不代表文本的特点。这些词条的存在不仅不为挖掘操作提供任何信息量, 而且将导致距离的计算不准确, 同时还将增加存储与计算的额外开销, 必须予以删除。另外, 从自然语言理解的角度来看, 名词和动词构成了一个文本的核心。它们的简单组合可以作为整个文本的简单表示。所以, 无用词条主要包括:停用 (Stop-list) 词典中的词条, 如“the”, “is”等词条;名词、动词以外的词条, 这些词条不提供信息量或提供很小的信息量;在各个类别中都出现的词条。

2.2 词频加权

在VSM中, TF-IDF是一种最常见的确定词权重的方法。对于词权重的计算, 经典的TF-IDF方法考虑词条频率 (Term Frequency, TF) 和词条倒排文本频率 (Inverse Document Frequency, IDF) 两个因素。

(1) 词条频率:

词条在文本中出现的次数;

(2) 词条倒排文本频率:

该词条在文本集合中分布情况的一种量化, 常用的计算方法是log2 (N/nk+0.01) 。其中:N为文本集合中的文本数目;nk为出现该词条的文章数。

各个系统中TF-IDF的实现不尽相同, 但它们的词权重与词频率成正比, 与文本频率成反比。

根据以上两个因素, 可以得出:

$W_{i k} = Τ F_{i k} \times \log_{2} (Ν / n_{k} + 0.01) (1)$

式中:TFik为词条Tk在文本Di中出现的次数;N表示全部样本的总数;nk表示词条Tk的文本频率, 即包含词条Tk的文本个数;Wik为词条Tk在文本Di中的权重, k=1, 2, …, m (m为词的个数) 。

为了计算方便, 通常要对向量进行归一化, 最后有:

$W_{i k} = \frac{Τ F_{i k} \times \log_{2} (Ν / n_{k} + 0.01)}{\sqrt{\sum_{k = 1}^{m} [Τ F_{i k} \times \log_{2} (Ν / n_{k} + 0.01)]^{2}}} (2)$

2.3 位置加权

与普通文本不同, Web文本数据是一种半结构化的数据, 文本中包含了由各种标记指明的格式信息。据统计, <Title>中的文本涵盖了页面的全局描述信息, 它概括和总结了整个网页内容, 包含的是网页中最主要的特征;<H1>～<H6>经常是网页中十分重要的提纲挈领的内容。在计算权重的过程中, 对出现在不同格式区域的词条词频预处理以后乘以相应的加权系数, 以利用Web文本中的格式信息。例如, <Title>可以赋予很大的权重, H1～H6的权重可以依次递减, B, U, I, URL, META中的内容权重可以酌情设定。

2.4 同 (近) 义词合并

在传统的向量空间模型中, 最基本的假设是各个分量间正交。而在真实文档中, 作为分量的词汇往往具有很大的相关性[9]。这是因为在自然语言理解的过程中, 语境中经常出现多词同 (近) 义以及词条之间相互蕴含等现象。如果不考虑词条的这种语义关系, 而将它们分别作为单独的词条来对待, 那么词条权重的计算会存在很大的问题。

在进行文本表示时, 考虑到把具有语义联系的词条转化为同一个核心词汇, 将它们统一起来, 并相应地调整词条的权重。词条在文本中的出现频数是由中心关键词、蕴含词词条、近义词词条三部分的词频数累计得到的, 其词条权重统计公式为:

$Τ F = Τ Μ F + \sum Τ Ι F_{i} \times a_{i} + \sum Τ J F_{i} \times w_{i} (3)$

式中:TMF为中心词词条的词频数;TIFi为蕴含词词条的词频数;ai为蕴含词与中心词之间的蕴含度;TJFi为近义词词条词频数;wi为近义词与中心词之间的近似度。

3 文本相似度计算

若想判断一篇文本是否真正符合用户兴趣, 一种常见的方法是衡量文本与主题特征间的相似程度, 即需要计算文本与主题间的相似度。在信息过滤过程中, 相似度是十分重要的概念[10]。文本的一切特性通过由较为重要的特征词汇构成的特征向量来表示。所以, 文本相似度借助于其特征向量的相似度计算方法。

3.1 词语相似度计算

相似度这个概念, 涉及到词语的词法、句法、语义, 甚至语用等方方面面的特点。其中, 对词语相似度影响最大的应该是词的语义。

度量两个词语关系的另一个重要指标是词语的距离。一般而言, 词语距离是在[0, ∞) 之间的实数。一个词语与其本身的距离为0。词语距离与词语相似度之间有着密切的关系。两个词语的距离越大, 其相似度越低;反之, 两个词语的距离越小, 其相似度越大。二者之间可以建立一种简单的对应关系。这种对应关系需要满足以下几个条件:

(1) 两个词语距离为0时, 其相似度为1;

(2) 两个词语距离为无穷大时, 其相似度为0;

(3) 两个词语距离越大, 其相似度越小 (单调下降) 。

对于两个词语W1和W2, 将其相似度记为Sim (W1, W2) , 其词语距离为Dis (W1, W2) , 那么可以定义一个满足以上条件的简单的转换关系为:

$S i m (W_{1}, W_{2}) = \frac{α}{D i s (W_{1}, W) + α} (4)$

式中:α是相似度为0.5时的词语距离值, 它是一个可调节的参数。

对于两个汉语词语W1和W2, 如果W1有n个义项 (概念) , 则S11, S12, …, S1n;如果W2有m个义项 (概念) , 则S21, S22, …, S2m, 那么, W1和W2的相似度就是各个概念的相似度之最大值, 也就是说:

$S i m (W_{1}, W_{2}) = \max_{\begin{array}{l} i = 1 \dots n, \\ j = 1 \dots m \end{array}} S i m (S_{1 i}, S_{2 j}) (5)$

3.2 义原相似度计算

由于所有的义原根据上下位关系构成了一个树状的义原层次体系, 所以这里采用简单的通过语义距离计算相似度的办法。假设两个义原在这个层次体系中的路径距离为d, 根据式 (4) 可以得到这两个义原之间的语义距离为:

$S i m (Ρ_{1}, Ρ_{2}) = α / (d + α) (6)$

式中:P1和P2为两个义原 (Primitive) ;d为P1和P2在义原层次体系中的路径长度, 是一个正整数。

3.3 实词概念的相似度的计算

因为整体相似要建立在部分相似的基础上, 所以把一个复杂的整体分解成部分, 通过计算部分之间的相似度得到整体的相似度。在比较两个整体的相似性时, 首先要做的工作是在这两个整体的各个部分之间建立起一一对应的关系, 然后在这些对应的部分之间进行比较。如果某一部分对应物为空, 则:

将任何义原 (或具体词) 与空值的相似度定义为一个比较小的常数 (δ) ;整体的相似度通过部分相似度加权平均得到。

实词概念的语义表达式主要分成四个部分:

(1) 第一独立义原描述式:两个概念的这一部分相似度记为Sim1 (S1, S2) ;

(2) 其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独立义原 (或具体词) , 两个概念的这一部分相似度记为Sim2 (S1, S2) ;

(3) 关系义原描述式:语义表达式中所有的用关系义原描述式, 两个概念的这一部分相似度记为Sim3 (S1, S2) ;

(4) 符号义原描述式:语义表达式中所有的用符号义原描述式, 两个概念的这一部分的相似度记为Sim4 (S1, S2) 。

但是, 主要部分的相似度值应该对次要部分的相似度值起到制约作用, 如果Sim1非常小, 但Sim3或者Sim4比较大, 将导致整体的相似度仍然比较大的不合理现象, 于是, 最后得到两个概念语义表达式的整体相似度记为:

$S i m (S_{1}, S_{2}) = \sum_{i = 1}^{4} β_{i} \prod_{j = 1}^{i} S i m_{j} (S_{1}, S_{2}) (7)$

式中:βi (1≤i≤4) 是可调节的参数, 且有:β1+β2+β3+β4=1, β1≥β2≥β3≥β4。后者反映了Sim1到Sim4对于总体相似度所起到的作用依次递减。由于第一独立义原描述式反映了一个概念最主要的特征, 所以其权重定义得比较大, 一般在0.5以上。

各个部分的相似度的计算方法如下:

(1) 第一独立义原描述式:就是两个义原的相似度, 按照式 (6) 计算即可;

(2) 其他独立义原描述式:按照如下步骤对这些独立义原描述式分组:

① 先把两个表达式的所有独立义原 (第一个除外) 任意配对, 计算出所有可能配对的义原相似度;

② 取相似度最大的一对, 并将它们归为一组;

③ 在剩下的独立义原的配对相似度中, 取最大的一对, 并归为一组, 如此反复, 直到所有独立义原都完成分组。

(3) 关系义原描述式:把关系义原相同的描述式分为一组, 并计算其相似度;

(4) 符号义原描述式:把关系符号相同的描述式分为一组, 并计算其相似度。

在以上步骤 (2) ～ (4) 的计算中, 最后求加权平均时, 各部分取相等的权重。

4 结语

在过滤技术中, 文档特征向量的获取和相似度的计算方法对过滤的正确性起着关键的作用。本文理论研究中的一些文本分析所要求的步骤比如:词干的提取, 同义词的合并算法等在实际的编程实现中有一定的困难, 就算勉强实现, 对文本的分析速度也有很大的影响, 因此需要在过滤正确性和速度上找到一个平衡点, 提出更好的过滤技术来。

参考文献

[1]曹海.基于文本内容分析的过滤技术研究[J].四川大学学报:自然科学版, 2006, 43 (6) :1248-1252.

[2]胡娟丽, 姚勇, 刘志镜.基于典型反馈的个性化文本信息过滤[J].计算机应用, 2007, 27 (10) :2607-2609.

[3]刘海峰, 刘守生, 姚泽清, 等.基于Web的信息过滤技术研究[J].情报科学, 2008, 26 (12) :1869-1872.

[4]Chris H Q Ding.A Sinilarity-based Probability Model for Latent Semantic Indexing[A].Proceeding of22nd Intemra-tonal Conference on Research and Development in Informa-tion Retrieval[C], 1999:59-65.

[5]费洪晓, 穆-, 巩艳玲, 等.基于Agent的个性化信息过滤系统的设计与实现[J].计算机技术与发展, 2006 (12) :1-2.

[6]何建英, 陈蓉, 徐淼, 等.基于类别特征向量表示的中文文本分类算法[J].计算机应用研究, 2008, 25 (2) :337-338, 344.

[7]赵丰年, 刘林, 商建云.基于概念的文本过滤模型[J].计算机工程与应用, 2006, 42 (4) :186-188.

[8]汪琴, 安贺意, 秦颖.网络信息过滤和个性化信息服务[J].情报科学, 2007, 25 (6) :858-863.

[9]管玉娟.基于智能Agent的个性化信息检索技术研究[D].西安:西安建筑科技大学, 2005.

文本信息过滤第4篇

在传统的过滤模型中常使用布尔模型[1]、向量空间模型[2]和概率模型[3]等进行相关性过滤, 这些方法速度快、可实现性好。但是, 这些方法对用户模板的表示和待过滤信息的表示中缺乏语义约束, 使得过滤结果不能完全反映用户的真正需求。为了使机器在一定程度上理解用户需求和待过滤信息, 提高过滤的准确性, 本体、语义理解、知识推理等技术被广泛使用[4,5]。但是这些方法一般都需要大量规则和领域知识的支持, 可用性不是很好。目前, 在对内容的处理上, 文献[6]利用“知网”建立了真实文本的概念关系图, 并在此基础上对文本的内容进行了基于理解的推理;文献[7]则是利用WordNet将文档表示为一个带有分值的概念节点集合来表示文档中的语义内容。在对用户的需求表述上, 文献[8,9]提出了以语义框架构造用户需求模型的方法, 利用已有的概念层次词典将用户的需求以一种语义框架的结构来表述, 这种语义框架其实就可认为是一种本体结构模型。文献[10]提出了以本体构造需求模板的方法, 以本体的形式定义需求中概念间的语义关联关系, 将向量空间模型中的特征向量定义为本体中的实例, 通过实例间的关联路径计算特征项间的语义关联, 但文献[10]对文本的特征项提取只是基于统计的方式, 缺乏对文本的语法语义分析。

本文将用户感兴趣的特定需求表示为用户本体模型UOM, 这不仅能很好地解决同义和多义问题, 还可以体现用户需求中各概念间的语义关系, 更好地表达复杂的用户需求和事件之间的复杂关系。本文首先对待过滤信息进行文本结构分析, 通过句群分析给出句子的语义结构、各组成成分之间的语义关系;然后将句子的特征项映射到UOM中去, 计算实例概念间的语义关联度;最后计算出文本与UOM的相似度。基于这些成果, 本文开发了基于UOM的文本信息过滤系统, 并在网络教学资源的智能按需服务系统中得到了实际运用, 实践证明此方法能更有效地为用户提供知识过滤服务。

1基于UOM的文本信息过滤过程

基于UOM的文本信息过滤的主要核心部分是UOM的构建, 文本结构分析及特征提取, 以及语义相关度的计算, 如图1所示。在UOM的构建上, 从用户给出的需求描述出发, 将对需求中贡献较高的特征词抽象为本体中的中心概念。将特征词间的语义关系定义为本体中的概念关联关系。在语义相关度的计算上, 首先进行过滤文本结构分析, 把过滤文本的特征项映射到UOM相应的实例概念中;然后根据实例概念在文本中出现的位置及本体模型的中心概念间关联关系, 计算实例概念的语义关联强度;最后计算出文本与UOM的相似度, 判断是否符合用户需求。

2UOM构建方法研究

2.1UOM的形式化描述方法

本文借鉴了文献[11]用四元组来描述本体的方法, 但对四元组的每一项进行了重新定义, 以符合UOM的实际需求。

定义1 UOM可以表示为一个四元组, 记作:

O=〈T, I, TD, IS〉 (1)

其中T为概念集, 包括本体表示中的中心概念集TC, 关系概念集TR, 记作:T= {TC, TR};I为实例集, 实例是概念表示的具体事物, 包括实例概念集IC和实例关系集IR, 记作:I={IC, IR};TD为概念定义集, 用来定义概念集T中的概念, 包括中心概念的定义CD和关系概念的定义RD, 记作:TD={CD, RD};IS为实例声明集, 用来声明概念集T中的实例, 包括中心概念的实例声明ISC和关系概念的实例声明ISR, 记作:IS={ISC, ISR}。

定义2 中心概念定义集CD可以表示为:

CD={tCi (q) } 1≤i≤|TC| (2)

其中tCi∈TC, q为中心概念对用户需求的贡献程度 (0≤q≤1) 。

定义3 关系概念定义集RD可以表示为:

RD={tRk (tCi, tCj, Rij) } 1≤k≤|TR| 1≤i, j≤|TC| i≠j (3)

其中tRk∈TR, tCi和tCj∈TC, Rij为中心概念tCi和tCj之间的语义关系对整个用户需求的贡献程度 (0≤Rij≤1) 。

定义4 中心概念实例声明集ISC可以表示为:

ISC={tCk (iCj, c) } 1≤k≤|TC| 1≤j≤|IC| (4)

其中tCk∈TC, iCj∈IC, c为实例概念对中心概念的相关度 (0≤c≤1) 。

定义5 关系概念实例声明集ISR可以表示为:

ISR={tRk (iRj, r) } 1≤k≤|TR| 1≤j≤|IR| (5)

其中tRk∈TR, iRj∈IR, r为实例关系对关系概念的相关度 (0≤r≤1) , 代表了实例关系对两个中心概念之间的关联强弱。

2.2UOM的构建过程

建立UOM的第一步是构建中心概念集TC。首先把用户需求描述中对需求贡献较高的特征词抽取为中心词, 再将这些中心词抽象成中心概念集中的中心概念tCi, 并确定中心概念对用户需求的贡献程度q。这样就可以得出中心概念定义集CD。

第二步是将中心概念集转换成中心概念图。首先找到中心概念之间的概念关系, 形成概念关系集TR, 再将存在概念关系的中心概念 (tCi, tCj) 连接起来, 形成中心概念图, 最后根据概念关系对整个用户需求贡献的不同, 确定相应的贡献程度Rij, 进一步明确用户的具体需求和语义倾向。这样就可以得出关系概念定义集RD。

第三步是将中心概念图中的中心概念实例化。可以从需求描述和正例文本出发, 从中找出这些中心概念对应的实例概念iCj, 并根据实例概念对中心概念之间的相关程度赋予相关度c。当实例概念与中心概念相同或同义时, 相关度为1。

第四步是将中心概念图中关系概念实例化。可以从需求描述和正例文本出发, 找出关系概念对应的实例关系iRj, 并根据实例关系对关系概念的相关程度赋予相关度r。

由于语言表达的多样性, 有时候很难把两个实例概念之间的关系用实例概念的方式表达出来, 例如“安全问题是电子商务的核心和灵魂, 已成为用户和商家都十分关心的话题”。本文把这种难以实例化的语义关系叫作虚关系。采用虚关系来表达语言的多样性还简化本体模型的构建。虚关系相关度的确定是一个值得研究问题。通过实验分析, 用两个实例概念的距离的倒数1/d来描述虚关系的相关度比较合理。

这样就把一个用户需求描述用本体的形式表达了出来, 从而形成了UOM。根据教学资源的过滤需求, 创建了一个以“电子商务”为需求的本体模型, 具体需求描述为“企业在电子商务活动中面临的安全问题, 以及如何解决这些安全问题”。按照构建的过程, 首先根据用户需求描述构建中心概念图 (如图2所示) , 然后根据用户需求描述和正例文本扩展中心概念图的语义关系, 最终形成UOM, 如图3所示。

下面给出电子商务的本体模型部分描述O =〈T, I, TD, IS〉。其中概念集:T = {[TC], [TR]}={[企业, 电子商务, 安全问题, 安全技术], [运用, 面临, 使用, 解决]}。

实例集:I={[IC], [IR]}={[网络威胁, 安全隐患, 安全问题, 安全技术, 安全机制, 安全保障, 安全控制, ……], [面临, 涉及, 制约, 使用, 保护, 解决, ……] }。

概念定义集:TD={[CD], [RD]}={[企业 (0.1) , 电子商务 (0.8) , 安全问题 (0.8) , 安全技术 (0.8) ] , [运用 (企业, 电子商务, 0.05) , 面临 (电子商务, 安全问题, 0.8) , 解决 (安全技术, 安全问题, 0.1) , 使用 (电子商务, 安全技术, 0.8) ]}。

实例声明集:IS={[ ISC], [ ISR]}={[安全问题 (网络威胁, 0.9) , 安全问题 (安全隐患, 0.9) , 安全问题 (安全问题, 1.0) , 安全技术 (安全控制, 0.9) , 安全技术 (安全保障, 0.9) , 安全技术 (安全机制, 0.9) , 安全技术 (安全技术, 1.0) , ……], [面临 (面临, 1.0) , 面临 (涉及, 0.8) , 面临 (制约, 0.9) , 面临 (虚关系, 1/d) , 使用 (使用, 1.0) , 使用 (保护, 0.8) , 使用 (虚关系, 1/d) , 解决 (解决, 1.0) , 解决 (处理, 0.6) , 解决 (虚关系, 1/d) , ……] }。

3语义相关度计算

3.1文本结构分析及特征提取

对文本的句群、段落、篇章分析, 可以得到不同层次的文本特征。句群语境是语境的最小单位[12], 本文的特征提取算法也是建立在句群语境基础上的。

把文本分词后的特征词分别与本体模型的实例概念和实例关系进行匹配, 同时记录这些匹配的特征词在文本中出现的位置。由此得到该文本的特征向量。

T={wi (p, s, l) } i=1, 2, 3, … (6)

其中wi为匹配的每一个特征词, p为wi所在段落, s为wi所在句子, l为wi所在句子中的位置。文本与UOM的相似度就是根据这些特征向量来计算的, 如果特征词没有在特征向量中出现, 就不计入相似度。

3.2实例概念关联度计算

实例概念间的语义关联度计算方法如式 (7) 所示:

Sij=Rij×ci×r×cj (7)

其中两个实例概念 (iCi , iCj) 和实例关系iRk同时出现在一句话中, Rij为实例概念iCi和iCj对应的中心概念之间语义关系对整个用户需求的贡献, ci和cj分别为实例概念iCi和iCj对其中心概念的相关度, r为实例关系iRk对其关系概念的相关度。当实例关系没有出现时, 此时实例关系可由虚关系表示, r值为两个实例概念iCi和iCj在文本中距离的倒数。

对于孤立的实例概念不作统计, 对于在文本不同语句中出现的相同实例概念关系, 按以上规则计算叠加。

3.3文档相似度的计算

文本T与用户模型O的语义相似度计算方法如式 (8) 所示:

Sim $(Τ ‚ Ο) = \sum_{i = 0}^{n} \sum_{j = i + 1}^{n} S_{i j} \times q_{i} \times q_{j}$ (8)

其中Sij为实例概念i和实例概念j的语义关联度, 由式 (7) 计算。qi为实例概念i所对应的中心概念的权重, qj为实例概念j所对应的中心概念的权重。Sim (T, O) 值越大, 说明该文本表达的语义与用户模型中定义的语义越接近。

4实验

本文除了描述了如前所述的“电子商务”本体模型外, 为了和文献[10]进行对比, 本文还描述了文献[10]中关于“伊拉克战后重建”的本体模型, 具体需求描述为:“相关新闻为关于伊拉克战后重建所面临的各种困难和挑战, 以及国际社会对这些困难提出的各种解决方案。与分析重建困难无关的关于伊拉克战后重建的新闻视为无关”。

通过搜索引擎百度和Google, 动态搜索到有关电子商务领域相关资源459篇, 其中与主题相关的172篇;搜索到的伊拉克战后重建方面的相关资源253篇, 其中与主题相关的41篇。

在实验中, 运用了基于向量空间的方法和文献[10]的方法与本方法进行了对比测试。为了探究虚关系在过滤中的作用, 对基于本体的方法分为两种情况讨论:复合关系和实例关系。复合关系中包含了实例关系和虚关系。过滤系统性能指标采用了在检索和过滤中广为应用的召回率和准确率及F1值, 测试结果如表1和表2所示。

实验结果表明:

(1) 基于统计的向量空间方法的效果最差。这是由于过滤样本都是围绕这个主题的, 用关键词很难区分。

(2) 基于UOM的过滤方法优于文献[10]的方法。这是由于相似度计算考虑了文本结构和概念间的语义关系, 对于那些相似文本中因分散存在的关键词而造成的假匹配, 可以给予很好的处理。文献[10]的方法只是把本体用于了用户需求的表示上, 而在具体计算文本相似度时没有考虑文本的结构和概念间的语义。

(3) 复合关系方法的F1值高于实例关系方法的F1值。虚关系的引入提高了召回率, 这是因为虚关系在一定程度上扩大了过滤结果集, 可以在UOM不完备的情况下, 仍然能查找到所需要的文本。但是虚关系却降低了过滤的准确率, 这是虚关系不是真正意义上的语义关系造成的。

5结论

本文将本体应用到文本过滤中, 把用户需求的语义信息通过UOM方式进行表达, 很好地提高了过滤系统的准确率和召回率, 在实际运用中也取得了较好的效果。可以得出以下结论:

(1) 用本体来帮助机器理解用户的真实意图是一种很有效的手段。

(2) 通过文本结构的分析, 分清各个关键词在句子中的角色, 与其它项的语义关系, 可以有效地提高过滤的准确率。

(3) 在语义相关度的计算中, 虚关系的引入有效地扩大了过滤结果集, 可以部分提高召回率。

(4) 基于UOM的过滤方法和基于语义框架过滤方法相比, 不需要领域知识库的支撑, 因此算法的执行效率要高, 具有较好的实用性。

由于UOM的完善程度会直接影响过滤效果, 下一步的研究重点可以围绕UOM自动构建和动态更新以及语义相关度算法, 进一步提高过滤效率和准确率。

摘要：随着互联网信息的快速剧增, 文本过滤技术成为互联网内容处理的关键技术, 对海量信息处理具有很重要的意义。目前研究热点是基于语义的过滤方法, 但是这些方法一般都需要大量规则和领域知识的支持, 可用性不是很好。为了使机器更好地理解用户需求和文本内容, 使过滤结果更能反映用户的真正需求, 提高文本过滤的准确率和召回率, 提出了基于用户本体模型UOM的文本信息过滤方法。该方法主要包括UOM构建、文本结构分析、文本概念提取和语义相关度计算等。基于UOM (User Ontology Model) 的过滤方法, 不仅可以表示复杂的用户需求, 而且还避免了领域本体的构建, 因而其有效性和实用性得到了很大的提高。通过在网络教学资源的智能按需服务系统中的实际运用, 表明此方法能更有效地为用户提供过滤服务。

关键词：文本过滤,用户本体模型,虚关系,文本结构分析

参考文献

[1]Yan TW, Garcia-Molina H.Index structures for selective dissemination of information under boolean model.ACMTrans.on Database Systems, 1994, 19 (2) :332-364.

[2]DL Lee, Huei Chuang, Seamons K.Document Ranking and the Vector-Space Model.IEEE Software.1997:67-75.

[3]曾春.信息过滤的概念表示与算法研究[D].北京:清华大学出版社, 2003.

[4]Liu Chingyung, Verscheure O, Amini L.Semantic Routing and Filtering for Large-Scale Video Streams Monitoring.Multimedia and Expo, 2005.ICME2005.IEEE International Conference on.2005:1408-1411.

[5]Schickel Zuber V, Faltings B.Using Hierarchical Clustering for Learn-ing the Ontologies used in Recommendation Systems.In The Thirteenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2007:599-608.

[6]陈晓明, 王洪, 张仰森.“知网”的知识扩展和推理研究[J].贵州大学学报, 2001, 18 (2) :97-102.

[7]Mustapha Baziz.Towards a Semantic Represehtation of Documents by Ontology-Document Mapping[J].Artificial Intelligence:Methodology, Systems, and Applications:11th International Conference, AIMSA2004, Varna, Bulgaria, September2-4, 2004:33-43.

[8]林鸿飞, 麻志毅, 姚天顺.基于语义框架的中文文本过滤模型[J].计算机研究与发展, 2001, 38:136-141.

[9]晋耀红.基于语义的文本过滤系统的设计与实现[J].计算机工程与应用, 2003, 7:22-26.

[10]袁兴宇, 王挺, 周会平, 等.以本体构造中文信息过滤中的需求模型[J].中文信息学报, 20 (3) :63-69.

[11]王洪伟, 吴家春, 蒋馥.基于描述逻辑的本体模型研究[J].系统工程.2003, 21 (3) :101-107.

文本过滤研究概述第5篇

关键词：文本过滤,信息过滤,过滤模板,阈值

0 引言

随着计算机软硬件的飞速发展和互联网的日益普及, 网络正在堆积成为一个规模最大, 覆盖范围最广, 资源最丰富的信息库。如何从网络中获取对于用户有价值的信息不但成为新信息时代亟待解决的问题之一, 同时也引起了学术界和企业界的高度重视。因此许多关于文本处理的技术应运而生。如:文本检索, 文本分类, 文本过滤, 文本文摘等。

文本过滤是一个将用户感兴趣的文档从某个文档集中筛选出来的过程。具体是指从持续不断的文本流中依据用户兴趣模型筛选出与用户需求相关的文本, 并主动把其中相关度较高的文本提供给具有该类需求的注册用户;用户同时将自己认为最相关的文本反馈给过滤系统的服务器;系统也可以通过监视用户的操作行为来获取用户兴趣, 最后由过滤系统自动更新现有的用户兴趣模型, 以不断地提高系统的准确率。

由于文本过滤技术不但可以向用户主动提供个人兴趣相关的信息, 而且可以过滤敏感性信息, 因此它在很多诸如提供选择性信息服务的企事业单位, 档案管理领域, 终端用户等不同的领域有着极大的应用。

1 国内外研究现状

文本过滤的产生可以追溯到Luhn于1958年提出的“商业智能机器”的设想[1]。在该概念框架中, 图书馆工作人员为每个用户建立一个用户需求模型, 然后通过精确匹配, 为每个用户产生一个符合信息需求的新文本清单并记录所订阅的文本, 用于更新用户需求模型。Luhn的设想涉及到了信息过滤系统的各个方面, 为文本过滤以后的发展奠定了坚实的基础。十年后, 美国信息科学防会成立了选择性信息分发系统兴趣小组 (SIG-SDI) [2]。但当时只有极少的系统能够自动更新用户需求模型, 大多数的系统都遵循Luhn模型。直到1982年, Denning提出了“信息过滤”的概念[3], 他描述了一个信息过滤的需求例子, 在电子邮件系统中, 可以通过”内容过滤器”区分出一般邮件和紧急邮件, 以此提示对接受到的信息内容进行有效控制。1987年, Malone等人提出了三种信息选择模式[4], 即认知、经济和社会。认知模式相当于Denning提出的基于内容的信息过滤;经济模式来源于他的“阈值接收思想”, 社会模式也称为“合作过滤”, 是他最主要的贡献。1989年, 美国消息理解大会 (Messag Understanding Conference) , 将自然语言处理技术引入到文本过滤研究方面, 极大地推动了信息过滤的发展。1992年, 美国国家标准和技术研究所与国防部高级研究计划局联合赞助了每年一次的文本检索会议 (TREC) , 对文本过滤的形成和发展提供了强有力的支持。1997年, TREC更加深入了对信息过滤的研究, 它将信息过滤细分为批过滤、分流过滤和自适应过滤。

国内对于文本过滤研究起步较晚并且主要多见于一些算法, 这些算法主要是针对自适应过滤系统中的特征抽取, 相似度计算, 用户模板构造, 过滤算法以及模型设计等一些关键技术进行研究的。但是目前发展也很快, 尤其是随着信息安全、信息定制等应用在国内的兴起, 对文本过滤技术的研究也普遍得到人们的重视。清华大学、复旦大学、中科院和微软亚洲研究院等一些科研机构较早地开展了文本过滤技术的研究。其中, 中科院计算所、复旦大学都曾参加了TREC评测中的文本过滤任务, 取得了较好的成绩。此外哈工大、南开大学等重点科研单位也正着手对文本过滤方向进行研究。

2 文本过滤系统

文本过滤的实现一般包括训练阶段和过滤阶段两个阶段。训练阶段的目的是根据给定的训练数据, 生成初始的过滤模板, 并决定初始的阈值。在自适应过滤阶段, 对于文本流中的每篇文本, 系统判断它是否和过滤模板相关, 再根据用户的反馈信息, 自动调整过滤模板和阈值, 以获得最佳的过滤性能。

2.1 训练阶段

训练阶段的两个关键性步骤是初始模板的建立和初始阈值的设置。其中初始模板向量是主题向量、由正例文本抽取的特征向量和由伪正例文本抽取的特征向量三个向量的加权和, 权重分别为α、β和γ, 即:

Pf0 (Q) =α·P0 (Q) +β·P1 (Q) +γ·P2 (Q)

其中, Q表示主题, Pf0 (Q) 是主题Q的初始模板向量, 而P0、P1和P2是它的三个分量。而关于初始阈值的设置, 可以计算在某个阈值水平下的性能评价指标 (如Utility或F值) , 选择能导致最佳性能的阈值作为初始阈值。而模板向量和训练文本之间的相似度采用余弦公式获得:

undefined

其中, pf表示模板向量, d表示文本。dk是d中第k个词的权重, 按下列公式计算:dk=1+logtfk, 而tfk是d中第k个词的频率。

2.2 过滤阶段

当初始的模板向量建立、并且阈值也设置好之后, 文本过滤的过程就是自适应地修改模板向量和阈值, 使得过滤系统的性能不断提高的过程。在调整模板向量的时候, 从正例文本和反例文本中抽取出特征向量。于是新的模板向量就是主题向量、由正例文本抽取的特征向量和由反例文本抽取的特征向量三个向量的加权和, 权重分别为α、β和γ, 即:

Pf′ (Q) =α′·P0 (Q) +β′·P1 (Q) +

γ′·P3 (Q)

阈值的调整则大多采用Arampatzis等人提出的ScoreDistribution (S-D) 方法[5,6]。

3 发展趋势

文本过滤随着计算机应用的发展而从设想成为现实, 并不断地完善自身的功能, 经历了很长的发展时期, 并在因特网日益普及的今天, 在信息获取方面发挥着越来越大的作用。它作为信息过滤的一个研究分支, 涉及的知识范围非常广泛, 综合了自然语言理解、人工智能以及知识论等领域的知识, 其关键技术主要包括文本分词、文本特征向量降维、文本特征提取、用户模板和过滤阈值初始化以及机器学习等。有很多问题有待于进一步的深化和拓宽。

在文本表示方面, 基本的向量空间模型 (VSM) 把文档看成是文档空间的一个向量。假设各个项之间是正交的, 而这并不符合文档的实际情况。虽然在目前的研究中, VSM模型获得了很大的成功, 但其缺点也日益突出。如何更好地表示文本, 如何表达语义信息将是文本过滤中的重要方向。VSM中向量的维数太高仍是主要制约因素。如何在不影响文本表示的基础上将向量的维数降低也是文本过滤的研究重点。

由于在过滤过程中, 用户的兴趣并非一成不变, 所以如何通过用户的反馈来学习仍然是值得关注的课题。阈值学习方面近年来出现了很多新的算法。但仍有很多地方有待改进。实验也证明阈值的学习对系统的性能产生很大的影响。如何进行更有效的阈值学习将是文本过滤中研究的热点之一。

过滤系统的评价问题始终是关注的焦点之一。采用何种评价方法才能更客观地反映系统的性能也需要进行深入研究。

参考文献

[1] Luhn H P. A business intelligence system[J].IBM Journal of Research and Development, 1958, 2 (4) :314-319.

[2]Edward M Housman.Survey of current systems for selective dissemina-tion of information.Technical Report SIG/SDI[R].American Societyfor Information Science Special Interest Group on SDI, Washington DC, Junel969.

[3] Peter J.Denning.Electronic junk[J].Communications of the ACM, 1982, 25 (3) :163-165.

[4]Thomas W Malone, Kenneth R Grant, Franklyn A Turbak, et al.Intelli-gent information sharing systems[J].Communications Of the ACM, 1987, 28 (6) :390-402.

[5]Avi Arampatzis, Andre van Hameren The Score-Distributional Thres-hold Optimization for Adaptive Binary Classification Tasks[C]//SI-GIR’01, New Orleans, Louisiana, USA, 2001:285-293.

文本信息过滤第6篇

1 自适应不良网页过滤模式

本模式分为训练和过滤两个阶段:训练阶段主要是利用自适应样本库构建不良类类别模式、性医学类别模式、性文学类别模式,从而构成一个智能化的过滤模式;过滤阶段是通过已创建的过滤模式和用户设置的阈值对测试文档集快速分类预测以过滤不良网页。

2 文本表示与向量字库

本文中采用了向量空间模型,将每篇文档看作是由汉字字符这种项构成的向量,每篇文档中出现的所有不重复汉字的总个数即为该文档向量的维,项的权重存放的是该项在单位个汉字中出现的频率。因此,一篇文档可以表示为:D=D(T1,W1;T2,W2;…;Tn Wn),其中,Tk是汉字字符项,Wk是该汉字在文档中的字频统计值,1≤k≤n。

对于每篇文档而言,其中的汉字字符项按照字频高低顺序存在唯一排列,以汉字字符项、字频、字频排名为主信息的向量在本文中称为向量字。以每个类别的训练样本库为文档集,分别统计各个类别的文档集中出现的所有汉字及其在该类别下的所有文档集中的字频、字频排名等信息,由此可得各个类别的向量字字库。

3 自适应类别模式

3.1 构建算法

1)从不良类训练样本集生成不良类类向量字库;

2)从普通类训练样本集生成普通类向量字库;

3)统计不良类向量字库和普通类向量字库,产生不良类特征字库;

方法:计算所有两字库中同一字符在不同字库中的字频绝对差值,并依据字频绝对差值高低排序,差值越大的认为其表征不良主题特征性越强。本实验中定义为该类具有频率绝对差值的字为特征字,由这些特征字及其字频值、字频绝对差值、排名等信息可以构建不良类特征字库。

4)利用特征阈值从不良类特征字库中抽取前若干个特征字及其字频值作为不良类标准模式。

3.2 过滤算法

1)构造测试文档的特征向量;

2)将测试文档和不良类标准模式比较,算出相似度,依据阈值进行过滤判断。

本文采用了以下3种方法计算不良类标准模式与测试文档特征向量的相似度:

最小二差法:本文中,最小二差为不良类标准模式与测试文档特征向量中同一字符对应的不用字频绝对差值累加值。

特征字字频累加法:本文中,特征字字频累加值就是测试文档特征向量中各个字符对应的不用字频的累加值。

余弦度量法:本文中,计算不良类文档向量与测试文档向量的相似程度。

4 系统设计

4.1 系统架构与功能简介

该实验系统是在Eclipse环境下利用Java语言开发实现,采用了流行的MVC(Model-View-Controller)模式,数据库的访问采用JDBC直接访问方式。

系统包括前台实验、后台管理两个子系统,其中:

前台应用系统:是本实验主要的应用模块,包括网页下载、数据清洗、分词处理、字频统计、模式构建与预测、图示等用于实验处理与分析所要的主要功能。

后台管理系统:是系统维护中心,包括前台样式管理、用户权限管理、前台应用各默认阈值设置管理等主要功能,该子系统非实验必需,但有利于前台实验系统的维护。

4.2 系统界面设计

本实验系统使用了典型的图形用户界面,其界面部分的开发主要是利用了开源软件包Swing,界面设计以实用为主。

系统界面一般由两部分构成:菜单栏、工作区。其中,菜单栏包括文件、搜索引擎、文本与处理、分词处理、分类预测、统计土、帮助这七个主菜单项;工作区则依据各主菜单项的不同而略有变化,但一般均包括命令按钮、信息栏区、文本输入区等主要组件。

5 实验结果及分析

实验中构建了不良类类别判别模式。实验结果如表1所示(注:以120篇文档作为测试文档,其中含25篇不良类文档、80篇普通类文档、10篇性医学类、5篇性文学类、25篇不良类文档)。

可见,在分类预测的3种算法中,以余弦度量算法效果最佳,基本上能以非常高的准确率过滤不良网页;特征字字频累加法虽然过滤不良网页准确率最高,但识别性医学类网页时比余弦度量法差;最小二差法判别效果最差。

6 结束语

本实验利用自适应类别模式与余弦度量算法能较快且以较为满意的准确率对不良网页进行过滤,但利用这种基于字频统计和数据挖掘技术的过滤模式在处理性相关文学类网页时,准确率较低,往往误认为不良网页而将之过滤。以后可将构建性医学类和性文学类类别判别模式以用于二次判断,从而提升系统的判别准确率。

参考文献

[1]唐坚刚,熊国萍.自适应不良网页过滤模式的研究与实践[J].计算机工程与设计,2008(11).

[2]黄萱菁,夏迎炬,吴之德.基于向量空间模型的文本过滤系统[J].软件学报,2003,14(3):435-442.

[3]李强,李建华.基于向量空间模型的过滤不良文本方法[J].计算机工程,2006,32(10):4-5,8.

[4]Hammami M,Chahir Y.Webguard:Web based adult content protection and filtering system[C]//Proceedings of the IEEE/WIC Interna-tional Conference on Web Intelligence.Computer Society,2003.

文本信息过滤第7篇

当前,智能电网的研究方兴未艾,从一定程度上讲,智能电网代表了未来电网的主流发展趋势[1,2,3]。欧美等发达国家智能电网的核心理念是在建立集成、高速的双向通信网络的基础上,利用现代先进的信息通信和控制技术,提升电网的智能化水平, 实现可再生能源的双向接入和互动。我国智能电网是以特高压电网为核心,包含发电、输电、变电、配电、用电和调度等六大环节,具有信息化、数字化、自动化、互动化的智能技术特征。

传统电网模式下,电网的信息通信系统与外部互动程度低,对电网安全的影响较小。随着智能电网的发展,物联网、云计算等更多先进信息通信技术将得到广泛应用,系统运行控制的自动化和互动化程度都将显著提升,使得现有的电力信息网络边界延伸到用户侧,这加大了整个电网的信息安全防护难度。与此同时,智能电网互动化程度的不断提高使得各环节业务数据正以爆炸性的趋势迅速增长, 形成了多属性、多来源的海量数据。系统之间的数据交互日益频繁,而高效、安全、实时的数据交互是实现智能电网信息化、互动化的信息安全基础,如何保障智能电网各环节业务系统数据在其交互过程中不被泄露成为智能电网信息安全重点关注的问题之一。因此,对这些数据进行识别与过滤是防止其泄露的关键技术和研究热点。

随着电网智能化、互动化程度的提高和新的通信方式的出现,智能电网信息安全在智能用电、 95598互动化以及智能家居等业务中的防护难度不断增加,信息安全已成为智能电网安全稳定运行和对社会可靠供电的重要基础,是电力企业生产、经营和管理的重要组成部分。为了应对智能电网信息安全的新挑战,近年来,其在国内外无论是学术界还是企业界都处于被极度关注的地位,其研究遍及智能电网信息安全标准规范、通信体系架构及网络安全、数据安全、终端安全等众多方面[4,5,6,7]。

目前在国外,美国、欧盟等国家和地区分别以制定智能电网信息安全相关标准规范为主要工作, 以此来指导智能电网信息安全建设。同时诸如西门子公司从技术上开发出一种智能电网架构模型SGAM,并在标准化、试点项目和工业领域的实际应用中积累了大量第一手的经验材料,为大规模产业化应用做好了充分的准备。在国内,随着国家提出建设坚强智能电网,只有少数高校、科研院所及企业对智能电网信息安全从标准、体系到技术展开了一定的研究。但鉴于智能电网互动化应用的复杂多样性以及网络边界的不可控性,使得现有的安全防护方案难以解决实际应用中遇到的所有安全问题,许多理论和应用领域仍处于空白,产业链还未完全形成,是否照搬国外发展模式还值得商榷。当前,国家电网公司已从电网基础设施、技术标准体系等层面全面建设发、输、变、配、用及调度各环节智能电网应用,这为智能电网信息安全技术的测试和应用提供了关键的物理支撑,相信智能电网信息安全技术将会在智能电网建设过程中发挥越来越重要的安全保障作用。

在中文文本处理的现实应用领域中,如中文文本的自动检索、过滤、分类等,分词是最基础的工作, 对上述后续的应用有根本性的指导作用,扮演着极为重要的角色。因此,中文自动分词问题的解决是这些应用领域急需突破的关键问题。文献[8-11] 分别给出了不同的中文分词算法,解决中文分词过程中出现的词语识别、歧义消除等关键问题。其中文献[8] 提出一种基于层叠隐马尔可夫模型的中文命名实体一体化识别方法,目标是将人名识别、地名识别以及机构名识别等命名实体识别融合到一个相对统一的理论模型中。文献[9] 通过层叠条件随机场模型自动识别中文机构名,该方法设计了有效的特征模板和特征自动选择算法,解决了高层的机构名条件随机场模型对复杂机构名的识别。文献[10] 提出了一种基于最大间隔马尔可夫网模型的汉语分词方法,该方法将最大间隔原则与无向图模型结合起来,有效解决了中文分词的推广。文献[11] 提出一种基于有效子串标注的中文分词方法,该方法以一种更为可靠的算法寻找更长的标注单元来实现中文分词的大规模语料学习,并改进了传统的基于字标注的统计学习方法。上述这些分词算法并没有针对分词中出现的新词进行有效识别,同时也没有消除分词过程中所产生的词语歧义现象。在特征选择方面,传统的特征选择算法包括基于文档频率、信息增益、开方拟和检验方法、互信息、潜在语义分析(Latent Semantic Analysis,LSA)、期望值交叉算熵、文本证据权等算法[12]。这些方法简单易实现, 但均存在事先假设不足、主观性较强的缺陷,不能很好解决特征选择的最优化问题。为此,近些年,基于进化算法、蚁群算法、粒子群算法、粗糙集和模糊集等技术及其改进算法来解决特征选择已成为国内外广大学者研究和探讨的热点话题[13,14,15]。文本识别过滤本质上可理解为一种二元或多元的文本分类, 根据一个已被标注的训练文本集合,找出文本特征与所属类别之间的关系,然后利用这种关系模式对没有分类标记的文本进行自动类别判断。近年来, 文本分类技术已经吸引国内外学者的关注,并广泛应用于诸多领域,其挑战主要集中在层次分类、不平衡样本分类、海量文本分类以及分布式文本分类等方面。现有解决方案是基于K最近邻(k-Nearest Neighbor,KNN)、支持向量机以及人工智能、机器学习和统计理论等方法构造文本分类识别模型进行解决[16,17]。本文结合智能电网数据安全交换的实际需求,从体系架构、关键技术等方面介绍面向智能电网的多领域海量文本过滤框架的设计与实现。

1面向智能电网的多领域海量文本过滤框架

整个面向智能电网的多领域海量文本过滤框架主要由行业需求、理论支撑、关键技术、原型系统等部分组成。

1)行业需求重点包括智能电网背景下专用语料库构建的行业需求、智能电网多领域海量高维文本过滤时特征选择的计算需求以及智能电网海量文本自适应分布式过滤的安全需求等3方面。

2)理论支撑重点是围绕面向智能电网的多领域海量文本过滤及优化机制,从高效准确的智能电网专用语料库构造中的自动分词及新词识别模型、文本特征选择优化模型以及文本过滤规则挖掘理论等4个方面展开。

3)关键技术包括智能电网专用语料库、智能电网多领域高维文本特征选择模型以及智能电网海量文本数据自适应分类3部分,其中智能电网专用语料库主要是收集智能用电、95598以及智能家居等各类智能电网互动化业务应用文本语料信息,以此为基础并结合现有电力专业词典,建立符合智能电网互动化业务特征的文本元数据库;同时在解决组合型词语歧义和新词自动识别的基础上,构建智能电网专用语料库。智能电网多领域高维文本特征选择模型重点是利用文档频率进行文本特征初选,构建适合算法处理的文本特征集,同时基于人工智能算法对文本特征选择进行优化,构建相应的特征选择优化模型。智能电网海量文本数据自适应分类主要是针对智能电网环境下数据海量高维、天然分布及动态变化等特性,在上述特征选择的基础上,借助反馈机制,利用量子基因表达式编程算法对海量文本进行分布式过滤函数增量式挖掘,最终构建基于最优化理论的全局过滤函数模型。在上述关键技术支撑下,构建面向智能电网的多领域海量文本过滤原型系统(见图1)。

2关键技术

2.1智能电网专用语料库的构建

为了更好地构建面向智能电网的专用语料库, 首先从智能用电、95598以及智能家居等多个应用领域中收集相应的语料信息,包括系统相关设计文档、运行文档和支撑文档、各业务系统安全防护方案、相关规划方案、招投标文件等,并对这些信息进行相应的预处理后,构建包括文本来源、文本大小、文本存储位置等属性的文本元数据库。然后拟利用概率统计和动态规划理论对相应的文本内容进行自动分词。最后拟通过信息熵从文本中自动抽取新词,最终形成面向智能电网的专用语料库。智能电网专用语料库构造方案如图2所示。

2.2智能电网多领域高维文本特征选择模型

鉴于文档频率法(Document Frequency,DF)具有简单易实现、算法复杂度低以及对分类影响较小的特性,首先研究基于DF的文本特征初选,通过预设阈值从所得到的原始语料库特征集合Set中选出一部分DF值较高的特征组成候选特征集Sub Set。然后,构建粗糙集处理的特征决策表,设计粗糙基因表达式编程算法的编码、解码、适应度函数、种群生成策略以及适用于特征选择的各类遗传操作。智能电网多领域高维文本特征选择及其优化方案如图3所示。

2.3智能电网海量文本数据自适应分类

对于该问题,分成2种情况进行考虑:一种是数据本身集中存储;另一种是数据本身分布存储。对于第1种情况,采用基于数据分割和基因表达式编程的文本过滤规则分布式增量挖掘方法;对于后一种情况,直接采用基于基因表达式编程的文本过滤规则分布式增量挖掘。

鉴于粗糙集能在不改变分类效果的情况下,将一个海量数据集分割成若干个小规模的不相交数据子集,首先研究基于粗糙集的最佳数据分割,将所得到的待分类的海量文本数据集进行最佳数据子集的划分,形成N个待分类的文本数据子集,并采用时间 – 费用最优化将相应的数据子集迁移至相应的节点资源上。然后,对于每一个节点资源上的待分类的文本数据子集,设计适用于文本分类的基因表达式编程算法的基因编码及相应的种群生成策略,同时拟借助增量式学习的理念,利用已得到的分类模型对不断新增的待分类的文本子集进行分类处理, 提高海量数据分类处理的效率。最后,以概率论和马尔可夫模型为基础,对上述算法进行收敛性证明。智能电网海量文本数据自适应分布式分类方案如图4所示。

3结语

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处

【文本信息过滤】相关文章：

历史信息文本08-16

文本信息加工_教学设计05-15

文本分类技术在信息检索中的应用09-13

信息过滤07-26

场控文本及警告文本08-24

交际文本05-13

拓宽文本05-13

汉英文本05-14

政策文本05-18