文本聚类分析范文

2024-09-18

文本聚类分析范文（精选7篇）

文本聚类分析第1篇

1 相关工作

1.1 网络爬虫技术

网络爬虫,又被称为网页蜘蛛,是一种按照一定的规则,自动的抓取网络信息的程序或者脚本[1]。网络爬虫技术在大量自动获取网络信息中使用广泛,通常由页面源码获取、URL提取、URL重复检测、页面信息提取等模块组成。其中,页面源码获取模块的性能直接影响网络爬虫的工作性能,因此该模块常采用多线程、异步以及超时设置等技术;URL提取和URL重复检测模块决定了网络爬虫的覆盖率和效率;页面信息提取模块的方法从页面中提取出新闻正文等信息,其决定了所采集数据的准确性。

1.2 中文自动分词

分词的目的是将新闻中的句子分割成词语,为计算文本相似度做准备。中文自动分词有多种方法,大致可归为三类:基于词典的分词方法、基于统计的分词方法和基于理解的分词方法[2]。其中基于词典的分词方法使用最为广泛,其常用的分词方法有最大匹配法和逆向最大匹配法。目前,中文自动分词技术已很成熟,常用的开源分词工具盘古分词、哈工大语言云 (LTP-cloud)、Stanford汉语分词工具等都能准确高效的将文本分割成词语。

1.3 文本相似度计算

计算文本相似度是文本聚类的基础,其有两种常用算法, 一是基于语义场,利用同义词词林等计算词语相似度,再通过词语相似度得出文本相似度。二是被称为向量空间模型 (VSM)的一种算法,其基于大规模语料库等统计信息,通过选取特征词,建立特征向量,利用向量夹角的余弦值来计算相似度,其余弦值越大说明文档越相似。其中,后者算法计算速度较快,因此在涉及大量文本时,通常采用后者算法进行文本相似度计算。

1.4 文本自动聚类

文本自动聚类是本文最重要的工作之一,其聚类效果决定了过滤重复新闻、相似新闻的能力。目前,文本聚类方法主要有层次凝聚法、平面划分法、简单贝叶斯聚类法、K-最近邻参照聚类法、分级聚类法以及基于概念的文本聚类法等[3]。其中, 层次凝聚法(以G-HAC算法为代表)因实现简单且聚类效果较好而被广泛使用。

2 系统实现

本文针对上述工作,建立了如下系统流程图,其中新闻采集流程使用的是网络爬虫技术。

2.1 基于网络爬虫技术的新闻采集

本文所提出的网络爬虫是从网易新闻列表页和搜狐新闻列表页URL开始,循环执行以下的流程:从待抓取URL队列中取出一个URL,把相对应的源码下载下来,对下载回来的源码进行解析处理得到新的URL。验证得到的URL在数据库中是否存在,如果不存在则代表没有被爬取过,将其加入到待爬取URL队列中,爬取流程如图2所示。

下面,本文以网易新闻网为例,详细说明网络爬虫运行的过程。

如图3所示,它给出了网易新闻网的页面版式,从上面可以看出,该版面上包含的有用信息主要是新闻标题和新闻URL。分析该页面网页源代码得出图4。

如图4所示,它给出了网易新闻网的网页源代码中有关新闻URL的部分,通过观察可以得出结论,“<a href="/09/AK-LK19VJ00014JB6.html">”和“<a href="/03/

AKD5S6MS00014AED.html">”都是描述新闻列表中有关新闻URL的部分,标签“<a href>”、“</a>”之间则是新闻标题。根据这一结论,使用正则表达式可轻松提取新闻的URL和标题,新闻发表时间、正文等信息也可通过类似过程得到,这里不再赘述。

2.2 中文自动分词

为节省项目时间,本文并未实现分词算法,而是直接使用了成熟的盘古分词算法来处理新闻文本。盘古分词是一个中英文分词组件,作者针对比较复杂的多元分词提出了多元分词的冗余度(Redundancy)和多元分词结果的权重级别(Rank)两个概念[4]。多元分词中一句话会有很多种分词组合,而冗余度可以控制这个组合的数量,权重级别可以控制分词结果的选择,因此盘古分词可以有效解决复杂的多元分词问题。

盘古分词分词速度快且效果很好,满足了本文要求。比如上文图3红框选择新闻“中国空军加强中缅边境针对性空中巡逻警示”中句子“申进科上校指出,中国空军将采取措施加强中缅边境空中应对行动,严密关注空情动态,维护国家领空主权。”,系统中分词模块将其分割成“申进科”、“指出”、“中国空军”、“采取”、“领空主权”等词。另外,盘古分词可通过设置参数将待分词句子中虚词“的”、“地”、“嘛”等词过滤,只保留有意义的实词,从而提高文本相似度计算效率。本文查看了100篇网络新闻的分词结果,证明盘古分词能将新闻有效分割。

2.3 基于向量空间模型(VSM:vector space model)的新闻文本相似度计算

在VSM中,一个特征向量表示一篇文本,每个特征向量由其特征项及权值构成。权值定义方法中使用较多的是TF-IDF(term frequency–inverse document frequency)方法,它综合考虑了特征项的词频(TF)和逆文本频率指数(IDF)。TF指特征项在某一文本中出现的频率,TF=d/D,其中d表示特征项在文本中出现的次数,D表示该文本的总字数;IDF=log(N/n),其中N为全部文本数,n为全部文本中包含特征项的文本数[5]。IDF反映特征项在全部文本中的分布情况,IDF值越大特征项区分度越大,特征项也越重要。在TF-IDF方法中,权值W=TF·IDF,这种权值定义方法,降低了高频却低区分度特征项的权重,使权值的定义更加准确。在数学中,两个向量间的夹角越小,夹角的余弦值越大,这两个向量越接近平行,也越相似。因此可用向量间夹角的余弦值来代替新闻间的相似度,即

其中为Sim新闻间相似度,θ为新闻间夹角,a和b分别为两篇新闻对应的特征向量,<a,b>为向量a和向量b的内积,|a|为向量a的模。得到新闻间相似度后,给予阈值即可定性判断出新闻是否相似。

同样使用上文图3红框选择新闻1“中国空军加强中缅边境针对性空中巡逻警示”作为例子来说明向量空间模型,并从搜狐新闻网上选取新闻2“中缅边境数架歼-7战机挂实弹哨兵荷枪实弹警戒”用于计算与新闻1间的相似度。两篇新闻的标题和正文内容如图5所示。

首先,我们对新闻1的标题和内容进行分词并统计各个词语的词频(TF),得到向量如下:然后,计算各个词语的逆文本频率指数(IDF),并求出各个词语的TF-IDF值,因为在1000篇随机新闻中有5篇新闻出现“中国空军”一词,因此“中国空军”的IDF值为7.6439,其TF-IDF值为0.2001,求出各个词语的TF-IDF值后得到新闻1的特征向量:

使用相同方法,我们也可以求出新闻2的特征向量,在此不再重复。最后,我们使用公式1计算出这两篇新闻间相似度为60.34%。

2.4 基于层次凝聚法的新闻文本自动聚类

层次凝聚法是目前常用的文本聚类算法之一,它是一种自底向上的算法。该方法复杂度高,但效果较好,聚类过程中只需扫描聚类样本一次[6]。

其基本流程如下:

a) 将待聚类的每个文本di都作为一个独立类别ci,即ci= {di}。

b) 根据类别间相似度Sim(cj,ck)的大小将最相似的两个类别 (cj,ck)= arg max{Sim(cj,ck)}( j≠k) 合并为一个新类别cn。

重复步骤b)直到只有一个类别[6],或当最相似的两个类别间相似度值小于设定阈值。

层次凝聚法虽然简单,但该方法需人工设定阈值,阈值的选取通常依靠一些人工分析出的先验知识[7],效率较低,因此文献7提出了一种可自动搜素阈值的层次聚类方法。

另外随着采集的新闻越来越多,聚类速度将越来越慢,此时使用分治思想,将每天采集的新闻分别聚类,再将每天聚好的类统一聚类,可减少聚类时间。新闻聚类后统计每日或每周出现次数最多的主题便能得到每日热点或每周热点新闻。

3 实验及结果分析

本节通过实验证明该系统对新闻聚类的效果,首先我们采用拟合优度(Goodness of Fit)方法来评估聚类结果的准确性。拟合优度的度量统计量是确定系数R2,R2的取值范围是[0,1]。R2的值越接近1,说明聚类结果越好;反之,R2的值越接近0,说明聚类结果越差。R2的计算公式如下:

其中y'是预测值,即该系统对新闻聚类后得出的类别数,y是实际值,即测试数据的真实类别数,y是的y均值。

本文使用数据全部是从网易新闻、搜狐新闻上爬取的真实新闻,该数据包括来自于83个专题的共3046篇新闻,我们从数据中分别随机选取15个,30个,45个,60个和75个专题的新闻构成5个测试集,然后我们使用所设计系统对测试集聚类,测试集属性和聚类结果如表1所示。

根据表1我们计算出确定系数R2= 90.49% ,说明聚类结果较好。同时,我们根据表1还可以计算出每个测试集聚类结果的相对误差Er。Er≥0,其值越小说明聚类结果越好。Er计算公式如下:

其中c'是聚类得出类别数,c是真实类别数,|c' - c|表示c' c的绝对值。

我们将每个测试集的聚类相对误差绘成如图6所示的柱状图,其中相对误差最大为20.00%,最小为6.67%,平均相对误差为12.71%。

通过得出的确定系数R2和相对误差Er,我们得知该系统可以较好的完成聚类工作,即该系统可以有效的过滤冗余新闻。将该系统应用于过滤冗余新闻一方面可有效提取出热点新闻, 另一方面可减轻用户阅读量从而提高新闻阅读效率。

4 结束语

面对互联网上愈发繁杂的新闻信息,有效的过滤重复新闻、相似新闻对我们来说越来越重要。网络爬虫、文本聚类等技术为我们提供了极大的帮助。本文正是通过这些技术,设计并实现了基于文本自动聚类的新闻采集分析系统。通过实验及结果分析,证明其对冗余新闻的过滤率高,能帮助用户自动发现、过滤重复新闻、相似新闻,提高用户阅读新闻的效率。

摘要：随着互联网的飞速发展,网络上新闻信息越来越繁杂,采集有用数据过滤冗余数据变得十分重要,但目前市面上流行软件并不能过滤冗余新闻。采用网络爬虫、中文分词、向量空间模型、文本聚类等技术可设计一个能自动采集新闻并能将所得信息自动聚类的系统,并且通过真实新闻数据验证了该系统的有效性,证明其能帮助用户发现、过滤重复新闻、相似新闻,并能提取热点新闻,提高用户阅读新闻的效率。

文本聚类分析第2篇

ITSM服务管理系统中的事件管理模块中详细记录了信息服务人员与企业员工问题事件交互的信息,其中包括事件报告人、事件报告人部门、事件分类、事件描述等。但由于这些信息服务事件信息一般以文本方式存放,传统的数据分析的工具和软件无法对其内容进行分析,导致长期以来信息服务事件描述所蕴含的价值无法得以利用。本文综合利用文本挖掘和聚类分析技术,实现信息服务事件的智能分析,以实现信息服务水平的提升。

1文本挖掘技术概述

文本挖掘又称为文本数据挖掘或文本知识发现,是指为了发现知识,从文本数据中抽取隐含的、以前未知的、潜在有用的模式的过程,它是个分析文本数据,抽取文本信息,进而发现文本知识的过程。

文本挖掘的具体流程如图1所示:

1)文本收集:在文本挖掘前应尽可能寻找和检索所有被认为可能与当前挖掘工作有关的文本。

2)文本分析:由于文本不仅是非结构化或半结构的,而且文本的内容是人类所使用的自然语言,所以文本如果不经过特别加工,数据挖掘技术无法直接应用于其上。文本分析首先要提取文本的特征,然后再结构化表示这些特征。

3)特征选择:经过文本分析得到的特征有必要进行特征选择, 以降低特征的维数。通过特征选择, 就可以得到代表文档集合的有效的、精简的特征子集, 并在此基础上开展各种文档挖掘工作。

4)获取知识模式:该阶段的目标是应用有效的文本挖掘算法挖掘出一些有用的知识模式。这些知识模式主要包括: 文本总结、文本分类、聚类分析、关联规则、趋势预测等。

5)结果评价:对文本挖掘算法发现的知识模式进行评估。比较常用的评估方法有准确率( Precision) 、召回率( Recall) 等。

2聚类分析技术概述

聚类就是对物理对象或抽象对象进行分组的过程,所生成的组称为簇,簇是数据对象的集合。簇内部任意对象之间应该具有较高的相似度,而属于不同簇的两个对象之间应该具有较高的相异度。

一般而言,主要的基本聚类算法可以划分为如下几类:

1)基于划分方法的聚类:给定一个n个对象的集合,划分方法构建数据的k个分区,其中每个分区表示一个簇,并且k<=n。也就是说,它把数据划分为k个组,使得每个组至少包含一个对象。大部分划分方法是基于距离的。

2)基于层次方法的聚类:层次方法创建给定数据对象集的层次分解。根据层次分解如何形成,层次方法可以分为凝聚的或分裂的方法。

3)基于密度方法的聚类:其主要思想是只要“邻域”中的密度(对象或数据点的数目)超过某个阈值,就继续增长给定的簇。这样的方法可以用来过滤噪声或离群点,发现任意形状的簇。

4)基于网格方法的聚类:把对象空间量化为有限个单元, 形成一个网络结构,所有的聚类操作都在这个网格结构(即量化空间)上进行。

3信息服务事件智能分析应用

ITSM信息服务系统详细记录了信息服务人员与企业员工问题事件交互的详细信息,其中包括事件报告人、事件报告人部门、事件分类、事件描述等。为挖掘信息服务事件所蕴含的价值,一方面通过聚类分析实现信息服务客户群细分,获取各客户群的信息服务需求特征,有助于为各客户群提供个性化信息服务;另一方面,获取各主营业务系统热点问题,可作为日后业务系统培训的重点内容,使系统培训更具有针对性。

3.1聚类分析实现信息服务客户群细分

实现思路:以各部门对各主营业务系统的信息服务报障数作为客户细分的重要指标,利用聚类分析技术以部门为对象进行客户群划分。

客户细分实现过程如图2所示:

1)数据准备:从ITSM服务管理系统中导出某指定时间段的ITSM事件单;包括事件ID、事件报告人、事件报告部门、事件性质、事件类别等字段信息。

2)数据预处理:采用数据清理、数据归约、数据变换等多种数据预处理技术,解决现实数据中存在不完整的、不正确的或含噪声的、不一致的问题,提高数据质量。

3)特征选取:按照事件类别,以部门为单位,汇总统计出各部门各业务系统的报障数,用于标识各部门的特征。

4)聚类分析:将每个部门单位看作是一个独立的对象,该部门单位各业务系统报障数看作是该对象的属性值,各对象的相异度则根据描述对象的属性值进行计算。在本实验中,采用k-means聚类算法(相异度采用的度量指标是对象间的距离), 根据各部门单位的业务系统报障数的特点,进行信息服务客户群的细分,得到客户群细分结果。

模型应用前景:通过聚类’;分析对信息服务群进行细分, 同一客户群的部门单位具有相似的信息服务需求特征,有助于日后为各客户群提供个性化信息服务,提升客户体验。

3.2文本挖掘归纳业务系统最热点问题

实现思路:ITSM中有关业务系统咨询问题是以文本方式存放,而中文语句无法用一般统计软件进行简单的数量统计。本文基于中文文本挖掘技术,实现对业务系统咨询问题的自动分类(简称“文本聚类”)。根据聚类后的结果,统计各类事件的出现频数,从而得到各业务系统的热点问题。

业务系统热点问题挖掘实现过程如图3所示:

1)数据准备:从ITSM服务管理系统中导出某指定时间段的ITSM事件单;包括事件ID、事件报告人、事件报告部门、事件性质、事件类别等字段信息。

2)数据整理:根据事件类别字段,将涉及某一指定业务系统的所有事件的描述信息汇总,得到一个文本文件。

3)文本聚类:首先采用IK Analyzer工具包对文本文件进行中文分词,并通过词频统计提取出关键词。然后将提取的关键词作为事件描述的聚类特征,并给每个事件添加“类标签”。

4)频数统计:根据事件的“类标签”进行事件频数统计,并根据业务知识得到各业务系统热点问题。

模型应用前景:通过文本挖掘技术得到各主营业务系统热点问题,可作为日后业务系统培训的重点内容,使系统培训更具针对性,提高系统培训效果。

4结语

搜索引擎的文本聚类研究第3篇

2013 年7 月发布的CNNIC第32 次互联网报告显示,截止2013 年6 月止,我国网民规模达5.91 亿,半年共计新增网民2656 万人。互联网普及率为44.1%,较2012年底提升了2.0 个百分点。从2009 年到2013 年,互联网普及率逐年上升,从28.9%上升到44.1%。计算机的普及,使人们越来越依赖于询问互联网。面对浩瀚的信息海洋,如何获得用户真正有用的信息,成为了一个炙手可热的话题。从最早的门户网站方式到现在的谷歌、百度全文本搜索,对待信息的获取方式已经有了很大的改变。然而,随着互联网越来越普及,网络中存储的信息,出现很多冗杂信息,仅仅依靠传统的搜索方式,并不能满足用户的需要。从2000 年开始,以Vivisimo为代表,越来越多的学者开始注意到,聚类能更准确的定位搜索结果。

二、聚类

聚类是指将抽象或物理对象组成集合,将集合中类似对象组成多个类的过程。由聚类所生成的簇可以看做是一组数据对象的集合,这些对象与同一个簇中的其他对象彼此相似,而与其他簇中的对象不同。聚类分析又被叫做群分析,是针对分类问题的一种统计分析方法。由一个度量的向量或多维空间中的一个点构成模式,再由多个模式构成聚类分析。聚类分析可以追溯于分类学,不过聚类并不是单纯的分类。聚类与分类最大的的不同之处是,划分为聚类的类是未知的。

聚类作为一种有效的分类方法,可以从庞大的消费者数据库区分属性、目标不同的消费群体,再概括出这些消费群体的消费模式也就是普通意义上的习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,在数据挖掘算法时,聚类算法可以作为对数据进行预处理,再用其他分析算法处理。聚类分析的算法可以分为层次法(Hierarchical Methods)、基于网格的方法(grid-based methods)、基于密度的方法(density-based-methods)、划分法(Partitioning Methods)、基于模型的方法(Model-Based Methods)。

三、搜索引擎聚类国内外发展进程

国外对于搜索引擎聚类方面的研究最早发生在1996年,Hearst MA,Pedersen JO学者研究开发的Scatter/Gather系统是世界上第一个将聚类引入搜索引擎的系统。2000年开发的Vivisimo元搜索引擎系统,采用自主开发的启发式算法来集合并聚类原文文献。这种算法吸收了传统人工智能思想,对检索结果进行更好描述和聚类。它的文献聚类技术首先将文本内容自动分类,划分为等级式排列的目录之后进行聚类。作为一种完全自动化的聚类技术,不需要人为干扰收集数据,也不需要进行数据维护。Snake T在前者研究的基础上,开发了能完整将搜索引擎聚类化的系统,并且可以向用户展示带有明确标签的层次型结构。Grouper是利用后缀树聚类(STC,Suffix TreeClustering)算法专门针对文档摘要进行聚类的搜索引擎系统。SHoc是首个面向文本信息进行聚类功的搜索引擎。Sergio系统应用改进过的k均值算法对两个搜索引擎结果进行聚类处理。在新闻处理方面,Nesrec系统提取Altzvista新闻的新闻摘要,短时间内进行层次聚类,并使之成为拥有良好可读性的类标签。而Newsblaster系统针对每天的新闻进行聚类处理,文本生成等处理之后,产生摘要文档。Whatson Web是应用拓谷驱动和图像聚类算法来构建搜索引擎聚类系统,具有良好的可视化效果,同时支持处理无效标签。

国内的研究要相对较晚,最早开始于20005 年,但是随着科技发展,取得了很不错的优秀成果。2005 年的Pinky Search利用后缀树算法和相同词聚类对多个搜索引擎的结果进行聚类处理,最后获得搜索结果。在2007 年成立的国内首家搜索引擎聚类公司比比猫(Bbmao),采用先进的聚类和去重技术,不仅带给用户快捷、智能的体验经历,还引领创新了聚类技术。国内高水准的数据挖掘研究所论坛上,提出了web挖掘算法、分类聚类,应用方案等聚类应用技术。

四、搜索引擎聚类分析

搜索引擎形式从最早的目录式搜索到基于Robot搜索引擎,再到现在的聚类搜索引擎,其对象不仅仅是对资源进行搜索,也开始关注用户体验,如何使用户能更为便捷的找到自己所需内容。搜索引擎聚类发展已有十余年,通过对国内外相对比较成熟的聚类搜索引擎作为研究对象,从划分类型、基本功能、聚类算法角度分析。

1.划分类型分析

根据分类标准不同,搜索引擎聚类划分的种类也不同。根据提供的服务划分成社区型(比如贝壳网)和搜索型(如第易搜)。按照信息的来源即是否拥有独立的数据库,聚类搜索引擎能划分为寄生型(Vivisimo) 和原生型(如CNKI搜索)。按照搜索引擎来源的数目,聚类搜索引擎可以划分为单一型来源搜索引擎(如Touch Graph)和多来源搜索引擎,即元搜索引擎(如Bbmao)。

2.基本功能分析

在对国内外具有代表性的搜索引擎聚类分析后,发现其搜索对象不仅仅为网页,更延伸到网页、新闻、目录、摘要、博客,可应用于商业、政府工作、新闻搜集等多种多样。另外,在提供个性化搜索的同时,用户还可根据自己的喜好,在游戏、旅游、博客等大类下选择的信息源,在右侧会自动呈现图片、新闻、购物等搜索结果。

3.聚类算法角度分析

目前的网页聚类算法根据其针对的方向分为3 种,即基于链接分析、基于网页内容、基于用户搜索日志的聚类算法。

基于链接分析的聚类和传统的搜索引擎搜索有一定相似之处,对任一网页,必有本网页指向其他网页的链接和其他网页指向本网页的链接。若这些其他网页都包含有同一个网页的链接,则被认为同音关系,具有相似性,进而依次聚类。基于网页内容的聚类即是对网页的内容直接聚类,传统的聚类算法是对网页内容去标点、化复数形式为单数、去掉前后缀。然而这些方法是针对单个文字的聚类,并没有考虑词间含义,也不能真实的反映网页内容。于是出现了STC算法即后缀树算法,通过将网页进行处理,得到词组,再依赖于后缀树,辨别拥有相同词义的词组,将他们作为基本类,合并形成高层次的类,进行高效的聚类。随着搜索引擎的发展,研发者开始考虑到对用户行为分析,构建用户模型,出现了基于用户搜索日志的聚类算法。通过用户对搜索结果网页进行聚类。

上述三种聚类算法各有优缺点,基于用户搜索日志的算法注重用户体验,基于网络内容的算法注重搜索对象,而基于链接分析的聚类注重相似网页之间的链接。在以后聚类搜索引擎发展中,这三种方法将会结合使用。

五、发展局限及展望

国外的搜索引擎聚类最早开始于1996 年,而国内的发展相对较晚。然而由于还处于发展的初始阶段,还存在一定的局限性。中国第一家元搜索聚类引擎公司是2007年的比比猫(Bbmao)公司,可以直接搜寻文档,搜索结果汇集各大搜索引擎结果,具有强大网络收藏夹等多元功能。然而由于局限性,只存在了较短的时间。必须综合考虑搜索引擎聚类的问题,才可能使之长远发展。

1.数据库依附性过强

目前的搜索引擎的聚类技术多是将已有的搜索引擎检索出的结果进行聚类分析,得到更准确的结果,呈现给用户。其存在形式多为衍生性搜索引擎,这就意味着需链接已有搜索引擎的数据库,然而搜索引擎本就是依靠搜索结果获得收入。对于第三方间接使用其搜索结果,原搜索引擎必然会采取限制,这也就造成数据的无法获得。国内成立的比比猫公司就是由于依附性太强,最后导致无法继续生存下去。建立自己独立的数据库不失为一个好的解决办法,然而由于独立数据库所需强大的技术支持,还可以与专业搜索引擎公司合作。

2.搜索速度缓慢

由于当前搜索引擎的聚类技术对搜索结果进行聚类,实质上也就是进行二次加工、聚类、排序,最后呈现搜索结果。势必影响其搜索速度。值得探讨的是直接建立转有数据库,是可以解决的方法之一;此外随着技术发展,越来越多的Tag标签应用到网页中,这也对准确了解网页内容、属性产生裨益,从而加速搜索引擎聚类的速度。

3.用户的个性化服务还需提升

搜索引擎的最终结果是为了使用户使用,即服务于用户。目前搜索引聚类还不够成熟,如何使搜索结果更加满足用户的个性化需要还有很大的研究空间。记录用户的搜索历史,在聚类时,返回符合用户个性的聚类。将聚类和用户行为结合起来,完美的实现聚类结果的个性化服务,满足用户需要。

总之,虽然针对搜索引擎的聚类分析还存在一定问题,可是基于聚类能更加精确、准确的提供搜索结果,能更好的反映用户需求,随着科技的发展,问题终将得到解决,搜索引擎聚类也势必是搜索引擎的大势所趋。

摘要：近年来,随着信息技术的发展,越来越多的学者开始关注搜索引擎聚类。国内研究相比国外较晚,还处于发展的初级阶段,存在着数据库依附性过强、搜索速度缓慢、用户的个性化服务需要提升等问题。有关网站可建立自己独立的数据库或与专业搜索引擎公司合作,建立专有数据库或将Tag标签应用到网页中,以加快搜索引擎聚类的速度并满足不同用户的需要,以促进搜索引擎聚类在搜索引擎中可持续健康快速发展。

基于文本信息的聚类方法研究第4篇

关键词：文本聚类,数据挖掘,粒子群算法,信息检索,自然语言处理

0 引言

随着互联网的大规模普及和应用, 海量文本信息不断涌现, 互联网已成为一个庞大而杂乱无章的信息库。因此, 人们迫切需要能够实现自动聚类和分类处理的技术, 从而在节省时间的同时, 能够更好地检索到自己所需类别的文献。高效的文本检索需要优质的索引和文本概要, 文本聚类技术即是解决此问题的一条有效途径。文本聚类过程是指将一个训练文本集合分成若干聚类簇 (Cluster) , 每个聚类簇中的文本之间具有较大的共性, 而不同聚类簇的文本具有很小的相似性。与之对应的是, 文本分类通常是通过数理统计方法或知识工程来实现的。

文本聚类技术在数据挖掘领域研究中有着重要的地位, 通常来说, 它和文本分类的功能是相辅相成的。聚类技术主要是依据聚类假设原理:同类的对象相似度大, 不同类的对象相似度小。文本聚类技术是自然语言处理 (Natural Language Processing, NLP) 和信息检索 (Information Retrieval, IR) 等研究领域涉及的热门课题, 它是一种无监督的机器学习技术, 因为聚类不需要提前训练, 也不需要事先对文本材料进行人工分类。因此, 它具有较高的自动化处理能力和灵活性, 从而成为文本信息组织、概要提取以及导航的重要手段, 被越来越多的研究者所青睐。

当前, 最常用的文本聚类与分析方法包括层次聚类方法、基于模型的聚类方法 (如统计学算法和神经网络算法) , 以及依赖平面划分的聚类方法 (如K-中心点聚类算法) 等, 它们已经被广泛地运用于知识管理系统、商业智能系统和CRM系统中。并且, 能够能利用这些算法来部分解决智能检索系统存在的所谓“信息过载”的难题, 从而过滤掉用户文本信息检索结果中的大量“噪声”, 提高检索信息的相关度和准确度。

如今, 由于大规模、多复杂数据集的出现, 大数据的分析和处理对聚类技术提出了更高的要求, 主要表现在聚类算法需要具有一定的可伸缩性、能够处理各种类型数据、可以发现任意形状的聚类簇以及能够高速分析高维数据等, 并要求用户能够对聚类的结果进行判断、充分理解和使用, 传统聚类手段显然已经难以应对这一系列的问题与需求。为解决上述难题, 各个领域的研究者们开始尝试研究各种新型的智能聚类技术。其中, 属于群智能算法的粒子群优化算法 (PSO) 逐渐引起了业界的注意, 并且一系列实验表明, 此方法在聚类分析效果上明显优于传统方法。

1 基于层次分析的聚类方法

所谓层次分析就是对给定的数据集合进行层次上的分离, 即分界。在层次法聚类过程中, 用树结构表示聚类过程序列。根据层次分界表示方式的不同, 层次分析聚类方法又可以分为层次凝聚法和层次分裂法。

层次分析聚类方法具有两大优点:一是聚类的数目不需要在聚类前确定;二是它与初始条件之间是相互独立的关系, 不会相互影响。此外, 由于它是一种静态的聚类方法, 即已经结束的合并或分裂操作不能退回, 而且簇之间也不可以交换数据, 因此某一步若没有选择好合并或分裂点, 则可能会出现劣质的聚类效果。而且, 进行合并或者分裂操作通常需要检索估算大量的数据对象或簇, 从而令层次分析方法的可伸缩性较差, 又或者缺乏全局状态以及簇的规模等信息, 导致该方法可能无法对有重叠的簇划分。层次法的代表是Canopy聚类算法。

Mcccallum于本世纪初提出了一种技术用来对高维的大数据集进行聚类, 即Canopy方法。Canopy算法主要分两步骤完成:首先用代价小而高效的距离测量方式将数据划分成重叠的子集 (即canopy簇) , 然后使用更为精确的聚类方法计算同一子集内的精确距离。这使得大规模数据的聚类问题变得更易于解决和实现。Canopy可在许多领域与大部分聚类方法同时使用, 包括Greedy Agglomerative Clustering、K-Means和EM算法等。

由于Canopy算法的第一阶段数据量非常大, 通常的步骤如下:①首先随机选择一个中心点, 并找出这个中心点附近存在的所有数据;②将这些数据和中心点一起构成一个Canopy划分, 然后再在剩余的数据点集合中再选一个中心点;③同样地, 继续寻找该中心点附近区域的数据点, 并构成一个划分。重复步骤①~③直到该集合中所有数据点都被找遍或都在某个划分中为止。

为保证集合中的每个数据点都存在于对应的Canopy中, 中心点的距离范围 (即半径) 应该设置得尽可能大, 但若半径过大则会影响聚类的准确度。因此可以设定两个距离阈值, 称为R1和R2, 其中R1≥R2。那么根据R1和R2的值就可以控制最终聚类结果的数目, 从而得到建立Canopy的基本流程:①首先从待划分的数据集合中随机选择一个中心点, 设为P;②然后把集合中与P的距离小于或等于R1的点放入中心点P的Canopy中, 并从集合中删除与P的距离小于或等于R2的点 (当然也包括P) ;③最后检查集合是否为空, 如果是空集则结束操作, 否则继续重复执行步骤①~②。

图1展示了数据集的Canopy划分完成后的情况。

2 基于划分分析的聚类方法

这种划分法通过评价函数某种簇的原型, 将数据集直接分解成若干个没有关系的簇集合。主要方法是优化某种标准目标误差函数, 而该函数可能会强调数据的全局结构或者局部结构。现有的划分方法主要包括K-均值 (K-MEANS) 和K-中心点 (K-MEDOIDS) 两种形式。K-MEANS算法在处理大数据集时, 有一定的可伸缩性和高效性, 而K-MEDOIDS算法的优点是可以一定程度上消除K-MEANS算法对孤立点的敏感特征。与层次法不同, 划分方法通常要求事先确定簇的个数, 并且这类方法对初始值和噪声数据十分敏感。另外, 因为划分方法是基于对象之间的距离进行聚类, 因此这种方法只能发现球状聚类簇而不能发现任意形状的聚类簇, 因而这类算法极易陷入局部最优。

这里主要介绍具有代表性的划分型聚类算法K-MEANS算法。K-Means算法把K作为参数, 同时将N个数据对象分为K个簇, 从而使每个簇内都具有较高的相似度, 而簇间的相似度较低。簇中对象的平均值即簇的重心被视为相似度。

K-均值算法的基本步骤如下:①按某种初始条件选择集合中K个对象作为聚类中心;②根据聚类中心值, 把每个对象归划分到距其最近的类别中;③再次计算每个类别中数据对象的平均值, 用得到的均值点作为新的聚类中心点;④重复执行步骤②~③, 直到各个类别中的元素内容不再发生任何变化。

此算法的时间复杂度为O (nkp) , 其中n是所有对象的总数目, k是簇的数目, p是迭代的次数。K-Means算法在处理大数据集时, 有相对可伸缩性和高效率, 运算速度快、内存使用少, 且算法比较简单。尤其是当结果簇巨大且较为密集, 聚类结果的类与类之间区别明显时, 效果比较好。

但是, K-Means算法采用的目标函数存在很多局部极小点, 而随着此算法的每一步进行, 目标函数一直在减小。因此, 如果在选择初始中心点时, 聚类中心点落在某个局部极小点附近, 很可能使算法在这个局部极小点处收敛。从这点可以看出, 初始聚类中心的随机选取好坏决定着最终获得局部最优解还是全局最优解。另外, K-均值聚类算法中类别的数目k必须在聚类进行之前给定, 同时, 聚类时存在一定概率将邻近对象选择为不同的类中心点, 且此算法对孤立点较为敏感。

3 现有算法的缺陷与粒子群聚类

为了打破现有传统聚类方法的局限性, 很多学者转向了新的途径:即把粒子群智能算法用于聚类算法中。这类方法通过将聚类过程视为一系列优化步骤, 从而可以利用PSO算法具有的全局寻优能力得到数据集的近似最优划分。Omran等人在2002年曾提出了一种基于粒子群优化的算法, 来进行无监督的图像分类, 这是最早的基于PSO的聚类算法, 2002年至今的粒子群聚类算法实际上大都遵循Omran的算法思想。在PSO粒子群算法中, 初始结果簇的个数可以由用户预先指定, 而且粒子群中的每个粒子都包含一个数据向量表示簇中心或者代表一种候选的划分, 因而整个粒子群就可以表示数据集的多种划分。

此方法首先将一组簇中心值随机分配给每个粒子, 对于每个粒子, 按照最小距离原则把一个图像的像素进行划分, 再根据用户给定的粒子适应度函数f, 参照PSO算法的执行步骤确定一个最优粒子, 就可以从最优粒子的位置推断出一个对实验数据的近似最优划分。很多实验结果表明, 基于PSO的聚类通常能得到较小的簇内距离和较大的簇间距离 (即聚类效果更好) 。此类算法用在特定的合成图像中进行实验时, 结果显示基于PSO的方法通常不会陷入局部最优。

在前人研究工作的基础上, Merwe等学者给出了基本PSO聚类算法, 可以用于一般数据集的聚类。在此算法中, 每个粒子的适应性函数设定为Je。Je的计算方法如下:

其中, Nc是簇的数目;Nb是数据的维度;zp则表示样本的数据向量;mj表示簇Cj中样本的中心;nj是簇Cj中样本的个数。

基本PSO聚类算法步骤如下:

(1) 开始。初始状态:随机选择数据集簇的中心, 并且赋值给每个粒子, 确定粒子的速度 (随机) 。

(2) 回复。①按照最小距离原则划分每个粒子的数据, 并且根据步骤 (1) 计算各个粒子的适应值, 并由此更新每个个体的极值;②依据 (B) 步骤得到各个粒子的极值, 确定全局极值以及全局极值所在的位置;③更新粒子的速度, 并把它限制在vmax内 (依据粒子群优化算法的速度公式) ;④更新每个粒子的位置 (依据粒子群优化算法的位置公式) 。

(3) 满足算法终止条件。输出结果。即最优粒子的位置, 代表了最优的N c个聚类中心。

(4) 结束。在算法中, 终止条件包括达到规定的循环次数、簇的中心再变化或簇内的成员不再发生改变。

4 结语

本文详细分析和讨论了当今的主流文本聚类算法, 并且对于每种算法, 本文从算法基本原理、设计思想及算法效果上进行了举例解释与说明, 并列举了各种不同聚类算法的典型应用案例。粒子群聚类算法是聚类研究的前沿领域。此算法在实验结果指标上能够获得普遍优于传统聚类算法的有效性评价指数, 同时, 它能够很大程度上避免聚类过程陷入局部最优, 还可以降低传统方法对初值的敏感度。当然, 此类算法也存在不足之处, 表现在算法的收敛速度较慢, 而且不能同时解决传统聚类算法涉及的其它相关问题。

总体结果表明, 基于PSO的方法拥有不会陷入局部最优的优势, 其未来发展趋势较好, 在将来的应用中大有可为。

参考文献

[1]SEDDING J, KAZAKOV D.Wordnet-based text document clustering[C].Proceedings of the Third Workshop on Robust Methods in Analysis of Natural Language Data (ROMAND) .Geneva:2004:104-113.

[2]MCCALLUM A, NIGAM K, UNGAR L H.Efficient clustering of high-dimensional datasets with application to reference matching[C].Proceedings of the 6th ACM SIGKDD.2000:169-178.

基于语义标注的文本聚类算法研究第5篇

信息技术正逐渐改变着人类的思维方式,越来越多的人利用互联网搜索信息、购买商品。然而面对海量的网络信息资源,用户往往显得手足无措。“信息过载”、“资源迷向”等问题层出不穷。原因在于用户只是Web页的浏览者,而非语义网的构建者,很难从数据资源中找到有价值的信息。为了改善这些问题, Berners-Lee于1998年提出了语义网的概念[1],意在提出规范化的包含语义信息的元数据,来更好地解决计算机与人之间交互存在的问题。可见,如何定位、构建元数据,作为一项核心技术起着重要作用。

元数据创建分为两个阶段,第一个阶段是手动创建,是由专门人员利用创建软件提供一个创建环境,手动选择元数据元素。这种方式简单易行,但是巨大的元数据库完全由人工操作是不切实际的。随着数据挖掘技术不断成熟进入了第二个自动创建阶段,主要采用两种方法,第一种是模板法,过分依赖模板的质量,每次更新文本内容或变换数据源时都需要重新生成,可扩展性较差。第二种是聚类算法,较前种方法具有绝对优势,可以完全自动生成元数据并有较强的可移植性[2]。本文提出了一种基于语义标注的文本聚类算法,充分考虑标注者不同特点,利用自组织映射算法实现了文本聚类。最后,通过实验测试标注者个体差异对元数据生成的影响。

1 语义标注概述

语义标注的想法源于社团中信息共享的做法,意在采用那些影响面较小但可以提供准确语义的标注。我们通过向量空间模型完成文本集的自动标注[3]。标注者集用Sr表示,文本集用Sd表示。每个标注者ai个体特征差异会引起标注者和文本之间关联性权重的不同。一般情况下,标注者在该领域拥有越多的专业知识或技能,就具有越高的专注能力,那么关联性的权重就越高。

设在关联项Ei,m中,ai是文本dm的标注,我们表示关联性权如下:

$s i g_{i, m}^{} = α s i g_{i, m}^{k} + β s i g_{i, m}^{c} (1)$

式(1)中,sig $_{i, m}^{k}$ 是知识背景在关联项Ei,m的权,sig $_{i, m}^{c}$ 是专注能力的权。不考虑其他特征的影响,假设知识背景影响参数α和专注能力影响参数β的和是1。设在合作项coll_Er,d,中,标注向量Sr和文本向量Sd之间关联项表示如下:

$c o l l_s i g_{r, d}^{} = \frac{\sum_{i = 1}^{Ι} \sum_{m = 1}^{Μ} s i g_{i, m}^{}}{Ι Μ} (2)$

I是Sr中所有元素的和,M是Sd中所有元素的和。因此,我们定义t_sig $_{p, q}^{}$ 表示从标注向量tp到被标注文本dq关联项,用公式表示如下:

$t_s i g_{p, q}^{} = \frac{\sum_{i = 1}^{Ι} s i g_{i, q}^{} f (p, q)}{\sum_{q = 1}^{Μ} \sum_{i = 1}^{Ι} s i g_{i, q}^{} f (p, q)} (3)$

我们用二进制数去表示tp和dq之间偏倚系数。在tp中f(p,q)的值为1,表明在dq中有对应权。反之,值为零表示集合没有权或dq中不存在权。接下来我们要探讨的是如何进行元数据抽取,即建立文档到元数据的映射函数。

2 基于语义标注聚类算法

2.1 自组织映射算法(SOM)

自组织映射算法是由是芬兰学者Kohonen提出的一种无监督的神经网络算法。SOM曾成功地创建了大脑视觉皮层功能图,而后被广泛地应用在非线性数据自动生成方面。如图2,SOM网络是一个由神经单元组成的规则二维阵列,对于每一个神经元i都有与之对应的向量mi[4]。SOM算法步骤如下。

步骤一:在输入层上随机选择一个结点作为训练结点。

步骤二:生成训练结点到输出结点的权值,并赋予最小随机数。

步骤三:反复计算训练结点到所有输出结点的距离。找出最短的权向量距离,我们把这个距离称为马氏距离,将该输出结点作为获胜结点[5]。

步骤四:调整该获胜结点向量的权值,同时按比例调整获胜结点邻域内的结点权值。

步骤五:重复以上步骤,把所有的输入向量提交给网络进行训练,最后即可得到输入向量聚类图。

2.2 基于SOM生成自动聚类图

我们定义Di=[Dij]T; 1≤i≤M, 1≤j≤N,为第i个文本在语料库中对应的编码向量,其中M是文本的数量,N是标注项的数量。定义Wp=[Wpq]T,1≤p≤P, 1≤q≤N,为第p个输出结点权重向量,其中P是输出结点的的数量。我们开始训练网络如下。

首先,采用SOM算法随机从语料库中挑出一个输入节点Di作为训练结点Di(文本向量和结点权向量具有相同的维度)。接着我们开始反复计算训练结点Di与任一输出结点权向量之间距离,并求出马氏距离:

$\sqrt{\sum_{k = 1}^{Ν} (D i k - W n k)^{2}} = \min_{1 \leq p \leq Ρ} \sqrt{\sum_{l = 1}^{Ν} (D i l - W p l)^{2}} (4)$

式(4)中,N是标注项的数量,P是输出层中结点数量。当距离训练向量Di最近的输出结点n被找到,更新所有输出结点权向量如式(5)。

式(5)中∂(t)是学习率参数,定义如式(6)。

hp,u(x)(t)是围绕着输出结点n的邻域项,并包括一组用u(x)标识过的输出结点,表示如下:

式(7)中dp,u是横向距离,

拓扑邻域在最高点上是对称的。拓扑邻域的振幅随着横向距离的增加而单调下降。∂(t)和hp,u(x)(t)随时间而呈现动态变化。当时间达到预定的训练时间最高值T时,停止训练过程;否则,要降低∂(t)和hp,u(x)(t)才能继续该过程。

聚类过程完成后,我们建立了每个输入结点和输出结点之间的关联。假设拿向量Di(1≤i≤M)和SOM网络中的每一个结点比较,如果它与输出结点之间的关联性满足公式(4),那么我们就可以将第i个文本分配给第n个标注者。这个结果被记录下来形成聚类图。显然,一组有着相同输出结点文本可以被看作是相似的,并被归到相同的聚类中。

2.3 元数据生成

在上节中,我们将一个文本Dk与公式(4)中的每一个输出结点相比,完成了最重要项Tg的创建。通过对第n个数据节点权重向量的测试,发现该项经常遇到聚集在SOM中相关的文本。换言之,对于第z个输出向量的权重向量Wz,如果第s个权重值超过了预定的阈值,那么与之对应的突触数在Tg之间[6]。

通常,重要项出现在一些类似的文本中,这些文本包含在聚类图中邻近的神经元中。所以我们认定邻近神经元中尝试学习更多获胜神经元就是文本元数据,我们通过测试相应神经元和邻近神经元之间的权重发现文本元数据。Sv代表与神经元n相邻的一组神经元,它与Dk的权重向量最接近,就是Dk和Wz联合满足公式(4)。这组结点中获胜神经元是从与Sv所有神经元相联合的一组神经元中选择的。对所有的神经元j∈Sv,我们选择最上面的k作为文件Dk中的元数据组。

3 SOM算法评价实验

本研究方法能否支持文本元数据的创建?我们采用调查问卷形式,根据标注者特点的不同预设三个不同标注集,来测试基于语义标注的文本聚类算法生成元数据用户满意度:

(1)同等注意力下,较好知识背景(KBb),较差知识背景(KB)标注集。

(2)同等知识背景下,较强注意力(CCh),较差注意力(CCl)标注集。

(3)基线(BAs),更好的知识背景和较强的注意力(KBb-CCh)标注集。

实验一为了比较不同知识背景标注者对元数据质量的影响,我们在同等注意力情况下分别对KBb和KBw标注集进行培植,最后共收集到618和401条有效选项。其中,有73%评价者对KB元数据满意或是非常满意,有95%评价者对KBb元数据满意或非常满意。这表明随着标注者知识背景的提高,元数据的质量也越高。

实验二验证在相同知识背景下,注意力所造成的影响。我们在同等注意力情况下(KBb),收集评价者对较强注意力(CCh)和较差注意力(CCl)标注集适用性反馈。如表1有16个评价者否认了基于CCh标注集生成的元数据,34个评价者否认了CCl。这印证了我们的推测,较强注意力标注集生成的元数据容易被接受。

实验三比较具有较好知识背景和较强的注意力(KBb-CCh)标注集与均线的差别。如表2我们将评价项转换成权重值分析元数据质量整体效果。从表3可以看到对于KBb-CCh标注集反馈的平均结果比在基线下高约30%。

4 结论

本文针对Web页文本无结构和半结构的特点,引入语义标注的理念以群体共享的形式对Web页的语义信息进行标注,尝试从使用者的角度增强对文本的理解。随后在元数据构建过程中,分析比较了各种自动生成技术的特点,运用自动映射算法解决了信息异构的问题。最后对标注者特征进行量化,通过分组实验证明语义标注在自动创建元数据方面发挥着重要作用。下一步工作将研究大数据集元数据生成的效率﹑稳定性和扩展性问题。

摘要：为了改变元数据创建还处于手动、半手动的现状,要提高Web页元数据的精确度。首先基于语义标注理念,以群体共享的形式对Web页语义信息进行标注。生成过程中利用自动聚类算法,侧重于分析标注者不同特点对提高元数据质量所起的作用,提出了一种自动生成元数据方案。最后,通过实验证明,元数据结果会因标注者特点的不同而异,并且当标注者影响超过了临界值会提高元数据的质量。

关键词：元数据,语义标注,自动聚类,自动创建

参考文献

[1] Berners-Lee T,Hendler J.The Semantic Web.Scientific American,2001;284(5):34—42

[2] Jing Liping,Yun Jiali.High-order Co-clustering text data on seman-tics-based representation model.Lecture Notes in Computer Science,2011;(6634):171—182

[3] Chowdhury G G.Introduction to modern information retrieval.NewYork:Facet,2010

[4] Kurata K,Oshiro N.Separating visual information into position anddirection by SOM.Artif Life Robotics,2004;8:5—8

[5]张春炉,沈建京.基于SOM算法的文本聚类实现.计算机与现代化,2010;(1):29—36

文本聚类分析第6篇

中文文本分类还处于在试验研究阶段, 正在逐渐向商业化的软件应用靠拢, 并已经尝试开发了一批自动分类系统, 如何找到合理的应用并且在实践中逐步改善算法, 提高性能成为文本分类算法的当务之急。目前国内外常用的文本分类方法基于文本内容的相似度对文本进行分类。网络内容分类系统大都是基于平面的分类, 即多采用基于词或词串信息的动态聚类方法和基于特征属性的分类技术来实现, 挖掘深度不够, 执行速度慢, 聚类的准确度较低。

为了克服现有技术的不足, 该发明提供一种基于模糊聚类的网络文本数据检测方法, 能够提高网络安全审计中对于文本分类的精度与可靠性, 改善网络内容中目标文本的获得取效率, 实现网络内容的智能检索。

该发明所采用的技术方案是:首先对提取的网络内容进行预处理;其次, 对需要聚类的预处理后网络内容进行特征提取;然后, 对网络内容进行取类, 设定初始聚类数。在聚类过程中, 一个聚类数对应一个隶属度矩阵, 每个隶属度矩阵都有一个平均信息熵值, 平均信息熵基于密度函数选择初始聚类中心, 算法迭代过程中修改聚类数, 当平均信息熵达到最小值时, 所对应的聚类数为最佳聚类数。最后, 将聚类结果返回给用户。

本发明具体包括以下步骤:

(1) 网络内容预处理:如果以原始的网络内容作为特征向量提取的对象, 那么, 网络内容的特征向量维数会相当大, 因此, 必须进行降维的处理。降维的方法采用特征抽取方式, 首先对原始的网络文本进行分词, 然后, 计算每个词出现的频率, 删除所有出现频率超过10的功能词, 从而降低网络内容特征提取时所获取特征向量的维度。由于特征向量维数降低, 不但能加快聚类算法计算的速度, 而且还能提高分类结果的精度和避免重复匹配问题。

(2) 网络内容特征提取:应用向量空间模型作为网络内容特征的表示方法。在该模型中, 网络内容空间被看作是由一组正交词条向量所组成的向量空间。所述的词条向量是指将每次捕获到网络流的网络内容作为一篇网络内容文档, 经过步骤 (1) 的网络内容预处理后, 将网络内容文档中的词条项在整个网络文档中出现的频次作为该词条项的权重, 将所有的词条项以及词条项所占的权重作为网络内容空间的一个特征向量。词条向量表示为V (d) = (ti, wi (d) ;i=1, 2, …, n) , 其中, n表示降维和分词后整个网络文档的词条数目, d表示此网络文档, ti为词条项, wi (d) 为词条在此网络内容文档中所占的权重, 被定义为ti在d中出现的频率。

(3) 模糊聚类:现有技术的模糊聚类方法存在对孤立点数据比较敏感, 须预先指定聚类数目和模糊加权指数的缺陷。为降低孤立点对聚类结果的影响, 本发明对数据对象的隶属度增加一个权值, 使隶属度的值高的数据对象对聚类中心位置的影响增大, 隶属度小的数据对象降低它们对聚类中心的影响。

(4) 聚类结果输出。将聚类结果返回给用户, 聚类结果包括聚类中心的数目以及聚类中心。

该发明的效果是:在性能良好的网络内容特征提取技术、基于密度函数获取初始聚类中心技术、优化的隶属度计算技术以及聚类数的评判标准确定技术的基础上研发。与已有的相应技术相比, 该技术具有智能聚类效果, 并且可以根据应用的不同, 调整聚类的精度, 兼顾聚类的速度。

联系人:赵安军

地址:陕西省西安市科技路30号合力紫郡大厦B-2001室

移动IP化网络文本分类聚类模型第7篇

随着移动运营商网络IP化改造日益深入, 运营商内部积累了大量跟IP化网络相关的文本, 而如果移动IP化网络文本无法快速、准确地进行分类, 将会直接造成网络维护工作无章可循, 进而影响到网络的安全性。现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式, 这种手工的方法有很多不尽如人意的地方, 因此, 迫切需要人们研究出相关工具以对大规模的文本信息进行有效的过滤并进行自动分类组织。

本文在基于文本分类[1,3]、聚类算法的基础上实现了一种建立移动IP化网络文本组织框架的方法, 提出了一套完备且可完善的文本组织框架:采用人工聚类与机器聚类相结合的方式得到了一套科学合理的文本组织方法;采用重复分类训练学习过程及定期重复框架聚类过程的方式实现了该套文本组织框架的动态完善;将移动IP化网络文本进行系统化管理, 网管人员可随时根据需要从文本库中搜索和查询所需要的文本, 获取相关知识。对文本分类聚类模型进行测试, 结果显示, 多聚类算法得出的第二文本框架与专家分类框架具有很大区分特征[8,9,10,11], 文本分类的正确率达到了70%以上, 基于内容的索引搜索效率很高, 提高了文本管理人员查找文本的效率。系统的部署与应用, 改变了中国移动在开展IP化过程中缺乏智能化分析系统的现状, 提高了网络维护的针对性、主动性和前瞻性。

二、文本分类聚类技术模型设计

2.1现有文本处理方式存在的问题

现有处理移动IP化网络文本的方法一般是采用人工分类归档的方式, 网管人员通过查看一定数量的移动IP化网络文本的全部内容、摘要或关键字根据个人的工作经验、理解预先建立移动IP化网络文本组织框架, 然后根据建立的移动IP化网络文本组织框架以及新的移动IP化网络文本中包含的相关内容, 对该新文本进行手工分类归档, 并通过不定期的检查和整理的方式维护分类归档的移动IP化网络文本。当需要查询IP化网络相关文本时, 输入相关搜索特征词, 系统从移动IP化网络文本组织框架的相应分类中查询特征词对应的文本, 并输出给查询人员。

有上述可见, 现有移动IP化网络文本 (以下简称为文本) 处理方式存在以下缺点: (1) 文本组织框架缺乏科学性及一致性。现有的文本处理方式属于粗放式的文档管理方式, 文本组织框架以及文档的整理分类完全取决于网管人员的专业知识水平、业务能力及工作态度, 分类的方式受个人主观因素影响较大, 不同的人有不同的看法, 在这样的方式下, 很难保证各个网管人员构建的文本组织框架采用统一客观的分类标准, 缺乏科学合理性。 (2) 效率较低, 准确率不能保证。人工归档的方式需要消耗较多的时间, 尤其在文本数量较大的情况下, 不能实现较高的处理效率;并且这种人工归档的分类方式还会受到一些个人因素的影响, 如专业知识水平、人为判断的失误等的影响, 使得分类准确率不高[2]。 (3) 不利于网管人员的检索、利用现有文本知识。采用现有的处理方式处理移动IP化网络文本, 即网管人员按照自身已经建立的文本组织框架以及阅读文本后的理解来对文本分类, 使得不同专业人员的分类方式存在偏差。由于未能采用统一客观的分类标准, 从而使得相应的网管人员对该文本的搜索、查询与利用变得十分困难, 致使文本知识的利用率低下, 而且, 检索得到的文本出现重复, 也增加了检索所需的时间, 浪费了系统资源。

2.2文本分类聚类模型的设计思路

该模型的主要理论基础是文件聚类和文本分类算法, 前者的基础是先把文本进行分词[4]和向量化表示[5,6], 即预处理过程, 之后根据一定的聚类算法把具有相似性质的文本归为一类, 以此为基础可形成文本组织框架;分类的过程则是在已有文本框架的基础上进行数据的训练过程, 形成一定的分类器模型, 当有新文本进来时可以自动根据文本内容进行文本分类。具体过程如图1所示。

为了改变目前IP化网络文本管理过程中的不足, 本文在对文本挖掘进行较为广泛的探索与研究的基础上, 结合人工分类及基于统计方法的文本聚类与文本分类方法, 设计了一种面向IP化网络文本挖掘算法模型。该模型充分利用了IP化网络中专业术语较多的特点, 通过总结归纳这些术语, 形成分词库, 抽取文本的特征词[8,9,10,11], 计算文本特征向量[8,9,10,11], 实现文本聚类及文本分类算法的应用。

2.3文本分类聚类模型

对文本数据的建模和处理思路如图2所示。

(1) 模型数据源

IP承载网建设与维护相关OA文、维护管理办法、建设文档等。核心网VOIP改造相关OA文、维护管理办法、建设文档等。

(2) 模型大致流程

首先为保证所形成的文本组织框架的质量, 需要选择精度高、适应性强的聚类算法作为聚类工具, 在流程的开始阶段需要进行小样本的数据实验, 对K-means[7]、模糊C、蚁群以及层次聚类算法所形成的文本框架进行比较, 并结合人工分类框架进行评估, 最后选出蚁群算法这种最适合IP化网络安全文本的聚类算法作为后续流程的主要聚类算法。

在选出最优的聚类算法之后开始使用该算法对全部的文本集进行聚类, 形成初步的文本组织框架;该框架作为分类的先验知识进行分类的训练形成分类器, 训练方法有很多, 本文采用了支撑向量机 (SVM[6]) 和KNN[7]两种方法进行训练, 通过比较发现前者较优。

分类器形成之后, 当有新的文本进来时, 分类器会自动根据文本内容对其进行分类, 并将文本归入相应的文件夹下。每周一段时间可以结合专家知识对误判率进行计算和评估, 如果误判率高于临界值, 就说明原来的文本框架已经不再适用于新的文本集, 需要对现有的全部文本集进行重新聚类形成新的文本分类框架, 这样就实现了文本组织框架的更新和完善过程。基于所形成的文本框架, 网络安全维护人员可以进行方便快捷的检索和学习。

(3) 模型预期效果

(1) 可优选一种与人工分类结果较为接近的文本聚类算法, 可实现大数据量文本的准确聚类; (2) 可对新增文本进行较为准确的分类, 减轻网管人员进行文本管理的压力; (3) 可实现对文本的多为搜索, 帮忙网管人员更为精确地找到所需要的文本。

三、文本分类聚类技术模型的实现

3.1文本分类聚类技术模型实现概述

所述的数据输入模块用于采集IP化网络安全文本数据;所述的数据分析模型用于接收数据输入模块传递来的数据, 并且对接收到的数据进行挖掘分析, 形成四个数据分析子模块;所述的分析结果输出模块用于把数据分析模块分析的结果结合输出要求呈现给输出端;在模型中, 所述的移动IP化网络文本数据包括设备指标文本、IP承载网文本、交换设备文本、全网业务文本及安全管理与网管支撑文本;所述的数据分析模块中的四个数据分析子模块分别是:专家处理子模块、多聚类算法子模块、文本分类及文本框架完善子模块和文本组织框架合成模块。具体如图3所示。

本文同时提供上述文本数据分析模型的实现方法, 具体步骤如图4所示。

下面结合实例给予说明:

1. 数据输入步骤:

通过数据输入模块导入IP化网络文本数据, IP化网络文本数据包括集团公司、省公司、地市公司的很多发文、管理办法和不同地方网络维护案例文本及不同部门交流文本数据。

2. 数据分析步骤:

A.专家处理子模块步骤:本文的方法以IP化网络文本数据为基础, 先通过专家处理子模块让专家对现有小样本的文本数据进行整理, 得出IP化网络文本数据的分类框架。比如框架第一层氛围分为指标类材料、IP承载网类材料、交换设备类材料、全网业务材料、安全管理与网管支撑材料五大类, 每一大类都又分为不同子类。如表1所示。

B.多聚类算法处理子模块:通过聚类算法子模块采用不同的聚类算法对小样本的IP化网络文本数据进行分析, 得出不同的分类结果;比如通过k-means聚类算法、模糊c均值聚类算法、蚁群聚类算法、层次聚类算法等不同聚类方法进行聚类计算, 并输出聚类结果。通过对小数据样本聚类得出的结果作为评价来选出适合IP化网络文本的聚类算法, 当遇到大的数据样本时, 应用已经选出的聚类算法进行挖掘。比如小样本中蚁群聚类算法结果最为贴近专家分类结果, 后面的聚类方法就都采用蚁群聚类算法来进行挖掘。

C.文本组织框架合成模块:把聚类算法子模块输出的分类结果和专家分类结果比对, 采用专家分类结果作为文本数据分类的框架, 将小样本的专家分类结果作为指导, 将和专家分类结果最相近的聚类算法的聚类结果填入专家分类结果中, 实现全部文本数据的合理分类。

D.文本分类及文本框架完善子模块:新的文本进来, 文本分类及文本框架完善模块会依据现有合理的文本组织通过文本分类算法对新进入的文本进行分类, 专家判断错误率到达了多少, 如果错误率高于阈值, 就会记录为误判, 把所有的数据用在阶段最优的算法重新进行聚类计算, 然后通过文本组织框架合成模块合成新的文本组织框架;具体的逻辑框架图如图5所示。

3. 分析结果输出步骤:

在数据分析结果输出模块, 用户可以根据自己的需求通过树形框架结构找到自己想要的文本, 也可以通过关键词搜索, 得到最相关的搜索结果。大大提高对公司现有文本资源的利用效率。

3.2文本分类聚类技术模型的具体实现

本模型是一种建立移动IP化网络文本组织框架的方法。该方法根据预先设定的样本量建立第一文本组织框架, 应用多聚类算法对所述预先设定的样本量进行聚类, 选定与所述建立的第一文本组织框架最为相似的聚类算法建立的第二文本组织框架, 根据所述第一文本组织框架和所述第二文本组织框架建立文本组织框架。本模型在实现过程中具体流程如图6所示。

步骤1:根据预先设定的样本量建立第一文本组织框架。本步骤中, 预先设定的样本量为一定数量的IP化网络文本, 本实验中, 预先设定的样本量为小样本量, IP化网络领域内的专业技术人员根据已有的专业技术框架、自身的工作过程中积累的经验及对文本的理解来实现IP化网络文本组织框架的制定, 比如, 根据各文本的文本特征向量[8,9,10,11], 建立五大类的IP化网络文本组织框架, 即文本组织框架包括:指标类材料、IP承载网类材料、交换设备类材料、全网业务材料及安全管理与网管支撑材料, 并计算每类对应的分类文本特征向量[8,9,10,11]。当然, 实际应用中, 也可以根据实际的需要, 按照文本特征向量[8,9,10,11]构造其他类型的IP化网络文本组织框架, 比如, 将IP化网络文本按照集团公司、省公司、地市公司的发文、管理办法、不同地方网络维护案例文本及不同部门交流文本数据进行划分, 构造相应类别的IP化网络文本组织框架。

在模型实现过程中, 对于IP化网络文本组织框架下的每个大类, 又可以分为不同的子类并设置每个子类对应的子分类文本特征向量[8,9,10,11], 比如, 将IP化承载网类材料分为五大子类, 分别为:设备建设方案、日常维护管理办法、安全评估与巡检、省际IP承载网相关文件、网络改造与调整;交换设备类材料分为工程建设方案及管理办法、专项提升活动等子类;全网业务材料分为网络运行维护实施、应急处理与重大故障等子类;安全管理与网管支撑材料分为账号与口令安全管理办法、其他安全管理办法及文件等子类。请参见表2所示的IP化网络文本组织框架示例。

本步骤中, 由于专业技术人员具有良好的专业技术水平及丰富的经验, 对文本的理解较为全面、准确, 使得对文本进行分类的准确性高, 描述各个分类的文本特征向量[8,9,10,11]恰当、准确性高。从而使得建立的文本组织框架科学性强、可信度高, 可作为优选聚类算法的主要依据;同时, 由于预先设定的样本数量不会太多, 分类、归档所需的时间较少, 属于在人工可处理的范围内。

步骤2:应用多聚类算法对预先设定的样本量进行聚类, 选定与所述建立的第一文本组织框架最为相似的聚类算法作为优选聚类算法。

该优选聚类算法将在第一文本组织框架已无法进行准确分类的情况下, 启动计算, 得出第二文本组织框架, 用于文本分类。

本步骤中, 多聚类算法 (文本挖掘算法) 包括:k-means[7]聚类算法 (k-means Clustering Algorithm) 、模糊c均值聚类算法 (Fuzzy C-means Clustering Algorithm) 、蚁群聚类算法 (Ant Colony Optimization Algorithm) 、层次聚类算法 (Hierarchical Clustering Algorithm) 等。各算法及对文本的聚类流程属于现有技术, 其详细描述请参见相关技术文献, 在此不再累赘。

实际应用中, 由于不同的聚类算法对相同数量的样本进行聚类时, 其聚类结果可能存在较大的差别, 且各聚类算法的聚类结果真实可靠性也无从评估, 因而, 采用不同的聚类算法将对聚类结果产生实质性的影响。本示例中, 通过选用不同的聚类算法对预先设定的相同数量的样本进行聚类, 对聚类结果 (文本组织框架) 与第一步中建立的IP化网络文本组织框架进行比较, 选取与人工分类结果的相近程度最好的聚类算法结果对应的聚类算法, 作为优选聚类算法。

步骤3:以第一为文本组织框架作为文本分类依据。本步骤中, 在得到第一文本组织框架及优选的聚类算法的基础。

步骤4:根据所述文本组织框架, 对新文本进行分类。本步骤中, 导入IP化网络文本数据后, 按照每个样本包含的内容, 抽取文本中的关键词, 构造各文本的文本特征向量[8,9,10,11], 以文本组织框架为依据, 将新文本的文本特征值与文本组织框架中各类包含的文本特征值进行匹配, 将该新文本分类至文本组织框架中相应的类别中。

被分类的样本经过预处理, 抽取文本中的特征词[8,9,10,11], 获取各文本的文本特征向量, 与文本组织框架中各子类包含的文本特征向量进行匹配, 将各文本分类到文本组织框架中相应的子类;于此同时, 抽取新增的部分文本进行人工分类, 比较人工分类与自动分类的误差, 当误差超过阈值时, 启动已选出的优选聚类算法建立的第二文本组织将文本分类, 比如, 上述示例第二步中, 假设蚁群聚类算法对预先设定的样本的算法结果 (第二文本组织框架) 最为贴近建立的第一文本框架。当误差超过阈值时, 重新启动蚁群聚类算法计算第二文本组织框架。

本模型实现过程中, 还可以利用文本分类结果, 对所建立的文本组织框架进行调整, 参见步骤5。

步骤5:从新的文本中, 选取一定数量的文本, 根据第一文本组织框架进行人工分类;本步骤中, 选取的这一定数量的文本, 在步骤4中已进行了自动分类, 将自动分类结果与人工分类结果进行比较。

步骤6:将自动分类结果与人工分类结果进行比较, 如果自动分类结果误差大于预先设定的阈值, 启动优选聚类算法, 计算新文本组织框架, 作为第二文本组织框架, 代替第一文本组织框架。本步骤中, 预先设定的阈值可以是自动分类结果与人工分类结果中包含的相异的文本个数与人工分类结果包含的文本个数之比。如果没有超出该阈值, 表明当前建立的文本组织框架运行良好, 可靠性高;如果超出该阈值, 需要按照人工分类结果调整文本组织框架中各大类相应子类对应的文本特征向量[8,9,10,11], 或者重新应用前述优选的聚类算法对所有文本 (新旧文本) 进行聚类, 得到新的文本组织框架, 用该新的文本组织框架代替原有的文本组织框架, 当自动分类结果误差大于预先设定的阈值时, 重新启动优选的聚类算法进行聚类得到新的文本组织框架。

实际应用中, 上述对所建立的文本组织框架进行调整, 主要是在利用第一文本组织框架对新文本分类时, 由于建立的第一文本组织框架是基于有限的样本量, 因而, 在大样本量的情况下, 可能存在一定的分类误差, 而且随着样本量的不断增大, 其误差可能也越来越大, 因而, 通过人工评估, 当误差超出预先设定的阈值时, 可以用前述的优选文本聚类算法结合人工评估结果重新生成文本组织框架, 以替换该第一文本组织框架。

当然, 在建立文本组织框架后, 网管人员就可以利用该文本组织框架进行搜索和查询, 获取所需的文本, 例如, 网管人员可以输入搜索特征词, 文本组织框架查询关键词对应的文本特征值[8,9,10,11], 将该文本特征值所属的搜索结果 (文本概述等信息以及文本所属的大类及子类) 输出给网管人员, 这样, 与传统的关键词的搜索方式不同, 由于可根据文本特征值进行搜索, 搜索情况更接近文本的内容, 每个文本可供搜索的内容更多, 使用文本搜索更贴近文本内容。

四、测试与分析

通过模块层次图和数据流图的进一步设计, 基于VC编程环境, 本研究将设计的模型进一步在机器上实现, 开发出IP化文本分类组织框架和基于文本内容的搜索。测试结果表明多聚类算法得出的第二文本组织框架与专家分类框架具有很大区分特征[8,9,10,11], 文本分类的正确率达到了70%以上, 基于内容的索引搜索效率很高, 提高了文本管理人员查找文本的效率。

4.1测试系统

对于中国运营商来说, 3G的日益临近, 网络IP化成为一种不可逆转的趋势。通过对现有网络进行IP化的改造来实现多网融合最终完成3G网络的建设已经成为国内外各大运营商的共识, IP化网络在核心网的比重越来越大。目前, 对计算机IP网络的评估已经有一些研究成果及应用系统。但是, 针对运营商中IP化网络具体特点, 建立科学、可行的安全评估模型但成了摆在中国运营商面前的一个重要的问题, 同时也是在地市公司在从事具体维护工作中不得不去思考的一个问题。

目前, 对于IP网络的评估方法一般需要一些先验知识, 如威胁出现的概率、无形资产赋值等, 而准备获得这些数据是存在困难的, 为此, 已有的模糊、神经网络等方法建立的安全估计模型只能对于局部系统进行评价, 且多局限的理论的说明, 未能有一些全面的, 可行的安全评估模型及可投入使用的评估系统的产生。因此, 本产品希望从移动运营商IP化网络的运营实际出发, 从技术、管理、安全意识等更加宏观的层面来审视安全评估问题, 并依托省网管已经建立的“网络运营支撑平台”, 建立基于粗糙集的IP化网络安全评估系统。

对于地市公司公司来说, 随着公司网络集中化建设的进行, 地市公司对IP网络的维护权限多停留在设备的维护方面, 维护行为也多以被动实施为主, 往往缺乏对自身网络安全性的科学及客观的把握。为此, 该系统所采用的模型也从地市公司IP化网络的具体建设及维护实践出发, 采用粗糙集的理论来建立网络的安全模型、采用粗糙集理论来分析网络各项安全因素的轻重关系, 输出决策规则, 建立IP网络下客户感知及网络质量的共同提升模型, 从而建立起一套科学完善的IP网络评估算法, 从而为地市公司从事IP化网络的建设和维护提供指导, 变被动为主动, 全面提升IP化网络建设与维护的有效性。

本文设计的文本挖掘模块作为该系统中重要的一个组成部分, 对于IP化安全文的深入挖掘, 实现IP化网络的安全保障起着重要的作用。对于粗糙集实现网络安全评估方面因为不是论文的主要内容。因此不作主要描述。本文重点描述了一种面向IP化网络文本挖掘模型在系统中的具体实现。

文本模块从文本导入、文本框架导入、聚类方法选择、文本聚类、文本分类、文本搜索和浏览等方面把模型中的主要功能分别在不同模块中实施。其中聚类方法选择模块中集成了K-means聚类算法、模糊C聚类算法、分层聚类算法和蚁群聚类算法, 是模块中的核心部分。系统的模块层次如图7所示。

在系统的模型层次图的基础上, 进一步设计研究了系统的数据流图, 从数据输入层、数据预处理层、核心算法层、用户使用层等层面围绕文本组织框架为核心全面铺开。找出系统输入、处理、输出过程中的关键数据存储和逻辑处理, 理清了内部逻辑的相互关系。系统的数据流图如图8所示。

4.2系统相关模块的功能说明

在系统实现过程中, 主要实现了如下几个模块:IP化网络安全文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块, 各模型具体功能如下: (1) IP化网络安全文本数据导入模块:用于导入IP化网络安全文本数据, 分别输出至第一文本组织框架处理模块和多聚类算法模块; (2) 第一文本组织框架处理模块:用于对接收的文本进行分类整理, 建立第一移动IP化网络文本组织框架, 并将建立的第一移动IP化网络文本组织框架信息分别输出至聚类结果匹配模块及文本组织框架生成模块; (3) 多聚类算法模块:用于根据预先设置的多聚类算法对接收的文本进行聚类, 向聚类结果匹配模块输出聚类结果; (4) 聚类结果匹配模块:用于根据接收的第一移动IP化网络文本组织框架信息匹配来自多聚类算法模块的聚类结果, 将与第一文本组织框架最为相似的聚类算法的聚类结果信息输出至文本组织框架生成模块; (5) 文本组织框架生成模块:用于根据接收的第一移动IP化网络文本组织框架信息以及聚类结果信息建立文本组织框架。

IP化网络安全文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块等5模块具体逻辑关系如图9所示。

在实现过程中, 该模块可以进一步包括如下可扩展模块: (1) 文本分类模块, 用于依据文本组织框架生成模块中存储的文本组织框架信息, 对来自IP化网络文本数据导入模块的文本进行自动分类。 (2) 文本组织框架调整模块, 用于接收来自文本分类模块的自动分类结果、以及来自第一文本组织框架处理模块对同批量文本的人工分类结果并进行比较, 如果自动分类结果误差大于预先设定的阈值, 按照人工分类结果调整文本组织框架生成模块存储的文本组织框架信息。 (3) 搜索和查询模块, 用于接收来自外部的搜索关键词, 发送至文本组织框架生成模块, 将文本组织框架生成模块根据存储的文本组织框架信息查询得到的关键词对应的文本信息进行输出。

系统中各模块相互协同共同完成模型所要求的功能, 流程如下: (1) IP化网络文本数据导入模块、第一文本组织框架处理模块、多聚类算法模块、聚类结果匹配模块、以及文本组织框架生成模块, 其中, IP化网络文本数据导入模块, 用于导入IP化网络文本数据, 分别输出至第一文本组织框架处理模块和多聚类算法模块; (2) 第一文本组织框架处理模块, 主要有领域专家来完成, 领域专家通过人工的方式来获取接收的文本信息中包含的关键词, 根据关键词构造各文本的文本特征向量[8,9,10,11], 利用文本特征向量对所述预先设定的样本量的IP化网络文本进行分类整理, 建立第一IP化网络文本组织框架, 并将建立的第一IP化网络文本组织框架信息分别输出至聚类结果匹配模块及文本组织框架生成模块; (3) 多聚类算法处理模块, 用于根据预先设置的多聚类算法对接收的文本进行聚类, 向聚类结果匹配模块输出聚类结果;聚类结果匹配模块, 用于根据接收的第一IP化网络文本组织框架信息匹配来自多聚类算法模块的聚类结果, 将与第一文本组织框架最为相似的聚类算法的聚类结果信息输出至文本组织框架生成模块; (4) 文本组织框架生成模块, 用于根据接收的第一IP化网络文本组织框架信息以及聚类结果信息建立文本组织框架。

4.3系统相关模块的功能说明

通过移动公司的IP化网络文本测试了本研究设计的功能模块, 测试结果显示文本框架与专家分类框架具有很大区分特征, 文本分类的正确率达到70%以上, 基于内容的索引搜索效率很高, 提高了文本管理人员查找文本的效率。

4.3.1文本聚类测试结果分析

该部分通过文本聚类实现文本框架的形成。系统提供四种聚类方法的实现:K-means[7]、模糊C聚类、层次聚类、蚁群聚类算法;每种聚类之后, 都将在下方的显示框中展示聚类的结果, 也即文本组织框架。之后通过比较不同聚类的聚类结果, 选出最优的聚类算法。

K-means[7]聚类算法可以调整三个参数:聚类数目、最大迭代次数、文档向量维数。现有文本专家聚类分为3类:IP承载网、全网业务、安全管理与网管支撑。

模糊C均值聚类算法可以调整五个参数:聚类数目、误差限、参数m、最大迭代次数、文档向量维数。其中参数m的调整范围为1.5~2.5。如图10所示。

其中K-means[7]聚类算法将文本通过迭代1000次, 采用100个特征词提取出文档向量, 分出第一类的文本数量为67, 第二类的文本数量为2, 第三类文本数量为1。如图11所示。

4.3.2文本分类测试结果分析

该部分暂时无需选择路径, 仅采用样本数据实现, 因为专家分类文档没有经过聚类算法, 提取不出特征值, 无法作为分类;此环节耗时较长, 可能需2-3分钟, 各机器性能不一可能略有差别。

本部分工作的基础是使用上一步骤选取最优的聚类算法对所有文本进行聚类形成合理的文本组织框架并训练形成分类器。分类器形成后, 就可以对新进入的文本进行分类, 一般分类正确率在70%以上。

图12展示了对实验数据进行分类的结果, 对34个文本进行分类, 分类正确率达到80%。证明该文本框架所形成的分类器具有较好的分类能力。图中标红的文本本分到了错误的类别中了, 其余是被正确分类的文本;分完后可以查看通过上面的选择查看单个文本分类情况, 如图13。

4.3.3文本搜索测试结果分析

本部分是基于前述文本组织框架的文本搜索模块, 目前系统可供使用的检索词包括发文单位 (集团、省公司、使公司) 、文本类别 (通知、申请、报告、自查报告、紧急通知等) 、文件名 (输入要找的关键词, 系统将使用该关键词在所有文本的文件名中进行检索) 、发文时间等。系统正在实现的功能是基于特征词的检索, 在文本分词阶段每一个文本都被分成若干特征词所表示的向量, 输入特征词就可以实现基于内容的检索, 大大提高了检索的效率和准确度。

其中基于内容的特征词的搜索是一个创新, 通过文本训练, 提取出所有搜索范围内的文本的特征词, 通过特征词的频率来确定不同文本的区别, 如100维特征词的训练结果就将不同文本通过挑选出来的100个文本特征词的频率来表示, 实现文本的向量化, 如果某一特征词在文本中没有出现, 则向量这个点上的取值为0。训练后的文本集就形成了一张二维表, 一个维度是文本, 一个维度是特征词, 这个二维表是基于文本内容训练出来的, 通过此二维表的特征词来搜索文本比其他几个维度效率更好, 效果更好。

如图14所示, 搜索范围选择IP化安全管理系统文件夹中的clusters文件夹 (因为要基于特征词搜索需要有能提供特征词的文件夹) 。

查询得到的文本可直接在检索结果栏中打开阅读。如图15所示。

五、结束语

本文主要围绕运营商内部积累的数量惊人的IP化网络安全相关文本的智能化处理这一问题展开讨论。针对人工处理的方式迅速慢、准确率低, 耗时长, 不利共享这一难题, 创造性地将文本聚类与文本分类算法用于该问题的解决。

参考文献

[1]Sparck J K, Willett P, etal.Readings of information retrieval.San Mateo, US:Morgan Kaufmann, 1997

[2]Sebastiani F.A tutorial on automated text categorization.In:Proceedings of Argentinian Symposium Artificial Intelligence (ASAI-99, 1st) Buenos Aires, 1999:7-35

[3]Cheng Ying, Shi Jiu-Lin.Research on the automatic classification:present situation and prospects.Journal of the China Society for Scientific and Technical Information, 1999, 1:20-27

[4]成颖, 史九林.自动分类研究现状与展望.情报学报, 1999, 1:20-27

[5]龚汉明, 周长胜.汉语分词技术综述.北京机械工业学院学报, 2004

[6]柯慧燕.Web文本分类研究及应用:[硕士学位论文].武汉:武汉理工大学, 2006

[7]WLi, J Han, J pei.CMAR.Accurate and Efficient Classification Based on Multiple Classification Rules[C]//Proc of the 2001 IEEE International Conference on Data Mining.California:ICDM, 2001

[8]Yang YM, Liu X.A re-examination of text categorization methods.[C]//Proc of the 22nd Annual Int’I ACM SIGIR Conf on Research and Development in Information Retrival.NewYork:ACM, 1999:42-49

[9]David W Aha, and Richard L Bankert.A comparative evaluation of sequential feature selection algorithms.In:Proceedings of the 5th International Workshop on Artificial Intelligence and Statistics, 1995:1-7

[10]Ron Kohavi, and George H John.Wrappers for feature subset selection.Artificial Intelligence Journal.Special Issue on Relevance, 1997:273-324

[11]Tao Liu, Shengping Liu, Zheng Chen, et al.An evaluation on feature selection for text clustering, In:Proceedings of the 20th International Conference on Machine Learning (ICML-03) , 2003.488-495

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处

【文本聚类分析】相关文章：

文本分析模式05-26

电影《王牌特工2,黄金圈》影视文本分析09-12

关于国内人才规划的实证分析——基于文本的研究09-13