Web内容挖掘

2024-07-26

Web内容挖掘(精选9篇)

Web内容挖掘 第1篇

当今, Internet上正在不断的汇集巨大的、海量的、分布广泛的信息服务中心。从Internet上, 我们几乎可以查到我们任何想知道的相关信息, 越来越多的个人和企业, 在互联网平台上, 分享自己的知识、经验和部分解决方案。而Web数据挖掘研究方向之一的Web内容挖掘, 就可以把Internet上分布在海量Web界面中的知识, 挖掘出来, 提供给需求方。本文首先, 阐述了当前企业知识管理和Web内容挖掘的发展情况, 并对企业当前知识管理方面的工作的优缺点进行了分析, 在介绍Web内容挖掘的功能作用的基础上, 提出当前企业知识管理平台应集成Web内容挖掘功能, 以完善企业知识管理平台当前存在的一些不足之处。

1 相关概念

1.1 知识管理

知识管理, 就是采用一定的管理方法和工具, 在企业的运营过程和员工的工作过程中, 实现对知识挖掘、获取、整理、集中、共享、创新, 最终服务于企业的运营, 服务于员工的工作。实施知识管理, 要注意对显性知识的管理, 更要注意对隐性知识的显性化管理。

1.2 Web内容挖掘

Web内容挖掘是Web数据挖掘的三大研究方面之一, 是指从Web页面及其描述信息中获取潜在的、有价值的知识或模式的过程。目前, web内容挖掘在搜索引擎、知识服务、网络教育等领域应用非常广泛。

Web挖掘的对象是Internet中分布广泛的Web文档及页面中的各式各样的数据, 包括针对HTML文档的结构化与半结构化的文本挖掘以及多媒体数据的挖掘等。

随着网络技术的逐步成熟和互联网的普遍应用, Internet上的Web网站数目和Web页面数目成指数级速度增长。越来越多的人无论在工作、学习还是生活中遇到的问题, 依靠从Internet上检索到解决方案。Web信息页面的指数级增长, 也使得Internet上同一个问题正不断汇集着众多的解决方案, 众多的解决方案中, 有着经广大使用者验证过的有用的有价值的知识信息。

2 企业知识管理现状

现在各个企业都有自己的知识管理平台, 借助平台对知识进行管理。企业知识管理平台结构模式主要包括三个部分, 基于B/S的知识管理系统、知识管理及查询和企业智力。知识管理及查询是指, 企业把长期商业实践中积累的大量知识信息整理、存储和共享。企业智力是指, 企业利用历史数据为科学化的商业决策做出量化分析支持。因此, 现行的企业知识管理平台的优点也非常突出, 主要表现在:企业知识的管理系统条理, 有助于知识资产保护;打破知识孤岛, 方便知识共享, 促进了知识利用和再利用;把知识资产量化, 个人知识转化为企业知识;提高培训与考核的效率, 促进了岗位知识传承和优化。然而, 它的局限性也非常明显。首先, 它是在被动的为企业和员工提供知识和信息。其次, 知识的管理只侧重于企业内部的知识的管理, 而忽略了一个重要的信息源头———互联网。互联网上蕴含着大量信息, 同样这些大量的信息中, 蕴含着大量的知识。

3 Web内容挖掘在企业知识管理中的应用

3.1 开发基于Web内容挖掘的企业知识管理平台

基于Web内容挖掘的企业知识管理平台, 不仅包含着本企业传统的知识管理平台, 还可以检索Internet上的相关资源。互联网蕴含着大量的知识信息资源。互联网的本质分享。互联网上有着大量的解决方案提供商、各种各样咨询问题和专家解答信息。同时, 网络图书馆、知识信息库的存在使得Internet称为一座巨大的知识宝库。

3.2 基于Web内容挖掘的企业知识管理平台的优势

在利用Web内容挖掘的模式下, 企业的知识管理平台, 即具有了传统企业知识管理平台的很多特点, 也涵盖了Internet上的信息资源。

Web内容挖掘模式下企业知识管理的优势: (1) 可以对互联网上海量知识信息的挖掘、整理和存储。通过对Web内容挖掘算法模型的优化和调整, 能够很好地从互联网上挖掘、处理和分析与主题相关度比较高的Web资源, 使新模式下的企业知识管理平台, 可以对互联网上大量相关相似于本企业知识管理平台知识的信息、解决方案进行搜集、整理和存储。 (2) 对内知识资源的全面共享。基于Web内容挖掘的企业知识管理平台, 可以屏蔽了信息资源的多样性格式, 它将网上所有资源连通, 能够消除信息孤岛, 实现多种资源的全面共享, 进而极大地提高知识管理的获取及利用效率。 (3) 大量相关知识信息的存在, 促进了企业知识的创新。通过对挖掘到的Web资源进行分类汇总, 我们可以把针对企业运营中某一问题的所有相关信息进行分类总结, 提供给用户, 促使用户对汇集到的多方知识, 综合利用, 促进了企业知识的创新。

4 结论

随着Web内容挖掘技术的不断发展, Web内容挖掘算法模型的不断改进和优化, 使得Internet上广阔的知识信息资源凸显出更重要的价值, 建设基于Web内容挖掘的企业知识管理平台, 可以给企业知识管理平台注入新鲜血液, 为企业的发展提供源源不断的知识, 创造巨大的智慧资本, 促进企业的发展。

摘要:现有的企业知识管理平台, 在企业的成长过程中, 发挥了重要的作用, 然而随着Internet上Web知识信息资源的指数级增长和Web内容挖掘技术的发展, 使得现在意义上的知识管理方式, 发生了变化。本文阐述了利用Web内容挖掘技术优势, 结合当前企业知识管理平台, 研究其对企业知识管理领域新发展的促进作用。

关键词:知识管理,Web内容挖掘,Internet

参考文献

[1]姚荣庆, 屠航.基于Intranet的企业知识管理系统模型研究[J].现代生产与管理技术, 2009, 26 (1) :33-36.

[2]陈芝, 单汨源, 王珊珊.基于Web环境下的企业知识管理系统框架[J].现代情报, 2005 (12) :172-177.

[3]周洁.关于实现Web内容挖掘方法的研究[J].武汉科技大学学报 (自然科学版) , 2007, 30 (2) :182-184.

[4]杨楠, 罗省贤.Web数据挖掘在云计算平台的实现[J].计算机应用, 2011, 19 (7) :4526-4528.

Web数据挖掘与挖掘算法探讨 第2篇

随着网络信息资源的急剧增长,它容纳了海量的各类型的原始信息,人们越来越多地关注如何开发和利用这些资源。由于Web本身的特性,Web上的信息查找比传统的信息查找表现出更大的挑战性。信息检索界开发了许多搜索,但其覆盖率有限,精度低;另外不具有个性化服务的特点。解决这些问题的一个途径,就是将传统的数据挖掘技术和Web结合起来,进行Web数据挖掘。

近年来,数据挖掘技术经过不断发展,已经成为一个涉及多个学科的交叉型综合学科。通常而言,经典的数据挖掘算法都可以直接用到Web数据挖掘上来,但为了提高挖掘质量,要在扩展算法上进行了研究,包括复合关联规则算法、改进的序列发现算法等。

2. Web数据挖掘的概念

Web Mining(Web挖掘)是由Oren Etzioni在1996年首先提出的,一般地对Web数据挖掘做如下定义:从大量Web文档结构和使用的集合C中发现隐含的模式p。如果将C看作输入,p看作输出,那么挖掘的过程就是从输入到输出的一个映射:ξ:C→p。

3. Web数据挖掘的基本步骤

Web数据挖掘过程是一个完整的知识发现的过程,但与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的,并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。因此可以将Web数据挖掘分为确定业务对象、数据准备、数据挖掘、结果分析等四个步骤。

4. Web数据挖掘分类

一般地,Web数据挖掘可以分为三类:Web内容挖掘、Web结构挖掘、Web使用记录的挖掘。如图1所示:

4.1 Web内容挖掘

Web内容挖掘是从大量的Web数据中发现信息、抽取有用知识的过程。Web内容挖掘有两种策略:直接挖掘文件内容和在其它工具搜索的基础上进行改进。就其挖掘内容而言,可分为Web本文档和多媒体文档。就其方法而言,Web内容挖掘可分为信息查询方法和数据库方法两大类。

4.2 Web结构挖掘

Web结构挖掘的对象是Web本身的超连接,即对Web文档的结构进行挖掘。Web可以看成一个以网页为节点、链接为边的图结构,超链接反映了网页间的包含、引用或从属关系。Web结构挖掘是从WWW的组织结构和链接关系中推导知识,主要的方法有Page Rank和CLEVER。Web结构挖掘是挖掘Web潜在的链接结构模式。在Web结构挖掘领域最著名的算法是HITS算法和Page Rank算法。它们的共同点是使用一定方法计算Web页面之间超连接的质量,从而得到页面的权重。

4.3 Web使用记录挖掘

Web使用记录挖掘是对用户访问Web时在服务器方留下的访问记录进行挖掘;Web使用挖掘过程,简单地讲分四个阶段:源数据的收集、数据的预处理、数据挖掘和对挖掘出来的模式进行分析,如图2示。

5. Web数据挖掘技术实现

Web数据挖掘中常用的技术通常可以分为两类:一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、自然法则计算方法和Web特有的路径分析技术等。另一类是是建立在统计模型的基础上,采用的技术有决策树、分类、聚类、关联规则等。

5.1 路径分析技术

用路径分析技术进行Web数据挖掘时,最常用的是图。Web用一个有向图来表示,G=(V,E),其中:V是页面的集合,E是页面之间的超链接集合,页面定义为图中的顶点,而页面间的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边表示v引用了其它的页面,这样形成网站结构图,从图中确定最频繁的访问路径。最优路径分析就是在指定的点之间查找出符合某种量度最小的路径,Dijkstra算法是广泛采用的一种求解方法,其基本思路是由近及远寻找起点到其它所有结点的最佳路径,直至到达目标结点。

5.2 关联规则挖掘技术

关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是要挖掘出用户在一个访问期间(Session),从服务器上访问的页面/文件之间的联系,这些页面之间可能并不存在直接的参引(Reference)关系。最常用的是用Aprior算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。

5.3 序列模式挖掘技术

序列模式挖掘技术就是要挖掘出交易集之间的有时间序列的模式。经过数据净化和交易确定后是一个间断的时间序列,这些序列所反映的用户行为有助于商家印证其产品所处的生命周期阶段。另外挖掘出来的一些暂时性的序列模式,可以分析企业战略实施或网站、产品的促销的效果。例如序列模式B,D(B,D表示页面)显示,有80%的用户访问了页面B之后在1.2个小时之内又访问了页面D。在一个电子商务网站中,B和D分别代表用户的在线订购,也就是说80%以上的用户在订购了物品B之后的1.2个小时内又在线订购了物品D。

5.4 分类、聚类技术

分类规则可以挖掘出某些共同的特性,这个特性可以用来对新添到数据库里的数据项进行分类。在Web数据挖掘中,分类技术可以根据访问这些用户而得到的个人信息或共同的访问模式,得出访问某一服务器文件的用户特征。聚类技术则是对符合某一访问规律特征的用户进行用户特征挖掘。

6. Web数据挖掘算法

通常来讲,经典的数据挖掘算法都可以直接用到Web数据挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。

6.1 关联规则算法

在已有的关联规则发现算法中,最著名的是Agrawal等人于1993年提出的Apriori算法[8,9]。Aprioiri算法使用逐层搜索的迭代方法。通过对数据库D的多次扫描来发现所有的频繁项集,在每一次扫描中只考虑具有同一长度(即项集中所含项目的个数)的所有项集。在第一次扫描中Apriori算法计算D中所有单个项目的支持度,生成所有长度为1的频繁项集。

在后续的每一次扫描中,首先以第k-1次扫描所生成的所有频繁项集为基础产生新的候选项集,然后扫描数据库D,计算这些候选项集的支持度,删除其支持度低于用户给定的最小支持度的项集。最后,生成所有长度为k的频繁项集,重复上述过程直到再也发现不了新的频繁项集为止。具体步骤如下:

Step1:为找Lk,通过Lk-1与自己连接产生候选k-项目集的集合。该候选项的集合记做Ck。

Step2:Ck的成员可以是也可以不是频繁的,但所有的频繁k-项目集都包含在Ck中。扫描数据库,确定Ck中每个候选集计数(设置一个标志位Flag),进而确定Lk。

6.2 改进Apriori算法

6.2.1 基本概念

定义1:页面访问事务数据库D={t1,t2,…,tk,…,tn},tk={i1,i2,…,im,…,ip},I={i1,i2,…,im}是D中全体项目组成的集合,I的任何子集X称为I中的项目集(Itemset),|X|=k称集合X为k项目集,tk(k=1,2,…,n)称为事务,im(m=1,2,…,p)称为项目(Item)。

定义2:设X哿I,项目集在数据集D上的支持度(support)是包含X的事务在D中所占的百分比,即support(X)=||{x∈D|X哿I}|/||D||,其中|D|是数据集D的事务数,若support(X)不小于用户指定的最小支持度(minsupport),则称X为频繁项目集,简称频集(或大项目集),否则称X为非频繁项目集,简称非频集(小项目集)。

性质1:一个非频繁(k-1)-项集不可能成为频繁k-项集的一个子集。

6.2.2 网页频繁集的产生

Apriori算法用于网页链接关系的发现中,则Apriori算法中的事务对应于用户的一次访问活动,数据集对应于网页页面集。通过应用Apriori算法来找到网页页面的链接关系。但直接应用Apriori算法挖掘网页结构的频繁集非常庞大,特别是发现频繁集在最坏情况下可达指数级,使得难以应用到现实的页面关系挖掘中。

根据网站结构的特点:网页之间的超链接存在于两个网页之间的,所以对于网页之间的频繁集,只要发现频繁2-项集即可,网页超链接的Apriori改进算法NApriori算法,使得频繁集的挖掘减少,时间复杂度为O(n(n-1))=n2。这样,关联规则算法即可满足任务的需要,又可降低算法的复杂度。

算法1:NApriori算法

6.2.3 候选集的产生

为了找到频繁出现的网页页面集,采用Apriori候选集产生函数apriori-gen。首先,在连接步骤:为找Lk,Lk-1通过与自己连接产生候选k-项集的集合。该候选项集的集合记作Ck。设l1和l2是Lk-1中的项集,把Lk-1和Lk-1相连以获得候选的最终集合的一个超集Ck:

算法2:apriori-gen(Lk-1)(网页候选集产生)

在修剪步骤,将删除所有的项目集c∈Ck,如果c的一些(k-1)子集不在Lk-1中。如果用所有可能的项目扩充Lk-1中的每个项目集,然后删除所有(k-1)子集不在Lk-1中的项目集,那么就能得到Lk中项目集的一个超集。上面的合并运算相当于用数据库中的所有项目来扩展Lk-1,根据性质1如果删除扩展项目集的k-1个项目后得到的k-1项目集不在Lk-1中,则删除该扩展项目集。

算法3:判断候选集的元素

7. 总结

本文对Web挖掘的内容、挖掘的步骤、挖掘的技术等方面进行了分析和研究;另外本文对关联规则算法及其改进算法进行了分析探讨;把Apriori算法用于网站结构的优化中时,通过分析网站超链接结构及其关联规则,发现超链接是建立在两个网页之间的,提出发现网站频繁集只需发现网站2-频繁集即可。针对此结构特征,对真实数据集进行清理,减少了数据集的复杂性;提出的NApriori算法极大程度地缩减了网站频繁集的发现规模,从而显著地减小其运算时间复杂度。

参考文献

[1]王玉珍.Web数据挖掘的分析与探索[J].电脑开发与应用,2003(4):73-74.

[2]张娥,冯秋红,宣慧玉.Web使用模式研究中的数据挖掘[J].计算机应用研究,2001,18(3):80-83.

[3]Pang-Ning Tan,Michael Steinbach.Vipin Kumar.数据挖掘导论[M].北京:人民邮电出版社,2006.

[4]Margaret H Dunham.数据挖掘教程[M].北京:清华大学出版社,2005.12~18.

[5]陈慧萍,王建东,王煜.频繁项集挖掘的研究与进展[J].计算机仿真,2006,23(4):68-73.

[6]Arasu KT,de Launey W.Two-dimensional perfect quaternaryarrays[J].IEEE Trans Inform Theory,2001,47(4):1482-1493.

[7]Wei Daxiu,Luo Jun,Sun Xianping,et a1.NMR experimental realization of seven-qubit D-J algorithm and controlled phase-shift gates with improved precision[J].Chinese Science Bulletin,2003,48(3):239.

[8]涂承胜.Web挖掘研究综述[J].计算机工程与应用,2003(10):91-93.

基于Web文本挖掘相关技术的研究 第3篇

关键词:Web文本挖掘 特征提取 文本分类 文本聚类

中图分类号:TP39 文献标识码:A 文章编号:1007—3973(2012)009—083—02

1 引言

随着计算机、互联网的迅猛发展,近几年来,互联网已离不开人们的生活。网页上的内容以网页文本的形式存放信息,但网页文本具有半结构化的特点。因此,当今热门的研究方向便是如何快速有效地从Web上获取信息和知识。Web挖掘综合了数据挖掘技术和Web技术,因此,Web文本挖掘不但对经典的数据挖掘技术有着继承,也发扬着自身的各种特性。

2 什么是Web数据挖掘

Web挖掘是利用数据挖掘、文本挖掘、机器学习等技术从Web页面数据、日志数据、超链接关系中发现感兴趣的、潜在的规则、模式、知识。Web挖掘的目标是从Web的超链接结构、网页内容和使用日志中探寻有用的信息。Web挖掘通常被划分为三种主要类型(如图1):Web内容挖掘、Web结构挖掘和Web使用挖掘。

3 什么是Web文本挖掘

3.1 文本挖掘

文本挖掘主要应用于文本摘要的自动获取、文本分类、垃圾邮件过滤、知识库构建、搜索引擎等领域。文本挖掘是从非结构化文本数据中,发现有效、新颖、有潜在价值、并可理解的文本模式的非平凡过程。

3.2 Web文本挖掘

Web文本挖掘是从Web文本的数据中发现潜在的隐含知识。挖掘对象是Web文本。Web文本挖掘涉及领域广泛,是一门交叉性学科。

4 Web文本挖掘的基本流程

Web文本挖掘通常由以下几个步骤完成(如图2):获取Web文本集、Web文本预处理、Web文本特征表示、Web文本特征提取、Web文本挖掘、质量评价、获得知识模式。

5 Web文本挖掘的相关技术

5.1 Web文本集的获取

Web文本集的获取主要通过网络蜘蛛。网络蜘蛛能在各站点之间漫游并根据某种策略获取远程数据,之后保存获取到的文本集,便于接下来深入的分析工作。

深度优先和广度优先是网络蜘蛛获取文本一般使用的两种策略。网络蜘蛛从起始页开始,顺着每一个链接一直抓取下去,处理完后再转入接下来的起始页,继续对链接进行如此地抓取,这种方式是深度优先,其优点是比较容易实现。网络蜘蛛先抓取起始网页面里的所有链接,然后选择其中的一个链接,继续抓取在此页面里的所有链接,一直按照这种抓取方式迭代访问下去,这种方式是广度优先,其优点是可以并行处理,提高网络蜘蛛的抓取速度。

5.2 Web文本预处理

Web页面除了包含网页的内容信息之外,还包含一部分与主题内容信息无关的信息,这种信息称作“噪音”。因此,为了更好地分析文本内容,应该将“噪音”信息予以过滤。网页过滤的目的是去掉网页上包含“噪音”的内容,保留网页中包含主题信息的内容块,最终达到消除冗余、精简数据的目的。

5.3 Web文本的特征表示

不同于数据库中的结构化数据,Web文本中的数据是半结构化的。这些半结构化数据不符合现有数据挖掘所要求的格式规范,因此无法直接使用数据挖掘技术对其进行挖掘。所以在挖掘之前,需要对Web文本中的数据以结构化的形式进行特征表示,作为半结构化文本和Web挖掘的中间表示形式。

用一定的特征项(词条)来表示半结构化的文本信息,这一过程就称作特征表示。其常用的模型有:布尔模型、向量空间模型、概率模型等。向量空间模型是近几年来应用较多而且效果较好的模型。它将每个文本看成是由一组词条(T1,T2,…,Tn)构成,对于每个词条(Ti),都根据它在文本d中的权重赋予权值Wi。

因此,对于所有的需要被挖掘的文本都能用特征向(T1,W1(d),T2,W2(d),…,Tn,Wn(d))表示。其中,Wi(d)被定义为词条Ti在文本d中出现的频率tfi(d)的函数,即:Wi(d)= (tfi(d))。Wi(d)的常用函数一般有:对数函数、布尔函数、平方根函数及TFIDF函数。TFIDF函数使用较为普遍。

此函数的优点是可以过滤掉常见的词语,保留重要的词语。缺点是没体现出Web文件的位置信息和html文本的结构特点,因此应当考虑在Web文本中不同html标签结构下赋予不同的权重。

5.4 Web文本的特征提取

特征表示之后,我们会发现,向量空间的维数异常大,因此需要进行降维工作。目前选取的方法是先构造一个评价函数,然后对特征集中的每一个特征项进行评估,得到一个评估分,最后对所有的特征项按照各自的评估分进行排序,设定一个阈值作为选取高评估分特征项的数目,最终结果作为选出的特征子集。词条频度、文本频度、信息增益、互信息、几率比、期望交叉熵是一般使用的评估函数。

5.5 Web文本分类

文本分类是一种有指导的机器学习,通常分为以下两个阶段:

(1)训练阶段:1)根据已有的类别,确定类别集合C={c1,…,ci,…,cm};2)选择一些具有代表性的Web文本,得到训练文本集合S={s1,…,sj,…,sn};3)对于S中的每个训练文本,确定它的所属的类别ci;4)抽取训练文本sj的特征,得到特征向量V(sj);5)统计S中所有文本的特征向量,确定其代表的类别集合C中每个类别的特征向量V(ci)。

(2)分类阶段:1)计算测试文本集T={d1,…,dj,…,dn }中每一个待分类文本dj的特征向量V(dj),再计它算与每个V(ci)的相似度sim(dj, ci);2)将相似度最大的类别选择作为dj所属的类别。当计算的类别与预定义类别不匹配时,则应当对预定义类别进行修改,再重新进行以上过程。

计算sim(dj, ci)时,求两个特征向量之间的夹角余弦是常用的方法,即:

sim(dj, ci)=

支持向量机、神经网络、最大平均熵、最近K—邻居和贝叶斯方法也是常用的分类算法。

5.6 Web文本聚类

基于内容的Web文本聚类是Web内容挖掘的重要组成部分,它以Web页面内容为挖掘对象,以页面中词语信息作为特征,利用无监督的方法,在没有训练样本的情况下,自动产生分类结果。

根据聚类结果不同,可将聚类方法划分为:层次聚类法和平面聚类法。

(1)层次聚类过程:1)对于文本集合D={d1,…,di,…,dn},以每一个文本di作为一个聚类中心ci,形成文本的聚类集合C={c1,…,ci,…,cn};2)计算C中每对聚类的相似度sim(ci, cj);3)选取相似度最大的两个聚类合并成一个新聚类cr,构成文本的一个新的聚类集合C={ c1,…,cr,…,cn—1};

重复以上步骤,根据所需的聚类数目和相似度的阈值,得到最终的聚类结果。

(2)平面聚类过程:1)确定聚类数目n,计算D中每个文本特征向量V(di);2)从D中抽取n个文本形成聚类中心S={s1,…,sj,…,sn};3)依次计算D中剩下的文本与各聚类中心的相似度sim(di, sj);4)根据设定的相似度阈值,聚集文本在聚类中心周围,最终形成聚类结果。

平面划分法运行速度较快,它将文本集合水平地分割为若干个聚类,而不是层次化的嵌套聚类,但它必须先确定聚类数目取值。另外,种子选取的好坏程度对聚类结果的影响较大;层次聚类对文本集合中的每一个文本进行了多次遍历,是最常用的聚类方法,具有很高的准确度。

6 Web文本挖掘模型

本文在设计挖掘模型的过程中提供信息表示与导航的功能。为了使用户能够清晰、明了地查询和浏览自己感兴趣的信息,并更快速地接受信息,可以使用可视化图形界面的信息表示与导航技术,如图3。

7 结束语

Web挖掘是Web技术中一个重要的研究领域,Web文本挖掘又是Web挖掘的重要代表,它是数据挖掘研究领域中的一个重要课题,也是Web技术和数据挖掘技术相结合的新技术,并应用于网络知识发现的过程。Web文本挖掘为网络智能化奠定了基础,也使得网络上大量的具有价值的信息得到了充分的利用。

参考文献:

[1] Bing Liu.Web数据挖掘[M].北京:清华大学出版社,2009.

Web挖掘技术研究 第4篇

传统的搜索引擎存在许多问题,例如:覆盖面有限、误差率和漏查率高、检索速度不理想等。怎样对网上的数据进行复杂的应用成了当今数据库技术的研究热点。

基于Web的数据挖掘(简称Web挖掘)是利用数据挖掘技术从Web文档和Web活动中抽取人们感兴趣的、潜在的有用模式和隐藏的信息,是合理利用网上海量数据的有效技术之一。针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据,应用数据挖掘方法以发现有用的知识来帮助人们从WWW中提取知识,改进站点的设计,更好地开展电子商务。

1 Web挖掘的分类

具体来说,Web挖掘可以定义为:Web挖掘是指从大量Web文件的集合C中发现隐含的模式p。如果将C看作输入,将p看作输出,那么Web挖掘的过程就是从输入到输出的一个映像:C→p。

Web是一个非常成功的基于超文本的分布式信息系统。Web目前涉及新闻、广告、消费信息、教育、政府、电子商务等许多信息服务,Web包含丰富和动态的超链接信息,这些为数据挖掘提供了大量的资源。

一般地,Web挖掘可分为三类:Web内容挖掘、Web结构挖掘和Web使用记录的挖掘。图1给出了Web挖掘的分类。

1.1 Web内容挖掘(content mining)

Web内容挖掘是从文件内容或其描述中筛选知识的过程。Web文件文本内容的挖掘、面向概念索引的资源发现,以及面向代理的技术都属于这一类。Web内容挖掘有两种策略:直接挖掘文件的内容,或在其他工具搜索的基础上进行改进。采用第一种策略的有锁定网络的查询语言Web Log、WebOQL等,利用启发式规则寻找个人首页信息的Ahoy等。采用第二种策略的方法主要是对查找引擎的查询结果作进一步的处理,得到更为精确和有用的信息。属于此类技术的有WebSQL及对查找引擎的返回结果进行群集的技术等。

1.2 Web结构挖掘(structure mining)

传统的Web搜索引擎大多数是基于关键字匹配的,返回的结果是包含查询项的文档,也有基于目录分类的搜索引擎。这些搜索引擎的结果并不令人满意。有些站点有意提高关键字出现的频率来提高自身在搜索引擎中的重要性,破坏搜索引擎结果的客观性和准确性。另外,有些重要的网页并不包含查询项。搜索引擎的分类目录也不可能把所有的分类考虑全面,并且目录大多靠人工维护,主观性强,费用高,更新速度慢。

Web结构挖掘是从WWW的组织结构和链接关系中推导知识。Web结构挖掘的目的是发现页面的结构和Web的结构,在此基础上对页面进行分类和群集从而找到权威页面。怎样才算是一个权威页面呢?指向一个文档的超链接体现了该文档的被引用情况。如果大量的链接都指向了同一个网页,我们就认为它是一个权威页。这就类似于信息检索领域,根据杂志论文的引用情况来评估论文的质量。这种方法的原理是一个作者引用另一篇论文,表示该作者对这篇论文的认可。Web不仅由页面构成,而且还包含从一个页面指向另一个页面的超链接。超链接包含大量潜在的语义,它有助于分析出权威性的语义。

1.3 Web使用记录的挖掘(usage mining)

Web服务器通常保存了对Web页面的每一次访问的(Web)日志项,或称为Weblog项。它包括了所请求的URL,发出请求的IP地址,和时间戳。对基于Web的电子商务服务器,保存了大量的Web访问日志记录。

使用记录实际上也是流水操作记录的一种,它真实地记录着访问者对Web服务器访问的细节情况。因此,对于这些原始数据,可以对其进行一些研究工作,如系统性能分析,通过Web缓存改进系统设计,使得页面缓存机制更加适合实际的需要,并且可以动态适应访问者访问行为模式。这些分析还可以有助于建立针对个体用户的定制Web服务。在这些分析结果的驱动下,可以使得Web具有智能性,能快速、准确地找到用户所需信息;能为不同用户提供不同的服务;能为用户提供产品营销策略信息等等。因此研究复杂的Weblog挖掘技术十分重要。Web使用记录的挖掘通常需要经过数据预处理、模式识别、模式分析三个阶段。

2 Web挖掘的应用

随着数据挖掘技术的不断进步,Web挖掘的应用已涉及各行各业,本文主要阐述其在电子商务、疾病防治和搜索引擎三方面的应用。

2.1 Web挖掘在电子商务中的应用

1)客户分类和聚类

对Web的客户访问信息进行挖掘,可对客户进行分类分析,例如根据国家或类型(.com,.edu,.gov)进行分类分析。对客户进行聚类分析,将客户进行分组,分析组中客户的共同特征,通过对客户的分类和聚类,就可以让销售商更好地了解自己的客户,向客户提供更有针对性的服务。

2)潜在客户的寻找

在对Web客户的访问信息的挖掘中,利用分类技术在互联网上获取未来的潜在客户。通常获取这些潜在客户的市场策略,是先对已经存在的访问者进行分类,对于一个新的访问者,通过在Web上的分类发现,识别这个访问者与已经分类的访问者的一些公共的描述,从而对这个访问者进行正确分类,从而判断这个新的访问者是否是一个潜在的客户。客户的类型确定之后,就可以对客户动态地展示Web页面,页面的内容取决于客户与销售商提供的产品和服务的关联。

3)客户驻留

由于因特网无国界的特点,传统客户与销售商之间的空间距离在电子商务中已经不复存在,每一个销售商对于客户来说都是一样的。如何让客户在相应的网络销售点驻留更久,那么,销售商就要尽量了解客户的浏览行为。利用Web挖掘,就可以知道客户的行为模式,了解客户的兴趣及需要,从而根据客户的兴趣及需要动态地调整Web页面,以便更好地满足客户的需要。在因特网上的电子商务中的一个典型序列,恰好代表了一个购物者以页面形式在网站上导航的行为,所以可运用数据挖掘中的序列模式发现技术。

2.2 Web挖掘在搜索引擎中的应用

通过对网页内容的挖掘,可以实现对网页的聚类和分类,实现网络信息的分类浏览与检索;通过用户使用的提问式(query)历史分析,可以有效地进行提问扩展,提高用户的检索效果(查全率、查准率);运用Web挖掘技术改进关键词加权算法,提高网络信息的标引准确度,改善检索效果。Web挖掘是目前网络信息检索发展的一个关键。

2.3 Web挖掘在疾病防治中的应用

自2003年全球出现“非典”以来,多种传染病接踵而来。事实证明,许多疾病是可预防的,但目前这些预警工作仍很缺乏。随着计算机信息技术的不断发展,人类已进行了网络时代,而且网络技术日新月异,许多人喜欢上网写博客,或到论坛上留言。基于Web的挖掘技术利用其文本挖掘功能,可对博客或论坛的有用文本进行挖掘,以服务于人类。

文本挖掘是从非结构化的文本中发现潜在的概念以及概念间的相互关系。在这项技术中,最关键的是分词技术,建立词典。只有让计算机依据词典完成正确断词之后,才可以实现将非结构化信息转化为结构化信息,然后就可以进一步研究文本之间的关系。比如通过分析Blog网页来建立禽流感预警机制,很好地体现了Web挖掘在疾病防治中的应用。

3 web挖掘的困惑

尽管业内普遍认识到web挖掘的重要性,但目前尚存在一些瓶颈。

1)一个关键问题是电子商务的评估指标(e-Metrics)还没有形成一个完整的体系。所谓指标体系就要设定几个维度来衡量电子商务网站生意的好坏。目前,有些电子商务网站已经开始定义像潜在顾客率(reach)、招揽时间(Acquisition)、潜在顾客转化率(Conversion)等一些评估指标,美国的一些技术会议也已经开始做一些整合工作,但是要形成体系还需要一段时间。

2)资金有限。

例如,商智通公司咨询总监匡宏波表示,曾经有一家医药类电子商务网站主动找上门,提出要求想知道平台的某类药品(比如盘尼西林)主要销往哪里。但盛秋戬博士也指出,就电子商务领域的总体而言,除了像亚马逊、eBay等一些国外大型电子商务网站开始自己买工具进行挖掘之外,国内少数注意到数据挖掘技术的网站大多是自己开发做此类工作,舍得掏钱的人还不多。

3)应用领域过于狭隘。

无论厂商、集成商还是学术界,基本上都认同一个观点,即:数据挖掘在技术上已经趋于成熟,现在更重要的就是如何拓展行业应用。IBM软件部中国区DB2信息管理技术经理刘晶炜表示说,数据挖掘技术已经到了一个普及化的阶段,现在关键是要让数据挖掘从神坛上走下来。商智通公司咨询总监匡宏波也表示,现在数据挖掘领域的问题都不是技术问题,也不是工具问题,而是应用问题。

1)从行业应用来看,目前大多数的用户都来自电信、银行、保险、税务等领域,比如南京地税、四川移动两个案例就做得相当成功,应用主题则主要包含:消费者行为分析、信用评分与风险管理、欺诈行为侦测、购物篮分析等方面。综合国内外的发展趋势,可以看到的是,大型连锁商店和高科技制造产业也将成为应用数据挖掘技术的重要领域。

2)从应用层次上看,大体可以分为三个层次,第一层次是把挖掘工具当作单独的工具来用,偶尔用一下出具一个报告,不用专门建设系统;第二层次则是把数据挖掘模块嵌入到系统中,称为部门级应用;第三层次是企业级应用,相当于把挖掘系统作为整个企业运营的CPU。目前,国内的数据挖掘应用是本来数量就比较少,即便是做了的,也有很多只是处于第一层次,偶尔某些用户能够做到第二层次。

4 结束语

由于Web上存在着大量的信息,Web在当今社会经济生活中扮演着越来越重要的角色,Web挖掘的应用将越来越广泛,用户对高品质、个性化信息的需求也将进一步推动Web挖掘技术的研究与发展。Web挖掘是一个较热门的研究领域,由于Web自身的特点,我们还有许多问题有待于进一步的研究与发展,例如开发更好的数据搜集机制和技术是很有必要的。在挖掘处理方面,开发新模型将更有效地锁定Web使用记录的增量变化和分布特性。

摘要:信息时代的到来,伴随着海量数据的不断出现,web挖掘为当今海量数据处理提供了强有力的技术手段。介绍了Web挖掘的概念,给出了Web挖掘的三种分类,并针对内容挖掘、结构挖掘、使用挖掘论述了Web挖掘在搜索引擎、电子商务、疾病防治等方面的应用。提出了Web挖掘存在的问题,最后展望了Web挖掘的未来努力方向。

关键词:Web挖掘,内容挖掘,结构挖掘,使用挖掘,搜索引擎

参考文献

[1]梁循.数据挖掘算法与应用[M].北京:北京大学出版社,2006

[2]林杰斌,刘明德,陈湘等.数据挖掘与OLAP理论与实务[M].北京:清华大学出版社,2003

[3]朱明.数据挖掘[M].合肥:中国科学技术大学出版社,2002

[4]陈文伟,黄金才,赵新昱等.数据挖掘技术[M].北京:北京工业大学出版社,2002

[5]Jeffiey A.Hoffer Mary B.Prescott Fred R.McFadden著,施伯乐,杨卫东,孙未未等译.现代数据库管理[M].北京:机械工业出版社,2004

[6]夏火松.数据仓库与数据挖掘技术[M].北京:科学出版社,2004

[7]陈京民等.数据仓库与数据挖掘技术[M].北京:电子工业出版社,2002

Web数据挖掘技术 第5篇

解决这些问题的一个途径,就是将传统的数据挖掘技术和Web结合起来,进行Web数据挖掘。Web挖掘就是从Web文档和Web活动中抽取出用户感兴趣的潜在的有用模式和信息。Web挖掘可以在很多方面发挥作用,如对搜索引擎的结构进行挖掘,确定权威页面,Web文档分类和聚类,Web Log挖掘,智能查询,建立Meta-Web数据仓库等。

1 Web数据挖掘的概念

Web Mining(Web挖掘)是由Oren Etzioni在1996年首先提出的,“因特网的数据挖掘”、“Web知识发现”、“网络信息挖掘”、“Web信息挖掘”等也可以认为是Web挖掘的同义词。一般,对Web数据挖掘做如下定义:Web数据挖掘是指Web从文档结构和使用的集合C中发现隐含的模式P。如果将C看作输入,P看作输出,那么Web挖掘的过程就是从输入到输出的一个映射。

Web数据挖掘是一项综合技术,是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的、未知的、有潜在应用价值的模式的提取。它反复使用多种数据挖掘算法,从观测数据中确定模式或合理模型,也是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。Web挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。

2 Web数据挖掘的分类

Web挖掘的对象包括一切通过Web形成的数据,根据挖掘对象的不同,可将Web挖掘分为Web内容挖掘、Web结构挖掘和Web使用挖掘。

2.1 Web内容挖掘(Web Content Mining)

Web内容挖掘是从大量的Web数据中发现信息、抽取有用知识的过程。这些数据既有文本数据,也有图形、图像、语音等多媒体数据;既有来自数据库的结构化数据,也有半结构化数据和无结构的自由文本。就其挖掘内容而言,可分为Web文本文档和多媒体文档;就其方法而言,Web内容挖掘可分为信息查询方法和数据库方法两大类。

2.1.1 Web文本挖掘

Web文本挖掘是以计算语言学、统计数理分析为理论基础,结合机器学习和信息检索技术,从大量的文本数据中发现和提取隐含的、事先未知的知识,最终形成用户可理解的、有价值的信息和知识的过程。

内容挖掘大多是基于文本信息的挖掘。按照文本挖掘的对象可把文本挖掘分为:基于单文档的数据挖掘和基于文档集的数据挖掘。基于单文档的数据挖掘对文档的分析并不涉及其他的文档,其主要的挖掘技术有:文本摘要、信息提取等。基于文档集的数据挖掘是对大规模的文档数据进行模式抽取,其主要的技术有:文本分类、文本聚类、个性化文本过滤、文档作者归属、因素分析等。从功能上,Web文本挖掘主要是对Web上大量文本集合的内容进行总结、分类、聚类、关联分析以及运用Web文档进行趋势预测等。

2.1.2 Web多媒体挖掘

多媒体文本数据挖掘(Multi-media Text Data Mining MTM)是数据挖掘的一个新的研究课题,它能洞察多媒体文档中用传统方法无法发现的模式。MTM是从多媒体文本数据中抽取事先未知的、隐藏的、完整的、新颖的知识,为决策领域提供服务的过程。多媒体文本内容挖掘应用于:(1)提取多媒体文本文档的中心词汇,并以此为主对多媒体文本文档进行文本总结;(2)根据多媒体文本上下文内容进行翻译。多媒体文本结构挖掘可应用于文件格式的挖掘和研究。其主要作用有:(1)发现隐藏的知识;(2)用主题对文档进行分类;(3)通过发现重复的模式消除瓶颈问题;(4)为Web文本数据挖掘提供基础。

多媒体文本数据的特征表示、特征抽取以及多媒体文本数据挖掘方法是其研究的重要内容。Web多媒体信息挖掘通常采用的方法有关联规则法和特征提取法。

2.2 Web结构挖掘(Web Structure Mining)

网络不是单一的链接,一些站点是作为链接许多站点的核心。从总体上看,网络是一个有向图。数据挖掘中关于寻找图和网络的结构模型的一个分支被称为链接分析。在网络中对于一个站点来说,通向它的站点越多,这个站点就越重要。但是网络的动态性使得我们要得到一个关于链接的准确的视图是非常困难的。

理解了一个网络站点的局部结构,可以进一步更好地使用、改善这个站点。

1)导航页:导航页的存在是为了链接到其他页面。对用户来说,导航页能够使他们很容易地找到想要的页面。通过比较从入口到目标网页所需的点击数和浏览者平均的点击数,我们会得到一些怎样设计好的网络站点和怎样链接网页的建议。

2)目标页:浏览者通常花费大量的时间在目标页上。目标页一般是固定的,这一网页实际上给浏览者提供所需要的信息、娱乐和商品等内容。

3)形成功能:某个网站的局部功能很大程度上依赖于它的用途。网站有许多不同的模型。一个零售站点可能都是以同样的方式列出商品页面,并且建立了一个存储在关系数据库中的商品和价格的桥梁。有一些会模拟离线资源,如报纸或杂志。其它的则包含可构建的会话,这些会话能够定制并能以多种方式排列,满足特殊用户的需求,这些站点例如WWW.GOOGLE.COM等。

2.3 Web使用挖掘(Web Usage Mining)

Web使用挖掘过程,简单地讲分四个阶段:源数据的收集、数据的预处理、数据挖掘和对挖掘出来的模式进行分析。

2.3.1 Web使用挖掘常用技术

Web使用挖掘中常用的技术有Web使用的特有的路径分析技术和数据挖掘领域常用的关联规则、序列模式、聚类与分类技术等。

路径分析技术在Web使用挖掘过程中,通过路径分析技术可以确定网站的频繁访问路径,可以对频繁访问的路径进行优化;可以在频繁访问的路径上放重要的信息,如导航信息等,方便用户使用。在路径分析的过程中,最常用的是图。图最直接的来源是网站结构图,网站上的页面定义成结点,页面之间的超链接定义成图中的边。因此,一个图既表示了网站中的页面又代表了页面之间的联系。

关联规则挖掘技术:关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关联的规则。在Web数据挖掘中,关联规则挖掘就是要挖掘出用户在一个访问期间(Session)从服务器上访问到的页面或文件之间的联系。最常用的方法是Aprior算法和FP-growth算法,从事务数据库中挖掘出最大频繁访问项集,这个项集就是关联规则挖掘出来的用户访问模式。

序列模式挖掘技术:序列模式挖掘技术就是要挖掘出交易集之间的有时间序列的模式。经过数据净化和交易确定后是一个间断的时间序列,这些序列所反映的用户行为有助于商家印证其产品所处的生命周期阶段。另外挖掘出来的一些暂时性的序列模式,可以分析企业战略实施或网站、产品的促销的效果。例如序列模式B,D(B,D表示页面)显示,有80%的用户访问了页面B之后在1.5个小时之内又访问了页面D。在一个电子商务网站中,B和D分别代表用户的在线订购,也就是说80%以上的用户在订购了物品B之后的1.5个小时内又在线订购了物品D。这些信息对于电子商务网站来说是非常重要的。

2.3.2 Web使用挖掘应用领域

Web使用挖掘应用针对的主要领域:Web个性化服务,Web站点辅助设计、商业智能等。

Web个性化服务:一个站点能否吸引访问者,能否成功地引导访问者获得有用的信息,成为这个站点能否成功的关键。基于Web使用信息挖掘的Web个性化服务的目标是:根据用户偏好动态地向用户提供特定内容。将语义知识集成到基于Web使用信息挖掘的个性化过程当中是下一代个性化推荐系统的主要挑战。

站点辅助设计:Web使用挖掘为网站设计者提供了详细的用户反馈,帮助他们根据实际用户的浏览情况,调整网站的网页链接结构和内容,对网站进行优化,从而更好地为用户服务。商业智能:消费者是如何使用Web站点的,这对于Web零售商来说是非常重要的信息。

3 Web挖掘的研究热点

在未来一段时间内,Web挖掘中的以下方面可能成为研究和应用热点。

1)高性能Web搜索引擎。尽管搜索引擎性能已有了较大提高,但搜索引擎的最终目标是“理解用户需求精确返回所需”,如何翻译用户的非专业搜索请求,实现自然语言处理,涉及兴趣爬虫、元搜索引擎、垂直搜索、移动搜索和多媒体搜索等方面的研究。

2)Web数据的特征描述与监控。如何表示Web文本内容的特征数据,如何表示和识别Web中的图像、flash等多媒体数据,进而进行网页分类、内容跟踪、过滤和报警等,对于不良网站的监控等有着积极意义。

3)Web数据的获取与集成。包括Web文本特征的提取和表示,如何用一种广泛兼容的半结构化数据模型表示网页;如何抽取动态网页中的数据;如何在分布的Web中获取信息,如何在指定网页中快速定位所需的数据区,如何利用数据库和数据仓库技术查询和存储Web内容等。

4)Web数据流的挖掘。Web日志、cookie、点击流等流式数据量巨大,如何识别和过滤爬虫的访问信息;如何有效收集和处理日志以外的访问数据;如何有效标识用户、设置用户会话时间等。

5)安全与非法访问检测。如何评价Web数据信息本身的可靠和安全性;如何对Web内容、邮件、各种日志和用户访问行为的分析,识别出威胁、欺诈、入侵、无用的数据和异常行为,从而构建安全的网络环境。

6)个性化与安全的隐私。如何跟踪、学习和表达多变的用户兴趣及行为模式,在个性化服务中过滤信息,实现商业应用,在提供个性化服务时不侵犯用户隐私等都是亟待解决的问题。

7)基于Web的模式分析技术和工具。如何将Web挖掘的结果在浏览器中可视化地表达,包括统计、关联、聚类、分类等工具开发等。

8)Web挖掘的算法改进与质量的评估。由于Web数据自身的特点,使得Web挖掘不能照搬数据挖掘的理论和技术,而需要对现有的算法等方面都进行改进。Web挖掘算法和挖掘系统的性能通常需要大量用户的反馈、实际运行测试,因而缺乏有效的评价模式。

9)Web挖掘在社会领域的应用。Web已经是人类社会活动的一面镜子,如何在Web中发现社会现象、问题和热点的规律,为社会学家、经济学家、教育学者提供有价值的知识。

此外,分布式Web挖掘、语义Web挖掘、无线网络下的Web挖掘、Web2.0时代的Web挖掘、多语言环境下的Web挖掘等是值得研究的方向。同时,Web挖掘技术应用于具体领域的研究将持续受到关注,例如,银行证券、企业ERP、医疗卫生、农业、电子商务、网络教学、BLOG等。

总之,在Web迅猛发展的今天,几乎所有的公司、企业及政府部门都创建了自己的网站,Web中包含Web页面的内容信息,丰富的超级链接信息以及Web页面的访问和使用信息,为数据挖掘提供了丰富的资源。Web数据挖掘技术是一项富有挑战性的任务,有待我们作进一步的研究与探讨。

摘要:随着Internet/Web技术的快速普及和迅猛发展,各种信息可以以非常低的成本在网络上获得,如何在这些信息中找到用户真正需要的内容,成为数据组织和Web相关领域专家学者关注的焦点。Web数据挖掘旨在发现隐藏在Web数据中潜在的有用知识、提供决策支持,已经成为数据挖掘领域中新兴的研究热点。该文主要从Web内容挖掘、Web结构挖掘和Web使用挖掘三个方面阐述Web数据挖掘的基本知识。

关键词:Web数据挖掘,Web内容挖掘,Web结构挖掘,Web使用挖掘

参考文献

[1]高燕,胡景涛.Web数据挖掘原理、方法及应用[J].现代图书情报技术,2002(3).

[2]王玉珍.Web数据挖掘的分析与探索[J].计算机发展与应用,2003(4).

Web文本挖掘技术探析 第6篇

随着网络的迅速发展和普及, Web网页上积累了海量的信息和知识。如何快速、有效的在这些海量信息中发掘有潜在价值的数据和知识成为急待解决的问题, Web文本挖掘技术是解决这个问题的有效方法之一。文本挖掘是近几年来数据挖掘领域的一个新兴分支, 它是利用文本切分技术, 抽取文本特征, 将文本数据转化为能描述文本内容的结构化数据, 然后利用聚类、分类技术和关联分析等数据挖掘技术, 形成结构化文本树, 并根据该结构发现新的概念和获取相应的关系。Web数据挖掘就是以万维网上的数据为分析对象, 以抽取有用知识为目标, 把传统数据挖掘技术和万维网相结合的研究。Web挖掘是一门交叉性学科, 涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。利用Web挖掘的研究成果来提高信息检索的精度和效率, 改善检索结果的组织, 使信息检索系统发展到一个新的水平。

2 Web挖掘的分类

Web挖掘实现对Web存取模式、Web结构和规则, 以及动态的Web内容的查找。Web挖掘可以分为三类:Web内容挖掘, Web结构挖掘, Web使用记录的挖掘。Web内容挖掘是对Web页面内容进行挖掘, 从Web文档内容信息中抽取知识。针对Web文本信息和多媒体信息, 它可分为Web文本挖掘和Web多媒体挖掘。Web内容挖掘的重点是页面分类和聚类。Web页面的分类是根据页面的不同特征, 将其划分为事先建立起来的不同类。Web页面的聚类是指在没有给定主题类别的情况下, 将Web页面集合聚合成若干个簇, 并且同一簇的页面内容相似性尽可能大, 而簇间相似度尽可能小。Web结构挖掘是挖掘Web内的超链接, 它的主要任务是揭示文档内容之外的蕴涵信息。Web结构挖掘是以超链接分析为基础, 从链接结构中获取有用的知识, 利用这些知识, 重新组织结构, 使内容逻辑结构更加合理。通过发现超链接的层次属性去探索Web站点的设计, 提高搜索质量。常见的算法有HITS、PageRank、发现虚拟社区算法、发现相似页面算法、发现地理位置算法和页面分类算法。Web结构挖掘的算法一般可分为查询相关算法和查询独立算法。HITS和PageRank分别是查询相关算法和查询独立算法的代表。Google就使用了HITS算法。Web使用记录挖掘是指通过挖掘Web日志记录, 来发现用户访问Web页面的模式。挖掘的对象是在服务器上的包括Server Log Data等日志。挖掘的手段是路径分析、关联规则和序列模式的发现、聚类和分类。Web访问信息挖掘可以从Web服务器那里自动发现用户存取Web页面的模式, 得出群体用户或单个用户的访问模式和兴趣。

3 Web文本挖掘的过程

Web文本挖掘的主要处理过程是对大量的HTML文档集合的内容进行预处理、特征提取、文本分类、文本聚类、关联分析等。先进行文本的收集并对文本进行预处理, 提取文本特征, 提取知识模型, 评价模型, 最后给用户输出结果。

文本挖掘处理的是大量的非结构化的文本数据, 因此首先需要对这些文本数据进行预处理, 如消除冗余、精简数据等。这些文本是用自然语言描述的, 在文本预处理过程中要转换成计算机能理解的ASCII码。这里的信息预处理指的是抽取代表文本特征的特征项, 对特征项进行标记、语型分析、词性标注、短语边界辨认等。通常选用词作为文本特征的特征项。目前汉语分词主要有基于词典和规则的方法和基于统计的方法。前者应用词典匹配和汉语语言知识进行分词。方法比较简单、分词容易、效率高, 但对词典完备性的要求比较高。后者充分利用汉语基于字、词的统计信息进行分词, 相对来说准确性好, 但完备性相对差一点。特征表示是对从文本中抽取出的特征项进行量化, 以结构化形式描述文档信息。这些特征项作为文档的中间表示形式, 在信息挖掘时用以评价未知文档与用户目标的吻合程度。主要的文本特征表示方法有矢量空间模型 (VSM) 、布尔模型等。VSM方法是把文档看作是由相互独立的词条构成。每个词条根据其重要程度赋一个权值。将这些词条看作是m维坐标系中的坐标轴, 对应权值看作坐标值, 将文档信息匹配问题转化为向量空间中矢量匹配问题。布尔模型只需要进行简单的O-1匹配就能判断检索条件同文档之间的关系。从而将检索文档分为两个集合:匹配集和非匹配集。但因为布尔模型忽略了特征项的文档项频, 所以无法在匹配结果集中进行相关性大小的排序。对文本特征项进项提取可以大大提高文本挖掘的效率。目前常用的特征提取方法主要有:独立评估方法和综合评估方法两种。独立评估方法是独立评价特征集中的每个特征, 这样每个特征都可以获得一个权值, 然后按权值大小排序。根据权值或预定的特征数目选取最佳特征子集作为特征提取的结果。综合评估方法则是从高维的、彼此间不独立的原始特征集中找出较少的描述这些特征的、相互独立综合指标, 然后又用得到的综合指标对特征集进行特征选择。进行文本挖掘的主要目标有:文本分类、文本聚类等。文本分类是按照预先定义的主题类别为文档集合中的每篇文档确定一个类别。这样用户就可以很方便使用和搜索文档。目前使用的效率比较高且准确率比较高的文档分类方法有:简单贝叶斯分类方法、矩阵变换法等。贝叶斯分类法假设文本数据为一个参数模型, 使用训练样本进行贝叶斯最小错率估计。对新的测试文档使用贝叶斯规则计算文档的后验概率进行分类。矩阵变换分类法的主要思想是为文档集和文档类分别建立向量空间。通过矩阵变换找到文档与类之间的映射关系, 从而把分类问题转化为矩阵变换的数学问题来解决。文本聚类从给定的文档本身出发, 根据文档特征词矢量, 将相关者聚成一类。聚类过程包括5个步骤:数据表示;定义适合待聚类数据的相似度衡量;数据分组的过程;数据抽象;聚类结果评估。常用的聚类方法有平面聚类法、层次聚类。层次聚类方法是最常用的聚类方法, 因为它能够产生层次化的嵌套聚类, 所以有很高的准确度。但是在层次聚类过程中, 最大相似度呈递减趋势, 所以必须确定适当的相似度阈值, 以保证同一个聚类中文档的紧密相关。所以它的运行速度较慢, 不适合于大量文档的集合。在平面划分法中, 首先确定要生成的簇的数目K。再按照某种原则生成K个聚类中心作为聚类的种子;对给定文档集合中的每个文档, 依次计算它与各个种子的相似度;选取相似度最大的种子, 将待聚类文档归入以该种子为聚类中心的簇, 从而得到文档集合的一个聚类。该算法的运行速度较快, 但必须事先确定要生成的簇的数目K的取值, 且种子选取的好坏对聚类结果有较大的影响。除上述2种方法外, 其他的文本聚类方法有:基于密度方法和基于网格方法。基于密度方法是根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。基于网格方法是先将对象空间划分为有限个单元以构成网格结构, 然后利用网格结构完成聚类。

4 Web文本挖掘的应用

Web文本挖掘对网络用户充分利用万维网资源很有帮助, 不仅可以对搜索结果进行有效的组织, 使用户比较准确找到需要的资料, 还可以通过加快搜索时间, 帮助用户节约检索时间, 提高Web文本的利用价值。可应用于自动索引、信息检索、文档分类、自动文摘、组织文档、改进搜索引擎的检索结果等。利用文本聚类, 将搜索引擎的检索结果分为若干簇, 分别加以标注, 这样就可以为用户提供具有更多信息的视图, 而不仅仅是一个线性的文档列表。可以提高搜索引擎获取信息的准确性, 并可以对用户搜索结果进行相关处理, 可以提高查准率和查全率。在电子商务领域, 网络信息挖掘可以提供不同用户的特定信息, 传播网络广告, 可以建立客户关系管理系统, 极大地提升企业的竞争优势, 将文本分类等技术应用到网上购物事件的跟踪中, 能自动不断获取和更新网上商品, 提高处理的速度, 给用户及时提取更多有价值的信息;在电子政务领域, 通过对政务数据进行定性和定量分析, 可为高层管理者提供决策参考。对因特网上的文档, 可以制定一个组织方案, 利用文本分类对这些文档进行自动编目。这样, 用户不仅能够方便地浏览文档, 而且还可以通过限制搜索范围使文档的查找更为容易。

5结语

Web文本挖掘是近几年来新起的一种数据挖掘新的分支, 可应用于信息过滤、网络文档分类、网络数据综合和存储, Web智能服务、电子商务等领域。目前Web文本挖掘在我国还处于起步阶段, 是比较前沿的研究领域, 许多与之相关的技术都有待更新、提高和发掘如:Web挖掘的概念体系没有统一的标准和规范;现有的Web挖掘技术还需进一步优化, 以提高挖掘的速度及有效性;Web文本挖掘应用领域的拓广等。

参考文献

[1]袁军鹏, 朱东华.文本挖掘技术研究进展[J].计算机应用研究, 2006, (2) .

[2]和亚丽, 陈立潮.Web文本挖掘中的特征选取方法研究[J].计算机工程, 2005, (3) .

Web日志挖掘方法的研究 第7篇

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘技术是人们对数据库技术不断研究和开发的结果,是继宽带网络之后的又一个技术热点。自1989年出现以来,经过十多年的发展,数据挖掘技术已趋于成熟,并已投入商业应用。世界上比较有影响的典型数据挖掘系统有:S P S S公司的Clementine,IBM公司的IntelligentMiner,SGI公司的SetMiner,S A S公司的EnterpriseMiner,RuleQuestResearch公司的See5,还有CoverStory、EXPLORA、KnowledgeDiscoveryWorkbench、DBMiner、Quest等。知名的GartnerGroup的一次高级技术调查将数据挖掘和人工智能列为“未来3~5年内将对工业产生深远影响的五大关键技术之首”。

2 Web数据挖掘和Web日志挖掘

随着Internet/Intranet技术的发展,Web上的数据信息越加丰富,怎样更加有效的利用网络资源变得非常重要。Web数据挖掘(Web mining)就是从WWW资源上抽取信息(或知识)的过程,是对WWW资源中(Web文档和Web活动中)抽取蕴涵的、未知的、有潜在应用价值的模式的过程。它通过反复使用多种数据挖掘算法从观测数据中确定模式或合理模型,是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。然而,由于Web数据量的庞大,杂乱,以及信息源的动态性,要找出有用的信息是很困难的。所以,Web对有效的资源和知识发现有很大的挑战性。目前有许多基于索引的Web搜索引擎可以完成对Web的搜索。例如,Yahoo!,AltaVista,“美国在线”等。但每种搜索引擎在对Web资源进行查找和搜索时还存在着或多或少的局限性。

在Web数据挖掘研究领域中,根据挖掘对象的不同,Web数据挖掘分为3类,即Web内容挖掘(Web content mining)、Web结构挖掘(Web structure mining)和Web使用记录挖掘(Web usage mining)。有些时候,由于Web内容挖掘和Web结构挖掘的对象都是Web上的原始数据,Web结构挖掘也可以看作是Web内容挖掘的一部分。所以,Web数据挖掘也可以分成两大类:Web内容挖掘和Web使用记录挖掘。

Web日志挖掘是Web数据挖掘中的一个最为重要和繁荣的子子领域,是对Web使用记录挖掘的一种方法,(如图1 Web日志挖掘的层次)。Web站点的日志记录了浏览者的浏览行为,通过对Web日志文件的挖掘可以找出浏览者的兴趣、访问习惯和偏好路径,得到用户访问Web页面的模式。通过分析和研究Web日志记录中的规律,让网站管理者对站点进行有针对性的改进,改善Web站点的组织结构,提高站点的访问质量,改进Web服务器系统的性能,从而吸引更多的客户和读者。因此,对Web站点日志进行挖掘对于经营者和管理者都有极其现实的意义。另一方面,用户也可以通过改善的Web站点的组织结构,迅速找到自己感兴趣的超链接。

3 Web日志挖掘的步骤(如图2)

3.1 数据预处理

网络日志上的数据是不完整的,包含有各种各样的错误信息,甚而至于是不一致的数据。这些数据在进行运算之前必须对其进行预处理,即:根据挖掘的目的,对Web日志文件中的数据进行提取、清洗、浓缩,最后转化为适合进行数据挖掘的数据格式,并保存到关系型数据库表或数据仓库中,等待进一步处理。例如,当用户请求页面时,与这个页面相关的图片、视频、动画、声音等多媒体信息也会自动下载下来,并记录在日志文件当中,如果我们选择挖掘的是用户访问模式,这些信息对挖掘来说显然用处不大,可以把日志文件中以.gif、.jpg、.jpeg、.swf、.css等作为后缀的记录删除掉。数据预处理这个环节是整个过程的基础和实施有效挖掘的前提,在Web日志挖掘中起着非常重要的作用。

3.2 模式识别

运用各种算法(如GSP算法,Prefixspan算法等)对预处理后的数据进行数据挖掘,从Web日志数据中发现隐含的模式。

3.3 模式分析

采用合适的、成熟的技术和工具,进行用户访问模式的分析,从而辅助挖掘工作,将有价值的模式提取出来的过程。常用的方法有两种:一种是SQL查询语句分析,还有一种是将数据导入多维数据立方体中,然后利用OLAP工具进行分析并提供可视化的结果输出。目前使用比较多的是后者。

4 序列模式挖掘

对Web日志进行数据挖掘的方法主要有分类模式挖掘、聚类模式挖掘、时间序列模式挖掘、序列模式挖掘、关联规则等。其中序列模式挖掘对Web日志数据进行分析是一种常见的分析方法。

序列模式挖掘(sequence pattern mining)是指挖掘相对时间或其他模式出现频率高的模式。对序列模式挖掘,有三个参数是非常重要的,其取值将影响挖掘结果。第一个是时间序列的持续时间(duration)T。例如国庆节后的一个月,春节的前三天。第二个是事件重叠窗口(event folding window)w。例如“2008年购买了物品A的顾客也购买了物品B”。(这里的物品A和物品B的购买没有先后次序)最后一个参数是事件间隔(interval)int。例如“当某人购买了物品A,很可能在10天之内购买物品B”。

用户可以在要挖掘的序列模式上指定约束,有三种约束形式:系列片段(serial episode),并行片段(parallel episode),和正则表达式(regular expression)。其中,系列片段是一组在总序列中陆续出现的事件,并行片段是一组与出现次序无关的事件,而正则表达式则是指用表达式的形式表示匹配事件发生的关系。

序列模式挖掘的大部分方法都采用类Apriori算法的变种,还有一种是基于数据库投影的序列模式生长(database project-based sequential pattern growth)技术。

5 研究Web日志挖掘的作用

Web服务器通常保存了用户对Web页面每一次访问的日志项(Weblog)。这个日志项包括了所请求的URL,发出请求的IP地址和时间戳。有些Web站点每天记录的日志项在百兆左右。日志项数据库记录了有关Web动态的丰富信息。因此,研究复杂的Web日志挖掘是十分重要的。通过分析日志项,最终能提高Web站点性能,理解用户意图,改进Web站点设计,挽留老客户,挖掘潜在的新客户。

参考文献

[1]Han Jiawei,Kamber Micheline,Data Mining:Concepts and Techniques(数据挖掘概念与技术).机械工业出版社,2001.

[2]陈京民.数据仓库与数据挖掘技术(第2版)[M].电子工业出版社,2007.

[3]Dunham Margaret H.数据挖掘教程.清华大学出版社,2005.

[4]梁循.数据挖掘算法与应用.北京大学出版社,2006.

[5]戴永群.Web挖掘研究与应用.计算机与信息技术,2007.

浅谈云计算的Web数据挖掘方法 第8篇

关键词:云计算;数据处理方法;数据挖掘方法;算法结果

中图分类号:TP311.13 文献标识码:A 文章编号:1674-7712 (2012) 06-0108-01

一、云计算简介

云计算是当今信息产业中极其重要的一个环节,其巨大作用主要体现在虚拟化数据信息处理计算方面,同时更是一种新型的商业模式。其主功能体现在以下三个方面:互联网领域的数据处理;各行业信息资源的处理;提供社会化的信息服务。现在全国许多地方都在建设或计划建设大规模的“云计算”或数据中心产业园区,面对云计算这一新兴领域,我们既需要科学的态度,又需 开放的心态,不断改进技术,加强功能实践,才能使云计算融入社会信息化的大潮。

二、数据的处理方法

(一)数据计算与存储的整合。利用云计算技术技术时,要考虑数据处理后的整合。互联网的带宽数据是相对稀缺的资源,当Map/Reduce的Map进行操作时,这种数据处理技术一般情况下是不需要有传输路径的,只需Reduce向Master传送计算结果。这种处理密集型数据的计算方法,能够节省数据传输时间。并且当前,计算机的计算机的计算速度远远大于网络数据的传输速度,有人由此提出了以计算来换通信的编程策略,即将输入数据分开保存在工作组的本地磁盘上,这样可以大大减少网络传输的压力。比如,将数据文件分成若干容量相等的块,分开保存保存块的拷贝,再由Master记住这些块的存储位置并执行Map的任务。这种方法并不占用网络带宽,能够减少网络宽带的开销压力。(二)数据文件的迁移。利用云计算技术时,还要考虑数据计算和存储的迁移。大部分云计算系统能够分开执行计算和存储这两项任务,但是却不能同时执行这两个命令。因为计算迁移要求数据块必须采用副本策略。

三、云计算的数据挖掘系统架构

在云计算的Web数据挖掘系统中,主要有三类相关的节点:一是调度与协调节点间工作进程的单一主控节点Master;二是负责存储数据算法的算法存储节点;三是负责存储分块文件并执行Master任务的服务节点ServiceNode。与此相对应,Web数据挖掘系统则可分为三层:数据存储层、挖掘算法层和业务处理层。数据挖掘子系统的核心设计理念是统一由Master负责调度任务,执行时其主要的流程是:若该Service Node工作正常,它会以一定的时间间隔方法向Master发送信号,然后Master将该ServiceNode设置为空闲节点。Master节点先接收用户各数据块,确定需调用的挖掘算法,然后向算法节点申请所需挖掘算法,算法节点则将算法发送至ServiceNode节点上。计算机启动计算工作,向Master传送计算结果,由Master汇总后生成最终的结果返回给用户。这一过程中数据的计算和存储都在一个节点上面,既节省了数据传输的时间,又节约了宽带流量。

四、基于云计算的Web数据挖掘算法

云计算的数据挖掘算法多种多样,其中主要有关联、聚类、分类等方法,这些方法中,尤其以关联方法应用最广泛,其在日志数据分析、个性化信息推荐等方面有十分重要的技术支撑,在普Web数据挖掘领域的应用较为普遍。这种方法主要有两个步骤:首先是找出所给信息或数据中频繁出现的项集;再就是在所找出的频繁项集中分析其与其他相机所产生的相关关联。在寻找频繁出现的项集时,大部分计算机采用数据处理的迭代方法,也就是说,计算机数据处理中心首先找出一个频繁出现的项集1,命名为L1,接着找出另一个频繁出现的项集2,命名为L2,一直到某个频繁出现的项集k,命名为Lk,当且仅当LK等于0时,这种迭代法才能结束。在求LK的值时,采用的方法是:将LK-1命名为CK,然后检查Ck的每一个元素,如果CK其中的某一个元素能满足用户自定义时所选的最小支持度阈值的元素,那么这个元素就是Lk的元素。很明显,这种在广域的数据源上的验证算法是当前数据挖掘技术的一个难点,这种方法操作数据,将会给计算带来很多不必要的工作,甚至会重复多次无意义的工作,既浪费资源,又浪费时间。基于以上原因,本文将要介绍一种新的算法,即基于云计算平台的Apriori算法。这种算法将寻找频繁项集和分析其关联的任务,分别分配给“云”中多个计算节点ServiceNode同时进行,要求各个节点求出各自局域范围内的频繁项集,并分析其相关关联,任务结束后由Master统计出各频繁项集的合计数,这种新的计算方法即是Apriori算法,这种方法可以大大提高数据的挖掘效率,节省数据处理和信息提取时间。

五、算法结果

在利用云计算提取数据信息时,对其计算结果的存储也十分重要。一般而言,在处理大规模数据信息时,将数据放在Master节点上,然后采用新的计算方法---Aprior算法,计算出所需的频繁项集后,要将所得数据频繁项集的数据分开保存在独立的节点上。通常采用的存储方式是保存在5个单独的服务节点上。存储完后,在1、3、5这3个服务节点上同时执行Aprior算法,计算出时间。最后将Aprior算法分别拷贝到5个服务节点上,将数据文件传输到1、3、5个服务节点上执行,计算出时间。通过这3个实验所用时间的对比,我们可以命令的执行效率同数据量成正比,同向节点传输数据的时间成反比。实验证明,这种新的计算方法,不仅数据信息提取的效率提高了,而且精确度也有了保證,是一种比较高明的计算方法。

我们得知,传统的数据挖掘系统主要是在小型机的平台上运行的,这种挖掘方式不仅效率低,而且数据容量小,计算方法简单,难以适应现代互联网数据信息的大规模聚合和处理要求。而基于云计算的Web数据挖掘系统则不仅使数据信息资源得到了充分利用,而且提高了数据挖掘的效率和精确度。同时,这种数据挖掘工作意义重大, 能够面向各方面信息的应用,尤其在国防、商业方面,具有更高的利用价值和信息价值。

参考文献:

[1]周晏,桑书娟.浅谈基于云计算的数据挖掘技术[J].电脑知识与技术,2010,(34)

Web挖掘的现状和展望 第9篇

互联网的广泛应用从根本上改变了人们的生活方式, 包括沟通、获取信息、开展业务、购物。当年万维网和电子邮件使用频率的暴涨, 促使计算机科学家和物理学家们急切想研究这一新现象。最初让他们惊讶的是互联网的庞大和多样性, 但很快他们发现了一个普遍的规律:网络中包含大量的小元素, 大元素较少。少数网站包含上万个网页, 但更多的网站仅包含几个页面。大部分的网民集中到少许特定的网站, 而大量的网站却鲜有人问津。

万维网的发展让大量信息可以被用户免费访问, 不同的数据类型必须加以管理和组织, 以方便不同用户有效的访问。因此, 数据挖掘技术在Web上的应用现在成为越来越多人的研究重点。有些数据挖掘的方法已经用于挖掘Web中的隐藏信息, 然而, Web挖掘不只是用数据挖掘的技术在Web中存储数据, 还必须修改算法来更好满足网络的特殊需求[1]。新方法应该更适合Web中数据的属性。此外, 不单是数据挖掘, 人工智能、信息检索、自然语言处理技术都可以使用起来。因此, Web挖掘已经发展成一个独立的研究领域。

1 Web挖掘的历史演变

Web挖掘技术是经过漫长研究和产品发展的结果。这种演化从人们把商业数据存储在电脑和互联网上开始, 之后产生了更多更新的数据获取和实时处理技术, 方便了我们驾驭这些信息。不同地域、不同网络和调查产生的数据共同定义了数据集合。数据存储又涉及了软件、检索, 存储介质等问题。

在商业信息的演化过程中, 每一次发展都跟前一次息息相关。从用户的角度来看, 表1中列出的5步是具有革命性的, 因为它们让新的商业问题得到了快速而准确的解决。例如, 数据库的巨大存储能力对Web挖掘来说就至关重要。

数据挖掘技术基本上被用在了Web挖掘中, Web挖掘是数据挖掘的扩展版本。数据挖掘离线操作, 而Web挖掘在线操作。在数据挖掘中, 数据存储在数据仓库中, 而Web挖掘则存储在服务器或Web日志中。

Web挖掘主要技术的形成经过了数十年的发展, 在研究领域, 诸如人工智能、机器学习都有涉及。如今, 技术本身的成熟, 加之关系型数据引擎的高性能和数据集成的进步, 使得这些技术在当前数据仓库环境中变得可行。

现有Web挖掘方法存在的缺点:

1) 用户感觉响应时间过长。

2) Web的爆炸式增长加重了对网络要求。

3) 资源和Web服务器。

4) 有一个明显提高网络质量的方法:增加带宽。但也会增加经济成本。

5) Web缓存方案有两个显著缺点:如果代理服务器没有正确更新, 用户可能收到过期的数据;当用户数量增多后, 原始服务器通常会成为瓶颈。

6) 几个削弱Web缓存效果的因素。最显著的是缓存系统资源有限 (即:内存空间, 磁盘存储, I/O带宽, 处理器能力和网络资源) 。即便缓存空间是无限的, 也无法避免一些问题, 特别是更新巨大的Web对象集合时, 管理起来十分困难。

7) 加强系统的主要缺点:预取策略可能不是用户的最终请求, 而预取方案增加了网络流量和Web服务器的负载。

2 Web挖掘及其分类

Web挖掘是一种基于数据挖掘在网络中发现隐藏信息的技术。Web上所有页面都是节点, 且有超链接相互连接。Web挖掘是有效提取信息、图像、文字、声音、视频、文件和多媒体的方式。现在我们搜索任何话题都能轻易的从网上获取相关信息, 在以前想得到相关准确信息是很难的[1][2]。Web挖掘被认为是数据挖掘的一个特定应用, 但值得单独提出来研究。

Web挖掘的流程是:数据抽取、信息选择和预处理、模式发现、模式分析。基于这4个流程, Web挖掘可以看作是使用数据挖掘技术自动从网络文件和服务器上检索、提取和分析信息来做知识发现。

Web挖掘根据用途不同被分为3类:Web内容挖掘;Web结构挖掘;Web日志挖掘。

2.1 Web内容挖掘

Web挖掘主要从网络上提取信息, 如果其过程是访问网络上的信息, 则属于Web内容挖掘。打开网页来获取网络上的信息, 属于Web内容挖掘。打开搜索页面和在搜索页面上浏览信息一样, 都是Web内容挖掘的最新定义。

2.2 Web结构挖掘

我们用图来定义Web结构挖掘, 一个网页代表一个节点, 一个链接代表图的一个边。它反映了网络页面间的关系。Web结构挖掘的动机是理清网络间的关系。它反映了从一个网页到另一个网页的链接。

2.3 Web日志挖掘

它用于发现用户在网络中不同位置产生信息的规律。它自动搜集存储在服务器上的用户使用日志, 代理日志, 客户端缓存, 用户资料, 网页个性内容, 网站结构[3]。

Web日志挖掘目的是利用数据挖掘技术来探寻面对Web上不同应用时用户的使用模式。当用户上网时, 它是预测用户行为的技术[4]。

Web日志挖掘分为3步:

1) 预处理:根据客户端, 服务器, 代理服务器, 它首先检测网络资源中那些未加工的数据并处理它们。本步骤自动转换这些原始数据。

2) 模式发现:在这步中, 根据不同数据使用诸如机器学习、数据挖掘等技术来发现知识。

3) 模式分析:模式分析在模式发现之后。它检查模式是否正确, 还有如何实现在web中提取信息。

3 云计算与Web挖掘

云计算显然是当前最引人注目的技术之一, 因为它有经济性、高效性和灵活性等优势。尽管人们在云计算方面的兴趣和参与性在增多, 仍存在一个重要的问题:云计算会因为发展的阻碍, 最终妥协成一种新的IT采购模型吗?[7]“云”这个词是互联网的一种象征, 是互联网潜在基础设施的一种抽象, 同时还代表用户与外部供应商的关系。

基本上, 云计算挖掘是一种新型数据处理技术。SaS (软件即服务) 已经实现, 它减少了Web挖掘的开销, 并尝试为用户提供安全性, 这已经是云计算挖掘技术。现在我们准备改变Web挖掘的框架来满足云计算的需求[5]。考虑到“挖掘”云, Hadoop和MapReduce社区开发了一个强大的框架来预测分析复杂的分布式信息源。

4 结语

本文提供了Web挖掘领域当前现状和未来趋势的研究。指出了数据挖掘和Web挖掘间的区别。网络数据量正在飞速增长, Web挖掘是有前途的研究领域, 许多成功的应用已经出现。本文还提出了Web挖掘的步骤和未来趋势。现在我们正在研究将Web结构挖掘和日志挖掘两者结合起来。也关注着云计算中的数据挖掘。实际上, 通过云计算, Web挖掘的代价大大减少, 所以我们也相信云计算挖掘是Web挖掘今后的趋势。

摘要:概述了如何在网络中获取有用信息, Web挖掘的基础知识及其相关比较。阐述了Web挖掘的发展过程、现状, 以及未来趋势。介绍了Web内容挖掘、Web日志挖掘, 还有被视为Web挖掘未来的云计算挖掘。

关键词:Web挖掘,Web内容挖掘,Web结构挖掘,Web日志挖掘,云计算挖掘

参考文献

[1] Virgilio Almeida, IEEE International Conference in Parallel and Distributed Information Systems, December 1996.

[2] Pei, J.Han, ”Mining Access Patterns efficiently from Web Logs”, Knowledge discovery and Data Mining, 2000.

[3] Etzioni, O, ”The, World Wide Web:quagmire or gold mine”, Communication of the ACM , No.11, 65-68, 1996.

[4] Wu, K.L.Yu, ”A Web usage minging and analysis tool”, IBM Systems Journal, 2010.

[5]Ajay Ohri, ”Data mining through Cloud Computing”, http://knol.google.com/k/data-mining-through-cloud-comput-ing, 2010

[6]Michael Jennings, ”What are the major comparisons or differ-ences between Web mining and data mining?”, InformationManagement Online, June 25, 2002.

上一篇:数形结合提高解题能力下一篇:美国研究生教育