信息挖掘范文

2024-06-22

信息挖掘范文(精选12篇)

信息挖掘 第1篇

一、信息隐蔽于物理题目中

很多物理问题在叙述的过程中,都会暗藏着一个隐蔽的信息,比如“最大”、“匀速”“恰巧”等词语,在解物理题的时候必须要留心这些词语,从而挖掘出题目当中的隐蔽信息.

例1一质量为M的小球,用长为l的轻绳悬挂于o点,小球在水平力F作用下,从平衡位置P点很缓慢地移到Q点,如图1所示,此时悬线与竖直方向夹角为θ,则拉力F所做的功为()

( A)mg Lcosθ( B)mg L( 1- cosθ)

( C) FLsinθ( D) FLθ

解析: 本题的隐蔽信息是题目中的“缓慢”二字,缓慢移动小球可以认为小球始终处于平衡状态,且F方向始终水平,故外力为变力,恒力做功公式不能应用,可采用功能关系求解,由于小球缓慢所以小球动能不变,那么F的功等于小球增加的重力势能,即WF= mgl( 1 - cosθ) .

二、信息隐蔽于物理情景中

审题时应注意研究题目设置的物理情景,比如接触面是否光滑,粒子是否忽略重力,物体是否可以看成质点等,挖掘这些物理情境中的隐蔽信息,有助于更好的分析理解题意,从而确定解题思路,顺利解题.

例2如图2所示,劈a放在光滑的水平桌面上,斜面光滑,把b物体放在斜面顶端由静止滑下,则在下滑过程中,a对b的弹力对b做功为W1,b对a的弹力对a做功为W2,下列关系正确的是()

解析: 很多学生错选( C) ,原因就是没有挖掘出“光滑的水平面”这一隐蔽情景,倘若挖掘出这一隐蔽信息,并且画出示意图,不难知道( D) 正确.

三、信息隐蔽于物理过程中

物理过程一般由多个变化的物理状态相衔接而成. 很多隐蔽信息就处在两个物理状态衔接处,在解题时,要认真分析各物理状态的特点,找出它们交叉处的联系,从而挖掘出对解题有利的隐蔽信息.

例3如图4所示,将一物体M放在匀速传送皮带的A点,已知皮带速度的大小为v = 2 m/s,且AB = 4 m,物体与皮带间的动摩擦因数μ = 0. 2. 则物块运动到B点所需要的时间为()

( A) 2 s ( B) 2. 5 s ( C) 4 s ( D) 无法确定

解析: 很多同学误选( A) ,认为物体全程都是匀加速,其实物体的运动过程可分为两部分,物体先做匀加速运动然后做匀速运动,倘若这一隐蔽信息挖掘不出,势必造成错解. 易得( B)正确.

四、信息隐蔽于物理对象之中

很多物理问题,都可分为显性研究对象和隐性研究对象,当显性研究对象无法解决问题实质的时候,不妨从隐性研究对象入手挖掘出有利信息,从而解题.

例4如图5所示,条形磁铁放在桌面上,一条通电的直导线由S极的上端平移到N极的上端的过程中,导线保持与磁铁垂直,导线的通电方向如图示,则这个过程中磁铁受到的摩擦力( 磁铁保持静止) ()

( A) 为零( B) 方向由向左变为向右

( C) 方向保持不变

( D) 方向由向右变为向左

解析: 由于本题研究的是磁铁所受的摩擦力情况,很多同学选择了以磁铁为研究对象,然而磁铁电流作用力并没有固定的公式及规律,从而导致问题无法解决,这时如能把研究对象转换成通电导线,再根据牛顿第三定律,得出磁铁的受力情况,问题很容易得以解决,正确选项( B) .

五、信息隐蔽于物理图象中

在有图象的物理问题中,要多考虑图象的物理意义,考虑图象的截距、斜率,拐点的含义,从中挖掘出对解题有意义的物理信息.

例5如图6( a) 所示,AB是某电场中的一条电场线,若将一负电荷从A点处自由释放,负电荷沿电场线从A到B运动过程中的速度图线如图6( b) 所示,则A、B两点的电势高低和场强大小关系是 ()

解析: 本题图象隐蔽着两个信息: 一是物体的速度逐渐增大,可知电场力做正功,即 - q( φA- φB) > 0,可得φA< φB二是速度与时间图象的斜率逐渐减小,可知加速度逐渐减小,可得EA> EB,选( C) .

六、信息隐蔽于物理条件中

审题时要注意分析题意所给的条件,找出关键词,挖掘出有用信息,

例6如图7所示,空间有一水平匀强电场,在竖直平面内有一初速度v0的带电微粒,沿图中虚直线由A运动至B,其能量变化情况是( 重力不能忽略) ()

( A) 动能减少,重力势能增加,电势能减少

( B) 动能减少,重力势能增加,电势能增加

( C) 动能不变,重力势能增加,电势能减少

( D) 动能增加,重力势能增加,电势能减少

互联网国学信息的挖掘 第2篇

网上国学信息资源在我国传统文化研究中占有非常重要的`地位.该文在总结网上众多国学信息源的基础上,论述了挖掘网上国学信息资源的主要方式,并提出了构建基于移动Agent和XML的国学虚拟数据库的设想.

作 者:高明  作者单位:浙江大学,杭州,310028 刊 名:现代情报  PKU英文刊名:MODERN INFORMATION 年,卷(期): 27(10) 分类号:G250.73 关键词:互联网   国学   信息挖掘   信息利用   虚拟数据库  

挖掘信息资源 感悟文本真谛 第3篇

关键词 小学语文;信息技术;诗词

中图分类号:G623.2    文献标识码:B

文章编号:1671-489X(2014)21-0134-02

当今,信息技术的运用已经深入人们的日常生活中,尤其是对于具备强烈好奇心和求知欲的小学生来说,更是喜闻乐见。因此,在小学语文课堂教学中加入信息技术的元素是大势所趋。在运用网络和多媒体技术手段的过程中,需要教师不断探索信息技术在语文教学中的运用策略,从而提高课堂学习的效率,促进小学生健康快乐地成长。

1 运用信息技术辅助理解文本,激发学习兴趣

在教学苏教版语文第六册第三单元《少年王勃》时,笔者从“江上迷人的秋景”出发,让学生思考:哪些词语让你体会到了“迷人”?朗读好关键词“水天相连、落日的余晖、灿烂的云霞”……其中“缓缓地、轻轻地”,出示句子比较朗读,让学生从比较朗读中体会一种悠闲与自在。接着又出示一些江上秋景的画面供学生欣赏,引导学生在赏景中朗读,让学生在直观形象的场景中体会秋景的迷人之处。笔者甚至找来学过的《北大荒的秋天》的课文插图:一道橘黄、一道绛紫、……讲不清楚的就一目了然吧,教师也就做到了“惜语如金”。

形象直观的画面有时会比教师诠释得更精彩,读文赏图,带领学生领略课堂的别样美丽。学生沉醉在一幅幅秋景中,秋色宜人、秋高气爽的成语脱口而出。接着从词语回到片断的整体朗读,适当的范读后,学生通过赏景想象朗读:“落日的余晖、灿烂的云霞……”至此,学生深深地体会到秋之宁静、秋之壮美、秋之深远。笔者告诉他们这一切都包含在课文的一句话中,学生一下子找到了“落霞与孤鹜齐飞,秋水共长天一色”的意境,一个个静止的文字便活了起来,一张张笑脸也随之露了出来,一个个摇头晃脑地专注了起来……学生跨越时空与作者一起感受亘古不变的大自然之语。

由于诗人所处的年代、接触的人或事物与现在毕竟相差太远,学生往往不能很快理解文本所表达的内涵。在这些抽象的课文教学中,教师应该顺应教材的安排,合理地把“图”和“文”结合起来,从文所对应的图入手,读文再赏图,图文对照,突破难点来引导学生理解美、再现美。在学生没有更多的耐心听教师讲解时,也许一张小小的插图就会把他们的目光紧紧地吸引,在学生百思不得其解时,也许一次形象的演示会使他们豁然开朗。课堂的学习氛围一下子就被多媒体形象的演示而带动起来,在优化教学效果的同时,大大提高学生的学习兴趣。

2 运用信息技术辅助品味诗词,提升学习能力

俗话说:书读百遍,其义自现。但朗读本身是枯燥的。课堂上教师往往要求学生对文本朗读一遍又一遍,学生却往往有口无心,没有多大的收获。如果学生一味地被动地重复朗读,不仅在一定程度上束缚了思维的发展,而且大大降低了学习语文的能力。而信息技术的网络教学则为学生提供了大量丰富的学习资源,让学生通过视频、演示、情境等资源整合,快速掌握文本新授的内容,而且可以进一步补充和扩展文本学习的内容。利用获取、提炼、整合信息的优势,教给学生学习文本的方法,培养学生个性化理解表达的习惯,提升学生学习的能力。

在教学毛泽东诗词《卜算子·咏梅》时,笔者首先利用多媒体营造读书的氛围。一曲古典的古筝独奏,一幅古朴的梅花写意,富有韵味的诗词诵读,把学生带入“诗与画”的境界,学生屏住呼吸感受那份近似于天籁般的雅致和韵味。接着是让朗朗的书声回到课堂。学生一边听着,一边不由自主地跟着那音那调吟诵起来,品味起诗词的那韵那味来。其次,调动学生感官突破难点——悟好一个“俏”、一个“笑”。教师运用多媒体出示的一幅幅梅花写真集,学生从颜色、形态上对“俏”便了然于心了,联系它开花的季节环境,自然不难理解梅花顽强、不居功自傲的品质,一个“笑”的品味也就水到渠成了。在学习过程中有学生惊喜地告诉笔者:“老师,我知道词的最后一句为什么用女字旁的她了,那是作者把梅花比作了一个美丽的小姑娘……”

最后是在欣赏同主题整合资源中积累延伸。笔者与学生一起通过网络教学回忆《墨梅》《梅花》等描写梅花的诗词,欣赏毛泽东的创作手迹、梅兰芳大师演唱的《卜算子·咏梅》,学生专注地看着行云流水般的墨痕,聆听着字正腔圆的国粹,课后延伸有多丰富是可想而知了,一颗学习国学的种子已经在学生的心田悄然萌芽了。

整个教学过程中没有繁琐的分析,重在学生的朗读与品味,却让每一个学生含英咀华,口齿留香。关键在于教师根据学生的认知需求巧妙地运用信息技术手段,发挥多媒体技术具备的强大整合能力这一优势,教给学生学习古诗的方法,多角度地引领学生真正走进古诗的意境,提升学生的学习能力。

3 运用信息技术辅助诠释主题,发挥自主作用

小学生有意识注意时间短,课堂上他们时而高举小手,时而沉浸在搞自己“小发明”的专注中。因此在语文教学中,必须从他们的年龄特征入手,结合文本的特点,巧妙地结合多媒体技术开辟自主学习的空间。在把知识形象化、生动化的同时,更多地让学生积极探索、主动参与、体验成功,调动其主观能动性,有效发挥自主学习的作用。

在教学苏教版十一册课文《最大的麦穗》时,笔者改变以往课堂上如喋喋不休的慈母般一遍又一遍地重复文章的中心,甚至要求学生一字不差地朗读背诵,而是突发奇想,让学生自己来总结课文的中心,利用班级博客展示他们的学习成果。

教学已接近尾声:

师:同学们,苏格拉底的弟子们听了老师的话,悟出了怎样一个道理?

(生自读。)

师:俗话说“英雄所见略同”,同学们,你们悟出了什么道理呢?

(学生一听,开始议论起来。)

师:英雄们,请把你们的所见用一句话写下来,回家后请发表在班级博客中,别忘了在句子后面签上你的大名!还可以在你欣赏的名言后面点赞,评选出我们班的“十佳名言”。

第二节课上,当笔者打开班级博客时,一阵如炸开锅似的喧闹后,教室里鸦雀无声,在学生齐刷刷的目光中,像模像样的名人名言已跃然出现在投影仪的屏幕上,学生不约而同地念起来:

做事万万不可犹豫,否则你将一事无成。——于天琦

只有人等机会,没有机会等人。——蒋思怡

每个人都有自己的理想,但抓住眼前的机会才是最重要的。——任亚凤

……

视频信息的语义挖掘研究 第4篇

1 国内外研究现状

视频信息的语义挖掘已成为研究热点, Zhang等人针对视频的多模态性利用稠密子图发现算法对视频信息进行语义挖掘。Xu等人针对新闻视频, 根据其伴随文本及其关键帧多模异构的特征, 建立多翼Harmonious模型, 随后进一步研究隐含主题与观测输入之间的双边依存关系, 将其扩展为双层随机场模型。Zhong以概率潜在语义为出发点, 针对多模态关联上下文问题提出图正则化的多模态连续概率潜在语义分析模型。Chang等人提出隐含语义相关性分析进行视频语义挖掘, 还提出了利用Word Net进行语义相似度度量, 柯佳根据视频事件中的时序关联规则提出了语义挖掘算法。Barbara André等人进行了视频语义相似度相关研究。Nan建立了概念与语义查询的映射关系进行语义信息的自动提取。

2 视频语义挖掘关键技术

2.1 视频语义提取技术

目前, 视频语义提取技术主要有三种:支持向量机、条件随机场、关键帧加权融合。

2.2 视频隐含语义相关性分析技术

视频属于非结构化数据, 蕴含丰富的语义信息, 挖掘其内在关联性对提高视频语义检索的检全率及检准率有深远的意义。语义的相关性即指视频数据之间存在语义概念的多义和同义现象。为了消除语义之间隐含的某种关联结构, 要对提取的语义进行相关性分析, 将庞大的视频语义库分解降维。

2.3 视频语义相似性度量

视频图像蕴含多种语义概念关系, Chang等人借助Word Net的树形概念层次结构, 是因为概念树中两个结点之间有且仅有一条路径, 路径的长度可以作为这两个概念的语义相似性的一种度量。对于视频流, 首先进行镜头边界检测, 利用视频分割算法, 如像素法、直方图法、X2直方图法、X2直方图分块法、边缘轮廓变化率法等方法将视频分割成短镜头, 然后利用运动目标跟踪算法, 如均值漂移算法、基于Kalman滤波的目标跟踪、基于粒子滤波的目标跟踪、基于对运动目标建模的方法等算法提取出视频对象的原始运动轨迹, 并选取其中最长的一条进行处理、提取信息, 包括运动方向、运动轨迹曲线斜率等。最后对该运动行为进行手工标注以提取出视频动词语义标签。

目前主流的音频分类算法有三种:一是基于规则的音频分类算法, 需要根据先验知识针对不同的音乐确定分类规则和不同的阈值, 通用性弱, 主观性强。二是基于学习的音频分类算法, 利用机器学习的方法, 如混合高斯模型、反向BP神经网络和K近邻训练模型等算法进行音频的分类。三是基于统计模型的音频分类算法, 该方法不需要实现设定阈值, 对复杂的音频处理效果更好, 也是目前研究的重点和热点, 包括支持向量机 (SVM) 和隐马尔科夫链 (HMM) 两种常用的统计模型。

3 结语

目前看来, 将以上的视频语义提取分析技术结合用户的相关反馈, 同时注意收集用户的意见和评论, 尤其是对视频网站的意见挖掘对视频语义准确性的提高显得尤为重要。而针对视频的意见挖掘不仅是一个新的研究方向, 也是下一个阶段的研究重点, 这将会使得视频检索更贴合实际应用, 获得更高的用户满意度。

摘要:大数据时代, 互联网每天都要产生和处理海量的视频信息资源。目前, 视频信息的语义挖掘、分析和处理技术是研究的重点和难点, 这对提高检索准确率和查全率具有十分重要而深刻的意义。基于此, 针对视频检索中视频低层特征和高层语义出现的“语义鸿沟”问题进行了视频信息的语义挖掘研究, 分析了视频信息语义挖掘中关键的环节——语义提取技术的现状和各种视频语义提取方法的优缺点, 并确定了未来的研究方向。

关键词:视频信息,语义鸿沟,语义挖掘,语义提取

参考文献

[1]张师林, 李和平, 张树武.稠密子图发现的视频语义挖掘方法[J].计算机工程与应用, 2011, 47 (33) :13-14.

[2]徐新文, 李国辉, 付畅俭.基于MWH模型的新闻视频语义挖掘[J].计算机工程, 2009, 35 (17) :219-222.

[3]钟岑岑.基于上下文的音视频标注研究[D].北京:北京交通大学, 2014.

[4]常军, 胡瑞敏, 王中元, 等.基于隐含语义相关性分析的视频语义检索[J].武汉大学学报, 2011, 36 (10) :1256-1259.

[5]常军.基于语义的视频内容检索中模糊不确定性问题研究[D].武汉:武汉大学, 2011.

[6]柯佳.基于语义的视频事件检测分析方法研究[D].镇江:江苏大学, 2013.

[7]Barbara André, Tom Vercauteren, Anna M.Buchner, etc.Learning Semantic and Visual Similarity for Endomicroscopy Video Retrieval[J].IEEE TRANSACTIONS ON MEDICAL IMAGING, 2012, 31 (6) :1276-1287.

信息挖掘 第5篇

新浪舆情通-政务舆情大数据服务平台,为政企用户提供舆情监测、预警、分析、报告

等服务。

2016年我国二手车成交量突破1000万辆,交易额近6000亿。按照业内人士预测,二手车的市场规模未来将达到万亿级别。

庞大的市场也吸引了众多二手车电商布局。数据显示,2014年我国共有78个二手车电商平台成立,2017年二手车电商融资额屡创新高,上半年整个二手车电商行业融资金额近90亿元人民币,成为投资领域的热门行业。

年轻用户对二手车电商关注高

据新浪舆情通大数据分析显示,今年以来,全网关于二手车电商的信息量为75.4万条,敏感信息占比14.20%,北京、广东地区关于二手车电商的信息量明显高于其他地区。

在微博信息地域分布方面,山东、浙江、江苏、广东、安徽网友的活跃度较高。在发布设备分布方面,通过iPhone发布的二手车电商相关信息占比超过80%,可见年轻的网友对二手车电商的关注度较高。

据新浪舆情通对我国30个主要二手车电商平台大数据分析显示,今年瓜子二手车和优信二手车的网络传播热度指数明显高于其他平台,位列前两位。此外,热度排名前四位的二手车电商均为2C模式运营的平台。

瓜子二手车品牌热度高

在资本的加持下,二手车电商于2015年下半年开始了惨烈的营销大战,占领了电视、视频网站、地铁、公交、电梯间等平台的媒体资源。据艾瑞咨询数据显示,2015年二手车电商广告花费超过8亿元,2016年上涨50%至12亿元。

从瓜子二手车、优信二手车、人人车近7个季度的广告热度来看,据新浪舆情通大数据分析显示,2016年瓜子二手车的广告热度一直领先优信二手车和人人车,在2017年前两个季度则被优信二手车超越。

优信二手车广告热度从2016年第四季度开始增幅明显,2017年第一季度广告热度环比增长89%,第二季度环比增长84%。

人人车的广告热度在2016年第三、第四季度中还高于优信二手车,但从2017年第一季度开始便被优信二手车超越,整体来看,人人车的广告热度从2016年第三季度开始呈下行趋势。

从品牌热度来看,近7个季度来,瓜子二手车的网络传播热度指数一直高于优信二手车和人人车。2017年,优信二手车热度同比增长明显,第三季度网络传播热度指数同比增长达111%。人人车2017年前两个季度的网络传播热度指数同比略有增长,但第三季度则同比下降14%。

综合两组数据来看,品牌广告热度的起伏和品牌热度的涨跌有较强相关性,但在2016年第三季度,优信二手车在广告热度环比增长11.2%的情况下,品牌热度却环比下降28.6%,这种广告热度上涨而品牌热度下降的情况在瓜子二手车方面并未出现,相反,在2016年第二季度和2017年第一季度中,瓜子二手车在广告热度下降的情况下品牌热度逆势增长。

此外,在2017年前两个季度中,在广告热度略高于瓜子二手车的情况下,优信二手车的品牌热度却一直低于瓜子二手车,由此也能看出,与优信二手车相比,瓜子二手车的广告宣传对品牌热度的提升贡献更大。

优信二手车品牌热度同比增长显著

虽然优信二手车在2017年前三个季度中的网络传播热度指数略低于瓜子二手车,但优信二手车热度的同比增幅则远高于瓜子二手车,品牌热度增幅连续三个季度增长;瓜子二手车的热度增幅则在2017年第三季度出现了下滑,2017年第一季度甚至出现了负增长。

在微博运营方面,优信二手车的优势也较为明显。截至11月20日,优信二手车官方微博粉丝数超过10万,是瓜子二手车的二倍多;在微博品牌信息量方面,据新浪舆情通大数据分析显示,今年以来,微博平台关于优信二手车的信息量为8.5万条,是瓜子二手车的三倍多,负面信息占比也低于瓜子二手车。

广告营销在提升品牌热度的同时,也被认为是二手车电商倒闭的罪魁祸首。9月29日晚,C2B二手车电商“车来车往”宣布公司因亏损严重而导致资金链断裂,将进入破产清算程序。据数据显示,在2015年获得投资的20家二手车电商平台中,已有15家陆续倒闭。一面倒闭一面融资,已成为目前二手车电商市场的常态。

虽然我国二手车市场规模达6000亿,但二手车电商的渗透率只有10%左右,绝大多数二手车电商仍处于亏损状态,如何减少“烧钱”并找到可持续的盈利模式正在考验着众多二手车电商平台。

医疗信息系统数据整合与挖掘探讨 第6篇

关键词:数据整合;数据挖掘;数据仓库;医疗信息系统

中图分类号:TP311.13

许多非常有价值的信息资源蕴含在医疗信息系统的医学数据中,这些资源对于实际病例的医疗诊断以及医学方面的研究发展具有重要意义。然而大多数医学机构以及人员对这些数据的利用只局限于简单的数据录入、查询、修改、删除等,其并没有对收集的数据进行系统的分析研究从而得出普遍性的规律,因此很难对实际病例的后继诊断提供有效的科学性决策辅助;针对目前的情况,在数据整合与数据挖掘技术已经日渐成熟[1]的背景下,将其应用于医学,进而对海量的医学数据进行分析并总结各种医治方案的疗效,可以为医院的决策管理、医疗和科研服务,将极大地帮助医生对于明确诊断、治疗病人及促进疾病的研究[2]。

1 数据整合在医疗信息系统中的应用

数据整合指通过共用或者合并两个甚至更多的应用数据,创建具有更多功能应用的过程。传统的商业应用主要是面向对象,他们依据持续的数据结构为商业实体及过程建立模型。此时逻辑方式是通过数据共用或合并进行整合。

目前流行的数据仓库设计模型有以下三类:(1)概念模型。其指的是从客观世界到主观认识的映射,服务于特定的目标设计系统;(2)逻辑模型。其指的是数据仓库的主题的在逻辑上的实现,也就是每个主题所对应的关系表的关系模式。(3)物理模型。逻辑模型的实现依据物理模型,如数据的索引策略、数据存储结构、数据的存储策略与存储分配优化等。下面以医疗保险信息系统与中西医信息结合系统为例介绍数据整合在医疗信息系统中的应用。

1.1 医疗保险信息数据整合(Data Integration)。本文所指的数据整合技术主要指数据仓库技术。医疗保险的数据仓库技术中有三个重要概念:OLAP、ETL与数据仓库模型。

医疗保险信息数据整合的设计任务包括数据仓库设计、数据集市设计以及ETL设计三部分,下面进行详细分析:(1)数据仓库设计,医疗保险信息系统的数据仓库设计包含:物理模型设计与逻辑模型设计。物理模型设计的主要思路是增强数据仓库的性能与数据存储管理功能。逻辑模型设计的主要思路是以参保人为中心,反映参保人与账户、参保人与交易、参保人与机构、参保人与参保险种之间的关系;(2)数据集市设计,因为医保信息管理系统中数据仓库的数据量非常之大,所以加入在上面直接从事数据挖掘或OLAP处理,其效率将出现很大问题,因此就需要建立专门的数据挖掘数据集市和OLAP数据集市从而提高数据挖掘和OLAP的处理效率;(3)数据仓库技术的应用,目前在国内某市医疗保险信息系统中,已经存在数据库使用IBM Informix Dynamic Server V9.4 For Unix,使用HP RP8420小型机作为数据库服务器,使用HPUXVII操作系统系统,使用EMC CX500网络存储系统,使用CognosOLAP作为分析工具。

1.2 中西医学数据整合。其指的是将中医学与西医学的数据整合起来必需的结构体系。在中医的传统理论体系指导F所产生的各类数据包含着这些数据,如中医理、法、方、药,与西医病理、生化、放射、免疫、影像等诊断治疗数据。中西医学数据整合框架指的是考虑如何实现将不同的数据类型、学科数据统一到医学数据中心。

不同的医疗机构对应着不同的学科、不同的数据结构。提出这些医疗机构的数据结构并转换成为XSD的形式可获得与数据中心之间的数据映射。通过Web将医疗机构产生的XML文档提交给医学数据中心,这样也能实现和其他医学数据中心之间的数据交换功能。医疗机构的XSD相对统一,这样能够实现医学数据的自动提交与处理从而实现数据中心数据的自动化集中功能。

2 数据挖掘在医疗信息系统中的应用

数据挖掘指的是从大量的、不完全的、模糊的、随机的实际数据中提取隐藏的、新颖但又是潜在存在用途的高级处理过程。数据挖掘是人工智能、数据库、可视化技术等多个学科交叉的领域。

医学数据挖掘的基本过程包括:(1)认清数目,确定业务对象清晰地进行问题定义是数据挖掘的重要一步;(2)数据准备,挖掘应用的数据并搜索所有与业务对象有关的内部和外部数据信息从而建立真正适合于挖掘算法的分析模型是数据挖掘成功的关键一步;(3)数据挖掘,对准备好的数掘进行挖掘除了选择合适的挖掘算法是重要一步;(4)结果分析,一般会利用可视化技术,使用的分析方法一般应根据数据挖掘操作而定;(5)知识应用,将分析获得的知识综合到业务信息系统的组织结构中去。

目前,医学数据挖掘主要应用领域包括以下几个方面:(1)医学信息系统处理。医院信息指的是医院等医疗机构的内部管理信息,包括设备、药械、财务以及以患者为中心的信息等。以初级操作为基础,对信息的数据关联性分析之后,实现对未来发生发展走向和辅助诊断资料的预测分析,其中包括药品的使用频率、某种疾病的发生以及治疗规律等;(2)医疗活动参考诊断。对历史数据的处理和挖掘之后发现出针对特定病例的典型规律。其一数据量很大,范围很广,因此这些规律具有较好的普遍适用性;其二,依据患者全面的指标信息和数据的记录等能够得到相对公正的诊断结果,去除人为因素的干扰之后,可以更加有利于医学治疗活动有效性的提高;(3)医疗质量信息管理。医疗机构不断提高的服务要求与质量效率问题日益被人重视。医疗质量的重要指标是可以用不同的数据指标来衡量的数据、标准与计划。利用数据挖掘技术,能够找到新的指数规律并验证有效性,在此基础上最大调整并改善质量方案。数据挖掘技术能够为发现提高临床质量潜力以及服务效率证据方面提供很大的帮助;(4)医学图像系统应用。此领域的主要应用为目组织的特性分析,也就是图像特性的自动提取与模式识别。比如在医学方面,CT,PET,SPECT这些诊断工具的应用越来越广泛,但是借助于数据挖掘技术医学图像分析的功能将会更加强大[3];(5)生物(DNA),人类24对染色体的基因测序已经完成,人类遗传研究已进入一个新的发展阶段。关联分析能够帮助找出样本中在同一时间出现的基因种类,有助于准确地发现基因间的交叉关系与致病规律,路径分析可以找到不同时段的致病基因的规律并提高药物治疗的效率。

3 结束语

医疗数据整合与数据挖掘是计算机技术、人工智能、统计学等和现代医学信息资源相结合的一门交叉学科,涉及面广,难度很大。伴随着数据库、人工智能等数据挖掘工具的不断进步,关联规则等理论研究的不断发展以及大型数据库和网络技术的推广与应用,必定还会有数据量更大、格式更多的医学数据出现。以上均表明了医学数据整合与数据挖掘技术的发展机遇和挑战并存,需要广大计算机、信息技术人员和医务工作者结合医学信息自身具有的复杂性与特殊性,寻找并选定适合医学数据类型本身的数据整合与数据挖掘工具,攻克并掌握好数据整合与数据挖掘处理中的核心技术,尽可能的使数据整合与数据挖掘技术在医学信息获取中的价值得到体现。随着理论研究的深入和更多实践摸索的出现,数据整合与数据挖掘技术将会在医学科研与教学、医院管理以及疾病诊断与治疗等方面发挥越来越重要的作用。

参考文献:

[1]张劲松.保险公司数据挖掘技术应用探索[J].商场现代化(学术版),2004(12):109-111.

[2]周爱华,郑应平,王令群.医学数据挖掘综述[J].中华医学实践杂志,2005(02):126-128.

[3]Wang ML,Wai L,Leung K S.Discovery knowledge from medical database using evolutjionary algorithms[J].IEEE Eng Med Biol Mag,2000(04):45.

作者简介:范一星(1968-),男,浙江杭州人,工程师,研究方向:计算机管理应用。

浅析网络信息挖掘技术及应用 第7篇

网络信息挖掘必须从数据挖掘(Data Mining)谈起。数据挖掘,是从大量数据中提取或“挖掘”知识,是从存放在数据库、数据仓库或其他信息库中的大量数据中提取人们感兴趣的知识,而这些知识是隐含的、事先未知的、潜在的有用信息。网络信息挖掘是指使用数据挖掘技术在WWW数据中发现潜在的、有用的模式或信息。近年来随着网络的不断发展,因特网目前已成为一个巨大的、分布广泛的和全球性的信息服务中心。从海量的网络信息中寻找有用的知识,早已成为人们的迫切需求。各种类似Google、Baidu等的搜索引擎也层出不穷,网络信息挖掘的应用在现实中不断体现。网络信息挖掘研究覆盖了多个研究领域,包括数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等。

网络信息挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策的风险。

1 网络信息挖掘面临的问题

Web的巨大、分布广泛和内容多样使得目前的网络信息挖掘面临着众多问题和挑战。首先,对有效的数据仓库和数据挖掘来说,Web上的数据过于庞大。而且,Web上的数据具有极强的动态性,不仅数量增长快而且更新十分迅速。但是面对如此大量的Web上的信息,有调查却表明:99%的Web信息对于99%的用户是无用的。目前中英文搜索引擎均存在查准率、查全率不高的现象,这种现状无法适应用户对高质量的网络信息服务的需求;同时电子商务以及各种网络信息服务迅速兴起,原有的网络信息处理与组织技术无法赶上这样的发展趋势。另外,由于Web页面缺乏同一的结构,其结构又比任何传统文本文档都要复杂,所以要实现基于Web的数据挖掘和信息检索在目前来说是非常具有挑战性的。

2 网络信息挖掘的步骤

与传统数据和数据仓库相比,Web上的信息是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。典型网络信息挖掘分为如下四个步骤,如图一所示。

(1)资源发现,即检索所需的网络文档;

(2)信息选择和预处理,即从检索到的网络资源中自动挑选和预先处理得到专门的信息;

(3)概括化,即从单个的Web站点以及多个站点之间发现普遍的模式;

(4)模式分析,对挖掘出的模式进行确认或者解释。

3 网络信息挖掘的分类

根据挖掘的对象不同,网络信息挖掘可以分为网络内容挖掘(Web content mining)、网络结构挖掘(Web structure mining)以及网络用法挖掘(Web usage mining)。

3.1 网络内容挖掘

网络内容挖掘主要包括文本挖掘和多媒体挖掘两类,其对象包括文本、图像、音频、视频、多媒体和其他各种类型的数据。这些数据一般由非结构化的数据(如文本)、半结构化的数据(如HTML文档)和结构化的数据(如表格)构成。对非结构化文本进行的网络信息挖掘,称为文本数据挖掘或文本挖掘,是网络信息挖掘中比较重要的技术领域。网络信息挖掘中另一个比较重要的技术领域是Web多媒体数据挖掘。目前,关于网络内容挖掘的研究大体以Web文本内容挖掘为主。Web内容挖掘一般从资源查找和数据库两个不同的方面进行研究。

从资源查找的方面来看,网络内容挖掘的任务是从用户的角度出发,怎样提高信息质量和帮助用户过滤信息,主要是对非结构化文档和半结构化文档的挖掘。非结构化文档主要指Web上的自由文本,如小说、新闻等。Web上的半结构化文档挖掘指在加入了HTML、超链接等附加结构的信息上进行挖掘,其应用包括超链接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。

从数据库的观点进行网络内容挖掘主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不只是简单的基于关键词的搜索,这要通过找到Web文档的模式、建立Web知识库来实现。

对文本数据进行挖掘的文档分类和模型质量评价方法与传统的数据挖掘方法相类似,分类算法主要应用朴素贝叶斯(Naive Bayes Classifier)。对模型的质量评价主要有分类的正确率(Classification Accuracy)、准确率(Precision)和信息估值(Information Score)。

Web多媒体数据挖掘从多媒体数据库中提取隐藏的知识、多媒体数据关联、或者是其他没有直接储存在多媒体数据库中的模式。多媒体数据挖掘包括对图像、视频和声音的挖掘。多媒体挖掘首先进行特征提取,然后再应用传统的数据挖掘方法进行进一步的信息挖掘。对网页中的多媒体数据进行特征的提取,应充分利用HTML的标签信息。

3.2 网络结构挖掘

由于有用的知识不仅包含在Web页面的内容中,而且也包含在页面的结构中。所以网络结构挖掘是从站点的组织结构和页面结构中推导出知识,对Web页面间的结构进行挖掘,找出数据链的结构进行分类、聚类,从而发现页面间的关系,进而改进搜索引擎的性能。

网络结构挖掘的对象是Web本身的超链接,即对Web文档的结构进行挖掘。Web结构挖掘的基本思想是将Web看作一个有向图,其顶点是Web页面,页面间的超链就是图的边。然后利用图论对Web的拓扑结构进行分析。常见的算法有HITS(Hypertext Induced Topic Search)、PageRank、发现虚拟社区的算法、发现相似页面的算法、发现地理位置的算法和页面分类算法。Web结构挖掘的算法一般可分为查询相关算法和查询无关算法两类。查询相关算法需要为每一个查询进行一次超链分析从而进行一次值的指派;而查询独立算法则为每个文档仅进行一次值的指派,对所有的查询都使用此值。在Web结构挖掘领域最著名的算法是HITS算法和PageRank算法,它们分别是查询相关算法和查询独立算法的代表,它们的共同点是使用一定方法计算Web页面之间超连接的质量,从而得到页面的权重。著名的Clever和Google搜索引擎就采用了该类算法。

3.3 网络用法挖掘

即Web使用记录挖掘,在新兴的电子商务领域有重要意义。它通过挖掘相关的Web日志记录,来发现用户访问Web页面的模式,通过分析日志记录中的规律,可以识别用户的忠实度、喜好、满意度,可以发现潜在用户,增强站点的服务竞争力。Web使用记录数据除了服务器的日志记录外还包括代理服务器日志、浏览器端日志、注册信息、用户会话信息、交易信息、Cookie中的信息、用户查询、鼠标点击流等一切用户与站点之间可能的交互记录。可见Web使用记录的数据量是非常巨大的,而且数据类型也相当丰富。根据对数据源的不同处理方法,Web用法挖掘可以分为两类,一类是将Web使用记录的数据转换并传递进传统的关系表里,再使用数据挖掘算法对关系表中的数据进行常规挖掘;另一类是将Web使用记录的数据直接预处理再进行挖掘。Web用法挖掘中的一个有趣的问题是在多个用户使用同一个代理服务器的环境下如何标识某个用户,如何识别属于该用户的会话和使用记录,这个问题看起来不大,但却在很大程度上影响着挖掘质量,所以有人专门在这方面进行了研究。通常来讲,经典的数据挖掘算法都可以直接用到Web用法挖掘上来,但为了提高挖掘质量,研究人员在扩展算法上进行了努力,包括复合关联规则算法、改进的序列发现算法等。

根据数据来源、数据类型、数据集合中的用户数量、数据集合中的服务器数量等将Web用法挖掘分为五类:

(1)个性挖掘:针对单个用户的使用记录对该用户进行建模,结合该用户基本信息分析他的使用习惯、个人喜好,目的是在电子商务环境下为该用户提供与众不同的个性化服务。

(2)系统改进:Web服务(数据库、网络等)的性能和其他服务质量是衡量用户满意度的关键指标,Web用法挖掘可以通过用户的拥塞记录发现站点的性能瓶颈,以提示站点管理者改进Web缓存策略、网络传输策略、流量负载平衡机制和数据的分布策略。此外,可以通过分析网络的非法入侵数据找到系统弱点,提高站点安全性,这在电子商务环境下尤为重要。

(3)站点修改:站点的结构和内容是吸引用户的关键。Web用法挖掘通过挖掘用户的行为记录和反馈情况为站点设计者提供改进的依据,比如页面连接情况应如何组织、哪些页面应能够直接访问等。

(4)智能商务:用户怎样使用Web站点的信息无疑是电子商务销售商关心的重点,用户一次访问的周期可分为被吸引、驻留、购买和离开四个步骤。Web用法挖掘可以通过分析用户点击流等Web日志信息挖掘用户行为的动机,以帮助销售商合理安排销售策略。

(5)Web特征描述:这类研究通过用户对站点的访问统计各个用户在页面上的交互情况,对用户访问情况进行特征描述。

上述三种网络信息挖掘类型的比较如表一所示,表一中分别从五个方面比较了三类网络信息挖掘。

4 网络信息挖掘的应用前景

在国外,数据挖掘技术已经广泛地应用于金融业、零售业、远程通讯业、政府管理、制造业、医疗服务以及体育事业中,而它在网络中的应用也正在成为一个热点。网络信息挖掘的应用涉及到电子商务、网站设计和搜索引擎服务等众多方面,下面主要从这三个方面介绍其应用。

4.1 电子商务

运用网络用法挖掘技术能够从服务器以及浏览器端的日志记录中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而作出预测性分析。例如通过评价用户对某一信息资源浏览所花的时间,可以判断出用户对资源兴趣如何;对日志文件所收集到的域名数据,根据国家或类型(.com,.edu,.gov)进行分类分析;应用聚类分析来识别用户的访问动机和访问趋势等。这项技术已经有效地运用在电子商务之中。

4.2 网站设计

通过对网站内容的挖掘,主要是对文本内容的挖掘,可以有效地组织网站信息,例如采用自动归类技术实现网站信息的层次性(hierarchy)组织;同时可以结合对用户访问日志记录信息的挖掘,把握用户的兴趣,从而有助于开展网站信息推送服务以及个人信息的定制服务。目前PDA(Personal Digital Assistant,个人数字助理)以及Cellular phone(移动电话)都已经可以直接接受网络信息服务。这些设备的显示界面较小,因而网站面向这些设备的设计就应当突出精品化、个性化的特点,而这类特色推送服务就必须采用网络信息挖掘技术。

4.3 搜索引擎

网络信息挖掘技术在搜索引擎上的应用我们在上一节中已经作了一些介绍。Google搜索的最大特色就体现在它所采用的对网页Links信息的挖掘技术上。而实际上,网络信息挖掘是目前网络信息检索发展的一个关键。如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索。同时,通过用户所使用的提问式(query)的历史记录的分析,可以有效地进行提问扩展(q u e r y expansion),提高用户的检索效果(查全率,precision;查准率,recall)。另外,运用网络内容挖掘技术改进关键词加权算法,提高网络信息的标引准确度,从而改善检索效果。

5 结束语

Web数据挖掘是当今世界上的热门研究领域,其研究具有广阔的应用前景和巨大的现实意义。目前国内的Web数据挖掘尚处于学习、跟踪和探索阶段,Web数据挖掘有许多问题有待于进一步的研究和深化。随着电子商务的兴起和迅猛发展,未来网络信息挖掘的一个重要应用方向将是电子商务系统。而与电子商务关系最为密切的是用法挖掘(Usage Mining),也就是说在这个领域将会持续得到更多的重视。另外,在搜索引擎的研究方面,结构挖掘的研究已经相对成熟,基于文本的内容挖掘也已经有许多研究,下一步将会有更多的研究者把多媒体挖掘作为研究方向。

参考文献

[1]Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2004:3-4.

[2]涂承胜,鲁明羽,陆玉昌.Web挖掘研究综述[J].计算机工程与应用,2003(10):91-93.

[3]薛鸿民.Web数据挖掘技术研究[J].现代电子技术,2006(15):99-101.

[4]高祥华.Web2.0中的技术及应用[J].中国科技信息,2006(13):127-128.

[5]陈莉,焦李成.Internet/Web数据挖掘研究现状及最新进展[J].西安电子科技大学学报(自然科学版),2001(28).

基于句法模式的评教信息挖掘 第8篇

评教信息是指学生在学期末对所修课程的课堂教学情况评价,评教信息的收集与反馈也是各大高校教务系统中必不可少的一环。学生通过互联网在线评教,填写主观评价,然而这些评价数据的堆积与冗余,往往导致教师无法直观地从学生的课堂评价中总结不足,以致于无法达到帮助教师提高教学质量的目的,同时也不利于学校教务系统正确、有效地评价课堂的教学质量和教学效果。因此,如何在大量的评教数据中有效提取出有价值的关键信息,方便教师直观地了解自己课堂教学的优缺点,从而改进教学方法提高课堂教学质量是需要研究的课题[1]。

本研究面向的是教务处在线评教系统中,学生对所修课堂的教学评价,不同于以往的产品评论,评教信息完全来自于学生群体。学生的评论具有主观色彩浓烈,情感倾向不明显,没有专业词汇但口语化的词汇和表情符号较多等特点。评论挖掘有4个主要的子任务:(1)主题的识别即识别评价的焦点或对象;(2)评论持有者的识别即识别评论表述的作者;(3)陈述的界定即确定评论表述的范围;(4)情感倾向分析即分析评论的极性[2]。总的来说,评论就是评论持有者针对某主题发表的具有一定情感倾向的陈述。在评教信息中,评论的主题包括教学态度、教学内容、教学方法、教学效果、教师品行、教学纪律、课堂氛围等等,评论的持有者显然是所有选修该课堂的学生。研究主要集中于主题的识别与情感倾向分析中的极性词抽取,将这两者构造成搭配词对并采用可视化的方式显现。

对于评论挖掘中主题词与情感词搭配对的抽取目前主要是基于模式匹配或规则的方法。Bloom等人[3]基于依存句法分析的结果,人工制定出31条依存规则,并使用所制定的依存规则对测试数据进行验证,从而抽取搭配对;Feng等人[4]采用在评论语料中手工标注出评价对象和对应评价词的方法,利用语法分析工具获取评价对象与评价词之间的语法规则,并通过规则识别搭配对,但是由于他们的方法人工成本过高导致覆盖率较低。赵妍妍等人[5]基于短语句法分析结果,自动构建句法路径来表示评价搭配模式,然后采用基于编辑距离的模糊匹配方法对句法路径进行匹配,从而识别搭配词对,此方法虽然在英文语料上取得了较好的效果,但由于中英文的句法差异较大,移植到中文语料中很难取得理想的效果。

针对上述方法存在的问题,本研究提出了一种基于句法模式的主题词与情感词词对的抽取方法。

2 基于句法模式的主题词与情感词词对识别

2.1<主题词,情感词>对的抽取

通过对真实评教信息中出现的主题词与情感词的观察分析,本研究发现主题词与情感词在句子内部存在一定的依赖关系。如:“要点清晰,讲课生动详实,启发性强”中想要抽取的词对是:<要点,清晰>,<讲课,生动详实>,<启发性,强>,而其中“要点”是名词,“清晰”是修饰“要点”的形容词,两者构成了主谓结构;“讲课”是动词,“生动详实”是“讲课”宾语,两者构成了动宾结构;“启发性”与“强”之间则构成的是定语结构。本研究正是通过识别主题词与情感词之间的句法模式,从而提取出两者构成搭配词对。

2.2 构建句法分析树

一般来说,一个句子虽然表面上呈现的是词语的线性排列,但通过句子成分的细分,可以将本来的线性排列转变成具有一定层次的树形结构。本研究利用的是宾夕法尼亚大学的U-Penn汉语树库[6],它是一个包含了100万词的经过句法标注的语料库,该树库基于句子中的短语结构,对句子中主要句法成分的语法功能进行了标注,具有语料更新速度快、加工深度较深等特点,能很好地识别句子中的句法成分,利用该树库可以构建每条评论语句的句法分析树。

2.3 提取关键候选词对

对于每条评教信息,如果所抽取的<主题词,情感词>之前没有出现过则将其存储入词对集合中,若已经出现过则在相应的词对频数上加一,以此统计出该课堂评教信息中的所有词对。主题词为“老师”的词对出现次数较多且情感词相近,如:<老师,好>、<老师,负责>、<老师,认真>等,对于这些主题词相同情感词相近的词对可被认为表达的是同一概念,取其一作为代表记入关键候选词对中即可。为了提高关键候选词对的抽取效果,本研究采取的抽取算法如下:

设w={w1,w2,w3,....,w4}是词对集合,w1=<s1,e1>是一个<主题词,情感词>词对,这个词对出现的频数记为x1,故集合w也可定义为:w={<s1,e1>:x1,<s2,e2>:x2,<s3,e3>:x3,.....,<sn,en>:xn}

(1)输入候选词对序列w={w1,w2,w3,....,w4};

(2)选择候选词对中的词对w1,若集合T(T初始为空)为空或T中没有与s1相同的主题词则将w1放入集合T中;若T集合中存在与s1相同的主题词,则转到3);

(3)计算这两个相同主题词的情感词相似度,若相似度大于给定的上界阈值,则将频数小的词对的频数加到频数大的词对的频数上;若相似度小于给定的下界阈值,则表明这两个情感词呈相反极性,频数大的词对的频数修改为与另一词对的频数之差,另一词对的频数修改为零。将频数大的词对存进T中,频数小的词对不计入T中;

(4)重复上述的2、3步骤直到所有候选词对遍历结束,集合T中所得词对即为主题词无重复的关键候选词对。

2.4 计算候选词对综合权重

在得到候选关键词对后,本研究发现,一些诸如:“老师”、“学生”、“上课”等比较常见的不具有代表性意义的主题词所在词对的频数非常高,而其他一些更具有参考意义如“课堂教学”、“课堂互动”、“要点”等主题词所在词对的频数较低,所以为了使抽取的关键词对更具有参考价值,本研究采用TF-IDF的改进算法计算关键候选词对的综合权重,从而突出更具有参考意义的词对。步骤如下:

(1)计算每个候选关键词对的TF值:

(2)计算每个候选关键词对的IDF值:

(3)计算每个候选关键词对的综合权重:

综合权重(Weight)=TF*IDF

(4)设置综合权重阈值,超过阈值的为关键搭配词对。

2.5 处理过程

本研究基于句法模式的评教信息挖掘,包括评教数据预处理、构建句法分析树、提取候选关键词对、计算综合权重进一步筛选出关键词对、可视化呈现关键词对等主要步骤。处理过程如下:

(1)分词和词性标注。本研究利用NLPIR分词工具结合Java开发的分词模块对每条评教信息进行分词和词性标注,所得结果作为步骤2的输入。

(2)将已经分词并进行了词性标注的句子,结合树库通过识别句子成分构建出句法分析树。

(3)提取句法分析树中的主谓结构、定语结构以及动宾结构的<主题词,情感词>词对。

(4)提取候选关键词对,通过计算词对的综合权重得到关键词对。

(5)将关键词对通过词云可视化的方式呈现。

3 实验结果与分析

本研究从教务处在线评教系统的数据库中获取到若干课堂的评教信息作为语料,评价指标为同类实验中常用的评价指标———准确率、召回率和F值。本研究的实验结果达到准确率为91%,召回率70%,F值83%,结果比较令人满意。

4 结语

在数据挖掘领域中,主题词与情感词的抽取是一个基础而又重要的任务。针对这个任务,本研究以评教数据作为挖掘语料,提出一种基于句法模式的抽取方法。此方法先是根据句法成分构建句法分析树,再匹配主谓结构、定语结构和动宾结构以抽取候选<主题词,情感词>搭配词对,计算候选关键词对的综合权重得到关键搭配对,最后通过词云可视化的方式将关键词对显示。实验证明此方法取得了较好的效果。

参考文献

[1]马希荣.数据挖掘技术在教学评价中的应用[J].计算机工程与应用,2003,(1):52-54.

[2]朱征宇.基于语法模式的产品评论主题词和极性词提取[J].重庆理工大学学报,2010(5):86-90.

[3]Bloom K,Garg N,Argamon S.Extracting appraisal expressions[C].New York:Proceedings of NAACL HLT,2007:308-315.

[4]Feng S,Zhang M,Zhang YX,et al.Recommended or not recommended review classification through opinion extraction[C]//Washington:The 12th International Asia-Pacific Web Conference,2010:350-352.

[5]赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848.

如何挖掘题目中隐含的解题信息 第9篇

关键词:数学教学,隐含信息,解题能力,教学效果

数学教学一个很重要的任务就是解题思路的探究, 著名数学教育家波利亚曾指出:“掌握数学意味着什么, 就意味着解题。”所以, 如何挖掘题目中隐含的解题信息是数学解题能力提高的关键。在解数学题时可以从数学题中的概念、性质、公式、式子、图形、符号和语义等所提供知识的产生过程以及结构特征获得信息。因此, 教学时教师要教会学生善于捕捉和挖掘解题过程中隐藏起来的信息, 让学生认真理解题意, 正确的确定解题思路, 提高解题速度和准确率, 从而达到提高课堂教学效果之目的。下面是我在教学中的几点肤浅的体会。

一、从公式的产生过程中挖掘解题信息

有些题目用公式直接求虽然不难, 但用知识的产生过程解题有时更直接、简单。如二项式定理

学生需要掌握:

(1) Cn0, Cn1, Cn2…Cnr…Cnn系数关系的来历或含义。

(2) 二项式展开式的通项公式。

题目1. (2006年全国理 (13) )

题目很简单, 学生利用通项公式可求。

思路1, 利用通项公式

再令40-5r=0可得r=8∴常数为8C10=45。若抓住展开式的每一项产生过程会使解题更方便。于是学生出现了思路2, 学生利用二项式展开式中“项”的产生过程方法就快速、简单准确求解。即10个括号中有2个括号取x4, 其余8个括号取x1, 积为常数。

∴C210 (x4) 2 (x1) 8, 系数为C210=45。

二、从概念和性质中挖掘解题信息

有些定义本身隐含着解题信息, 在教学时, 教师一定要引导学生剖析挖掘定义的内涵, 让学生明白定义的作用, 解题就不会出现错误。如奇偶函数的定义:如果对于函数的f (x) 定义域内的任意一个x, 都有f (-x) =-f (x) , 则称f (x) 为这一定义域内的奇函数。如果对于函数f (x) 的定义域内的任意一个x, 都有f (-x) =f (x) , 则称f (x) 为这一定义域内的偶函数。这两个定义中都隐含着x在定义域内, -x也在其定义域内, 因此本定义隐含的信息是函数的定义域关于原点对称是必要条件。所以, 在判断函数的奇偶性时, 首先求函数的定义域, 如定义域不关于原点对称就可判定该函数为非奇非偶函数。对定义的理解不深刻, 在解题时就会出现只考虑f (-x) =f (x) 和f (-x) =-f (x) 是否成立, 而不考虑定义域是否关于原点对称的前提条件。

题目2. (2008年四川) 已知双曲线C:9x2-9y2=1的左右焦点分别为F1、F2, P为C的右支上的一点, 且PF2=F1F2, 则△PF1F2的面积等于 ()

思路一:

以上两种方法对于一般的三角形的求解都能用, 但本题若抓住题目△PF1F2为等腰三角形的信息, 利用它的性质, 把PF2视为底边, 很快就会求出来。

思路三:

可见题目信息与不同数学知识的结合, 可能会形成多个解题方向, 但抓住题目中的等腰形性质解题, 就得到题目的最优解法。

三、从题目的隐含条件中挖掘解题信息

数学问题的条件很多不是直接给出而是隐含其中, 解题能力的强弱往往体现在学生能否从显性条件中观察发现隐性条件, 从而找到解决问题的最佳方法。如果学生不注意观察分析, 常常会思维受阻。

题目3. (2008年全国文22、理21)

双曲线的中心在原点, 焦点x在轴上, 两条渐近线分别为l1、l2, 经过右焦点F垂直于l1的直线分别交l1、l2于A、B两点, 已知OAAA、AAAB、OAAB成等差数列, 且BAAF与FAAA同向。

(1) 求双曲线的离心率。

(2) 设直线AB被双曲线所截得的线段的线段长为4, 求双曲线的方程。

思路一:

(1) 本题利用常规的思路考虑就是解方程组和求出A求出两点的坐标, 然后利用两点间距离公式可求得长度;再利用勾股定理可求得再由成等差数列可得到关于a、c的方程5a2-4c2=0进而求出离心率。本题的运算量比较大, 再加上运算的技巧性很强, 极易出现运算错误。

思路二:

该思路考查学生的综合能力, 如果学生的数学素养较弱, 本思路就不好想出来。

思路三:

(1) 若挖掘题目中隐含的信息, 双曲线的渐近线是关于y轴对称的, l1上的B点关于y的对称点B′在l1上, 且B、O、B′三点都在l2上, 问题很容易解决了。

可见有些数学问题如果能够深入观察、挖掘出解决问题起关键作用的隐含条件, 选择恰当的方法, 问题将迎刃而解。所以教师在平时教学中, 要注意引导学生用积累的数学知识经验去挖掘题目中隐含的条件, 帮助学生尽快确定正确的解题思路, 避免做题时走弯路浪费时间。

四、从题目的结构形式挖掘解题信息

好多的数学公式都具有对称美, 字母之间是和谐对称的, 如正弦定理和余弦定理。如果能挖掘这些定理的结构特征就可以帮助迅速确定解题方向。

题目4. (2009年全国高考17题)

在△ABC中, 内角A, B, C的对边长分别为a, b, c已知a2-c2=2b且sin Acos C=3cos Asin C, 求b。

由已知条件a2-c2=2b可知, 式子中的字母不具有对称性, 根据余弦公式中字母的对称特点可知化角不容易, 因此想到把这个sin Acos C=3cos Asin C式子中的角化为边是最佳解题思路。

五、从题目的条件和结论关系中挖掘解题信息

学生在做题前教师引导学生认真观察和审题, 挖掘题目的条件与结论之间的关系, 确定解题思路。

思路一:

思路二:

六、从题目隐含的数学思想中挖掘解题信息

有些数学题目蕴含着许多重要的数学思想 (方法) , 教师在引导学生探究习题解法时, 要教给学生如何提炼出这些东西, 并加以总结, 再将其用于解决一些习题中。这样学生就会学会运用出题人的思想进行探究性的学习。学会自己主动的探究独立性地进行思考寻觅, 从而真正地把握这种数学思想。

题目6. (2009年全国 (理21文22题) ) 如图, 已知抛物线E∶y2=x与圆M∶ (x-4) 2+y2=r2 (r>0) 相交于A、B、C、D四个点。 (1) 求r的取值范围; (2) 当四边形ABCD的面积最大时, 求对角线AC、BD的交点P的坐标。

两条曲线有交点的充要条件是它们组成的方程组有实数解。可见, 求曲线的交点的问题, 就是求由它们的方程所组成的方程组的实数解的问题。本题根据图形的对称性可知, 抛物线和圆有四个交点的问题转化为一元二次方程有两个正根的充要条件问题。体现了图形问题转化为代数问题来处理的转化思想。

七、从习题的提示挖掘解题信息

新教材的许多习题后面都有一些提示, 这些提示不仅对解决本题有直接的帮助, 而且还暗示帮助学生会解决类似的题目, 如课本复习参考题A组第13题:用二项定理证明5555+9能被8整除。 (5555+9= (56-1) 55+9) 这个提示表明, 解决这种整除性问题, 即化为含有除数 (式) 作为因数 (式) 解决。

题目7.今天是星期二, 过2100天后的那天是星期几?

如何在时政报道中挖掘民生信息 第10篇

关键词:时政,挖掘,民生,信息

时政新闻是媒体重要的新闻资源, 时政新闻代表着党和政府的权威声音, 是非常重要的新闻产品。无论是过去、现在或将来, 时政活动的电视报道始终都是电视新闻的重点, 并且始终在宣传中发挥着重大的作用。但是随着社会的发展, 生活越来越紧张, 人们需求的是一种轻松和娱乐的生活方式, 现在的一些时政报道, 特别是会议报道, 领导视察、调研活动等渐渐的不受观众欢迎, 这是因为记者没有把最有价值、群众最关心、最新鲜的内容表达出来, 观众们最需要的新闻信息常常混杂在会场、图像、名单、讲话中。多年来在新闻报道中形成了一些固定的模式, 严重影响了时政新闻的可看性, 更多的时政新闻在观众看来成了“流水账”、“记事簿”和“讲话稿”, 听起来索然无味, 以至于让观众敬而远之。然而, 时政报道是通过报道政务及重大活动来表述、传达党的方针、路线、政策和精神, 传达地方党委、政府的中心工作, 其内容关系全局, 关系国计民生, 因此, 对于媒体来说, 时政活动不但必须报道, 而且一定要报道好。这些都要求我们在时政报道上下功夫, 挖掘出亮点, 挖掘出民生信息。缩小领导与百姓之间的距离, 使观众认识到时政报道与百姓生活息息相关。这就对我们记者提出了新的要求。那么怎样才能做到这一点呢?

首先记者要善于平视, 时政报道中记者对领导、对群众态度要一致, 不能用过去的方法, 重视领导、轻视群众。其实, 领导者和机关部门的各种政务活动, 从根本上说都是为了老百姓的利益, 而领导下基层的考察、调研活动, 也往往都是带有一定针对性的活动, 通过了解民生、落实党的政策, 找到解决问题的办法。而记者采访报道的目的就是通过媒体报道架起政府与百姓联系的桥梁。记者要做到这一点, 就必须学会用平视、辩证的方法看事情, 学会换位思考, 跳出旧有的报道思维模式和套路, 把会议所报道的内容与百姓的生产、生活和思想情感联系起来, 把会议精神的报道做得更活、更生动。因此, 在进行时政报道采访时, 记者的视角应该是全方位的、平民化的。其中包括电视标题、导语、解说词等等, 缩短电视新闻与观众的距离。例如:获得2007年中国广播影视大奖的电视消息《胡锦涛与延安人民一起过新年》, 正是一个成功的典范。通过编辑记者的精心准备、悉心编辑, 把一条领导人的出行消息以一种亲和、轻松的形式展现出来, 把出行过程以一种亲近、现场的气氛营造出来, 带给观众的是喜庆的感觉和快乐的体验, 引发观众由表及里的深层感受, 自然地传递了新闻内涵信息。在洮南市实施的泥草房改造中, 市里开过会议之后, 记者就与市发改委及泥草房改造领导小组取得联系, 把老百姓不懂的事, 不明白的事收集起来, 通过访谈的形式让领导们给老百姓把党的政策解释得明明白白, 后续报道中, 领导视察泥草房改造中, 记者抓住了亮点, 在宽敞明亮的新房里, 农民与市领导亲切的交谈, 这些都很好的表现了记者时政报道中的民生意识、平民视角。

其次记者在报道中运用的语言文字要通俗化、口语化。由于时政报道地位特殊, 电视解说词往往容易出现只满足于机械、教条地照搬照抄会议或讲话内容的现象, 影响了报道的指导性和收视效果。新闻报道有规律却没有模式, 为什么时政报道总要板着面孔呢?其实时政报道中有很大的发挥空间, 只是我们没有很好地利用。这里的一个重要原因就在于记者抓住时政报道中的新闻亮点以后, 在后期写作、编播中没有用通俗语易懂的解说词来说明报道的内容。如果解说词写得通俗, 尽量少用生僻字、长句, 观众容易理解就喜欢听。因此, 在时政报道中, 空话、大话套话应当少写。居高临下的口气少用, 遣司、造句越朴实、越亲切越好, 这样与观众的距离就更近, 报道就更有亲和力。

第三是电视画面要让观众喜闻乐见。时政报道由于带有一定的政治性, 画面的表现形式比较规范和严肃。老百姓关注和关心的相关信息往往蕴藏在这些画面中, 这时, 如果记者能把挖掘出的民生信息加以整理, 就可能是一篇受百姓关注的好报道。实施棚户区改造工程, 是一项民心工程, 德政工程, 也是百姓关注的焦点, 洮南市政府召开动员大会, 对棚户区改造工程进行全面部署。记者会后就对棚户区改造的很多问题采访了市领导、城建局负责人和部分拆迁户。通过领导的讲解、说明使百姓心里更加有数, 取得了拆迁户的理解、信任和支持。使得棚户改造这项惠民工程得以顺利展开, 新闻节目播出后, 立即在社会性上引起强烈反响, 收到了最佳的社会效果。

要善于挖掘时政报道中的民生信息。新闻是一种价值的信息。可以说, 基层许多时政活动大部分是与民生相关的信息, 关键看记者是否留心。比如:领导调研、视察, 通常写法都是领导先后察看了什么, 领导又说了什么, 最后作什么重要提示等。但如果我们能从会议、调研、视察等活动的圈子里跳出来, 并通过这些活动中提供的新闻线索去挖掘新闻背后的新闻, 就大有文章可做。关键还要看记者能否深入采访挖掘。

参考文献

[1]、王振业、胡平《新闻评论写作教程》中国广播电视出版社2005年

[2]、张小琴王彩平《电视节目新形态》, 中国广播电视出版社, 2007年。

[3]、叶子《电视新闻节目研究》, 北京师范大学出版社, 2006年。

[4]、孙宝国《中国电视新闻节目形态研究》新华社出版社2008年版。

[5]、董天策《广东电视的影响力何在?》《中国广播电视学刊》2009年第4期。

信息挖掘 第11篇

【关键词】现代文阅读 整体把握 内容 主旨

现代文阅读能力测试是高考语文的重点和难点之一。许多学生在解答现代文阅读试题的时候,常常感觉是无从下手。笔者认为,要想准确解答现代文阅读测试题目,获得比较理想的分数,应该从三个方面进行训练:整体把握,慎重审题,从容作答。下面,仅就现代文阅读的“整体把握”发表拙见如下,以就教于方家。

综观近几年的高考语文试卷,现代文阅读测试都是提供给考生一篇完整的散文,考生要完成现代文阅读测试必须要整体把握文意,才有可能得出正确答案。对文章的整体把握成了正确回答现代文阅读测试题目的前提和基础。那么,考生要把握现代文阅读的什么内容,又如何把握这些内容呢?

一、整体把握文意必须抓住两点

1.全面把握文章内容

着眼于文章整体,从宏观上居高临下地审视文章,力图领会文章的主旨内涵。也就是说要“整体阅读”,大体浏览一二遍,了解文章的话题是什么,写作的对象是什么。

2.透彻分析文章主旨

把握主旨就是要明确文章是借景抒情、叙事抒情、移物就情,还是托物说理、叙事说理。重点是文章抒了什么情,言了什么理。

二、把握文章内容和主旨的方法

1.分析文章各段落的首句和尾句,提炼文章内容和主旨

段首句和段尾句往往能揭示文章的主要内容。考生如能将文章所有段落的首句和段尾句组织在一起,那么,整篇文章的内容就一目了然。稍作思考,就会很容易地得出文章的内容和主旨。

2007年高考语文全国卷现代文阅读《总想为你唱支歌》,共有9个段落,文章第一、二两段各是一句话“走一趟大西北,就像走在一块失去平衡的土地上”,“这是个怎样倾斜了的世界啊!”这直接的议论和抒情表达了大西北这块土地在作者内心引发的震惊。最后一段也是一句话作结“大西北并不苍白并不无奈的黄土地呀,总想为你唱支歌!”这句的直抒胸臆显现了作者对大西北的赞美。阅读时,如果考生抓住了这些句子,就抓住了作者的情感变化,那么文章抒情的主旨也就显而易见了。

文章第三段的段首句是“夕阳里的左公柳默默地伫立着”。这句话的作用是引出写作对象,加上对段尾句“茂密的枝叶在倒下的躯体上依然生长得非常美丽”的分析,考生可以轻松地把握第二段只写了一个事物:左公柳。

第四段的首句“去民勤县拜访苏武山”交代了作者的行踪和目的,段尾句是“他们知道属于自己的只有一个:要想活下去,只有向命运抗争”,这句揭示的是一种顽强的生活态度,“他们”显然是指民勤人。分析两个句子的含义,第四段是向读者展示以苏武为代表的世代民勤人的顽强的生命力。

第五段的段首仍然是用极俭省的语言引出对象,结尾用“荒漠戈壁上随处可见被榨干了最后一滴水的枯枝败草的尸体,唯有枯死的胡杨林的方阵总使我热泪盈眶”,抒发自己的情感,所以第五段作者借对胡杨林的描写,表达胡杨林不屈的精神在“我”内心引发的触动。

第七段的段首句是“在大西北我曾捡过一枚戈壁石”,段尾句是“每每从沉思中醒来,心湖里便又涨潮似地涌动一层情思”。综合分析这两句考生得到的信息是,这段的写作对象是戈壁石,作者借戈壁石抒情。

综合以上所有信息,《总想为你唱支歌》的写作对象是顽强不屈的左公柳、生命力极强的民勤人、死亡后千年不倒的胡杨林和使我心湖涌动情思的戈壁石。主旨是以戈壁石的美丽,揭示大西北的美丽;以对左公柳、民勤人、胡杨林的赞美,揭示大西北的不屈精神。

2.挖掘试题信息,把握文章内容和主旨

在考生心里试题往往被视为很难攻破的堡垒,它就是为了为难考生才存在的。如果我们把它看作不善言辞的朋友,是不是会有意想不到的收获呢?试题本身往往隐含着很多信息,只要我们善于挖掘,就能得到作者的写作对象、写作意图、语言风格、写作技巧等信息。这些信息中最关键的是文章的内容和主旨。

2007年高考语文安徽卷现代文《乡村的风》设置了四个问题:

①文中画线句子所说的“诗意”是通过哪几幅画面表现出来的?

②文章描写乡村的风,在第四自然段又写到两棵树的成长,有什么用意?

③作者借“乡村的风”表达了多种情感,请分要点加以概括。

④无形的风在文中被描绘得可见可感。试从修辞手法的角度,在第二、五两个自然段中分别举出一例加以赏析。

对第一题稍加分析,考生可迅速得到启示,文章第三段描述了因风的存在使家乡富有诗意的几幅画面。第二题暗示考生第四段写父亲揭示乡村的风对两棵树的成长具有不可或缺的作用。第三题的隐含信息是,本文主旨是抒情。分析第四题可知第二、五两个自然段详细描绘乡村的风。四个问题从不同的角度就把文章的内容和主旨呈现在考生面前,文章的写作对象是乡村的风,主旨是抒情。综合上述四个问题挖掘的信息,我们可以得到这样的启示:文章用多种修辞手法描绘了乡村的风的可爱;是乡村的风使得故乡充满诗意;乡村的风对两棵树的成长起到至关重要的作用;作者借对乡村的风的赞美抒发了对故乡的热爱、感激和对父亲的敬爱之情。

当然,在进行现代文阅读时,如果我们将分析段首句、段尾句的方法和对试题隐含信息的挖掘有机地结合起来,那么,整体把握的效果可能会更好。

《乡村的风》第一段用简练的三句话引出写作对象。第六段的“倘若没有风,这个世界多么沉寂!”直接抒发了作者对乡村的风的赞美。分析这些句子,文章借乡村的风抒发自己的情感的主旨就一目了然了。

《总想为你唱支歌》试题中的第1.3.4题显现文章的主要内容:

①文中刻画的“左公柳”“民勤人”两个形象具有哪些相同的特点?作者描写这两个形象的用意是什么?

②文章第五段运用了哪些表现手法来描写枯死的胡杨林?

③文章后一部分写到了“戈壁石”,这对表现文章主旨有什么用?

挖掘这些试题的隐含信息,我们可以很快认识到文章的写作对象是“左公柳、民勤人、胡杨林、戈壁石”。

教师有意识地进行“整体把握文意”的训练,引导学生在整体感知文章全貌、把握全篇主旨的基础上,解答现代文阅读考查题目,我想,考生在完成高考现代文阅读能力测试时一定会如顺风行船,事半功倍。

基于Web的网络信息挖掘技术研究 第12篇

本文重点阐述了基于Internet信息挖掘技术的步骤包括文本特征的建立、特征集的缩减、学习与知识模式的提取、模式质量的评价。并在此基础上系统描述了信息挖掘过程中所用到的关键技术。

1 信息挖掘的基本步骤

网络信息挖掘是综合文本数据库(web文档数据)、半结构化数据(semistructure data)和信息检索技术(information retrieval)相结合的新兴技术,它源于以数据库为基础的结构化的数据挖掘[2]。因此,网络信息挖掘与结构化的数据挖掘在步骤上有一定相似之处,但也有自身独特的特点。网络信息挖掘的具体步骤可分为资源的发现、文本特征的建立、特征集的缩减、学习与知识模式的提取、自动文摘、模式质量的评价。

1.1 资源的发现

资源的发现就是指从网络中的信息文档中发现有用信息的过程。网络信息资源类型众多,Internet出现之前的Gopher、FTP等资源以及现在广泛流行的WWW形式均可以通过Web方式进行访问;目前WWW信息资源已经成为网络信息资源的主体。为了能够将大量的Web页中的信息储存起来,实现源信息的采集,需要通过几个分布的Robot程序(自动搜索软件)同时工作———沿着Web页面中的超链接进行自动漫游,URL服务器则负责向这些Robot程序提供URL的列表。Robot程序所找到的网页被送到存储服务器(Store Server)中,以便对这些网页中的信息建立其文本特征。

1.2 文本特征的建立

信息的文本特征指的是关于文本的元数据。按照元数据的特性可将文本特征分为描述性特征(文本的名称、日期、大小、类型等)和语义性特征(文本的作者、标题、机构、内容等)。文本特征的建立就是指用一定的特征项(如词条或描述)来描述网页内容中的信息,在信息挖掘时用这些特征项评价要搜索的网页与用户挖掘目标的相似度,文本特征的建立过程就是挖掘模型的构造过程,数据挖掘的模型有多种,常用的有布尔逻辑型、向量空间型、概率型等。近年来应用较多且效果较好的文本特征建立方法是向量空间模型(vector space model,VSM)法。通过文本特征的建立,就把纷繁复杂的网络信息集合用文本特征集的形式描述出来了。

1.3 文本特征集的缩减

在网络文本特征建立的过程中,将会形成一个容量十分庞大的文本特征集合,只有进一步对这些集合进行合理有效的缩减才能够切实的提高网络信息挖掘的效率和效果[3]。对于文本特征集合的缩减方法有倒叙索引、签名文件、潜在语义标引(Latent Semantic Indexing)方法。在这里我们主要介绍一下潜在语义标引方法,该方法主要是利用矩阵理论中的“奇异值分解(Singular Value Decomposition,SVD)”技术,将词频矩阵转化为奇异矩阵(K×K)。潜在语义标引方法操作的具体步骤为:(1)根据词语出现的频度建立词频矩阵(Frequency Matrix);(2)计算Frequency Matrix的奇异值分解,即将Frequency Matrix分解成3个矩阵U、S、V。U和V是正交矩阵(即UTU=I),S是奇异值的对角矩阵(K×K);(3)对于每一个文档D,用排除了SVD中消除后的词的新的向量替换原有的向量;(4)保存所有向量集合,用高级多维索引技术为其创建索引(5)用转换后的文档向量进行相似度计算。通过以上五个步骤就把先前建立的庞大的网络文本特征集合进行了缩减,并为其创建了多维索引,同时计算出了文档向量与目标检索内容之间的相似度,从而进一步提高了网络信息检索的效率和准确率。

1.4 学习与知识模式的提取

在网络信息的挖掘过程中,用户输入的挖掘的内容往往是自然语言,如果要想挖掘出比较适合用户的需求的信息,就必须对用户输入的自然语言进行分词。所谓的分词是指在中文文本中将自然语言中非用词(中文的“的、地、得”)去掉,并在其它词语与词语之间加上空格[4]。常用的分词方法有:(1)最大匹配法(Maximum Matching method,MM法)———选取包含6-8个汉字的符号串作为最大符号串,把最大符号串与词典中的单词条目相匹配,如果不能匹配,就削掉一个汉字继续匹配,直到在词典中找到相应的单词为止。匹配的方向是从右向左。(2)逆向最大匹配法(Reverse Maximum method,RMM法)———匹配方向与MM法相反,是从左向右。实验表明:对于汉语来说,逆向最大匹配法比最大匹配法更有效。(3)双向匹配法(Bi-direction Matching method,BM法)———比较MM法与RMM法的分词结果,从而决定正确的分词。(4)最佳匹配法(Optimum Matching method,OM法)———将词典中的单词按它们在文本中的出现频度的大小排列,高频度的单词排在前,频度低的单词排在后,从而提高匹配的速度。(5)联想-回溯法(Association-Backtracking method,AB法)———采用联想和回溯的机制来进行匹配。分词技术不仅可以用于网络信息的挖掘,而且还可以适用于文本的分类、自动摘要生成、中文文本自动校对等多个领域。

1.5 自动文摘

所谓自动文摘就是指利用计算机自动地从原始文档中提取全面准确地反映该文档的主题思想、中心内容的具有概况性、客观性、可理解性和可读性的简单连贯的短文[5]。在网络信息挖掘中,往往利用自动文摘技术对目标网页进行信息抽取,并将抽取的信息反馈给用户,从而达到高效的查询效率。

自动文摘技术首先要从指定的文本集中搜索要挖掘的信息,并且将文本集的核心思想精简成为信息的标题,同时还要记录本信息的链接网址,以便用户能够通过链接地址访问信息全文,此外,还要将挖掘到的主题思想连接成短文,反馈给用户。下图是作者制作的一个具有智能性的搜索引擎实例,该搜索引擎其中一个重要功能就是带有智能的自动文摘功能,如图2所示。

1.6 模式质量的评价

网络信息挖掘系统的质量评价一般采用测试集和交叉验证的方法,并用查全率(Recall)和查准率(Precision)来衡量信息挖掘系统的效果。查全率为挖掘到的文档数与实际相关文档数之比,查准率为结果集中的相关文档数与结果集文档数之比。一个优秀的信息挖掘系统应同时具有较高的查全率和查准率。

{Relevant}:与某查询相关的文档的集合。

{Retrieved}:系统检索到的文档的集合。

{Relevant}∩{Retrieved}:既相关又被检索到的实际文档的集合。

2 网络信息挖掘的关键技术

2.1 网页抓取技术

要想实现网络信息的挖掘,首要的步骤就是网页信息的抓取。在网页信息抓取的过程中,主要是采用网络机器人或网络蜘蛛(Robot or spider)在Internet上进行无穷抓取[6]。在网络机器人进行网页抓取时,首先要对被抓取得网页中的超链接信息进行提取,采用的主要方法为静态文本分析法,就是通过文本文件读取和Html标记识别的方法提取网页中的超链接信息。提取完成后,对网页中的超链接的访问方式主要有两种:(1)深度优先;即沿着超链接一层一层深入,如图3-a所示。(2)广度优先;首先访问一个网页中的所有超链接信息,之后再从其中的一个链接再次循环提取,如图3-b所示。由于Internet是个没有尽头的网状结构,因此,深度优先算法一般不适于站内信息搜索,站内信息搜索多用广度优先算法。整个网页抓取的过程和其中用到的技术如图所示。

2.2 Web网页存储技术

网页数据库用来管理所有的由Robot程序所采集的网页,一个优秀的网页存储体系具备以下几点:(1)良好的扩展性:为了适应网页爆炸式增长,必须能够无缝链接分布的网页数据库。(2)双重访问方式:应该能够提供随机访问和流方式访问。随机方式可以快速某一指定的网页,用于响应用户的检索查询,而流方式可以访问整个网页数据库或其中的一部分,用于索引和分析模块之中。(3)大量数据的快速更新:Web变化相当快,网页数据库需要处理快速变化的网页,避免更新过程与检索网页相互冲突。(4)管理过时的网页:很多网页可能从它的站点中删掉,这样必须有一种机制能够自动监测和管理过时的网页,或者删掉或者保留。如Google就将过时网页当成“网页快照”保留起来。

2.3 索引技术

在信息挖掘中一般有以下几类挖掘索引:基于内容的信息挖掘索引(Content Index)和基于结构的信息挖掘索引(Structure Index)。这两种索引在建立时均涉及到索引的结构、索引的可扩展性和分布特点、索引生成的并行化等技术问题[7]。

结构索引:为了对超链创建索引,将被抓取的网页作为有节点和边的有向图(节点为页面,边为超链)。结构索引必须是可方便的进行扩展和高效的。然而对如此规模的有向图的处理是十分困难和复杂的。文本索引:虽然结构索引给我们带来了强大的功效,但文本索引始终是信息挖掘时在判断一篇Web文档与查询内容相关度的主要方法。其它索引:在信息挖掘时,为了对某一特定领域或特定站点进行高校的信息检索,可以对这些站点建立站点索引(Site Index)。该站点索引将某一域名映射为属于那个域名的网页。另外,对于大容量索引的存储方法和提高其存取速度方法也是一个研究热点。

3 网络信息挖掘的应用前景

在国外,数据挖掘技术已经大量地被应用于金融业、零售业、远程通讯业等各个行业中。数据挖掘的计算机应用领域比较广,比如汉字输入与汉语语料库、语料库中汉语书面文本的自动短语定界与句法标注、机器词典的建造、术语数据库、机器翻译、计算机辅助文本校对、情报自动检索系统、汉语语音识别系统、汉语语音合成系统、汉字识别系统等各个计算机领域均可用到数据挖掘技术。

作为基于数据挖掘的网络信息挖掘的应用涉及到的领域也比较广泛,比如电子商务和搜索引擎服务等领域。

3.1 电子商务

运用基于网络的挖掘技术(Web Usage Mining)能够从服务器的日志记录中自动发现隐藏在数据中的模式信息,了解用户的行为模式和数据访问频度,从而作出预测性分析。例如首先,从商品角度分析,通过对大量用户对某一信息资源浏览的时间以及浏览的频次的统计分析,可以判断出该资源流行程度,从而可以为管理者提供决策支持;其次,从用户的角度分析,通过对某一用户访问资源的大量追踪,可以判断出该用户对哪些资源比较感兴趣,从而系统可以为该用户优先推荐用户感兴趣的资源,实现为用户提供个性化的需求;最后,通过日志文件所收集到的域名数据进行分类分析、聚类分析来识别用户的访问动机和访问趋势等。这些技术都已经大量有效的运用在电子商务之中。

3.2 搜索引擎

在搜索引擎上的应用也是网络信息挖掘技术的最直接应用。比如Google搜索引擎的最大特色就体现在它利用Robot程序对网页链接信息的挖掘技术上。而实际上,网络信息挖掘尤其是基于内容的信息挖掘是目前网络信息检索发展的一个关键。如通过对网页内容挖掘,可以实现对网页的聚类、分类,实现网络信息的分类浏览与检索;另外,通过对用户所使用的历史记录的分析,可以有效地进行信息挖掘扩展,提高用户的检索查全率和查准率;此外,还可以对用户进行检索跟踪,并进行统计,分析出用户感兴趣的内容,从而为该用户提供个性化的查询。

参考文献

[1]常春.信息检索系统中的映射特征[J].情报杂志,2009,28(3):141-143.

[2]黄国斌,王明文,叶浩.一种新的基于中间语义的跨语言信息检索模型[J].中文信息学报,2009,23(2):77-82.

[3]李元俊,陈俊杰,赵涓涓.基于Web页面链接和标签的聚类方法[J].计算机工程与设计,2009,30(18):4266-4268.

[4]王尊民,曹翠珍.Web数据挖掘在电子商务中的应用[J].中国商贸,2009,13:73-74.

[5]王继成.Web文本挖掘技术研究[J].计算机研究与发展,2000,5.

[6]张燕.浅谈网络信息挖掘http://www.fjinfo.gov.cn/publicat/qbts/004/16.htm.2000

上一篇:导弹拦截下一篇:英文词语