网络舆情分析系统wbs

2024-06-30

网络舆情分析系统wbs(精选8篇)

网络舆情分析系统wbs 第1篇

基于网络舆情监测系统的分析

[摘 要] 随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网民数量的持续快速的增加,以及网民通过网络形成的舆情越来越得到社会的广泛的关注。网络舆情监测系统就是针对网络舆情热点问题的预警。

[关键词] 网络舆情 监测 分析

随着互联网的快速发展,网络媒体作为一种新的信息传播形式,已深入人们的日常生活。中国网民数量也在持续快速的增加,2010年7月15日,中国互联网络信息中心(CNNIC)发布《第26次中国互联网络发展状况统计报告》,报告显示,中国网民规模达到4.2亿,手机网民民规模更达2.77亿。网民通过网络形成的舆情越来越得到社会的广泛的关注。从2003年的非典、孙志刚事件,到2010年教育局封杀论坛事件、马鞍山局长打人事件等等。这些事件性质、主体各不相同,但是有一个共同的特点,即他们都是通过网络而放大了事件的影响力。

1.网络舆情监测系统的概念

网络舆情是通过互联网传播的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点。

最近几年各种社会机构组织、企业、各级政府都纷纷重视网络舆情,2008年7月,江西60多位县级官员实名开博,多数是收集当地网民关注的民生问题。2010年9月8日,人民网?中国共产党新闻网正式推出“直通中南海――中央领导人和中央机构留言板”。该留言板突出互动性,旨在让广大网友对中央领导人倾诉心声,给中央机构提出意见和建议。

由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过BBS论坛、博客、新闻跟贴和转贴等渠道来表达观点传播思想。如果引导不善,负面网络舆情将对社会公共安全形成威胁。对相关部门来说,加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。对企业来说,准确掌握产品和市场情况,监控竞争对手和行业动态,是企业市场、行销决策的重要支撑。

从现在的网络舆情传播速度来看,信息出现后的1至3小时就可以被转至多家论坛,6小时后就可以被多家新闻网站转载,24小时在网上的评论和跟帖就能制造出热点事件和舆论高潮。因此能够第一时间知道现在哪些是热点舆情,哪些将会成为热点舆情,对于我们来说至关重要。

“网络舆情监测系统”是针对在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对社会管理者产生和持有的社会政治态度于网络上表达出来意愿集合而进行的计算机监测的系统统称。通过这个系统,能够让我们有效的对网络舆情进行预警和应对。

2.网络舆情监测系统结构

网络舆情监测系统分为五大系统,分别是:网络舆情采集系统、网络舆情存储系统、网络舆情分析系统、网络舆情检索系统和网络舆情发布系统。如图1:

网络舆情采集系统会对互联网中的主要门户网站新闻、各大论坛的热门贴、关注度比较高的博客和微博以及各大主要的网络搜索引擎的热搜内容进行采集。采集后的数据存储进入统一的网络舆情存储系统。网络舆情分析系统对存储在舆情存储系统中的信息进行分析,把舆情内容归纳、整理、分类后得出最近阶段舆情的变化及趋势,并把分析好的数据存入存储系统。用户可以用网络舆情检索系统检索自己想要的最近、最新的焦点信息。最后通过舆情分析系统分析的信息、通过舆情检索系统检索的信息以及网络舆情存储系统中的信息都可以通过舆情报告系统发送和展示给用户。

3.网络舆情监测系统分析

3.1网络舆情采集系统

网络舆情采集系统是整个系统的基础。全世界互联网的信息是非常巨大的,即使仅仅对国内信息的检索也是海量的,而且由于网页设计的灵活性造成的网页结构复杂,网页的快速更新造成的网页内容动态性,以及一些网站对站内信息限制的技术手段造成网页内容不完整性,使得传统手工采集信息的方法非常低效率和高错误率。特别是最近几年,随着QQ群、博客、twitter等微博被网友广泛使用,这些主要为松散的,非结构化信息要实现采集的难度也越来越大,靠手工采集已经不太现实。

为解决这个问题,现在的采集系统往往采用具有一定智能的自动采集技术,国内外早期的网络采集方法是针对特定采集对象编写的程序,这个程序称为wrapper。近几年,越来越多的采集工具被开发出来用来代替传统的手工编写wrapper程序的方法。目前较为流行的采集工具可以分为六大类:

3.1.1开发wrapper的专用高级语言

传统的wrapper由于是手工编写针对某一个目标,如果要为大量目标手工编写非常不效率,通过专用高级语言可以方便编写wrapper。例如:Minerva,TSIMMIS,Web-OQL,FLORID,Jedi等。

3.1.2以HTML为中间件的工具(HTML-aware Tools)

这些工具在抽取时主要依赖HTML文档的内在结构特征。在抽取过程之前,这些工具先把文档转换成标签树;再根据标签树自动或半自动地抽取数据。代表工具有Knowlesys,MDR。

3.1.3基于NLP(Natural language processing)的工具(NLP-based Tools)

这些工具通常利用filtering、part-of-speech tagging、lexical semantic tagging等NLP技术建立短语和句子元素之间的关系,推导出抽取规则。这些工具比较适合于抽取那些包含符合文法的页面。代表工具有 RAPIER,SRV,WHISK。

3.1.4包装器的归纳工具(Wrapper Induction Tools)

包装器的归纳工具从一组训练样例中归纳出基于分隔符的抽取规则。这些工具和基于NLP的工具之间最大的差别在于:这些工具不依赖于语言约束,而是依赖于数据的格式化特征。这个特点决定了这些工具比基于NLP的工具更适合于抽取HTML文档。代表工具有:WIEN,SoftMealy,STALKER。

3.1.5基于模型的工具(Modeling-based Tools)

这些工具让用户通过图形界面,建立文档中其感兴趣的对象的结构模型,“教”工具学会如何识别文档中的对象,从而抽取出对象。代表工具有:NoDoSE,DEByE。

3.1.6基于本体的工具(Ontology-based Tools)

这些工具首先需要专家参与,人工建立某领域的知识库,然后工具基于知识库去做抽取操作。如果知识库具有足够的表达能力,那么抽取操作可以做到完全自动。而且由这些工具生成的包装器具有比较好的灵活性和适应性。代表工具有:BYU,X-tract。

3.2网络舆情分析系统

网络舆情分析系统为整个系统的核心功能,其主要包括以下功能:热点识别能力、聚类分析、倾向性分析与统计、信息自动摘要功能。

3.2.1热点识别能力

由于网络信息的更新和变化速度非常快,导致网络热点也时常转化,因此识别热点成为整个分析系统的前提条件。一般对于一段时间内的热门话题的识别主要是根据信息出处权威度、评论数量、发言时间密集程度等参数,给予一定的权重值,然后统计出该时间段内的热点。

3.2.2聚类分析

传统的手工统计分析对于海量的数据基本是无能为力,即使是勉强统计也会因为数据量而对数据的主题把握会产生偏差,从而造成统计数据失真,进而造成分析结果错误。

对文章标题和关键词进行聚类分析是现在常用的网络舆情分析方法,现在被广泛的采用,常用的聚类分析方法一般分为五类:

3.2.2.1划分方法

首先创建k个划分,k为要创建的划分个数;然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括:k-means,k-medoids,CLARA,CLARANS,FCM。

3.2.2.2层次方法

创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的这类方法包括:BIRCH方法,它首先利用树的结构对对象集进行划分;然后再利用其它聚类方法对这些聚类进行优化。CURE方法,它利用固定数目代表对象来表示相应聚类;然后对各聚类按照指定量(向聚类中心)进行收缩。ROCK方法,它利用聚类间的连接进行聚类合并。CHEMALOEN方法,它则是在层次聚类时构造动态模型。

3.2.2.3基于密度的方法

根据密度完成对象的聚类。它根据对象周围的密度(如DBSCAN)不断增长聚类。典型的基于密度方法包括:DBSCAN:该算法通过不断生长足够高密度区域来进行聚类;它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。OPTICS:并不明确产生一个聚类,而是为自动交互的聚类分析计算出一个增强聚类顺序。

3.2.2.4基于网格的方法

首先将对象空间划分为有限个单元以构成网格结构;然后利用网格结构完成聚类。STING就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。CLIQUE和Wave-Cluster 则是一个将基于网格与基于密度相结合的方法。

3.2.2.5基于模型的方法

它假设每个聚类的模型并发现适合相应模型的数据。典型的基于模型方法包括:统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量(属性-值)对来加以描述的。采用分类树的形式来创建一个层次聚类。CLASSIT是COBWEB的另一个版本。它可以对连续取值属性进行增量式聚类。

3.2.3倾向性分析与统计

对信息的阐述的观点、主旨进行倾向性分析。可以为网络舆情的分析提供参考依据。

但是由于网络词汇的多样性,网络上出现许多新词,要判断这些词的倾向性就比较困难,一般倾向性分析可分为三种:

3.2.3.1情感倾向词典

中文词语情感倾向词典是给定一组已知极性的词语集合作为种子,对于一个情感倾向未知的新词,在电子词典中找到与该词语义相近、并且在种子集合中出现的若干个词,根据这几个种子词的极性对未知词的情感倾向进行推断。

3.2.3.2机器人学习

与词典法比较类似,也是给予一些已知极性的词语作为种子词,对于一个新词根据它和种子词的紧密程度对其情感倾向性进行推断,不同的是他是根据词语在种子库中的同现情况判断其联系紧密程度来作为判断依据。

3.2.3.3人工标注种子库

首先对情感倾向性分析种子库进行手工标注,标注的级别包括文档集的标注、短语级标注和分句级标注。在这些基础上,利用词语的共现关系、搭配关系或者语义关系,以判断词语的情感倾向性。

3.2.4信息自动摘要功能

能够根据文档内容自动抽取文档摘要信息,这些摘要能够准确代表文章内容主题和中心思想。用户无需查看全部文章内容,通过该智能摘要即可快速了解文章大意与核心内容,提高用户信息利用效率。而且该智能摘要可以根据用户需求调整不同长度,满足不同的需求。主要包括文本信息摘要与网页信息摘要两个方面。

3.3网络舆情检索系统

网络舆情检索分析系统产生的结果会实时存放进入存储系统之中,而检索系统可以分时间、地点、类型、网站等等进行分类检索,然后提供给用户。

分析系统提供的热点分析往往只是对已经产生的热点,或者是将要成为热点的次热点。而检索系统还可以让用户自定义关键词对采集到的信息进行自定义监控。

3.4网络舆情报告系统

根据网络舆情分析系统处理后的结果或网络舆情检索系统查询的结果生成报告,系统可通过短信、电话、网页浏览等各种手段及时告知,提供决策支持。

总之,网络舆情监测系统出现时间还比较短,基于其的算法和方法还都很不完善,而且随着计算机技术的不断发展,网络应用技术也在不断的变化,像近几年微博等非结构性的应用形式的出现,给检测系统的监测带来不小的挑战。方便、快捷、智能、通用将是今后舆情监测系统发展的方向。

参 考 文 献

[1]曹劲松.政府网络传播[M].江苏:江苏人民出版社,2010-11-02

[2]叶皓.正确应对网络事件[M].江苏:江苏人民出版社,2009

[3]郭建永,蔡永,甄艳霞.基于文本聚类技术的主题发现[J].计算机工程与设计,2008(6).■

网络舆情分析系统wbs 第2篇

1.舆情:就是舆论的实际情况,又称为社情民意,是公众的意愿和态度,包括公众对各种政治和社会现象及问题的认识或看法,是群众心理、情绪、意见、要求和思想的综合表现。2.网络舆情:是指在互联网背景之下,众多网民对社会(现实社会、虚拟社会)各种现象、问题所表达的信念、态度、意见和情绪表现的总和,简言之,即网络上的社情民意。3.网络舆情的传播特征:(1)现代传播技术的发展,大大改变了媒介传播的方式和格局。(2)随着全球卫星系统的发展和成熟以及个人电脑的普及和网络信息传输速度的迅速提高,一个以网络媒体为主、其他媒体为辅的全球大众传播格局正在形成。4.网络舆情的形成过程:

从网络舆情形成的结构特征来看,网络舆情的形成是一个“线性过程”,网络舆情形成的每个阶段环环相扣。网络舆情形成的线性过程:公共事务发生——刺激性信息传播——个人情绪态度和意见的形成——网络互动——网络舆情的形成与表达 5.网络舆情的形成模式(1)渐进模式

<1>一般情况下,网络舆情的形成会呈现出一个渐进的过程。

<2>在社会矛盾的形成和积累之下,指向某种矛盾的舆情在暗暗地滋生和积累,经历有无到有、由弱到强、由隐匿到公开的过程,最终可能会以某一公共事务为导火索而在网络上爆发出来。(2)突发模式

<1>网络舆情形成的突发模式在体现“刺激——反应”机制时更为明显,其刺激物就是突发事件,网路上民众的舆情就是反应物。

<2>突发事件一经发生,便在网络上迅速传播,激起公众的强烈反应,舆情表达集中且剧烈。

6.网络舆情的形成动因

(1)外部动因:外部动因包括社会环境作用力合网络空间的舆情空间作用力。

(2)内部动因:内部动因则包括利益需求和心理作用力,其中,公众自身的利益需求是舆情形成的动力源头。7.网络舆情的评估指标

(1)舆情评估是一项需要综合考虑多方面因素和变量的系统工程。

(2)网络舆情评估四个一级指标:传播扩散、民众关注、内容敏感、态度倾向。

<1>传播扩散指标(一级指标):是影响网络舆情信息安全的重要指标之一,它用来刻画某一具体的舆情事件或细化主题的相关信息在一定统计时期内通过互联网呈现的传播扩散状况。

网络舆情信息流量变化(二级指标)

1)网络舆情信息流量变化是指在一定的统计时期内某一舆情信息通过互联网不同的数据源通道形成的报道数、帖子数、博文数等相关信息总量的变化值,它总是通过WEB页面数的变化来呈现的。

2)通过WEB页面在不同的统计期内的数值从而形成的在一段较长时间内连续的WEB页面变化走势,能帮助评估者挖掘出舆情波动点所在的时间等重要时期,便于发现舆情信息态势的变化规律。

<2>民众关注指标(一级指标):用来刻画在一段统计时期内民众对国家各方面舆情信 1 息的关注情况,有助于从海量的舆情信息中捕捉和发现民众关注的热点所在,通过密切关注该舆情信息的爆发和演化规律,以确保舆论安全。1)论坛通道舆情信息活性(二级指标)累计发布帖子数量(三级指标)、发帖量变化率、累计点击数量、点击量变化率、累计跟帖数量、跟帖量变化率、累计转载数量和转载量变化率。2)新闻通道舆情信息活性(二级指标)累计发布新闻数量(三级指标)、发布新闻数量变化率、累计浏览数量、浏览量变化率、累计评论数量、评论量变化率、累计转载数量、转载量变化率。3)博客通道舆情信息活性(二级指标)累计发布博文数量(三级指标)、发布博文数量变化率、累计阅读数量、阅读量变化率、累计评论数量、评论量变化率、累计转载数量、转载量变化率。4)其它通道舆情信息活性(二级指标)

其他通道:主要包括即时通信软件(QQ、MSN)、电子邮件、手机短信平台等。其它通道舆情信息活性值(三级指标)<3>内容敏感指标(一级指标)

1)网络舆情信息内容敏感是指某一特定的网络舆情信息内容可能造成的危害程度。2)网络舆情信息内容敏感性(二级指标)3)网络舆情信息内容敏感程度(三级指标)<4>态度倾向指标(一级指标)1)态度倾向指标用以刻画针对某一特定的网络舆情信息,民众所持有的观点态度(即民意)倾向。

2)网络舆情信息态度倾向性(二级指标)3)网络舆情信息态度倾向程度(三级指标)8.网络舆情的评估流程 网络舆情评估的流程,大体包括三个基本环节:舆情收集和整理——舆情分析和研判——舆情总结和报告

(1)舆情的收集与整理

舆情信息的收集,也就是进行舆情艘搜寻、调查和采集。

应该组织专人或委托专门机构,建立健全舆论信息网络。

<1>舆情的收集

①抓住关键渠道收集网络舆情信息

a.中央重大政策和改革措施的出台所引发的舆情,以主流媒体、政府重点新闻网站为主要挖掘渠道。

b.与社会民众切身利益相关性较强的政策、做法所引发的舆情,以权力部门的相应网站为主要挖掘渠道。

c.国内外要闻、重大事件的跟踪报道、热点评论等,以新闻网站为主要挖掘渠道。d.社会热点问题以及突发事件,以虚拟社区的热门版块和BBS跟帖为主要挖掘渠道。

e.小道消息、谣传、各种议论的集散地,蕴含着倾向性、苗头性的舆情信息,并通过转载扩大影响,以个人网页为主要挖掘渠道。

f.社会思潮以及理论动态舆情,以学术类理论网站和社科类言论网站为主要挖掘渠道。②把握有价值舆情点收集网络舆情

舆情热点、舆情焦点、舆情兴奋点、舆情波动点、舆情重点、舆情诱发点 ③不同阶段采取不同方式收集网络舆情信息

舆情酝酿阶段、舆情初现与发展阶段、舆情形成与外显阶段

<2>舆情的整理

经过搜集而获得的原始舆情信息和样本通常是繁杂无序且真假混合的,因此需要进行整理。整理的过程就是信息和信息样本的组织过程,目的就是使信息从无序变为有序,成为便于分析评估的形式。(2)舆情的分析与研判

<1>对调查获取后的舆情,应该组织专人或委托专门机构进行分析和评估。舆情分析的 重点是舆情发展的未来态势,包括舆论发展的方向、强烈程度,以及对社会政治、经济、文化等的影响,尤其是对社会稳定是否存在着潜在危险。

<2>舆情研判的标准是看舆情的发展是否符合舆论引导的目的。(3)舆情的总结与报告

最后,对舆情分析资料进行归纳总结,写出舆情评估报告。9.网络舆情的评估方法(1)内容分析法

<1>内容分析法是情报学中一种对文献内容作客观系统的定量分析的专门方法,其目的是弄清文献中本质性的事实和趋势,揭示文献所含有的隐形情报内容,对事物发展作情报预测。

<2>基本的做法是把媒介文字、非量化的有交流价值的信息转化为定量的数据,建立有意义的类目分解交流内容,并以此来分析信息的某些特征。(2)比较分析法

运用比较方法对网络公共事件进行分析,意味着突破地域和时间的制约,对同一地区的不同事件进行比较,对不同地区的事件进行比较,对不同时期的同类事件进行比较。通过对已成型舆情评估案例的分析,对比目前需要评估的舆情,比较二者间的异同之处。(3)抽样分析法

<1>科学抽样时进行舆情事件分析重要的前期环节,结合互联网传播的特点,科学的抽样规范与否直接影响舆情分析结论的可靠性。

<2>样本的选取,媒体信息从体裁上分为报道与评论,抽取样本应该以评论为主;从地区上分为全国性媒体、地方性媒体与境外媒体;从体制上分为体制内媒体与商业化媒体;从文章来源上分为原创与转载。另外重大涉外舆情事件还要关注境外媒体。10.网络舆情的评估技术(1)单体化技术

<1>网络舆情采集与提取技术:梅雪等人(2007)通过全自动生成网页信息抽取Wrapper的方法在一定程度上实现了动态网页数据的抽取与集成,具有一定的处理准确率以及抽取效率。

<2>网络舆情话题发现与追踪技术:段建国等人(2007)在此思路的基础上进行改进,实现了话题发现与追踪:即将文本聚类问题转换为话题特征聚类问题,并依据事件对语言文本信息流进行重新组织与利用脚。

<3>网络舆情倾向性分析技术:唐慧丰、徐琳宏、李艳玲等人(2007)致力于网络舆情文本的倾向性分析技术:通过判断网络环境下倾向性特征词的特点和类型,并进行语气极性判别和标注,从而构建一个面向互联网的倾向性语气词典,建设一定规模的标准数据集,为中文倾向性分析的深入研究提供支持。

<4>多文档自动文摘技术:张姝(2007)、刘茂福、张瑾(2008)在一定程度上实现了网络舆情信息自动生成报文,并能通过浏览器进行浏览和信息检索。(2)系统化技术

<1>互联网舆情监测Beehoo系统。该系统由中科院计算所网络重点实验室设计并开发,3 目前己推出3.0版本。

<2>方正智思舆情预警辅助决策支持系统。该系统由北大方正技术研究院(2005)设计开发。该系统由舆情规划、舆情收集、分析处理、舆情预警四个环节组成,主要针对离线的网页数据进行舆情自动分析和预报,分析规划舆情监控内容,形成了一个具有生命特征的周期往复的社情民意反馈系统。<3>网络舆情分析系统。北京理工大学列络与分靠式计算实验室(2008)正在进行网络舆情分析平台的研发工作,现己完成了逻辑模型和框架的设计。<4>TRS网络舆情监测系统。北京拓尔思信息技术股份有限公司正在进行TRS网络舆情监测系统的研发工作,现已完成了逻辑模型和框架的设计。

<5>网络舆情分析模式。谢海光等人(2006)通过探索网络舆情形成和发展的基本特点,提出了舆情热点(热度)、重点(重度)、焦点(焦度)、敏点(敏度)、频点(频度)、拐点(拐度)、难点(难度)、疑点(疑度卜粘点(粘度)和敝点(散度)等十个分析模式和判据基本结构。<6>网络舆情指数分析体系。南京大学秦州副教授(2005)以近年来网上重大矿难报道数量绘制出网络舆情环境下的“矿难舆情指数曲线”,探索了基于网络上特定主题WEB页面数绘制网络舆情指数体系的可行性。<7>网络信息采集与分析模式。北大李晓明教授(2003)提出了一个利用计算机技术、针对某一特定主题,对互联网上海量信息进行采样收集与分析的模型。该模型包括样本空间的选取、主题特征的提取、目标参量的设置、网页收集、数据后处理几个模块。需要强调的是,模型在目标参量设置上提出“主题强度参量体系”,对样本空间的网页从宏观统计和变化过程,绝对数量和相对数量,总体信息和独立信息这三个维度进行分析。

11.网络舆情引导:就是政府针对网络舆情进行干预和调控,以抑制网络舆情对公共决策的负面影响,促进网络民主舆论健康发展。(1)建立应对处置机制,及时控制网络舆情 <1>建立舆情处置机构 <2>建立快速应对机制 <3>建立新闻发布制度 <4>建立后续联动处理机制

(2)加强网络评论队伍建设,理性引导网络舆情(3)加强与传统媒体互动,形成主流舆论强势

<1>从理论上来说,网络传播的特点使任何人在网络上都有传播信息的可能。但实践证明并不是所有的人都会去接受网上已发布的所有的信息。

<2>发挥主流媒体的传播优势来引导舆情更显其重要性。(4)发挥“意见领袖”作用,引导网民自我教育 <1>“意见领袖”(opinion leader)又称舆论领袖,通常指在信息传递和人际互动过程中少数具有影响力、活动力,既非选举产生又无名号的人。

<2>政府需要找到恰当的方式,与网络“意见领袖”进行沟通,引导他们理解党和政府的方针政策,理解政府解决种种复杂问题的基本思路和实际操作,让网络上的“意见领袖”多一些建设性意见,少一些破坏性意见。这样,通过网民引导网民,用网民自己的声音引导、感染网民,实现网民自我教育、自我引导,往往能够达到事半功倍的效果。12.言论自由与政府干预

(1)我国《宪法》第 35条明确规定:“中华人民国和国公民有言论、出版、集会、结社、游行、示威的自由。”从民主角度出发,言论自由是民主的前提。(2)约翰•密尔顿在其论著《论言论自由》中首先提出言论自由的主张,认为言论自由是“一切伟大智慧的乳母。”

4(3)按照《宪法》的规定,每一个公民都有利用互联网的权利和自由,中国政府支持互联网的发展和广泛的应用。但同时任何自由都并非没有边界,每一个公民又要自觉地遵守法律和秩序,维护国家的、社会的和集体的利益。13.政府干预言论自由的目的

从理论上说,政府干预言论自由只能是为了两个目的:一是为了保障言论自由这一公民基本权利的有效实施;二是当言论自由的价值与宪法保障的其它价值发生冲突时的一种取舍,如为了社会公共利益或者国家利益的 ,或者是为了保障第三人的正当权利。14.“集体性的自决”

(1)宪法保障言论自由的价值不是让个人可以无所顾忌地表达其私人偏好,也不是为了个人的自我表达或者个性体现,而是为了实践民主政治的要义——“集体性的自决”。

(2)国家应该拓展网络公共讨论的空间,把各方的意见都呈现给公众,确保公众听到所有应该听到的声音来保证公共辩论的强健。15.政府应积极地有所作为

(1)如果政府对所有言论都放任自由,不予以任何干预,那么强势者的言论势必压倒甚至淹没弱势者的声音,一部分人的言论自由非但没有得到保护反而受到了压制,即所谓的“沉寂化”效应。

(2)政府应当在某些情况下积极地有所作为,通过制度安排和政策手段保障平等的言论机会。在这个意义上,政府可以是言论自由的朋友而不是敌人。16.我国政府近年网络舆论管理措施

(1)建立了以法规为主体的互联网政策框架体系(2)高度重视对互联网信息发布的管理(3)整顿互联网信息发布者(4)铁腕管制网吧经营

(5)行政指导:网络评论员引导网络舆论(6)安装技术软件对互联网内容进行管制 17.我国网络舆情管制特点

(1)网络舆情管制重管理轻权利

(2)我国政府对互联网信息的管理主要采取了政府主导型管理模式,强调政府在管理中的主导作用,政府通过强有力的法律手段和行政手段直接干预和管理互联网。

(3)我国现行的网络相关规范,大部分是政府从方便管理的角度制定的,内容大多是对网络从业者或者网民课以义务。(4)在法律责任部分强调的都是网络经营者或网民违反相关规定时应承担的责任,如罚款、停业甚至判刑,鲜见对网络从业者或者网民权利进行保护相关规定。18.网络舆情监管模式创新:从管制到治理

西方国家的互联网管制措施一般都遵循三个原则:(1)保护言论自由的原则(2)禁止不良信息传播的原则(3)行业自律的原则 19.网络舆情应对之策

(1)适当调整管理思路,从“维稳”到“促和(2)完善网络治理的法律规制(3)加强行业自律(4)“问计于民”,积极采纳网民的意见和建议

(5)重视网络监督,厉行官员问责制,提高政府公信力

5(6)突发事件迅速反应,危机管理泰然自若,“尽早讲、持续讲、准确讲、反复讲” 20.备注:关于“四讲”

国务院新闻办把突发公共事件的舆论引导策略,概括为“四讲”,即:

(1)尽早讲,政府要尽快抢占信息发布制高点,第一时间表明对事件的态度及应对措施;(2)持续讲,向公众不断披露事件进展情况;

(3)准确讲,发布信息真实全面,争取公众的认可;(4)反复讲,采取各种方式对公众进行答疑解惑。

这是对近年来突发事件经验教训的深刻总结。

案例:汶川大地震与王家岭矿难 21.特别关注:突发事件的应对

(1)有学者已经把“危机管理”称为“危机沟通管理”。

网络舆情分析系统wbs 第3篇

网络舆情分析相关研究现状

近年来, 国内外很多学者在利用Web挖掘技术进行网络舆情分析方面投入了大量的研究, 可以归纳为以下几个方面: (1) 网络舆情信息采集与提取技术。张雅蕊 (1) 分析了突发公共危机事件中, 以政府为主导的统一采集平台, 并建立专职负责网络舆情采集的中枢机构的舆情采集机制。对于舆情信息的提取技术, 目前主要有两类信息提取算法, 即基于机器学习的正文提取算法和基于启发式规则的正文提取算法。 (2) 网络舆情话题检测与追踪技术TDT。国内外学者围绕TDT, 在话题检测文本聚类和话题追踪方面做了大量的研究。例如, Yamanishi (2) 的研究思路是采用统计分析方法通过分析话题关键词的相似性来找到某一类话题的共有特征, 这样把文本聚类问题转化成了话题特征聚类问题;许志凯等 (3) 在话题相似度计算基础上, 提出基于多维特征的话题追踪模型。 (3) 网络舆情传播模型研究。潘芳等 (4) 在描述危机事件网络舆情传播特点的基础上, 分析指出网民关系网络为一个均匀网络, 利用传染病传播模型SIS建立其舆情传播模型。朱晓宇 (5) 从网络结构动态变化的观点出发, 分析舆情传播机制, 构建基于改进的生物进化模型的网络舆情传播控制模型。 (4) 网络舆情的演化与趋势预测分析。方薇等 (6) 重点研究在一个论坛中网民对某个议题持正面意见和反面意见的人数演化过程, 构建协同-马尔科夫模型并进行了仿真实验。孙佰清, 董敬巍 (7) 提出基于网民主体的舆情扩散监测模型及其包含的主要功能模块, 并进行仿真实验。

鉴于目前一般的舆情预测分析系统缺少针对性地对突发公共事件网络舆情趋势预测进行深入分析, 本文将根据突发公共事件网络舆情的演化过程、舆情分析中存在的难点, 从Web文本挖掘的角度来研究突发公共事件舆情分析系统架构。

突发公共事件网络舆情的演变过程及难点分析

1突发公共事件网络舆情的演变过程

《国家突发公共事件总体应急预案》中规定, 突发公共事件主要分为四类, 分别是自然灾害、事故灾难、公共卫生事件、社会安全事件。与一般的事件相比, 突发公共事件, 具有较强的突发性、不可预测性、公共性和破坏性等特征。

随着突发公共事件的发生、发展、变化和结束 (衰退) , 网络舆情也有一个不断演变的过程, 可以划分为网络舆情的孕育、扩散、变换和衰减等四个阶段。网络舆情的孕育阶段指突发公共事件发生后, 在网络出现网民关于此事件的观点看法、情绪、意见、建议等有态度倾向性的言论信息。网络舆情扩散阶段指网民借助新闻留言板、BBS、微博等传播载体对舆情信息跟帖、转贴 (转发) 、分析讨论、回贴, 使舆情关注点的影响范围不断扩大, 舆情议题出现多元化、舆情主体 (网民) 的数量不断增多。随着突发事件的进一步发展演化, 网民对整个事件产生的原因、涉及的群体、目前的进展、已造成的影响以及政府的行为等有了一个较全面的了解。所以网民关于事件的观点立场、讨论热点和情绪等都会发生变化, 这便属于网络舆情的变换阶段。网络舆情的衰减阶段指随着时间的推移, 网民对事件的态度和情绪逐渐缓和, 舆情的影响力逐渐衰退, 关注程度也逐渐减少。

2突发公共事件网络舆情分析的难点

根据以上可知, 突发公共事件网络舆情要经历一个不断发展变化的过程, 这增加了网络舆情采集处理的难度, 也使舆情分析系统的建设面临以下难点:

(1) 突发公共事件和网络舆情的相互作用。突发公共事件发生时, 受到媒体和网民的关注, 各自发表的观点、意见、看法等形成网络舆情;舆情通过各种网络载体广泛传播, 引发更大的舆论和社会关注, 影响突发事件的演变过程;突发事件与网络舆情的相互作用, 相互强化, 有可能导致事件的恶性发展或造成其他群体性事件。这对舆情分析系统的采集机制和深入分析功能提出了迫切需求。

(2) 网络舆情趋势预测模型和预警分析。根据突发公共事件的类型、热点话题等建立相应的预测模型, 对热点话题建立层次等级和预防措施, 并根据舆情分析报告进行预警处理。这些都是舆情分析系统需进一步解决的具体问题。

突发公共事件网络舆情分析系统模型

突发公共事件网络舆情分析系统作为政府相关部门和单位进行舆情监测分析的网络平台, 可以对不同类型的突发公共事件舆情信息进行有效分析和监测, 快速发现舆情热点和敏感话题并能对此进行追踪, 准确掌握舆情演变过程及趋势预测, 为政府有针对性地引导舆情良性发展提供辅助决策。根据以上系统总体要求, 本文提出了一个基于Web文本挖掘的突发公共事件网络舆情分析系统模型。本系统模型包括网络舆情采集层、舆情数据预处理层、舆情分析层和系统应用层等4个层次, 如图1所示。

1网络舆情采集层

网络舆情采集层的主要任务是根据用户的需求和目标, 围绕某一个突发公共事件, 采用网络爬虫的方法, 从新闻留言板、BBS论坛、微博或博客等网络空间, 有针对性地对那些与预定需求相关的舆情信息进行自动化收集, 根据URL进行有效过滤后保存页面舆情数据, 作为舆情预处理模块的数据来源。网络舆情采集层主要包括网页识别、URL解析、自动去重、关键内容或关键词抽取、分类存储等功能模块。其中分类存储是指根据突发公共事件的关键字不同而分层次的存储在网络舆情基础数据库中。例如, 对于事故灾难性的突发公共事件, 比如飞机类的事件常用关键词为航空、坠毁、失事、飞机等, 而对于公共卫生类突发公共事件, 比如禽流感常用关键词为禽流感、疫情、病毒、扩散等。

2舆情数据预处理层

舆情数据预处理层的主要任务是对采集到的相关网页的舆情数据进行噪音处理, 包括去除页面中的广告、图片、注释等与网页主题内容无关的数据, 只需保留标题、发言人、发布时间、内容、点击次数、回帖内容和数量等纯粹的舆情数据, 并采用统一的结构化的格式来表达, 然后对网页内容进行中文分词和文本向量表示, 并将处理后的结果存储在文本特征向量库中。舆情数据预处理包括的功能模块主要有网页净化、内容抽取、中文分词和特征抽取等, 为舆情热点话题发现与追踪提供数据基础。

3舆情分析层

舆情分析层是舆情分析系统的核心层, 它的主要任务是根据舆情数据预处理层产生的文本特征向量信息, 利用相似度计算、文本聚类等Web挖掘算法进行话题检测与追踪, 形成话题中心向量集, 再根据话题的报道数量、点击量、评论数、时间密集程度[1]等话题要素, 采用统计分析和文本分类的方法进行热点话题和敏感话题的识别和追踪, 对舆情演变趋势进行分析与预测, 为相关政府部门提供辅助决策。舆情分析层主要包括的功能模块为话题检测与追踪、热点话题识别与追踪、敏感话题识别与追踪、舆情演变趋势预测。舆情分析的流程如图2所示。

4系统应用层

系统应用层是用户与舆情分析系统进行交互的界面, 可理解为用户实现网络舆情信息的采集、分析与趋势预测、统计分析及管理的工作平台或操作界面。用户通过系统应用层, 不仅可以根据自己的个性化需求进行热点话题分析与追踪, 随时了解舆情演变情况, 同时也可以监控整个系统的运行情况。系统应用层的主要功能模块有主题检测、话题管理、舆情趋势分析、舆情监测和舆情报告管理等。

结束语

本文提出了一个比较完善的网络舆情分析系统模型。然而, 网络舆情分析系统是一个复杂的系统, 需要综合运用Web数据自动采集技术、数据预处理技术、热点发现与追踪技术以及统计分析等技术和方法来实现, 仍需进一步的研究和深化。

摘要:当突发公共事件发生时, 如何正确引导网络舆论, 消除消极的网络舆情是政府部门迫切需要解决的问题, 也是舆情分析的根本目的。本文在对国内外学者有关网络舆情分析现状探讨的基础上, 根据突发公共事件网络舆情的特点及目前舆情分析的挑战, 提出了比较完善的突发公共事件网络舆情分析系统模型, 并对模型的层次进行划分, 对其中的功能模块和处理流程进行描述。

注释

11 张雅蕊.突发公共危机事件中网络舆情的采集机制研究[D].成都:电子科技大学硕士论文, 2007

22 Li H., Yamanishi K.Topic analysis using a finite mixture model[J].Inf.Process.Manage, 2003, 39 (4) :521-526

33 许志凯, 徐志明, 李栋等.面向互联网新闻的话题检测与追踪[J].智能计算机与应用, 2011, 1 (1) :59-61

44 潘芳, 卞艺杰, 潘郁.危机事件网络舆情传播模型及消极思潮应急对策[J].图书情报工作, 2010, 54 (15) :40-43

55 朱晓宇, 马英红.基于Bak-Sneppen模型的舆论传播机制研究[J].山东师范大学学报 (自然科学版) , 2013, 28 (1) :44-49

66 方薇, 何留进, 宋良图.因特网上舆情传播的预测建模和仿真研究[J].计算机科学, 2012, 39 (2) :203-205

校园网络舆情监控系统研究 第4篇

关键词:网络舆情;QS单模式匹配算法;SunWu算法;敏感词

中图分类号:G642 文献标识码:B 文章编号:1002-7661(2015)06-003-01

一、引言

隨着互联网的兴起,信息的迅速传播,人们的生活方式、人际交往以及思维方式也随之改变。在高校,校园网络作为学生日常学习生活的重要平台,重要性毋庸置疑。学校主页、校内各学院、各部门主页,学校BBS,甚至各个学院BBS,班级网站都是高校学生经常访问的平台。类似于这种公共广场,是大学生自由发表评论、表达意见的网络空间,校园内外的一些重大事件和突发事件通常会以最新最快的速度在这种媒介场所内出现,引发大学生的广泛关注,形成大量的讨论。随着意见的扩散和讨论的深入,讨论的主题往往会逐渐趋向特定的焦点,形成具有一定规模的较为明确的网络舆情。而出于学生思想的积极引导以及校园安全工作的管理,对校园舆情进行有效的监控,是各高校所能采取的合适手段之关键。

关键字匹配算法主要是串匹配。串匹配是利用一个符号序列查找出一个或多个特定符号序列的过程。利用串匹配能在正文文本中寻找所有关键字集合中的关键字,并报告关键字出现的位置。依据在匹配过程中所要匹配的模式串个数,串匹配算法可分为单模式串和多模式串。串匹配技术的发展是与其应用密切相关的。随着计算机信息技术的发展,其应用领域除了早期的文本编辑、全文检索系统、查询系统等,现今已广泛应用到了网络入侵检测系统(NetworkIntrusion Detection System)、内容过滤、生物科学计算以及新闻主题提取等。利用串匹配技术,我和团队自主开发了校园网络舆情监控系统,并通过模拟数据,验证了串匹配技术在舆情监控系统中应用的正确性。

二、算法介绍

QS(Quick Search)算法是利用不良字符跳转表和文本串中未出现在模式串里的字符来匹配紧邻当前匹配窗口的下一个字符,能有效的加快匹配速度。在实际应用中,QS适用于大字符集、模式串较短时的情况。QS算法的空间复杂度为O(σ),其预处理阶段的时间复杂度为O(m+σ),最好情况下QS算法的时间复杂度可以达到O(n/(m+1))。

SunWu算法是基于单模式的BM算法设计出的一种多模式匹配算法。与其它算法不同,SunWu算法使用“块字符”(Block Character)作为基本单位,将其作为进一步匹配的入口和进行跳转的依据。SunWu算法使用长度为B的字符串代替坏字符串,进行最大限度的跳跃,并且使用散列技术和前缀表来减少需要进行实际匹配的次数。此外,SunWu算法不受大小字符集环境的影响,在中文情况下能够表现出比较好的性能,符合中文字

三、结果分析与展示

QS算法和SunWu算法是典型的关键字匹配技术的算法,二者有各自的优点,但也存在着明显的不足。因此,在自主开发的舆情监控系统中,我们将二者相结合运用,通过测试数据分析可知,QS算法和SunWu算法结合使用能大大提高系统的性能和效率。如图3.1所示,在其他条件相同的情况下,模式串的最小长度m=2,模式串数量由500增加到5000时,各算法扫描时间的变化。从表中可以看出,随着模式串数量的增加,各算法的运行时间都有相应增大,QS的运行时间一直低于SunWu算法。当模式串数量小于3000时,QS的运行时间少于SunWu的运行时间。当模式串数量大于3000时,QS的运行时间多于SunWu的运行时间。而二者的结合使用所需的运行时间则处于中间水平。加之,表3.2所示,模式串数量为100,模式串最短长度从2到8时,各种算法在reuters21578语料上消耗的时间。由表可看出,二者结合使用所花的扫描时间始终明显低于其它两种算法。当m=2时,二者结合使用所花的扫描时间低于SunWu算法的1/6,m=8时,二者结合使用所花的扫描时间低于SunWu算法的1/2。随着m的增大,二者结合使用的算法所花的扫描时间呈减少趋势,且差距亦呈减少趋势。

四、总结

网络舆情分析系统wbs 第5篇

目前国内市场上做网络舆情监测系统的企业越来越多了,下面我们主要探讨下市面上常见的,占有率比较高的几大品牌。

此文只说一下国内的几大厂商,首先说中科点击旗下“军犬网络舆情监测系统”。该公司从信息采集起家,其主要产品应该是它的“军犬网络信息采集系统”,该系统的短处在文本语意分析方面:只能根据关键词进行关注(敏感)信息的匹配,不能形成舆情热点,功能稍有局限。接着说谷尼国际的舆情系统,总体感觉一般,没有很出彩的地方,文本分析能力也很一般,除了互联网上能看到他们的信息,市场上基本看不到它参与竞争。

网络舆情分析系统wbs 第6篇

北京融汇画方科技有限公司 2012.09 版权声明

北京融汇画方科技有限公司版权所有,并保留有对本文档及本声明的最终解释权和修改权。

本文档中出现的任何文字叙述、文档格式、插图、照片、方法、过程等内容,除另有特别注明,版权均属北京融汇画方科技有限公司所有,受国家有关产权及版权法保护。任何个人、机构未经北京融汇画方科技有限公司的书面授权许可,不得以任何方式复制或引用本文档的任何片段。

画方科技是北京融汇画方科技有限公司的注册商标,受商标法和有关国际公约的保护。

免责条款

画方科技公司在本文中尽可能提供确定的信息,但不会为信息的完整性和正确性承担责任。除非有书面协议,本文所述画方科技公司的产品信息并不代表任何保证或正式的承诺。更多的资料可以向画方科技公司索取。

支持信息

本资料将定期更新,如欲获取最新资料,或更多画方科技相关产品信息、解决方案以及其它网络、信息安全相关的软、硬件产品信息,敬请访问画方科技公司网站:http://,或发送电子邮件到product@huafoun.com,或致电画方科技垂询。

北京融汇画方科技有限公司

地址:北京市海淀区花园路13号汗太华大厦三层 邮编:100021 电话:86-10-84928311 传真:86-10-84828038 目录 1背景(4 2系统概述(4 2.1产品理念(4 2.2工作流程(5 2.3产品意义(6 3产品功能(6 3.1舆情规划(6 3.2舆情信息采集(6 3.3舆情信息加工(7 3.4元搜索功能(8

3.5舆情专题(8 3.6舆情分析(9 3.6.1舆情分布图(9 3.6.2舆情趋势图(9 3.7舆情报告(9 3.8分级权限管理(9 3.9用户管理(9 3.10关键字管理(10 3.10.1事件关键字管理(10 3.10.2领导人关键字管理(10 3.10.3色彩关键字管理(10 3.11手工添加舆情(10 3.12舆情报警(10 3.13智能终端(11 4系统特点(11 1背景

当今,互联网世界已经渗透到现实社会的各个角落。极大的扩大了人类实践活动的范围。且互联网世界的开放性和匿名性使得人们更亲睐于通过网络来表达自己的内心世界,更直接更坦诚的发表观点。在互联网快速发展的今天,网络媒体已经成

为一种信息的主要传播途径,其开放、虚拟的特性让言论达到了前所未有的活跃程度。在论坛、博客、微博等非受控渠道是目前发表个人观点的主要方式。

我们在受益于互联网世界的同时,也会为因此产生的网络忧患而担忧。互联网是先进文化供给与传播的重要手段,是反映社会舆情的主要载体之一,是网络舆情产生的聚集地,却也是危机事件引发的根据地。对于公众关注的事件很快就会形成网上舆论,个别人在其中煽风点火,极易造成网络非理性情绪蔓延,进而产生严重的不良影响,对相关部门造成巨大的舆论压力。可以说,互联网已成为思想文化信息的集散地和社会舆论的放大器。

2系统概述

画方科技舆情监测系统一共包括三个模块:网络舆情采集系统、舆情分析引擎和舆情应用服务系统。提供相关舆情、负面舆情、预警信息、热点信息的发现、主题事件监测、分类监测、舆情监管、统计分析、辅助决策支持等多层次、多维度的舆情信息服务。根据用户的网络舆情监测和定向追踪等信息需求,形成简报、报告、图表等分析结果,从而帮助用户及时掌握舆情动向。为领导和舆情工作部门提供信息参考和决策支持。

对不同政府、企业和行业监管等职能部门而言,舆情监测的需求既有通用性,也有个性化的特点存在,画方科技舆情监测系统具有极大的扩展性,凡是需要对舆情、口碑关注的政府、企业、高校和其他组织机构都可以通过本系统进行量身打造,建立适合自己的舆情监测体系。

2.1产品理念

“及时发现”是舆情监测系统的核心功能,效果是舆情监测系统的灵魂 ⏹定向采集和全网搜索相辅相成,按照舆情的传播规律构建立体监测体系,疏 而不漏

⏹管线架构,舆情漏斗分析模型,分析粒度粗细可控

⏹技术结合实践,千锤百炼,功能设计实用至上

⏹在舆情监测领域,普遍存在着产品功能与客户需求之间的差距,很多公司回 避这个难点,不再提倡舆情监测的概念,而是当做一个大而全的管理系统去 做。我们认为,现阶段,舆情工作的重点仍然是舆情监测,提供及时、全面、准确的舆情监测是舆情监测系统的灵魂。不抓住这一灵魂,也就失去了舆情 监测在现阶段存在的意义和作用。因此,我们做舆情的产品理念就是:按照 舆情的传播规律构建监测体系,立体监测、及时更新、准确分析、合理展现。真正起到舆情监测的作用,提高舆情应对和管理的质量和效率,为舆情管理 和领导决策服务。2.2工作流程

(1信息采集系统从互联网上采集新闻、论坛、博客、评论等舆情信息,存储到采集信息数据库中。

(2舆情分析引擎负责对采集信息进行清洗、智能研判和加工,分析结果保存在舆情成果库中。舆情分析引擎依赖于智能分析技术和舆情知识工程。

(3舆情服务平台把舆情成果库中经过加工处理的舆情数据发布到Web界面上并展示给用户。

(4用户通过舆情服务平台浏览舆情信息,通过简报生成等功能完成对舆情的深度加工和日常监管工作。

2.3产品意义

科学的进步及在科研领域的应用,解决了天气无法预报的难题;技术的发展及信息化工具的诞生使网络舆论提前发现成为可能;

3产品功能 3.1舆情规划

针对组织关注的板块不同,对采集范围及关键字进行整体规划,分类管理;能够结合当前热点话题及舆情动态,实时调整舆情采集点;3.2舆情信息采集

信息采集是舆情工作的首要任务,互联网传播特点和网民行为特征要求系统全面获取网络信息,信息时效性要求系统及时采集到网络信息。

系统内置数千个影响程度大、传播面广、网民参与度高的网站,从广度和深度全面抓取信息;1各大门户网站:由资讯性质网站和网络媒体构成,如新浪网、雅虎网、网 易、搜狐网……

2各大行业网站:由行业性质网站构成,如行业资讯网站、政府门户网站、行业企业网站……

3交互性质网站:有各种形式的论坛、贴吧、BBS、留言板构成,如水木清 华BBS、天涯、新浪BBS……

4各大搜索引擎网站:同步百度和Google的搜索结果。5各种微博:网易、天涯、腾讯、新浪、凤凰网……

6境外网站:星岛环球网、星岛日报、联合早报、韩国联合通讯社…… ◆优先级信息采集,对不同影响力的网站配置不同优先等级,优先级高的网站 优先采集信息,从信息源影响力角度确保重要舆情及时传递;◆信息采集形式全面,不同舆情源采用不同采集方式保障采集实时性;3.3舆情信息加工

系统按照各信息源表现出的网页形式呈现采集信息,网页上包含大量的广告、图片、链接,这些不是舆情关注的价值信息,还给系统的高效运行、检索增加负担。同时数据呈现按照各自信息源排列规则出现,需要系统分别去识别标题、来源、作者、发布时间、正文等,要求对信息预处理形成统一格式供后续的决策分析。预处理包含超链分析、编码识别、URL去重、锚文本处理、垃圾信息过滤、关键字抽取、关键信息提取、正文抽取、自动摘要;

◆双重过滤机制

网络舆情监测分析系统产品白皮书 网查阅,兼容性好且保证信息查阅的方便性。

4、舆情简报方便:支持舆情简报 HTML、自定义简报格式,支持简报生成 word 格式,方便日常舆情简报的编辑、打印上报。

5、系统管理(高安全性)USB-KEY 认证方式保证只有持有管理 KEY 的人员才能 : 登录系统进行管理,这样防止因为用户名密码的泄露而造成管理上的漏洞。

6、功能管理(高开放性):整个系统基于开放式的模块管理方式,用户可以完 全自定义系统主模块位置、名称,可以自行开发新的应用并通过 “模块管理” 功能无缝集成。

7、展示管理(高灵活性):用户也可以按照自己的工作习惯任意调试子模块的 位置和名称,舆情展示界面可以自由拖拽。用户可以方便的构建一个个性化 的舆情系统。

8、舆情信息自动采集:支持定时计划采集,支持 1 小时粒度自动采集,保证非 工作时间内信息的收集正常运行,定义方式灵活、策略丰富、智能化程度高。

9、敏感内容自动分析:能对定义目标的链接标题及文章内容进行自动分析,涉 及敏感信息会自动分类,同时进行敏感信息报警。

10、舆情专题自动聚类:支持对热门、敏感的舆情进行自动聚类,可自定义舆情 专题,并对舆情专题进行一周趋势分析,对关注舆情的热度进行跟踪。

国内付费网络舆情监测系统 第7篇

免费工具虽然不要使用费,且能够获取需要的信息,但费时费力,对于品牌型等网络舆情监测要求较高的企业并不可取。目前国内致力于网络舆情监测软件开发,如托尔思TRS、方正电子政务、邦富软件、线点科技、中科点击、本果信息技术、古尼软件、迅奥科技、蓝通百特、维思比科技、iri网络口碑、红麦软件、新联财通、易宝等等。分析上述公司开发的舆情监测软件,主要包括以下功能:

1、自动采集功能

付费舆情监测软件把人工收集舆情的繁琐工作自动化了,其功能与搜索引擎的蜘蛛爬虫类似。当然,作为舆情管理系统,在自动采集页面后,还需要做自动分类、自动生成摘要,自动获取关键词,并建立索引。

2、分析处理功能

分析与处理功能主要表现在传播路径分析、话题演化分析以及观点倾向分析等。以TRS互联网舆情管理系统为例,具有话题发现与追踪、信息预警机制、倾向性分析、信息过滤、多维度关联舆情分析与舆情专题、舆情干预等功能。

3、统计报表功能

用符合用户习惯的可视化形式表现分析与处理的结果,也是付费舆情管理软件的一项重要功能。该项功能主要包括舆情简报、趋势图表、聚类图等,一些智能化的软件还会给出文字概述及舆情应对建议

等。

4、协同工作功能

部分舆情管理系统除了具备上述功能外,还有部分OA的功能,能够为后期企业各部门协同应对舆情提供OA环境。

网络舆情监测系统框架研究 第8篇

根据中国互联网络信息中心于2014年7月发布的“第34次中国互联网络发展状况统计报告”显示, 截至2014年6月, 我国网民规模达6.32亿人, 互联网普及率为46.9%, 中国已经成为世界上网民人数最多的国家[1]。

不同于传统媒体, 网络媒体会在第一时间呈现各种突发重大事件, 人们在获取最新资讯的同时, 也通过新型的媒体平台 (论坛、博客、微博、各种社交圈) 发表自己的意见看法, 相互评论, 使得互联网舆情迅速形成。

同时, 互联网是一个开放自由的平台, 在普通网民正常表达自己观点的同时, 还有一部分散播各种色情、暴力、恐怖等不良信息。很多邪教、反动组织也利用网络散布各种谣言, 甚至公然与国家为敌。在互联网上还存在大量水军利用网络进行造谣、炒作。因此对互联网舆情进行监测, 对我国新时期政府政的策制订、网络安全防范以及网络文明建设有重大意义。

2 研究现状

舆情监测工作由来已久, 最早的网络舆情监测手段也是基于传统的手工模式。通过雇佣大量工作人员对指定的监测页面进行监测, 使用人工方式, 对某些重点监测词汇进行频率统计来寻找舆情动向。然而随着互联网的蓬勃发展, 传统的方式已经落伍, 要对网络舆情进行监测, 就必然要依托于一个功能强大的互联网舆情监测系统进行。

伴随着网络的发展, 国内外已有一系列的网络舆情监测系统正式投入使用, 这些系统通常是依托于政府部门、学术机构以及企业媒体建设的, 分别基于不同的需求 (行政决策的、学术研究的、商业开发的) , 从不同的角度对网络舆情进行监测。

最早的相关研究始于TDT (Topic Detection and Tracking) 项目[2], 它是美国国防高级研究计划局主导的, 旨在从新闻网页中找到未知话题并对话题进行追踪。该项目历经多年发展演变, 其核心研究内容分为报道切分、话题追踪、话题监测、首次话题报告以及关联监测这5个方面的内容[3]。

在我国, 由于中西文在文本挖掘、分词方面的巨大差异, 以及社会经济等方面的差异, 基于汉语的网络舆情监测研究起步较晚[4]。目前, 学院型的舆情研究机构主要有北京大学中国国情研究中心、中国人民大学舆论研究所、上海交通大学舆情研究实验室等[5]。

3 网络舆情监测系统框架

从过程上看, 网络舆情监测的本质是从网络上获取数据、分析数据以及按用户需求呈现分析结果的过程, 因此在系统实现时, 从数据流向的角度, 可以把一个网络舆情监测系统划分为数据获取模块、数据预处理模块、数据分析模块以及结果呈现模块, 整个系统的结构如图1所示。

3.1 数据获取模块

数据获取模块的主要功能是全天候的、自动的从整个网络上, 或者某些特定网络上获取进行舆情分析的原始数据。在自动获取数据的过程中, 有两方面的要求。一方面, 是获取的相关舆情数据相对于整个数据的覆盖率的要求, 即要尽可能地获取尽量全面的原始数据;另一方面, 则是对数据准确率的要求, 即所需数据要尽可能贴近用户关心的舆情热点。只有在覆盖率和准确率全部达标的情况下, 才能更好地对网络舆情进行分析预测。目前, 常见的数据获取方式有两种:

(1) 网络爬虫方式。互联网的一项基本协议是HTML协议, 基于该协议, 网络中大量资源以统一资源定位符 (URL) 相互联系, 构成一个有机整体。网络爬虫从一个预先定义好的URL列表开始, 依次访问该列表上的所有页面进行数据抓取, 并分析当前访问页面中的其他URL, 选择符合要求的URL加入待访问队列, 试图以深度或者广度的方式对限定范围的网络进行遍历式的访问, 以获取该网络的所有信息。

(2) 元搜索采集技术。搜索引擎是大多数网民访问网络的入口, 目前有众多的搜索引擎服务提供商, 其检索过程有不同的侧重方向, 检索结果也各不相同。可以在若干不同的搜索引擎上部署元搜索引擎, 通过对下层引擎的调用返回多个搜索结果, 并基于一定的算法对不同结果进行选择。使用该方法能够有效地提高数据获取的覆盖率和准确率, 且系统构建较为简单。

3.2 数据预处理模块

Web页面的数据有其自身特点, 它是一种半结构化的数据, 整个数据包括内容和描述两个部分, 且两者混杂在一起。直接通过数据获取模块抓取的页面内容复杂, 存在大量噪音, 文本内容非结构化, 无法直接进行下一步的分析工作, 对这些原始页面必须进行一次数据预处理。预处理的过程大体上分为两步:

(1) 进行网页内容提取。将用户关心的内容 (例如新闻的内容、对主题的讨论等) 从噪音 (如页面上的广告、导航以及其他超链接) 中找出。将页面转化为一个HTML标签树, 根据已有知识建立提取规则, 最后依据规则对页面内容进行提取。如何建立一个合适的规则是提取工作的核心, 可以针对某类特定的网站建立专属规则, 也可以针对一般页面的结构特点建立一些通用规则。

(2) 进行中文文本分词。自然语言中, 词是最小的独立活动的语言成分。要对页面提取获得的非结构化连续文本进行处理, 首要的工作就是对其进行分词。分词是将输入的一段文本分解为符合逻辑的一组单词的过程, 例如输入“羽毛球拍”时, 依照某种分词算法就可以初步将其分解为羽毛、羽毛球、球拍3个单词。

最简单的分词算法以词典为基础, 通过对字符串匹配完成初步工作, 之后辅以少量词法、语法和语义规则;另一种思路是基于统计进行分词, 统计文本中相邻字同时出现的频率, 频率越高就越可能构成一个词;还有一些基于规则的分词算法, 通过模拟人对句子的理解过程, 对当前句子的语法、句法、词法进行分析推理, 能够自动补全未登录词条。

3.3 数据分析模块

数据分析模块是整个网络舆情监测系统的智能核心, 在本质上是一个数据挖掘的过程。它负责将前期获得的网页内容进行深度挖掘, 发现新的舆情热点, 并对原有的舆情趋势进行分析。一个典型的系统应具备以下几方面的功能:

(1) 主题聚类。聚类可以很直观地从海量数据中发现新的主题。将处理过后的网页内容归一化到某个特征空间中, 在这个特征空间中以某种方式, 将特征接近的页面内容划分为不同的类别, 相应类别的聚类中心就可以认为是新的主题。

(2) 热点发现。在当今网络时代, 每天产生的舆情主题众多, 其中有些主题能够迅速成为当下的舆情热点, 舆情监测系统需要将这些舆情热点从众多主题中筛选出来, 推送给舆情分析人员。筛选的时候应该注意“热点”一词不同方面的含义, 最直观的含义就是某主题在某段时间内出现的频次;再有一方面的含义就是某主题除频次以外的权重, 例如该主题来源页面的影响力、该主题的发展速度等。

(3) 话题追踪。网络话题的生命周期从最初的事件主题开始, 经过一段时间的发展演化成为舆情热点, 又经历一段时间的发展变化逐渐热度降低, 最后消散。还有, 在这个过程中话题的变异分支过程, 都是在基于网络舆情进行决策分析时可以纳入考虑的影响因素。在分析大量话题生命周期后, 可以从中总结一定的规律, 对当前某话题的下个阶段进行一定的预测。

(4) 情感识别。网络话题除了对某个发生事件的客观描述外, 还有一定的情感倾向, 尤其是在网民对该话题的回复中, 这种情感倾向会更加明显地体现出来。从整体上看, 这种情感倾向会分为赞成、反对以及中立这3种大的方向。将人们对某个舆情热点的情感倾向进行直观体现, 有助于更好地进行分析决策。这种分析不光要对舆情的当前状态进行情感识别, 还要对该话题的发展过程中某个阶段的情感同时进行分析, 以掌握舆论对该话题情感倾向的变化过程。

3.4 结果呈现模块

网络舆情分析的目的是为相关的决策提供支撑依据, 其分析结果需要简单直观地提供给决策分析人员, 并在初步分析的基础上对整个结果进行二次挖掘。这就需要结果呈现模块能够动态图形化地展示分析结果, 并对某些舆情热点、舆情的重大拐点进行主动推送警告。根据一般化的网络舆情分析需求, 必须实现的功能有:

(1) 针对所有主题的查询。

(2) 新主题的推送。

(3) 舆情热点、拐点的警告。

(4) 舆情发展态势图。

4 总结展望

总的来说, 一个舆情监测系统, 无论具体实现细节上有多大差异, 其运转流程总是按照数据获取、预处理、数据分析、结果呈现这4个步骤进行。在革命性技术手段出现之前, 要对系统进行进一步的提高和完善, 就需要从两个方面开展工作。一方面在数据采集部分, 需要扩充监控网页的类型, 如加入论坛、社区网页的搜集, 或采用多种形式搜集策略相结合的方式, 如聚焦爬虫、网站监控等策略, 收集最广泛专业的舆情基础数据;另一方面在舆情的智能分析决策方面, 以自然语言处理技术与数据挖掘技术为基础, 融入包括智能检索、自动摘要、热点事件自动发现、热点词发现等高级需求, 对舆情报警以及统计报表等功能进行扩展。

摘要:在网络时代, 互联网舆情迅速形成并发展, 对网络舆情进行监测是信息时代政府工作的一个重要方面。本文研究了网络舆情的发展过程, 提出了一个互联网舆情监测系统的框架, 该框架将网络舆情监测系统分为数据获取、数据预处理、数据分析以及结果呈现模块, 并对每个模块的功能以及实现时所需的关键技术进行了阐述。

关键词:舆情监测,网络爬虫,中文分词,文本聚类

参考文献

[1]中国互联网络信息中心.第34次中国互联网络发展状况统计报告[EB/OL]. (2014-07-21) [2014-11-16].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201407/P020140721507223212132.pdf.

[2]L S Al Sumait.Online Topic Detection, Tracking and Significance Ranking Using Generative Topic Models[D].Fairfax, VA:Georage Mason University, 2009.

[3]王旭.互联网舆情监控系统中聚焦爬虫的设计与实现[D].北京:北京邮电大学, 2011.

[4]毛立鹏.互联网舆情监控分析系统的设计与实现[D].西安:西安电子科技大学, 2014.

上一篇:返工返修管理制度下一篇:《老马识途》阅读原文及答案