舆情信息监测服务系统

2024-07-26

舆情信息监测服务系统(精选6篇)

舆情信息监测服务系统 第1篇

舆情信息监测服务系统

舆情信息监测服务系统是一个高度集成的专业化数据检索和分析系统,总体上包括舆情信息采集、舆情分析引擎、舆情监测应用三个核心功能。从互联网采集新闻、论坛、博客、微博、平面媒体、微博等舆情信息,并存储到舆情数据库中,并通过舆情搜索引擎对海量的舆情数据进行实时索引。对采集的数据进行智能筛选,萃取准确的舆情信息。舆情分析引擎负责舆情数据库进行智能分析和加工。舆情服务平台把舆情数据库中经过加工处理的舆情数据发布到Web界面上并展示给客户。客户通过舆情服务平台浏览舆情信息,通过简报生产等功能完成对舆情的深度加工。整个系统结合了C/S、B/S两种不同的应用模式,并形成了优势互补。系统共分四大功能模块。分别为:信息采集功能、信息处理功能、舆情分析功能、舆情展示功能。

(1)信息采集

信息采集可自定义监测站点击监测关键词,新闻、论坛、博客、微博。结合元搜索技术(搜索引擎结果补充),确保信息全面性。

定向抓取源:云腾舆情监测分析系统收录7000个监测网站,包含站点数约为15万个站点,对这些站点中的新闻,论坛,博客等实现全面的抓取,同时支持对主流新闻网页分页、评论内容的采集以及对评论点击数、回帖数的抓取。

搜索引擎结果:云腾智能爬虫系统还可以自动跟踪多个搜索引擎的搜索结果,对监测数据进行补充。

自定义URL来源采集频率:除系统常规监测范围外,还可以自定义需要重点监测的信

息,客户可以设定采集的栏目、URL、更新时间、扫描间隔等,以便及时发现目标信息源的最新变化,并以最快的速度将个性化关注内容采集到本地。

(2)信息处理

垃圾信息过滤:基于机器学习的垃圾过滤机制可以自动过滤广告、水贴等无效垃圾信息。

智能去重:采用“文章相似度技术”,根据文档内容的匹配度确定是否重复、去重的级别;根据不同的需要特点分为:URL去重、标题去重、正文去重三个级别。

HTML内容提取:采用自主知识产权的HTML网页文本萃取技术自动提取任意复杂网页中的标题、内容、作者、发布时间等信息,自动跟踪文章分页;对于论坛信息自动分析主贴、回帖以及作者等信息。

快照保存:对于每个经过抓取和处理的网页,系统都存有一个纯文本的备份,方便客户快速浏览,也方便客户查看被删除的文章或帖子。

(3)舆情分析

文章权重计算:综合网站重要程度、文章出现位置、主题相关度、危机程度、点击回复次数、传播数量以及客户自定义规则等复杂参数计算的文章权重,加上基于自然语言处理技术的训练系统,能准确分析出重要舆情信息。

传播轨迹分析:系统可以对于一段时间(自定义范围)内的舆情信息走势进行分析展示,同时可以以不同的载体如论坛、新闻等分类呈现。

自动分类与情感分析:将自然语言处理技术(NLP)应用于舆情监测领域,对信息精准分类并自动做情感分析。

相似文章聚类去重:基于自然语言处理技术,系统根据文章内容相似程度技术相似文章,方便获取同一内容文章的所有传播网站。采用“文章相似性技术”,根据文档内容的匹配程

度确定是否重复、去重的级别;根据不同的需要特点分为:URL去重、标题去重、正文去重三个级别。在详细信息列表里,分为“过滤”与“不过滤”,展示相关文章;媒体覆盖分析:系统可以对于监测信息的媒体类型进行展示,同时对于信息的主要传播媒体自动识别,进行综合分析,以图表呈现。

(4)舆情展示

在舆情信息呈现上,信息监测平台支持多种互联网终端设备和接入方式。除了传统的移动设备Web网页接入方式,还可以通过短信、邮件对信息进行及时推送,同时还可以通过移动设备客户端(Android客户端、iOS客户端、平板电脑客户端等 如图)进行信息交互。

WEB客户界面:基于云计算模式,客户可以使用WEB浏览器随时登陆系统,在客户界面对舆情状况进行全面的了解。客户界面包含了如舆情走势、舆情详细信息、最新微博信息、载体覆盖情况等主要内容,并以列表以及图表展示等可视化方式呈现,方便客户查看。导航栏清晰明了,方便我们中心查看各种分类;实时搜索功能,可以自定义搜索条件查看系统抓取的最新监测信息;支持关键词组分类、媒体类型分类、信息属性分类查看。

舆情预警:预警级别显示,显示当日舆情级别,方便客户整体把握,同时呈现预警信息走势和预警信息列表。建立多个舆情指标,对于突飞舆情自动发出舆情信号,在最短时间内通过邮件方式通知客户,辅助进行舆情干预和引导。

舆情分析报告:根据舆情分析引擎处理后的结果库生产报告,客户可通过浏览器浏览,并且可以导出生成为Word、PDF等格式的本地文档。方便客户对不同时段的重点和热点以及对事件舆情数据的把握。

舆情信息监测服务系统 第2篇

舆情信息监测系统

白皮书

北京杰诺在线科技有限公司

http://www.aosou.net全国统一咨询电话:400-656-0601

北京杰诺在线科技有限公司

目 录

杰诺在线舆情监测系统............................................3

一、系统说明...................................................3

二、系统架构...................................................4

三、软件特点...................................................4

四、软件功能...................................................4

(2)功能特点................................................5(3)特点....................................................6

五、舆情加工...................................................8

六、舆情规划..................................................13

七、舆情服务..................................................14

八、评估反馈..................................................16

九、服务器要求................................................17

十、性能指标..................................................18

前 言

“互联网不完全是一个虚拟的世界,它的本质是现实的。互联网面向公众,直接对社会产生影响。”国务院新闻办公室副主任蔡名照曾这样描述互联网与社会的关系。我们还应该看到,在我国,互联网的受众是一个特殊的群体,因为占大多数的农民、民工都不使用互联网,由于互联网在我国传播的历史原因,稍长年龄段的人对互联网的使用也并不熟悉。因此,互联网直接面向公众,也就是具有局限性的这个公众,对社会影响的力量是有限的。

通过近期对本地BBS信息的观察发现,相当多的言论已经不是满足于一些日常生活的需要,而是在试图去唤起大众的注意,去改变令人不满意的现实状况。特别是对社会生活中出现的一些不正常现象,进行了尖锐的批判和抨击。

全国统一咨询电话:400-656-0601

北京杰诺在线科技有限公司

C.自动分类,聚类

D.网页非结构化信息抽取

E.基于语义分析的高级分词技术

F.信息指纹去重

G.多语言、编码格式自动识别

H.搜索引擎与数据库无缝集成 I.图片搜索

J.分布式系统、支持亿级数据检索

K.智能摘要、关键字提取技术(2)功能特点

A.信息实时监测

通过信息实时监测,可以分区域,按关键词,IP段进行实时监测

在快捷菜单中也可以对设置关键词汇,预警级别,监控网站,刷新速率,监控深度,邮件发送人,手机接收人等参数设置 B.自动聚类、分类

自动分类聚类功能,可以将信息监测搜索到的信息进行处理,帮助用户对数据进行 信息整理,系统支持人工分类和自动学习功能,也支持基于统计模型的自动分类。

C.监控管理

用户可以自行设置监控的关键词汇或语句,并可根据词语进行分类,例如:气候变化等。并可以设置即时发现后对敏感词汇的处理方式,以email或短信方式实时提醒。保留原始网页快照以备追踪热点信息,自动收集最新热门关键词汇(即热门话题)D.统计分析

分布统计:通过图表展示监控词汇和时间的分布关系以及趋势分析,包括地域信息分布。

热点统计:根据时间统计热点的分类和热门关键词,包括地域信息分布。

预警信息:对于敏感信息和预警级别重点信息监控。

信息报告:智能和人工生成信息报告,支持报告导出功能。

E.多用户和分级

支持用户管理,不同用户可以设置不同的监控源以及监控关键词汇,预警提醒等相关信息参数设置。支持竞争情报的报表的生成和上报。F.一键结果上传

一键或批量将所监测的信息第一时间转载到自己的网站,自动提取正文和自动编写摘要。G.一键导出

将信息导出到WORD文档中,可供二次编辑或打印,自动编写摘要,自动提取正文!H.信息加工

将信息导出到WORD文档中,可供二次人工编辑,自动编写摘要,自动提取正文!I.追加文档

全国统一咨询电话:400-656-0601

北京杰诺在线科技有限公司

3、添加监测页

4、添加关键字

全国统一咨询电话:400-656-0601

北京杰诺在线科技有限公司

5、监控文件导入导出,定时保存快捷操作

五、舆情加工

1、自动处理舆情:可自动分类、自动排重、自动编写摘要,自动提取正文和提取关键词等。能筛选出重要性强,急待处理舆情信息,过滤无用,过时,低影响力的信息。

(1)、右键常用操作功能

全国统一咨询电话:400-656-0601

910111213

北京杰诺在线科技有限公司

(3)个性化定制和邮件订阅:用户可以根据要求,分类定制舆情信息,收藏重要的舆情信息,以及通过订阅获取舆情邮件自动送服务,实现个性化和及时便捷的舆情服务。

全国统一咨询电话:400-656-0601

北京杰诺在线科技有限公司

3、分析网络舆情传播路径,并能通过反向解析出url所对应的网站名称。

4、一键转载,轻松将标题,来源,正文,摘要等参数转到自己的网站。

八、评估反馈

1、舆情反馈、批注、评论:

(1)反馈舆情需求:用户可以提交舆情需求信息,成为改进舆情规划的依据。

全国统一咨询电话:400-656-0601

北京杰诺在线科技有限公司

(2)舆情批注和舆情评论:领导可以对舆情信息进行批注,一般用户可以对舆情信息给予评论。批注和评论成为下一步改进舆情规划的依据。

(3)统计汇总:支持对舆情信息浏览量、舆情加工工作量统计和舆情采集源有效性的统计。以文字和图表的形式直观的形成、生成各种网络舆情趋势图表。利用这些统计数字和图表可以有效地对舆情内容、采集源和舆情加工人员绩效进行评估,推动舆情工作持续改进。

九、服务器要求

(1)CPU: P4 2.8以上

舆情监测系统设计 第3篇

近年来,高校网络建设伴随着网络技术的发展取得了巨大进步,同时,为了保障在校学生通过网络获取的是安全健康的信息,使得校园网舆情监测越来越受到重视。学生上网的人数已经超过了7 600万,而在校大学生的比率就达到了1∶4,在校大学生受到了来自现实生活中敏感问题的最大波及,而部分学生可能会将自身生活中的负面情绪在虚拟的校园平台上散播,导致校园网络充斥着各种情绪[1]。

虽然在当下我国对大型媒体网站舆情信息分析已有不少研究,比如北大方正集团研究的方正智思系统,它可以深入分析舆情信息,并起到正确导向作用。但它主要针对的是政府部门的舆情信息,而针对新兴媒体如校园贴吧和微博校园等现在大学生获得校园知识与信息的主要媒介的舆情监测仅仅处于初级阶段,对舆情的监督分析并不到位,因此进行针对有关校园的舆情监测的研究是有必要的。

1 网络舆情概述及相关指标研究

1.1 网络舆情概述

舆情是指在特定的社会环境中,随着社会发展,民众对社会管理者产生的社会政治态度。它是多数群众关于社会环境中出现的各种现象表达出的观点、态度的总和。网络舆情则是指网络上传播的社会舆论的一种表现形式,是互联网上的公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点[2]。校园网舆情信息的主要传播途径是:新闻网站、门户网站等。网络舆情的形成如图1所示。

通过有关校园的网络信息传播包含了大学生对当今社会各个方面很多症状以及许多讨论度高的现象的想法和方向。因此,网络舆论能够最有效、迅速地回应不一样的层次社会舆情现状与发展态势。怎样抓住虚拟网络社会的即时信息,保证校园甚至社会有关方面的茁壮发展,不仅仅要对传统方式重视,更需要在网络的安全方面做出努力。

1.2 相关指标研究

舆情监测系统指标体系的建立有较强的研究价值和应用需求,它恰到好处地将互联网信息的研究知识和应用需求融为一体,使得网络舆情监测手段和系统的架构建设有了更广阔的空间。因此高校等学生基数大的社会空间能够得到更为真实可靠的信息,及时接收来自学生的声音。并且通过辨别和抓取具有引导性、舆论性、热点性的校园网络信息,及时做出预警措施,达到对舆论信息的正确导向,对网络安全的实时引导,从而在苗头上扑灭可能出现的隐患。这种指标的建立同时能够在研究和应用的不同层次上引导舆论信息的监测,并提前发现倾向性的舆情信息,因此构成高校校园网的舆论信息发现、处理、监测以及预警。

舆情监测系统相关指标如表1所示。

2 舆情监测系统设计

2.1 舆情监测系统设计框架

根据信息倾向研究能够知道信息发布者所包含的情绪、立场、想法、意愿等。现在基本使用聚类手段和信息倾向研究手段,针对在校园网中发布的可能带有不良倾向的信息进行分析,分类区别并归纳学生观点。这样可以同时进行话题的进展追踪,研究新出现的主题是否有重复的题目。其次可以及时处理突发事件,从时间,空间上进行主题追踪,预防出现大规模的影响。最终通过需求分析,确定系统模块规划,可以得出校园网舆情监测系统的基础是能够进行信息采集,而目的是达到舆情预警的效果并通过展示界面及时通知决策者,整个监测模块的设计如图2所示。

在整个系统设计中,采集模块、分析模块、预警模块的关系层层递进,采集模块作为基础模块完成整个系统信息的采集工作,将信息储存在文件中;分析模块在采集模块之后进行文本分析,完成舆情的趋势分析和热点话题发现;最后预警展示模块根据前两个模块分析的信息,依据危机度设定进行舆情的预警并通过展示界面传达信息给最终决策者。模块之间的关系如图3所示。

2.2 详细设计

2.2.1 信息采集模块

信息采集模块为整个舆情监测系统的基础模块。本模块的目的是实现对目标空间内的信息采集,选择具有较多采集价值的目标网站,可以减少不必要的爬行过程。采集模块流程图如图4所示。

在整个模块中,首先进行链接分析,Spider主要通过各种Web协议自动采集网络上的相关信息,并将Web页面下载到本地进行分析。信息采集的起点是从一个种子URL集出发,通过Web协议向所需的页面扩展。根据Linkage/Sibling Locality特性,需要选择质量较高的主题URL作为初始种子UR集;然后在页面采集完后,对页面进行解析,从中获取链接及其上下文数据、正文、标题、摘要等信息;接着完成无法解析的页面模块的过滤,无效页面数据的去除;只保留有效的主题词语。最后保存有效文本数据。

通过信息采集,可以进行网络信息管理、舆情趋势调控。而网络爬虫正是网络舆情采集的核心方法。网络爬虫(Web Crawler)实质上是一个HTML页面爬行程序,通过HTML页面对应的URL地址下载HTML页面,从此页面(一般是网站的首页)开始,下载HTML页面的内容,通过分析器,筛选过滤找到这个HTML页面上的其他URL连接,这些URL地址将作为寻找下一批HTML页面的基础,直到将站内所有的HTML页面都遍历完为止[1]。

网络爬虫基本上可以划分为6个部分:URL处理器,Web信息提取器,网页去重检测器,URL提取器,标签信息获取器,数据库,各部分协作从Web上获取信息。网络爬虫的基本结构图如图5所示。

(1)URL处理器。这个部件主要给“待提取的URL”进行排序,并根据一定的策略向Web信息提取器分派URL。URL处理器主要有三个数据来源:初始的种子URL集合;从URL提取器传递过来的新发现的URL集合,它们是从己提取页面中分析得来的;页面的Meta信息、主题以及摘要等信息,来自标签信息获取器,它们主要用来显示从URL提取器中传递过来的URL的重要性,为在队列中进行排序提供依据。

(2)Web信息提取器。这个部件处于系统的底层,主要通过各种Web协议来完成网络数据的采集,如图6所示。一般来说,协议包括HTTP、Gopher、BBS以及FTP等,也有些Web信息提取系统会根据实际需要获取Web Chat、ICQ等特殊网络信息。

(3)网页去重检测器。Web上存在着大量的镜像页面和重复的页面内容,不进行网页重复内容的检测过滤,将极大地浪费网络带宽和系统的运行效率。在进行重复内容检测时,一般可以采用简单的段落匹配方法或者相对复杂的相似度匹配方法。

(4)URL提取器。对于采集到的页面,通过网页去重检测后,需要分析其中的链接,并对链接进行必要的转换以获取真实的URL,这些任务就是由URL提取器来完成的。首先需要判别页面类型,可在对HTTP应答头的分析中得出,有时也可以通过分析URL中的文件扩展名来判别页面类型。随后,需要分析的HTML标记包括<a>,<area>,<base>,<frame>等。页面链接中给出的URL格式可能是不一样的,既可能是完整的绝对路径URL,也可能是一个相对路径。

(5)标签信息获取器。这里所要获取的信息包括已提取页面的Meta信息、作者信息、页面的标题、页面的摘要等。主要目的是在没有对页面内容进行语义信息理解的前提下,尽可能多地分析出HTML标签、结构等的信息,对从页面中提取出的URL质量的好坏给出一个度量,然后再传输到URL处理器,对待提取URL队列进行排序。

(6)数据库。通过网页去重检测后的页面数据、提取出来的Meta信息、作者信息、主题和摘要等均需存入数据库中,以备使用。例如,进行分析建立索引等。由于Web页面规模庞大,提取的相关数据在存入数据库之前,一般要进行压缩处理。

2.2.2 舆情分析模块

舆情分析模块是在采集模块的基础上,对采集所获得的内容进行分类和分析,对信息初步完成再处理,主要目的是将原网页的数据通过处理转化成数据形式。舆情分析模块的主要目的是通过分析将采集到的信息进行智能处理,最终完成舆情关键信息的获取,它是整个设计的核心部分。舆情分析模块由预处理子模块、分词功能子模块、信息聚类子模块和热点发现子模块组成,如图7所示。

预处理子模块:本模块的目的是在抓取页面时,去除干扰信息,保留有用信息。

分词子模块:本模块通过中文分词技术,对初步获取的信息进行分词,达到电脑自动识别语句含义的效果,然后通过TF*IDF算法完成关键词词频等信息的记录。中文分词指的是将一个汉字序列切分成一个个单独的词,它是文本挖掘的基础,在本文中使用的是MMSEG分词算法,通过这种改进算法,可以提高系统的正确识别率。

信息聚类子模块:本模块的目的是发现某一主题的所有相关信息和相关的用户群,通过文本聚类分析将经过处理的舆情信息按照不同的性质分类成不同的类别,然后经过一定的计算处理判断该主题的舆情构成和公众基本态度。

热点发现子模块:该模块功能是通过关注度算法计算热点关注度,再进行热点统计,判断热点信息类型,最后通过搜索功能进行信息查找,及时进行舆情导向控制。

2.2.3 舆情预警展示模块

舆情预警展示模块的目的是通过舆情预警,及时反馈信息给决策者。本模块首先会对聚类后的舆情信息进行统计,统计元素包括时间、网站、回复和点击数等;再通过直观的图表方式展示到浏览器端页面上。其次预设舆情信息的安全类别有5个类别,由弱至强分别由数字1~5代表;然后对信息关键字的负面词进行加权计算,再将计算结果与安全级别匹配,最后把结果推送给舆情工作人员,从而帮助他们及时发现舆情,及时响应。

预警模块的主要目的是判断当前的主题舆情的倾向性,及时进行舆情预警。通过设定危机等级,判断当前信息倾向性;根据舆情相关指标研究,可以通过科学计算设置危机度等级,当搜索到有害信息,计算出危机度,即可以按照相应危机度的处理方法进行处理,一旦达到舆情危机度等级,立刻反馈给决策者,由决策者决定处理方法。

3 舆情监测系统模块实现

3.1 信息采集模块实现

信息采集模块为整个舆情监测系统的中心模块,本模块实现了对目标空间内的信息采集,再将采集到的信息保存在有效文本中,为信息分析做铺垫。信息采集模块是整个系统设计的核心模块,无论是分析模块还是预警模块都是在采集模块的基础上完成的;信息采集模块主要用到的就是网络爬虫技术。其内部工作流程图如图8所示。

采集模块和分析模块有很多交融点,在采集模块建设过程中也要规划好分析模块的建设,在学习采集模块所使用的技术手段时可以同时进行下一步的设计工作。最后,校园网舆情监测系统设计的基础也是相关信息的采集。

由于Web文档使用了文本标记语言,利用这个特点,找出Web文档中文本和标签匹配规律,生成其对应的DOM树(Document Object Model)。

通过输入一个目标HTML页面,如图9所示。保存的页面信息如图10所示。

3.2 舆情分析模块实现

舆情分析主要运用中文分词技术,该模块的实现使用基于词典的分词算法MMSEG算法,以正向最大匹配为主,多种消除歧义的规则为辅。通过这种改进算法,可以提高系统的正确识别率。它是中文分词技术的一项改进,中文文本在计算分析时有一个问题是缺少单词的边界,由于单词是一个基本的语义单元,因此有必要识别中文文本的单词让进一步的处理可以进行。而MMSEG算法的目的是开发一个基于最大匹配算法的两种变体的中文单词识别系统,这个系统由一个词典,两种匹配算法以及四种歧义消解规则组成。在一个由1 013个单词组成的样本中,这个系统的正确识别率达到98.41%。

其次,分词完成后,通过TF*IDF可以计算某个关键字在某篇文章里面的重要性,因而识别这篇文章的主要含义。TF*IDF是一种用于信息搜索和信息挖掘的常用加权技术。

TF*IDF单纯使用频率因子并不能保证系统的查询性能。当高频特征项在文档集合中经常出现时,使用它进行查询就会得到集合中的大多数文档,这会影响检索系统的查准率。因此需要引入一个与文档集合有关的因子,加大文档之间的区分度。如果特征项在集合中较少的文档中出现,则相应的文档集因子IDF较大。在文档总数为N的集合中,如果包含某特征项的文档数为n,相应的文档集因子是:IDF=log2(N n)。

经典的TF*IDF赋权因子在实际应用中取得了一定的效果,但是缺乏理论基础。概率模型则考虑特征项之间、特征项与文档之间的概率相依性,从而选择特征项并修正它们的权重,这样可以大大提高文档内容表达的准确度。在概率模型中,特征项赋权因子定义为出现特征项的相关文档个数除以不相关文档个数,但是系统无法自动确定文档与特征项是否相关,因此无法直接计算特征项的权重。可以在缺少完整的相关信息的情况下估计特征项的赋权因子,在特定情况下,赋权因子为log2[(N-n)n]这就是概率模型IDF,有:

TF和IDF参数是在文本检索中最常用的向量权重计算方法。它们刻画了特征项表达文本内容属性的能力。TF词频指的是某一个给定的词语在该文件中出现的次数。TF越大,此特征项在文档集中出现的范围越广,说明它的重要程度越高;IDF反文档频率的主要思想是:如果包含词条的文档越少,IDF越大,并且此特征项在文档中的的分布越集中,说明它在区分该文档内容属性方面的能力越强,且词条具有很好的类别区分能力。

聚类结束后,可以获得关键词的词频数,TF*IDF,和权重。同时获得的词频数,权重等具体数据将可以用于预警模块中具体的指标参数计算,由图11可知,其中“陕西”一词,在文件中出现的次数是1次,权重为0,图12为聚类结果。

4 结语

通过对校园网络舆情特点的分析,在一些门户网站的信息收集、整理,能够及时发现网络舆情热点。在现有的基础上提出了一套适合校园网络的舆情监控系统,根据现存的舆情指标,将舆论信息的发布、受众倾向、信息扩散度和不同区域作为4大校园网舆情指标,并且实现了信息采集和舆情分析模,从而对网络舆情进行实时监管。

摘要:为了及时调控和遏制校园内突发的不良网络舆情事件的蔓延,引入最近几年针对网络舆情监测过程中的方法及思路,以加强网络信息的监测管理工作为目的,结合信息采集和舆情监测指标研究,设计了一套校园网舆情监测系统。该校园网舆情监测系统实现了信息采集模块功能及部分分析模块功能,达到了采集信息的效果,对舆情完成了初步分析。

关键词:校园网舆情,爬虫系统,模块设计,监测系统

参考文献

[1]于琨,孙新领.基于信息挖掘的高校网络舆情监测系统开发[J].河南机电高等专科学校学报,2012(1):24-26.

[2]李舒晨,刘云,李勇,等.网络舆情分析中网页信息预处理方案的实现[J].电脑与电信,2008(10):30-33.

[3]陆瑞.水利工程舆情分析模型及指标体系设计[D].武汉:华中科技大学,2011.

[4]潘文富,郭友实.网络舆情监测技术研究综述[J].福建电脑,2011(8):39-41.

[5]谢国强,蓝立新.基于Web的网络爬虫技术研究[J].科教文汇,2008(4):198-199.

[6]高承实.微博舆情监测指标体系研究[J].情报杂志,2011(9):66-70.

[7]王粱.浅谈突发公共事件中网络舆情监测指标体系的应用[J].计算机光盘软件与应用,2011(12):46-47.

[8]任德志.基于网络流量的主机安全防护系统研究与实现[D].长沙:国防科学技术大学,2010.

[9]战琴.基于AJAX技术的Deep Web爬虫实现方法研究[D].青岛:山东科技大学,2009.

[10]龚静,李安民.一种改进的k-means中文文本聚类算法[J].湖南工业大学学报,2008(2):52-54.

舆情信息监测服务系统 第4篇

舆情监测系统的设计

舆情监测系统简要定义为:依托专用服务器群,利用搜索引擎、网络爬虫、语音分析等数据抓取技术,对已经添加有界站点的报刊、网站、论坛、微博、微信以及电视节目等各种媒体进行实时监测,将客户所关注的信息通过关键词或主题分类提取、梳理,形成预警信息和分析报告,并通过短信、电话、电子邮件等方式推送给相关人员,为舆情处置和领导层决策提供依据和参考。

舆情监测系统主要功能包括:

(1)可视化终端。客户可通过终端更改监测状态,查看预警信息、重要事件及重要新闻。

(2)舆情预警。智能搜索与人工过滤相结合,及时发现客户关注的负面敏感信息,通过短信、电话、电子邮件等多种方式快速通知相关人员。出现热点事件时,立即在系统内创建预警事件。

(3)重要事件。发生可能对客户产生重大影响的事件时,创建事件并添加关键字进行持续监测。

(4)重要新闻。客户可手动设置重点关注的媒体,当监测内容匹配后,立即在系统相关模块内显示或进行预警。

(5)舆情监测。通过预先设置的主题、关键字、媒体范围,自动将舆情信息进行匹配分类。

(6)舆情搜索。通过设置日期、关键字、排除词等条件,精准定位客户关注的新闻或媒体,提炼具体内容生成摘要。

(7)舆情日报。根据客户关注的焦点,收集整理每日相关舆情,生成日报后发送到指定终端。

(8)研究报告。专业舆情分析师定期(周、月、季、年)分析整理客户企业舆情走势,生成总结和研究性报告,提出有针对性的意见建议。

理想的舆情监测系统,应该具有良好的热点识别能力、倾向性分析能力、信息跟踪能力和突发事件反应能力。此外,舆情监测系统还应具备易于操作、友好交互的用户界面,包括可视化的WEB终端、跨多平台移动客户端等。

舆情监测系统的实施

以某中央企业自行建设舆情监测系统为例:硬件方面需购置专用服务器若干、新添专用宽带线路、设置独立机房;软件方面需组建3~4人的软件工程师团队,系统开发周期2个月以上;人力方面需常设3~4名舆情分析人员,确保7×24小时轮岗值班。初期投入经费不小于500万元,舆情监测系统年运行成本不小于100万元。选择自行建设舆情监测系统的原因主要有:企业性质涉密、主营电信业务、软件开发实力较强等。

对于国有大型建筑企业而言,目前的舆情监测服务已经形成较大规模的成熟市场,舆情监测系统有多种商用产品可供企业选择。供应商主要包括四种类型的公司:第一类是拥有网络信息搜索或文字(中文)信息处理等相关技术的软件公司;第二类是公关、广告公司,这类公司是在传统媒体监测业务的基础上,发展出网络媒体监测业务;第三类是网络营销服务公司,此类公司涉猎范围较广,具有较强的网络资源动员能力;第四类是依托传统媒体延伸出的增值服务,例如:人民网舆情监测室。

如选择第一类软件公司建设舆情监测系统,优势和成本核算情况如下:A公司拥有自主研发的舆情监测系统核心技术,包括B/S架构、专用高速带宽、自动语音分析技术、云计算服务器等;拥有较大规模工程师和客户服务团队,对于客户的各种要求反应较快,系统开发和调整的灵活性强;由于同时面向40余家客户提供舆情服务,单个客户的舆情监测系统运行费用可控制在每年50万元以下。

因此,相比企业投入大量资源自行建设舆情监测系统,选择以上四类之一的商用舆情监测产品,在充分结合企业自身实际情况的前提下,舆情监测系统的建设周期、成本控制等方面有明显优势。

典型的商业舆情监测系统项目实施流程如下:

(1)A公司调查客户企业舆情监测需求,成立项目团队,拟定预设目标。

(2)项目团队同客户企业对接,制定项目实施进度表。

(3)项目团队分析客户企业过往舆情主要来源和扩散路径,划分监测系统的层级和主题,设计舆情监测系统UI。

(4)客户企业根据自身实际,提供各主题下的监测敏感词。

(5)项目团队注入数据,调试系统,舆情监测系统试运行。

(6)客户企业随机发布测试信息,检验舆情监测系统运行效果。

(7)客户企业反馈试运行和测试结果,项目团队对舆情监测系统进行细化调整。

(8)客户企业舆情监测系统正式上线运行,项目团队撤销,设立后期值班和客服人员。

对于国有大型建筑企业而言,舆情监测应侧重于安全质量、突发事故、群体事件、法律纠纷、地产开发、海外经营等方面,每方面对应一个至数个主题,每个主题下设若干关键字词,可有效提高监测针对性。需要注意的是,在舆情监测系统上线运行后,企业要对监测主题和关键字词进行不定期调整,结合自身情况变化进行补充或删减,以确保舆情监测结果的准确性。

舆情监测结果的处置

舆情监测系统投入使用后,对于监测到的负面舆情,应以“早发现,早研判,早处置、早冷却”为基本原则,从源头上防止负面舆情发酵扩散。对舆情预警信息实行“获取预警信息-进行分析研判-转发责任单位-妥善应对处置-反馈处理结果”的闭环工作程序。对于监测到的可能引起媒体炒作、引发舆论危机的事件,由涉事企业及时上报事件详情,提出舆情应对预案,上级企业新闻宣传部门给予认真指导,协助解决问题。

预警信息根据具体内容和可能的危害程度,分为蓝色、黄色、橙色、红色等多个预警级别。黄色以上必须启动处置程序。涉事企业的新闻宣传部门负责人为舆情预警信息转发对象和应对处置第一责任人。

以某中央企业为例,舆情监测系统预警信息处置流程如下:

(1)上级企业(总部)新闻宣传部门收到负面舆情预警,迅速进行分析研判,继而转发至涉事企业(二级企业)新闻宣传部门负责人,同时转发本级相关部门。

(2)涉事企业新闻宣传部门负责人收到舆情预警信息后,及时回复,确认接收状态。

(3)上级企业新闻宣传部门根据舆情预警信息内容,以及调查研判的初步情况,填制负面舆情处置(督办)单,发至涉事企业新闻宣传部门,限期回复。

(4)涉事企业新闻宣传部门对舆情预警事件进行情况了解,对负面舆情进行妥善处置,上级企业新闻宣传部门给予相应指导和帮助。

(5)涉事企业新闻宣传部门依据事件调查结果和负面舆情处置情况,完成负面舆情督办要求内容,在规定时间内将相关材料发回上级企业新闻宣传部门。

(6)上级企业新闻宣传部门收到填报完成的督办材料后,登记存档,同时抄送本级相关部门(办公室、纪委等)。

(7)上级企业新闻宣传部门定期通报全公司负面舆情处置反馈结果,并纳入新闻宣传工作考核评价体系。

需要注意的是,舆情预警信息在传递和处置过程中,要做到对象明确,路径清晰,严防负面信息发生泄露或无序传播,造成舆情上的“次生灾害”。

通过舆情监测系统的建立与实施,可以确保企业系统、科学、快速、高效地分析和预警信息,实现舆情处置的制度化、常态化、流程化。在当今舆情发展态势瞬息万变、反应速度必须以秒为计的时代,舆情监测系统尤其显得愈发重要,已经成为抢占舆论阵地、维护企业形象的基础和保障。但必须认识到,舆情监测系统依赖于媒体数字化和网络化,在技术上具有一定局限性,可能出现数据抓取速度较慢、漏报误报重要舆情等问题。企业在面临重大突发事件、可能造成较大影响的情况下,应安排专职人员,进行有针对性的人工舆情监测,与舆情监测系统形成互补,确保舆情获取的及时和准确。

(责任编辑:李万全)

网络舆情监测系统 第5篇

功能和服务

舆情监测系统的数据是经过清洗、过滤、抽取、分析和挖掘的,舆情监测系统的主要功能并不只是提供简单的舆情信息搜索,而是具有全网搜索、定向监测、自动发现,自动预警,趋势分析,自动分类等功能,具有丰富的统计结果。

而互联网搜索引擎只能提供相关的搜索服务,要靠人工主动去搜索,搜索结果出于商业利益的驱动,掺杂很多的不合理的因素,准确性、可用性不强。全面性和及时性方面完全不能满足舆情监控的需要。

采集范围和深度

舆情监测系统所采集的信息范围主要是定向的,是用户关注的特定区域、特定领域的网站,针对这些网站可以做到全面采集和精准采集。虽然baidu/google等互联网搜索虽然采集范围广泛,但是针对具体的舆情载体,采集深度不够,采集不全面。

目前搜索引擎的数据采集采用的是广度优先策略,会根据url地址进行重复采集的控制。对于论坛、贴吧等舆情载体不会按照主贴、跟帖、翻页的方式进行精确采集,采集深度满足不了舆情监控应用的需要。

西盈网络信息雷达系统专门针对西盈网络舆情监测(监控)系统和西盈竞争情报系统开发而成的,深度挖掘技术超越了google等以智能化和广度见长的搜索引擎爬虫系统。

更新速度

舆情监测系统用户可以自己设置采集的更新频率,对于舆情高发的载体网站可以做到分钟级的更新,这一点互联网搜索引擎是无法达到的。互联网搜索引擎的采集周期一般都是数天或者数周,甚至会出现漏采,无法采集的情况。

采集的网站种类

舆情监测系统可以做到对新闻,论坛,博客,贴吧等舆情载体的全面采集,尤其是针对论坛(包括跟帖),贴吧等这些“草根”网站(这些媒体往往是舆情高发区域),实现全面、迅速的舆情采集的同时,可以实时更新信息的点击数,回复数,转载数等等。而互联网搜索引擎大多是采集新闻网站,而对于论坛,贴吧、博客等等往往无能为力,更无法提供舆情分析需要的统计数据。采集数据的有效性

互联网搜索引擎所采集的数据,往往是没有经过过滤的,甚至充斥着大量的广告等垃圾信息。这些信息往往可以作为舆情的并不多。而舆情监测系统所采集的数据全部都是有效的,和用户相关的,真正称之为舆情的数据。

舆情信息储存和利用

舆情监测系统的信息是储存在用户本地的,可以进行归档,分析利用以及作为应用系统的数据来源,但是针对互联网搜索引擎中的数据,用户没有任何干预的手段,只能通过其固定的检索服务进行访问。

相关信息的数量

百度和谷歌等互联网搜索引擎虽然拥有绝对多的数据量,但是对于和用户相关的舆情信息,由于其没有定向采集全面,深度等优势,其收录数量就会大大低于舆情监测系统。另外,舆情监测系统集成了互联网搜索引擎的元搜索功能。可以整合多个搜索引擎的搜索数据。

总结

成功的舆情监测系统是主动告知用户google等搜索引擎中或收录或没有收录的与“我”相关的舆情信息。重大事件及时预警,并提供量化的统计分析数据助力舆情分析,通过自动生成舆情报告等方式辅助舆情工作。

网络舆情监控系统解决方案

方案背景

据中国互联网信息中心调查,截至2009年12月31日,中国网民达到3.84亿人,全国互联网普及率28.9%,手机网民规模达到2.33亿。网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为反映社会舆情的主要载体之一。网络环境下的舆情信息的主要来源于新闻评论、BBS、博客、聚合新闻(RSS),网络舆情表达快捷、信息多元,方式互动,具备传统媒体无法比拟的优势。

由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过BBS论坛、博客、新闻跟贴/转贴等渠道来表达观点传播思想。如果引导不善,负面网络舆情将对社会公共安全形成威胁。对相关部门来说,加强对网络舆论的及时监测、有效引导,以及对网络舆论危机的积极化解,对维护社会稳定、促进国家发展具有重要的现实意义,也是创建和谐社会的应有内涵。对企业来说,准确掌握产品和市场情况,监控竞争对手和行业动态,是企业市场、行销决策的重要支撑。方案内容

系统介绍

易观网络舆情监控系统,整合互联网信息采集技术及信息智能处理技术,通过对互联网海量信息自动抓取、自动分类聚类、主题检测聚焦,倾向性研判等,实现用户的网络舆情监测和新闻主题追踪等信息需求,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。

系统结构图

系统组网图

系统功能

1)深度多渠道网络信息采集,为用户提供监控源配置功能,可以对监控源的优先级进行配置调整。

2)完善的信息预处理机制:超链分析,编码识别,URL去重,锚文本处理,垃圾信息过滤,内容去重,关键字抽取,正文抽取等。

3)强大的索引分词机制,对舆情信息实施双重过滤,具有自动分类、自动聚类、相似性排重功能,系统能够自动完成热点发现。

4)热点舆情:系统自动识别出热点焦点事件,以舆情形式分新闻、论坛和博客三种类别呈现。及时发现网络热点信息。

5)专题追踪:生成专题报道对网络话题进行专题化的侦测和追踪,如两会、奥运会,对专题话题形成系统性的掌握和监控。

6)分站/分类浏览:对系统中舆情可以按网站和不同的分类进行浏览。同时可以对显示的舆情进行操作(设置影响、入简报、专题、收藏、删除)。

7)趋势分析:来源载体/站点分布、单个/多个关键词热度曲线图、主题/关键词热度的整体趋势、文章转载量日均/总体趋势分析、舆情信息的地域分布、网民检索行为分析。

8)突发事件分析:对突发事件进行预警,跨时间、跨空间综合分析,获知事件发生全貌。9)多种舆情检索方式:可按网站、类别、时间段、关键词等条件进行专项化全文检索,并可生成查询时间和次数、关键词查询频率等查询统计数据。另外还将结合检索关键词,随时补充全文检索库中的关键词,有机结合个人操作习惯,可在检索结果中进行二次检索。

10)舆情统计报告:根据舆情分析引擎处理后生成报告,用户可通过浏览器浏览,根据指定条件对热点话题、倾向性进行查询,并浏览信息的具体内容,提供决策支持。

11)统计报表:系统生成各种形式的报表。报表包括图表和数据表格,图表包括饼图、折线图、直方图等,如总量图、趋势图等;数据表格是对舆情信息的数理统计,以数字的形式记录各项舆情数据。另外用户可以自己需求定制报表模版,比如日报、周报、月报等。

12)舆情报警系统:对突发事件、涉及内容安全的敏感话题及时发现并报警,系统提供多种报警方式。

系统特点

1)精准全面的网络舆情采集,能够对论坛、博客、新闻评论等内容进行全面、精确的采集和及时的更新,为舆情分析提供强有力的数据保障。

2)多维度实时监测、过滤网络舆情信息,采集到本地的文章会自动标注并分析,具有趋势图直观展现。

3)专业的舆情办公平台,用户可以根据实际工作需要,将需要关注的信息定制到系统,用户可以随时调出自己需要的资料,直接追踪关注事件的传播源头,把握传播动态,系统自动生成舆情报告,节省用户人力。

4)专业的舆情分析顾问服务,基于易观深厚的互联网行业背景以及对网络舆情深刻的认识,协助用户进行舆情监控设计,对用户背景、行业特征及需求做深度调研,给出最适合用户的舆情监控方案。

5)丰富的舆情项目开发实施经验,有专业的舆情实施队伍和资源,提供从舆情监测规划、舆情系统选型、舆情项目实施、舆情工作开展到舆情干预的一体化的舆情系统解决方案。

6)拥有成熟的舆情产品,可以根据用户要求定制,需求牵引及时,在保证效果的同时提供良好的用户体验。

商业价值

帮助客户全面、及时、精准、专业、高效获取网络舆情并为己所用;

第一时间获取客户相关的正负面新闻、泄密信息、领导相关报道、近期舆论热点等,健全危机事件预警机制防患于未然;

协助企业客户准确掌握产品和市场情况,监控竞争对手和行业动态,为企业市场、行销决策提供支持支撑服务。

附件1:

“网络游戏未成年人家长监护工程”实施方案

“网络游戏未成年人家长监护工程”是一项在政府部门、人民团体指导下,社会和家长参与,网络游戏经营单位具体实施的社会行动,旨在加强家长对未成年人参与网络游戏的监护,引导未成年人健康、绿色地参与网络游戏,构建和谐家庭关系。该工程自2011年3月1日起全面实施。

一、“家长监护工程”的主要内容

(一)网络游戏经营单位建立专门的服务页面,公布专线咨询电话,开通专门受理渠道,介绍受理方式。

(二)家长需要了解、引导、控制孩子游戏活动的,由家长向网络游戏经营单位提供合法的监护人资质证明、游戏名称账号以及限制措施等信息。限制措施包括:限制每天或每周玩游戏的时间长度,限制玩游戏的时间段,或者完全禁止。

(三)网络游戏经营单位按照家长要求对未成年人的账号采取限制措施,并持续跟踪观察,及时反馈该账号的活动,为家长提供必要协助,制止或限制未成年人的不当游戏行为。

二、实施“家长监护工程”的具体要求

各网络游戏经营单位要做到“四有”,即有专人负责、有专线电话、有专区设置、有季度报告。

(一)专人负责

1.要指定专门的负责人,并将指定负责人及联络方式向所在地省级文化行政部门备案;

2.培训专门服务人员对“家长监护工程”提供专业咨询解答和服务支持;帮助家长了解被监护人游戏行为,提供家长与被监护人进行沟通的建议;

3.服务人员要持续跟踪每个申请,及时与家长沟通情况,反馈该账号的活动,了解未成年人参与游戏的状况,为家长提供必要协助。

(二)专线电话

1.开通单独的专线服务电话(区别于普通服务热线),提供咨询解答和受理服务;

2.在原有的客服电话中提供转接到专线服务电话的链接;

3.要提供多种服务渠道,确保家长可选择最便利的方式提出服务申请(传真、网络申请、电子邮件、信函邮寄、上门申请等)。

(三)专区设置

1.在网站设置“家长监护工程”专区,在主要运营产品网站的显著位置设置进入该工程页面的链接方式; 2.专区要有对工程情况、申请条件、处理流程、可采取的监护结果等事项的说明;

3.要在专区显著位置设置监护服务申请入口、受理方式(家长监护专线);

4.专区要预设好问题和答案,或展示虚拟案例操作流程及结果,供家长阅览和参考;

5.专区要设置服务申请进度查询;

6.专区要登载《未成年人健康参与网络游戏提示》(附件2),引导未成年人健康地玩游戏、玩健康的游戏。

(四)季度报告

各网络游戏经营单位要在每季度末向所在地省级文化行政部门提交“家长监护工程”情况报告。报告内容包括咨询数量、申请数量、受理与完成情况、重点案例分析、疑难问题说明,对于工程实施过程中出现的问题提出意见或建议。

三、强化信息公开和社会监督

舆情监测系统建设方案 第6篇

常态和非常态,自动搜索关注量较大的新闻和热点,通过对新闻及相关数据的挖掘、分析,及时发现社会安全隐患,及时发出预警信号,达到早发现、早报告、早处置的目的,做好社会安定防控工作。

舆情监测系统通过对热点问题和重点领域比较集中的网站信息,如:网页、论坛、博客等进行24小时监控,随时下载最新的消息和意见。下载后完成对数据格式的转换及元数据的标引。对下载本地的信息,进行初步的过滤和预处理,减少智能分析的工作量。对热点问题和重要领域实施监控,前提是必须通过人机交互建立舆情监测的知识库,用来指导智能分析的过程。对热点问题的智能分析,首先基于传统基于向量空间的特征分析技术上,对抓取的内容做分类、聚类和摘要分析,对信息完成初步的再组织。然后在监控知识库的指导下进行基于舆情的语义分析、倾向性分析,使管理者看到的民情民意更有效,更符合现实。最后将监控的结果,分别推送到不同的职能部门,供制定对策使用。

1.1 互联网舆情监控系统 1.1.1 需求分析

通过对网页、论坛、博客、新闻评论信息的深度搜索和挖掘,实时对突发公共卫生事件的媒体报道和公众舆论信息进行汇聚和统计分析,使市卫生局应急办人员能够随时了解社会公众的声音,每天自动生成舆情监测专报,上报相关领导,为领导决策提供准确、全面的信息。

1.1.2 建设方案 1.1.2.1 网络舆情抓取

自动采集网络媒体发布的网络新闻、BBS论坛信息、博客内容信息,舆情采集用户只需输入一个待采集的目标网址即可实现图文结合采集到本地。网页采集模块在互联网上不断采集新闻信息,并对这些信息统一加工过滤、自动分类,保存新闻的标题、出处、发布时间、正文、新闻相关图片等信息,经过手工配置还可以获得本条新闻的点击次数。以网络论坛BBS为代表的交互性网络站点,往往是一些突发事件的网络舆情爆发点。

1.1.2.2 网络舆情热点自动发现

对重要的热点新闻信息进行分析和追踪,对于突发事件引起的网络舆情,可以及时掌握舆情爆发点和事态。系统会根据新闻文章数及文章在各大网站和社区的传播链进行自动跟踪统计,提供不同时间段(1天、3天、7天、10天)的热点新闻。对每条热点新闻还可以查看新闻相关传播链,了解在某一时间段该热点新闻在哪些站点的传播数量。同样也提供热点帖子、热点专题等功能。

1.1.2.3 多维度关联的舆情展现

自动对每天采集的海量的、无类别的舆情进行归类,把内容相近的文档归为一类,并自动为该类生成主题词。可支持自动生成新闻专题、重大新闻事件追踪、情报的可视化分析等诸多应用。

1.1.2.4 舆情分析和统计

1、热点专题统计

热点专题总体分布、重点预警事件总分布、各类重点预警事件分布。

2、站点统计

可统计各采集站点的采集文章数、统计各论坛站点的采集文章数。

3、热点人名

系统自动抽取文章中的人名,并按该人名出现的文章次数进行统计,可查看热点人名的传播趋势。可按日期查询热点词语。

4、热点地名

系统自动抽取文章中的地名,并按该地名出现的文章次数进行统计,可查看热点地名的传播趋势。可按日期查询热点地名。

5、热点机构

系统自动抽取文章中的机构名,并按该机构名出现的文章次数进行统计,可查看热点机构的传播趋势。可按日期查询热点机构。

6、热点词语

系统自动抽取文章中的热点词语,并按该词语出现的文章次数进行统计,可查看热点词语的传播趋势。可按日期查询热点词语。1.1.2.5 舆情专报生成

上一篇:耐火材料厂实习报告下一篇:七夕活动策划方案范文