神经网络网络舆情论文

2022-04-24

要写好一篇逻辑清晰的论文,离不开文献资料的查阅,小编为大家找来了《神经网络网络舆情论文(精选3篇)》,仅供参考,大家一起来看看吧。摘要:随着近年来中国网民数量众多而网络给予了众多网民言论自由,因此网络舆情越来越被关注,对网络舆情的预警也越来越迫切。该文采用了五个指标对“厦门PX事件”、“昆明PX事件”和“宁波PX事件”进行量化描述,通过Matlab建立BP神经网络识别模型中进行学习,然后再对“宁波PX事件”进行预警识别。模型具有较好的识别能力,预警结果的准确率达到了90%以上。

神经网络网络舆情论文 篇1:

基于BP神经网络的网络舆情预警研究

摘要:企业网络舆情传播对企业和社会产生不可忽视的影响,对企业网络舆情监测和预警的研究能够为管理部门提供理论和实践指导。从舆情热度,舆情状况和舆情趋势三个方面,综合现有指标体系的优缺点,构建一个具有三个一级指标、十个二级具体指标的企业网络舆情危机预警指标体系。将获取到的指标数据运用定性与定量相结合的方法进行无量纲化处理,并利用Matlab进行BP神经网络模型创建,建立企业网络舆情危机预警模型。选取2017年以及2018年舆论相对集中的“携程亲子园”事件以及“滴滴空姐遇害”事件进行模型的训练以及模型验证。实验结果表明,基于BP神经网络的企业网络舆情危机预警模型是有效和可行的。

关键词:网络舆情;指标体系;BP神经网络;舆情预警

★基金项目:国家重点研发计划课题(2017YFD0401005);江苏省高校自然科学研究面上项目(18KJB520038)。

引言

随着互联网科技的迅速发展,网络深入到人们的日常生活中,网络舆情逐步转化为社情民意的主体部分,网络舆情技术随着互联网的发展,涉足面越来越广,负面网络舆情对于企业造成的影响越发凸显,企业对于自身的舆论也越来越重视,能夠提前预知大规模负面舆论的爆发,可以使企业及时采取有效的措施进行防范,尽可能的降低舆论带来的负面效应,及时止损。一个完善的企业网络舆情预警系统有着十分重要的现实意义。在负面舆论大规模爆发的前夕及时告知企业管理者,采取相应的应对措施减少负面舆论带来的不利影响,及时规避舆论恶化。国内外学者纷纷展开了网络舆情指标体系和预警模型构建的研究。在网络舆情危机预警方法方面,文献[1]利用动态层次文本聚类法挖掘网络舆情预警过程中的热点话题。文献[2,3]构建了微博舆论场超网络模型,提出了微博舆论场场强计算公式判别微博舆论场中舆情的演化。设计了基于微博舆论场的舆情演化规则。文献[4]首先根据Lyapunov指数证明网络舆情具备混沌的特征,然后对网络舆情时间序列数据进行相空间重构,最后进行网络舆情预测。文献[5]提出一种基于模糊推理理论的网络舆情观点聚合的CA(Cellular Automaton)模型,在元胞自动机模型Moore邻域结构下演化并分析个体属性以及邻域环境对网络舆情观点聚合现象的影响。文献[6]针对热点传播的问题提出改进的SIRS传播模型,该模型结合博弈论对SIRS模型中的传染体和免疫体进行演化博弈建模,对SIRS模型进行改进,得到热点话题传播的平衡点和规律。文献[7]也构建了谣言事件传播模型,研究热点事件传播规律。文献[8]为了解决网络舆情预警评价问题中样本数据的非线性和髙维性等实际难题,提出以投影寻踪理论为基础,利用文化基因算法确定最佳投影方向,建立了基于文化基因算法的网络舆情评价的投影寻踪模型。文献[9]将模糊神经网络模型用于公司产品市场销售状态的预警问题,为销售人员处理市场危机问题提供参考意见。

综上所述,国内外学者针对舆情监测预警模型主要集中在模型构建及态势评估等方面,从应用角度对企业网络舆情构建模型并量化算法的实例研究的成果较少。本文构造企业网络舆情危机预警指标体系并运用BP神经网络模型建立企业网络舆情预警模型。选取2017年以及2018年舆论相对集中的“携程亲子园”事件以及“滴滴空姐遇害”事件进行模型的训练以及模型验证。

1、企业舆情危机预警指标体系

1.1 企业舆情危机预警指标体系构建

依据2006年国务院发布的《国家突发公共事件总体应急预案》,将预警等级按照各类突发公共事件的严重程度、可控性和影响范围等因素分为Ⅰ级(特别重大)、Ⅱ级(重大)、Ⅲ级(较大)和一般[10]。本文将舆情危机预警划分为五个级别,分别是安全、一般、警告、严重,用1000、0100、0010、0001来表示。建立一个科学、严谨、高效、可行的完善的企业网络舆情预警指标体系最关键的在于指标体系中各项指标的选取,合理正确的指标有助于提升指标体系的合理性。我国的舆情预警研究的学者已经在该方面取得了显著的成果,文献[11]从传播媒体、传播范围、传播速度、情绪倾向程度及相关度等方面对舆情潜在影响力进行探索,构建了网络舆情潜在影响力指标体系并设计潜在影响力计算模型,对探讨网络舆论的潜在影响有一定的现实意义。文献[12]基于网络舆情中的舆情等级分类,划分移动社交网络中的舆情等级,同时结合生命周期理论,分析移动社交网络舆情生命周期。并通过实证研究验证指标体系是否合理。本文依据前人的研究,网络舆情预警指标的选取本着定量为主,定性为辅、科学性、可操作性等原则,最终构建3个一级指标,10个二级指标的网络舆情预警指标体系。在选取指标的同时,尽可能的以最少指标达最优预警目标的准则来选取,同时为了使模型容易构建,进行量化处理,尽可能的选择定量指标。

1.2 企业舆情危机预警指标说明

舆情热度是研究舆情的重要指标,通过搜索量、转发数、评论数、点赞数来衡量舆情热度,末端数据的获取主要来自于百度指数以及新浪微博。搜索量是指在一定的时间条件下,通过百度指数高级检索,检索指定企业名称为关键字的网络曝光率以及网民关注度。搜索量的多少反映了网民对于该话题的关注程度,通过搜索量的排序可以明确当前的热点话题。评论数是指在新浪微博中,网民对于某一舆情热点话题的评论,通过评论的内容以及评论数量的多少可以反映出该舆情事件在网民心中的关注程度。转发数转发数是指在新浪微博中,某条关于某热点事件的评论被转发的次数,如果网民转发该微博, 即表示他对于这一评论表示认同。转发数反映了该条微博在网民中的认可度。点赞数是指在新浪微博中,某网络舆情事件获得的点赞数量,该数值越大,则表明网络舆情发生的概率越大。

舆情状况主要通过网络舆情的真实性、舆情话题的敏感性、网民观点的倾向度来表示。网络舆情的真实性,话题的敏感程度以及观点的倾向度较为全面地展示了舆情的状况。真实性主要是因为网络空间的虚拟性与真实性相互融合,再加上互联网的虚拟性,许多言论难以辨分,舆情的真实性是反映舆情状况的最关键的指标。真实性采取定量分析的方法来确定,参考新浪微博的认证用户关于某网络舆情事件的微博数占全部的百分比来确定,认证用户是实名认证的,需要对自己发言的真实性负责,认证用户的言论的真实性较高。舆情的敏感性是用来衡量舆情未来发展的主要指标。敏感性越高,则该网络舆情热点话题的关注度越高,敏感性指标通过定性分析获取。倾向度是指网民对于某网络舆情热点话题所持的赞同、中立或是反对的态度。按照人们对于某事件的看法,倾向度可以分为赞同,中立,反对。该指标通过新浪微博中负面微博的占比来表示。

舆情趋势指的是舆情在接下来的一段时间内的发展趋势,主要是通过观察网络舆情的热度变化得出,而网络舆情热度变化主要通过搜索量变化、转发数变化、评论数变化得以体现,最终得出网络舆情的趋势变化。搜索量变化通过百度指数中在一段时间内对于某网络舆情事件相应关键词检索的数量变化来衡量。转发数变化通过新浪微博中关于某网络舆情事件的微博的轉发数量的变化来计算。评论数变化指的是新浪微博中关于某网络舆情事件的微博的评论数数量的变化。

2、企业网络舆情预警模型构建

2.1 BP神经网络的设置

本文采用BP神经网络进行企业网络舆情预警模型的构建,由于BP神经网络结构中包含隐含层,通常情况下,隐含层越多,网络的复杂性越高,计算难度越高。本文采用只包含一个隐含层的BP神经网络结构。

2.1.1 输入层、输出层、隐含层节点确定

依据构建的企业网络舆情预警指标体系,在该体系中选取了10个指标作为企业网络舆情预警模型的预警指标,则输入节点数为10,确定了预警等级为安全(1000)、一般(0100)、警告(0010)、严重(0001)四个等级,则输出节点为4。

隐含节点的确定采用公式(1)进行隐含节点的计算。

其中m为输入层节点数,n为输出层节点数,a为1-10之间的常数。

2.1.2 输入数据的归一化处理

由于指标选取的时候对相应的各项预警指标进行了一定的量化处理,在进行模型构建时,为了便于计算,减小误差,再一次的进行归一化处理,即通过公式将所有收集到的原始数据进行整理,同意转化为(0,1)区间内的无量纲指标值。

指标有正负方向之分,所以在进行数据归一化的无量纲指标处理时,也有着不同的方法。正向指标指标值越大越安全,所以以最小值为基准进行归一化处理,即在进行无量纲化处理时采用公式(2)进行处理;而负项指标与正向指标恰好相反,指标值越小越安全,在无量纲化处理时以最小值为基准,进行归一化处理即采用公式(3)。

2.1.3 训练参数的设置

在对数据进行归一化处理之后,设置训练参数,训练参数的设置不同也会对网络性能有一定的影响。

设置隐含层、输出层传递函数为logsig(对数S型传递函数),具有非线性的特点,设置训练函数为traingdx(学习率可变的BP算法),学习函数为learngdm(梯度下降动量学习函数),在相对应的训练参数设置中,设置显示间隔show = 25,设置网络学习效率lr = 0.05,设置动量参数mc = 0.9,设置最大训练次数epochs =1000,设置目标误差goal =1e-5,而其余的相关参数保持默认值不变。

2.2 预警模型建立

依据公式(1)进行隐含节点的确认,可计算出神经元的个数为4-13之间,通过测试发现当a=10时,神经网络的性能达到最佳,即确定隐含层节点数为10。选取2017年11月“携程亲子园虐童”事件作为本文的研究对象,以10个具体指标建立企业网络舆情危机预警指标体系。首先分析企业网络舆情指标体系中的各项指标的性质,得到分析结果如表1所示。按照携程亲子园事件的进展设定了8个时间点,方便数据采集以及观测,如表2所示。

利用烽火舆情软件进行相应的关键词检索,得出“携程亲子园”事件的舆情走势,分析相应的负面舆情占比,通过当日的负面舆情占全部舆情数的占比得出观点倾向度,舆情走势如图2所示。利用百度指数工具高级检索对“携程亲子园”限定关键词进行检索,得出搜索量以及搜索量变化指标原始数据如图3所示。

在每个时间节点以“天”为单位做平均值处理,使数据具备可比性。评论数、点赞数、真实性、敏感度、倾向度、转发数、评论数变化、转发数变化等指标数据通过新浪微博获取,在8个时间点获取的原始数据,为了使数据之间的关联性更高,各个指标之间的数据的可比性更强,在依据指标的性质的基础上进行数据的归一化处理,归一化后的数据如表3所示。

利用Matlab 2017a软件进行模型的建立,以时间1-时间7的指标数据作为模型的训练样本,选取时间8的指标数据作为检验样本来进行模型检验工作的实施。期望输出如表4、表5所示。

通过调用Matlab 2017a软件中的神经网络工具箱,参照上述的传递以及训练参数设置,进行BP神经网络的创建,对训练样本进行167次训练后,误差值为9.945e-6,達到训练目的,如图4所示。

3、模型可靠性验证

通过案例“滴滴空姐遇害事件” 进行模型可靠性验证,数据如表6所示:

利用烽火舆情软件进行相应的关键词检索,得出“滴滴出空姐遇害”事件的舆情走势,分析相应的负面舆情占比,通过当日的负面舆情占全部舆情数的占比得出观点倾向度。利用百度指数工具高级检索对“滴滴”限定关键词进行检索,得出搜索量以及搜索量变化指标原始数据。在每个时间节点以“天”为单位做平均值处理,使数据具备可比性。评论数、点赞数、真实性、敏感度、倾向度、转发数、评论数变化、转发数变化等指标数据通过新浪微博获取,对9个时间点获取的原始数据进行归一化处理,归一化后的数据如表7所示。

通过以上建立的模型将原始数据进行代入检验,与期望输出结果表8进行比较。

与期望输出结果进行比较后,发现时间6的输出出现差错,其余结果一致,准确率达到87.5%。

4、结束语

根据上述构建的BP神经网络模型,通过对于时间1-时间7的获取的企业网络舆情预警指标中的10个二级具体指标数据进行训练测试,将时间8作为模型的检验样本,在对训练样本进行192次训练后,在未达到最小梯度以及最大的拟合次数的目标要求内,达到最小误差,使得模型达到最优。通过调用神经网络工具箱中创建BP神经网络后的Simulate工具,进行检验数据的测试,将时间8的指标数据进行归一化处理后,导入为P_test,利用训练达标的模型进行数据预测,输出相应的Y数据,进行输出规则转化后与预计预警结果进行比较,发现结果一致。在建立模型后,再次通过“滴滴空姐遇害”事件的数据进行模型可靠性的验证,通过将实际输出与期望输出的结果进行比较,发现模型预测的准确率为87.5%。通过实践证明,本文设计的企业网络危机舆情预警指标体系是合理的,同时也证明了基于BP神经网络的企业网络舆情预警模型是有效的。

参考文献

[1] Gil-Garcia R,Pons-Porrata A.Dynamic Hierarchi-cal Algorithms for Documentclustering[J].Pattern,RecogNition Letters,2010(31):469-477.

[2] 黄远,沈乾,刘怡君.微博舆论场:突发事件舆情演化分析的新视角[J].系统工程理论与实践,2015,35(10):2564-2572.

[3] Ma N, Liu Y J. Superedge rank algorithm and its application in identifying opinion leader of online public opinion supernetwork[J]. Expert Systems with Applications, 2014,41(4):1357-1368.

[4] 魏德志,陈福集,郑小雪.基于混沌理论和改进径向基函数神经网络的网络舆情预测方法[J].物理学报,2015,64(11):52-59.

[5] 毛乾任,王朝斌,金洪颖,李艳梅.模糊推理的网络舆情观点聚合CA模型研究[J].小型微型计算机系统,2017,38(07):1479-1484.

[6] 魏德志,陈福集,林丽娜.基于博弈论和SIRS的热点事件传播仿真研究[J].系统仿真学报,2018,30(06):2050-2057.

[7] 李喆.基于投影寻踪模型的网络舆情评价[J].计算机仿真,2017, 34(04):391-395.

[8] Carolin Kaiser,Sabine Schlick,Freimut Bodendorf. Warning System for Online Market Research-identifying Critical Situations in Online Opinion Formation[J]. Knowledge-based Systems,2011,24:824-836.

[9] Zhao L J, Xie W L, Gao H O, et al. A rumor spreading model with variable forgetting rate[J]. Physica A: Statistical Mechanics & Its Applications(S0378-4371), 2013, 392(23): 6146-6154.

[10] 游丹丹.我国网络舆情预测研究综述[J].情报科学,2016,34(12):156-160.

[11] 贺恩锋,庄林远,徐文根.网络舆情潜在影响力指标体系构建及应用[J].情报杂志,2014,33(1):114-119.

[12] 聂峰英,张旸.移动社交网络舆情预警指标体系构建[J].情报理论与实践,2015,38(12):64-67.

作者简介:

侯萍,南京邮电大学管理学院,博士,副教授,研究方向: 网络舆情,电子商务;

崔孟杰,南京邮电大学管理学院。

作者:侯萍 崔孟杰

神经网络网络舆情论文 篇2:

利用BP神经网络对网络舆情进行预警

摘要:随着近年来中国网民数量众多而网络给予了众多网民言论自由,因此网络舆情越来越被关注,对网络舆情的预警也越来越迫切。该文采用了五个指标对“厦门PX事件”、“昆明PX事件”和“宁波PX事件”进行量化描述,通过Matlab建立BP神经网络识别模型中进行学习,然后再对“宁波PX事件”进行预警识别。模型具有较好的识别能力,预警结果的准确率达到了90%以上。

关键词:网络舆情;BP神经网络;预警

互联网这些年来在我国的快速的发展,我国网民人数较之前有了大幅的提升。网络的开放性和灵活性让其成为反映社会舆情的主要载体之一。而近两三年网络舆情引发的事件激增,引起了政府的高度重视,网络俨然已成为政府部门了解民意的又一理想窗口。显然,能够直观表达网络舆情的光定性的解读远远不够,对于决策者更希望得到一个舆论事件过程中所处的量化等级。由于舆情危机产生具有模糊性和随机性是非线性的,因此通过建立预警指标,再利用容错能力高,通过学习复杂数据发现规律进行识别的人工神经网络是不二选择。故本文的核心在于BP神经网络[1]。

1 网络舆情危机预警指标体系

网络舆情危机的发生,受到多种随机因素的影响,而且每个因素对结果所起的效果大小也是不一样的。因此网络舆情危机预警的关键是建立科学、系统的预警指标体系。依据近些年来网络舆情方面专家的调查汇总和政府机构对舆情监督部门的考察,并结合网络舆情与危机预警机制方面的资料,经过多次地调试整理汇总制定出,对网络舆情信息从五个具体的指标构建了网络舆情危机预警指标体系[2]。

1.1 舆情预警指标

1.1.1 舆情信息的敏感度

网络上有各式各样的信息,而这些各式各样的信息其敏感度也是不同的,对于可能造成社会动荡的网络信息则是政府最为关注的。显然各条信息所引起的社会敏感度是不同的,敏感度越高说明产生舆论危机的可能性就越高。这种指标的量化标准采用专家打分的方法得到。得分设定的范围为[0,1],0、0.5、0.7、1表示的意义依次为“具有敏感性”、“敏感”、“很敏感”、“相当敏感”。

1.1.2 舆情信息的流通量

舆情信息的流通量反映出舆情信息在网络上传播情况和讨论热度。而这些网络上的流通信息会被搜索引擎例如Google、百度等抓取。因此通过限定时间段搜索引擎搜索关键词得到的搜索量可以作为流通量使用。

1.2.3 舆情观点倾向度

舆情观点倾向度主要量化网民对于某个舆论信息观点倾向度。分别由1,0,-1表示正面、中立、反面观点,用[f(x)][f(x)]表示各个观点面倾向度,n表示发表观点的总观点数,此指标用[μ]表示:

其实就是求各个观点总和的均值,其取值范围在(-1,1)。这部分则是通过统计事件讨论最热的贴吧的跟帖信息或者微博评论进行打分得到的。

1.2.4 舆情影响范围

舆情影响范围是指在某一时刻或时间段内,舆情信息所影响的区域性范围。对于这部分的评分依照我国的行政地域划分进行评分。即村\社区、乡\镇\街道、县\区、市、省、国家。其取值范围为[0,1]。这部分的取值则是通过新闻报道中时间的发展态势进行取值。地域对应的取值见下表:

1.2.5 网络舆情媒体曝光度

网络舆情信息被媒体曝光之后则将网络信息的讨论引到现实社会中,而现实中媒体的报道是有着比网络更为严格的审查制度。媒体的报道无疑对网络舆情有着更为影响力的宣传进而推动着舆论的发展。而这部分的数据则采用Google news中通过对时间段的设定搜索关键词得到相应的搜索到的新闻条数进行量化评价媒体的曝光度。

1.2.6 舆情指标

而结果评级依照《国家突发公共事件总体应急预案》将预警等级设为四个等级:特别严重、严重、较重和一般。而根据网络舆情危机的严重程度、经济程度、可控性等方面将预警设为5个等级:安全、轻警、中警、重警、急警[7]。

2 数据获取与处理

2.1 事件的选取和回顾

在实证分析中以“宁波PX事件”为预警模型的最终目标,而选择了“厦门PX事件”和“昆明PX事件”为学习样本进行学习。这一连串关于PX事件其危害的对象不仅仅是政府形象更是对整个社会和谐稳定造成了较大的影响。尤其是宁波PX事件中,甚至出现了不理智的因受谣言的蛊惑冲击政府机关掀翻执勤警车的情况。倘若能及时且准确地对此类事件进行预警并作出相应的预防措施就能对事件进行有效的控制。

2.2 指标数据的获取

对于所建立的模型而言其关键不仅仅在于预警模型的指标的建立和神经网络的识别。其数据的获取亦是十分关键的一步。根据各个数据的特点,整理各个指标数据获取方式如下。

将厦门PX事件和昆明PX事件作为一个学习样本,其数据清单如表3所示。

同样将模型的预警目标——“宁波PX事件”作为目标数据,其数据清单如表4所示。

2.3 输入数据的标准化处理

网络舆情危机预警指标体系中有5个预警指标,其中存在定性指标和定量指标两大类,并且对各个指标的数据进行了量化处理,然而各个指标的单位的量纲是不同的,为了能够对各个指标进行对比评分 ,需要将它们进行标准化得到[0,1]无量纲指标。

量化的指标均有正负方向均有正负方向之分,自然这些数据的标注化方法均有不同:

1)正向指标处理:正向指标表示值越大越安全,危机等级越小无量纲化以最小值为基准,正向无量纲化处理方程:

2) 负向指标处理:负向指标在文章中表示指标值越小越安全,危机等级越小。无量纲化以最大值为基准,负向的无量纲化处理方程:

其中,X 表示量化后的指标值, [xmin]表示指标的最小值, [xi] 表示指标的实际值, [xmax]表示指标的最大值。

3 舆情预警模型的建立及结果

3.1 模型的建立

神经网络模型是一个典型的“输入-处理-输出”的过程。输入是采集到的指标的实际值,输出是模型识别的结果,即预警的敏感度,而中间过称则采用BP神经网络模型进行学习计算,这部分相当于“黑匣子”。在处理的时候,该文采用三层BP网络(一个输入层、一个隐含层、一个输出层)的网络结构,那么输入、输出节点数分别是5和1[8]。

在设置完参数之后用第四章所讲述的利用Matlab软件完成模型的建立。

3.2 结果及检验

通过搜集得到的数据汇编成的学习样本,并将其中的70%作为样本,30%作为检验样本进行。

通过计算可以得到该表,从该表中容易得到,学习过程中准确率达到了91.76%。并在测过程中抽取了5项进行预测,得到的准确率为92.31%,其较高的准确率。因此有理由认为该模型在未来的预测过程中其准确率应该达到90%以上。

4 研究结论

本文的研究结果表明:基于舆情量化指标的BP神经网络能够对网络舆情信息进行较为准确的预警,无论是学习还是最后实践的识别准确率都达到了80%以上。这种预警方法通过舆情信息的预警指标利用量化评价方法可以降低人为的主管臆断,而实验结果也表明了其拥有较高的识别准确率。并且利用Matlab进行编程得到的预警模型具有广泛的应用前景和使用价值。模型可以为政府提供网络舆情的预警,也为企业的网络声誉进行预警为企业的公关提供预警参考。

参考文献:

[1] 薛圈圈.基于BP神经网络的网络舆情危机预警研究[D].江西:江西财经大学,2010:25-30.

[2] 戴媛.我国网络舆情安全评估指标体系研究[D].北京:北京化工大学,2008:13-22.

[3] 袁越.厦门PX时间[OL].http://news.sina.com.cn/c/2007-09-27/165713986641.shtml.

[4] 王秀娟.昆明PX事件[N].中国石油石化,2013.

[5] 大公网.镇海PX项目引发群体性事件[OL].http://www.takungpao.com/mainland/node_13226.htm.

[6] 周子健.基于网络搜索量的上海世博会国际影响力研究[J].艺海,2011(5):80-82.

[7] 王新辉.基于BP神经网络的国际电子商务信用风险预警模型研究[D].沈阳:沈阳工业大学,2008:7-14.

[8] 杨淑娥,黄礼.基于BP神经网络的上市公司财务预警模型.系统工程理论与实践[J].2005(1):21-26.

作者:陈乐朋 周家政

神经网络网络舆情论文 篇3:

CNN算法改进及在舆情分析中的应用

摘  要:作为深度学习图像识别的开创性复杂算法,卷积神经网络(CNN)在图像处理中有着其他机器学习算法所不具备的高精度的优点,同时小波神经网络(WNN)在训练中有着跳出局部极小值的特点,因此可达到的最小误差精度是大部分网络难以达到的。结合CNN与WNN各自的优点,本文提出了CNN与WNN相结合的两种网络:小波卷积小波神经网络(wCwNN)和小波卷积神经网络(wCNN)。基于wCwNN网络以及wCNN网络对文本分析问题进行探索,尝试用两种网络处理经由词向量模型(word2vec)处理后的文本信息,发现相比于传统的卷积神经网络,针对经word2vec处理后的文本,改进后的网络仍然具有一定的优勢。本文最后针对经典的神经网络对处理文本类数据问题提出研究方向,并对神经网络未来发展提出想法。

关键词:wCwNN;WNN;CNN;word2vec;文本分析

Improvement of CNN Algorithm and Its Application in Public Opinion Analysis

ZUO Fangling,GUO Yingxiao

(School of Information,Capital University of Economics and Business,Beijing  100070,China)

0  引  言

随着互联网的发展,解读社交网络信息成为了舆情处理的重要方向,但是面对各种复杂的数据形式,传统的数据分析算法已经无法从数据中提炼较为准确的信息。

我国对舆情监控较为重视,但是定量分析还未成熟。因此,本文希望更好地对网络舆情进行即时处理、即时反馈,利用传统神经网络独特的特征提取优势,再加以改进,进一步提升舆情处理的即时性。

1  研究主要内容

本文针对现阶段的微博情感分析,更改CNN结构:模仿CNN的结构分析WNN,利用BP反向传播的基本机制推导WNN公式,利用WNN替换CNN的全连接层与卷积池化层,改进CNN极易陷入局部最优的特性。提出小波卷积小波神经网络(下文简称wCwNN)和小波卷积神经网络(下文简称wCNN)。

2  研究方法实践

2.1  各神经网络算法对比分析

2.1.1  卷积神经网络

标准的卷积神经网络训练过程由前馈计算(Forward-Feedback)和反向传播(Back-Propagation)组成,调整参数则采用了经典的梯度下降法(Gradient Descent)进行计算。以LeNet-5为模板,标准的网络拓扑结构有以下几个部分:输入层(Input layer)、卷积层(Convolution layer)、池化层(Pooling layer)、全连接层(Fully-connected layer),输出层(Output layer)。

2.1.2  小波卷积神经网络

小波神经网络(WNN)是由多组小波变换充当隐含层神经元并与传统的输入层神经元与输出层神经元所构成,通过遗传算法确定隐含层的神经元个数。

2.1.3  小波卷积小波神经网络

小波卷积小波神经网络(wCwNN网络)分为前段网络和后段网络,前段网络为卷积池化网络,其中卷积层的激活函数为小波尺度变换函数,后段网络为小波神经网络。

2.1.4  实验设计

实验对象为CNN、wCwNN、wCNN,实验分为两部分:一部分為对于每一种网络,不设置训练次数上限,不设置训练误差下限,观察每一种网络能达到的最小误差;另一部分为对于每一种网络,不设置训练次数上限,设置所有网络都能达到的训练误差下限,观察各网络能达到误差下限时所用的时间。用同一组数据作为输入计算各神经网络的运行时间的平均值、最小值和最大值,最小均方误差的平均值、最小值和最大值。可得如下结论:

(1)改进后的wCwNN与wCNN网络较原始CNN网络性能有所提高。

(2)wCwNN网络具有较快的收敛速度与达到极小误差精度的能力。

(3)wCNN网络具有极快的收敛速度与达到较小误差精度的能力。

(4)相比于wCNN网络,wCwNN网络训练过程中误差波动较大,也就是说该网络具备跳出局部极小值的能力,因此在一定实验次数下,wCwNN网络能达到的最小误差比wCNN网络要小。该种类型的网络适用于对最小精度有要求的实际场景中。

(5)相比于wCwNN网络,wCNN网络在每一次仿真中都保持较为稳定的误差下降过程,因此15次仿真的最小误差值与最大误差值相差不大(实验一可达性实验)。同时,当控制各网络目标误差相等时(实验二训练时间对比实验),wCNN网络具备误差快速收敛的能力。该种类型的网络适用于对训练时间有要求的实际场景中。

2.2  基于wCwNN与wCNN的文本分析

2.2.1  数据获取

将数据源分为两类:一类为公开数据集中现有的微博评论数据,作为训练和验证数据;一类是从网页版微博中实时爬取的微博数据,作为测试数据。其中现有的微博评论数据量为120000,实时爬取的微博数据量为124,两份数据均以CSV格式存放在Excel表中。

2.2.2  数据预处理

数据预处理阶段分为数据清洗与文本词向量化:数据清洗指对原始数据进行基本的处理以满足数据分析的要求,本例中的数据清洗包括删除重复数据、去除评论信息为空的数据、去除爬虫留下的html代码、去除评论信息中出现的表情符号和颜文字等等,对评论信息进行分词和去停用词处理;文本词向量化是指把每一个样本的文本评论数据都转换成指定维数的向量,即一个向量就是一个样本的文本评论信息。

2.2.3  文本数据分类

使用wCwNN网络、wCNN网络和CNN网络对爬取的数据进行分类,对wCwNN与wCNN网络在文本分析领域做实证研究。主要有以下几个方面:

(1)使用三种网络对训练数据进行学习。经实验,采用64维词向量模型训练数据输入各神经网络时,各网络的准确率较高。

(2)三种网络对测试集进行测试,计算相应准确率。切换不同种类的网络计算各网络的分类结果:wCwNN网络准确率为64%,wCNN网络准确率为60%,CNN网络的准确率为56%。

3  结  论

本文通过对CNN网络与WNN网络的研究,创新了两种新型的网络:小波卷积小波神经网络(wCwNN)与小波卷积神经网络(wCNN)。输入相同的仿真数据,分析对比了wCwNN、wCNN、CNN三种网络能达到的最小误差精度以及各自的训练时间。分析发现wCwNN网络能达到最小误差精度,wCNN网络收敛较快,相对于传统CNN网络来说,两种网络都有了较大幅度的提升。

在文本分类中,相较于其他的机器学习算法,三种网络的表现欠佳,经过后期查询各种资料与文献,发现可能是词向量化后的数据与现有的网络结构不匹配。相较于其他算法,CNN的卷积过程实际是对图像各部分的特征提取过程,但相同的特征提取方法在word2vec模型上可能不能有效地提取特征,有学者指出把卷积核大小设置成为词向量维度大小,并证明该种改进有效地提升了算法的效率。因此在后期的研究中,可以考虑继续研究word2vec模型与神经网络模型的适配性,可参考LSTM网络进行进一步的研究。

神经网络以能拟合任意对应关系而闻名,虽然目前各种网络还不成熟,但是对网络结构、性能的研究仍在不断进行中,相信在未来深度学习的发展能为社会解决更多复杂的问题。

参考文献:

[1] 高雪鹏,丛爽.BP网络改进算法的性能对比研究 [J].控制与决策,2001(2):167-171.

[2] 郭媛媛.地方政府网络舆情危机研究国外文献综述 [J].统计与管理,2017(2):176-177.

[3] 胡悦,王亚民.基于模糊神经网络的微博舆情趋势预测方法 [J].情报科学,2017,35(12):28-33.

作者简介:左芳玲(1997-),女,汉族,江西吉安人,本科在读,研究方向:大数据应用与深度学习神经网络。

作者:左芳玲 郭迎筱

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:企业关联交易分析论文下一篇:语文试题评价管理论文