事业单位信息网络安全论文提纲

2022-09-22

论文题目:面向文本的多属性异质网络聚类技术研究

摘要:社交网络以及各种新闻媒体的蓬勃发展,为用户带来丰富的网络与文本信息,也极大地推动了学术界对网络和文本的分析与挖掘研究。海量的舆论信息也促使政府部门、事业单位和商业公司纷纷开始建设舆情分析系统以帮助了解自身形象、掌握舆情动态、营销产品或服务。作为舆情分析系统的核心技术之一,聚类分析尤其是融合了文本信息的网络图聚类分析技术近年来受到学术界的广泛关注和研究。面对主题分散、类型不同、结构各异的文本和网络数据,如何有效地进行聚类分析从而实现话题发现与知识挖掘?具体地,如何构建一个高效的文本与网络数据聚类分析框架?如何针对不同来源的文本构建聚类分析模型以更有效地结合知识库信息提升聚类质量?针对话题相近但形式不同的多源数据,如何及时有效地融合它们并发现相关的舆情热点?另外,如何对用户的偏好信息建模以更有针对性地对目标对象聚类?针对上述问题和挑战,本文以多属性异质网络的聚类问题为研究核心,重点研究了面向多属性异质网络聚类分析的构建框架、面向多属性异质网络聚类表示模型、多属性异质网络互聚类以及多标注的网络聚类分析这四个问题,发表了相关研究成果。本文的研究内容和创新点如下:1.针对舆情分析系统中面向文本的多属性异质网络的构建与分析问题,本文在充分分析多属性异质网络的相关概念、实体对象以及节点属性来源的基础上,提出了一种面向多属性异质网络的聚类分析框架。针对网络节点属性的抽取问题,本文首先分析了多属性异质网络节点属性的来源;并以节点情感属性为例,提出了一种基于规则的面向专属领域的情感属性解析方法,并给出了网络节点情感属性的分析流程,在相关数据集上的实验结果验证了本文所提出情感属性分析方法的有效性。2.针对面向文本的多属性网络数据难以有效地进行聚类分析与知识发现的问题,本文提出了一种面向多种网络文本的异构信息网络表示模型,抽取文本中的各种结构化的对象构建面向文本聚类的异构信息网络。具体地,本文考虑了不同类型的文本的词、实体、标签等多种类型的对象,构建了微博(推文)和新闻文本的“星型”网络元结构,进而以此为基础构建了多源文本的异构信息网络。随后,本文参考经典的基于信息论的协同聚类模型,设计了面向异构信息网络的文本聚类模型,并利用对象的属性信息作为网络文本协同聚类的约束条件。在四个真实数据集上的实验结果验证了本文所提出的基于异构信息网络的文本表示方法的有效性。3.针对多源文本数据如何实现不同文本互聚类分析以发现跨网络平台舆情热点的问题,本文提出了一种基于异构信息网络的多源文本互聚类分析框架(Heterogeneous Information Network-based Text clustering,HINT)。为解决多源相关信息的关联问题,将不同来源的文本信息有效融合从而实现互聚类,本文将存在URL关联的两种文本定义为信息关联和相关语义传递的锚文本(Anchor Texts),并在此基础上构建了基于异构信息网络的信息矩阵以及信息转移矩阵。随后,本文以谱聚类方法为基础将异构文本互聚类问题转换为一个包含两个未知变量的非凸目标方程下的优化问题,并设计了一个对偶迭代方法利用曲线搜索算法对上述优化问题求解。在实际数据集上的大量实验表明,HINT框架比相关的对比模型表现更好、更有效。4.针对舆情系统中难以融合多专家知识以实现有针对性的目标聚类的问题,本文提出了一种面向多稀疏标注的多属性图聚类方法(Clustering Graphs with Multiple Annotations,CGMA)。为有效融合来自多个标注者的稀疏标注,本文首先提出了一种基于属性空间的映射方法,将不同的标注映射到相同属性空间并表示成属性权重向量,然后利用一种基于密度的聚类方法综合多标注者的意见,实现了多标注的有效融合;为提高算法的可扩展性,本文进一步研究了使用局部聚类和加权网络割集的方法降低算法的复杂度,并研究设计了分布式算法版本提高了算法的处理性能。本文提出的方法具有接近线性方法的时间复杂度,可以很好地处理大型网络的相关问题。综上所述,本文深入研究了舆情分析系统中的多属性异质网络的聚类分析问题,重点围绕如何通过相关约束改善聚类质量、提高可解释性水平,研究了利用知识库约束、关联约束以及用户引导约束等方法,提升多属性异质网络聚类分析水平。本文研究的问题和使用的方法在理论上都具有一定创新性,在实践上可以增强社会舆情系统性能、提升舆情分析水平。舆情是国情的重要组成部分,本文的研究对关系国家安全和社会发展的面向大数据的舆情分析系统具有重要价值。

关键词:多属性;异质网络;聚类分析;舆情系统;社会管理

学科专业:管理科学与工程

摘要

ABSTRACT

第一章 绪论

1.1 研究背景及意义

1.1.1 研究背景

1.1.2 研究意义

1.2 相关工作概述

1.2.1 网络分析与挖掘技术

1.2.2 文本聚类与挖掘技术

1.2.3 舆情分析技术

1.3 课题来源、研究内容与本文贡献

1.3.1 课题来源

1.3.2 研究内容与本文贡献

1.4 论文结构

第二章 面向文本的多属性异质网络构建框架与属性抽取

2.1 多属性异质网络

2.1.1 多属性异质网络的表示及性质

2.1.2 多属性异质网络的现实案例

2.2 基于多源文本属性的异质网络构建

2.2.1 多源网络文本分析流程

2.2.2 RAEF:面向文本的多属性网络构建框架

2.3 网络文本语义属性获取…

2.3.1 属性提取核心技术分析

2.3.2 基于规则的方法:以专属领域情感分析为例

2.3.3 RAEF处理流程

2.4 实验分析

2.4.1 评测数据集与人工标注

2.4.2 实验评测方法

2.4.3 实验结果分析

2.5 本章小节

第三章 基于异质网络的文本聚类表示模型

3.1 研究背景

3.2 基于异构文本特征的HIN表示方法

3.2.1 微博文本的表示

3.2.2 新闻文本的表示

3.3 ABC:一种基于属性的协同聚类模型

3.3.1 基于属性的限制协同聚类方法

3.3.2 交互优化算法

3.4 实验分析

3.4.1 实验设置

3.4.2 文本表示特征贡献分析

3.4.3 文本表示质量分析

3.4.4 实体聚类数分析

3.4.5 迭代次数分析

3.5 本章小结

第四章 基于异质网络的多源文本互聚类分析技术

4.1 问题提出

4.2 问题描述

4.3 HINT:一种异质网络文本互聚类方法

4.3.1 相似性矩阵构建

4.3.2 文本关联关系及转移矩阵

4.3.3 推文和新闻的分别聚类

4.3.4 对歧见的惩罚

4.3.5 平衡的HIN聚类目标方程

4.3.6 目标方程的简化

4.3.7 目标方程的求解与优化

4.4 实验分析

4.4.1 数据集的描述和预处理

4.4.2 实验设置

4.4.3 互聚类结果分析

4.4.4 互聚类内容相关性分析

4.4.5 互聚类稳定性分析

4.4.6 案例学习

4.5 本章小节

第五章 基于多标注的多属性社交网络聚类分析技术

5.1 问题提出

5.2 问题形式化定义

5.3 CGMA:多属性稀疏标注问题方法

5.3.1 多标注集的组合

5.3.2 综合引导下的局部聚类

5.3.3 CGMA方法的并行计算

5.3.4 复杂度分析

5.4 实验分析

5.4.1 实验设置

5.4.2 人工数据集实验

5.4.3 真实数据集聚类分析

5.5 本章小节

第六章 总结与展望

6.1 本文主要研究工作总结

6.2 后续研究工作展望

6.2.1 多源文本摘要技术研究

6.2.2 多源文本语义融合技术研究

6.2.3 复杂情况下聚类分析技术研究

致谢

参考文献

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:城市和谐交通研究论文提纲下一篇:农村养老保险分析论文提纲