监督主动监督关系论文提纲

2022-09-30

论文题目:基于远程监督的知识图谱实体分类和关系分类优化方法

摘要:人工智能模型的训练依赖于大规模高质量的标注数据。通过人工标注的方式可以获取高质量的训练集,但是人工标注效率很低并且代价高昂,尤其对于标注难度较大的文本语料,人工标注很难获取大规模的标注数据。远程监督可以用来自动构建大规模的标注数据集,然而通过远程监督得到的训练集质量并不高,训练集的质量决定着模型的上限,因此如何优化远程监督数据集已经成为当下研究的热点。远程监督在不同场景下面临着不同的问题,其解决方法也要针对特定的问题和使用场景去设计。论文的主要工作以及成果如下:(1)本文从知识图谱实体分类以及关系分类这两个场景入手,探讨了各自场景下远程监督所带来的问题,并针对问题的特点设计了不同的优化方法。(2)针对远程监督知识图谱实体分类场景,分析出其具有标注噪声以及语义异构两个问题。针对标注噪声问题,本文提出了一种新颖的主动学习查询策略,能从远程监督构建的训练集中找出最具代表性的噪声数据,并设计了一个混合标注策略对这些噪声数据进行重新标注。针对语义异构问题,本文提出了另一种新颖的主动学习查询策略,能从未标注数据集中找出最有代表性的语义异构数据,同样使用本文提出的混合标注策略对其进行标注,并将这些标注后的数据加入到训练集中。最终使用优化后的数据集作为训练集去训练知识图谱实体分类模型。本文在一个真实的中文知识图谱实体分类场景上运用了此方法,实验结果证明了本文提出方法的有效性。(3)针对远程监督关系分类场景,分析出其具有标注噪声问题。针对标注噪声问题,本文提出使用基于预训练语言模型的自然语言推断方法去识别远程监督关系分类数据集中的噪声数据。具体而言,对于关系分类数据集中的每个样本,本文将样本中的文本作为前提,将样本中的实体对和关系通过模板转换成假设,用假设能否从前提中推断出来的置信度作为此样本标签是否合理的评估值,评估值的高低将作为样本筛选的依据。针对自然语言推断模型缺乏大规模高质量的训练集问题,本文设计了一个强化学习框架对自然语言推断模型进行训练。最终使用训练后的自然语言推断模型对远程监督关系分类数据集进行筛选,筛选后的数据集作为训练集去训练关系分类模型。本文在一个公开的远程监督关系分类数据集上使用了此方法,实验结果证明了本文提出方法的有效性。

关键词:远程监督;关系分类;知识图谱实体分类;主动学习;强化学习

学科专业:软件工程

摘要

ABSTRACT

第一章 绪论

1.1 研究背景与意义

1.1.1 知识图谱实体分类

1.1.2 关系分类

1.1.3 远程监督存在的问题

1.2 研究现状

1.3 研究挑战

1.4 研究内容

1.5 贡献和论文组织结构

第二章 相关理论和技术背景

2.1 知识图谱实体分类

2.2 主动学习

2.3 关系分类方法

2.4 远程监督优化方法

2.5 本章小结

第三章 远程监督知识图谱实体分类优化方法

3.1 引言

3.1.1 问题描述

3.1.2 研究挑战

3.1.3 基本思路

3.1.4 研究贡献

3.1.5 章节结构

3.2 远程监督知识图谱实体分类优化方法

3.2.1 数据集优化框架

3.2.2 知识图谱实体分类模型

3.3 降噪阶段

3.3.1 查询策略

3.3.2 标注策略

3.4 数据增强阶段

3.4.1 查询策略

3.4.2 标注策略

3.5 实验结果

3.5.1 数据集及评估标准

3.5.2 数据降噪性能

3.5.3 数据增强性能

3.5.4 CN-DBpedia中的实体分类

3.6 本章小结

第四章 远程监督关系分类优化方法

4.1 引言

4.1.1 问题描述

4.1.2 研究挑战

4.1.3 基本思路

4.1.4 研究贡献

4.1.5 章节结构

4.2 远程监督关系分类优化方法

4.2.1 数据处理方法

4.2.2 自然语言推断模型

4.2.3 关系分类模型

4.2.4 数据集优化方法

4.3 模型训练方法

4.4 实验介绍

4.4.1 实验设置

4.4.2 实验结果

4.5 本章小结

第五章 总结和展望

5.1 本文工作总结

5.2 未来工作展望

参考文献

致谢

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:城乡规划设计论文提纲下一篇:高校学生思想政治教育论文提纲