论文题目:基于空间插值与机器学习的地形数据清洗方法研究
摘要:在土木工程领域,数字地形模型是非常重要的决策辅助工具,这些模型可以用于区域规划、道路选线、资源管理和风险分析等。原始地形数据是数字地形模型构建的关键因素,这些地形数据主要来源于地面测绘、原有地形图数字化、激光雷达和航空摄影等途径。由于科学技术和环境因素的制约,特别是在地形复杂的山区,精细地形数据获取的难度较大,这种情况下一般会采用激光雷达和航空摄影等手段获取精确的地形数据,但是激光雷达等方法采集数据的成本过高,无法大规模使用。因此,如何利用现有的Google Earth、地理空间数据云和美国地质调查局等开源数据库获取免费的地形数据,并对这些地形数据进行数据清洗,使其满足一定精度的地形模型构建要求,是目前土木工程和数字地形模型研究中具有实用价值的研究方向。针对以上问题,本文从Google Earth获取采样间距约为3.3m的原始地形数据,采用空间插值和机器学习两大类算法对获取的地形数据进行数据清洗,实现了地形数据集缺损值恢复和局部空间加密,并比较了空间插值和机器学习算法在地形数据清洗中的性能表现。论文的主要工作总结如下:(1)提出了基于空间点密度自适应的ARBF插值算法,通过建立局部点密度与局部形状参数的关系,实现径向基函数的自适应插值。解决了自适应过程的两个关键步骤:确定待插值点处的局部数据点集;建立局部点密度与形状参数的关系。使用C++编程语言实现了ARBF插值算法,并结合测试数据,从计算精度和计算效率两个方面评价了该算法的计算性能。(2)结合地形数据的特点,构建了用于地形数据清洗的深度神经网络(DNN)和XGBoost机器学习算法模型,通过Python编程语言实现了以上算法模型。主要步骤包括参数选择以及通过交叉验证确定模型最优参数组合。并针对DNN算法计算效率较低的问题,通过GPU对DNN算法模型并行加速。此外,对比了DNN和XGBoost算法模型在地形数据清洗方面的计算性能和适用性。(3)比较了本文提出的ARBF插值算法和其他常用空间插值算法以及机器学习算法在地形数据清洗方面的表现。以陕西富平县某地区的地形数据为研究对象,地形数据集通过Google Earth获取,地形数据集的数据点包含经度、纬度和高程三个特征值,数据点采样间距约为3.3m。通过对地形数据集缺损值进行恢复,分析了不同算法在地形数据清洗应用上的优缺点。
关键词:地形数据;数据清洗;空间插值;机器学习;深度学习
学科专业:土木工程
摘要
Abstract
1 引言
1.1 研究背景及意义
1.2 国内外研究现状
1.2.1 地形数据清洗研究现状
1.2.2 空间插值算法研究现状
1.2.3 机器学习算法应用现状
1.3 主要研究内容及技术路线
1.3.1 研究内容
1.3.2 技术路线
2 常用地形数据清洗方法
2.1 基于空间插值的方法
2.1.1 径向基函数插值算法
2.1.2 反距离加权插值算法
2.1.3 普通克里金插值算法
2.2 基于机器学习的方法
2.2.1 最近邻估计算法
2.2.2 支持向量机
2.2.3 决策树
2.3 本章小结
3 基于自适应径向基函数的地形数据清洗方法
3.1 自适应径向基函数插值算法主要步骤
3.1.1 算法流程
3.1.2 自适应确定局部数据集
3.1.3 自适应确定形状参数
3.2 自适应径向基函数插值算法性能测试
3.2.1 测试环境与测试数据
3.2.2 计算精度
3.2.3 计算效率
3.3 讨论与分析
3.3.1 自适应径向基函数插值算法适用性
3.3.2 径向基函数插值算法自适应前后性能对比
3.4 本章小结
4 基于机器学习的地形数据清洗方法
4.1 基于深度神经网络的数据清洗
4.1.1 深度神经网络基本原理
4.1.2 深度神经网络实现
4.2 基于XGBoost的数据清洗
4.2.1 XGBoost基本原理
4.2.2 XGBoost实现
4.3 参数曲面算例
4.4 本章小结
5 应用实例
5.1 研究区域
5.2 研究数据
5.2.1 Google Earth地形数据
5.2.2 数据预处理与数据概况
5.3 数据测试与结果
5.3.1 基于空间插值算法的清洗结果
5.3.2 基于机器学习算法的清洗结果
5.4 空间插值算法与机器学习算法结果比较
5.4.1 计算精度对比
5.4.2 计算效率对比
5.5 本章小结
6 结论与展望
6.1 结论
6.2 展望
参考文献
致谢
附录1 个人简历与科研成果
附录2 相关算法的实现代码