杠杆平衡实验设计论文提纲

2022-08-02

论文题目:大数据分析的子抽样统计学习新方法及其应用研究

摘要:在计算能力相对有限的情况下,如何从大规模、高维数据中获取有价值的信息已成为大数据分析的重要研究方向。子抽样策略和变量选择方法是对大样本、高维数据进行数据降维、提高模型计算效率的常用方法。为解决建模分析过程中由于数据量快速增长所导致的计算瓶颈,本文将两阶段子抽样策略和变量选择应用到大样本分类问题的研究中。现有的大样本logistic回归模型的子抽样算法主要从最小化极大似然估计量的渐近均方误差、损失函数梯度、Hessian信息矩阵等角度定义子抽样概率。在稳健统计分析领域,具有高杠杆值的样本通常被视为潜在的异常观测,而实验设计领域已经证明具有高杠杆值的样本可以提高模型整体的预测效果,这在大样本线性模型的子抽样算法中已经得到充分验证。基于这一点,本文首先对logistic回归模型的杠杆值作归一化处理,定义子抽样概率,提出了两阶段杠杆子抽样算法求解该模型的极大似然估计。在此基础上,考虑存在稀疏表示的大样本logistic回归模型的求解问题,结合子抽样策略与变量选择技术,提出了子抽样-变量选择算法。最后,进一步研究重要性子抽样策略在大样本支持向量机中的推广。虽然该模型有很好的数学理论和泛化能力,但由于在训练过程中需要求解二次规划问题,由此而产生的密集计算使得它并不适用于大样本分类问题,为更好地将支持向量机应用到大样本数据的分类问题中,根据支持向量机模型解的稀疏性特征和支持向量与决策平面间的几何关系,以样本点与决策超平面的距离作为定义子抽样概率的依据,提出能快速求解大样本支持向量机的重要性子抽样算法。在不同模拟数据集中进行的随机模拟实验的结果表明:当数据的类别分布不平衡时,基于杠杆值的子抽样算法优于现有的几种子抽样算法;较均匀抽样而言,重要性子抽样与变量选择相结合的算法能提高模型的分类精度和模型的可解释性;基于样本点与决策超平面的距离的重要性子抽样算法的分类效果优于均匀抽样。

关键词:重要性子抽样;杠杆值;变量选择;logistic回归模型;支持向量机

学科专业:统计学

摘要

Abstract

第一章 绪论

1.1 研究背景

1.2 研究综述

1.3 研究内容

第二章 子抽样及变量选择方法理论介绍

2.1 logistic回归模型介绍

2.2 子抽样算法介绍

2.3 变量选择方法理论介绍

第三章 大样本logistic回归模型的杠杆子抽样算法研究

3.1 logistic回归模型的杠杆值

3.2 logistic回归模型的杠杆子抽样算法

3.3 杠杆子抽样算法的随机模拟研究

3.4 本章小结

第四章 大样本logistic回归模型的子抽样-变量选择算法研究

4.1 子抽样-变量选择算法

4.2 子抽样-变量选择算法的随机模拟研究

4.3 本章小结

第五章 大样本SVM的子抽样算法研究

5.1 SVM算法介绍

5.2 大样本SVM子抽样算法

5.3 本章小结

第六章 结论与展望

参考文献

致谢

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:体育课程与健康课探究论文提纲下一篇:社会保障立法分析论文提纲