论文题目:基于数据挖掘的A公司员工离职预测研究
摘要:随着工业4.0、工业大数据、人工智能以及工业互联网技术的迅速发展,第四次工业革命开始把制造业带入了一个面临巨大变革的时代。制造业企业员工数量大,流动率高,优秀员工的频繁离职必然会带来公司经济效益的损失,因此把握企业员工离职动向、了解员工离职原因对企业制定人才挽留措施,提高人力资源合理配置与管理有着积极作用。数据挖掘技术迅速发展,已广泛应用于金融、生物工程、工业工程等各领域,应用数据挖掘技术对企业人力资源信息进行深入探索,挖掘员工离职的潜在原因和预测员工离职倾向,可以为企业人力资源管理者制定决策提供参考建议。本文基于A公司的员工离职相关数据,应用多种单一和集成的机器学习算法,分别建立以预测员工离职概率为主题的分类预测模型。单一预测模型选择了较为经典的决策树模型、朴素贝叶斯模型和支持向量机模型为代表,集成模型选择了随机森林模型和XGBoost模型为代表。通过模型预测结果的可视化展示,了解员工离职的决策路径和重要影响因素排序,以便于对企业人力资源管理提供针对性的政策建议。使用机器学习算法对实际问题进行预测建模时,模型的优劣直接决定了预测结果的准确性和可信度。为了更结合实际情况,对企业决策提供全面参考建议,本文对以上3种单一模型及其集成模型的预测效果进行综合维度的评价,期望筛选出最适合企业员工离职预测问题的模型。在模型评估上,区别于以往研究中仅使用准确性这一单一评价指标,还综合考虑了模型的Kappa系数、均方根误差、相对绝对误差、ROC曲线面积以及模型运行时间等多个评价指标。创新性地引入了偏好的多属性决策理论,将算法评价问题建模为多属性决策问题,根据决策者的偏好信息,使用层次分析法对各个指标赋予不同权重,接着使用TOPSIS法对模型的综合表现进行评价和排序,筛选出在员工离职问题数据集下表现最好的算法模型。本论文研究对于员工离职和人才流失的分析和预警研究提供了新的思路,具有一定的理论和应用价值。图27幅,表16个,参考文献46篇。
关键词:员工离职;数据挖掘;分类预测;多属性决策;模型评估
学科专业:工业工程(专业学位)
致谢
摘要
ABSTRACT
1 绪论
1.1 选题背景与意义
1.1.1 选题背景
1.1.2 研究意义
1.2 国内外研究现状
1.2.1 员工离职模型研究
1.2.2 数据挖掘研究现状
1.2.3 数据挖掘在员工离职预测中的应用现状
1.2.4 研究综述
1.3 论文的主要研究内容
1.3.1 研究方法
1.3.2 研究内容
1.4 技术路线与创新点
1.4.1 技术路线图
1.4.2 关键问题与创新点
2 关键理论与技术
2.1 分类预测技术概述
2.1.1 决策树分类方法
2.1.2 贝叶斯分类方法
2.1.3 支持向量机分类方法
2.1.4 集成学习分类方法
2.2 分类算法的评价指标体系
2.3 多属性决策理论
2.3.1 层次分析法
2.3.2 TOPSIS法
2.4 本章小结
3 A企业员工离职数据处理
3.1 数据获取
3.2 数据预处理
3.2.1 数据标准化
3.2.2 数据清洗
3.2.3 特征编码
3.3 描述性统计
3.3.1 数值型变量分布
3.3.2 分类型变量分布
3.3.3 变量相关性分析
3.4 数据均衡化
3.5 本章小结
4 基于数据挖掘的A企业员工离职预测
4.1 基于单一算法的员工离职模型预测
4.1.1 基于决策树的预测
4.1.2 基于朴素贝叶斯的预测
4.1.3 基于支持向量机的预测
4.2 基于集成算法的员工离职模型预测
4.2.1 基于装袋法集成模型的预测
4.2.2 基于提升法集成模型的预测
4.3 本章小结
5 基于用户偏好的多属性决策方法的模型评估
5.1 评价指标权重的确定
5.2 基于加权TOPSIS方法的模型综合评估
5.3 本章小结
6 结论与展望
6.1 结论
6.2 展望
参考文献