探究城镇居民生活及健康状态同心脏病的联系

2022-12-25

1 数据介绍

本文所使用的数据是一份心脏病调查数据。总共有220个样本。数据集包含20个指标, 其中有12项为客观指标, 分别是:性别, 年龄, 工作强度, 婚姻, 拥有车的数量, 锻炼频率, 饮食, 熬夜频率, 是否有宠物, 抽烟频率, 家族药物史;8项为健康指标, 分别是:情绪, 疲劳度, 血压, 肥胖, 血糖, 血脂, 是否患糖尿病, 是否患心脏病8项, 其中“是否患有心脏病”是本文的研究变量。

2 数据分析

2.1 探究强关联变量——基于APRIORI算法

首先, 将除年龄外的11个客观指标列为关联规则的前项, 除是否患有心脏病的7个健康指标列为关联规则的后项。选择10%的最小支持度和80%的最小置信度, 得到47条关联规则, 这些关联规则的提升度都大于1, 故都为有效的规则。按提升度降序排列, 可以精炼为一下几条比较符合常理的规则:

(1) 工作高强度、很少锻炼、经常熬夜者、有家族医药史的个体容易感到紧张压力大。工作强度中等且经常运动者, 则情绪比较平静。这说明工作强度、锻炼频率、熬夜频率、是否有家族医药史与个体的情绪存在很大关联。

(2) 工作强度中等且有家族医药史者, 经常熬夜且有家族医药史者, 运动不定期但工作强度中等者, 血压会比较高。可以看到, 是否有家族医药史, 熬夜频率以及锻炼频率与个体的血压有比较大的关联。

(3) 工作高强度、很少锻炼经常熬夜者, 经常抽烟但很少锻炼且有家族医药史者比较容易有高血脂。同情绪一样, 工作强度、锻炼频率、熬夜频率、是否有家族医药史同高血脂存在一定的关联, 另外, 抽烟的频率越高, 越容易得高血脂。

2.2 探究不同群体的特点———基于K-Means聚类

为了确定K-Means聚类的簇数, 本文采用所有样本到聚类中心距离的均值为判断标准。研究结果显示, 当聚类个数达到5h, 样本到中心点的距离均值趋于一个比较稳定的值, 所以确定k为5。5个簇类样本占总样本的比例分别为34.1%, 20%, 17.3%, 15.9%, 12.7%, 这5个簇类犯心脏病的概率分别为2.67%, 31.82%, 13.16%, 14.29%, 71.43%。

观察聚类1, 犯心脏病的概率只有2.67%, 这类人群几乎血压、血脂、血糖都是正常, 几乎不患糖尿病, 且60%以上的人饮食比较清淡, 不养宠物, 情绪和疲劳程度都比较正常。

观察聚类5, 犯心脏病的概率达到了71.43%, 这类人中血压和血脂双高的人达到了85.7%, 他们口味比较重, 而且80%以上的人时常感觉到紧张和压力大, 而且极度的疲劳。这说明血糖和血脂这些指标是可能患心脏病的危险信号;情绪上的紧张、高压力和极度的疲劳也会危害人的心脏健康;另一方面, 饮食上偏油腻也可能是患心脏病的因素之一。聚类1和聚类5的人大部分都不养宠物, 这说明犯心脏病的概率高低和是否养宠物不存在极大的关联。

聚类2中犯心脏病的概率为31.82%, 这类人同聚类五中的人一般, 血压和血脂双高, 且饮食大都比较油腻, 但是68.2%的人情绪一般, 77.3%疲劳程度正常。将其与聚类5联系起来, 可以说明当在血压、血脂偏高的情况, 保持愉悦的心态, 工作和生活不要过度疲劳, 可以降低一半以上患心脏病的概率。

聚类3和聚类4患病的概率接近, 聚类3犯病的概率会比聚类4偏低, 但是聚类3中血压和血脂双高的人都达到了78.9%以上, 而聚类4中68.6%血压正常, 血脂高的人占97.1%, 其他指标相差不大。这说明血脂高比血压高更危险一点。

结束语

个体的生活习惯, 状态影响着其患心脏病的比率, 控制清淡饮食, 保持适当的工作量但不能过于疲乏, 缓解紧张情绪, 压力不适宜过大, 可以在一定程度上维持心脏健康。个体应多关注自己的血压、血糖、血脂的状况, 在这些指标不正常的情况下及时调节, 保持良好心态, 有助于降低患心脏病的比率。

摘要:本文基于一份心脏病调查数据, 探究个体的生活习惯以及健康状态同心脏病之间的联系。首先, 基于APRIORI关联规则算法得出客观指标和健康指标之间的强关联规则;然后, 根据提升度的排序以及结合客观事实删除客观指标中与健康指标强相关的变量;最后, 将剔除了相关变量的数据集进行K-Means聚类, 得出保持愉悦情绪, 不宜过度疲劳以及控制饮食清淡, 调节血糖、血压、血脂在正常状况对于心脏健康的重要性。

关键词:APRIORI关联规则,K-Means聚类

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:基于网络的大学英语协作式自主学习学习环境的创设下一篇:浅谈档案管理工作中存在的问题及完善措施