云计算环境下海量信息故障数据挖掘算法

2022-09-14

在云计算的大环境下, 海量数据资源的分享与交互会因为计算机设备故障、网络不畅等原因, 导致网络数据出现故障, 为此设计出针对网络故障数据的挖掘算法, 提高数据的保真率和实用性, 实现故障数据的诊断功能, 在提升挖掘精度的同时降低数据挖掘的错误概率, 以达到完善数据信息质量的功能[1]。

一、海量信息故障数据挖掘算法设计

(一) 算法工作流程

为了实现故障数据的准确挖掘将挖掘算法的工作分成故障数据的定位和故障数据的挖掘两部分。对故障数据进行挖掘先对云环境下的海量信息进行预处理, 利用关联原则将相似度较高的数据信息进行聚类分析, 以达到定位故障数据再挖掘的作用[2]。然后采用算法将数据集进行挖掘处理。

(二) 故障数据的定位

将云计算环境中海量的数据信息预处理后进行定位挖掘[3]。由于数据的规模和形式都很很庞大, 同样的数据信息会用不同的模式来保存, 不同的数据资源也会用类似的模式来记录, 所以要将数据进行预处理, 数据的预处理就是将数据相似性较强的数据整理成数据集, 利用公式1进行数据之间的相似度计算,

公式1中sim表示数据之间的相似度, A、B为两个数据集, i表示数据集中第i个数据, 可得出相似的数据集, 将最小相似度的阙值sim_min设定为1将数据分成数据集。然后判断该数据集是否故障, 选择一组无异常的数据集当做判断故障的标准, 计算出该数据集的平均属性和质心, 将已经分成的待检测的数据集中的数据与无异常的平均属性进行对比, 设定偏差范围在1之内, 当差值大于1时算法判定该信息所在的数据集为故障数据集, 可将故障相似的数据集统一操作, 避免多次挖掘产生误差, 节省重复挖掘的时间, 提高挖掘效率和准确性。

将数据集用算法定位, 让海量的数据资源都有一个相同模式且独一无二的位置坐标, 确定故障数据的位置后再进行进一步挖掘可以提升挖掘的准确性, 所利用到的算法定位公式为:

公式2中, x为定位位置的横坐标, y为定位位置的横坐标, n表示有数据集中有n个数据, A、B、i与公式1中表示的含义相同。通过算法公式得出数据集中每一个数据的具体坐标 (xi, yi) , 实现故障数据的定位为其挖掘做好准备工作。

(三) 故障数据集挖掘描述

对已知位置的故障数据利用算法进行挖掘, 在启动算法之前要用公式3计算出挖掘的强度, 避免在挖掘过程中对无故障的数据造成影响。

公式3中∆η表示挖掘强度, ∆为强度梯度, E (x) 为数据的存储空间。且E (x) 要满足在挖掘强度之内才可以进行挖掘操作。整个算法步骤:

(1) 对云计算环境中的海量信息分布存储进行部分采集, 确定数据节点的存储空间。

(2) 对数据进行相似度计算, 限定相似度阙值范围判断其是否故障。

(3) 将故障数据进行筛选得出位置信息, 设定挖掘强度, 当存储空间满足规定条件下进行挖掘转存。否则返回步骤1。

(4) 将算法循环执行, 直到全部数据集中的所有数据都操作完毕, 算法结束。

二、仿真实验

为保证本文提出的故障数据挖掘算法的有效性, 进行实验论证, 实验论证采用相同数据资源进行挖掘论证实验。为保证实验的严谨性, 采用传统挖掘方法, 即手动逐层挖掘和CART算法挖掘, 即利用决策二叉树的方式挖掘作为实验论证对比, 对数据挖掘误码率、挖掘时长、错误率和准确率进行测试分析。数据挖掘算法相比于其他两种方法误码率更低相对平稳, (b) 曲线中可看出本文算法相对于另两种方法所用时间更短, (c) 曲线数据挖掘算法的错误率随着挖掘节点数量的增加会逐渐趋于稳定, 且错误率较低。CART算法在挖掘数量较少时错误率较低, 但随着数量的增加错误率远远高于本文提出的算法, 传统算法的错误率始终处于很高的状态, (d) 曲线中分析出故障数据挖掘算法因技术原因岁挖掘的数量增加准确率随之升高并逐渐趋于稳定。对数据的挖掘没有实质性的意义。实验证明该算法具有可行性和准确性, 研究得出, 故障数据挖掘算法进行云计算环境下的故障数据挖掘的精度较高, 能有效实现对故障数据的诊断分析, 具有较好的应用前景和使用意义。

三、结束语

云计算为人们的工作和生活提供了丰富可靠的信息资源, 成为了网络时代不可或缺的技术, 在庞大的数据信息的使用过程中会因为不可控因素的问题导致数据发生故障, 互联网需要自身具备诊断、挖掘、反馈等自我纠正的功能, 为此设计出故障数据挖掘算法, 该算法通过对故障数据的定位和算法挖掘两个方面进行设计, 通过仿真实验验证该算法的有效性, 通过提高对故障信息的挖掘准确率改善网络数据信息的质量和稳定性。

摘要:当前云计算的环境为人们提供了便捷的网络访问, 进入可适配的计算资源共享池, 使得资源可以被快速的应用, 在这种大环境下网络上存在着海量的数据信息, 存在一些对故障数据检测不精准, 干扰因素大的问题, 针对该问题提出了故障数据挖掘算法, 通过对算法整体流程的设计、故障数据的定位形成数据集再对数据集利用挖掘进行描述, 最后通过仿真实验验证该算法的可行性, 已达到提升精准度, 在海量信息的故障诊断分析中具有良好的利用价值。

关键词:云计算,故障数据,数据信息,挖掘算法

参考文献

[1] 黄潮.云计算环境下的海量光纤通信故障数据挖掘算法研究[J].激光杂志, 2017, 38 (1) :96-100.

[2] 陈建尧.云计算下的一种关联挖掘算法的研究[J].科技通报, 2018 (7) :72.

[3] 潘力, 孔国利, 陈越等.云计算环境下改进PSO的化工设备故障诊断算法[J].湘潭大学自然科学学报, 2018 (3) :65.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:浅谈工艺美术发展下一篇:人事档案管理工作的实践与思考