面向大数据分析的在线学习算法研究

2022-09-10

一、研究在线学习算法的关键问题

在大数据分析的应用当中, 在线学习算法是十分重要的, 随着科学技术不断发展的步伐, 对大数据的计算逐渐由批量计算变成在线计算, 这是十分具有现实意义的, 但是在在线学习算法的发展过程中, 也开始逐渐面临一些新的问题, 目前主要面临的关键问题有三个, 以下就对这三个问题进行详细的分析。

(一) 收敛性较低

流数据往往是比较随机的, 但是随机产生的流数据也要进行实时的处理, 及时对分析的结果进行反馈, 并且由于流数据的价值有效时间往往比较短, 所以在计算之后会将大部分的数据丢弃, 只留下小部分比较有用的数据, 所以对于这种计算, 就必须要让系统拥有一定的收敛速度可以保证流数据能在有效的价值时间内体现出它的有用性, 尽管在线学习算法在一定程度上比以往的批量的学习算法拥有更高效的计算效率, 但是却没有比较好的收敛性, 因此无法对分析实时的流数据的需求进行满足。

(二) 可扩展性较低

流数据的数据量是非常庞大的, 并且只要数据源还在活动, 那么数据就会一直产生, 所以大数据很难用一个数字表达出来, 并且在使用系统对流数据进行计算的时候, 由于没有足够大的硬件空间对无限增长的数据进行储存, 所以无法有效管理好所有的流数据, 而且在线学习算法中也不对流数据进行储存, 只是对内存中的数据进行计算, 所以其没有比较好的可扩展性, 影响了在线算法的性能。

(三) 在线学习的自动化工具较少

在线学习算法要想在对大数据的处理上达到要求的目标和满意度, 就必须经过一些数据格式的转化、算数参数寻优等的过程, 在以往的批量计算中, 由于静态训练, 所以产生了很多比较成熟的自动化工具, 比如Libsvm自动化工具等, 但是在线学习算法在训练的过程中, 由于流数据产生的速度快且大量, 所以都是进行动态训练, 而且在计算的过程中, 由于算法的多样化, 导致在进行在线算法学习的过程中没有可以利用的自动化工具, 所以在线学习算法在发展的过程中受到了一定的阻碍。

二、在线学习的算法

(一) 在线学习的线性模型

1. 感知器的在线学习算法

感知器是一种属于机器学习仿生学领域的分类学习机的模型, 它拥有着很多比较复杂的算法, 所以在机器学习的算法中得到了充分的使用, 其中当分类正确的时候, 为了让权重不发生改变, 就对其权重向量进行“赏”, 而当分类发生了错误, 它就对向量进行“罚”, 修改发生的错误, 使之能够转换成正确的方向。它往往是用求和的方式对错误的分类中的样本进行惩罚, 其主要的公式是:

其中Γ是一种错分样本中的下标集, JP (w) 是一种风险泛函。

感知器的算法属于一种赏罚的算法, 它能够充分解决线性之间能够进行可分的问题, 它的出现在一定程度上推动了使用机器进行学习的发展, 在感知器算法中还有一种二阶感知器, 它具有一定的收敛性, 能够不断更新感知器的公式对大数据进行计算。

2. 在线学习中被动-主动的算法

在线的被动-主动算法是一种拥有全局最优解并能将其实现和验证的凸优化的模型, 它主要的核心思想就是在一个样本的支持向量机的基础想, 有效转变向量机的最大间隔的约束, 并且被动-主动算法中有一种更新规则, 就是当新产生的数据没有错误, 该算法就不会进行更新, 但是当新的数据由错误时它就会进行主动的更新, 保证数据的准确性。

3. 在线的稀疏解学习算法

稀疏解的产生是在通过批量的整体训练中, 获得边界上的最优值。但是在在线学习算法中, 由于其采用的训练方法是随机的梯度下降法, 因此很能保证算出的解的稀疏性, 所以使用梯度截取法, 可以获得有效的稀疏解, 通过将更新的权重值设置为0, 使产生的特征数目较大, 就可以产生稀疏的权重向量, 此方法与随机梯度下降法相比, 可以降低对在线学习算法的性能的损害。

(二) 在线学习的非线性模型

在线学习中的非线性模型有四种, 其中包括核感知器、核在线被动-主动算法、固定的缓冲器的核在线学习算法以及核在线梯度下降法, 核感知器就是线性模型中的感知器算法的推广, 它主要是通过利用核函数的思想构建出的非线性的感知器算法, 在一定程度上提高了算法中的分类能力;核在线被动-主动算法也是通过核函数来实现非线性化的模型, 尽管它在处理批量的向量机的问题上有比较大的成就, 但是由于还没有通过实用对数据进行训练计算, 因此在在线学习算法中还没有进行大量的运用;固定缓冲器的核在线学习算法是集合随机感知器每次分类出现的错误, 当其充分饱和之后, 使用感知器将缓冲器中的样本剔除, 然后再引进一个新的样本, 在一定程度上保证了数据计算的稳定性。

(三) 非传统的在线学习算法

非传统的在线学习算法主要有两种, 多任务在线学习和组LASSO在线学习, 其中多任务在线学习是在学习共享信息的模式中进行多个有关联的任务的学习, 这种学习的方法比一般的单个任务学习的方法要好, 在一定程度上提高了计算的效率;组LASSO在线学习算法拥有易用性的特点, 时间的复杂度比较低且计算比较高效, 所以常常用在学习目标的变量以及选择特征上。

三、结束语

在大数据发展的时代下, 尽管给在线学习算法带来了一定的机遇, 但同时也带来了许多的挑战, 由于以往传统的批量机器的学习技术随着时代的发展已经不能满足分析大数据时的具体需要, 因此在线学习的算法通过直接在内存中对数据进行实时的计算, 成为了现代流数据学习比较有用的工具, 但是目前我国的在线学习还存在着一些问题, 所以本文通过研究在线学习的算法, 希望能为在线学习算法的发展提供一些有用的信息, 促进我国在线学习算法的可持续发展

摘要:随着社会的不断发展, 大数据中需要实时处理大量且高速的数据的领域越来越多, 因此如何将大数据转变成在社会上通用的信息变得尤为重要, 而随着社会发展应运而生的在线学习算法是有效处理大数据的一种有力的工具, 因此本文主要对面向大数据分析的在线学习算法进行了研究, 希望能够为解决目前挖掘大数据任务产生的困难提供一点依据。

关键词:大数据分析,在线学习,算法研究

参考文献

[1] 李志杰.面向大数据分析的多任务加速在线学习算法研究[D].武汉:武汉大学, 2015.

[2] 李志杰, 李元香, 王峰, 何国良, 匡立.面向大数据分析的在线学习算法综述[J].计算机研究与发展, 2015, 52 (11) :2545-2554.

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

上一篇:浅谈暖通空调安装施工中存在的问题与方法下一篇:智能化工程未来发展方向