大数据关键技术及发展

2024-06-24

大数据关键技术及发展(精选8篇)

大数据关键技术及发展 第1篇

为了适应能源互联网发展趋势及日益复杂的运行环境,针对以电网为核心的能源互联网这一复杂网络属性,有效融合信息物理系统理念、多源信息采集及大数据相关技术支撑下,开展适用于大型能源互联网的分析、控制及大数据应用模式,以便增强能源互联网多源采集信息挖掘深度和利用广度。为能源互联网提供更强的分析与表达能力,更精确地全面感知复杂能源网络的运行态势,并为更高效的实时优化控制打下基础,从而全面提升能源互联网智能化水平,助推能源互联网核心业务创新和价值创造。

来自公司科研、产业、运行及高校的39位专家出席了本次会议,就各专题报告的内容和相关技术进行了热烈、深入的探讨,各位专家的观点简述如下。

总结发言

发言人:郭剑波院士

亚里士多德范式对科学发展发挥了重要的指导作用,未来科学的发展也必将传承这种模式。当前电网面临售电放开、发电侧进一步深化、用电负荷比重变化明显、电网确定性因素比重减小、不确定性因素比例上升等深刻变革,需要我们站在未来看现在,意识到解决日益发展的电力系统所带来问题的紧迫性。对电网而言,传统的分析方法取得了较好的效果。但要做好未来电网变化对现有技术体系、理念框架产生不可想象冲击的准备。在新形势下,电网运行方式和组织结构发生了巨大变化,需探索与之相适应的新的理论作为支撑。新技术和理念不断出现,为电网分析提供了新思路和新方法,其中大数据技术在电力系统具有广阔的应用前景,应得到重视。研究大数据首先要清楚大数据的科学原理并形成方法论,建议在结合模型的基础上,根据大数据的科学原理和性质明确其应用场合。电力系统数据丰富无比,电力系统中应用大数据技术符合当前电网需求,但仍处于探索阶段,建议对其进行标定,形成完整的体系,挖掘出更多信息,指引电力大数据技术朝积极正确的方向发展。

题目:关于因果分析与统计分析深度融合的探索

发言人:薛禹胜院士

电力系统当前主要研究的是信息系统的全部组分及与能源相关的全部组分的深度融合,也就是达能源范畴内的信息物理系统。信息能源系统要求将传统数据扩展为大数据,协同挖掘大数据中隐藏的因果关系,研究复杂社会-技术-行为交叉系统的相互作用关系。从电力系统的角度,实现数据资源与能源资源的融合,从电力系统大数据中提取关联关系,发现隐含关联,实现交叉领域的决策支持。传统的轨迹分析很多时候已经不适用于当前电网,且使用范围有限。实际系统中,许多经验判断是因为尚未掌握,而非不存在因果关系,传统思维模型已不再适用。利用大数据因果分析改进统计分析的适用性,从统计研究中发现因果关系建立数学模型。科学研究范式应与量化分析很好融合,其在因果分析、理论分析中能够充分提取数据隐含信息,为电网分析提供新思路。信息物理能源系统是智能电网概念的拓展:第一,将物理目标从电力流扩充到整个能量流;第二,将信息系统从专用网拓展到互联网、物联网、社交网络;第三,将数据范畴从物理系统内部拓展到环境、能源、市场、金融、社会。信息物理能源系统反映了电力、能源及环境的关联,大数据等信息技术及大能源物理技术的融合。这种融合合理的将物理系统和信息巧妙结合,将为未来电网发展提供方向。

题目:大数据在电网领域的探索与实践

发言人:王继业教授级高工

当前大电网在广域互联、承载业务主体、人为意志影响因素、以及电网在决策、调度模式几个方面都在发生着变化,需要借助大数据的思想和技术来驾驭如此复杂的变化。抛出“以数据为核心的未来电网”理念,从全程在线、深度采集、全景分析几个方面阐述未来电网特性。介绍了中国电科院在大数据领域围绕国网业务体系在大数据技术、数据模型、业务应用方面展开的布局,以及在电网安全、调度控制、营销用能等领域取得的阶段性进展;基于实践过程中对大数据的认识,以及阿尔法狗、新一代搜索引擎、认知计算等新技术的所带来的启发,提出开展“关联科学”研究的倡导,强调关联科学背后的科学态势对于电力领域的影响是不可忽视的,未来电网将在关联科学的支撑下产生新的科学作用模式,同时给人们带来电网思维模式的变革。最后畅想利用电网各种场景数据,分析、提取能源互联系统的多源大数据关联特性,研发针对大电网智能监控的深度学习智能算法,打造面向大型能源互联系统的“Alpha Go”。

题目:特高压交直流电网安全形势与需求—大电网安全综合防御体系设计

发言人:张剑云高工

从大电网安全形势与需求、大电网安全综合防御体系的总体设计、里程碑计划三个方面,对特高压交直流电网系统保护总体设计方案进行了详细的介绍。分析了特高压电网快速发展,风电和光伏等新能源大量并网,远距离跨区输电规模持续增长,电网格局与电源结构重大改变,特别是在电网“强直弱交”的过渡期,电网特性发生深刻变化,主要体现在故障对系统的冲击全局化,电网运行安全风险增大,电源结构发生深刻变化,电网调节能力严重下降,电力电子化特征凸显,电网稳定形态更加复杂。指出了“十三五”期间,公司电网多回跨区特高压直流工程相继投运,新能源并网容量持续增长,四交六直投产后,特高压交直流互联电网特性发生深刻变化,电网运行安全风险增大。安全防御能力急需提升。针对公司特高压交直流电网特性的深刻变化和面临的安全稳定运行风险,必须加强特高压电网建设,尽快构建东西部同步电网。在电网发展过程中,创新电网安全运行控制的防御体系,构建大电网系统保护,并介绍了大电网安全综合防御体系的定义、总体设计方案和关键技术。最后简单介绍了系统保护的里程碑建设计划,指出用2到3年的时间在理论、技术和装备方面实现系统性重大突破,全面推动全球能源互联网发展。

题目:信息驱动的能源互联网全景安全防御概念及架构

发言人:李柏青教授级高工

从工程技术背景及需求、全景安全防御的概念、全景安全防御的框架、展望四个方面进行了阐述,提出从动态能量流的角度讨论大电网天然的复杂网络属性,介绍了电网的安全风险及其复杂运行环境,提出现有基于建模仿真的被动式防御控制存在的一些问题,介绍了电网信息化、大数据的应用、人机大战带来的启示以及信息能源系统的基本层次结构,进而提出信息系统融合综合能源系统的信息驱动的主动式安全防御系统。提出时间、空间以及目标等多维度,立体化安全防御概念,提出系统级控制与多层次互动协同原理,全景安全防御的理论层次、技术路线,并建立功能结构,搭建大技术支撑平台,实现安全防御人机交互系统。建立基于能量流的大电网统一稳定性分析理论框架,研发基于深度学习的大电网智能感知与决策技术,建设基于大数据技术的多能流能量综合管理系统,打造信息驱动的能源互联网全景安全综合防御体系。

题目:基于数据的电力系统运行特征分析初探

发言人:穆钢教授

基于机理性建模分析的电力系统运行行为识别方法难以从整体上揭示电力系统运行行为及其演变特征。大数据技术的出现,为识别提取电力系统运行行为特征提供了一条新的途径。电网运行数据集是电网运行行为的全景记录,具有典型的大数据特征。报告介绍了电网运行数据分析工具、质量评估、电力系统运行行为及其时序演进特征识别3个方向的研究进展。在电网运行数据分析工具方面,介绍了基于Hadoop的数据存储、处理平台;在电网运行数据质量评估方面,分别介绍了某省级电网一年内节点功率平衡误差及支路功率量测误差评估;在电力系统运行行为识别方面,介绍了基于潮流熵的电网运行特征识别方法,并开展了潮流熵的时序演进特征分析。此外,报告还介绍了基于聚类的电网运行行为时序演进特征提取方法。报告指出:大数据技术与电力系统大数据结合可推进源于数据的电力系统运行行为研究。

题目:复杂电网动态相量监测技术与系统实时状态感知

PMU是实现全系统动态过程监测最有效的工具,然而在动态量测过程中存在误差较大、量测延时较长等问题,不利于闭环控制,目前多用于事故后分析,实时状态感知还存在困难。为用于复杂电网相量动态监测,提出运用最小二乘方法提高PMU动态量测精度的方法。为应对闭环控制时延过长导致振荡效果抑制过差的问题,呼吁将PMU分为保护控制类和量测类两类,其中保护控制类PMU适用于系统级闭环控制,建议关注并尽快启动保护控制类PMU相关技术标准。最后提出了基于PMU信息的分布式动态状态估计的探索思路,即充分利用本地状态和拓扑信息,分别在发电厂和变电站内,基于PMU实施本地(分布式)动态状态估计,感知局部动态状态和拓扑信息,再将发电机及变电站的动态状态估计结果上送至调度中心,作为网络节点电压和电流相量伪量测(虚拟量测),建立量测量与状态量的函数关系之后,进行全系统线性状态估计。

题目:信息能量系统综合安全评估与运行知识发现

发言人:郭庆来教授

智能电网是典型的信息能量融合系统。智能电网与能源互联网都是典型的信息-物理融合系统(CyberPhysical System,CPS),信息环节的可靠性问题可能导致物理系统的运行风险。从两个角度阐述了信息能量系统所面临的挑战与问题。首先是构建信息能量系统综合安全评估框架,类似于传统电网进行以N-1分析为代表的安全评估,通过构建信息能量融合模型实现信息能量综合安全评估,定量评价信息环节扰动对物理电网安全的影响机理。其次,提出了一种基于大数据的复杂电网运行知识发现方法,通过在线样本生成、分布式特征提取与机器学习,实现了电网关键断面的在线识别和运行极限的精细化表达,为运行人员驾驭日益复杂的电网提供了基于数据驱动的手段。同时也建议未来进一步开展信息能量系统的深入理论研究与关键技术应用。

题目:复杂网络的控制与识别及其在智能电网中的应用

发言人:吕金虎教授级高工

从ER网络、小世界网络、无标尺网络等网络拓扑模型角度阐述复杂网络概况,介绍网络的平均路径长度、串系数、度数分布等复杂网络基本概念。提出复杂网络的牵制控制问题,从多个关键因素相互耦合、网络社团结构的检测、网络结构的动态演化三方面阐明控制、网络科学的机遇与挑战。提出复杂网络的结构识别问题,主要介绍基于自适应同步的网络动力学参数和拓扑识别方法,同时识别网络拓扑结构和动力学参数;指出动力学信息对于结构识别并非充分的,则需要满足经内连映射和节点动力学映射后的两簇函数组在同步流形上线性无关的条件;分析了阻碍网络拓扑识别的因素,并介绍了网络拓扑识别的某些最新的工作。进一步阐述复杂网络在智能电网中的典型应用,分析未来电网发展趋势与安全运行挑战,从常规电源控制能力不足导致弃风、弃光,集中控制模式不支持分布自主运行2个角度表述未来电网运行控制的根本挑战,给出未来电网运行控制分层多智能体网络的理想架构。指出复杂科学与工程的核心科学问题,在新的数学工具与框架背景下,存在以下4个关键问题:网络化计算的理论、网络结构的理论基础、网络协议设计方法、通用数学语言。最后,对复杂网络理论在未来智能电网应用进行展望与思考。

题目:高维统计分析及其电网大数据——随机矩阵理论框架

发言人:邱才明教授级高工

移动互联网的大数据处理关键技术 第2篇

【关键词】移动互联网;大数据;处理;排重;整合

一、移动互联网大数据概述

移动互联网大数据是指用户使用智能终端在移动网络中产生的数据,主要包括:与网络信令、协议、流量等相关的网络信息数据;与用户信息相关的用户数据;与业务相关的数据。

大数据提供客户经历的各种体验的完整信息,可以详尽到在任何时间、地点,结合移动客户体验方案来分析相关数据,从而帮助运营商更详细掌握客户体验情况,提前预知网络上可能发生的问题,及时做出合理响应,这些信息对运营商的服务提供很大的帮助。大数据分析为整个电信产业带来了前所未有的机遇与挑战,如何高效地发挥这些数据资源的作用,是摆在为运营商面前的关键问题。

二、移动互联网大数据处理中存在的问题

(一)多源数据采集问题

大数据时代的数据存在如下几个特点:多源异构、分布广泛、动态增长、先有数据后有模式。举例来说,一个用户的一条位置信息的价值是很小的,但是很多这样的低价值数据可以完整刻画出用户的运动轨迹,获得本质上的价值提升。然而,在已有的数据采集系统中,数据收集不全面是一个普遍的问题,如何处理来自多源的数据是移动互联网大数据时代面临的新挑战。其中,迫切需要解决如下几个问题:

1.无线移动网络结构复杂,需要在网络中高效地采集数据。

2.多源数据集成和多类型数据集成的技术。

3.兼顾用户的隐私和数据的所有权和使用权等。

(二)移动互联网海量异构数据管理问题

据统计,2003年前人类共创造了5艾字节(Exabytes)的数据,而今天两天的时间就可以创造如此大量的数据。这些数据大部分是异构数据,有些具有用户标注、有些没有;有些是结构化的(比如数值、符号)、有些是非结构化话的(比如图片、声音);有些时效性强、有些时效性弱;有些价值度高、有些价值度低。移动互联网海量异构数据管理平台包含以下关键研究和技术:海量异构大数据传输控制、大数据存储、大数据质量管理。

(三)移动互联网大数据实时数据挖掘问题

传统意义上的数据分析(Analysis)主要针对结构化数据展开,且已经形成了一整套行之有效的分析体系。首先,利用数据库来存储结构化数据,在此基础上构建数据仓库,根据需要构建数据立方体进行联机分析处理(OLAP,Online Analytical Processing),可以进行多个维度的下钻(Drill-down)或上卷(Roll-up)操作。对于从数据中提炼更深层次的知识的需求促使了数据挖掘技术的产生,并发明了聚类、关联分析等一系列在实践中行之有效的方法。这一整套处理流程在处理相对较少的结构化数据时极为高效。但是,对于移动互联网来说,涉及更多的是多模态数据挖掘,这些数据包括手机上的传感器,包括加速度计、陀螺仪、指南针、GPS、麦克风、摄像头、以及各种无线信号(如GSM、WiFi)和蓝牙等。这些原始数据在不同维度上刻画被感知的对象,需要经过不同层次的加工和提炼才能形成从数据到信息再到知识的飞跃。移动互联网半结构化和非结构化数据量的迅猛增长,给传统的分析技术带来了巨大的冲击和挑战。

三、移动互联网的大数据处理关键技术

(一)数据处理的整体框架

数据处理的整个过程如图1所示,主要包括四个模块:分词(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和数据。

这四个模块的主要功能如下。

分词:对抓取到的网页内容进行切词处理。

排重:对众多的网页内容进行排重。

整合:对不同来源的数据内容进行格式上的整合。

数据:包含两方面的数据,Spider Data(爬虫从网页中抽取出来的数据)和 Dp Data(在整个数据处理过程中产生的的数据)。

(二)数据处理的基本流程

整个数据处理过程的基本步骤如下:

1.对抓取来的网页内容进行分词。

2.将分词处理的结果写入数据库。

3.对抓取来的网页内容进行排重。

4.将排重处理后的数据写入数据库。

5.根据之前的处理结果,对数据进行整合。

6.将整合后的结果写入数据库。

(三)数据处理的关键技术

1.排重。

排重就是排除掉与主题相重复项的过程,网页排重就是通过两个网页之间的相似度来排除重复项。Simhash算法是一种高效的海量文本排重算法,相比于余弦角、欧式距离、Jaccard相似系数等算法,Simhash避免了对文本两两进行相似度比较的复杂方式,从而大大提高了效率。

采用Simhash算法来进行抓取网页内容的排重,可以容纳更大的数据量,提供更快的数据处理速度,实现大数据的快速处理。

Simhash算法的基本思想描述如下:输入为一个N维向量V,比如文本的特征向量,每个特征具有一定权重。输出是一个C位的二进制签名S。

(1)初始化一个C维向量Q为0,C位的二进制签名S为0。

(2)对向量V中的每一个特征,使用传统的Hash算法计算出一个C位的散列值H。对1<=i<=C,如果H的第i位为1,则Q的第i个元素加上该特征的权重;否则,Q的第i个元素减去该特征的权重。

(3)如果Q的第i个元素大于0,则S的第i位为1;否则为0。

(4)返回签名S。

对每篇文档根据SimHash算出签名后,再计算两个签名的海明距离(两个二进制异或后1的个数)即可。根据经验值,对64位的SimHash,海明距离在3以内的可以认为相似度比较高。

2.整合。

整合就是把抓取来的网页内容与各个公司之间建立对应关系。对于每一个公司来说,可以用一组关键词来对该公司进行描述,同样的,经过dp处理之后的网页内容,也可以用一组关键词来进行描述。因此,整合就变成了两组关键词(公司关键词,内容关键词)之间的匹配。

对于网页内容的分词结果来说,存在着两个特点:(1)分词结果的数量很大;(2)大多数的分词对描述该网页内容来说是没有贡献的。因此,对网页的分词结果进行一下简化,使用词频最高的若干个词汇来描述该网页内容。

3.流处理系统。

移动互联网的多源异构数据每时每刻都在大量产生着。数据探测模块根据这些数据处理的不同要求,将数据分别送给实时处理系统和批处理系统。很多互联网公司将根据业务的需求和处理的时间将划分为在线、近线和离线三种方式来处理业务消耗的时间。这其中,在线处理的处理时间通常在毫秒级,一般采用流处理方式;离线处理的处理时间通常以天为单位,一般采用批处理方式。这样会最大程度地利用好输入/输出系统。近线处理对其处理模式没有特别的要求,处理的时间一般在分钟级或小时级,在实际情况中多采用此处理方式,可根据需求灵活选择。

四、结语

综上,随着移动互联网的迅猛发展,客户处理的业务越来越复杂,与其相关的大数据正逐渐增长,大数据分析技术已经成为各方关注的焦点。合理使用大数据将有效的发挥移动互联网大数据的资源作用,使大数据为用户获得前所未有的体验,为企业发展提供完整清晰的指引。

参考文献:

[1]张铮. 浅析网络大数据的采集和处理方法[J]. 信息系统工程,2015(10).

[2]刘智慧,张泉灵. 大数据技术研究综述[J]. 浙江大学学报(工学版),2014(06).

大数据安全管理规范及关键技术 第3篇

1 大数据安全管理及利用概述

图灵奖获得者Jim Gray提出了科学研究的第四范式, 即以大数据为基础的数据密集型科学研究, 可见以大数据为基础开展科学研究, 对于各个行业领域而言具有不可估量的价值。与此同时, 大数据如同一把双刃剑, 在带来许多便利的同时, 也产生了前所未有的安全隐患。例如, 2014年3月22日“携程网”的日志漏洞, 导致大规模用户信息如姓名、身份证号、银行卡等信息泄露, 2014年8月, 苹果“i Cloud服务”造成诸多私密照片被盗等, 案例所涉及的数据量极大。

在数据大量增长的情况下, 在哪些环节会出现数据安全问题呢?一般来说, 大数据从生产环节来划分, 一般会历经数据规划、数据汇聚、数据分析, 数据利用、数据运维等过程;从参与人员来划分, 一般分为数据提供方、数据管理方、数据使用方。为保证大数据安全, 不仅要控制每个生产环节的安全, 还要管理接触到相关数据的人员, 防止数据信息泄露, 保证商业价值被合理利用。

2 大数据管理及利用规范

建立合理及有效的大数据管理及利用规范, 是大数据管理和利用的重中之重, 通过实施安全管理规范, 可以对参与人员根据使用权限, 记录数据使用过程, 高效共享利用数据, 并防止数据泄露以及被滥用, 形成一套安全的数据服务体系。规范主要包括如下几个方面。

2.1 数据安全等级设定规范

数据分级, 是指从隐私安全与保护成本的角度出发, 对数据资产进行分类和等级划分, 进而根据不同需要对数据资产进行重点防护。具体等级定义可分为以下几种。

敏感数据:通过该类数据可直接识别特定用户, 是与用户生活紧密相关的数据。

重要数据:通过该类数据可以得知产品商业价值等, 是需谨慎使用的用户相关数据、产品核心数据。

一般数据:支撑业务逻辑及运行的数据, 通过统计、分级、加工不会对用户或公司利益产生影响。

2.2 数据操作人员管理规范

专岗要求:用户按类赋权。用户账号应使用组、角色等组合方式进行权限分配, 以方便授权管理和统计。首先可根据帐户功能等要素分为不同的用户组, 所有的授权和取消动作都针对该用户组而不是单个用户。需要创建用户或更改用户权限时, 重新选择该用户所属的用户组, 相应的用户授权活动就可以自动完成。

专人要求:用户身份唯一性。每个用户账号的设置, 均应对应唯一的使用人, 而非一个部门或一个小组。用户账号的使用者应对使用该账号所产生的后果承担相应责任。如果因为某种特定需求而不能实现用户身份的唯一性时, 必须有相应的补偿控制措施确保用户行为的可追溯性和不可抵赖性。

2.3 数据安全使用评审规范

数据评审, 是指当数据使用方提出需求时, 需要根据数据等级完成评审流程。不同等级的数据, 需由不同等级的主体完成评审。

评审根据数据使用方业务发展所需, 提出数据需求, 包括业务上明确需求目的、使用场景及范围、使用方责任人, 技术上明确数据内容、格式、周期、时段、紧急程度等。

2.4 数据利用授权流程规范

授权流程:用户权限需经过申请、审批、开通、变更和删除等环节的相关操作。用户账户申请、注销及变更过程中应有书面或邮件的申请、变更及审批记录。用户权限根据用户的具体需求, 遵照最小权限原则进行授权和审批。用户账户注销或者账户类型变动时, 由数据资产管理员对访问权限进行相应调整。

注销流程:用户账户注销时, 应对该用户账号进行禁用或删除 (一般可先禁用, 一段时间如半年后再删除) 。

3 大数据安全管理及利用关键技术

保证大数据安全管理及利用, 还需要掌握相关的关键技术, 关键技术包括以下几种。

3.1 数据规划

在启动与大数据相关的项目之前要充分考虑安全问题, 而不是等到发生数据事故之后再采取补救措施, 应做到防患于未然。组织项目相关人员, 认真按照规范制定符合项目实际情况的管理办法或者规章制度, 并在实际工作中切实执行。

3.2 数据汇聚

在数据汇聚过程中, 会面临不同数据类型 (例如地理位置数据) 的挑战, 关系型数据库中的表中存储一些格式化的数据结构, 同时也会产生性能瓶颈, 特别是在需要提供24小时不间断服务条件下, 对数据库系统进行升级和扩展就变得很困难。目前, 这些问题和挑战可以利用新型数据库No SQL技术来解决。No SQL具有如下特点。

易扩展性:No SQL不需要关系数据库的关系型特性, 数据之间无关系, 非常容易扩展。

大数据量、高性能:大数据量下具有高可用的读写性能, 因为No SQL Cache是记录级的, 是一种细粒度的Cache, 所以No SQL在这个层面上来说就要性能高很多, 而关系型数据库是一种大粒度的Cache, 针对Web2.0的交互频繁的应用, Cache性能不高。

灵活的数据模型:No SQL不需要预先建立数据字段, 随时可以存储自定义的数据格式, 在不太影响性能的情况下, 可以方便实现高可用的架构。

具体对比如表1所示:

3.3 数据分析

大数据分析是一个软件技术框架 (Framework) , 面对数据容量大 (Volume) 、数据类型繁多 (Variety) 、商业价值高 (Value) 、处理速度快 (Velocity) 的数据, 具备分布式并行处理机制。目前采用开源的分布式开发框架Hadoop, 或者其他具有相似分布式并行计算能力的框架, 实现Map/Reduce计算, 实现分布式计算节点的统一调度和弹性部署, 实现海量数据的分析计算。Hadoop架构图如图1所示:

3.4 数据利用

在数据利用过程中, 可以利用多种技术。

远程访问:采用成熟可靠的身份验证、授权和审计, 包括虚拟专用网SSL VPN技术, 管理方提供数据安全的远程访问控制能力。

数据加密:在文件层增加数据加密策略, 通过SSL (安全套接层) 加密方式, 在数据节点和应用程序之间交换时保护大数据, 加密关键数据后, 即使数据泄漏, 非法用户也无法从中获得任何有价值的信息。

3.5 数据运维

在数据运维阶段, 数据溯源可以确定各项数据的来源, 采用标记法, 比如对数据的来源进行标记, 通过此标记可以查询数据的传播历史。目前针对个人数据, 欧盟有专门的个人数据登记制度 (Notification) , 通过登记包括数据处理控制人的姓名和地址、数据处理目的、数据主体种类及其描述、数据接收者等规范个人数据使用。借鉴上述经验, 数据运维应对流转环节进行记录、保存、传递、录入相关信息提交备案, 以便溯源。

4 结语

大数据时代已到来, 每个人都在创造大数据, 也面临着安全隐患。在这个过程中, 建立大数据安全管理规范是构建信息安全环境的基础, 根据安全规范要求, 掌握关键技术, 利用集群的高速运算和存储能力, 实现分布式的运行系统, 提供基于流的高效数据传输形式, 适应大数据的应用, 对海量数据进行深度挖掘, 规范和技术双管齐下, 提高数据价值。同时, 我们必须看到, 大数据的安全管理需要立足于实际情况, 必须针对客户的具体要求制定相应管理办法或者规章制度, 并在实际工作中切实执行。

摘要:近几年, 大数据 (Big Data) 成为学术界和产业界的热点话题。大数据技术改变着世界, 不仅影响人们的生活、工作, 还改变了以往的业务运营模式, 建立了新的产业形态。但实际生产中, 在收集、存储和使用的各个环节中, 都隐藏着安全风险, 如何保证大数据的安全一直是重点与难点所在。基于此, 分析了大数据安全管理及利用所面临的问题, 制定了大数据安全管理规范, 对关键技术进行分析并提出了行之有效的技术方案, 为数据的安全管理提供了新的途径。

关键词:大数据,大数据安全,安全规范,关键技术,信息安全

参考文献

[1]维克托·迈尔-舍恩伯格, 肯尼思·库克耶.大数据时代[J].教育科学论坛, 2016 (10) .

[2]张尼, 胡坤.大数据安全技术与应用[M].北京:人民邮电出版社, 2014:13-15.

[3]帕尔, 佩尔茨尔.深入浅出密码学:常用加密技术原理与应用[M].北京:清华大学出版社, 2012:120.

[4]李智勇, 李蒙, 周悦.大数据时代的云安全[M].北京:化学工业出版社, 2016:1-3.

[5]李世明.应对网络威胁:个人隐私泄露防护[M].北京:人民邮电出版社, 2009:55-60.

大数据技术应用及发展趋势 第4篇

大数据技术指的是人与事物通过计算机这个第三方媒介将人和事物之间的数据进行交互上传, 而计算机把上传到互联网上的数据进行归类、融合与协调的新型信息处理技术。大数据技术的忽然兴起很大地冲击了现有的IT架构, 也给计算机互联网技术的发展创新带来重大机缘。为了充分发挥大数据在网络信息中的作用与价值, 网络技术人员应当积极探索大数据技术的运行规律, 研究其基础理论与基本方法, 在掌握其发展现状的基础上积极展望未来发展趋势。

1 大数据的定义

1.1 大数据的概念

大数据不只是代表大量的数据信息, 它是一种全新的思维模式也可以把它看作是一个拥有着浩瀚的数据量和数据众多种类的庞大数据集, 同时与旧式的数据有本质的区别。它不仅可以对数据进行掌握, 重要的是它可以对这些巨量的数据信息进行细致化的区分处理, 然后来获取到更多有重要价值的信息。大数据的意义在于通过对大量数据进行分析从而对核心价值进行预测。

1.2 大数据的特点

大数据有几个主要特点: (1) 数据容量大 (Volume) 并且规模十分庞大, 从以前的GB和TB已经升级至PB级别, 乃至有一些的大公司用到了EB、ZB计量级别。“根据一则新闻报道, 到2014年, 全世界的存储数据量已经能达到2.0ZB字节”可想而知, 数据的扩充速度飞快增加。 (2) 数据类型的多样性 (Variety) , 就包括了一些结构化数据、半结构化数据和非结构化数据等。而如今结构化数据只占大数据总体的15%, 其他的大多数都是非结构化数据。 (3) 数据的快速处理 (Velocity) , 是指数据访问的速度, 它与以前的数据挖掘技术在本质上有明显的不一样。在现今世界上, 有许多的数据获取和数据存储设备, 他们毫不停歇的获取大量的数据, 进行快速的处理来达到高效准确性。 (4) 价值密度低 (Value) 。根据相对传统的思想和信息技术, 但是在实际中经常会有信息丰富但是知识单调的情况。就拿视频为例, 在持续的监拍过程当中, 也许数据的价值只有一两秒钟。这四大特点也就是业内常说的4V, 而以前相对传统的数据分析法几乎被大数据技术彻底覆盖。

1.3 大数据的弱点

大数据在社会经济科学技术的领域所取得的巨大影响, 并不能取代对所有社会需要解决问题的思维方式, 而大多数人都关注结果无益累积, 例如个人隐私安全的侵犯。“人肉搜索”的威力, 估计大多数人都清楚。只要被盯上, 无论自己是多么低调, 自己的信息早晚都会广而告之, 没准有些信息连自己都不清楚。换句话说, 在当今的社会隐藏自己, 几乎是一件不可能的事情。当然, 这一切的目的都是为了能够更加方便地生活, 但其副作用就是, 一部分的自由及隐私就要放弃掉。

2 大数据关键技术与应用

2.1 大数据关键技术

大数据最重要的技术主要是数据的采集、数据分析处理、和数据解析管理这三个范畴。上文介绍过大数据的其中一个特点就是它的多样性, 而这种庞杂种类繁多的环境下就需要数据采集与处理, 一般分为智能感知层:通过数据传感器、网络通信体系和其他的测试设备等一些软硬件资源接入系统, 才能够实现对结构化和非结构化的大量数据信息来进行智能化的识别和管理等。分析技术是大数据能够便捷利用的一个核心流程, 在传统的数据挖掘与机器学习基础上, 研发了网络挖掘技术、图挖掘等新型挖掘和分析技术, 通过数据分析出的结论能够用于推荐系统、智能网络系统等。对于普通的终端用户和分析专家来说, 需要的是最为直观的解释结果。从解析管理角度着重突破:可以引用tag cloud等可视化的技术支持, 人机交互技术在交互的过程当中, 逐渐带人终端用户进行分析流程来达到最佳的解释时效性。通过建立相应的数据库, 来重点解决结构化、非结构化和半结构化的海量数据, 开发可靠的分布式文件系统 (DFS) 、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;提供索引查询技术、引擎服务更加大对大数据技术的运用。

2.2 汽车行业大数据的应用

伴随着时代的推进信息的飞跃, 一些相对传统的企业和国家事业单位都要对大量的数据进行管理, 所以开始专研大数据技术。汽车行业即将进入大数据时代。而现在在日本的汽车行业当中, 科研专家们将驾车人的一些行为习惯挖掘出来并进行数据化, 从而实现自动调整座椅的使用习惯, 还有根据汽车中心的数据化, 保养汽车、地理位置等, 零用部件来产生其特定的价值。大数据对汽车等行业的应用已经充分体现了大数据时代的兴起。

2.3 中国移动互联网大数据的应用

“大数据”这个高大上的概念一出现, 就像病毒一样蔓延下来, 截止2015年手机上网用户已经达到约9亿左右, 而随着移动网络设施的不断发展必定会把这一行业推向更高点。中国移动宁波的分公司在金融领域与当地的银行进行了数据共享的工作, 可以做到通过各种信息渠道对用户做到非常准确充分的服务, 从互联网领域又能够通过大数据进行及时的修改查询网络环境, 例如当我们正在坐路途较远的高铁, 手机网络较差时候。它们会通过大数据来进行及时优化网络, 从而使网速更加流畅。2016年移动互联网流量发展情况如图1所示。

2.4 大数据是互联网产品经理的必备资源

最早的网站访客数据分析工具比如google analytics多数时间是作为SEO工具, 主要用来发现客户在网络的使用习惯, 点击从哪里过来又从哪里出去, 对于那些有兴趣的客户等内容, 而今天的互联网产品非常丰富, 数据采集和分析工具还远远不够, 而访客信息背后的数据越来越庞大, 分离出一些特征性极强的客户, 有利于针对产品的推出, 比如视频网站的广告植入分析等等。

3 大数据的发展趋势

由于大数据是一个新的产业, 它还处于迅速发展时期, 它的利用范围十分宽广, 基本笼盖了我们所认知的各个行业, 并且它还在不断的让我们发现未发掘的地方。《2015年中国大数据发展调查报告》显示, 国内超过百分之五十五的企业在进行大数据的应用, 2015年我国大数据市场达到了310亿, 增长速度高达38%。从总体发展角度预测, 大数据将来的发展趋势将呈现如下几个主旨:

3.1 大数据分析领域快速发展

数据是非常有价值的, 但数据的价值体现需要用它来进行技术探索, 才能发现数据的积累是无法代表大数据量的多少。慢慢大数据应用技术达到黄金时期, 人们就会深刻挖掘怎样来理解数据中的核心, 所以大数据的分析技术也会得到非常充分的进步。因此, 人们未来比较重视的领域即是大数据不同的挖掘方法, 挖掘技术, 因为, 这个领域直接关系到数据价值的最终体现方式。

3.2 大数据与云计算的关系越来越密切

自从2013年开始, 大数据和云计算技术就尝试了一些比较有效果的结合使用, 而随着时间的推进, 慢慢的这种结合变的更加密切, 在未来的日子里云计算和大数据的关系会越来越密切。可以说大数据是商业智能的一种运用工具。而大数据要分析大量的数据, 这对于系统的计算能力和处理能力要求是非常高的, 传统的方式是需要一个超级计算机来进行处理, 但这样就导致了计算能力空的时候闲着、忙的时候又不够的问题, 而云计算的弹性扩展和水平扩展的模式很适合计算能力按需调用, 因此, 云计算为大数据提供了计算能力和资源等物质基础。简单说云计算和大数据可以说是相辅相成, 云计算就是可以用来整合大数据, 大数据就是云计算里的一盘散沙, 而云计算通过检索、整合等技术来进行分配处理的。两者其实是相互独立存在的, 但是从某种角度看也是可以相互依存的。

3.3 安全和隐私问题越来越受到重视

都说科技是一个“双刃剑”, 作为计算机技术中的一个组成部分, 大数据它本身也不能免俗。人们在从中得到利益的同时, 也需要警惕。就如同上文说的, 现如今数据量的庞大全面, 而用户和企业的各类信息行为、照片存储都会被置入数据集中, 这样我们就能够轻轻松松进行操作, 确实具有非常便捷的作用。但随着它飞速发展的同时, 个人隐私也会越来越容易被外泄, 所以将来就需要考虑出解决处理的办法, 和制定的法律条例来进行约束完善。

3.4 科学理论的突破带动社会的进步

有人把数据形容成蕴藏能量的煤矿, 煤矿的价值绝对是一个巨大的财富。由国家的大力支持与大数据技术本身的价值体现, 大数据在未来几年的信息行业必定会成为新的一股洪流, 提高劳动生产率的同时促成了国民经济水平的大幅度上升。而它的带动将会促成一大批数据领域的人才, 这门科学也会成为必修的学科, 进而培养大数据技术人员。随着数据技术的不断提高, 将来也会开发资源共享的领域。然后, 数据信息共享将会扩张到企业层面, 并会成为将来工作发展的主要一点。

4总结

大数据对各个领域的不断蔓延, 并推动着计算机领域的发展, 人们越来越离不开它带来的便捷, 在旧计算机时代是由信息技术推动着数据的发展, 而现如今几乎是由大数据带动整个社会的信息, 大数据算不上一个技术概念, 更像是用来锦上添花, 传统的技术永远不会被替代。准确来说应该算是一种思考问题模式的转变。对于任何一种创新的思维, 都是需要改变我们固有的思维方式, 从而才能达到预估的效果。

摘要:伴随着信息领域的飞速发展, 大数据的全面覆盖已然成为了这个信息时代一种不可或缺的宝贵财富。本文主要阐述了大数据的定义、概念特点、重要的技术和应用域以及未来的发展趋势与总结。

关键词:大数据,技术应用,发展趋势

参考文献

[1]孟小峰, 慈祥.大数据管理:概念, 技术与挑战.计算机研究与发展, 2013, 50 (1) :146-169.

[2]袁冰.大数据行业应用现状与发展趋势分析[J].中国新通信, 2014 (24) :75-76.

[3]祝兴平.大数据与经济新闻生产方式的颠覆与重构[J].中国出版, 2014 (04) :3-6.

[4]梁巧琴.大数据应用的现状与展望[J].信息通信, 2015 (01) :133.

投资统计大数据处理关键技术 第5篇

1 概述

1.1 大数据

投资系统中数据有三种类型分别是项目投资管理数据、联网直报房地产投资数据、规下投资抽样数据。根据投资数据内在结构, 可以分为两类, 一类是结构化数据, 统计系统的企业原始数据可以通过二维表形式反映的数据;另一类是非结构化数据, 不能以二维表的形式来反映的数据, 如文本、图片、音频、视频等产生的数据。

与传统投资统计不同, 投资统计大数据可利用遥感技术和GIS技术进行动态监测, 能够获取定期数据, 对现有投资统计业务系统进行分析, 主要表现在:一是为了能够对投资统计系统运行获取定期数据, 要对投资项目进行定位, 每个月节点都会产生大量的数据。二是PDA设备对投资统计项目样本点的经常性变化。三是为了能够把握重大项目投资进度, 要求对投资统计系统运行中相关信息定期变样采集。四是投资统计数据能够定期与发改、住建、税务等部门数据共享和数据比对。

1.2 特点

投资统计大数据具有以下特点:一是数据量大。随着大数据的发展, 投资统计数据TB级逐步上升到PB级。二是类型种类多。现在党政领导对投资统计数据需求越来越准, 要进行处理结构化和非结构化投资统计也越来越多, 才能够满足需求。三是利用率低。如在定期监测重大投资项目过程中, 大部分监测过程中的数据在正常范围之内, 而非常少的监测异常数据是非常有用的, 特别是投资项目数据异常值 (如极大、极小值) , 要通过这些数据对比验证, 数据是否正确, 因此有利用价值的数据占总数据的比例少。四是处理要快。处理投资统计大数据速度要求快, 可以利用小型计算机和云技术在非常短时间内能够分析数据, 为党政领导决策提供高质量的数据作为依据。

2 关键技术

2.1 采集技术

大数据的采集指利用很多个数据库同时接收, 从客户端的传输来的数据, 一般用户可以通过这些数据库, 在客户端能够达到一般查询和处理过程。但是在大数据的采集过程中, 最大的难点数据并发高, 很有可能会同时成千上万的用户来进行访问和操作, 采用在采集端部署大量数据库作为支持, 能够有效、科学地在投资数据库之间进行负载均衡和分片, 是数据采集技术的关键环节。

各类大数据分部不同的部门或项目, 给数据的收集带来一定难度, 采用关系数据管理模型, 运用Google文件系统GFS技术, 具有纵向扩展功能, 应对数据采集并发数高, 也是确保实现高效获取大数据的核心。

2.2 传输、存储技术

投资统计系统采用联网直报平台, 运行时会实时产生各式各样的原始数据, 特别定期用投资遥感监测中数据也会产生更多的数据, 经过日月积累海量的数据, 会给投资监控设备及数据传输、存储系统造成沉重的负担, 并对投资统计系统发展造成很大的影响。

目前投资统计系统数据的传输, 为了减轻数据传输量, 大部分采用数据压缩的方式, 可以应用到投资统计数据传输, 大大提速整个系统数据的传输, 从而有效降低数据储存的空间。若没有建立有效批处理模型, 在压缩、解压过程中仍然占用系统资源较大, 浪费也很大, 因此更急需建立有效的批处理模型是重要的。现在普遍采用Map Reduce批处理模型, 能够在平常配置的计算机上实现并行化处理, 且能够分割输入数据, 在计算机组成的集群上统一调度, 确保计算机的集群之间顺畅的通信。

投资统计大数据存储一般采用分布式保存方式, 具有性能可靠性, 可以解决海量数据的存储问题, 可有局限性, 如投资统计系统运行时, 随时产生实时性数据, 处理过程中还是不能够全面应对, 最好要根据不同类型的大数据性能先分析, 然后再进行实时分类存储。特别是投资遥感监测系统中非结构化数据占大数据比重非常大, 需要解决大量非结构化数据转变为结构化数据处理能力, 是投资统计系统在大数据处理技术解决的关键问题。采用GFS的分布式文件系统主要对海量大文件而设计, 而海量小文件可以用Haystack系统, 可以用多个逻辑文件共同使用一个文件, 解决小文件存储的问题。

2.3 实时处理技术

解决投资统计大数据处理速度是至关重要, 数据处理范围越来越大, 数据处理时间就越长, 假如数据量处理的范围超过了数据本来的处理能力, 缺乏整个系统稳定运行, 就会对投资统计系统运行产生不可估量的影响。虽然可以利用云计算系统, 能够提供投资统计系统服务, 但是对特别联网直报时间高峰期, 现在也经常出现堵塞事件, 造成企业统计人员无法准时上报数据, 也对投资统计系统运行提出更高要求。

大数据产生的过程比较复杂, 对有投资统计数据 (结构化数据、半结构化数据和非结构化数据) 进行基于各种统计算法的计算, 必然存在数据的内涵不一致、记录重复、或者感兴趣拟处理的属性指标不完整、或者含有噪声 (数据中存在错误和异常值) 等各种问题, 必须实时进行清洗和预处理, 去掉噪声和无关数据, 便于后续的分析、分析处理。使用Sector广域网的分布式系统, 利用Sphere基本数据处理模型, 针对不同的数据, 能够统一输入数据流方式, 进行实时大规模并行计算, 在对数据进行分割, 分割后数据转交给SPE (具有处理引擎功能) , 能够起到负载平衡。

2.4 分析技术

投资大数据分析主要通过分布式数据库或者分布式计算集群, 对现有已存储的大量数据库, 分步骤能够简单的分类汇总、统计分析等, 能够实现普遍常见的分析需求, 但是对于一些需要批处理基于半结构化或非结构化数据, 利用可视化分析技术、高度集成技术, 对图像和投资原始数据及专业的大数据分析工具, 进行与部门数据之间统计分析或比对。统计与分析这环节的主要特点涉及的面广、量大, 运行系统资源占用也非常高, 特别是输入输出资源占用率高。随着大数据的发展, 用Bigtable分布式、按列存储、多维表结构的实时分布式数据库, 可以对大数据结构化、半结构化和非结构化数据读写操作, 使用SQL语言进行大量数据的统计、查询和分析操作, 解决了可视化分析技术的扩展性, 能够有效提取重要数据、显示合成图像。用LOD技术采用策略处理大数据量的实时传输与可视化, 实现按等级组织分块, 平常称为“金字塔”结构。

大数据的分析技术与传统的统计数据汇总分析方法有较大的差别, 不能将原来的统计系统数据处理经验简单的移植到大数据的数据处理中去, 需要针对不同的大数据对象, 部署相应的数据采集环境, 建立平值法、平滑法、预测法和频率统计法等统计数据相关模型或算法, 对投资统计大数据进行深度和广度的对比分析或核查。

3 结束语

伴随现代信息技术的迅猛发展, 传统的投资统计知识、理论、技术、方法等正处于大变革、大跨越、大发展之中, 投资统计也面临良好机遇。特别大数据时代的到来, 投资统计大数据处理在遥感地理信息系统、全球定位系统等空间信息技术中应用, 极大丰富了投资统计的数据来源, 使投资统计工作如虎添翼, 同时也对投资统计理念、数据来源和数据生产方式提出全新挑战, 继续寻求有效的解决办法, 更要广泛深入与国际、国内科研机构合作交流, 不断创新探索, 有助于繁荣投资统计科学, 传播先进投资统计理念和方法, 提升投资统计能力和水平。

参考文献

[1]季晓晶.大数据时代统计调查工作的挑战与思考[J].统计与咨询, 2013 (5) :17-19.

[2]程开明, 陈龙.大数据时代的统计挑战与应对[J].中国统计, 2013 (8) :11-13.

基于大数据的信息系统关键技术研究 第6篇

1 大数据的定义与特性概述

目前来说, 大数据并没有一个标准的统一的定义, 但是其与海量数据之间存在非常明显的区别, 即大数据是海量数据中的有价值数据信息的集合, 包含了针对数据的处理行为, 且各数据之间存在一定的关联, 具有挖掘和分析价值, 需要应用特定的数据管理与分析技术对其进行处理。

其核心技术又可分为处理和分析两类, 每一类中又包含多种数据处理技术, 如数据挖掘技术、模式识别技术、信号处理技术、数据库技术、云计算技术、可视化技术、分布式技术等。

综合来看, 大数据之所以在信息系统中得到了广泛的重视和应用, 主要是由以下几方面特性决定的。

首先是大数据的普遍性。信息技术的发展使得人们的生活、工作、学习中产生了大量的数据信息, 统计分析结果表明, 全球所产生的数据量正在以每两年翻一倍的速度增长, 而新技术和新研究方向的拓展和开发又使得数据的生产成本、存储成本、处理成本等都得到了大幅度下降, 大数据已经被普遍应用到目前的数据信息分析与处理过程中。

其次是大数据技术对企业发展的重要性。大数据使用数据挖掘技术、聚类分析技术等对企业发展过程中产生的海量数据进行分析、挖掘和整合, 能够从中提炼出对企业具有积极推动意义的价值信息, 该信息对于提升工作效率, 改善决策过程, 推动业务开展等具有十分重要的意义。

再次大数据是必然的发展趋势。大数据所能够创造的价值越来越明显, 从中所能够获取的信息也越来越丰富, 无论是个人还是企业, 甚至是国家, 都将大数据作为了重点对象进行应用和研究。

2 基于大数据的信息系统关键技术分析

基于大数据的信息系统所具有的具体功能千差万别, 系统结构复杂多变, 但是对其进行抽象可将其分为如下几部分关键技术:分布式的大数据存储技术、分布式的大数据处理技术以及海量数据运算与管理技术等。

2.1 分布式文件管理技术

数据存储与管理是大数据应用的基础之一, 但是传统的数据文件管理系统不适用于大数据信息系统, 需要根据实际应用需求进行设计与分析。目前应用比较成功的文件管理系统技术主要集中在具有海量用户的互联网企业中。GFS文件管理系统是由Google所提出和应用的一类数据文件管理技术, 该技术使用大量的廉价服务器搭建了一个可扩展的文件管理系统, 数据可以被存储在不同的服务器中。

可以看出该管理技术通过分块存储、关联链接、追加更新等对数据进行存储与管理, 但是对于大文件的管理与存储, 该技术存在一定的不足, 为弥补和完善该不足, 多个类GFS文件管理系统被开发应用到大数据管理中。这些技术通过增加缓冲层、使用内存加载部分元数据的方式提升了数据的存储和读取效率, 使得大数据文件管理系统进入集群管理阶段。

2.2 分布式数据处理系统

大数据信息的处理方式主要有流处理和批处理两种。前者将所需要处理的海量数据看作是一个不间断的流, 可以实时的对进入处理系统的数据进行处理和结果返回。分布式处理方式的应用极大的提升了系统的数据处理实时性。后者则是将需要处理的数据先执行存储操作再对其进行处理。该技术可以使用将数据按照特定的分割方式分为多块数据, 这些数据可同时由多个处理终端进行并行处理。显然, 该处理技术淡化了数据的关联部分, 但是极大的提升了数据的可调度性、集群性。该技术的核心在于数据的分割、分发以及处理。

2.3 分布式数据库系统

传统的数据库大多是传统的关系型数据库, 这些数据库在面对规模性、多样性、低价值密度性的大数据时存在不同程度的缺陷或不足。为实现大数据的处理需要采用更简单的数据库模型。如Bigtable技术将所管理的数据信息看做字符串进行管理, 而不直接对字符串进行解释, 从而使得所被管理的数据具有结构化或半结构化特征, 这就使得数据库系统得到了简化。其他如Dynamo技术所使用的键值存储、分布式哈希表、向量时钟等技术同样能够实现对大数据库系统的可靠高效管理。而这些数据库系统的发展同样也推动了关系型数据库的发展, 促进了NoSQLogic数据库的发展和应用。该数据库使用了模式智能识别、一致化与简单化应用程序接口等技术进行优化, 同样可以达到较好的应用效果。

2.4 其他系统及关键技术

大数据信息系统结构复杂, 除上述几部分系统之外还包括其他多个系统, 这些系统又由多个大数据处理与分析技术构成, 如数据挖掘技术、云计算技术、模式识别技术、聚类分析技术、稀疏问题处理技术等。

参考文献

大数据关键技术及发展 第7篇

关键词:智能电网,大数据技术,平台技术

0引言

智能电网是以物理电网为基础,将现代先进的传感测量技术、通信技术、信息技术、计算机技术和控制技术与物理电网高度集成而形成的新型电网[1],见图1。它涵盖发电、输电、变电、配电、用电和调度等各个环节,对电力市场中各利益方的需求和功能进行协调, 在保证系统各部分高效运行、降低运营成本和环境影响的同时,尽可能提高系统的可靠性、自愈性和稳定性。随着智能电网的发展, 电网在电力系统运行、设备状态监测、用电信息采集、营销业务系统等各个方面产生和沉淀了大量数据,充分挖掘这些数据的价值具有重要的意义。

大数据是近年来受到广泛关注的新概念, 一般是指无法在可容忍的时间内用传统的IT技术、软硬件工具和数学分析方法,对其进行感知、 获取、管理、处理和分析的数据集合[2]。智能电网被看作是大数据应用的重要技术领域之一。 目前许多学者正在进行智能电网大数据研究, 包括发展战略研究[3]、大数据技术研究[4]、 应用研究[5,6,7]等。

智能电网大数据应用众多,涉及电网安全稳定运行、节能经济调度、供电可靠性、经济社会发展分析等诸多方面,进行智能电网大数据分析需要统一智能电网大数据,并且由于应用众多,对计算、存储、网络等性能提出了较高要求,因此需要构建面向智能电网应用的统一大数据处理平台。本文首先分析智能电网大数据特点以及业务应用需求,接着结合业务应用介绍大数据关键技术,进而提出智能电网大数据平台和应用框架。

1智能电网大数据概述

1.1智能电网大数据特点

根据数据来源的不同,可以将智能电网大数据分为电力企业内部数据和电力企业外部数据。电力企业内部数据源主要包括广域量测系统(WAMS)、数据采集与监控系统(SCADA)、在线监测系统、用电信息采集系统、 生产管理系统、能量管理系统、配电管理系统、客户服务系统、财务管理系统等;电力企业外部数据源包括气象信息系统、地理信息系统、互联网数据、公共服务部门数据、社会经济数据等。这些数据分散放置在不同地方,由不同单位 / 部门管理,具有分散放置、分布管理的特性。

智能电网大数据结构复杂、种类繁多,除传统的结构化数据外,还包含大量的半结构化、非结构化数据, 如客户服务中心信息系统的语音数据,设备在线监测系统中的视频数据与图像数据等。这些数据的采样频率与生命周期也各不同,从微秒级、分钟级、小时级,一直到年度级,见图2。

1.2大数据业务需求分析

智能电网大数据业务应用根据对象不同可分为面向电力公司运行管理、面向电力用户服务、面向政府部门辅助决策等3类。面向电力公司运行管理类应用包括电力系统稳定性分析与控制、输变电设备故障诊断与状态检修、配电网运行状态评估与预警、配电网故障定位、 负荷预测、城市电网规划等;面向电力用户服务类应用包括用户用电行为分析、需求侧管理、能效分析、供电服务舆情分析等;面向政府部门辅助决策类应用包括社会经济状况分析与预测、政府决策支持与相关政策评估, 如电价政策、新能源补贴政策等是否合理等。这些需求需要综合电网运行状态信息、用户用电信息、客服系统信息、气象数据、经济社会数据和互联网数据等。

2智能电网大数据关键技术

根据信息处理流程,大数据在智能电网中的应用可以分为数据采集、数据清理、数据存储及处理、数据分析、 数据解读和数据应用6个环节,其关键技术包括数据集成技术、数据存储技术、数据处理技术和数据分析技术。

2.1数据集成技术

智能电网大数据具有分散性、多样性和复杂性等特征,这些特征给大数据处理带来极大的挑战。要想处理智能电网大数据,首先就需要对众多数据源的数据进行集成,通过数据抽取、转换、剔除、修正等处理,建立正确、完整、一致、完备、有效的智能电网大数据。目前通常采用的数据集成模型包括数据联邦、基于中间件模型和数据仓库等。

ETL是企业数 据集成的 主要解决 方案。ETL指Extract、Transform、Load, 即抽取、 转换、 加载。 数据抽取是从源数据源系统抽取目的数据源系统需要的数据;数据转换是将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工;数据加载是将转换后的数据加载到目的数据源。ETL过程中的主要环节就是数据抽取、 数据转换和加工、数据加载。为了实现这些功能,各个ETL工具一般会进行一些功能上的扩充,例如工作流、 调度引擎、规则引擎、脚本支持、统计信息等。

数据集成是智能电网大数据应用的关键环节。智能电网大数据集成涉及众多各类型的应用系统,这些系统类型和特征复杂,在实时性要求、数据规模、数据类型等方面存在较大的差异,在智能电网大数据集成中需要综合考虑各种因素,在集成技术上单一技术可能很难实现,需要结合多种技术来实现智能电网大数据的集成。

2.2数据存储技术

在智能电网大数据中,绝大多数数据为结构化数据, 同时也存在文本、图像、音频、视频等非结构化或半结构化数据。对非结构化数据可采用分布式文件系统进行存储,对结构松散无模式的半结构化数据可采用分布式数据库,对海量的结构化数据可采用传统关系型数据库系统或分布式并行数据库。

2.2.1分布式文件系统

分布式文件系统适合存储海量的非结构化数据,将数据存储在物理上分散的多个存储节点上,对这些节点的资源进行统一管理和分配,并向用户提供文件系统访问接口,主要解决本地文件系统在文件大小、文件数量、 打开文件数等方面的限制问题。

Hadoop是大数据 的一个解 决方案, 可以实现 大数据的 存储、 分析和管 理[9]。HDFS (Hadoop Distributed File System)是一个分布式文件系统,它是开源项目Hadoop的家族成员。HDFS将大规模数据分割为大小为64兆字节的数据块,存储在多个数据节点组成的分布式集群中,当数据规模增加时,只需要在集群中增加更多的数据节点,具有很强的可扩展性;同时每个数据块会在不同的节点中存储多个副本,具有高容错性;由于数据是分布存储的,具有高吞吐量的数据访问能力。

2.2.2分布式数据库

大数据环境下对数据的存储、管理、查询和分析需要采用新的技术,传统的数据库在数据存储规模、吞吐量、以及数据类型和支撑应用等存在瓶颈。分布式数据库由于具有很好的扩展性和协同性,在大规模数据存储和管理中得到广泛的应用。目前主要有键值存储系统、 文档数据库、图数据库等。

HBase是一个高可靠性、 高性能、 面向列、 可伸缩的分布式存储系统,它不同于一般的有模式的关系型数据库,HBase存储的数据表是无模式的,特别适合结构复杂多样的半结构化数据存储。HBase利用HDFS作为其文件存储系统,可利用Map-Reduce技术来处理HBase中的海量数据。

2.2.3关系型数据库系统

智能电网中很大一部分数据是结构化数据,针对一些数据和业务应用,传统关系型数据库可能更适合,因此在大数据环境下,传统关系型数据库也具有一定的应用。基于传统数据库如Oracle等构建数据仓库,开展智能电网业务的分析挖掘。

智能电网大数据结构复杂、种类繁多,其数据存储需要根据数据的特点选用适合的数据存储方式。数据管理也是智能电网大数据的重要功能,从整体上对存储在不同系统上的数据进行统一管理,并提供数据索引和查询功能。综合以上分析,数据存储对比见表1。

2.3数据处理技术

智能电网大数据的应用类型多,需要根据不同的业务需求采用不同的数据处理技术。根据大数据的数据特征和计算需求,大数据处理技术分流处理、批处理、内存计算、图计算等。

2.3.1流处理

流处理的处理模式将数据视为流,源源不断的数据组成了数据流,当新的数据到来时就立刻处理并返回所需的结果。数据流本身具有持续达到、速度快且规模巨大等特点,因此通常不会对所有的数据进行永久化存储, 而且数据环境处在不断的变化之中,系统很难准确掌握整个数据的全貌。目前广泛应用的流处理系统有Twitter Storm和Yahoo S4。

Storm是分布式实时计算系统,主要用于流数据处理,可以简单、高效、可靠地处理大量的数据流。它能够处理源源不断流进来的信息,处理之后将结果写入到某个存储中去。Storm的优点是全内存计算,因为内存寻址速度是硬盘的百万倍以上,所以Storm的速度较快。 Storm弥补了Hadoop批处理所不能满足的实时要求, 经常用于实时分析、在线机器学习、持续计算、分布式远程调用和ETL等领域。

2.3.2批处理

Google公司在2004年提出的Map-Reduce是最具代表性的批处理模式。Map-Reduce是一个使用简易的软件框架,用于大规模数据集的并行运算,主要用来进行大规模离线数据分析。基于它实现的应用程序能够运行在由数千个商用机器组成的大型集群上,并以一种可靠容错的并行处理大规模数据集。Map-Reduce的核心思想是将问题分而治之,并把计算推到数据所在的服务器,有效地避免数据传输过程中产生的大量通信开销。

Map-Reduce的优点主要有2个方面:1不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,如自动并行化、负荷均衡和灾备管理等,这将极大简化开发工作;2伸缩性非常好,集群能够方便的扩展。而Map-Reduce的不足是其不适应实时应用的需求, 只能进行大规模离线数据分析。

2.3.3内存计算

随着内存价格的不断下降,服务器配置的内存容量不断增大, 用内存计算来完成大规模数据处理成为可能。与Hadoop MapReduce批处理相比, 内存计算能够提供高性能的大数据分析处理能力。内存计算是一种体系结构上的解决方法,它可以和各种不同的计算模式相结合,包括批处理、流处理、图计算等。比如Spark是分布式内存计算的一个典型并行计算框架,Spark基于Map-Reduce算法实现的分布式计算, 拥有Hadoop Map-Reduce所具有的优点;但不同于Map-Reduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark具有更好的性能,适用于数据挖掘与机器学习等需要迭代的Map-Reduce的算法。

智能电网大数据应用根据业务特点和对处理响应的时间来选择数据处理的方式,针对电网安全在线分析、电网运行监控等业务,数据实时性要求高、需要作出迅速响应,可以采用流处理内存计算;而对于用户用电行为分析等业务,实时性和响应时间要求低,可以采用批处理方式。综合以上分析,数据处理方式对比见表2。

2.4数据分析技术

数据分析是智能电网大数据处理的核心,由于大数据的海量、复杂多样、变化快等特性,大数据环境下的传统小数据分析算法很多已不再适用,需要采用新的数据分析方法或对现有数据分析方法进行改进。

数据挖掘方法主要有分类、关联分析、 聚类、异常检测、回归分析等,其中每一类包括众多的算法[10]。分类包括支持向量机、决策树、贝叶斯、神经网络等技术; 关联分析包括Apriori、FP-growth等算法; 聚类分析分为划分法、层次法、密度法、 图论法、模型法等,具体算法如k-means算法、K-MEDOIDS算法、Clara算法、 Clarans算法、SOM神经网络、FCM聚类算法等;异常检测包括基于统计、距离、 偏差、密度等方法。在智能电网应用中需要对现有的算法进行优化和并行化改进, 实现分布式处理。

机器学习是面向任务解决的基于经验提炼模型实现最优解设计的计算机程序, 通过经验学习规律,一般应用在缺少理论模型指导但存在经验观测的领域中。机器学习分为归纳学习、分析学习、类比学习、 遗传算法、联接学习、增强学习等。深度学习是机器学习研究中的一个新的领域, 2006年由Hinton等提出, 其目的在于建立模拟人脑进行分析学习的神经网络,目前深度学习在语音识别、图像识别、机器翻译等领域进行了应用,并取得了较好的效果[11]。

智能电网大数据挖掘主要为结构化数据,同时也存在文本、图像、音频、视频等数据,在智能电网大数据应用中需要针对具体的业务采用合适的数据分析方法。

3智能电网大数据平台

3.1核心平台框架

智能电网大数据应用需要构建在大数据平台之上,大数据平台为应用提供统一数据接入、清洗、存储、管理、分析计算等功能。大数据核心平台由基础资源、数据存储、数据分析与处理、数据管理、平台服务和平台管控等组成,见图3。

基础资源层主要包括计算资源池、存储资源池、 网络资源池,为虚拟化的资源,能够实现弹性的资源供给和扩展。基于存储资源池实现大数据平台的各种数据存储功能,包括分布式文件系统、分布式数据库、传统数据库和数据仓库。数据管理实现大数据平台的接入管理、数据清洗、数据统一建模、 数据检索、数据服务等功能。数据分析与处理是大数据平台的核心,大数据平台根据具体业务需求能够提供批处理、流处理等功能,同时平台能够提供通用的数据分析算法包或工具,包括数据挖掘、统计分析、机器学习等。平台管控包括资源调度、集群管控、安全管控、用户管理等,实现对平台的监控、 调度和管理。

3.2应用框架

结合智能电网的应用需求,在大数据核心平台之上构建各类大数据应用。面向智能电网大数据的应用框架见图4。应用整体框架分数据集成与交互层、大数据核心平台层、应用层。

目前电力公司各个业务部门分别建有各自的信息化系统,各个业务系统采集了电网对象在不同时间断面的不同数据,记录的是电网对象在特定时间断面的数据断面,反映的是电网对象的部分属性,另外不同系统之间在数据共享方面还存在一定的困难,在智能电网大数据平台中需要构建统一数据模型来存储和管理智能电网各环节数据。

数据集成与交互主要实现与智能电网各业务系统的数据交互,实现数据的实时采集。智能电网大数据核心平台实现智能电网数据的统一管理、数据存储、数据处理、数据分析、可视化展现等功能。

4结语

1)智能电网大数据数据量大、类型多样、数据特征复杂,同时业务应用需求场景多,且存在交叉融合, 对现有数据处理方式和平台提出了很高的要求,需要采用新的大数据处理技术来支撑。

2)智能电网大数据关键技术包括数据集成、数据存储、数据处理、数据分析等技术,需要结合具体业务的特点和需求选择相应的技术。

3)智能电网大数据平台需要构建统一数据模型来实现智能电网各类数据的融合和共享,基于全数据进行业务的开发和应用,智能电网大数据平台具有数据共享、 应用开发和业务运行3方面功能。

大数据关键技术及发展 第8篇

云存储是在云计算技术的基础上发展形成的,其将数据的存储及管理看作是核心任务,云存储能够在集群应用、网格技术及分布式文件系统的基础上,利用相关软件将网络中各种类型的存储设备结合在一起,为用户提供相关数据存储和业务访问功能[1⁃3]。随着科技的逐渐发展,数据量越来越大,研究面向大数据云存储系统具有重要意义,已经成为相关学者研究的重点课题[4⁃6]。

目前,关于云存储系统的研究主要有Amazon EC2,Amazon EBS和Google File System(GFS)等。相关研究也取得了一定的成果,其中:文献[7]介绍了一种Virtual Block Store(VBS)云存储系统的关键技术,其不仅能够独立作为一个云存储系统进行使用,也能够为一些云计算系统(如Openstack)提供云存储管理服务,但该系统很容易出现单点故障问题,影响了整个云存储系统的性能;文献[8]介绍了一种Orthrus云存储系统的关键技术,该系统采用了多服务器形式,依据变种遗传算法实现各服务器的负载均衡,但该系统因缺少变异过程,容易陷入局部最优,无法实现对系统负载的最优化分配;文献[9]介绍了一种P2P云存储系统的关键技术,将之前较为分散的互联网资源集合起来,为用户提供相应服务,但该系统往往会受到一些网络因素的限制,性能不高;文献[10]介绍了一种Kuhn云存储系统,对相关文件进行分块和建立元数据,将元数据保存在文件中,新的文件对象均存储于文件的目录结构之中,该云存储能够明显提高元数据的存储性能,然而其需要引入目录,约束了应用的发展及使用。本文介绍了面向大数据的云存储系统的关键技术,依据定向随机游走规则对分布式云存储技术进行分析,通过RAS加密算法对数据进行加密,利用数据检索技术使云存储系统更加可靠,数据的访问效率更高。通过云存储技术、数据加密技术和数据检索技术的组合方式达到高效整合、管理网络存储资源的目的。经实验验证,采用所提关键技术的云存储系统不仅运行时间和整体耗能低,而且可用性极高。

1 面向大数据云存储系统的关键技术

云存储是依据云计算技术发展而来的,将大数据的存储及管理作为核心任务,为外界提供相关的数据存储和业务访问功能。云存储系统的基础是分布式云存储技术、数据加密技术及数据检索技术,上述关键技术的组合方式不但能达到高效整合、管理网络存储资源的目的,还能够对外提供友好的连接窗口,使云计算网络数据的发布方式更加快速,为使用者提供便捷的存储服务。下面详细介绍面向大数据云存储系统的关键技术。

1.1 基于定向随机游走规则的分布式云存储技术

面向大数据云存储系统的分布式存储技术就是利用网络服务商提供的不同存储设备上的存储空间对数据进行传输存储,同时将上述分散的存储资源组成一个虚拟的存储设备。本文依据定向随机游走规则对分布式云存储技术进行分析。

依据定向随机游走规则,在云存储系统源数据包抵达所访问的网络节点v后,从v的所有邻居节中随机选择一个节点u继续进行访问。

假设N(o) 为云存储系统下一个节点o的邻居节点集合;δ(o) = | N(o)| 为节点o的邻居节点个数;c(o) 为定向随机游走此刻已经访问节点o的总次数,则邻居节点u的选择过程如下:

(1)从正在访问节点v的邻居节点集合N(v) 中随机选出2 个节点,将其看作是备选节点,其构成的集合用N′ 表示;

(2)依据给出的条件从2 个备选节点中选择继续访问的节点。

本文面向大数据云存储系统分布式云存储技术的基本原理如下:

面向大数据进行云存储前:每个节点均存储有一个初始值为0 的存储数据包Yi,同时所有数据节点仅存在一个源数据包Xj。

开始进行云存储后:从任意数据节点开始一个步数为cnln n的定向随机游走,对该数据节点的源数据包进行传递;源数据包抵达一个新的节点后,新节点将以概率a lnk k接收源数据包,并且将得到的源数据包储存在自身的存储数据包中;新节点按照定向随机游走规则继续发送源数据包。源数据传递次数达到定向随机游走的给定步数cnln n后,即N > cnln n ,源数据包会被删除。所有k个源数据包均被删除后,即实现了大数据的云存储。详细实现过程如下:

输入:k个源数据包Xv,v = 1,2,⋯,k 。

输出:n个存储数据包Yu,u = 1,2,⋯,n 。

(1)假设数据节点为v ,v= 1,2,⋯,k 。将信息IDv号与定向随机游走步数计数器N = 0 加入源数据包Xv中;

(2)假设云存储系统节点为u ,u= 1,2,⋯,n 。对所有存储数据包的值及所有源数据包已访问节点的次数进行初始化处理;

(3)以概率alnk k接收Xv,并且完成对自身存储数据包的更新。

(4)通过定向随机游走原则将源数据包Xv传输到其相邻节点中。

(5)针对所有抵达节点u的源数据包Xj,若Xj第一次访问节点u ,则节点u以概率a lnk k接收Xj,并利用步骤(2)对自身的存储数据包进行更新,源数据包Xj对头信息进行更新:N = N + 1 。若N < cn ln n ,则节点u按照定向随机游走规则将源数据包Xj传输到其相邻节点中;否则,节点u将删除Xj。

1.2 数据加密技术

因为本文采用的是分布式云存储技术,数据存储在多个数据中心中,所以数据安全成为亟需解决的问题,本文通过RAS加密算法对数据进行加密。

RSA加密算法是一种典型的公钥密码算法,在RSA加密算法中,公钥与密钥均可用于数据的加密。而另一个可以作为对应的解密密钥。

RSA加密算法属于一种依据大整数分解的算法,其过程可描述成n = p × q ,对素数p与q的值进行计算,详细程序代码如下:

RSA加密算法对参数的选择有一定的要求,主要需遵守下述条件:

(1)素数p与q需足够大,同时为强素数。RSA算法的安全性主要是依据p与q因子分解的,因此,需保证p和q是强素数。除此之外,为了保持因式分解的难度,加强RSA算法的安全性,p与q的取值需足够大。

(2) p与q的差不能太小,也不能太大。如果p与q的差过小,则可采用下述方法对n进行分解。若p与q的差过大,即可通过尝试法完成对n的分解。

(3) d不能够过小。解密密钥的值越小,RSA的机密效率越高,然而,若d过小,则可以较小的代价,利用己知明文求出密文。RSA算法中通常。

(4) e不能够过小。 e越小,RSA算法的效率越高,对密钥的管理容易,但e过小则能够利用加密算法c ≡ memod n对密文c进行破解。

为了保证形成的数的素性,需对素数进行检验,详细过程如下:

(1)完成对p-1的分解;

(2)完成对F的分解;

(3) a= 1 ;

(4) a= a + 1 ;

(5)若存在等于1 的情况,则继续进行下一步;反之,进行第七步,结束迭代;

(6)若p为素数,进行下一步,结束迭代;反之,重新进行第四步;

(7)结束迭代。

1.3 数据检索技术

数据检索技术是云存储系统的关键技术之一,检索性能的好坏不仅决定着系统的可靠性,还决定着数据的访问效率。

用户在对云存储数据进行检索时,通过访问n个云服务器中任意k个服务器实现对原始数据的还原。通过下式对用户检索所选k个云服务器上的全部编码向量与编码标记进行验证。

若某编码标记验证失败,则用户将向第三方服务器发送报告,同时对替代云存储服务器进行访问。若k个存储服务器编码标记均验证成果,则用户仅对编码向量进行置信传播解码算法,同时对有利于解码的编码向量ID进行统计。同时,数据用户从相应的存储服务器处检索对应的编码分组和检索标记,完成对编码分组完整性的验证。通过对编码分组进行和编码向量相同的计算过程,能够恢复文件M的全部原始分组。最终,对文件进行M解密操作,同时得到明文数据,以完成云存储系统的检索。

2 仿真实验结果分析

本文实验在真实的网络环境下进行,拓扑结构如图1 所示。

图1 中的拓扑结构由10 个数据节点Data Node、1 个中心路由节点Center和1 个客户端节点Client构成。软件环境为Windows 7.0。实验将Hadoop系统作为对比进行分析。

2.1 运行时间分析

在数据量较小的情况下,随着存储数据的逐渐增加,将本文系统和Hadoop系统消耗的时间进行比较,这里消耗的时间主要包括读取时间、存储时间和写入时间。

分析图2、图3 可以看出,当数据量较小时,本文系统和Hadoop系统所消耗的时间相差不大,而当数据量较大时,本文系统所消耗的时间明显低于Hadoop系统,这是因为本文系统专门面向大数据而设计,时间优势非常明显。

2.2 系统可用性分析

当数据节点数为100 个时,对本文系统和Hadoop系统数据分布情况进行统计,得到的结果分别见图4、图5。

分析图4、图5 可以看出,和Hadoop系统相比,本文系统的数据分布情况更加均匀说明本文系统具有很高的可用性。数据的分布情况对整个系统性能的影响很大,如果数据分布不均匀,会导致负载不均衡,使节点宕机,造成数据迁移,大大降低系统的可用性。

2.3 网络的整体能耗

对本文系统和Hadoop系统的网络整体能耗进行比较,得到的结果如图6 所示。

分析图6 可以看出,当存储数据数量不同时,两种系统的整体能耗变化不同。本文系统的总消耗明显低于Hadoop系统,这主要是因为Hadoop系统需要在整个云存储系统中来寻找存储点,大大增加了存储所需的时间,提高了网络的总体能耗。

3 结语

本文介绍了面向大数据的云存储系统的关键技术,依据定向随机游走规则对分布式云存储技术进行分析。为了保证数据安全,通过RAS加密算法对数据进行加密,利用公钥或密钥均对所需存储的数据进行加密,将另一个作为对应的解密密钥对数据进行解密。为了保证系统的可靠性和数据的访问效率,详细分析了数据的检索技术。通过云存储技术、数据加密技术和数据检索技术的组合方式达到高效整合、管理网络存储资源的目的,对外提供友好的连接窗口,使云计算网络数据的发布方式更加快速,为使用者提供便捷的存储服务。仿真实验结果表明,采用所提关键技术的云存储系统不仅运行时间和整体耗能低,而且可用性极高。

参考文献

[1]林丽,种大双.高校数据中心私有云存储系统研究[J].软件导刊·教育技术,2014(4):85-87.

[2]杜芸芸.一种面向纠删码技术的云存储可靠性机制[J].计算机应用与软件,2014(2):312-316.

[3]闫智,詹静.面向行为可信的大数据安全系统形式化描述[J].电信科学,2014,30(7):32-38.

[4]孙燕飞.大数据场景下基于HDFS的云存储服务系统设计[J].数字技术与应用,2014(2):172.

[5]毛文彬.面向大数据的分布式系统设计关键技术研究[J].无线互联科技,2014(11):150-151.

[6]傅颖勋,罗圣美,舒继武.安全云存储系统与关键技术综述[J].计算机研究与发展,2013,50(1):136-145.

[7]孙勇,林菲,王宝军.面向云计算的键值型分布式存储系统研究[J].电子学报,2013,41(7):1406-1411.

[8]赵铁柱,邓见光.面向大规模数据备份的云存储网关研究[J].计算机光盘软件与应用,2013(12):43-44.

[9]费贤举,王树锋,王文.一种海量大数据云存储系统框架设计[J].常州工学院学报,2014(3):38-42.

上一篇:主站数据下一篇:电影微博营销