非结构化大数据

2024-05-14

非结构化大数据(精选9篇)

非结构化大数据 第1篇

随着云计算技术的快速发展,不同类型服务器数据信息呈现爆炸式增长,市场迫切需要先进的大规模云计算数据存储和检索技术[1⁃3]。云计算下大数据检索的研究和应用顺应了市场的发展需求。当前的云计算下海量数据中,有高于80%的数据都是非结构化数据,但是,当前的信息关联检索主要依靠的是建立结构化的关联规则,无法满足云信息检索需求,寻求有效方法快速从中检索到有价值信息,成为相关学者研究的热点[4]。

文献[5]提出了热度敏感的非结构化数据检索排名算法,但是该方法对数据的属性特征具有较高的敏感性,存在较高的局限性。文献[6]分析了基于Lucene算法的文件全文检索解决方案,可快速有效地分析出不同结构数据的信息,但是存在耗能高和检索效率低的缺陷。文献[7]分析的分布式索引方法采用多节点备份实现系统检索,但是当备份的节点同时发生故障,则无法恢复失效节点上的索引,导致检索精度降低。文献[8]提出了以索引服务为基础的本地索引方法,直接为检索服务的方法,确保检索同索引集群紧密结合,极大提高了该种方法的容错性,但是同时也增加了该种方法的复杂性。

为了解决上述分析的问题,本文以云计算Hadoop分布式多层体系架构为基础,分析存储非结构化大数据的特点,将非结构大数据索引框架当成非结构化数据库,提供云计算下大数据非结构的检索服务。实验结果说明,所设计系统在检索云计算下非结构大数据的过程中,具有较高的查准率和较低的检索时间,可实现大数据非结构的稳定性检索。

1 云计算下大数据非结构的架构分析

1.1 Hadoop架构的非结构化分析

云计算下存储的大数据种类较多,都是以非结构检索关系存在的,总体架构如图1 所示。该检索平台依托云计算,云平台采用了Hadoop分布式多层体系架构存储非结构化大数据,并塑造集群的基础环境,通过云、端并重的形式,实现大数据非结构的稳定性检索。

当前的云计算下大数据非结构检索系统通过互联网采集云计算下的海量数据,通过后台系统实现大数据非结构的自主加工和统计操作。该平台还能够统计分析热点信息。在获得大量非结构数据后,系统根据检索业务策略定义,在检索引擎的配合下,完成大数据非结构检索的存储服务。

1.2 云存储下数据的非结构特点分析

上述系统总体架构采用多层体系架构设计,并依据多层架构的基础服务进行塑造。在多层体系架构下,通过云、端并重的形式,实现大数据非结构的稳定性存储,存储过程程序非结构的特点如下:

(1)用户检索终端数据的非结构化。面向终端检索用户,通过Web门户应用以及移动终端APP为用户提供大数据检索的服务中,因为用户信息的多样性,无法形成稳定的结构。

(2)业务应用层数据的非结构化。业务应用层服务为系统提供各种应用程序,系统以服务的方式对外提供大数据业务支撑,同时将该部分的服务部署在云平台中。用户检索终端应用通过访问云平台中的业务应用层服务,完成云计算下大数据非结构的稳定性检索业务。但是,由于应用程序在种类和开发过程中的差异性愈来愈大,导致该层数据也存在较大的非结构化的特点。

(3)平台服务层数据的非结构化。平台服务层为业务应用层和基础资源层提供相关的服务,包括媒体处理服务和调度、流程引擎服务。平台服务层中包含关键的大数据检索引擎。但是随着检索模式的不断增加,该层数据也存在较大的非结构化的特点。

(4)基础资源层数据的非结构化。基础资源服务层是云平台的基础设备层,通过计算资源服务、存储资源服务以及网络资源服务,通过逻辑资源池的方式实现云平台的调控。该检索平台中的基础资源服务,主要指云平台的基础资源,包括云存储、虚拟计算资源以及操作系统等基础部件,随着基础设备的不断增加,设备数据之间也无法形成稳定的结构特征,形成非结构化的特点。

2 云计算下大数据非结构的检索实现

在云计算下,差异大数据非结构检索是一个复杂的过程,通过第1 节的分析可以看出,平台中存储着海量非结构化数据。传统的依据结构化索引的方法无法满足非结构数据稳定的检索要求。本文通过构建非结构化大数据的分布式索引系统,可满足云计算下非结构大数据的稳定性检索需求。

2.1 设计非结构化数据的索引框架

通过塑造分布式非结构化大数据索引框架可以对非结构数据建立类似于结构化的框架,设计的框架如图2 所示。该分布式索引框架包括索引集群、检索集群以及分布式文件系统。

2.2 索引集群的引入

在非结构框架下,设计索引集群可塑造分布式大数据非结构检索的索引。索引集群采用Master⁃Slave结构,由一个索引主节点以及多个索引节点构成。通过该结构能够将索引任务分割到不同的索引节点中,确保不同的索引节点能够并行塑造索引,增强系统对云计算下非结构数据的操作性能。索引集群服务于批量和增量索引模式。系统保存非结构数据后会向索引主节点传递增量式索引任务的消息。索引主节点按照该消息中的数据特征以及内容,使用索引分片方案,判断相应的数据归属于索引分片,再在分布式索引消息队列中存储相关的消息。

不同结构的数据索引节点相互独立,并从消息队列中采集消息。若采集的消息属于相应索引节点,则对消息进行相关的检索,否则将消息反馈到对应的索引节点再进行操作。若对应的操作索引节点无法正常运行,则通过索引主节点完成消息的操作,并将新的索引节点配置给对应消息。索引集群能够增强总体系的吞吐量。

2.3 非结构化下的检索集群的设计

在非结构数据框架下,检索集群包含检索主节点、检索节点以及检索客户端。检索集群通过Master⁃Slave结构确保索引文件高效率的部署到不同的检索节点中,增强数据检索服务效率。检索节点依据Master⁃Slave结构能够获取总体检索集群中不同检索节点的负载情况。当用户通过检索客户端发出数据检索申请后,检索主节点将按照不同检索节点的负载情况,获取一个节点列表,并将该列表反馈给检索客户端,检索客户端依据获取的检索节点列表进行检索。用户采用检索客户端可申请检索,并获取相应的检索结果。

2.4 云计算下大数据非结构化的检索代码

当前多使用SQL全文检索技术实现云计算下大数据非结构化的检索设计,详细过程为:启动SQL Server的full text search全球检索服务,设置数据库服务器的默认语言为2052(中文);运行SQL语句启用全文检索:Executesp_fulltext_Struct Dabase‘enable’;选择“ 全文索引”中的“定义全文索引”,融入全文检索向导对话框,选择将要对其进行全文索引的字段和全文目录。

重新启动SQL Server则能够采用检索语句CONTAINS以及FREETEXT对所设置的表进行查询。其中,CONTAINS语句可在表的全部列中搜索,词或短语以及同对应词相近的词等;FREETEXT语句可在一个表的全部列或指定列中搜索一个自由文本各种的字符串,并返回同该字符串匹配的数据行。

如在Doc表中查找文件内容中包含“暴恐”,所采用的SQL语句为:

检索非结构化数据的界面中,输入关键字,单击“检索”按钮,则可将文件内容中包含该关键字的文件名、文件类型显示处理。实现文档中关键字检索的主要代码为:

若需打开某文档,则对总体文档进行详细分析,在.net环境中,通过设置Response的Connotation Species属性和调用Binary Write方法则能够站在浏览器中显示相关的文档内容。显示Word文档以及Excel文档内容的关键代码为:

3 实验分析

实验采用云计算非结构NUS数据集,将该数据集中低维特征提取出来的视觉单词特征,当成测试集合。本实验从该非结构数据集中随机抽取100 万个特征作为样本训练集合。实验采用检索时间和查准率两个指标评估本文系统和平均分配检索系统的优劣。

查准率=检索结果中相关的结果总数/检索结果的总数

为了得到比较全面的实验结果,实验选择了10 组实验,每组实验的文件数分别为10 万,20 万,30 万,40 万,50 万,60 万,70 万,80 万,90 万以及100 万。再计算出检索时间的平均值以及查准率的平均值对各个系统进行评价。

3.1 以查准率为评估指标

实验先以查准率作为评价指标进行实验。在每种实验系统中,依次输入不同检索目标进行检索,并设置最长搜索时间为3 s进行实验。统计不同检索目标的查准率,并运算平均值。再比较各系统的查准率。本文方法下系统和平均分配系统的查准率对比如图3 所示。

分析图3 可得,本文方法下的查准率明显好于平均分配检索系统,说明使用的本文方法进行大数据非结构的检索具有较强的优势。

3.2 以检索时间为评估指标

实验依据检索平均时间为指标评估不同的检索系统。在两个实验系统中,分别输入不同的检索目标进行检索,同时设置不同的检索结果数进行多次实验。运算不同系统中差异结果下的检索平均时间,再比较两个系统的检索时间。在本文系统和平均分配系统中对10 个实验目标进行检索,统计各目标在两个系统中的检索时间,运算出平均检索时间,如图4 所示。

从图4 中可以看出,平均分配检索系统在平均搜索时间上高于本文系统,则证实应用了本文检索系统在查询时间和查准率这两个评价指标上,都优于传统的平均分配系统。

上面的实验比较可以看出,本文检索系统对非结构数据的性能优于传统的平均分配系统。说明本文系统可实现云计算下大数据非结构的稳定性检索,具有较高的应用价值。

4 结语

本文以云计算为基础,采用Hadoop分布式多层体系架构存储非结构化大数据,并塑造集群的基础环境,通过云、端并重的形式,实现大数据非结构的稳定性检索。将非结构大数据索引框架作为非结构化数据库,当成数据检索引擎,提供云计算下大数据非结构的检索服务,该分布式索引框架包括索引集群、检索集群以及分布式文件系统。给出SQL Server 2008 的全文检索技术在检索非结构化大数据过程中的关键代码。实验结果说明,所设计系统在检索云计算下非结构大数据的过程中,具有较高的查准率和较低的检索时间,可实现大数据非结构的稳定性检索。

参考文献

[1]中国互联网络信息中心.中国互联网络发展状况统计报告[R].北京:CNNIC,2014.

[2]车晓蕙,周立民,陈钢,等.大数据为王第三次流通革命在望[N].经济参考报,2013-09-11(5).

[3]李淑芝,刘锋,杨书新.基于云仿真的Web服务选择研究[J].计算机应用研究,2013,30(4):1069-1071.

[4]杜芸芸.一种面向纠删码技术的云存储可靠性机制[J].计算机应用与软件,2014,31(2):312-316.

[5]林菲,张万军,孙勇.一种分布式非结构化数据副本管理模型[J].计算机工程,2013,39(4):36-38.

[6]翟岩龙,罗壮,杨凯,等.基于Hadoop的高性能海量数据处理平台研究[J].计算机科学,2013,40(3):100-103.

[7]韩晶,宋美娜,鄂海红,等.Hot Rank:热度敏感的非结构化数据检索排名算法[J].计算机应用研宄,2013,30(5):1306-1308.

结构化、半结构化和非结构化数据 第2篇

结构化数据: 能够用数据或统一的结构加以表示,我们称之为结构化数据,如数字、符号,传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示,

半结构化数据: 所谓半结构化数据,就是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据,XML、HTML文档就属于半结构化数据。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

大数据只是可能 而非万能 第3篇

雅虎的研究小组从轻博客Tumblr浩如烟海的1.889亿个博客账户的831亿篇文章中抽取出与足球相关的内容,再将焦点凝聚在今年2月至5月2730万篇与世界杯相关的粉丝评论,以“为每支队伍赋予优势值”的方式,判断出巴西队的赢面较大。

与我们这个时代最伟大的物理学家霍金教授应用“世界杯夺冠公式”来测算比赛结果不同,雅虎给出的结果由于是基于轻博客粉丝讨论,因而更多地展现了多数观众的倾向和预期——每位球迷都有心目中的冠军球队,桑巴足球凭借强悍实力和出众的观赏性而深得人心,夺冠呼声极高。巴西队大比分惨败德国后,球迷的悲痛也是个证明。但比赛结果不取决于亿万观众票选,而是场上十几人的表现。这一点也正如霍金教授所言:相对于量子力学来说,足球要复杂多了。

无论如何,雅虎的预测都是一种非常有益的尝试。在那些粉丝倾向足以决定结果的领域,类似的研究对于企业研究市场和消费者需求会很有帮助。

雅虎对世界杯赛结果的研判还可能引发更多思考:比如近来被炒得有点儿过热的大数据能否预测未来?一些业界同仁和分析家认为数据可以揭示规律,进而帮助人和企业预知结果;另一些研究者则认为大数据的功用有限、迷信大数据是愚蠢的。

作为在此领域有所涉猎的研发人员,我的观点介于两者之间。

大数据揭示的是关联与现象,而非规律和本质,所谓“知其然而不知其所以然”正是大数据分析结果的写照。商学院流传很广的一个案例,卖场数据显示啤酒和纸尿裤的销售相关。经过调查发现,这是年轻父亲被妻子指派采购婴儿用品时夹带啤酒私货的一种趋同倾向。如果仅限于发现关联,卖场也许会简单地把两种商品摆放在一起;而了解到现象背后的模式,便可以开展更有针对性的促销。

也就是说,大数据能提供宝贵的线索,但不能替代人工研究——比如深入现场去发掘消费行为链背后隐藏的逻辑。有兴趣的读者可以看看《品牌洗脑》一书,作者是资深营销人士,书中列举了很多生动却可能让人惊诧的例子:现代营销是如此无孔不入,比如,人还没出生营销就开始了,孕妇常去的卖场的背景音乐对婴儿有止啼的效果等等。

这些案例经常有研究数据支撑,虽然未必达到大数据的级别,但已经相当精密,包括用核磁共振扫描测试者的大脑。

对大数据极度乐观或悲观的人,其实都是将大数据视为传统营销模式的延伸。乐观派渴望找到一个“大杀器”,对消费者实现完美的“引诱”和控制。而悲观派则更理性一些——物极必反,过度营销会招致消费者反抗,利用大数据分析结果来强化原本已如水银泻地般无孔不入的营销,这真是好事吗?

在我看来,消费者行为实际上很难预测和控制——据传萨特在战后出版哲学巨著《存在与虚无》,出版商对这部巨著的销量并不看好,权当支持文化事业,但销售成绩居然大大超出预期。出版商惊讶之余,发现原来战争期间金属被搜刮一空,商贩缺乏秤砣,用各种物品代替,有不知名的商贩发现该书的重量正好是一磅,于是商贩普遍购来充当秤砣。

在这个故事中,大数据分析就无法准确预测这一应用情境。但我们可以做到,当消费者产生用书来当秤砣这样的奇思妙想,大数据可以马上向他推荐《存在与虚无》。既然消费者很难预测和控制,不如一方面利用大数据来观察和总结特定情境下的群体行为关联,一方面更谦虚和认真地与消费者个体沟通,用审慎执着的态度及更好的产品、服务来黏住顾客,而不是只在营销上下功夫。

总而言之,大数据虽然能在很大程度上提高预测的准确性,它也只能让产品和服务本就出色的企业变得更强,却不能拯救那些存在致命缺陷的企业于水火之中。

非结构化大数据 第4篇

1.1 非结构化数据定义

非结构化数据是相较于结构化数据而言, 如果说结构化数据是用二维逻辑结构来表现的数据, 那么非结构化数据就是指无法用二维结构表示的一种数据类型。非结构化数据主要包括以下三种类型:内容文档信息 (包括文书处理、电子表格、简报档案与电子邮件等) 、Web内容信息 (HTML、XML等格式信息) 、多媒体信息 (声音、视频、图片等) 。可以有这样一种理解:结构化数据用详实的方式记录了企业的生产交易活动, 那么非结构化数据则是掌握企业生产经营活动的关键内容。

1.2 非结构化数据的特点

数据体量大, 非结构化数据不仅数据量大 , 而且增长非常迅速。从出现文明到2003年, 人类总共才创造5EB的数据。但是随着信息通信技术的飞速发展, 特别是智能手机和互联网技术的成熟, 我们现在仅在两天内就创造出相同的数据量!预计到2015年将达到8 ZB, 这相当于1800万个国会图书馆。而在如此庞大的数据中, 只有10% 的数据是存储在数据库中的结构化数据, 其余的则是由邮件、视频、微博、文档、页面点击等产生的大量的半结构化数据非结构化数据。

格式多样化, 非结构化数据格式多样化, 在实际的应用中, 非结构化数据的格式多种多样, 如Word、Excel、PDF、JPEG图等等。

难以标准化, 相对结构化数据有统一的格式和标准, 非结构化数据的样式复杂多变, 所以在存储、管理、检索等应用上现有的标准化体系难以支撑。

数据加工难度大, 由于非结构化数据体量大、格式复杂多样, 如何从海量数据中发掘有价值的信息一直是个难题。

1.3 非结构化数据研究背景

非结构化数据的迅速增长引起了从业者与研究者的注意, 非结构化数据的存储和管理一时成为了研究的热点以及发展方向。国外起步较早, 虽然目前还没有出现一个真正意义上公认的标准非结构化数据处理模型, 但己经出现了诸如Google提出的Big Table、Map Reduce与Facebook自己开发 的Cassandra和e Bay基于Hadoop开发的Athena等非结构化数据存储与处理等技术和产品, 并已经取得了较为成熟的应用效果。

相较于国外在结构化数据研发领域的主导地位, 目前占信息总量80% 以上的非结构化数据在全世界范围内仍处于低效率的处理阶段, 这就给我国软件产业的跨越式发展带来了契机。2012年7月我国正式成立非结构化数据管理标准工作组。工作组负责制定和完善中国非结构化数据管理领域的标准体系。在工信部和全国信息技术标准化技术委员会的指导下, 北京航空航天大学、清华大学、浙江大学、中国人民大学、北京大学、中国科学院软件研究所等高校及研究机构, 以及百度、用友、阿里云、拓尔思、中软等业界厂商发起成立了非结构化数据管理标准工作组, 秘书处设在中国电子技术标准化研究院。2005年底, 北京书生公司宣布推出了其SEP文档库技术, 经过不断的完善已经形成可以实际应用的文档模型描述和相应的操作标准——UOML (Unstructured Operation Markup Language, 非结构化操作标记语言) 。这意味着中国的企业有可能成为非结构化信息产业发展中核心技术的持有者和标准的制订者。在产品市场, 北京国信贝斯软件有限公司的IBASE和北京拓尔思信息技术股份有限公司TRS大数据管理系统均为具有自主知识产权的非结构化数据管理系统, 已经取得了不错的市场和经济效益。

2 相关技术简介

2.1 Hadoop

Hadoop是Apache组织研发的一个开源的能对海量数据进行分布式处理的开源分布式计算平台, 被认为是目前应用最为成熟的海量非结构化数据存储管理解决方案。英特尔、EMC都发行了自己的Hadoop优化版本, IBM、ORACLE都已经将Hadoop当做了自己大数据解决方案当中一部分。

Hadoop的优势在于:扩展性非常的高。Hadoop本身便是一个能够进行高度扩展的存储平台, 其在进行数据存储以及分发的时候可以横跨几百个能够进行并行操作的廉价服务器数据集群。

容错能力非常的强。Hadoop能够自动为保存多个副本:将数据发送到某个单独借点中去的时候, 这些数据会直接被复制到其他的借点上。一旦出现故障导致数据损坏的情况, 能够自动加载副本保证任务正常执行。

处理海量数据非常高效。HDFS+Map Reduce架构可以轻松的组织利用实际资源可以在节点之间动态的移动数据, 保证各个节点之间的动态平衡, 因此他的处理速度非常快。

高可靠性。Hadoop按位存储和处理数据的能力值得。

2.2 Hadoop 体系结构

Hadoop的核心是HDFS (Hadoop分布式文件系统) 和Map Reduce (一种并行计算模型) , 还包括Hbase、Hive、Commom、Avro、Zookeeper等组件, 如图1所示:

2.2.1 HDFS

HDFS (Hadoop Distribution Files System分布式文件系统) 是基于流数据模式访问和处理大文件的需求而开发的, 因而特别适合非结构化数据的处理。HDFS的主要特点有:处理大文件。这里的大文件通常指MB级以上的数据;流式地访问数据。HDFS遵循“一次写入、多次读取”的原则, 即源数据一旦生成, 会立即被复制几个副本分发到不同的存储节点, 可以分别同时相应不同的任务请求, 而且这样的副本策略提高了系统的可靠性和安全性;适用于集群。HDFS的设计对硬件配置要求不高, 可以运行在低配集群上。

HDFS体系结构 中有两类 节点, 一类是Name Node, 另一类是Data Node。这两类节点分别承担着Master和Slave的角色:Name Node负责集群 的管理调度、相应外部请求、维护Data Node的索引目录等;Data Node承担具体的存储任务。需要注意的是, HDFS默认将文件块副本数设定为3份, 分别存储在不同的Data Node上。一旦一个数据块损坏, 系统会通过Name Node获取副本信息, 从另外的副本读取数据信息, 这样体现出了不俗的容错能力, 如图2所示。

2.2.2 Map Reduce

Map Reduce最早是由Google公司研发的函数Map和Reduce演化而来, 主要是用于处理集群的并发。Hadoop中的Map Reduce是一个使用简易的软件框架, 能够以一种可靠容错的方式并行处理上T级别的数据集。Map Reduce就是“任务的分解与结果的汇总”。遇到大数据量任务时, 首先将数据分段进行Map并行处理, 然后把多任务处理的结果汇总起来发送给Reduce, 得到最终结果, 如图3所示。

2.2.3 Hive

Hive是建立在Hadoop体系架构上的数据仓库存储架构, 它提供了一系列的工具, 用来进行数据提取、转化、加载。传统数据仓库是把数据导入系统中, 而Hive则是动态的将对数据处理的逻辑 (代码) 导入系统中, 这样一来大节省了数据导入的开销。Hive的执行计划在Map Reduce框架上以作业的方式执行, 最终输出文件写到HDFS文件系统, 利用HDFS的多副本机制来保证作业的容错性。同时Hive还提供了一种SQL类型的语言 -Hive QL, 可以进行类似SQL的操作。由于Hadoop是批处理系统, Hive在处理数据时会出现一定的延迟, 不适合在线事务处理场景, 他的优势在于处理改变不频繁的大规模数据集。

2.2.4 Hadoop 工作机制

Hadoop将计算节 点分为JobT racker和Task Tracker。TaskT racker必须运行于Data Node上, 负责具体执行Map和Reduce等任务。Job Tracker会把Map任务和Reduce任务分配给空闲的Task Tracker并监控任务的运行情况, 如图4所示。

3 中国地质图书馆存储建设历程及现状

中国地质图书馆经过百年积累, 积累了大量的专业地质文献信息资源, 包括近代地质学启蒙时期以来近200年的国内外地学文献;世界各国地质图件1万余套;20余个自建和采购的大型文献数据库, 近6000万条文献信息数据;拥有中国地质图书馆馆藏特色资源全文数据库、中国地质文献数据库和青藏高原数据库以及Geo Ref国外地学文摘数据库、GSW (Geo Science World) 等中外文数据库14个。

3.1 中国地质图书馆存储建设历程

为确保如此海量数据安全、可靠, 为地质文献信息化工作提供可靠支撑, 中国地质图书馆信息化建设者一直在孜孜不倦的努力着。

图书馆最早使用存储系统设备始于2006年, 由于数字化工作的开展形成了大量的成果数据, 图书馆购置了两套Dell Power Vault直接附加式存储 (DAS) , 总可用容量达24.5T。主要存放馆藏数字化的成果数据, 包括PDF、TIF、XML和JPG文件。

2009年借助野战军地质装备专项, 部署了EMC中高端企业集中存储系统。内容包括:总可用容量达28T的EMC CX4-480光纤磁盘阵列 (通常称作SAN存储区域网) 、总可用容量达6.9T的EMC NS40 NAS存储以及总可用容量19.5T的EMC DL 3D3000虚拟带库 (简称EDL) 。集中存储系统的实施加快了地学文献数据中心的建设步伐, 其中SAN光纤磁盘阵列主要存放高I/O的数据库和文件, 如元数据仓储、经常使用的CNKI镜像数据等。NAS主要存放了文件级的共享型数据。EDL虚拟带库主要用于诸如MS SQLserver、Oracle及Sybase等数据库及服务器文件的在线数据备份。

2011年, 中国地质 图书馆购 置了10台EMCi Store Center的桌面NAS存储设备, 总理论容量达到64T。这些桌面级存储设备主要用于数字化成果的中转存储。

2012年, 购置了总容量达到53T的昆腾SCALARi500 14U LTO5磁带库用于离线数据保存。

至此, 图书馆在线离线存储系统已经构建了高I/O高性能的在线存储、存放不经常使用数据且I/O不频繁的近线存储以及完全用于数据保存的离线存储体系。三种类别的存储空间累计达到了196T, 如图5所示。

3.2 馆藏数据资源现状

中国地质图书馆馆藏数据资源现状如下:结构化数据包括馆藏自动化系统、文摘数据、数据库文件容量约为10G;非结构化数据分为:2006以来年馆藏成果数字化原始数据36.91T、备份数据10.74T、发布数据5.17T;购买的数据库镜像:CNKI24.05T、维普7.98T、万方数据712G;元数据仓储发布平台索引文件10T。综上, 目前中国地质图书馆非结构化数据存储特点。

从源数据看, 非结构化数据占绝大多数, 且构成结构复杂。数据格式多样化, 馆藏数据格式呈现出多样化方式, 包括结构化和非结构化数据, 非结构化数据又分为如PDF、XML、word、图片视频等。业务构成多样化, 非结构化数据包括自2006年以来馆藏成果的数字化原始数据、数据库镜像、元数据仓储发布平台索引文件、项目建设成果、公文等。不同的业务构成决定了数据存储管理方式和应用需求的不同。存储方式多样化, 非结构化数据由各个业务应用自行管理, 主要有文件存储方式和FTP等。

从存储结构分析, 后端存储较多, 品牌型号驳杂, 管理不便;缺乏非结构化数据统一集中存储管理体系;数据备份效率不高 , 缺乏容灾恢复机制。

3.3 中国地质图书馆非结构化数据存储的需求

统一管理的需求。由于建设周期较长, 以及不同时间节点系统建设侧重点不同, 形成了较为分散的孤岛式的信息分散存储状态。为优化存储策略、统一运维流程、提高存储资源利用率, 亟需建立一个统一的非结构化数据管理平台从而提高对非结构化数据的管控能力。根据数据类型以及实际业务的需要, 充分利用磁盘阵列、NAS、磁带库等设备不同特性, 建立分级存储体系。

数据安全管理的需求。对任何一个存储系统地建设来说, 安全可靠永远是首要考虑的。根据中国地质图书馆实际业务需求, 安全管理具体由以下内容:制定统一的访问授权机制。对内容的访问进行统一的访问控制;制定统一的应用接入标准规范;制定审计策略, 一旦需要做到有据可查;制定高效的容灾备份机制, 确保数据的安全。

数据分析和决策支持需求。图书馆一直致力于资源建设的基础性工作, 积累了大量的地质文献资源, 也取得了一些效果, 但大多仍停留在目录检索、集成层面, 更深层次的内容服务开展较少。随着地质工作的不断深入, 迫切需要开发知识化、个性化、专业化的高针对性地学文献信息服务产品, 提升服务能力和水平。

4 中国地质图书馆非结构化数据存储平台设计

根据以上的技术分析 , 结合中国地质图书馆信息存储建设实际和需求, 构建非结构化数据存储平台架构图6所示:平台采用分层结构, 依据逻辑结构和功能分为基础设施服务层、数据服务层、应用服务层。

4.1 基础设施服务层

基础设施服务层是存储平台中基础部分。利用中国地质图书馆现有的NAS、磁盘阵列和虚拟带库等存储设备 , 采用虚拟化技术实现存储设备的逻辑虚拟化管理。

4.2 数据服务层

数据服务层是中国地质图书馆非结构化存储平台最为核心的部分。采用HDFS分布式文件系统存储数据、Map Reduce提供的控件和API处理数据请求、Hive作为数据仓库抽取、转化、加载数据, 定制数据模型, 为下一步数据分析做好准备。逻辑上采用主从结构, 由Control node和存储节点组成。Control node作为主控节点集成了HDFS的Namecode和Jobtracker, Name Node管理Data Node元数据。同时执行文件系统的打开、关闭、重命名文件或目录等操作。Jobtracker负责存储节点上Task Tracker的调度;数据服务层的存储节点为具体的数据存储载体, 将Task Tracker与HDFS的Data Node部署在同一服务器和能最大限度的提升并发的效率。Controlnode和存储节点共同构成了非结构化数据分布并发处理架构;利用Hive可以直接读取Hadoop文件数据的优势 , 采用类似于结构化查询语言 (SQL) 的Hive QL将查询转换为Map Reduce的job在Hadoop集群上执行实现对大规模数据集的查询与分析。

4.3应用接入层应用接入层输入链接实际应用和数据的中间层, 功能包括:集成PAI接口为应用接入提供同一的规范和标准;

身份认证和访问管理则确保了数据访问的安全可靠。

4.4 非结构化数据存储平台特性分析

中国地质图书馆非结构化数据存储平台采用了Hadoop分布处理架构, 具体来说有以下特性:

4.4.1 统一集中管理

平台采取“主从模式”, 主节点control node作为主控节点集成了HDFS的namecode和Jobtracker, 集中管理数据的存储和读取, 可以有效的解决目前中国地质图书馆海量异构非结构化数据分散管理的问题。

4.4.2 可扩展性

平台设计充分利用现有的存储设备, 而且Hadoop的高扩展性决定了未来随着数据量的增大可以轻松采用大量廉价存储设备代替费用高昂的高端存储。

4.4.3 安全可靠性

HDFS的副本存储机制为数据存储提供了冗余备份, 同时由于HDFS采用心跳检测Datacode的健康状况, 一旦发现问题即可采用副本数据备份的方式来保证数据的安全性。

4.4.4 高效性

Map Reduce“任务分解执行结果汇总”的工作模式实现了在不同节点上的分布运算确保了非结构化数据数据读写速度的高效。同时, Hive直接对HDFS的文件进行读写操作, 由于HDFS副本机制的高容错性, 我们可以将一个Hive查询同时在大量节点并发运行, 极大的提高了海量地学文献非结构化数据的检索效率。

5 结语

如何有效存储管理非结构化海量数据, 为进一步分析加工提供基础支持日益引起人们的关注, 笔者在分析非结构化数据发展背景、特点的基础上, 结合中国地质图书馆实际, 提出了采用Hadoop架构的非结构化数据存储平台设计方案。为如何安全高效管理地学文献非结构化数据资源做了积极的尝试。

参考文献

[1]陆嘉恒.Hadoop实战[M].北京:机械工业出版社, 2012:11.

[2]White T.Hadoop:The definitive guide[M].Nanjing:South-east University Press, 2011:34.

[3]崔杰, 李陶深, 兰红星.基于Hadoop的海量数据存储平台设计与开发[J].计算机研究与发展, 2012 (18) :12-17.

[4]文艾, 王磊.高可用性的HDFS-Hadoop分布式文件系统深度实践[M].北京:清华大学出版社, 2012.

非结构化数据的ETL设计 第5篇

随着计算机、网络通信等现代信息技术的广泛使用,信息数字化管理已经深入到各行各业,体现在企业管理中是诸如企业资源规划(ERP)、客户关系管理(CRM)、供应链管理(SCM)以及其他商业应用系统的出现,体现在政府管理中是办公自动化系统的应用。许多系统在开发时都是各自封闭的独立系统,分布在异构的环境下,每个系统都包含自己的应用特点、业务流程以及相关业务数据[1]。随着数字信息的积累,为信息资源服务于决策支持等更高层次的管理打下了基础。在大量的数据当中,冗余数据、数据格式和含义不一致的现象普遍存在,而这些数据中却包含对决策支持很有价值的信息,需要将这些存在于异构环境的、相对封闭的系统中的业务数据有机地结合起来,消除信息孤岛,实现数据资源的共享,更好的发挥数据资源的效力[2]。但是已有的数据资源和正在形成的数据资源,由于处在不同行业和行业的不同的部门,对数据的要求和使用环境不同,形成的数据格式,数据的命名规则都不尽相同。为了满足数据整合的需要,相应出现了将不同系统的数据根据需要形成主题数据仓库的数据转换技术,这就是ETL技术。

ETL技术经过多年的发展,已经形成了许多成熟的产品。在国内市场的主要ETL 产品有: Informatics Power Center,IBM Data Stage,Sagent,Oracle 2 ODI,BO DI 以及国内开发的Bee Load 等等,其中Power Center 和Data Stage 在中高端应用有明显的竞争优势,Bee Load 作为国内ETL 软件的代表也占有相当的市场。ETL(Extract - Transform - Load )是数据抽取(Extract)、转换(Transform)、装载(Load) 的过程。ETL 包含了3方面:首先是“抽取”,将数据根主题数据仓库的需要从各种原始的业务系统中读取出来,这是所有工作的前提;其次是“转换”,按照预先设计好的规则将抽取的数据进行转换,使本来异构的数据格式能统一起来;最后是“装载”,将转换完的数据按计划增量(或全部) 导入到主题数据仓库中,完成数据整合的过程[3]。使用者通过对主题数据仓库中数据的统计或数据挖掘,根据数学模型对业务的历史进行描述并对未来的发展进行预测,为决策支持提供服务。同时通过数据的共享,消除信息的二义性,减少数据资源的重复建设。

1 ETL模型分析

目前国际上主流的ETL工具大都遵循以元数据为中心的ETL模式。元数据是符合CWM元数据标准的数据描述。公共仓库元模型(Common Warehouse Meta-model)是国际对象管理组织OMG(Object Management Group)制定的一个互操作元数据模型标准。CWM元数据标准的主要目的是为了方便在组成数据仓库系统的各个部分之间元数据的交换和共享。它为数据仓库和业务分析领域中使用的元数据定义一种通用语言和交换机制[4,5]。符合CWM标准ETL实现的逻辑如图1所示。

ETL系统首先通过元数据采集工具获取或定义源数据库、主题数据库、数据抽取模块、数据转换模块和数据装载模块的元数据,再根据CWM元模型库的标准,经过实时元数据转换平台将转换的目标元数据存储于元数据库中,形成ETL系统需要的元数据仓库。在ETL系统执行时,系统调度模块通过元数据管理模块将需要的相应元数据从元数据库中提取出来,控制ETL系统将需要处理的数据从源数据库中经过数据抽取模块取出,控制数据转换模块根据转换元数据完成数据的转换,数据装载模块根据装载元数据完成数据装载到主题数据库[6]。

以元数据驱动的ETL系统中使用的元数据主要可划分为下面三种类型:

(1) 技术元数据。如数据类型、源系统和内部列名等。显然,技术元数据主要定义ETL操作数据的描述,提供了源数据仓库到主题数据库的过程中,数据变化的精确信息。IBM 将这种数据称为定义化元数据。

(2) 操作元数据。如访问模式、更新计划和数据质量结果。这类元数据既对业务用户有价值,又对数据操作有价值。

(3) 业务元数据。如装载计划、数据所有权和业务规则。这种元数据主要由业务用户使用,并为数据仓库和业务团体建立了连接的桥梁。业务元数据为用户提供了访问数据仓库数据的路线图[7]。

2 ETL数据分析

从分析CWM元数据驱动ETL系统的整个逻辑过程可以发现,系统主要是针对存储于数据库中的数据进行ETL处理,这些数据具有的明确特点是存储于数据库中,具有明确的属性、数据关系、统一的数据格式的数据,它们可以通过明确的键值建立联系,这些数据可以方便的使用二维表结构来逻辑表达实现,可以方便的对数据进行数据描述,形成元数据,这就是结构化数据。例如公司员工信息、仓库货物信息等。

元数据驱动的ETL系统大大提高了系统的兼容性,缩短了系统的开发周期,但是这样的模型对于另外一类数据——非结构化数据却无法使用。相对于结构化数据(即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据)而言,不方便使用数据库二维逻辑表来表现的数据即称为非结构化数据。非结构化数据与原始数据或者未加工的一次数据是有区别的,后者是零散的数据要素的堆积,存在大量的冗余和无效信息,它应该是属于非结构数据的子集,也就是说非结构化数据的内容要更加复杂。 它也可能包含大量梳理过的,能够准确描述和表达一定主题内涵的要意,但是它与结构化的信息相比,没有或者很难定位键值,信息要素的组合是非规律化和难以用简单的结构化的描述语言实现的[8]。例如大量存在于监控和事务处理中文本、图像、视频、音频、PDF文档等数据信息。随着采集技术提高,大量的非结构化数据已经占据了业务数据的很大比例。如何对非结构化数据管理和提取有用信息,像处理结构化数据一样通过ETL形成主题数据库,为决策支持提高服务,是亟待解决的问题。

3 非结构化数据ETL解决方案

通过对CWM元数据的分类研究,可以发现在ETL系统的执行过程中,与结构化数据相关的数据是存储在源数据库中的结构化数据,数据抽取、转换、加载过程中处理的结构化数据和主题数据库中的结构化数据。这些结构化数据的元数据是技术元数据,而对于访问模式、更新计划、加载计划等相关的操作元数据和业务元数据,与ETL处理的结构化数据没有直接的关系[9]。因此,只要将技术元数据涉及的非结构化数据转换为可以通过元数据方式描述的数据,就可以方便地使用CWM元数据驱动的ETL系统。

结构化数据之所以容易建立数据的元数据,是因为数据的各种属性可以方便的获得。而对于非结构化数据,就需要将隐藏在数据中的各种属性显现出来,使系统易于建立非结构化数据的元数据。

非结构化数据常用的属性包括有内容属性、时间属性、空间属性、来源属性、获取手段属性、格式属性、使用属性等,按照一定的原则和方法对非结构化数据文件进行统一分类命名,例如文件名可定为单位_部门_类别_文件类型_日期.pdf,就能够简洁反应数据文件的来源属性、类型属性、时间属性等,通过关键词对数据内容进行摘要描述,就可以获得相关的内容属性。通过研究发现,采取Adobe公司的PDF数据压缩包对数据进行处理,可以方便地实现以上的功能,同时可以压缩数据,节省存储空间[10]。将非结构化的数据转换为PDF数据包的组织结构图如图2所示。

转换后的非结构化数据集可按照树形文件夹的形式进行数据组织,树形文件夹可按照不同的文件的类型进行设计,它既可以对单独的非结构化数据进行压缩,也可将多个非结构化数据进行压缩打包。文件的内容摘要信息存储于info.xml文件中。对多个非结构化数据进行压缩后,应当使用工具软件对数据包进行索引,这样可以提高后期数据检索速度,易于形成元数据。

通过非结构化数据转换,数据的相关属性就可以通过文件名、扩展名、文件摘要内容等方便获得,这样就可以通过属性,形成非结构化数据的元数据,方便地实现对于非结构化数据的CWM标准的ETL处理,实现非结构化数据的数据管理和整合。

4 结 语

通过对非结构化数据的进行PDF数据压缩的方式,方便地实现数据各种隐藏属性的显现,从而形成非结构化数据的元数据,能够准确定位数据,解决了非结构化数据难于管理和整合的问题。对于大量出现的非结构化数据ETL任务需求,将是一个优良的解决方案。

摘要:为了实现非结构化数据的ETL处理,分析了数据整合的发展现状和业务需求,描述了目前国际流行的公共仓库元模型(CWM)以及在ETL实现中的作用,详细分析了结构化数据和非结构化数据的不同特点。针对两种数据的差异,提出了解决非结构化数据的属性提取和数据打包的方法,为非结构化数据形成元数据奠定了基础,从而实现了非结构化数据的ETL设计,设计完全满足标准的数据整合要求。

关键词:非结构化数据,结构化数据,CWM,ETL

参考文献

[1]BERSON Alex,SMITH Stephen,THEARLING Kurt.构建面向CRM的数据挖掘应用[M].北京:人民邮电出版社,2001.

[2]INMON W H.Building the Data Warehouse[M].王志海,译.北京:机械工业出版社,2000.

[3]尤玉林,张宪民.一种可靠的数据仓库中ETL策略和架构设计[J].计算机工程与应用,2005(10):172-175.

[4]吴建芹.基于CWM的数据仓库体系结构设计[D].北京:北京邮电大学,2002.

[5]李姗姗.基于CWM的元数据管理的研究[D].长沙:国防科学技术大学,2003.

[6]林娥.一种基于CWM的元数据驱动的数据库访问模型的设计与实现[D].广州:中山大学,2005.

[7]张枝令.结构化数据及非结构化数据的分类方法[J].宁德师专学报,2007(4):417-420.

[8]张德政,张萍萍.非结构化信息管理[J].微计算机信息,2006,22(9):226-227.

[9]周茂伟,邓苏,黄宏斌.基于元数据的ETL工具设计与实现[J].科学技术与工程,2006(6):3503-3505.

海量非结构化数据存储问题分析 第6篇

1.1非结构化数据存储的特点

从存储的角度出发进行相关的研究,其主要具有以下几个特点:

第一,具有较大的存储容量。在数字档案馆中,绝大多数的数字化媒体将会随着存储的不断增多而随之成长,在度量单位方面,存储的信息也从以往的KB,MB,GB朝着TB,PB发展着,从数量的角度来说,存储的规模正在空前发展着,这虽然标志着数据存储领域发展的进一步加深,但也导致了诸多问题的出现。

第二,媒体具有较多的形式。在数字档案馆的馆藏之中,主要包含着数字化的电子出版物、图书、照片、互联网的内容、图纸以及科学与人文的相关资源数据,在存储的媒介方面,也不仅仅限制以往的印刷体的范畴之内,其包含着诸多种类并不相同的媒体形式,例如声音、影视等等,具有十分明显的复杂性。

第三,增长速度较快。近些年来,档案馆的数字资源增长十分迅速,可以说是十分惊人的,在当前的数字档案馆之中,两个具有较为明显的重要性的增长方向与增长点便是数字档案与全文数据库,距离来说,当前在我国,绝大多数的企业便正在从以上两方面展开相关的研究工作,这也将会使得数字馆藏的增长变得十分迅猛。

1.2非结构化数据存储的现状

在当前市场企业的实际应用中对非结构化数据的存储主要有以下的几种方式:

第一种:在结构化数据库的BLOB字段之中对数据进行直接存储。

目前,对于绝大多数的企业之中,其在对非结构化数据进行保存时都是通过结构化数据库之中的BLOB字段来进行的,例如报表与图片等等,在该字段之中进行保存具有较为理想的应用效果,在进行管理与维护时较为简单,且在对文件进行调用时能够保证足够的速度,其同其他的应用系统之间不存在着关联性;但是,在不断的应用中也已发现,该方法也存在着一定的缺点。其一,对于非结构化数据来说,其文件的数据相对较大,并且,随着运行时间的不断增多,数据量必然也会不断的呈现出增加的趋势,这必然会在较短的时间内使得结构化数据库出现极速的膨胀,随着时间的增加,在运行的过程之中,数据库的性能很难保证同最初时相同,下降是必然的,甚至可以说,整个应用系统都将会随着时间的推移,数据量的增大而出现一定的下降,甚至会对整个应用系统的性能造成不良的影响;第二,在数据库之中,系统与系统之间时相对于独立与封闭的,相关的文档资料无法同其他的应用之间共享。

第二种:通过FTP的方式在文件的服务器之中进行保存。

在实际中,以这一方式对非结构化数据应用进行保存的用户相对较少,其中,网站以及数字档案馆较为典型。这种方式通过将文件上传到远程计算机上,然后其他用户可以在其他主机上下载和查阅文件,从而实现文件或数据的共享。

第三种:在文件服务器之中以文件系统的方式直接进行存储。

对于非结构化数据之中没有应用系统的,例如开发的应用系统软件、在信息管理部门之中经常应用的软件与工具以及技术研究的资料等,通常情况下都会在文件服务器之中将文件直接存储。

2 海量非结构化数据的存储与整合

在对数字档案馆进行建设的过程之中可以发现,在企业之中,每一个类别的业务系统都存在着一定的数字资源需要归档,然而当前的存储系统中,各个业务系统之间并不存在关联性,这就造成了存储的困难,当前许多的企业都认识到了这一问题并积极地研究最佳的信息资源整合的途径,并且,其中大多数的企业都选择研究基于文件结构应用NAS或者SAN进行整合的方法。

2.1 数据整合的驱动因素

选择对存储系统进行整合,主要是为了对需要进行存储的资源的数量进行减少,随着企业应用的不断部署与新型扩展需求的增加,文件服务系统的规模也不断地增长,这也就会导致文件服务器的数量不断增多,文件服务的环境更加庞大,然而对于系统数字资源的归档与管理,文件服务环境的复杂性是十分不利的,笔者在下文中将会对数据整合的驱动因素进行分析与论述。

1)降低了管理的成本

在企业管理中,完成对系统的整合这一操作,能够使得这一企业之中IT管理工作人员的工作量得到明显地减少,这主要是得益于存储设备的减少从而减少了管理的工作量,然而,若是不对其进行有效的管理与整合,必然会导致系统随着运行的增多与时间的推移而不断地增长,系统则会随着时间的不断流逝累积起来十分巨量的文件服务器资源,而对于IT工作人员来说,对于这些资源的维护将会成为十分巨大的负担。

2)经济利益

对于企业本身来说,实现了存储系统的整合将会十分明显地提高企业的经济利益,将许多的系统整合成为一个系统时,从而企业便能够节省下十分客观的磁盘空间与资金经费,也就是节省十分客观的IT成本,这样,企业就能够有效地降低自身的运行成本,从而不断地提高自身竞争力。并且,对于IT的管理人员来说,在相关数据管理问题的解决方面以及软硬件更新上所耗费的时间方面也能够得到节约和控制,进而提高了人力资源的利用率,提高了单位时间内的工作效率,进而能够创造出更大的经济效益。。

3)资产保护

对存储系统的整合进行实现,另外一个基本性的驱动因素便是需要更好地对企业的资产进行保护。对于数据来说,仅仅应用备份机制是否能够获得足够的保护,是否拥有者合适的安全控制,若是对于以下的这些过程都能够通过一个统一的系统进行控制与管理,便能够极大地减少对系统的安全控制点以及需要进行备份的次数,这样,企业也能够确认资产都得到十分完善的保护。

2.2 实现不同方式的整合

当前,能够选择许多的方式来对多个存储系统进行整合。其一:企业将以往所应用的型号较小的存储设备进行舍弃与淘汰,而后更换一个新型的,具有较大功率与先进技术的NAS设备,仅仅应用这一个存储来负责整个企业的相关运行工作;其二:对虚拟数据中心这一技术进行应用,该技术的核心理念是将企业之中型号相对较小的存储设备全部在中央存储系统之中隐藏,或者,将其分布在各不相同的物理地点之中,这一方式将会使得所有的资源与设备都不会被舍弃而是被隐藏在不同的角落,然而,在进行管理时,却可以仅仅针对一个数据界面,使得工作人员可以更加集中精力,大大地减少了工作量。

1)文件服务器的整合

对存储系统进行整合的第一种类型主要是针对一些应用与对某一个特定的应用需求进行解决的单独的文件服务器,在以往的基础架构之上,随着企业应用的不断增加,将会有偶读文件服务器在企业IT的环境之中独立地进行部署,这也必然会导致企业的存储系统出现十分明显的膨胀,对于文件服务器来说,其主要的目的便是对相关的应用设施进行整合,使得能够应用更小的机构来对系统进行控制,举例来说,在企业之中,对一个小组或者说一个部分可以统一地集中起来,最为常见的处理方式是部署并安装一个全功能的盒子或者与其相类似的设备,将许多文件的服务器进行结合并将其放置到一个统一的平台之上。

2)非结构化数据的整合

随着企业的不断发展,其对于各方面的认识也将会不断的加深,虽然企业有能力保证对当前的NAS系统进行更新,使其更加大型,在对系统的扩容性进行增强方面,能够获得十分理想的应用效果,并且,对于小型的、具有独立性质的、在各处进行分布的存储设备也能够进行消除,然而,在实际的整合过程之中,仍然存在着成本过高以及整合的过程较为复杂这一问题,而这种通过虚拟数据中心管理的软件也就是中央化整合默契能够将分散着的文件服务器以及数据中心的存数设备进行整合,想要对分布在诸多地点的存储设备进行统一的有效的管理,加拟一个非结构化的虚拟数据中心必然将会获得十分理想的应用效果,并且,对于管理工作人员与客户来说,还能够提供出一个唯一的访问路径,随着企业发展的不断深入,很容易出现多个物理中心并存的情况,而在这一实际背景之下,该方案也会有更高的符合性。

2.3 其他的需要进行考虑的因素

完成对存储系统的整合仅仅是最为关键的一个环节,对此,企业不应放松,而是应对其他的一些因素进行考虑,这里的其他因素主要包括在管理过程之中可能出现的变化、对系统的安全控制以及数据的迁移等。

一般来说,实现了整合仅仅代表着安全有了保障,然而,这并不代表在以往发展与运行过程之中已经存在了的问题被解决,整合的实现与完成后,仍然需要设置相应的访问的权限,对于一些较为复杂的安全过程的设置而言,在完成系统整合后,将会体现出较为明显的优势,然而,不管怎样,都必须要保证安全控制的存在。

将数据从文件服务器或者其他的NAS设备上迁移至中央平台之后,较为理想的一种情况则是控制列表以及访问权限的设置等一系列以往设置过的内容也能够跟随数据一同迁移到中央平台之上,避免再次对相关的内容进行设计,既节省了时间,也节省了人力物力,具有十分重要的意义。因此,在实际的整合之中,其中十分需要考虑且具有着重要地位的一点便是如何在对数据进行迁移的同时对访问控制以及安全控制等类型的信息进行一同迁移,减少工作量,提高迁移的效率。

数据操作流程会存在着一定的变化。在对计划实现进行整合的过程之中,若是可能,可以对企业当前的管理模式与数据操作进行改变,在不断地探索之中对当前整合系统之中所存在着的优点进行发掘,最终获得一个相对较为理想的操作流程,提高数据的实际可用性与数据按操作的流程。

在对整合计划进行制定时,最为关键的一点便是一定要立足于未来,需要耗费大量的时间来对存储系统的承载力进行评估,评估其实际的应用能力与发展的能力,想要保证整合计划能够如期理想地进行,一个十分重要的因素则是企业是否在计划开战前进行过较为细致的计算,包括是否应该整合到一个设备之上,其是否具有必要的扩展能力等等。

3 海量非结构化数据存储的管理

可以说,虽然在当前应用非结构化数据的存储这一技术能够满足存留与归档的要求,然而,其却很难满足电子发现所提出的相关需求,随着搜索技术的不断深入发展,其在文件搜索方面的功能也变得十分完善,能够很好地对电子发现所提出的相关需求进行满足,然而,其并不能够对数据组织以及管理的功能进行提供,对于长期留存需求这一功能也无法进行满足,这一问题主要是由数据存储技术以及数据管理技术这两方面在进行研究与设计的过程之中是分别进行的,具有十分明显的隔离性,因此,导致了这一情况的出现,从实际的角度来说,这一问题同用户的需求是相违背的。

并且,在档案系统之中的非结构化数据本身属于企业的数字资产,也是企业的凭证库与知识库,然而,想要对以上的作用进行较好的发挥,不仅应对以上的问题进行解决,还需要对非结构化数据真实保证以及知识发现等问题进行解决。

对网络存储架构的研究:由于文件与网络层从无法同时对数据共享以及高性能两个需求进行同时满足,因此,对象存储的概念也因此而出现,对象存储能够有效地对文件系统与块的优点进行结合,并通过元数据一数据进行简化与分离的管理,对磁盘进行直接访问,从而对性能进行提高,以此来同时满足数据共享与高性能两种要求,在开发与研究的过程中,有两个分支引起了企业界与学术界的重点关注,其中一个是智能存储,另一个分支则是基于内容的存储,例如内容寻址存储(Content Addressab1e Storage, CAS)。

在传统的文件系统与网络存储系统之中,主要是对二进制流文件进行存储,对于非结构化数据所建立的更加丰富的数据模型则予以禁止,因此,在传统的文件系统之中,想要对自身所需要的内容进行寻找是十分困难的,用户所面临的困难也从以往的数据存储转变为当前的数据管理。对于存储系统来说,一个亟需解决的问题便是有效地帮助用户找到其所需要的信息。

非结构化数据的数量十分庞大,想要保证对用户存储的目标进行搜索时能够具有理想的高效性,当前企业与学术领域主要通过文件搜索技术以及网络存储架构这两个角度进行分析与探索,并展开相应的研究。

4 发展与展望

综上所述,想要对数字档案馆进行建设,首先需要通过各个渠道对数字资源进行收集,这也就是当前所研究的非结构化数据的留存与归档的问题,然而在实际之中,需要解决的并不仅仅是以上两个问题,更需要对真实保证以及只是发现等诸多的问题进行解决。

对于以上的两个问题,在当前的产业界与学术界之中均有着一定的研究,作为当前存储行业之中主要的发展趋势,笔者在内容存储的相关内容进行介绍时,应用了更多的笔墨,主要包括对于对象的存储以及内容的管理等等,例如对内容进行检索、对数据进行分类、对信息进行发表等等,可以说,在内容存储之中应用文件搜索技术以及语义文件系统技术,特别是对信息存储之中的核心技术同语义文件系统进行融合,必然能够获得十分理想的效果,得到更加理想的应用,笔者认为,在日后的研究中,也必然会以这一问题作为研究的主方向,提高研究的质量。

摘要:该文以数字档案馆为例,主要研究非结构化数据存储,从其主要特点出发,介绍了非结构化数据存储的现状,进而分析了海量非结构化数据的存储与整合过程中的影响因素以及怎样实现不同方式的整合,最后讨论了如何对海量非结构化数据存储进行有效管理,期望本文的研究能够帮助人们进一步深入地了解海量非结构化数据存储中的相关问题。

关键词:非结构化数据,存储问题,结构化数据,特点,现状

参考文献

[1]黄恒君,漆威.海量半结构化数据采集、存储及分析——基于实时空气质量数据处理的实践[J].统计研究,2014(5):10-16.

[2]景民,胡晓峰,吴琳,等.面向态势回放的两种海量数据采集存储结构分析[J].系统仿真学报,2012(5):989-993.

[3]李国杰,程学旗.人数据研究:未来科技及经济社会发展的重人战略领域—人数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657.

[4]葛文斌,王军鹏,贾乐鹏,等.联合作战模拟系统中事后分析系统军事需求分析[J].装备指挥技术学院学报,2009,20(5):1673-0127.

非结构化数据的ETL设计方法探讨 第7篇

1 ETL技术概述

ETL (Extract-Transform-Load) 技术是数据抽取 (Extract) 、转换 (Transform) 、装载 (Load) 的过程。从其技术概述来看, Extract是对数据的抽取过程, 其作用是从原始数据系统中读取所需要的数据, 是实现数据转换工作的前提;Transform是按照预先设计规则进行相应转换的过程, 其作用是基于异构的数据资源实现对数据格式及定义的统一;Load是对数据仓库进行装载的过程, 其作用是对转换后的数据重新导入到数据仓库中, 以实现对数据资源的有效整合。从国内外ETL技术的发展与应用来看, 主要有IBM Data Stag、Informatics Power Center、Oracle 2ODI, 以及国内开发的Bee Load等产品。在中高端应用上以Data Stage和Power Center居多。ETL技术能够实现对异构数据库中相关数据的挖掘和统计, 并结合数学模型来实现对未来发展进行可靠的预测分析, 为行业决策支持系统提供有效的数据服务功能。

2 ETL技术模型分析

从主流的ETL技术应用来看, 多以元数据为基础, 也就是说满足CWM元数据标准的数据模式。CWM是Common Warehouse Metamodel的简称, 由国际对象管理组织OMG制定的元数据模型标准, 其作用主要是为了能够对异构环境下各数据仓库中的元数据进行交换和共享。其逻辑结构图如下所示:

在ETL系统中, 借助于元数据采集工具来实现对源数据库、主题数据库, 及相关数据抽取、转换、装载等操作, 并依据CWM元模型标准, 存储于元数据库。其执行过程是通过系统调度模块来实现对相应元数据的抽取与整合, 其元数据主要包括三类:一是技术元数据, 如ETL技术对各类源数据库中的数据类型、数据格式、数据序列名等进行描述, 并准确获得源数据库与主题数库之间的变化信息;二是操作元数据, 主要包括对业务用户和数据操作有价值的元数据, 如数据质量、更新计划、访问模式等;三是业务元数据, 主要包括对各业务用户有用的信息, 如数据的所有权及各类业务规则, 数据装载计划等, 其作用能够为用户与数据仓库提供访问的桥梁。

3 ETL数据分析及设计

从CWM元数据模型对ETL系统的逻辑关系来看, 这些元数据具有明确的格式特点、属性及数据关系, 可以通过使用二维表来进行逻辑表达。而对于异构环境下无法用二维逻辑表进行表达的非结构化数据来说, 其相对零散的数据堆积, 不仅存在大量数据冗余和无效信息, 还难以用简单的结构化描述语言进行准确表达。也就是说, 对于非结构化数据, 如视频数据、图像数据、音频数据等信息进行管理和提取时, 迫切需要从ETL技术设计上来进行优化。在对CWM元数据结构进行分析后, ETL系统设计主要是对存储在源数据库中的结构化数据进行抽取、转换和加载, 而对于非结构化数据来说, 其元数据属于技术元数据, 只要处理好技术元数据中的非结构化数据的转换, 使其便于使用CWM元数据驱动ETL系统即可。因此, 对于非结构化数据系统中的操作元数据和业务元数据, 依据常规的数据控制转换模块即可完成对源数据库到主题数据库的装载。

对于结构化数据可以根据数据的属性来建立元数据, 而对于非结构化数据, 则需要从各种数据的隐藏属性进行分析, 并使其能够显现出来。我们从非结构化数据的自有属性进行观察, 主要有时间属性、空间属性、内容属性、格式属性、来源属性、获取手段属性及使用属性等, 通过对原有非结构化数据文件进行重新命名分类, 如结合某应用需要来建立新的文件名, 即单位_科室_总类_分类_具体类型_日期.pdf, 就可以很清晰的反映出某数据文件的来源、分类及时间等信息。Adobe公司的PDF数据压缩包能够实现对数据压缩和转换的功能, 既可以节省存储空间, 还能够实现对数据结构的转换。其组织结构如下图2所示:

利用Adobe PDF数据包来实现对非结构化数据库的转换, 可以依照树形结构来进行显示, 也可以对不同类型的数据文件进行设计, 使其满足对某一非结构化数据进行单独压缩, 也可以对多个非结构化数据进行全面压缩, 其摘要信息可以存放在info.xml文件。利用非结构化数据的转换方法, 可以从其相关属性中来判定数据的摘要及内容, 还可以利用工具软件编制数据索引, 便于日后对相关数据的快速检索, 从而实现了对非结构化数据的CWM的ETL处理, 满足了非结构化数据的整合和管理目标。

4 结束语

文章通过对非结构化数据源的PDF转换压缩的分析, 为更好的挖掘非结构化数据的隐藏属性, 提高对非结构化数据源的准确定位, 并实现了对非结构化数据的整合和管理, 为满足行业应用提供了有效的解决方案。

摘要:现代信息技术在行业中的应用日益深入, 而各系统在开发过程中因其自身的独立性, 在处理相关业务或实现数据管理时, 多需要从异构环境下来进行整合。文章结合当前流行的公共仓库元模型以及ETL技术特点, 针对非结构化数据的差异性, 探讨属性提取和数据打包的有效方法, 为实现非结构化数据的ETL设计奠定基础。

关键词:非结构化数据,CWM元模型,ETL设计

参考文献

[1]万里鹏.非结构化到结构化数据转换的研究与实现[D].西南交通大学, 2013.

[2]周茂伟, 邓苏, 黄宏斌.基于元数据的ETL工具设计与实现[J].科学技术与工程, 2006 (21) .

[3]马晓东.地理信息元数据的管理探讨[J].测绘技术装备, 2009 (02) .

非结构化数据管理平台研究与建设 第8篇

目前,企业数据基本上分为结构化数据和非结构化数据2种类型,且2种数据常常相伴产生。结构化数据是指存储在数据库里,可以用二维表结构来逻辑表达实现的数据;非结构化数据是指那些不方便用数据库二维逻辑表来表现的数据,如通知、文件、规章制度、档案、单据、发展规划、工作报告等,这些资源都是企业员工相互协作的成果,汇集了参与者的辛勤劳动,为提升企业综合效益作出了重要贡献,是宝贵的数字资产,其格式如办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等。

随着各类信息的巨量增长,人们对非结构化数据的需求也在加速发展。在许多领域,非结构化数据正以每年200%的速度快速增长,许多企业被淹没在该类数据的汪洋之中。企业为了对非结构化数据进行管理,消耗了巨大的人力物力。由此可见,对非结构化数据开展安全高效管理,是信息化企业面临的一项重要工作,否则企业就无法实现信息投资的回报。

1 现状分析

电力企业的非结构化数据贯穿于发电、输电、变电、配电、用电和调度所有环节,几乎存在于企业的所有业务应用当中,不仅如此,公司非结构化数据还具有以下特点。

1)数据格式多样化。在业务应用过程中非结构化数据格式呈现出多样化方式,如Word、Excel、PPT、PDF、CEB、TXT、JPEG、压缩文件、Cad图纸等。

2)业务对象多样化。非结构化数据的业务对象包括凭证、公文、发票、报表、技术规范书、标书、设计图、可研估算书、批复文件、生产文档、结算文档、图纸策划等。

3)存储方式多样化。非结构化数据由各个业务应用自行管理,有结构化数据库、FTP、纸质材料等多种存储方式。

4)业务流程多样化。非结构化数据业务流程包括业务系统内流转、人工流转、打印、扫描、复印、上传、下载等。

5)安全课题多样化。目前,非结构化数据在电力企业的各个业务应用中已经实现了初步的安全管控,但对于非结构化数据在线安全、离线安全、数据容灾等方面还需加强和补充。

2 需求分析

1)统一海量存储的需求。国家电网公司SG186工程成功实施后,企业原来的孤岛式的信息分散存储状态以及IT设备分散式的运维状态,已经不能满足SG-ERP一体化平台的要求,迫切需要建立一个统一的海量存储中心,用于存储非结构化数据。同时优化存储结构,建立分级的存储策略,统一运维流程,提高存储资源利用率,以此提升企业信息化运作效率。

2)统一集中管理的需求。通过对企业所有非结构化数据进行统一集中管理,可以提高非结构化数据的利用价值,提高企业对非结构化数据的管控能力。

3)统一版本控制的需求。针对非结构化数据的管理,需要根据企业自身的实际情况,建立企业非结构化数据的统一版本。一份非结构化数据在企业只存储一份,非结构数据管理平台负责对所有的非结构化数据版本进行统一控制。因此,非结构化数据在传递过程中,不再是传统意义上的单纯数据传递,而是版本信息的传递,这样既提高了企业的办公效率,提高了部门的沟通效率,也减少了数据在传递中的无谓存储,提高了存储及带宽的利用率。

3)统一安全管控的需求。对存储在非结构化数据管理平台中的数据,保证其在时间和空间上全方位安全是目前企业各业务应用的迫切需求。根据电力企业对数据安全等级的管理要求,对各种不同的内容按不同处理方式进行加密;建立统一的访问授权机制,对内容的访问进行统一的访问授权,同时保证对终端用户机上离线内容的打开次数、复制权限、打印等进行离线安全管控;通过完整的内容审计,对内容访问、借阅等过程进行全程监控;提供高效的备份还原机制,确保内容的安全。

4)全生命周期管理的需求。在统一海量存储、统一版本和统一权限管理的基础上,结合工作流技术,根据业务的需求,实现非结构化数据内容的全生命周期管理,实现数据在部门间的电子化无缝传输,对数据从创建、申请、审核、生效、下发及销毁等过程进行自动控制,实现使用者的自动化推送,提高企业的工作效率及企业各部门间的沟通效率。

5)数据深加工和决策支持需求。为实现SG-ERP“平台集中、业务融合、智能决策、安全防护”的目标,需要对非结构化数据进行集中存储,为数据深加工奠定基础。利用文本分析、加工挖掘和信息抽取等技术手段,分析非结构化数据间的关联性等,提供该类数据的全文检索和决策支持服务。

3 平台架构

根据企业对非结构化数据管理平台的需求,充分挖掘和准确利用面向服务架构的技术特性,设计出基于SOA的非结构化数据管理平台总体架构(见图1)。

非结构化数据管理平台的技术架构采用J2EE技术、关系数据库(RDB)以及内容管理系统(文档数据库、开发技术)相结合的架构形式,该技术架构存在以下优势。

1)方便实现集中部署模式。通过Documentum强大的内容管理功能可方便实现从上级机构到下属单位非结构化数据版本的统一,无需进行重新开发,有利于对已投入资金的保护以及各单位之间的互联互通、资源共享,在安全性、高负载、可移植性方面都有保障。

2)系统的体系架构全面支持B/S模式及多层体系架构,帮助企业实现多种业务系统的集成。

3)统一应用平台采用了广泛应用的成熟技术,大大降低了平台的建设风险。

4)充分利用了关系数据库擅长结构化数据处理、文档数据库擅长非结构化数据处理的技术优势,提升了各类数据的存储、检索能力。

5)无论是J2EE平台或Documentum平台,都可支持多种操作系统。

6)利用已经被验证的全球领先的Documentum平台,能最大程度地保障系统海量存储的稳定性。Documentum平台具有优秀的安全控制体系,可以有效地保证系统和数据安全,提供Web Services服务,便于应用集成。遵循J2EE标准,保证系统的灵活性、可用性、可集成性、可扩展性和可伸缩性。

4 功能应用

非结构化数据管理平台主要包括平台管理、应用管理、运行监控、集成管理、统计报表五大功能模块。

1)平台管理。通过平台管理模块可以实现对系统参数的配置,对非结构化数据涉及到的文件类型进行管理,对描述非结构化数据的属性公共元数据进行统一管理,对不同用户角色的菜单进行配置,对用户的身份进行统一管理。

2)应用管理。该模块可以对库进行管理(库是文档管理的基础单位,一个库具备单独部署及运行的能力),对文件夹进行管理,并将文件进行有效的归类,提高文件的查找、检索效率。不同的业务对象可以具有不同的元数据属性,通过灵活的业务元数据管理与应用接入配置管理。非结构化数据管理平台可以适应不同业务系统的不同业务流程的接入。

3)运行监控。该模块可以对平台服务器的各项指标进行监控,及时了解服务器的运行情况,对接入的业务系统的非结构化数据进行监控,及时了解业务系统的使用情况;通过系统操作日志、审计配置管理以及各类运行实况的监控、告警管理,及时了解平台运行情况,为平台的稳定运行提供保障。

4)集成管理。该模块可以对接入平台的应用系统进行集成管理,只有注册并启用的应用系统才能访问平台。因此,可以对统一目录同步过来的目录数据及平台的用户数据、角色数据进行管理。

5)统计报表。统计报表模块可展示各个应用系统的总体运行情况,各单位可对不同的运行数据进行比较,根据时间段统计平台某个指标及各个应用系统某个指标的情况。

5 实现目标

根据目前企业非结构化数据的现状及需求分析,建设非结构化数据管理平台将按照以下3个阶段的目标分步完成。

1)第1阶段(集中化管理阶段):实现非结构化数据集中化管理,制定统一标准,完成平台部署,初步确定数据利用范围,构建基本服务框架。主要工作内容包括:完成非结构化数据管理平台研发,部署统一的非结构化数据管理平台,实现包括核心业务系统在内的近20个业务应用系统的接入及数据迁移等工作,达到对各业务应用系统上传的所有非结构化数据进行集中存储、流转、管理以及综合应用的目标。

2)第2阶段(业务融合阶段):实现各业务应用非结构化数据融合及全面集中管理,初步实现业务融合、数据加工挖掘,深化数据服务内容。主要工作内容包括:完成平台的深化研究开发,实现所有业务应用系统的接入及数据迁移,进行非结构化数据资源梳理,达到非结构化数据全生命周期管理和综合利用,确保非结构化数据全方位安全。

3)第3阶段(决策支持阶段):提供非结构化数据高级应用服务、业务深度融合、智能决策支持及离线数据安全,最终将非结构化数据管理平台建设成为企业信息化的基础设施。主要工作内容包括:进一步完成非结构化数据管理平台的深化研究及高级应用开发,提高智能电网建设中各项业务产生的大量文件档案、规章制度、工程图纸、合同票据、统计报表等各类非结构化数据的集约化管理水平,实现非结构化数据的规范化、流程化、自动化,从而提高企业生产效率,充分实现企业信息价值,全面服务国家电网公司“三集五大”战略,为智能分析与决策支持提供支撑。

根据以上3个阶段的目标建设内容,集中化管理阶段是业务融合阶段和决策支持阶段的基础,而业务融合阶段和决策支持阶段须在集中化管理阶段完成后,由平台和业务系统协同进行,共同开展。

6 结语

开展非结构化数据管理平台的技术研究与建设,有利于在国家电网公司范围内建立统一的非结构化数据管理标准,将分散在各个系统中的公司非结构化数据进行集中存储和有效整合,逐步消除数据孤岛,促进业务流程规范融合及运营管理高效协同,将非结构化数据贯穿企业的日常生产、经营、管理和决策全过程,集中体现了国家电网公司信息化建设的整体工作思路。

参考文献

[1]国家电网信息[2011]721号,国家电网公司非结构化数据管理平台典型设计:试行[Z].北京:国家电网公司,2011.

[2]CSDN中文社区.非结构化数据“飞”入云中企业如何应对[EB/OL].http://cloud.csdn.net/a/20110805/302706.html.

[3]崔淑琴,李艇,蔡超.企业文档管理[M].广州:暨南大学出版社,2010.

[4]Rod J.Expert One-on-One J2EE Designand Development[M].Indianapolis:WROXPR/PEER INFORMATION INC,2002.

[5]张德政,张萍萍.非结构化信息管理[J].微计算机信息,2006,22(9):218-219.ZHANG De-zheng,ZHANG Ping-ping.Themanagement of unstructured information[J].Micro-Computer Information,2006,22(9):218-219.

[6]文龙.XML与非结构化数据管理[J].电脑知识与技术,2009,5(6):1306-1308.WEN Long.XML and the management ofthe unstructured data[J].ComputerKnowledge and Technology,2009,5(6):1306-1308.

非结构化大数据 第9篇

关键词:非结构化数据,数据整合,数据管理,存储架构,内容管理

电力企业信息数据一般分为两种:一种是数字的或能用统一的结构来表示的数据, 如存储在数据库中的数据, 这些数据基本上是以数据块 (Block) 的形式呈现, 称之为结构化数据;另一种是相对于结构化数据而言, 无法用数字或统一的结构来表示的数据, 如办公文档、图片、各类报表、图像和音频/视频等信息, 它们大多以文件 (File) 的形式保存, 称之为非结构化数据。

随着电力企业电子政务、协同办公、网络媒体等信息化应用的快速发展, 在整个信息资源的开发、建设、利用和管理中, 非结构化信息资源相关应用在企业运营工作中越来越重要, 企业中的非结构化数据已经超过了信息总量的80%, 并且以每年200%的速度激增, 但是这些数据往往散落在各个信息系统中, 无法统一管理, 造成严重的信息资源浪费。

1 非结构化数据的主要特点

信息增长速度快:结构化数据一般以Byte为量级逐条递增, 而非结构化数据往往至少以MB为量级增长, 因此非结构化数据要求存储设备应具备大的存储空间与方便灵活的扩展性能。

信息存储容量大:非结构化数据一般单个文件规模较大, 达到几百MB至GB的级别, 并且一般情况下要求保存周期较长, 存储信息的度量单位也由GB向TB、PB转变, 数据总量将达到海量规模。

信息格式、标准多样化:随着电子政务、协同办公等信息化应用的不断深入, 企业信息包含办公文档、文本、声音、图像、影视等多种非结构化媒体形式, 数据类型复杂, 信息标准不统一。

分布于异构系统:非结构化数据产生的渠道广泛, 并且由于非结构化数据量大且格式多样化, 所以极少进行深度信息加工, 而是散落分布于各自的异构信息系统中, 缺乏统一管理。

2 电力企业的非结构化数据存储和管理现状分析

在非结构化数据存储方面, 当前电力企业的存储方式主要有两种:一种是以二进制的格式直接存储在结构化数据库的BLOB字段中, 如大部分信息系统中的报告、报表、图片等;另一种常用的存储方式是通过文件系统直接存储在文件服务器中, 如大部分信息系统之外的工具软件、文档资料等。

在非结构化数据管理方面, 存储在数据库中的非结构化数据, 由数据库进行统一管理, 并通过信息系统平台实现信息的检索和展现, 好处是文件调用速度快, 维护和管理简单, 但由于非结构化数据文件大, 数据量增长快, 导致数据库性能下降;传统的文件系统基于目录和文件的层次型结构, 因而不能提供高层的、基于语义的关联式数据存取;另外, 常见的还有企业网站信息通过企业内容管理 (EMC) 平台实现信息共享与管理。

总之, 非结构化数据不论采用何种存储和管理方式, 由于各信息系统相对封闭和独立, 都无法实现相关文档资料的共享和统一管理。

3 电力企业信息化应用现状及客观发展需求

电力企业已建成了各级单位纵向贯通的基础信息网络, 实现了主要信息系统到各级单位的全面推广应用, 信息化已渗透到各个管理领域和各项业务环节, 不断推动企业管理模式由壁垒转向协同、由分散转向集中、由孤岛转向共享, 有效促进了企业的科学发展。

随着企业的快速发展, 企业管理模式不断创新, 企业业务流程不断重组再造, 业务应用之间需进一步按照业务价值链进行深度集成, 需进一步强化任务协同和工作的计划性, 以大幅提升企业经营管理水平和分析决策能力。而当前对于企业意义越来越重要的非结构化数据大部分散落在各个信息系统中, 系统之间缺少横向集成和数据共享, 已经难以满足现代企业发展的要求。随着信息化在各个领域应用的不断深入, 信息系统数量和数据量都在不断增加, 非结构化数据量增长尤为迅速。

因此, 电力企业必须关注非结构化数据的存储整合, 强化非结构化数据管理, 深化信息业务集成, 深入挖掘非结构化数据的信息价值, 充分保护和利用企业的宝贵信息资源, 不论从企业发展的角度还是从节约资金成本的角度都将具有重要意义。

4 存储整合是非结构化数据信息挖掘基础

非结构化数据基于自身特点对信息存储系统提出了更高需求, 包括存储容量、访问性能、传输性能、管理能力、存储扩展能力等诸多方面。由于传统的基于块的SAN和基于文件的NAS网络存储不能同时满足高性能和数据共享的需求, 势必大大促进基于对象存储的新兴网络存储技术的发展, 当前应用较多的新兴存储技术主要有以下几种:

集群存储:是将多台存储设备的存储空间聚合成一个能够给应用服务器提供统一访问接口和管理界面的存储池, 应用可以通过访问接口透明地访问和利用所有存储设备上的磁盘。集群存储是基于文件系统的, 像NAS系统一样易于构建、操作和扩展, 而没有传统NAS系统的固有瓶颈, HP、IBM、Net App、Isilon等存储厂商都推出了集群存储领域的产品。

虚拟存储:指将多个不同类型、独立存在的存储设备, 通过软、硬件技术, 集成转化为一个逻辑上的虚拟存储单元, 集中管理供用户统一使用。虚拟存储提供了一个大容量存储系统集中管理的手段, 由网络中的一个环节 (如服务器) 进行统一管理, 方便了存储设备扩充和管理, 实现了多个存储模块之间的负载平衡, 提高了系统访问带宽, 同时具有良好的兼容性和扩展性。IBM、HDS、EMC等都存储厂商提出了各自的虚拟存储方案。

云存储:云存储技术应用近几年来逐渐崭露头角, 云存储可以实现存储完全虚拟化, 大大简化应用环节, 节省客户建设成本, 同时提供更强的存储和共享功能。云状存储中所有设备对使用者完全透明, 任何地方任何被授权用户都可以通过一根接入线与云存储连接, 进行空间与数据访问。业内厂商已经成功产品化这种理想的存储模式, 以满足不同的应用需求。

5 有效管理是非结构化数据信息应用关键

非结构化数据的存储整合解决了存储和归档问题, 但不能满足对非结构化数据统一的内容管理和检索需求。非结构化数据管理目的是实现对分散应用系统平台环境的有效管理, 把电力企业分散的各级单位和部门的数据, 通过系统集成使其相互关联, 实现对企业信息的有效挖掘和利用。

实现对电力企业非结构化数据的有效管理, 首先, 应基于有效的非结构化数据整合, 依托技术平台实现对多种数据源 (包括结构化数据和非结构化数据) 的管理, 如ERP系统、Lotus Notes、数据库、文字处理和表格文件等, 通过从后台系统 (如数据库、ERP等) 抽取业务信息、建立索引并映射到基于企业Intranet的内容, 实现数据集成和应用集成;另外, 还应搭建企业更深层次的知识管理体系, 通过信息的采集与分类, 为企业和员工提供所需主题、类别的相关信息, 实现信息个性化、信息提示、信息检索等对信息利用的高级功能。

企业内容管理 (EMC) 正是为满足企业的发展需要, 而不断完善和扩展自身功能, 实现在企业范围对信息内容的捕获、管理、存储、保护、发布, 并将其集成到ERP、CRM等结构化数据的信息系统中。企业内容管理已经突破了传统的网站内容管理的概念和范畴, 从“特殊应用管理内容”到“特定领域的内容管理系统”发展成现在的“通用企业内容管理平台”了, 其功能、技术更加复杂, 支持企业有序管理、挖掘非结构化数据的信息价值。

当今主流的企业内容管理平台主要有IBM DB2内容管理解决方案、Interwoven公司Interwoven 6内容管理平台、微软的Content Management Server系统以及TRS内容管理解决方案, 作为当今的主流企业内容管理平台技术, 各公司的产品各有千秋, 也在不同行业和单位有所应用。

6 结语

随着电子政务、协同办公、网络媒体等信息化应用的快速发展, 非结构化信息资源相关应用的地位日趋重要。有效利用海量的文档信息, 构建信息共享平台, 将信息数据转换为业务动力, 以提升企业竞争力, 是电力企业开展信息化建设和应用的最终目的。充分利用现有资源, 减少运营成本, 实现非结构化数据存储的有效整合与管理, 有效保护企业信息财富, 充分挖掘信息价值, 成为IT管理者需要面对的新一轮信息化工作重点。

虽然面对当前电力企业的快速发展需求, 我们谈及了非结化数据整合、内容管理的必要性和主流技术方案, 但企业级存储技术 (如云存储) 、内容管理技术目前还不是很成熟。对于结构化数据的存储和管理已经历了数年发展, 技术已经相对成熟, 而非结构化数据的复杂程度远远高于结构化数据, 目前的技术现状还暂时难以满足企业的发展需求。因此, 电力企业在今后的信息化建设与应用中, 还应充分结合企业信息化现状和发展需求, 逐步探索自己的非结构化数据整合和管理模式, , 既要挖掘和利用企业的宝贵信息资源, 又要有效保障信息安全, 同时避免资源浪费。

参考文献

[1]张志刚.海量非结构化数据问题初探[J].中国档案, 2009 (08) .

上一篇:吉林省语文选修课下一篇:双师素质队伍