数据挖掘技术探讨论文范文

2023-09-16

数据挖掘技术探讨论文范文第1篇

摘 要:当前,随着教育的普及,高校的教育质量也在不断上升。对于很多高校来说,科研是必不可少的,很多导师基本上都有科研项目,因此,对于高校来说,需要具备完善的科研管理系统,方便科研管理者的工作,更为从事科研工作的导师打好坚实的基础。科技的进步为高校科研项目带来了很多便利,在科研项目进行的过程中,产生数据与记录是不可避免的,有的科研项目甚至会产生庞大的数据量,所以,随着科研项目的进行,其科研信息数据库中的历史数据也会越来越多。但是教师往往需要对一些有用的数据进行提取,或者是找到众多数据的规律等,而一些传统的方法已经不能满足科研工作者对数据处理的需求,因此,高校需要在科研管理系统中引进计算机数据挖掘技术。数据挖掘技术是专门对数据进行处理的一种技术,即使面对非常庞大的量的数据,它也可以从数据库中提取中有价值的规律,方便高校科研系统管理者和科研工作者的工作。该文就高校科研管理系统中计算机数据挖掘技术的运用进行分析与探讨。

关键词:高校科研管理系统 计算机 数据挖掘技术 运用

1 数据挖掘的概述

数据挖掘不是一个简单的学科,它包含可很多个领域的知识,目前,对数据挖掘的定义并不是完整的,就数据挖掘涉及到的相关知识来说,就有数据库、数据统计、人工智能化、机器应用与学习等,从这个角度来说,数据挖掘技术包含的知识点比较复杂。但是当前很多学者对数据库有一个比较普遍的概念,就是从一些大量的、不完整的、模糊的、随机的数据中,提取一些有用的信息,但是这些信息并不是显而易见的,而是隐含在其中,人们之前不知道的一些有用信息或者是知识的一个过程,这就是数据挖掘。从另一个角度分析,数据挖掘就是采用某些数据分析工具,来观测一些有价值的或者是被忽略的信息。

目前,数据挖掘主要可以分为两类:预言性数据挖掘以及描述性数据挖掘。预言性数据挖掘就是采用相关模型对一些数据进行预测,在进行预言性数据挖掘的时候常常采用分类的方法,也就是说对数据库中的数据进行分类,以区分数据的类别,进而得知一些未知数据的类别,通过这个方法可以得知某些未知数据的某些性质。描述性数据挖掘是采用概述的方式,对一些数据信息进行描述,然后从描述中得知数据的一些性质。要进行数据挖掘,就需要运用数据挖掘技术,当前使用的最多的技术就是关联规则方法,除此之外,还有分类分析、聚类分析等技术模式,这些技术模式在数据挖掘的发展中非常重要。

2 高校科研管理的重要性

随着教育的普及,各大高校之间的竞争也越来越激烈,高校如果要在其中脱颖而出,就需要不断的促进其自身实力的提升。对于高校来说,其科研管理系统对其发展非常重要,因此,高校在发展的过程中,需要不断提升其科研水平。要想培养高素质的人才,高校需要保证其教学质量,科研在一定程度上可以有效促进高校教学质量的提升。提升科研水平的前提是保证科研管理质量,在进行科研项目的过程中,如果其管理出现问题,那么科研项目的质量与水平都会降低。高质量的科研管理可以提升科研工作者的积极性,帮助高校科研建设项目更好的实施。

3 高校科研管理的现状

随着科技的不断进步,很多领域的管理已经开始往智能化的方向发展,但是,当前很多高校由于对科研管理的重视度不够,导致在管理水平与技术停滞不前,在进行科研管理中的统计工作时,仍然采用人工的工作方式。在对学校各院系导师的科研成果进行统计的时候,一般都是由科研管理人员到各个院系进行登记与整理,将导师的科研项目、发表的论文以及获奖等情况一一登记好,然后再录入到电脑管理系统中进行统一的汇总,这种收集资料的方式效率是非常低的,而且当有导师在外出差的时候,很容易将某些导师的研究项目、研究成果等漏掉,导致数据不完整等现象。而且管理人员往往就是将收集到的资料进行简单的整理与分析,由于其水平的限制,他们只能对收集到的数据进行简单的处理,并不能有针对性的对高校的科研水平与成果进行规范化的处理,得到的数据处理结果往往没有权威性与借鉴性。

其次,高校在进行科研管理的过程中,缺乏针对性的与科研相关的软件,每个高校的发展特点都是不同的,在进行科研管理的时候,学校应该根据自身发展的实际情况,选择科学、合理的科研量化软件,以做到对科研数据统计的科学化与正规化。人工录入数据的工作方式对与科研系统管理者来说,其工作强度是非常大的,而且在人工操作的过程中,出现错误是不可避免的。这些都是目前高校在科研管理中存在的问题,为了促进高校科研管理质量的提升,高校一定要引起高度重视,结合自身发展的实际情况,借助高科技技术,在科研管理系统中采用数据挖掘技术,提高科研管理质量。

4 数据挖掘的主要技术

数据挖掘并不是单纯的使用数据库技术就可以实现,它需要将人工智能与数据库技术结合起来,其中有很多方法都需要通过对机器的学习才能掌握好,在人工智能领域中经常会用到的一些技术都是数据挖掘的基础。在高校科研管理系统中运用的数据挖掘技术并不是固定的一种,根据科研管理系统的不同,进行数据挖掘操作时需要采用不同的技术与方法,一般来说,比较常见的有以下几种:

第一,统计分析法;数据挖掘中往往都需要对数据进行统计,然后从中提取中有用的数据,因此,很多数据挖掘工具都需要以统计分析方法为基础,是计算机数据挖掘技术中应用的最为广泛的一种;第二,人工神经网络法;这种方法是软计算中的一种重要方法,在学习的时候可以采用两种模式:管理模式与非管理模式,不同的管理模式在数据挖掘过程中适用的范围也是不一样的。一般来说,管理模式往往是对现有示例进行预测,将预测结果与标准答案进行对比,然后得出错误的数据;而非管理模式是对数据进行描述,一般不用于对结果的预测。在实际运用中,需要根据管理系统的不同需求选择不同的方法,以保证数据挖掘质量;第三,关联规则法;关联规则是运用数据挖掘技术来发现数据库中存在的一类重要的、可被发现的知识,并且发现的这个知识存在一定的价值。例如:“尿布与啤酒”的故事,这是在美国沃尔玛连锁超市发生的真实事件,沃尔玛拥有巨大的数据库系统,对数据库的数据进行挖掘后,沃尔玛惊奇的发现人们购买尿片的同时,购买最多的商品是啤酒。后來经过大量的调查与分析,发现这个结果是事实。如果不采用计算机数据挖掘技术,沃尔玛超市是很那发现这个现象的。除此之外,数据挖掘技术还包括:计划计算法、事例推理法等,在具体运用中,需要结合数据的特点,做出合理选择,进而提升数据挖掘技术的使用效果。下图为一般计算机挖掘技术运行的流程图,通过对数据库中数据的一系列的分析与挖掘,一些被隐藏在数据中的知识就可以显现出来。

5 数据挖掘技术在高校科研管理系统中运用的必要性

当前,随着科技的不断进步,高校科研管理系统也在不断完善中,但是一些高校的科研管理系统缺乏对数据分析功能,也有的学校已经具备这种功能,但是其在对数据的处理与分析上还是存在一些不足。有的管理人员掌握的数据处理技术过于表面,只能简单的對科研项目、导师发表的论文数量等进行统计,不能分析出所得数据所反映出的问题,也很少将数据库中的信息与相关部门共享,导致学校在科研管理上存在诸多问题。科研是一门很深的学问,通过科研项目得出的数据,很多都有其独特的含义,不同数据表达的含义也不同,当导师需要对某个项目进行一定改动或者根据某些数据信息得到相关结论时,简单的对数据进行处理得出的信息可能不能作为理论依据,也就是说经简单处理的数据其辅助策略功能是非常薄弱的,有的甚至不存在。虽然一些高校科研系统管理者已经意识到了计算机技术、网络技术的便利与强大,他们之中有的也掌握了比较全面的管理技术,精通管理功能,但是本身数据分析能力却非常弱,对科研管理系统的运行没有实质性的帮助。因此,在高校科研管理系统中,必须要科学、合理的运用数据挖掘技术,通过数据挖掘,为科研工作者找出数据库中有价值的信息,可以有效促进管理者对科研管理系统进行客观、正确、全面的管理。

6 数据挖掘技术在高校科研工作分析中的应用

对于教师来说,科研工作与教学工作应该是相辅相成的,教师在平常的工作中,要将这两者科学、合理的协调好,这样才能在保证科研质量的前提下,有效提升教学质量。

数据挖掘技术在高校科研工作分析的应用的项目比较多,比如对数据的整理,很多专业的科研结论需要大量数据的支持,随着科研项目周期的增长,产生数据的量也会越来越大,通过数据挖掘在数据库中选取有效数据,将数据严格按照处理标准进行处理,然后得出一些有效信息,作为项目结论的有力依据;其次,数据转换也是科研项目中经常会出现的,也就是数据变换,科研项目中的数据有的时候并不就是一个简单的数字,利用数据转换可以将数据值转换成某些概念,例如:可信度、支持度等,然后利用关联规则对数据进行处理,得出相关信息。另外,数据挖掘技术可以通过对数据库中数据的挖掘做出结果表达,根据管理者制定的标准,可以对科研工作者的科研量进行统计与归类,进行总结出教会的科研工作量,作为判断教师有没有将精力放在科研实践上去,如果出现科研量超出标准的导师,也可以合理对其进行调整,要保证其在进行科研的同时不耽误其教学。

7 结语

综上所述,高校在科研管理中还存在比较多的不足,要结合科技的发展,将计算机数据挖掘技术良好的运用到科研管理系统中,以促进高校科研管理质量的提升。

参考文献

[1] 魏一搏.浅谈数据挖掘在高校科研业务管理系统中的应用[J].信息系统工程,2010(4):37-38.

[2] 郭卜铭,吕渭济.高校科研管理中的数据挖掘技术及应用[J].科技和产业,2007(6):38-40.

[3] 刘华,胡运全.数据挖掘技术在高校管理信息系统中的应用[J].亚太教育,2016(13):199.

[4] 王利.数据挖掘技术在高校管理中的应用[J].福建电脑,2005(6):48-49.

[5] 李庆梅.数据挖掘技术在学生信息管理系统中应用研究[J].电脑知识与技术,2014(1x):241-243.

[6] 刘涛.基于数据挖掘技术的毕业生信息管理系统的研究与开发[J].数字技术与应用,2016(4):160-161.

数据挖掘技术探讨论文范文第2篇

[摘 要] 因能从海量数据中发现潜在的、有价值的知识,数据挖掘成为人们非常感兴趣的热点技术。水利工程管理面临的是海量的非空间数据和空间数据,对这些数据的挖掘,能够提炼出有价值的知识,从而提高水利工程管理的科学化水平和决策水平。在水利工程管理中利用空间数据挖掘技术,需要解决数据仓库建设、数据挖掘与GIS集成和数据挖掘系统模型等3个方面的关键问题。数据仓库是建设水利工程数据挖掘系统的基础。数据挖掘与GIS集成的方式有嵌入式、松散耦合式、紧密耦合式3种,紧密耦合式是两者集成的最好方式。水利工程系统的数据挖掘适合采用基于OLAP和OLAM的探查性数据挖掘模型。

[关键词] 空间数据挖掘;水利工程;数据挖掘模型;地理信息系统;数据仓库

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2010 . 04 . 027

1引 言

我国长期以来兴建了一大批水利工程,初步形成了具有防洪、排涝、灌溉、供水、发电、养殖、种植、旅游等功能要素的水利工程体系,为国民经济的高速发展发挥了巨大的基础作用和支撑作用[1]。在水利工程建设取得辉煌成就的同时,人们逐渐意识到我们在水利工程的管理上还存在着手段比较落后,重建轻管、水利资源利用率低等突出问题,致使一大批水利工程不能发挥其价值,或者工程寿命大大缩短[1,2]。穆范椭 等分别从制度管理、机制管理、人力资源管理等几个方面对水利工程管理中存在的问题进行了论述,并提出了不少可行性的解决措施[3]。不可否认,水利工程管理中出现的问题,不少是制度上的问题,但水利工程管理有其特殊性、复杂性,需要广博的知识和高超的技术,单纯靠“软管理”是不能从根本上解决问题的,必须借助一些现代化的信息手段来辅助进行决策和管理,才能够更好、更科学地解决问题。

近年来,在水利工程信息化的过程中,我国建设了一大批水利工程管理信息系统,对于水利工程的建设和运行管理起到了很好的帮助作用。但是,这些系统所提供的功能大多是业务型的,很少面向管理决策。随着水利工程管理向现代化纵深发展,这些系统远远满足不了人们的需要。另一方面,水利工程管理信息系统在发展过程中积累了海量的数据,不少是空间类型的数据,而且这些数据还在不断地增长,而相比于数据的生产、运输和累积能力,人类对空间数据的分析能力还很落后[4] 。人们虽然深知这些海量数据中蕴含了很多有价值的知识,但是不知道如何利用它们,而依靠传统的信息系统是解决不了这些问题的。数据挖掘技术的出现为这些问题的解决带来了可能。所谓数据挖掘,就是从海量数据中发现潜在的、有价值的知识的过程。传统的数据挖掘技术和方法一般作用于非空间数据,而水利工程管理方面的数据不但有非空间数据,还有大量的空间数据。和非空间数据相比,空间数据除了具备非空间数据的特征外,还有拓扑、方位和距离等非空间特征,因此其挖掘技术的实现有其特殊性。在武汉大学李德仁院士首次提出空间数据挖掘这一概念后,国内外不少学者为此开展了广泛的研究[5-7]。

2 空间数据挖掘在水利工程管理中应用需要解决的主要问题

水利工程管理信息系统中存在着大量的空间数据,因此需要采用空间数据挖掘技术。和一般的空间数据挖掘系统相比,对水利工程数据的挖掘需要考虑其历史发展因素和特殊性。首先,水利工程是一个系统工程,其有效管理往往需要多领域、多部门的专家相互协作,一项重要决策的做出往往需要对历史数据从各种维度进行分析,反复考虑各种因素,综合各个专家的意见才能形成,而不同的专家和决策者会从不同的角度来分析数据,因此对水利工程数据的挖掘需要交互探查或查询驱动的方法,在技术实现上需要采用数据仓库和数据立方体支持这种探查式的、快速的联机查询和分析。其次,在用的水利工程信息系统的主体是GIS(Geographical Information System,地理信息系统),大部分的空间数据是由GIS系统生成的,空间数据的查询、计算、分析和可视化显示是一种复杂的技术,因此如何利用原有的GIS系统中的数据,数据挖掘如何和GIS集成以进行复杂的空间数据处理成为一个需要解决的重要问题[8,9]。最后,要实现水利工程的数据挖掘,需要建立一个数据挖掘系统模型,模型在系统工程的研究、设计和实现中是一个非常重要的问题,一个好的模型对了解系统本质特征、揭示系统的规律起到非常重要的作用,建模也是实现一个工程系统的重要一步。因此,要想实现空间数据挖掘技术在水利工程管理中的应用,这3个问题是我们不可回避的、必须研究的核心问题。

3 空间数据仓库

水利工程信息化的过程中产生了海量的数据,而数据仓库是处理海量数据的关键技术,它可以将不同来源的数据统一到语义上一致的环境下。在水利工程信息系统中除了有丰富的非空间数据外,还有大量的空间数据,如地图、预处理过的遥感图像、视频等。空间数据与非空间数据相比,除了具备传统数据库数据的特征外,还携带了空间特征,如拓扑、方位、距离等。“空间数据仓库是面向主题的、集成的、时变的和非易失性的非空间数据和空间数据的集合”,用于支持空间数据挖掘和与空间数据相关的决策过程。建立空间数据仓库是一个具有挑战性的工作,需要解决两个方面的问题:集成来自异构数据源和系统的空间数据;如何在空间数据仓库中实现快速而灵活的联机分析处理[10]。

影响水利工程建设和管理决策的数据来源是丰富多样的,如气象数据库、蓄滞洪区空间分布式社会经济数据库、雨情和水情数据库、水旱灾情数据库等,它们往往存在于异构的环境中,可能来自于不同的系统,数据格式多种多样。数据格式不仅与特定的结构有关,如光栅格式和矢量格式,而且与特定的厂家有关。为了能够进行空间数据的分析和处理,需要首先对这些异构的数据进行清洗、变换和集成,以清晰一致的格式存放在数据仓库中,然后可以调用相应的数据挖掘算法获取有用的知识。空间数据仓库已成为联机数据分析处理和数据挖掘必不可缺的平台。利用空间数据仓库技术,可以对异构的各类信息进行过滤、集中和综合,完成水情信息采集、工情信息采集、防汛抗旱信息等水利工程信息的自动接收、处理等功能,在此基础上可以进行汛情分析、暴雨洪水预报、调度、灾情评估以及旱情预测等知识发现功能[11]。

空间数据仓库、OLAP(On-Line Analytic Process,联机分析处理)和OLAM(On-Line Analytic Mining,联机分析挖掘)的实现基于多维数据模型,这种模型围绕中心主题组织数据,将数据看作数据立方体的形式。数据立方体允许从多维对数据建模和观察,它由维和事实来定义。数据仓库有星型模式、雪花型模式或事实星座型模式。在这3种结构中,星型模式提供了简洁而有组织的仓库结构,便于进行OLAP和OLAM操作,所以是空间数据仓库建模的好选择。相比于传统的数据立方体,空间数据立方体中存在3种类型的维:非空间维、空间到非空间维和空间到空间维;有两种不同的度量:数值度量和空间度量[10] 。

4水利工程GIS系统与数据挖掘系统结合的方式

水利工程的建设和管理与其所在地的地形、地质、社会、经济以及河流的水文等空间要素有关,而GIS善于处理和分析空间信息,因此大多水利工程在信息系统中采用了GIS技术[12]。GIS是空间数据库发展的主体[13]。GIS中含有大量的空间和属性数据,有着比一般关系数据库和事务数据库更加丰富和复杂的语义信息,隐藏着丰富的知识。空间数据挖掘和知识发现技术,一方面可使GIS查询和分析技术提高到发现知识的新阶段,另一方面从中发现的知识可构成知识库用于建立智能化的GIS系统,同时也将促进3S(GIS/RS/GPS)的智能化集成[13],因此很有必要探讨GIS系统与数据挖掘系统的结合方式。当数据挖掘系统工作在一个需要与其他信息系统成分通信的环境下,可以采用不耦合、松散耦合、半紧密耦合和紧密耦合4种方案。不耦合方案虽然简单,但缺点不少,是一种非常糟糕的设计[10]。雷宝龙和李春梅提出了GIS与空间数据挖掘集成的3种模式:松散耦合式、嵌入式和混合型空间模型法[8,14]。在此基础上对上述3种模式进行了改进,以适合于水利工程GIS系统和空间数据挖掘系统的集成。

4.1 嵌入式

嵌入式是将数据挖掘系统融入到GIS中,也就是说系统既是一个GIS系统,又是一个数据挖掘系统。嵌入式的优点是可以充分利用GIS系统所提供的空间数据处理和分析功能来开发数据挖掘系统,减少了开发的工作量,降低了开发的难度;其缺点是数据挖掘功能被限制在特定的GIS系统中,难以移植到其他的GIS系统上,而且这种方式会因为考虑到一种用户的需求,而限制另一部分用户的需求,从而使系统功能的开发受到限制。图1是嵌入式模型的示意图。

4.2松散耦合式

在松散耦合式下,数据挖掘系统和GIS系统实际上是两个独立的系统,数据挖掘系统从GIS中获取空间数据和属性数据,经过清洗、过滤和变换后存入自身的数据库或数据仓库中,数据挖掘所进行的其他工作与GIS系统没有任何联系。这种模式的优点是数据挖掘系统不依赖于特殊的GIS系统,可以开发出独立的、相对通用的空间数据挖掘系统;缺点是在数据挖掘系统中要融入复杂的空间数据的处理,系统开发的难度很高。图2是松散耦合式模型的示意图。

4.3 紧密耦合式

紧密耦合式克服了嵌入式和松散耦合式的缺点,既充分利用了原有GIS的处理空间数据的强大功能,降低了开发的难度,又不受制于原有GIS系统的用户需求的制约,具有较大的灵活性,提供了相对独立的数据挖掘功能。其缺点是和原来系统联系密切,开发的数据挖掘系统往往依赖于GIS系统。图3是紧密耦合式模型的示意图。

在这3种结合方式中,紧密耦合式有着明显的优点,是建立水利工程数据挖掘系统优先考虑的方式。

5水利工程数据挖掘系统模型

文献[4]介绍了国外几个相对比较成熟的空间数据挖掘系统:GeoMiner、MultiMediaMiner、SKICAT等,然后提出了作者领导的空间数据挖掘团队研究和开发的两种空间数据挖掘原形系统GISDBMiner和RSImageMiner,并提出了GIS空间数据挖掘系统的体系结构。文献[8]介绍了现有的数据挖掘模型:OLAM 模型和影响域模型,以及GeoMiner原型系统的体系结构,最后提出了一个基于空间立方体的数据挖掘模型。文献[6]提到了Han提出的通用数据采掘原型DBLEARN/DBMINER、Holsheimer等人提出的并行体系结构,以及Matheus等人提出的多组件体系结构,并重点介绍了Matheus等人的多组件体系结构。

水利工程管理决策大多是复杂的非结构化决策,需要进行探查性或查询驱动型的数据挖掘,以方便不同的决策者和专家从不同的领域或角度进行数据探查和分析。一般情况下,在挖掘过程中需要进行人机的多次对话,然后结合人类专家的隐性知识,才能够发现有价值的知识。因此自动化的挖掘方法不适合于水利工程数据挖掘。针对水利工程数据挖掘系统的特点,本文在对上述各类体系结构研究的基础上,提出如图4所示的水利工程数据挖掘系统模型。

模型分为4层,分别为数据存储层、多维数据库与数据仓库层、OLAP/OLAM层、用户界面层。第一层数据存储层的数据主要来源于水利工程数据库和相关的异构数据库,元数据用于指导数据的清理、过滤和集成,是构建水利工程数据仓库重要的技术手段。第一层的数据经过变换和集成后,存储到数据仓库和多维数据库中,它们是实现第三层OLAP/OLAM分析所需要的重要的数据源。该模型的核心是OLAP/OLAM,它们是支持探查性知识发现的核心技术。第四层是用户界面层,用来帮助用户实现基于约束的挖掘查询,并将挖掘结果显示给用户。

6空间挖掘可以采用的方法与发现的知识类型

数据挖掘在水利工程管理上的应用,不仅可以建设智能型的GIS系统,促进遥感技术和GIS技术的深入应用,还可以从数据中发现潜在的、有价值的知识或规则,用于指导水利工程的建设和管理。一般来说,传统的数据挖掘方法如统计、分类、聚类等都可用于空间数据挖掘,但我们不能简单地把这些方法直接应用在空间数据的挖掘上[7,15] 。一方面,因为空间数据除了具备一般非空间数据的特征外,还具备拓扑、方位、距离等空间特征;另一方面,传统的数据挖掘算法一般假定数据对象统计不相关、相邻的数据对象是独立产生的,而空间数据的相邻对象间存在着关联和相互影响,因此需要对原有的方法进行改进,使得数据挖掘方法适合于地理空间数据的挖掘。在空间数据挖掘与知识发现中可采用的方法主要有:统计方法、归纳方法、聚类方法、空间分析方法、探测性的数据分析、Rough集方法、云理论、图像分析和模式识别等[5,13]。能发现的知识类型有:(1)普遍的几何知识,如计算和统计出空间目标几何特征量的最小值、最大值、均值、方差、众数等;(2)空间分布规律,如机井、水库的分布规律。能发现的规则有:(1)空间关联规则,如地下水与降雨量的关系,河水质量与污染企业分布的关系;(2)空间的聚类规则;(3)空间演变规则,如水库泥沙淤积的演变规律,河道周围生态的演变规律[13,14,16]。需要注意的是,为了便于理解空间数据、发现空间联系、发现空间数据与非空间数据之间的关系,应重视可视化的方法在水利工程数据挖掘过程和挖掘结果的使用[10,17]。

7结 语

利用空间数据挖掘技术,对具有空间特征的水利工程数据进行分析,能够发现潜在有价值的知识,利用这些知识,能够降低工程管理的成本,有效利用建设和维护资金,更好地发挥水利工程的效益,为水利工程的管理决策提供依据。要实现数据挖掘技术在水利工程中的应用,必须研究和解决数据仓库和数据立方体的应用、数据挖掘与GIS集成和水利工程数据挖掘系统模型3个核心问题。本文对这3个问题进行了探讨,认为数据仓库是水利工程数据挖掘的基础,宜采用紧密耦合式结构与GIS系统进行集成,在挖掘模型上可以采用基于OLAP和OLAM的4层框架。

主要参考文献

[1] 张敬光. 实施水利工程管理体制改革的思考[J] 四川水利,2004(2):38-42.

[2] 陈彩妮. 水利工程管理中存在的问题及对策[J] .中国水运,2007,5(4):74-75.

[3] 穆范椭,赵玉红. 综合类大型水利工程管理体制改革研究[J] .人民黄河,2007,29(8):6-10.

[4] 李德仁,王树良,李德毅.空间数据挖掘理论与应用[M]. 北京:科学出版社,2006.

[5] 王海起,王劲峰. 空间数据挖掘技术研究进展[J]. 地理与地理信息科学,2005(7):6-10.

[6] 石云,孙玉方,左春.空间数据采掘的研究与发展[J]. 计算机研究与发展,1999(11):1301-1309.

[7] 毕硕本,耿焕同,闾国年.国内空间数据挖掘研究进展与技术体系探讨[J]. 地理信息世界,2008,2(1):21-27.

[8] 雷宝龙,刘艳,邹瑜. 基于GIS的空间数据挖掘模型研究[J]. 软件导刊,2007(3):7-9.

[9] 毛克彪,覃志豪,李昕,等. 空间数据挖掘与GIS集成及应用研究[J]. 测绘与空间地理信息,2004(2):14-17.

[10] [加]Jiawei Han,Micheline Kamber. 数据挖掘:概念与技术[M]. 北京:机械工业出版社,2007.

[11] 李琼. 数据仓库与数据挖掘技术在水利信息化中的应用[J]. 前沿,2005(12):59-61.

[12] 刘立昱. 地理信息系统在水利工程中的应用综述[J]. 甘肃水利水电技术,1999(2):63-65.

[13] 邸凯昌,李德仁,李德毅. 空间数据发掘和知识发现的框架[J]. 武汉测绘科技大学学报,1997(12):328-332.

[14] 李春梅,范全润. 空间数据挖掘及其在地理信息系统中的应用[J].楚雄师范学院学报,2005(6):6-10.

[15] 毛克彪,田庆久. 空间数据挖掘技术方法及应用[J]. 遥感技术与应用,2002(8):198-204.

[16] 蓝荣钦,林丽霞,陈良友,等. 空间数据挖掘和知识发现的现状与发展[J]. 地理空间信息,2004(6):19-21.

[17] 贾泽露,刘耀林,张彤. 可视化交互空间数据挖掘技术的探讨[J].测绘科学,2004(10):34-37.

数据挖掘技术探讨论文范文第3篇

关键词:数据库安全;数据库加密;加密粒度;加密算法

Discuss About Database Encryption Technology

QIN Xiao-xia, LI Wen-hua, LUO Jian-fen

(College of Computer Science, Yangtze University, Jingzhou 434023, China)

Key words: Database security; Database encryption; Encryption granularity; Encryption algorithm

1 引言

随着网络技术的不断发展及信息处理的不断增多,巨量级数据扑面而来。数据库系统担负着集中存储和处理大量信息的任务,从而使数据安全问题变得也非常显著。传统地,物理安全和操作系统安全机制为数据库提供了一定的安全措施和技术,但并不能全部满足数据库安全的需求,特别是无法保证一些重要部门如政府、金融、国防和一些敏感数据如信用卡、身份证、个人的医疗信息的安全,因此对数据库加密是提高数据库安全的最重要的手段之一,也成了数据库安全研究的一个焦点。

2 数据库安全概述

数据库在信息系统中的核心地位使得数据库面临着严重的安全威胁,根据数据库受到的威胁和可能的攻击,数据库的安全性要求着重在几方面:

(1)物理上的数据完整性。预防数据库数据物理方面的问题,如掉电,以及灾害破坏后的恢复、重构数据库。

(2)逻辑上的数据完整性。保持数据的结构。

(3)元素的完整性。包含在每个元素中的数据是准确的。

(4)可审计性。能追踪到谁访问或修改过数据库中的元素。

(5)访问控制。确保用户只能访问授权数据,限制用户访问模式。

(6)用户认证。用户除提供用户名、口令外,还可按照系统安全要求提供其它相关安全凭证。系统可以选择使用终端密钥、用户USB Key等来增强身份认证的安全性。

(7)可获用性。用户能够对数据库进行授权的访问。

3 数据库加密要实现的目标

与一般的数据加密和文件加密相比,由于数据库中数据有很强的相关性,并且数据量大,因此对它加密要比普通数据加密和文件加密有更大的难度,密钥管理更加困难。数据加密是防止数据库中数据在存储和传输中失密的有效手段。数据加密的过程实际上就是根据一定的算法将原始数据变换为不可直接识别的格式,从而使得不知道解密算法的人无法获知数据的内容,而仅允许经过授权的人员访问和读取数据,从而确保数据的保密性,是一种有助于保护数据的机制。

因此,数据库加密要求做到:

(1)数据库中信息保存时间比较长,采用合适的加密方式,从根本上达到不可破译;

(2)加密后,加密数据占用的存储空间不宜明显增大;

(3)加密/解密速度要快,尤其是解密速度,要使用户感觉不到加密/解密过程中产生的时延,以及系统性能的变化;

(4)授权机制要尽可能灵活。在多用户环境中使用数据库系统,每个用户只用到其中一小部分数据。所以,系统应有比较强的访问控制机制,再加上灵活的授权机制配合起来对数据库数据进行保护。这样既增加了系统的安全性,又方便了用户的使用;

(5)提供一套安全的、灵活的密钥管理机制;

(6)不影响数据库系统的原有功能,保持对数据库操作(如查询,检索,修改,更新)的灵活性和简便性;

(7)加密后仍能满足用户对数据库不同的粒度进行访问。

4 数据库加密技术中的关键问题

数据库加密需要考虑几个重要问题:是在数据库引擎内或产生数据的应用程序中或是在硬件设备上进行加密/解密?加密数据粒度基于数据库、表还是字段?加密效果与其对性能的影响如何?

针对上述几个问题,结合数据库数据存储时间长、共享性高等特点,在数据库加密技术中,重点是要选择合适的加密执行层次、加密粒度和加密算法,并且要与实际的安全需求紧密结合起来。

4.1 加密执行层次

对数据库的数据进行加密主要是通过操作系统层加密、DBMS内核层(服务器端)加密和DBMS外层(客户端)加密三个不同层次实现的;DBMS内核层、外层加密分别如图1、图2所示:

(1)在OS层

在操作系统(OS)层执行加密/解密,数据库元素以及各元素之间的关系无法辨认,所以无法产生合理的密钥。一般在OS层,针对数据库文件要么不加密,要么对整个数据库文件进行加密,加密/解密不能合理执行。尤其对于大型数据库来说,在操作系统层次实现数据库的加密/解密,目前还难做到有效保证数据库的安全,因此一般不采用在OS层进行数据库加密。

(2)在DBMS内核层执行加密/解密

在内核层执行加密解密有如下特点:

加密/解密执行时间:在数据存入数据库或从数据库中取出时,即在物理数据存取之前;

加密/解密执行主体:在DBMS内核层,由用户定制的或者DBMS提供的存储过程函数执行;

加密/解密过程:在存储数据时,通过触发器调用加密存储过程对数据加密,然后将密文数据存入数据库在读取数据时,触发器调用相应存储过程解密数据,然后读出结果;

加密/解密算法:由DBMS系统提供。多数不提供添加自己算法的接口,因此算法选择比较受限制。

在DBMS内核层实现加密需要对数据库管理系统本身进行操作,这种加密是指数据在物理存取之前完成加密/解密工作。优点是加密功能强,并且加密功能几乎不会影响DBMS的功能,可以实现加密功能与数据库管理系统之间的无缝耦合。由于与DBMS系统结合紧密,可以提供对各种粒度加密的灵活性,灵活的加密配合DBMS的访问控制、授权控制,不失是一种有效的数据库数据保护方案。另外,这种层次的加密对于应用程序来说是透明的。其缺点是加密运算在服务器端进行,加重了服务器的负载,而且DBMS和加密器之间的接口需要DBMS开发商的支持。

(3)在DBMS外层执行加密/解密

在DBMS外层执行加密/解密包含两种实现方式:第一种方式如图2(a)所示,是在应用程序中实现,加密时调用应用程序中的加密模块来完成数据的加密工作,然后把密文数据传送到DBMS存储;解密时把密文数据取出到应用程序中,然后由应用程序中的解密模块将数据解密并给出结果。第二种方式如图2(b)所示,是直接利用操作系统提供的功能实现加密,这种加密方式是在文件级别上的加密,直接加密数据库文件。

在DBMS外层实现加密的好处是不会加重数据库服务器的负载, 采用这种加密方式进行加密,加解密运算可在客户端进行,它的优点是不会加重数据库服务器的负载并且可以实现网上传输的加密,缺点是加密功能会受到一些限制,与数据库管理系统之间的耦合性稍差。

(4)不同层次实现数据库加密效果比较

在DBMS内核层和DBMS外层加密的特点如表1所示:

由表可知:在DBMS内核层执行加密/解密,不会增加额外的处理负担,对本身性能影响小;实现了密钥与密文的分离,安全程度相对较高;算法由应用程序提供,选择性大。

DBMS外层加密主要存在着可用性与安全性的矛盾;加密粒度受DBMS接口支持的限制,灵活性不够强;安全升级时,应用程序改动比较大;对于密文数据,DBMS本身的一些功能会受到影响。

4.2 加密粒度选择

数据库的加密粒度指的是数据加密的最小单位,主要有表、字段、数据元素等。数据库中执行加密,加密粒度越小,则可以选择加密数据的灵活性就越大,但是产生的密钥数量也大,带来管理方面问题。数据库中加密粒度的选择要根据需要,充分衡量安全性和灵活性等需求。选择的过程中,由于数据库中存储的数据包括非敏感数据,因此,可以只选择敏感数据部分进行加密,从而加密粒度越小,加密执行消耗资源就少,投入费用就少。

4.3 算法选择

数据库加密技术的安全很大程度上取决于加密算法的强度,加密算法直接影响到数据库加密的安全和性能。因此,加密算法的选择在数据库加密方案中也显得举足轻重。传统的数据加密技术包括以下三种:

(1)对称加密

也称为共享密钥加密。对称加密算法是应用较早的加密算法,在对称加密算法中,数据发信方将明文(原始数据)和加密密钥一起经过特殊加密算法处理后,使其变成复杂的加密密文发送出去。收信方若想解读原文,则需要使用加密用过的密钥及相同算法的逆算法对密文进行解密,才能使其恢复成可读明文。由于对称加密算法算法公开、计算量小、加密速度快、加密效率高,因此它是最常用的加密技术。主要的对称加密算法有DES、IDEA和AES。

(2)非对称加密

又称为公钥加密。非对称加密算法使用两把完全不同但又是完全匹配的一对钥匙——公钥和私钥。非对称加密算法的基本原理是,如果发信方想发送只有收信方才能解读的加密信息,发信方必须首先知道收信方的公钥,然后利用收信方的公钥来加密原文;收信方收到加密密文后,使用自己的私钥才能解密密文。显然,采用非对称加密算法,收发信双方在通信之前,收信方必须将自己早已随机生成的公钥送给发信方,而自己保留私钥。由于非对称算法拥有两个密钥,因而特别适用于分布式系统中的数据加密。常用的公钥加密算法是RSA,它不但可以用来加密数据,还可用来进行身份认证和数据完整性验证。

(3)混合加密

由于对称加密算法更简单,数据的加密和解密都使用同一个密钥,所以比起非对称加密,它的速度要快得多,适合大量数据的加密和解密;主要缺点也是由于使用相同的密钥加密和解密数据引起的,所有的数据发送方和接收方都必须知道或可以访问加密密钥,必须将此加密密钥发送给所有要求访问加密数据的一方,所以在密钥的生成、分发、备份、重新生成和生命周期等方面常存在安全问题。而公钥加密属于非对称加密,不存在密钥的分发问题,因此在多用户和网络系统中密钥管理非常简单,但由于它主要基于一些难解的数学问题,所以安全强度没有对称加密高,速度也比较慢。

为了充分发挥对称加密与非对称加密的优势,混合加密方案被提出。在混合加密方案中,加密者首先利用一个随机生成的密钥和对称加密算法加密数据,然后通过使用接收者的公钥把随机密钥进行加密,并与密文一起传送给接受者。接收者通过自己的私钥首先解密随机密钥,再利用其解密密文。此方案既利用了对称加密安全强度高、速度快的特点,也利用了非对称加密密钥管理简单的特性。“一次一密”的加密是最安全的一种加密技术,加密者在每次加密时都使用与明文长度一样的随机密钥,并且每个密钥都不重复使用。但在数据库加密中,由于密钥的产生和保存都存在很大的困难,因此在实际应用中并不常用。

5 数据库加密后对系统的影响

加密技术在保证数据库安全性的同时,也给数据库系统带来如下一些影响:

(1)性能下降:数据加密后,由于其失去了本身所固有的一些特性,如有序性,相似性和可比性,这样导致对加密数据的查询,往往需要对所有加密数据先进行解密,然后才能进行查询。而解密操作的代价往往很大,这样使得系统的性能急剧下降。

(2)索引字段的加密问题:索引的建立和应用必须在明文状态下进行,这样才能够保证索引文件中键的有序性,以便提高查询性能。否则,索引将失去作用。

(3)加密字符串的模糊匹配:对加密数据上的大量模糊查询,例如,当SQL条件语句包“Like”时,很难进行处理。

(4)加密数据库的完整性:当数据库加密后,实体完整性不会被破坏,而引用完整性难以维护。

(5)加密数据的存储空间增加问题:对数据库加密,通常采用分组加密算法,这有可能导致数据加密后的存储空间增加。

(6)密钥管理问题:在现代密码学中算法的安全性都是基于密钥的安全性,而不是基于算法的细节的安全性。对数据库采取加密技术来保证其安全性,但是在现实生活中,如何保证密钥本身的安全性又是一件非常困难的事情心。在数据库管理系统中,由于数据的共享性和存储数据的持久性等原因,要求更加灵活和安全的密钥管理机制。

参考文献:

[1] 万红艳.一种数据库加密系统的设计与实现[J].黄石理工学院学报,2007,23(3):27-29.

[2] 赵晓峰.几种数据库加密方法的研究与比较[J].计算机技术与发展,2007,17(2):219-222.

[3] 王正飞,施伯乐.数据库加密技术及其应用研究[D].上海:复旦大学,2005.

[4] 庄海燕,徐江峰.数据库加密技术及其在Oracle中的应用[D].郑州:郑州大学,2006.

[5] 黄玉蕾.数据库加密算法的分析与比较[J].科技情报开发与经济,2008,18(2):159-161.

收稿日期:

作者简介:秦晓霞(1982—),女,湖北荆州人,硕士研究生,主要研究方向:数据库技术及应用;李文华(1965—),男,湖北人,副教授,主要研究方向:网络数据库应用、微机监控系统开发;罗剑芬(1984—),女,湖北黄冈人,硕士研究生,主要研究方向:数据库技术及应用。

数据挖掘技术探讨论文范文第4篇

关键词:数据挖掘;决策树;OLAP

1 什么是數据挖掘

数据挖掘就是通过一定的技术来分析大量的数据,从中找出对我们有用的数据的过程,即从存放在数据库中的数据中获取有效的、有价值、最终能被我们所利用的数据。若我们在一个网站买书,系统会根据我们近期所购买的书的记录进行分析,然后在我们下次登录该网站时,自行向我们推荐其他类型的书籍,这里就是用到了数据挖掘的理论和方法。

2 数据挖掘的功能

1) 分类

所谓分类就是按照分析对象的特征,建立类组。也就是说分类就是它所预测的结果是一个类别而不是一个具体的数。比如:我猜你是四川人,这个就是分类问题。在商业案例中分类问题很多,再比如通过银行的一个客户信息,可以预测一下他是否会购买基金,大概的数额;他是否会办信用卡等等。

2) 聚类

面对海量的数据,首先分类,然后是聚类,属性接近的划归为一类,合理归类以后,每一类有自己的特征。聚类问题主要解决把一定范围内的对象划分为若干个组。它的特点是根据所选的目标来进行划分。比如:银行的客户,我们首先选定几个指标:年收入、年龄、性别等,然后对他们进行划分,特征相似的为一类,特征不同的分属不同的类。

3) 估计与预测

估计就是根据已有的长期积累的数据来推测未知的信息,例如银行根据信用卡申请人的单位性质、年龄、性别等信息推算他的消费水平。所使用的技术有统计方法中的相关分析、回归分析等等。所谓预测就是根据对象属性的过去值预测他的未来值。比如:通过查看一个持卡人以往的消费值来预测他今后的消费,使用的技术包括回归分析、时间序列分析等。

4) 关联

就是找出在一个事件中同时出现的事情,确定那些相关的对象应该放在一起。

5) 描述

描述的就是对复杂的数据库提供简单明了的说明,描述的主要目的是对数据先有个了解,这样有助于怎样去建模。

3 数据挖掘的主要方法

1) 决策树法

决策树是一种对实例进行分类的树形结构,由节点和有向边组成。节点的类型有2种:内部节点和叶子节点。内部节点一般表示一个特征或属性的测试条件,叶子节点则表示一个分类。

当我们构造了一个决策树模型,以它为基础来进行分类是很容易的。具体就是:从根节点开始,按照实例的某一特征进行测试,根据测试结构将实例分配到子节点,当沿着该分支可能到达叶子节点或到达另一个内部节点时,就使用新的测试条件递归执行下去,直到到达一个叶子节点。当到达叶子节点时,就得到了最终的分类结果。

决策树它是一种建立在信息论基础之上的对数据分类的一种方法。具体就是:通过已知的一批样本数据建立一棵决策树,然后利用已经建好的决策树来对数据进行预测。决策树的建立过程我们可以看做是数据规则的生成过程。决策树方法精确度高,效率也高,比较常用。

决策树法是目前应用非常广泛的一种逻辑方法,生成决策树一个著名的算法是C4.5算法。

2) 神经网络法

神经网络它是建立在数学模型之上的,我们通过对大量的、复杂的数据进行分析研究,可以完成非常复杂的趋势分析。神经网络系统它是由一系列类似于人脑神经元的处理单元构成的,我们称之为节点。这些节点可以通过网络进行互联。如果有数据输入,就可以确定数据模式的工作。

3) 关联规则法

关联规则是数据挖掘技术中的一种技术,它是一种非常简单但很实用的一种规则,描述了一个事物如果某些属性同时出现的规律。关联规则分析就是根据一定的可信度、支持度等建立相关规则,可以帮助很多商务决策的制定。

4) 聚类分析法

聚类分析就是把一组信息按照相似度归成若干类别。聚类方法包括统计方法、神经网络法和面向数据库法等方法。聚类分析具体说就是依据样本或变量之间关联的量度标准将其自动分为几个组,并且同一个群内样本相似,而不同组之间的样本相异。

5) 遗传算法

遗传算法它是一种基于生物进化论和分子遗传学的算法,第一步,将问题的所有可能解按照某种方式进行编码;第二步,从中随机地选取M个染色体作为初始种群;第三步,根据预定的评价函数对每个染色体计算适应值,然后选择适应值较高的染色体进行复制;最后通过遗传算子生成新的能够更好适应环境的染色体,从而生成新的种群,直到最后成为一个最适应环境的个体,得到问题的最优解。

6) 联机分析处理(OLAP)法

联机分析处理就是通过多维的方式对数据进行分析、查询和报表。它主要用来完成用户的事物处理,比如银行储蓄等。需要进行大量的更新操作,对响应时间要求高。

联机分析处理它的核心概念是“维”,它支持数据分析人员和决策人员从不同的角度、不同的级别对数据仓库中的数据进行复杂查询和多维分析处理,以直观形象的方式将查询和分析的结果反馈给决策人员。OLAP使用的模型是多维数据模型,主要用于分析大量的历史数据,提供汇总和聚集机制,访问多是只读操作。

随着计算机计算能力的发展,数据的类型越来越多,越来越复杂,尤其在商业方面,需要对大量的数据分析,需要精确定位潜在的价值所在,数据挖掘技术可以自动探测以前未发现的模式。随着数据挖掘技术的不断成熟和完善,它将在各行各业的各个领域发挥其越来越大的作用。

总之,数据挖掘技术的前景是非常好的,我们要充分利用它来为我们今后的生活提供更多的有用的信息。

参考文献:

[1] 李航.统计学习方法[M].清华大学出版社,2017.

[2] 陈志泊.数据仓库与数据挖掘[M].2版.清华大学出版社,2017.

[3] [美]Daniel T. Larose,Chantal D. Larose.数据挖掘与预测分析[M].2版,清华大学出版社,2017.

[4] 李春葆.数据仓库与数据挖掘应用教程[M].清华大学出版社,2016.

[5] 毛国君.数据挖掘原理与算法[M].3版.清华大学出版社,2016.

数据挖掘技术探讨论文范文第5篇

摘要:本文以数据中心网络环境为立足点,就组播通信技术进行介绍与分析。首先对overlay与underlay通信概念进行简要介绍,并分析大规模网络环境条件下overlay通信技术面临的主要问题及解决方法,介绍主流数据中心网络下overlay多播流量的转发模型。

关键词:数据中心网络;overlay流量;underlay流量;组播通信

一、网络逻辑层次分类

1、Underlay

Underlay就是当前数据中心网路基础转发架构的网络,是多学科相互交融的复杂系统工程,可以实现互联互通的底层网络技术。

2、overlay

Overlay指的是一种网络架构上叠加的虚拟化技术模式,其大体框架是在对基础网络不进行大规模修改的条件下,实现应用在网络上的承载,并与其它网络业务分离,是基于IP的网络技术。一个Overlay网络主要由三部分组成,1边缘设备:是指与虚拟机直接相连的设备。2控制平面:主要负责虚拟隧道的建立维护以及主机可达性信息的通告。3转发平面:承载Overlay报文的物理网络。

简单地说,overlay就是基于底层网络互联互通的基础加上隧道技术去构建一个虚拟的网络。overlay的核心其实就是隧道(tunnel)技术。VXLAN(VirtualeXtensibleLAN)技术是当前最为主流的Overlay标准。

二、应用场景

通常数据中心的多播流量都是通过头端复制的方式转发,如果上行流量特别大,就会占用过多的上行带宽。这时候可以考虑underlay组播复制的方式,降低上行带宽压力。具体实现就是为VNI分配一个Underlay的组播组,所有VTEP都加入这一组播组。对于接收到的多播流量,交换机只发出一份,这一份报文的目的封装为基于VNI分配的组播IP。报文发出后经过Underlay的IP组播进行复制,分别发给不同的VTEP设备。在此情况下,组播复制对上行带宽的要求为:接收流量本身的带宽。如果数据中心存在较大的密集组播流量,即同一个VNI内存在多个主机间发送接收组播流,采用underlay转发方案,可以大大降低带宽压力。

三、数据模型

1)单一网络环境下的业务转发流程,也是最简单的组网。具体如下图所示:

这是最简单的组网环境,VM1是组播源。组播到达leaf1后,经过underlay网络通过组播复制到spine1与spine2及leaf2、leaf3,如上图红色箭头所示,然后再通过overlay转发给其他虚拟终端,参考上图的绿色箭头。

2)叠加M-lag的组网场景

a、PIM-SM作为Underlay组播路由协议,非M-LAG节点发送多播,M-LAG节点接收多播,如下图:

假设VM1发出多播流量;

1Leaf1上(VTEP1,Group)的出接口指向Spine1、Spine2,Leaf1接收VM1的多播流量后封装成组播VXLAN报文,分别发送给Spine1、Spine2;

2Spine1作为组播RP结点,对于(VTEP1,Group)有出接口指向Leaf2,将流量发送给Leaf2;

3Spine2作为组播RP结点,对于(VTEP1,Group)有出接口指向Leaf3,将流量发送给Leaf3;

4Leaf2、Leaf3作为M-LAG,有主备之分,假如Leaf2是主设备,能转发组播隧道的报文Leaf3

是备设备,不能转发组播隧道的报文,underlay报文只在Leaf2被转发,发送给VM2、VM3;

5Leaf2通過peerlink的overlay互联,将报文同步给Leaf3,Leaf3接收后只发给单归的VM4。

b、PIM-SM作为Underlay组播路由协议,M-LAG节点发送广播,其他节点接收多播报文,

假设VM3发出多播流量,流量转发模型如下;

1 Leaf2上(VTEP2,Group)的出接口指向Spine1(因为Leaf2、Leaf3的VTEP一样,RP只会向其中一个引流,可能出现两个RP都向M-LAG同一个节点引流或分别M-LAG不同的节点引流),还有一个出接口为经过Underlay的PeerLink口;

2 报文发送给Spine1、Leaf3;Leaf2同时通过peerlink接口同步一份overlay流量,发送一份给VM4;

3 Leaf3从peerlink口接收的overlay流量发送给VM4;Leaf3上PeerLink口的Underlay互联口为Underlay组播入接口,出接口指向Spine2与PeerLink口,流量只被发送给Spine2,因为Peerlink链路上由于源剪枝不会往回发送多播流量;

4 Spine1、Spine2各自根据(VTEP2,Group)将流量发送给Leaf1、LeafX;

5 Leaf1、LeafX剥掉vxlan封装后将流量发送VM1、VM5;

四、结束语

数据中心网络分为Underlay和Overlay两个部分,是数据中心虚拟化大背景下的产物,Overlay和Underlay网络相互独立,又密不可分。Overlay网络使用Underlay网络点对点传递报文,而报文如何传递完全取决于Underlay网络的控制平面和数据平面,Overlay网络的封装协议决定报文网络出入节点的处理。Overlay核心是隧道技术,VXLAN,NVGRE及STT是典型的三种隧道技术,我们在对物理网络不做任何改造的情况下,通过隧道技术在现有的物理网络上创建一个或多个逻辑网络即虚拟网络,有效解决了物理数据中心,尤其是云数据中心的许多问题,实现数据中心的智能化和自动化。

参考文献:

[1]左加阔,杨龙祥.D2D组播通信中的高能效资源分配研究[J].中南大学学报(英文版),2019,26(11):3034-3044.

[2]肖海林,吴彬,张中山.C-V2X下车载安全数据两阶段组播的中继选择与功耗分析[J].电子学报,2019,47(11):2248-2255.

华为南京研究所 江苏南京 210000

数据挖掘技术探讨论文范文第6篇

关键词:大数据技术;数据挖掘;档案管理

伴随着大数据时代的到来,数据挖掘技术在档案管理中的应用将进入一个新的发展时期。尽管档案学术界很早就提出知识管理与知识挖掘,但知识挖掘尚停留在概念和理论探讨阶段[1]。大数据挖掘,即从大数据中挖掘知识,大数据挖掘技术有效地解决了数据和知识之间的鸿沟,是将数据转变成知识的有效方式[2]。因此,有档案学研究者认为“档案馆的传统业务将向档案资源的数据分析、数据挖掘方向转移,对大量数据的分析处理将成为档案馆的主要业务”[3],“档案信息服务的底层基础可能不再是检索,而是智能化的数据挖掘”[4]。

大数据时代给数据挖掘技术带来的根本性改变是使数据的深度挖掘成为可能,对大量数据进行分析处理和智能化挖掘,从管理角度来看,要达到最优的结果,不仅数据要全面、可靠、有价值,而且需要对数据进行深度挖掘。

1 数据深度挖掘是大数据技术应用于档案管理中的主要特点

数据挖掘技术是通过对海量数据进行建模,并通过数理模型对企业的海量数据进行整理与分析,以帮助企业了解其不同的客户或不同的市场划分的一种从海量数据中找出企业所需知识的技术方法[5]。数据深度挖掘,是一个对数据进行建模的过程,并对数据进行分类与统计,查找得出数据分布的关联性,这也是探索规律的过程。

如,档案人员想要做好档案编研选题,不仅要对用户利用档案数据,包括档案调卷数量、档案利用次数、复制档案数量、制发档案证明数量等进行深度挖掘,而且还需要对用户访问记录,包括网页采用的关键字、下载记录、检索词、用户利用网页时间和频度等信息进行深度挖掘,然后利用分类功能及数据分析,建立档案编研选题的用户模型,一是按需确定不同类型的编研选题,提供个性化的服务;二是根据档案用户需求特点,预测其未来趋向,结合社会热点选定档案编研题目,从而使档案编研部门推出用户满意的编研成果。在档案利用方面,对档案利用登记数据库进行深度挖掘,分别选取不同方面数据进行建模,可以得出不同档案利用形式的变化趋势,从而对档案利用趋势进行分析和预测,对利用频率高的档案进行全文数字化,既可以提高档案利用效率,又可以起到保护档案原件的作用。

因此,档案数据的深度挖掘是大数据时代的主要特点,档案学的发展历程告诉我们,每一次重大的技术变革都必然影响着档案学的发展,如计算机和网络技术的引入,引起了档案管理理念与实践的变革,改变了文件与档案的处理流程[5]。大数据技术对档案数据的深度挖掘为档案管理流程由粗放走向精细化提供了可能。

2 大数据技术对档案数据深度挖掘使档案管理模式走向精细化

大数据挖掘技术基于传统的数据挖掘,使用的是数据仓库,构造的是“泛关系”的聚分类模型,采取的是海量数据分析方法,机器与人类一样具备语义知识,提供的是可视化视图来揭示信息,可以说是传统数据挖掘方法的深化。由中国人民大学网络与移动数据管理实验室开发ScholarSpace,大数据处理的最基本流程由数据来源、数据抽取与集成、数据分析、数据解释等过程组成[6],分析认为大数据技术对档案数据挖掘由数据采集层、数据整理层、数据分析层、数据展示层组成。

2.1 数据采集层收集高质量的档案数据,为档案管理精细化奠定基础。数据采集是大数据技术处理流程中最为基础的一步,高质量的数据是大数据技术发挥效能的前提,大数据技术只有在高质量的大数据环境下才能提取出隐含的、有用的信息。由于大数据具有实时与动态性特征,“在线”、“近线”和“离线”的各种数字资源均是采集对象。为了使所获得的数据更具有代表性,通过什么方式获取数据信息显得格外重要。数据采集层要收集不同数据源产生的数据,为档案数据挖掘的后续工作做好准备。

2.2 数据整理层改变传统数据处理方式,凸显档案管理精细化过程。经过各种渠道获取的档案数据种类繁杂、结构多样,通过处理、集成、存储可以做到:

一是将结构复杂的数据转换为单一的或便于处理结构的数据。现代互联网应用呈现出半结构化和非结构化数据大幅度增长的趋势,这些资源将成为馆藏的重要来源。如,对档案系统运行日志资料等数据,就需要转换成结构化数据,形成档案统一的语言。二是对采集到的数据进行“去噪”和“清洗”,以保证数据的质量和可靠性。由于原始数据中有噪声数据、冗余数据等问题,对数据进行解析、清洗、重构,以提高待挖掘数据的质量。三是对整理好的数据进行存储,建立专门的数据库分门别类地放置,减少数据查询和访问的时间,提高数据提取速度。

2.3 数据分析层对档案数据的精细分析,凸显档案管理精细化的思维模式。数据分析是整个大数据处理流程最为核心的部分。“相关性”分析是大数据技术重要的思维模式,通过对数据彼此关联性的分析,能够更清楚地看到隐藏在背后的看似不相关的数据之间彼此的密切联系,使档案数据挖掘从常规分析向广度、深度分析转变。

“相关性”分析可激活数字档案资源,大数据技术的核心作用就是挖掘出庞大的数据仓库独有的价值,不管是网络实时运算的“热数据”,还是非在线的“冷数据”,通过对档案数据的综合挖掘、深度整合和数据分析,激活休眠状态的档案资源,展现数据价值,创造出新知识、新价值。“相关性”分析能有效破除信息孤岛的数据壁垒,使各个孤立的、互不联通的数据库之间资源实现充分共享。

2.4 数据展示层为档案用户提供更加精准服务,凸显档案管理精细化“以人为本”的价值追求。对档案用户来说,最关心的不是数据分析处理过程,而是对大数据分析结果的解释与展示。若数据分析的结果不能得到精准的展示,会对档案用户产生困扰,甚至会误导用户。通过档案管理信息系统,将深度挖掘的数据可视化,可以使用户清楚地看到未来发展的方向,从而对决策结果作出评价,这也是决定整个系统挖掘技术是否成功的标准。

3 大数据技术对档案数据深度挖掘,将档案管理精细化发挥到极致

大数据技术在档案管理中的应用从两个方向进行描述:从横向上看,以大数据挖掘技术为中心沿数据收集、整理、分析到展示等技术解决方案;从纵向上看,以数据产品为中心沿档案资源挖掘、用户数据挖掘及关系洞察及趋势预测逐级递进。大数据技术对档案数据深度挖掘使档案资源与用户需求的双向控制达到最优化,凸显管理精细化趋势。

3.1 档案资源挖掘。由于缺乏综合数据挖掘和深度整合,档案资源存在着重藏轻用深度挖掘不够的问题,因此,通过对档案资源数据的深度挖掘,展现数据价值,创造出新价值。

首先,大数据时代树立“大档案”工作思路,重视数据积累,不仅要建立档案资源体系,还要建立数据资源体系观。其次,建立共享档案数据资源库。以省级为单位,建立集中的、规范的、可供共享的档案数据资源库,使各档案馆藏之间相互关联,成为一个内容丰富且不拘泥于实体存储的,信息互联共享的档案数据资源网。最后,利用云计算平台和处理技术构建档案数据资源网,可以用于实时性档案数据的接收,也可以对非实时性数据进行分类处理,使其成为档案用户提供服务的平台。

3.2 用户数据挖掘。通过对用户数据挖掘做到精确洞察,精准服务,提升档案用户认同感,实现档案服务价值。用户数据挖掘包括以下方面:

一是对用户信息进行数据挖掘。提取用户的信息需求,查看用户访问服务器时留下的日志文件,跟踪用户行为,推测用户兴趣,提供个性化利用服务。二是对用户统计检索和浏览记录进行挖掘。如,利用统计分析的方法,通过分析用户对档案目录的点击率,选取点击率高的档案进行数字化;通过分析用户检索时使用的档案检索词,充实和完善数据仓库中的检索关键词,以提高查准率;通过统计分析用户对网页的访问频率,进而开展深层次的信息服务。

3.3 关系洞察及趋势分析。无论是档案资源和用户数据,通过挖掘得到的仅是某一方面的数据,这些数据往往是孤立的数据点,因此,要使这些数据集成为一个完整的网络,必须对数据网络后面的数据关系进行深入分析。如,单单对档案收集情况进行挖掘,得到的仅仅是档案人员与档案之间的关系,对档案利用情况进行挖掘,得到的仅仅是档案与用户之间的数据关系。然而,要想精准洞察档案之间、用户之间及档案与用户之间关系,必须将以上各个孤立的数据点进行整合,得到一个完整的档案网络,才能使档案发展、社会服务等趋势的预测成为可能。

4 积极探索综合性的对策促进档案数据深度挖掘的实现

在融合数据,精细分析后,我们应通过综合性的策略保证大数据技术在档案数据挖掘中的应用落到实处,保障大数据技术在档案管理应用中的有效实现与良性循环。

4.1 建立以大数据技术为核心的数据资源体系,使档案数据挖掘具有时代特色。构建一个“以数字资源为主体,以文本、图片、音频、视频等为形式,为中华民族集体记忆的建构和传承提供文献支撑的‘中国记忆’数字资源库”[7],是时代赋予我们的目标与使命。

首先,扩大数据总量,构建现代化的档案资源体系,加强实体资源的建设,完善档案门类,优化馆藏结构。其次,加强数字资源建设,按照“存量数据化,增量电子化”战略,组建数字化档案资源库,加强电子文件的收集归档。最后,积极开放数据,整合数据资源,增强知识挖掘,实现数据增值。大数据技术为档案管理的深度挖掘提供了数据管理方面的保障,而对数据的深度挖掘使档案馆的功能扩展到发现与预测。

4.2 构建以人为本的用户关系管理,使得档案数据内在关联得以深度挖掘。大数据时代最大转变是放弃对因果关系的渴求,取而代之关注相互关系,只要知道“是什么”,而不需要知道“为什么”[8],这一转变将使我们以新的视角去理解档案用户数据挖掘。

利用大数据技术可以掌握用户此前的行为、正在进行的实时行为,还可以对用户未来行为进行预测分析,深度挖掘数据内在关联,促进资源集成创新,实现档案数据资源的增值服务。借助大数据技术,对用户搜索方式、行为轨迹、使用习惯、利用兴趣、存储行为等数据进行分析,有效发现用户隐性诉求。如,针对不同用户,产生动态推荐超级链接列表。建立以用户名为单位的个性化数据库,把用户想要的东西、挖掘分析结果放入。

4.3 在挖掘数据同时保护数据隐私安全,为档案数据深度挖掘提供良好的环境保证。大数据时代的隐私保护面临着技术和人力层面的双重考验,如果将这些数据合理利用,将为档案预测决策提供必要的情报信息。如何在保护隐私的前提下对档案数据进行有效的挖掘,我们应做到:一是健全法律规范对个人的隐私权利给予保护,建立健全数据安全管理规划体系,避免因个人隐私数据被随意挖掘滥用而造成影响社会稳定的事件发生。二是使用保护数据隐私的数据挖掘方法,合理界定哪些信息是属于私人信息,在保护私人信息安全的情况下进行数据挖掘。

4.4 借力“智慧因子”完善大数据技术在档案数据挖掘中的应用。随着“智慧城市”的提出,智慧的概念涉及各个领域,智慧档案馆也应运而生,智慧档案馆的核心理念是智慧服务,在大数据技术中植入智慧因子,依托物联网技术将馆舍、档案、网络、数据以及用户统一在智能网络中,达到有效整合和深度挖掘,深层次推动档案服务智慧化。大数据技术不仅将档案资源、用户数据、关系洞察及趋势分析产生的各种数据资源进行汇聚融合,而且利用智慧服务理念创新开发个性化的服务手段,使得档案知识的隐性知识显性化,为用户提供精细化的服务体验,推进档案信息资源智慧服务和知识空间的构建。

5 结论

大数据时代,大档案、大服务、智慧档案等成为档案工作的新发展,随着档案管理创新的深入推进,大数据技术将真正落实到档案管理各个环节,数据挖掘技术将更加娴熟地在档案管理中得到运用。通过本文分析我们得出以下结论:

(1)档案数据的深度挖掘是大数据时代数据挖掘技术在档案管理应用中最主要特点,促进档案管理模式发生改变。因此,在开展档案管理流程研究时,应当立足于这一点,从而达到整体的最优化。

(2)大数据技术对档案数据的深度挖掘历经不同过程环节,我们应当在厘清各环节的基础上,采取有效措施促进整个过程的有效运行,实现整个过程的良性循环与互动。

(3)大数据技术对档案数据挖掘的实现除了依赖大档案数据资源作为基础外,还需要有“以人为本”的用户关系管理、智慧服务理念、规范化的数据安全管理环境等,因此,档案部门应当加强与各部门之间的协同合作,实现大数据技术在档案管理中的应用。

参考文献:

[1] 于英香.档案大数据研究热的冷思考[J].档案学通讯,2015(2):5.

[2] 王雅洁等.大数据挖掘在食品安全预警领域的应用[J].安徽农业科学,2015(8):332.

[3] 周枫.资源 技术 思维——大数据时代档案馆的三维诠释[J].档案学研究,2013(6):63~64.

[4] 张芳霖,唐霜.大数据影响下档案学发展趋势的思考[J].北京档案,2014(9):12.

[5] 曹莉.刍议大数据时代的数据挖掘与精细管理[J].经营管理者,2013(18):191~192.

[6] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):150~151.

[7] 冯惠玲.档案记忆观、资源观与“中国记忆”数字资源建设[J].档案学通讯,2012(3):6.

[8] 迈尔-舍恩伯格,库克耶著,周涛译.大数据时代:生活、工作与思维的大变革[M].浙江人民出版社,2013:12~13.

上一篇:中职语文教育教学论文范文下一篇:初中语文教育教学论文范文