知识数据范文

2024-06-12

知识数据范文(精选12篇)

知识数据 第1篇

最近, 有不少细心的读者纷纷询问刊登在《实用妇产科杂志》封面右上角的CODEN SFZHA7是什么意思。SFZHA7是本刊的CODEN码。按国际惯例登在期刊封面的右上角, 国际标准刊号的下方。

CODEN (Code Number) 是美国ASTM (American Society for Testing and Materials) 制定的科技期刊代码系统, 被国际公认。美国《化学文摘》 (CA) 、《工程索引》 (EI Compendex) 、《乌利希国际期刊指南》 (Ulrich’sIPD) 等国际检索系统, 以及各国图书馆收藏部门均采用CODEN码进行文献/期刊识别。

数据恢复基础知识 第2篇

计算机上只有数据是最关键的,数据的丢失才是最大的损失。下面我来讲解一些数据恢复的基本知识。

首先申明一点,对于重要数据,备份数据才是防止数据丢失的根本方法,而数据恢复依赖于很多因素,很难完全恢复数据,一般是仅仅可以恢复部分数据。

数据恢复就是找回丢失的数据,例如彻底删除某个文件或文件夹,重新格式化磁盘,重新分区磁盘等等都会造成数据的丢失。更严重的数据丢失是存储介质硬件损坏,例如,硬盘不小心摔坏了、硬盘根本就不认了、硬盘有大量坏道等等。最值得注意的一点是,一旦意识到数据丢失了,立刻停止一些不必要的*作,误删、误格后,不要再往磁盘里写数据了!磁盘摔坏后,不要再加电了!磁盘出现坏道读不出来,不要反复读盘了等等。

硬盘故障大致可分为硬故障和软故障两大类。硬故障即PCBA板损坏、盘片划伤、芯片及其它原器件烧坏、断针断线、磁头音圈电机损坏等,是由于硬盘自身的机械零件或电子元器件损坏而引起。剧烈的震动、频繁开关机、电路短路、供电电压不稳定等比较容易引发硬盘物理性故障,硬件故障一般表现为CMOS不认硬盘,常有一种“咔嚓咔嚓”的磁组撞击声或电机不转、通电后无任何声音、磁头不对造成读写错误等现象,对上面描述的大部分情况,一般都要送到专门的数据恢复中心检测和恢复数据。硬盘软故障即硬盘数据结构由于某种原因,比如说病毒导致硬盘数据结构混乱甚至不可被识别而形成的故障。一般来说,主板BIOS硬盘自动检测(IDE HDD AUTO DETECTION)功能能够检测到硬盘参数,均为软故障。一般情况下,硬盘在发生故障时系统会在屏幕上显示一些提示信息,所以我们可以按照屏幕显示的提示信息找到故障原因,有针对性地实施解决方案。软故障包括误分区、误格式化、误删除、误克隆、MBR丢失、BOOT扇区丢失、病毒破坏、黑客攻击、分区信息丢失、RAID0磁盘阵列、RAID1磁盘阵列、RAID5磁盘阵列失效等因素造成的数据丢失。硬盘软故障相对于物理故障来说,更容易修复些,而它对数据的损坏程序也比硬盘物理故障来得轻些。

下面主要说明一下硬盘发生软故障后数据恢复的大概方法,部分原理可以用于优盘,光盘等的数据恢复。

基础知识-硬盘, 分区和文件系统的介绍

硬盘内部结构

关于硬盘结构的文章已经非常多了,不过真正要说清楚的话,就算专门出一本书也说不完,因此这里就不再从头细细讲述了。

硬盘最基本的组成部分是由坚硬金属材料制成的涂以磁性介质的盘片,不同容量硬盘的盘片数不等。每个盘片有两面,都可记录信息。盘片被分成许多扇形的区域,每个区域叫一个扇区,每个扇区可存储128×2的N次方(N=0.1.2.3)字节信息。在DOS中每扇区是128×2的2次方=512字节,盘片表面上以盘片中心为圆心,不同半径的同心圆称为磁道。硬盘中,不同盘片相同半径的磁道所组成的圆柱称为柱面。磁道与柱面都是表示不同半径的圆,在许多场合,磁道和柱面可以互换使用,我们知道,每个磁盘有两个面,每个面都有一个磁头,习惯用磁头号来区分。扇区,磁道(或柱面)和磁头数构成了硬盘结构的基本参数。在老式硬盘中,采用的都是这种比较古老的CHS(Cylinder/Head/Sector)结构体系。因为很久以前,在硬盘的容量还非常小的时候,人们采用与软盘类似的结构生产硬盘。也就是硬盘盘片的每一条磁道都具有相同的扇区数,由此产生了所谓的3D参数(Disk Geometry),即是磁头数(Heads)、柱面数(Cylinders)、扇区数(Sectors)以及相应的3D寻址方式。对于现在的新硬盘来说,都已经全部不采用这样的结构,而是采用了更加科学的结构方式,目前的硬盘都是线性寻址也就是直接使用扇区号来访问硬盘,137G以下的硬盘使用32位整数作为扇区号,而137G以上的硬盘使用48位整数作为扇区号。CHS结构体系

其中:磁头数表示硬盘总共有几个磁头,也就是有几面盘片,最大为255(用8个二进制位存储);柱面数表示硬盘每一面盘片上有几条磁道,最大为1023(用10个二进制位存储);扇区数表示每一条磁道上有几个扇区,最大为63(用6个二进制位存储);每个扇区一般是512个字节,理论上讲你可以取任何一个你喜欢的数值,但好像至今还没有发现取别的值的。所以磁盘最大容量为:

255×1023×63×512/1048576=8024MB(1M=1048576Bytes)或硬盘厂商常用的单位:

255×1023×63×512/1000000=8414MB(1M=1000000Bytes)

由于在老式硬盘的CHS结构体系中,每个磁道的扇区数相等,所以外道的记录密度要远低于内道,因此会浪费很多磁盘空间(软盘也是一样)。为了进一步提高硬盘容量,现在硬盘厂商都改用等密度结构生产硬盘。这也就是说,每个扇区的磁道长度相等,外圈磁道的扇区比内圈磁道多。采用这种结构后,硬盘不再具有实际的3D参数,寻址方式也改为线性寻址,即以扇区为单位进行寻址。而为了与使用3D寻址的老软件兼容(如使用BIOSInt13H接口的软件),厂商通常在硬盘控制器内部安装了一个地址翻译器,由它负责将老式3D参数翻译成新的线性参数。这也是为什么现在硬盘的3D参数可以有多种选择的原因(不同的工作模式可以对应不同的3D参数,如LBA、LARGE、NORMAL)。而随着磁盘密度的增加、机构的进一步复杂、功能和速度上的提高,如今的硬盘都会在磁盘里面划分出一个容量比较大的,称为“系统保留区”的区域,用于储存硬盘的各种信息、参数和控制程序,有的甚至把硬盘的Fireware也做到了系统保留区里面(原来这些信息都是储存在硬盘控制电路板的芯片上的)。这样虽然可以进一步简化生产的流程,加快生产速度和降低生产成本,但是从另一方面,却又大大增加了硬盘出现致命性损坏的几率和缩短了硬盘的使用寿命。

恢复数据的原理和方法

发觉硬盘故障,需要恢复数据的时候,第一步所要做的就是检测,判断磁盘的故障原因和数据损坏程度

只有明确磁盘的损坏程度和故障原因,才能采取正确的步骤恢复数据:

硬盘内部故障,表现形式一般是CMOS不能识别硬盘,硬盘异响,那么可能的故障原因物理磁道损坏、内电路芯片击穿、磁头损坏等等,可以采用的修复手段有:内电路检修、在超净间内打开盘腔修复,这种情况只能送到专业的数据恢复公司。

硬盘外电路故障,如果CMOS不能识别硬盘,硬盘无异响,那么可能的故障原因是外电路板损坏、芯片击穿、电压不稳烧毁等等,可以采取的手段是外电路检修,或者更换相同型号的硬盘的电路板,一般需要送到专业的数据恢复公司。

软故障,如果CMOS能识别硬盘,一般是硬盘软故障,破坏原因一般是系统错误造成数据丢失,误分区、误删除、误克隆、软件冲突、病毒破坏等等,可以采用的方法有专用数据恢复软件或者人工方式。

下面具体讲解软故障的数据恢复方法 1.确认数据丢失的故障原因

1.硬盘数据丢失,故障原因包括:

病毒破坏,误克隆,硬盘误格式化,分区表失丢,误删除文件,移动硬盘盘符认不出来(无法读取其中数据,硬盘零磁道损坏),硬盘误分区,盘片逻辑坏区,硬盘存在物理坏区。

2.文档数据损坏,如Office 系列数据文件损坏,Zip、MPEG、asf、RM 等文件数据损坏。

2.根据故障原因,采用相应的手段和步骤

1.备份数据,根据数据的重要程度,决定是否需要备份数据,备份数据的一般步骤是

1.卸下损坏硬盘,接到另外一台完好的机器,注意新机器上有足够的硬盘空间备份

2.使用ghost的原始模式(raw),一个扇区一个扇区的把损坏磁盘备份到一个镜像文件中。如果硬盘上有物理坏道,最好是采用ghost的方式制作一个磁盘镜像,然后所有的*作都在磁盘镜像上进行,这样可以最大限度的保护原始磁盘不被进一步损坏,可以最大限度的恢复数据。——我猜想作者是说把磁盘内容克龙到另一块磁盘上做恢复的做作,以避免在原磁盘的写*作。

3.修复硬盘数据。修复硬盘数据有2种类型,一种直接在原始硬盘修改,一种是把读出数据存储到其他的硬盘上。基本思路就是就是根据磁盘现有的信息最大限度的推断出丢失的分区和文件系统系统的信息,把受损的文件和系统还原,所以如果信息损失太多,那么是不可能恢复数据的。比如错误删除一个文件后,随即又拷贝了较大的文件过来,那么多半是被删除的文件被新拷贝过来的文件所覆盖,几乎是无法恢复了。

一个常识就是,如果想要恢复数据,那么不要在出问题的磁盘上运行scandisk或者Norton Disk Doctor等直接修复文件系统错误的软件,切记。

零磁道,MBR和分区表DPT:

零磁道处于硬盘上一个非常重要的位置,硬盘的主引导记录区(MBR)就在这个位置上。零磁道一旦受损,将使硬盘的主引导程序和分区表信息遭到严重破坏,从而导致硬盘无法自举。MBR:

当通过Fdisk或其他分区工具对硬盘进行分区时,分区软件会在硬盘0柱面0磁头1扇区建立MBR(Main Boot Record),即为主引导记录区,位于整个硬盘的第一个扇区,在总共512字节的主引导扇区中,主引导程序只占用了其中的446个字节,64个字节交给了DPT(Disk Partition Table硬盘分区表),最后两个字节(55 AA)属于分区结束标志。主引导程序的作用就是检查分区表是否正确以及确定哪个分区为引导分区,并在程序结束时把该分区的启动程序调入内存加以执行。DPT:

分区表DPT(Disk Partition Table),把硬盘空间划分为几个独立的连续的存储空间,也就是分区。分区表DPT则以80H或00H为开始标志,以55AAH为结束标志。分区表决定了硬盘中的分区数量,每个分区的起始及终止扇区、大小以及是否为活动分区等。

通过破坏DPT,即可轻易地损毁硬盘分区信息。分区表分为主分区表和扩展分区表。

主分区表位于硬盘MBR的后部。从1BEH字节开始,共占用64个字节,包含四个分区表项,这也就是为什么一个磁盘的主分区和扩展分区之和总共只能有四个的原因。每个分区表项的长度为16个字节,它包含一个分区的引导标志、系统标志、起始和结尾的柱面号、扇区号、磁头号以及本分区前面的扇区数和本分区所占用的扇区数。其中”引导标志”表明此分区是否可引导,即是否活动分区。当引导标志为”80″时,此分区为活动分区;”系统标志”决定了该分区的类型,如”06″为DOS FAT16分区,”0b”为DOS FAT32分,”63″为UNIX分区等;起始和结尾的柱面号、扇区号、磁头号指明了该分区的起始和终止位置。分区表项的16个字节分配如下: 第1字节: 引导标志

第2字节: 起始磁头

第3字节: 低6位为起始扇区, 高2位与第4字节为起始柱面 第4字节: 起始柱面的低8位 第5字节: 系统标志 第6字节: 终止磁头

第7字节: 低6位为终止扇区, 高2位与第8字节为终止柱面 第8字节: 终止柱面的低8位

第9-12字节: 该分区前的扇区数目 第13-16字节: 该分区占用的扇区数目

扩展分区作为一个主分区占用了主分区表的一个表项。在扩展分区起始位置所指示的扇区(即该分区的第一个扇区)中,包含有第一个逻辑分区表,同样从1BEH字节开始,每个分区表项占用16个字节。逻辑分区表一般包含两个分区表项,一个指向当前的逻辑分区,另一个则指向下一个扩展分区。下一个扩展分区的首扇区又包含了一个逻辑分区表,这样以此类推,扩展分区中就可以包含多个逻辑分区。为方便说明,我们把这一系列扩展分区和逻辑分区分别编号,主扩展分区为 1号扩展分区,第一个逻辑分区表所包含的两个分区分别标为 1号逻辑分区和 2号扩展分区,依次类推。

主分区表中的分区是主分区,而扩展分区表中的是逻辑分区,并且只能存在一个扩展分区。FS即文件系统,位于分区之内,用于管理分区中文件的存储以及各种信息,包括文件名字,大小,时间,实际占用的磁盘空间等。windows 目前常用的文件系统包括FAT12,FAT16,FAT32和NTFS系统。

DBR(Dos Boot Record)是*作系统引导记录区。它位于硬盘的每个分区的第一个扇区,是*作系统可以直接访问的第一个扇区,它一般包括一个位于该分区的*作系统的引导程序和相关的分区参数记录表。

簇,是文件系统中最小的数据存储单元,由若干个连续的扇区组成,硬盘的扇区的大小是512字节(几乎是用于所有的硬盘),也就是既是一个字节的文件也要分配给它1个簇的空间,剩余的空间都被浪费了,簇越小,那么对小文件的存储的效率越高,簇越大,文件访问的效率高,但是浪费空间比较严重。FAT(file allocation table)即文件分配表,记录了分区中簇的的使用情况,FAT表的大小与硬盘的分区的大小有关,为了数据安全起见,FAT一般做两个,二FAT为第一FAT的备份,用于FAT12,FAT16,和FAT32文件系统。

DIR是DIRECTORY即根目录区的简写,根目录区存储了文件系统的根目录中的文件或者目录的信息(包括文件的名字,大小,所在的磁盘空间等等),FAT12,FAT16的DIR紧接在第二FAT表之后,而FAT32的根目录区可以在分区的任何一个簇。MFT(Master File Table)是NTFS中存储有关文件的各种信息的数据结构,包括文件的大小,时间,所占据的数据空间等等。

以FAT32为例,FAT32分区的的0-2扇区为FAT32文件系统的DBR即引导扇区,3-5扇区为0-2扇区的备份。6-31扇区为空,32扇区开始为第一个FAT表,FAT表的大小与硬盘的分区的大小有关。随后是第2个FAT表,剩余的空间都是实际的文件所占用的,包括目录和文件。FAT32文件系统的根目录并不一定是数据区的第一个簇,它可以位于数据区的任何一个簇,这也是FAT32的根目录大小不在受255个文件限制的原因,这也是FAT32的文件名可以支持长文件名的原因之一。

分区表丢失,表现为硬盘原先所有分区或者部分分区没了,在磁盘管理器(winxp win2000 win2003)看到未分区的硬盘或者未分区的空间。有多种可能:

病毒,当年的cih病毒会用无效的数据填充分区表和第一个分区的数据,这种情况下,从前面介绍的分区的性质来看,c盘的数据很难恢复,而随后d盘和e盘等分区的实际数据并没有被破坏,而仅仅是分区表丢失而已,所以只要找到D盘和E盘等分区的正确的起始和结束位置,很容易恢复。

重新分区,使用fdisk对磁盘重新划分空间分布,那么原来的分区表被新的分区表取代,这个时候,同样是原来分区的数据没有损坏,仅仅是分区表指向了不正确的位置。

误删除文件的恢复

误删除文件的恢复的原理是什么呢?为什么删除文件后,又可以恢复回来?是不是所有的删除的文件都可以恢复?

当我们存储一个文件的时候,*作系统首先在一个记录所有空间使用情况的表格中,找到足够容纳我们的新文件的空间,然后把文件内容写到相对应的硬盘扇区上,最后在表格中标出该空间被占用了。

当我们删除一个文件的时候,一般并不对实际文件所占用的扇区进行*作,而是仅仅在该表格中指明那些空间是空白的了,可以分配给别的文件使用。在这个时候,被删除的文件的实际内容并没有受到破坏,可以恢复回来。如果我们删除一个文件后,又重新创建了一个文件,那么被删除文件所占用的扇区就有可能被新创建的文件所使用,这时候就无法恢复原来被删除的文件了。所以一旦错误的删除了文件,必须注意的就是不要对该文件所在的分区进行写*作了,否则有可能覆盖原来删除的文件,从而导致数据无法恢复。

对于误删除的文件,我们有很多选择,如finaldata,recover4all,easyrecovery,这些软件使用很简单,直接按照向导的指示就可以了。

下面介绍一种手工恢复被删除数据的方法,特别是使用这种自动化的方法恢复无效的时候,这种方法适合恢复有明显特征的结构简单的文件,如文本文件,如果格式复杂,就需要写一个类似的程序来恢复了。原理就是直接在分区中寻找被删除的文件的内容。

一个实例就是微软公司的vc6,vc6的ide有一个bug,一直没有修复,就是存储写好的程序代码的时候,偶然会弹出一个对话框说无法存储文件,这个时候必须再存一次才可以,如果你直接关闭vc6,就会发现刚才那个文件被删除了(这个bug是微软确认的,一直到vc6的sp5补丁也没有修复)。

我的一个朋友使用vc6的时候遇到了这个bug,而且他以为vc6出了问题,直接关闭了vc6,结果很费劲才调试好的很长的一的文件就失踪了。我首先试用了finaldata和easyrecovery,结果找出很多以前删除的文件,就是没有需要的。没有办法的情况下,只好使用强行搜索的方法了

1.运行winhex,选择tools菜单中的opendisk,选择误删除的文件所在的逻辑盘c盘,2.选择search菜单,使用find text命令,在打开的c盘上直接搜索程序代码中的特征串“增加了处理Reg_Expand_SZ”,3.经过一段时间后,把找到的代码所在扇区的前后几个扇区全部复制下来,拷贝到一个新的文件中,这样就找回了原来的代码。

对于恢复结构性很强的文档,如果自动化的方式不起作用,可以写一个小程序来搜索的同时加以判断,或者直接利用winhex提供的接口写一个脚本,如果数据很重要,这样的手段也是很需要的。如果文件分散在分区的多个位置,还需要根据文档的内部结构来重新组织文档,才能彻底恢复数据。

面向知识的数据中心研究 第3篇

关键词:数字化校园;知识型数据中心

一、引言

以计算机技术为核心的信息技术在高等院校的应用越来越来深入,受益于网络技术、多媒体技术、数据库等技术,师生员工置身于数字化环境之中。高等院校的信息化建设已确立了以“数字化校园”为目标的整体建设原则。数据中心作为数字化校园的一个不可或缺的组成部分,是一项基础性、长期性和经常性的建设工程。

目前,国内很多高校在数据中心建设中作了大量有意义的探索与尝试,有效地整合与集成了业务数据,但多数都是针对局部应用和事务处理的,还无法满足面向主题和数据分析的需求,没有建立起总体的数据体系框架,无法实现以数据流驱动应用流。

本文分析了数据中心应具备的主要功能,并在此基础上提出了一个面向知识的数据中心模式,分析了其特点,描述了知识型数据中心的工作流程,简述了知识型数据中心的主要设计思想及关键问题。

二、知识型数据中心的引入

1.数据中心的主要功能。

在数字化校园中,数据中心发挥着关键性的数据支撑作用。高校数据中心应具备以下几种主要功能:

(1)建立数据标准。依据国家数据标准、教育部数据标准,结合高校自身特点,制订适应本校特定环境的标准数据格式及数据词典。

(2)定义系统接口标准。为各应用系统的对接设置标准,建立稳定可靠、可扩展的运行环境,为新技术、新应用的无缝接入提供保障。实现数据资源和应用服务的安全性、共享性和有效性。

(3)存储历史数据。实现历史数据的分粒度的永久存储,满足数据的重复利用和分析与挖掘的需求。

(4)提供公共数据平台。建立公共的基础数据平台,提供有效的数据共享,满足不同的事务处理需求。

(5)迁移和转换数据。提供异类(异构)系统间的数据迁移工具,完成校园各系统间以及与外部的数据抽取、转换和装载的工作。

(6)构建面向主题的数据存储模式。按照数据仓库的设计思想,按主题性存储数据,为决策提供可靠而有效的支持。

2.知识型数据中心的提出。

高等教育理念不断更新,教育资源日渐丰富,管理模式愈加科学规范,数字化程度越来越高,高校的数据处理不仅面向事务处理,更应具备决策支持能力。处于知识经济时代,高校数据中心应能够为学校的决策提供知识支持与服务。高校数据中心必须是体系结构化的,是知识型数据中心。因此,针对上述数据中心的主要功能分析,高等院校的数据中心应该以信息为基础,以数据为导向,不但具有事务处理功能,更应具有分析与挖掘功能,能够支持教学、科研和管理等方面的决策。

与建设初期的高校数据中心相比较,知识型数据中心主要具有如下新特点:

(1)数据存储是面向主题的、集成的、非易失的、随时间不断变化的。

(2)提供决策支持功能,学校的决策者成为一个主要服务对象。

(3)除操作性数据库和分析型数据库外,会逐步生成知识型数据库,作为事务处理和决策支持的参考依据。

(4)设计与实现过程应是基于启发式与探索式的,采用螺旋式有序的反复,逐步进行。

(5)操作型数据与分析型数据有机结合,相互作用、相互转换。

(6)数据按照不同层次、不同粒度存储。

三、知识型数据中心的设计

1.知识型数据中心的工作流程。

知识型數据中心的工作流程是建立在业务应用系统之上的、面向决策的流程。该流程充分体现了数字化校园系统是以“数据”为系统支撑中心的特征。其中,业务应用系统是指学校所有涉及数据管理的业务应用系统,如人事管理系统、科技管理系统、教务管理系统等。数据中心是以数据流为驱动的。

数据仓库是面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员的决策。因此,知识型数据中心是以数据仓库为技术核心,以学校决策所需的对象为主题,为决策支持系统提供后台数据源。

2.知识型数据中心的设计与建设基本思想。

知识型数据中心是以数据仓库体系为核心、业务数据库为基础的数字化校园的后台数据支撑体系。在确定知识型数据中心的需求时,必须要注意的是数据中心面向的是决策和分析过程,这就导致了数据中心的需求并不是在初始阶段就十分明确,这种需求只有在已经装载了部分数据并开始使用时才能呈现得更加清楚,并且会不断的追加与更新。因此,知识型数据中心只能在启发式下进行建造,即在建造过程中一个阶段的开发完全要依赖于上一阶段所获得的结果。

一种切实可行的建造思想是“迭代式”建造过程,其基本思想为:首先建造数据中心的一部分,并载入一部分数据供决策分析人员来使用和查看,之后根据用户的最终反馈,修改数据或添加其他数据,并开展数据中心另一部分的建造过程,如此继续。

最后,在知识型数据中心设计过程中,必须实现操作型数据和信息型数据的分离。这种分离的主要原因在于:

(1)在数据存储结构上,用于业务操作型需求的数据异于用于支持分析型或是知识信息型的。高校中的各种业务数据多数都是状态数据,是面向特定应用的局部数据。而服务于信息型或分析型的为学校各级决策者所关心的数据是主题数据,是全局的、多维的、多层次的数据。因此,这两类数据要采用不同的数据模型。

(2)在数据处理技术上,操作型处理和分析型(或信息型)处理之间有着根本上的区别。操作型数据的处理主要是状态的更新,而信息型数据的处理则主要是数据的转换和集成;从时间上看,操作型数据的处理是实时的,而信息型数据的处理是定期的。操作型数据采用联机事务处理技术,信息型数据采用联机分析和数据挖掘技术。

(3)在用户群体上,以往的业务操作型数据是面向学校普通管理人员以及最终用户师生员工,而信息型数据将主要面向学校的信息分析者和各级决策者。

四、结语

数据中心是数字化校园建设的一个重要数据支撑体系。本文引入了最新的数据库与数据仓库技术,提出了知识型数据中心,为高校信息化建设提供了一个有效的途径。通过知识型数据中心的合理设计与建设,必将有助于加固并扩展校园数字化框架,有益于提升数据中心的学校管理与决策支持能力。

参考文献:

[1]许鑫,徐斌,陈俊良.高校共享数据中心的设计[J].教育信息化,2004,(7).

[2]密君英.浅谈高校建立数据中心的作用[J].福建电脑,2009(2).

[3] William H.Inmon数据仓库[M].王志海等译.北京:机械工业出版社,2006.

国际数据库检索知识 第4篇

最近, 有不少细心的读者纷纷询问刊登在《实用妇产科杂志》封面右上角的CODEN SFZHA7是什么意思。SFZHA7是本刊的CODEN码。按国际惯例登在期刊封面的右上角, 国际标准刊号的下方。

CODEN (Code Number) 是美国ASTM (American Society for Testing and Materials) 制定的科技期刊代码系统, 被国际公认。美国《化学文摘》 (CA) 、《工程索引》 (EI Compendex) 、《乌利希国际期刊指南》 (Ulrich’sIPD) 等国际检索系统, 以及各国图书馆收藏部门均采用CODEN码进行文献/期刊识别。

空间数据库知识点总结 第5篇

1、数据:指客观事物的属性、数量、位置、及其相互关系等的符号描述。

2、信息:是数据的内容,信息=数据+数据处理

3、空间数据:是对空间事物的描述,实质上是指以地球表面空间位置为参照,用来描述空间实体的位置、形状、大小及其分布特征诸多方面信息的数据。是带有空间坐标的数据,包括文字、数字、图形、影像、声音等多种方式。

4、数据库:长期储存在计算机内的、有组织、可共享的数据集合。

5、空间数据库是指描述与特定空间位置有关的真实世界对象的数据集合。

6、空间数据类型:地图数据、影像数据、地形数据、属性数据

7、空间数据特征:时空特征、多维特征、多尺度性、海量数据特征

8、空间数据库的作用:①空间数据处理与更新②海量数据存储与管理③空间分析与决策④空间信息交换与共享。

9、空间数据管理模式现状(五种方式):文件管理方式、文件与关系数据库混合型空间数据库、全关系型空间数据库、对象-关系型空间数据库和面向对象空间数据库。

10、空间数据模型现状(三维数据结构分类):基于体描述的和基于面表示的数据模型及三维矢量、栅格、混合与面向对象的数据结构。

11、与传统数据库的差异:①信息描述差异②数据管理差异③数据操作差异④数据更新差异⑤服务应用差异。

12、空间认知:是对现实世界的空间属性包括位置、大小、距离、方向、形状、模式、运动和物体内部关系的认知,是通过获取、处理、存储、传递和解译空间信息,来获取空间知识的过程。

13、空间类型表现形式:①感知空间②认知空间③符号空间④物理空间⑤感觉运动空间。

14、空间认知模式:①空间特征感知:空间特征感知发生于感知空间;②空间对象认知:空间对象认知发生于认知空间;③空间格局认知:空间格局认知发生于符号空间。

15、现实世界认知过程:现实世界(是存在于人们头脑之外的客观世界)观察抽象为概念世界(是现实世界在人们头脑的反应)在经过定义编码模型化为数字世界(是概念世界中的信息数据化)。

16、空间认知三层模型:①空间概念数据模型:是关于实体与实体间联系的抽象概念集,有矢量数据模型、栅格数据模型,矢量-栅格一体化数据模型②空间逻辑数据模型:表达概念模型忠数据实体及其间关系,常用的有层次模型、网络模型和关系模型③物理数据模型:描述数据在计算机中的物理组织、存储路径和数据库结构。

17、空间实体:空间数据中不可再分的最小单元现象。分为点实体(表示零维空间实体)、线实体(表示一维空间实体)、面实体(表示二维空间实体)、体实体(表示三维空间实体)。

18、矢量数据描述特点:矢量方法强调离散现象的存在,把现实世界的空间实体抽象地看作是由平面上的点、线、面三种基本空间目标组成。①点:由一对地理坐标定义,可以用来代表位置信息。②线:用一连串有序的两个或多个坐标对点集合来表达对于本身宽度在研究中可以忽略的线状空间对象。③面:对于面状区域则是通过对边界线的定义来进行的。

19、矢量数据的结构主要有spaghetti结构(ESRI公司的shapefile格式)和拓扑矢量数据结构。

20、拓扑矢量数据结构:最基本的拓扑关系有:关联、邻接、包含。拓扑关系表示为:结点拓扑关系、线拓扑关系、多边形拓扑关系。

21、栅格数据取值方法:中心归属法、面积占优法、长度占优法、重要性法。

22、栅格数据存储方法:全栅格式存储、链式编码、行程编码、块式编码、四叉树编码。

23、空间关系:空间目标之间在一定区域上构成的与空间特性有关的联系,分为:拓扑关系、度量关系、顺序关系。拓扑关系指:拓扑变化下的拓扑变量,如空间目标关联、相邻与连通关系;度量关系指:用某种度量空间中的度量来描述的目标间的关系,如长度、大小、面积、体积;方位关系用来描述目标在空间中整体和局部的某种顺序关系,如前后、上下、左右等。

24、Geodatabase空间对象模型基本元素:对象类、要素类、要素数据集、关系类、几何网络类、Domains、Validation Rules、Raster Dataset、TIN Dataset。

25、TIN模型:由不规则分布的数据点连成的三角网组成,是一种基于三角形的空间镶嵌模型,三角形的形状和大小取决于不规则的观测点或称结点的密度和位置。

26、LOP优化原则:运用Delaunay三角网的性质对由两个有一公共边的三角形组成的四边形进行判断。

27、TIN生成的算法:逐点插入法、分治算法、三角形生长法。

28、Grid(规则格网)模型:每个网格的数值有两种解释:网格栅格观点(网格单元的数值是其所有点的高程值)、点栅格观点(网格单元的数值是网格中心点的高程或平均高程值)。

29、三维空间构模方法:面模型(不规则三角网、网格、线框)、体模型(三棱柱、广义三棱柱、八叉树)、混合模型。

30、四面体网格:是将目标空间用紧密排列单不重叠的不规则四面体形成的网格来表示,其实质是2D TIN结构在3D空间上的扩展。

31、文件系统中,数据按其组成分为:数据项、记录、文件。

32、空间数据库系统:带有数据库的计算机系统,采用现代数据库技术来管理空间数据。

33、空间数据引擎:是用来解决如何在关系数据库中存储空间数据,实现真正的数据库方式管理空间数据,建立空间数据服务器的方法。

34、空间数据引擎作用:①与空间数据库联合,为用户提供空间数据服务;②提供开放的数据访问;③SDE对于外提供了空间几何对象模型。④快速的数据提取和分析;⑤SDE提供了连接DBMS数据库的借口。⑥与空间数据库联合可以管理海量空间信息。⑦无缝的数据管理,实现空间数据与属性数据统一存储。⑧并发访问。

35、空间数据引擎实例:mapinfo公司的spatialWare、arcgis空间数据引擎、supermap的XDSE。

36、ArcSDE的主要功能:高性能的DBMS通道;开放的DBMS支持;多用户;GIS工作流和长事务处理;丰富的地理信息数据模型;连续、可伸缩的数据库;灵活的配置。

37、空间数据组织:纵向分层组织、横向分块组织。

38、空间索引:在存储空间数据时,依据空间对象的位置和形状或空间对象之间的某种空间关系,按一定顺序排列的一种数据结构,包含空间对象的概要信息。

39、空间索引分类:树结构、线性映射、多维空间区域变换。从应用范围可分为动态索引和静态索引。典型空间索引技术包括R树索引、四叉树索引、网络索引 40、R树索引是一种高效的空间索引,是B树在多维空间的扩展,也是平衡树。采用空间聚集的方式把相邻近的空间实体划分到一起,组成更高一级的结点。

41、R树索引的特点:典型的R树索引每个结点所对应的存储空间和外存页面或其整数倍想对应,以此提高结点从外存到内存的交换效率。

42、R+树:是兄弟区域之间没有重叠的索引方法。特点:兄弟结点对应的空间区域没有重叠,使空间搜索效率提高。根结点至少有两个子结点;所有叶结点在同一层;叶结点中数据矩形允许并可能重叠。

43、SQL语言:标准的数据库查询语言,用于关系数据库管理系统的一种常见商业查询语言,是目前关系数据库管理系统领域的主流查询语言。功能:查询、操纵、定义、控制。

44、关系模型的扩展:突破关系模型中关系、允许定义层次关系和嵌套关系;增加抽象数据类型;增加空间谓词;增加适合于空间数据索引的方法。

45、关系模型扩展的优势:可以用统一的DBMS管理图形和属性数据;图形数据管理也可以享用DBMS在数据管理方面带来的优越性;图形数据的关系化表达,使其能享用客户机/服务器的优势。

46、空间选择查询:在地图上划出一个区域,查询该区域内所有空间数据。包括点查询、区域查询、最邻近查询。

47、空间查询步骤:过滤筛选步骤、细化步骤。

48、执行查询分析的类型:属性查询、空间查询、空间分析。

49、元数据:数据的数据。提供关于空间数据的信息,是关于数据和信息资源的描述信息。

50、空间元数据:各类空间数据描述的集合。描述地理信息数据集内容、表示、空间参考、质量以及管理的数据。

51、数据字典:描述数据集中的部分内容。

52、空间数据交换:将一种数据格式转换为另外某种数据格式的技术。转换内容包括:空间定位信息、空间关系信息、属性信息。

53、空间数据交换方式:外部数据交换模式、直接数据访问模式、基于空间数据转换标准的转换、空间数据互操作模式。

54、空间数据库设计原则:①空间数据库设计与应用系统设计相结合的原则;②数据独立性原则;③共享度高、冗余度低原则;④用户与系统的接口简单性原则;⑤系统可靠性、安全性与完整性原则;⑥系统具有重新组织、可修改与可扩充性原则。

大数据思维与图书馆知识资源发现 第6篇

关键词:大数据思维;小数据;图书馆;知识资源;发现服务

中图分类号: G250 文献标识码: A DOI:10.11968/tsyqb.1003-6938.2015022

Big Data Thinking and the Discovery of Knowledge Resources in Library

Abstract Big data times make people rethink of the value of data and the pursuit of causalty shifts to the pursuit of relevance in problem solving. The traditional services of libraries in the discovery of knowledge need changes in implementation steps and karketing strategies.

Key words big data thinking; small data; library; knowledge resources; discovery service1 引言

随着大数据在人们认识中的概念加深和在社会发展中的拓展应用,对于公众特别是从事数据生产、处理与应用工作的信息工作从业者来说,大数据已不陌生,它在一些政务管理、市场营销、智能交通、智慧城市等领域的经典案例也被广为传播,大数据成为当代继Web、云计算之后的又一热门词。然而,对于以信息为生存基础的图书馆和图书馆员来说,大数据究竟对我们的工作意味着什么?

目前,图情界已经对大数据及其在图书馆的应用实践、障碍困难、发展前景等展开了广泛的研究与讨论,笔者仅在中国知网以“图书馆”&“大数据”为主题词进行检索(检索时间:2015年2月10日),就发现有532条相关文献,且这些文献的发表时间主要集中在过去两年(2013年和2014年),由此可知我国图情界过去两年对大数据注入了巨大的研究热情。对这些文献进行简单梳理,发现它们主要从大数据对图书馆的影响、图书馆如何应对、图书馆大数据的收集与管理等角度进行推理研究,对于应用的案例则主要集中在大数据在营销、社会管理等领域的应用方面,缺少从图书馆价值体现的信息角度去讨论大数据时代的图书馆信息管理和服务,如知识组织与资源发现等,而这恰恰是笔者认为在大数据语境下,大数据思维能最早也最直接作用于图书馆的价值之所在。基于此,本文在概述大数据和大数据思维的基础上,着重从传统思维下的图书馆知识资源发现和大数据思维驱动下的图书馆知识资源发现比较入手,进而去研究大数据思维驱动的图书馆知识资源发现途径与策略。

2 大数据和大数据思维相关概述

2.1 大数据概述

2011年5月,全球知名咨询公司麦肯锡(Mckinsey and Company)发布了《大数据:创新、竞争和生产力的下一个前沿领域》[1]报告,首次提出了“大数据”的概念,并在报告中指出“数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。之后,《纽约时报》、《华尔街日报》、《自然》等对大数据进行了专栏介绍,但时至今日,业界对大数据的概念并无统一认识,且不同的研究领域和价值判断视角使其的内涵变得更为宽泛,如从“Big data”字面所引申的概念来看,大数据无疑就是“大”数据,其“大”既体现在数量上,也体现在其组成分布、数据结构上;而从大数据的挖掘和应用来看,大数据则更可能是价值巨大的体现和概括。但无论其在具体的表达中如何界定和描述,我们都认为大数据既是丰富的数据组织机构、分布形态属性描述,也是巨大的应用价值属性描述。为此,业界总结了大数据的价值之所在,如IBM和IDC认为大数据具有多“V”特征,即种类(Variety)多、速度(Velocity)快、容量(Volume)大[2]、价值(Value)高[3],NetApp认为大数据具有"A、B、C"(分析〈Analytic〉、带宽〈Bandwidth〉和内容〈Content〉)三大要素特征[4]。

2.2 大数据思维

在传统的思维模式下,发现问题——分析问题——解决问题是永恒的因果思维模式,即使有一些防患于未然的预防、预警措施,但问题的解决往往主要集中于事后而不是事前,因果关系成了传统思维的主要推理与演绎思维。但随着美国信息高速公路计划的推出和现代互联网环境的出现,使得人们的思考与解决问题方式有了质的改变,以网络体验——话题传播——问题发现——新的体验为循环思维的互联网思维随之出现。大数据的出现则又使得人们的思维方式发生了质的变化,其变化正如维克托·迈尔·舍恩伯格在《大数据时代:生活、工作与思维的大变革》中最具洞见的观点描述的一样,即大数据时代最大的转变就是放弃对因果关系的渴求,取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”[5]。

复旦大学陈宇新教授认为从营销学的角度来看,大数据其实也是营销科学导向的自然演化,其主要包含了定量思维、相关思维和实验思维等三个纬度。第一,定量思维,即提供更多描述性的信息,其原则是一切皆可测。不仅销售数据、价格这些客观标准可以形成大数据,甚至连顾客情绪(如对色彩、空间的感知等)都可以测得,大数据包含了与消费行为有关的方方面面;第二,相关思维,一切皆可连,消费者行为的不同数据都有内在联系。这可以用来预测消费者的行为偏好;第三,实验思维,一切皆可试,大数据所带来的信息可以帮助制定营销策略[6]。沃尔玛的“啤酒+尿布”典型案例则很好的体现出了这三个维度特征。

3 大数据思维与图书馆知识资源发现

3.1 图书馆和大数据:认识与应用

综上,我们可以认为大数据既是一种技术,也是一种丰富数据的概括,更是一种发现事物发展本质的思维。对社会信息中心和知识存储中心的图书馆来说,这种思维范式改变的不仅将是图书馆用户的信息利用、知识显现和潜在需求,也要求图书馆借助大数据技术和思维,从信息的视域去发现满足用户的服务途径和方式。图书馆学术界也意识到了这一视角,但从已有的研究文献来看,业界对图书馆大数据的认识存在一定局限,这或许将为图书馆未来的应用形成障碍。如有学者将具有数量大属性的图书馆文献数据认为是图书馆大数据,这说明业界对大数据的认识还并不深刻和统一。

笔者以为对图书馆来说,大数据既包含了现有的数据库、MARC等结构化数据,也包含了能够反映用户借阅习惯的RFID、Cooki等网络数据,还包含了可以帮助图书馆挖掘用户潜在需求的智能终端设备输出等数据,现有的海量数据和澳大利亚“图书馆立方”项目的成功应用,说明图书馆不仅具备了收集大数据的基础,也有了应用大数据的成功经验积累。

3.2 互联网时代的图书馆知识资源发现:方式与不足

图书馆的资源发现随着社会发展而不断变化,在互联网时代,随着语义化等现代信息技术的发展和图书馆服务平台的建设,图书馆的知识资源发现服务早已不再是数目卡片查找、口口相传等方式,以服务平台和现代信息技术推动着这一服务的发展,其中以基于语义聚焦爬虫、领域本体、RDF查询语言和关联数据的语义化知识资源发现[7]与以Summon、Primo、EDS、Worldcat Local和Encore为代表的资源发现系统是其实现的主要方法与途径。

王思丽等[7]在对比语义化知识资源发现方法后,认为以上几种典型的语义化知识资源发现方法尽管特点不一,应用都较为广泛,但也各自存在这一定的局限,如基于领域本体的知识资源发现方法一直以来都是知识发现领域的研究重点,并随着本体开发工具和技术以及语义标注工具和技术的不断改进而逐渐完善和优化。但由于构建领域本体需要巨大的领域知识库和具有相关领域学科知识背景的支持,而复用领域本体也需要有相关本体技术知识的支持,一般用户很难将基于领域本体的方法运用自如,一般都是图书馆或相关学术研究机构的资源建设团队在整体运作。而对图书馆知识资源发现系统来说,也是由于各个发现系统的依赖资源都有一定的局限,故资源的关联和发现都只是在其可以获取的资源范围内,同时如接口与标准化差异、需求场景不同导致各个系统都存在一定的进一步发展障碍。

3.3 大数据时代的图书馆知识资源发现:思维与范式

3.3.1 大数据思维影响下的图书馆知识资源发现

《大数据时代》作者、大数据研究专家舍恩伯格指出,人们在大数据时代对待数据的思维方式会发生三个变化:第一,人们处理的数据从样本数据变成全部数据;第二,由于是全样本数据,人们不得不接受数据的混杂性,而放弃对精确性的追求;第三,人类通过对大数据的处理,放弃对因果关系的渴求,转而关注相关关系[5]。在上述思维转变的基础上,有学者还认为大数据思维其最关键的转变在于从自然思维转向智能思维,甚至智慧思维[8]。这些思维方式的转变对图书馆的知识资源发现服务来说,其将体现在如下三个方面:

首先,对原有图书馆物理服务空间环境下的借阅发现、网络环境下的语义检索发现等途径,将向对图书馆用户和资源全关联后的知识发现转变,且对图书馆用户和资源的关联挖掘,其数据不仅是对用户身份、学历、借阅需求的小数据分析,更可能是对用户借阅习惯、阅读领域、信息行为等多种数据的挖掘和分析;

其次,由于基于用户信息行为乃至生活行为的分析和挖掘,以致图书馆的知识资源发现服务可能并不满足于用户最需的科研文献推送等服务,而可能是概括了其可能感兴趣的生活如旅游、音乐等知识,使其不得不从这些服务中去挑选自己所需知识,服务的精准性有所降低,需用户不断的阈值设置与校正;

再次,图书馆知识资源的关联性增强,使得用户虽所需要的知识资源发现可能性增加,而这些文献可能需要特别的途径和代价获得,这就可能需要图书馆通过馆际互借等途径获得,以致图书馆不得不面临着诸多的挑战,如服务成本的增加、版权争议的风险、用户满意度的降低等。

3.3.2 大数据时代的图书馆知识资源发现实现阶段

从营销学的角度来看,运用大数据的递进层次为描述、预测和产生攻略[6]。这就启发对大数据时代的图书馆知识资源发现服务策略来说,也需要经历这三个阶段和层次:

第一阶段:基于数据的行为描述。结合图书馆用户进行用户兴趣、研究凌领域的分析与需求挖掘,就必须依赖于海量的描述用户行为数据,如用户的借阅历史、科研记录、学习网站的访问频率与种类等。掌握和采集可描述用户特征的异构数据,则可借助一定的仪器和设备,如美国迪斯尼公司最近投资了10亿美元开发出了MagicBand手环进行线下顾客的跟踪和数据采集,游客在入园时佩戴上带有位置采集功能的手环,园方可以通过其来采集游客信息行为数据,还可通过定位系统了解不同区域游客的分布情况,并将这一信息告诉游客,方便游客选择最佳游玩路线。

第二阶段:基于描述数据的预测。基于描述数据的预测,其实就是基于海量有用数据的分析和挖掘利用过程,是图书馆应用应用大数据的关键阶段。在这个阶段,图书馆通过大数据分析平台如Hadoop来实现从对数据量的拥有到价值体现的过程,沃尔玛超市的“啤酒+尿布”就是从海量的用户购物数据中得出的经典营销策略案例。目前的社交网络在这一方面也进行了有益尝试,其通过社交网络分析与跟踪,将消费者社交网络上的关键词频率转化为可视化表达,对消费者进行分类,进而预测目标客群的消费水平、人际圈子、行为习惯等,实现从数据的描述想预测阶段发展。

第三阶段:基于预测结果的服务策略制定。通过预测结果,图书馆可以制定对应不同用户群体的服务策略,如对在校学生,其可能更需要可以帮助其提升学习效果的学习技巧类知识资源,而对于中老年用户其可能更需要养生保健知识资源。将这些用户群体的显著特征与预测模型相融合,图书馆就可以制定出科学的发现服务的实现策略,即营销理论的攻略制定。

参考文献:

[1]Big data: The next frontier for innovation, competition, and productivity[EB/OL].[2014-09-21].http://www.mck

insey.com/Insights/MGI/Research/Technology_and_Innov

ation/Big_data_The_next_frontier_for_innovation.

[2]MapR and Informatica Combine to Conquer Volume, Variety and Velocity of Big Data[EB/OL].[2014-09-21].http://www.dbta.com/Articles/Editorial/News-Flashes/-MapR-and-Informatica-Join-Forces-to-Tackle-Volume-Variety-and-Velocity-of-Big-Data-81231.aspx.

[3]IBM公司在大数据领域占有先机[EB/OL].[2014-09-01].http://it.hilizi.com/server/275232/372589013274b.shtml.

[4]NetApp .Big Data Solutions for Government[EB/OL].[2014-09-01].http://www.netapp.com/us/solutions/indust

ry/government/bigdata.html.

[5](美)维克托·迈尔·舍恩伯格.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.

[6]陈宇新.互联网思维PK大数据思维[EB/OL].[2015-02-03].http://mt.sohu.com/20140819/n403586440.shtml.

[7]王思丽,刘巍,祝忠明,等.语义化的知识资源发现方法探析[J].图书馆学研究,2014(9):2-6.

[8]大数据带来的四种思维[EB/OL].[2015-02-03].http://www.techxue.com/techxue-12814-1.html.

国际数据库检索知识 第7篇

最近, 有不少细心的读者纷纷询问刊登在《实用妇产科杂志》封面右上角的CODEN SFZHA7是什么意思。SFZHA7是本刊的CODEN码。按国际惯例登在期刊封面的右上角, 国际标准刊号的下方。

CODEN (Code Number) 是美国ASTM (American Society for Testing and Materials) 制定的科技期刊代码系统, 被国际公认。美国《化学文摘》 (CA) 、《工程索引》 (EI Compendex) 、《乌利希国际期刊指南》 (Ulrich’sIPD) 等国际检索系统, 以及各国图书馆收藏部门均采用CODEN码进行文献/期刊识别。

国际数据库检索知识 第8篇

最近, 有不少细心的读者纷纷询问刊登在《实用妇产科杂志》封面右上角的CODEN SFZHA7是什么意思。SFZHA7是本刊的CODEN码。按国际惯例登在期刊封面的右上角, 国际标准刊号的下方。

CODEN (Code Number) 是美国ASTM (American Society for Testing and Materials) 制定的科技期刊代码系统, 被国际公认。美国《化学文摘》 (CA) 、《工程索引》 (EI Compendex) 、《乌利希国际期刊指南》 (Ulrich’sIPD) 等国际检索系统, 以及各国图书馆收藏部门均采用CODEN码进行文献/期刊识别。

国际数据库检索知识 第9篇

最近, 有不少细心的读者纷纷询问刊登在《实用妇产科杂志》封面右上角的CODEN SFZHA7是什么意思。SFZHA7是本刊的CODEN码。按国际惯例登在期刊封面的右上角, 国际标准刊号的下方。

CODEN (Code Number) 是美国ASTM (American Society for Testing and Materials) 制定的科技期刊代码系统, 被国际公认。美国《化学文摘》 (CA) 、《工程索引》 (EI Compendex) 、《乌利希国际期刊指南》 (Ulrich's IPD) 等国际检索系统, 以及各国图书馆收藏部门均采用CODEN码进行文献/期刊识别。

国际数据库检索知识 第10篇

最近, 有不少细心的读者纷纷询问刊登在《实用妇产科杂志》封面右上角的CODEN SFZHA7是什么意思。SFZHA7是本刊的CODEN码。按国际惯例登在期刊封面的右上角, 国际标准刊号的下方。

CODEN (Code Number) 是美国ASTM (American Society for Testing and Materials) 制定的科技期刊代码系统, 被国际公认。美国《化学文摘》 (CA) 、《工程索引》 (EI Compendex) 、《乌利希国际期刊指南》 (Ulrich's IPD) 等国际检索系统, 以及各国图书馆收藏部门均采用CODEN码进行文献/期刊识别。

知识数据 第11篇

关键词:大数据 大数据知识服务 信息移动推荐 云图书馆 移动情境感知

中图分类号: G250.73 文献标识码: A 文章编号: 1003-6938(2013)04-0074-06

目前,大数据已经渗透到所有行业和领域。自2008年以来,麦肯锡、IDC、Gartner等战略咨询公司,《The New York Times》、《The Wall Street Journal》、《Forbes》等商业报刊,《Nature》、《Science》等科研杂志,《软件学报》、《中国计算机学会通讯》、《计算机学报》等国内学术期刊,都安排了大量版面对大数据进行介绍。大数据基础理论、学术环境和应用研究的火热给信息移动推荐领域的研究带来的新的思路、原则和方法,进一步将我们带入到了大数据信息化时代,从而会产生两个突出矛盾,一是可获取的信息量的爆炸性增长与用户选择信息能力的局限性之间的矛盾,二是同时共现的信息量的极度丰富和用户感兴趣信息局限性之间的矛盾[1]。这两个矛盾的核心科学问题,就是如何从大数据中挖掘出用户感兴趣的信息,并按照用户所喜欢的方式推荐给相应用户。基于此思想发展起来的信息移动推荐是融合当前各种先进技术的信息服务新模式,利用移动网络环境(移动互联网、无线传感网等)在信息推荐方面的优势并克服其带来的不利条件。孟祥武[2]、刘建国[3]、许海玲[4]、王立才[5]等已对移动推荐系统、个性化推荐系统、互联网推荐系统、上下文感知推荐系统的概念及研究进展做出了充分论述,指出信息移动推荐服务正成为大数据时代的重要研究课题,面向大数据的信息移动推荐服务模式是一种面向主动服务、提高信息利用率、解决“移动信息过剩”问题等的新模式和和新技术手段。

1 面向大数据的信息移动推荐服务的典型特征

面向大数据的信息移动推荐服务模型作为大数据知识服务体系的一个子集,除了拥有大数据知识服务的共性特征之外,在数字化、网络化、物联化、虚拟化、绿色化、智慧化及个性化(共性特征)的基础上,其更为突出的典型特征可以概括为:

(1)面向移动情境感知的推荐。用户行为模式和知识服务需求正随着智能手机、PDA、平板电脑等移动智能终端及移动信息环境的完善与普及发生着革命性的变革,为个性化推荐提供了丰富的情境信息。与传统的情境感知技术相比,面向大数据的移动情境感知更为强调RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等几个大数据主要来源的综合描述,而移动情境感知范围不仅包括大数据环境中的时间、地点、用户行为等基本信息,还包括各种类型的传感信息及物联信息等,通过综合分析移动情境感知的内涵、特征及运行機理,可以尽可能的还原大数据环境下用户行为模式和大数据网络环境的实时情境,借此分析、预测其知识服务需求,从而更好为信息移动推荐提供更全面、更可靠的情境模拟。

(2)面向大数据移动用户的物理世界真实反应的推荐。大数据环境下移动用户所拥有的一些自然属性与传统网络环境下的信息用户颇为不同:一是大数据移动环境下所有用户信息都是真实的(如移动用户都是采用实名制);二是大数据移动环境中的各种复杂结构化、半结构化和非结构化的大数据,直接反映的用户之间的移动社交网络关系,用户特征的共性关系、用户行为的相互关系、知识服务的因果关系等的整体特征隐藏在数据网络中;三是大数据移动环境中的用户的所有行为(如位置信息、行为信息、身份信息及行为过程等)都是用户在物理世界的社交活动中的真实反应。

(3)面向大数据移动用户行为预测的推荐。有研究表明,用户在移动网络中的行为会被许多微妙因素所影响[6],而通过用户在大数据移动环境中的行为轨迹及其在网络中社交关系的动态变化,可以对用户行为、用户情感、用户知识服务需求等进行分析、建模、预测。从而通过对用户在大数据移动环境的足迹、点击历史、浏览历史、信息反馈,直接真实的展示用户的性格、偏好、意愿等相关数据进行分析之后,帮助信息服务机构感知知识服务市场、感知用户需求和能力、感知未来发展形势等,以便信息服务机构对价值评估、服务能力和服务水平等做出更科学的决策,进而推荐更为合适的信息。

(4)面向多维大数据交叉利用的推荐。在大数据移动环境中,数据与数据之间的关系大体可分为三类:一是依赖关系,如用户的个人属性信息(如心情、位置、身份、电话、社交等数据)与用户个体之间,如果用户的个人属性信息与用户脱离,那么这些数据也就失去了真实意义;二是协作关系,如用户信息与交通信息(如航空数据、铁路数据、公路数据等)之间的关系,一旦用户准备出行,就必然会与交通信息之间产生交互,从而生成新的协作数据;三是交叉关系,如主要是针对社交网络(包括真实社交与虚拟社交),用户在大数据移动环境中,不可能只单独的使用某一种服务(如商业服务、信息服务等),他可能既上人人网、新浪微博与朋友们交流,上互联网看新闻,又在淘宝、京东、国美在线上购物,同时还与朋友们打电话、发短信,或者在网上搜索学术论文等等,而用户在这些过程中都会产生不同类型的数据,数据因为用户、用户行为或用户所处环境而产生交集,形成了多维数据交叉的复杂社交网络。

(5)面向社会化关系迁移的推荐。Sinha等曾于2001年提出,用户喜欢来自于周围朋友的推荐多过于信息推荐系统推荐的信息[7],而Salganik等也在2006年间接地验证了这一观点,他们认为在信息推荐体系中,通过对用户历史行为进行计算得出的信息服务需求不如社会影响力的重要性[8]。而面向大数据的信息移动推荐服务体系则是两者的有效结合,其信息移动推荐的结果可能是来自于类似于口碑相传的社会影响力、或通过对用户在大数据移动环境中的历史行为轨迹的分析,得出的信息移动推荐结果。这一点在传统的信息推荐体系是难以做到的。

3 面向大数据的信息移动推荐服务平台体系架构

3.1 信息移动推荐服务模型

本文给出了一个面向多用户、 基于主动服务、能商业、半商业或非商业运行的,面向大数据的信息移动推荐服务模型(见图1)。与传统的基于Web的信息推荐服务相比,面向大数据的信息移动推荐服务模型具有多个技术特征:①信息移动感知、获取、传输、存储、分析及决策的实时连续性;②数据的真实性、时空性、不同类型数据间的关联性;③信息移动推荐服务的即时性、即地性。

面向大数据的信息移动推荐模型在整个服务平台体系架构中显得颇为重要,它主要用以解决以下三个关键问题:

(1)信息移动推荐多维交互数据的感知、获取、传输、存储、分析及预测等服务的语义获取。通过大数据环境中部署的大规模、多类型、智慧型的传感网络实时感知物理世界中用户、信息、及其關系网络的原始活动、半活动及非活动数据,提取信息移动推荐服务过程中,多维交互数据的感知、获取、传输、存储、分析及预测等服务模型,建立相关的语义表示和关联模型,生成具有时空特征的抽象用户群体信息移动推荐一体化网络[9]。

(2)信息移动推荐多维交互数据的感知、获取、传输、存储、分析及预测等服务模式发现、模型构建及部署。通过信息移动推荐多维交互数据的时空特征,对用户、信息、及其关系网络的原始活动、半活动及非活动数据进行深度挖掘、分析,发现大数据的交互规律、模式及时空特性、时空规律,从而有效构建科学、合理地信息移动推荐服务模型,并进行针对性部署。

(3)信息移动推荐多维交互数据的感知、获取、传输、存储、分析及预测等服务在特定移动情境下的演化。在满足用户信息移动推荐的抽象模型和用户服务需求的基本假设等前提下,动态演绎信息移动推荐多维交互数据的螺旋式进化[10]过程,旨在感知、获取、传输、存储、分析及预测大数据环境中的用户、信息、及其关系网络在特定移动情境下的演化趋势[11],使信息移动推荐主体、客体及主客体间多维交互网络能够以预期模式进行应用及推广。

3.2 面向大数据的信息移动推荐服务平台体系架构

面向大数据的信息移动推荐服务平台为层次化体系架构(见图2),包括大数据资源层、中间件层、移动推荐核心服务层、推荐可视化交互层和移动推荐应用层。面向大数据的信息移动推荐服务平台则由中间件层、移动推荐核心服务层和推荐可视化交互层组成。其中:

(1)大数据资源层涵盖了数据资源(结构化、非结构化及半结构化数据等)、管理资源、移动推荐服务设计资源、仿真资源、集成资源、试验资源、计算资源、存储资源、网络资源及其他服务资源等,主要提供的是大数据知识服务全生命周期管理过程中所涉及到的各种类型的大数据,在经过处理后,成为面向大数据的信息移动推荐服务资源。

(2)中间件层支持面向各类大数据的信息移动推荐服务资源的虚拟化、服务化、协作化等,从而对信息移动推荐多维交互大数据的感知、获取、传输、存储、分析及预测等服务过程提供有效支持。

(3)移动推荐核心服务层基于中间件层所提供的接口,提供信息移动推荐服务体系最为重要的各种类型的大数据知识服务功能,包括移动推荐服务部署、注册、搜索、匹配、组合、优化、调度、运行、服务过程的负载均衡机制、容错处理、监控、评估、交易及协作等。

(4)推荐可视化交互层为信息移动推荐服务使用者、运营者、开发者、及提供者等提供一种支持异构协同大数据来源的高效能、可视化支撑门户平台,以支持这三类用户的协同交互及使用。通过(移动或非移动)Web可视化入口,均可为用户提供一系列信息移动推荐服务资源和能力。

(5)移动推荐应用层提供支持单主体完成单领域信息移动推荐、多主体协同完成单领域信息移动推荐、单主体完成跨领域信息移动推荐、多主体协同完成跨领域信息移动推荐、多主体协同完成跨领域跨终端信息移动推荐等五种服务模式。参与交互的移动推荐应用层除了支持传统的移动终端、PC终端、专业终端及门户等之外,物联感知终端、生物体验终端及其他隐形终端也是未来大数据处理需求的新兴技术体系。

4 面向大数据的信息移动推荐服务的关键技术

面向大数据的信息移动推荐服务模型所涉及的关键技术大致可以分为:

(1)模式、体系架构、各类标准及规范。主要是从系统开发的角度出发,研究面向大数据的信息移动推荐系统的结构、内涵、运行机理、组织、运行及服务模式等方面的技术,同时研究支持实施面向大数据的信息移动推荐服务的相关标准和规范。包括:①支持多主体的、跨领域的、面向大数据的信息移动推荐体系结构;②大数据环境下信息移动推荐服务的交易、协作、监测、评估、互操作模式;③面向大数据的信息移动推荐服务的相关标准、规范、协议、方法等,如大数据采集、分类、组织、分析、处理规范、移动推荐核心服务层交互及互操作接口标准规范、感知与接入规范、描述规范、信息移动推荐服务许可、授权标准规范及计费标准等;④面向大数据的信息移动推荐服务组合建模、描述、一致性检查及可执行模式转化等;⑤面向大数据的信息移动推荐服务全生命周期管理模式。

(2)大数据互感、多源信息主动感知、增值及虚拟接入技术。大数据互感、多源信息主动感知等是实现面向大数据的信息移动推荐服务执行过程实时、离线信息主动推荐的前提和基础,其目标是针对信息移动推荐过程涉及到的多源信息的采集,在移动推荐过程中引入多传感技术,为实现不同信息移动推荐服务资源、能力的多源信息的智能互感提供技术支持,从而实现RFID射频数据、传感器数据、社交网络交互数据、移动互联数据等主要大数据来源的数据信息的动态有效获取、分析与预处理。包括:①大数据动态获取、组织、分析、预处理、处理等技术;②面向大数据的信息移动推荐服务资源、能力的虚拟化接入技术;③面向大数据的信息移动推荐服务过程中的多源信息的主动感知与增值技术,其中主动感知技术主要包括多层次服务事件数据模型与描述、服务过程主动感知模式、建模过程、多源移动推荐信息增值技术等部分,而多源实时、离线信息的增值主要基于规则库、组合运算、数据挖掘等方法实现,且面向多主体、跨领域的用户,提供基于实时、离线信息处理后的增值推荐信息;④支持参与面向大数据的信息移动推荐服务的底层移动、非移动终端物理设备虚拟化接入、软硬件互接入技术等;⑤信息移动服务定义封装、发布、虚拟化技术及相关根据研发等技术;⑥信息移动推荐服务请求接入和访问服务平台技术等。

(3)移动用户特征提取、相关信息检索及推荐信息排序技术。移动用户特征提取、相关信息检索及推荐信息排序技术是面向大数据的信息移动推荐服务模型的三个核心模块。移动用户特征提取模块通过获取移动用户的历史行为以及其他相关信息(年龄、性别、兴趣爱好、浏览过的信息、其他行为等)生成用户特征,以便推荐符合该用户兴趣的信息;相关信息检索模块在接受移动用户特征的基础上,快速找到该移动用户可能感兴趣的候选信息,从而生成推荐信息集合;推荐信息排序模块则采用机器学习算法,通过优化某一移动推荐指标(比如信息点击率、评分等),生成信息移动推荐服务模型,计算得出该移动用户对该推荐信息集合的认可度,并分别计算推荐信息集合中所有信息的认可度,然后按照某种移动推荐指标进行排序。包括:①移动情境感知中的用户行为轨迹、行为模式挖掘、用户行为、移动情境、用户情感、社交关系预测技术;②面向大数据的信息移动检索、预处理及索引构建技术;③移动用户与信息的相关度计算、信息移动推荐服务分类技术及移动用户信息服务需求智能化挖掘、分析及匹配等技术;④面向大数据的信息移动推荐服务的融合、管理、运行、优化及反馈等技术;⑤移动情境感知环境下多维交互大数据的时空交互语义获取、模式发现及在特定情境下的服务转化技术。

(4)信息移动推荐过程服务质量信息传感、监控、可信与安全推荐技术。主要研究和支持面向大数据的信息移动推荐服务的提供者、运营者、使用者、开发者等对信息移动推荐服务进行接入、发布、维护、组织与聚合、管理与调度、监测与评估等操作,包括:①信息移动推荐服务提供端软硬件资源和服务的传感、接入管理,如统一接口定义、注册与管理、认证管理、授权机制、访问控制等技术;②信息移动推荐的发布、维护、组织与聚合、管理与调度技术;③信息移动推荐服务的构建与部署、分解等技术;④移动情境感知终端的嵌入式可信硬件制造、移动推荐智能终端的可信接入、发布技术、可信移动网络构建、运营等技术;⑤信息移动推荐系统和服务的可靠性技术等。

(5)信息移动给推荐服务的效用评价技术。效用评价机制对于检验面向大数据的信息移动推荐服务模型的性能和发现其存在的问题来说十分重要,也是信息移动推荐服务体系不可或缺的技术之一。其主要研究信息移动推荐服务结果、服务模式综合评价及大数据感知、获取、组织、分析及预测等综合评价技术,而数据集和效用评价指标是两个重要的研究要素。获取与面向大数据的信息移动推荐服务相关的数据集,要比获取传统信息推荐系统相关的数据集更为困难,目前,公开可用的面向大数据的信息移动推荐服务的数据集很少,因此,如何获取真实、可靠、可用的数据集也是亟待解决的关键技术之一。而在确立数据集之后,使用数据集对信息移动推荐服务体系的性能进行评价时,评价指标则是首先需要解决的关键问题,如何制定科学、合理的评价指标同样应当成为待解决的关键技术之一。

(6)信息移动推荐服务的业务管理模式与技术。主要研究面向大数据的信息移动推荐服务模式下的业务与服务流程管理的相关技术,包括:①信息移动推荐服务漏乘的动态构造、运营、管理及执行技术;②信息移动推荐服务的成本构成、核算、计价、交易策略以及相应的支付模式等技术;③信息移动推荐服务体系中各方的信用管理机制及实现技术;④物理世界与虚拟世界的普适化人机交互技术。

图3所描述的技术体系,给出了每个技术小类的含义与主要内容,以及该服务模型所涉及到的部分关键技术。

5 结语

面向大数据的信息移动推荐服务体系将成为我国信息服务领域充分挖掘大数据资源、提升大数据知识服务核心竞争力的重要支撑手段,也是我国当前发展大数据知识服务领域需要探索的一个重要发展方向。由于面向大数据的信息移动推荐服务体系还是一个崭新的概念,其相关理论与技术在国内才刚刚起步,在国际上也属于前沿研究课题,如Netflix推出的基于大数据分析的个性化推荐系统架构[11]、阿里云推出的基于内容和行为的智能云推荐体系[12]。为促进我国面向大数据的信息移动推荐服务体系的研究、开发、实施、应用与推广,本文提出了一个面向多用户、 基于主动服务的面向大数据的信息移动推荐服务模型,建立了一种面向大数据的信息移动推荐服务的体系架构。

当前,面向大数据的信息移动推荐服务体系是一个具有前瞻性和现实性的前沿课题,它的实施与发展应该遵循“以需求为导向、以技术融合为重点、以协同创新为手段、以应用推广为目标”的指导思想。该服务体系的实现还需在应用需求牵引及相关技术的推动下,开展大量的理论与实践的研究工作。

参考文献:

[1]周涛,陈恩红.推荐技术与互联网广告[J].中国计算机学会通讯,2013,9(3):6-7.

[2]孟祥武,胡勋,王立才等.移动推荐系统及其应用研究[J].软件学报,2012,(8):1-18.

[3]刘建国,周涛,汪秉宏.个性化推荐系统的研究进展[J].自然科学进展,2009,19(1):1-15.

[4]许海玲,吴潇,李晓东等.互联网推荐系统比较研究[J].软件学报,2009,20(2):350-362.

[5]王立才,孟祥武,张玉洁.上下文感知推荐系统[J].软件学报,2012,23(1):1-20.

[6]M. Granovetter. The strength of weak ties[J]. American Journal of Sociology,1973,78(6):1360-1380.

[7]R. Sinha, K. Swearingen. Comparing recommendations made by online systems and friends[A]. Proceedings of the DELOS-NSF workshop on personalizationand recommender systems in digital libraries[C].2001.

[8]M. J. Salganilk, P. S. Dodds, D. J. Watts. Experimental study of inequality and unpredictability in an artificial culturalmarket[J].Science,2006,(311):854-856.

[9]於志文,周兴社,郭斌.移动社交网络中的感知计算模型、平台与实践[J].中国计算机学会通讯,2012,8(5):15-20.

[10]唐杰,杨洋.移动社交网络中的用户行为预测模型[J].中国计算机学会通讯,2012,8(5):21-25.

[11]Xavier Amatrain,Justin Basilico. Netflix公布个性化和推荐系统架构[EB/OL].[2013-04-03]. http://www.csdn.net/article/2013-04-04/2814767-netflix-ml-architecture.

[12]云推薦[EB/OL].[2013-04-03].http://tui.cnzz.com/.

国际数据库检索知识 第12篇

最近,有不少细心的读者纷纷询问刊登在《实用妇产科杂志》封面右上角的CODEN SFZHA7是什么意思。SFZHA7是本刊的CODEN码。按国际惯例登在期刊封面的右上角,国际标准连续出版物号及国内统一连续出版物号的下方。

CODEN(Code Number)是美国ASTM(American Society for Testing and Materials)制定的科技期刊代码系统,被国际公认。美国《化学文摘》(CA)、《工程索引》(EI Compendex)、《乌利希国际期刊指南》(Ulrich's IPD)等国际检索系统,以及各国图书馆收藏部门均采用CODEN码进行文献/期刊识别。

上一篇:教师绩效考核现状调查下一篇:基层兽医日常工作体会