Web3.0背景下高校图书馆对网络信息资源的整合研究

2022-10-25

随着互联网的发展, 网络信息资源也迎来了爆炸式增长, 尤其是Web3.0时代的到来。网络信息资源形式上变得更加多元, 涵盖范围更广, 学科交叉更加紧密。网络信息资源是高校教学和研究中不可或缺的重要信息来源。它被认为是高校图书馆文献信息资源建设的重要组成部分。与此同时, Web3.0时代的到来也为网络信息资源的共享提供了新的途径。

一、相关概念

(一) Web3.0概述

1. Web3.0内涵

在现阶段, 国内外学者对Web3.0有不同的定义和理解。Web之父TimBerners-lee于2007年首先提出:“Web3.0issomethingcall edtheSemanticWeb.”即Web3.0就是语义网;目前涵盖比较全面的定义是:Web3.0是一个全新的解决方案, 它本质上是Web2.0的再次拓展, 实质上是微内容继续被拆分, 对其进行标准化和组织化, 实现微内容之间基于语义的交互连接;同时, 基于博客 (博客) , Tag (标签) , Wiki (wiki) 和SNS (社交网络) 等交互应用, 以用户行为基础, 使用RDF (资源描述框架) , 人工智能和语义网技术用于集成多个网站信息。以此来达成实现“个性化, 聚合, 高效和智能的互联网服务”的最终目标[1]。简而言之, Web3.0的核心理念是“个性、精准和智能”。

2. Web3.0特征

(1) 信息服务更具个性化

Web3.0的最大优势是个性化信息服务的聚合。信息资源可以通过底层云数据库集群进行交互和集成, 并由基础设施 (如语义Web和RSS) 支持。为了满足用户的具有偏好性的个性化服务, 依据用户的具体需求来跟踪与定制, 并将最终结果反馈给用户[2]。

(2) 信息共享渠道方式更多元

在Web3.0的服务模式下, 它可以与个人电脑, 互联网, WAP移动终端, PDA, 机顶盒和各种专用终端等不同的终端兼容。不同终端的用户群可以享受Web3.0带来的便利, 实现网络融合的普及, 公共显示设备和个人智能终端的普遍使用。以此来实现多语言、多平台的内容互享。

(3) 信息检索更加精准智能

Web3.0技术通过使用现代人工智能技术和方法来访问信息检索系统, 实现了使检索系统智能化的目标。使信息检索系统能够“理解”文档中包含的信息内容和用户的信息需求, 并基于对内容, 表达方式, 知识学习, 推理机制, 决策等的分析和理解[3]。实现精准和智能的信息检索。

(二) 网络信息资源概述

1. 网络信息资源内涵

网络信息资源是一个非常抽象的概念, 现阶段国内外专家学者尚未达成统一的认同。本文认为网络信息资源为所有互联网络系统都可以收集, 整合和利用的信息资源[4]。随着信息技术的发展, 网络信息资源在量级和展现形式上变化巨大, 是信息时代形成的巨大资产。

2. Web3.0时代下网络信息资源特征

(1) 海量化的信息资源

在当前网络的快速发展中, 网络信息资源也在经历爆炸式增长。Web3.0时代下, 人人参与, 人人生产这种信息传播生产方式早已使网络信息资源不可量化, 并且这种不可量化的网络信息存在着视频、音频、文字、图片等多种多样的形式。在这些海量的信息中, 大部分缺乏统一的标准格式, 不同格式的信息资源可能记载传达着相同的讯息, 这也导致了大量冗余的产生, 不仅严重浪费网络用户的检索搜集效率, 也为图书馆将来对网络信息资源的进一步开发和再利用设置了很大的障碍。

(2) 多样化、异构化的信息资源

随着网络的扩展, 信息表达方式变得多样化, 导致网络信息资源的多样化和异构化。同一信息可能通过音频视频, 图片文字等形式放在不同的网站上, 产生了大量的冗余, 对用户进行高效的选取产生了障碍, 无形中降低了信息存储筛选利用的效率。

(3) 缺乏统一通用的标准

在互联网的快节奏下, 不同的数据表达传输方式层出不穷, 不同的数据在不同的使用场景, 不同的用户受众下均有其制定的独特标准。对于Web3.0背景下, 更加多元化信息共享渠道方式的产生, 多形式多标准的数据共享肯会有更多的不可预测问题。同时, 伴随着相关技术的更新迭代, 这些相关技术所对应的数据格式可能也会更新迭代, 甚至可能会被完全淘汰。因此, 从整个网络环境来看, 尚未形成高效, 合理, 统一的数据标准。这也是导致网络信息资源出现海量化, 多样化和异构化的因素之一[5]。

二、Web3.0环境下高校图书馆对网络信息资源整合的必要性

(一) 当前阶段网络信息资源的低利用率

以网络代码资源为例, 各个机构或个人均有极高的热情在网络上分享自身的见解及建议。在我国当前阶段, 用户可以在不同平台以文字, 图片, 视频等方式来分享自身的经验及认识, 并且和其他用户相互交流探讨。由于代码资源快速迭代更新的特殊属性, 书籍中不可能涵盖现阶段所有内容, 所以在人们生产生活中高效合理利用网络代码资源变得至关重要。但我国目前各主要代码论坛及网站均为非无偿交流, 用户设法赚取积分等行为是必须的, 这显然和一些代码开源的理念是相驳的。同时, 每个单独的平台均有自己单独的数据存储表达方式, 这也和Web3.0时代信息多平台共享是相驳的。这两个原因都限制了对网络信息资源的开发利用。

(二) 标准化的网络资源有利于数据挖掘

对于网络信息资源的使用不仅限于集成, 聚合和分类, 最基本的要素是从海量网络信息资源中提取有价值的信息。这些信息对于研究某些事物的内在规律和预测其未来趋势有很大帮助。传统的信息存储和传播方法根本无法做到这一点。然而, 网络信息资源“百花齐放”式的标准也极大地阻碍了对其的数据挖掘。因此, 资源信息描述的标准化是未来网络发展的必然趋势[5]。

(三) 杜绝“数据孤岛”

“数据孤岛”意味着各种类型的数据无法有效地相互连接, 信息无法合理共享, 并且数据信息和应用程序流程耦合不良。如果现在任由网络信息资源各自按自身的标准发展下去, 在信息爆炸的今天, 缺乏统一标准的监管约束下, 将会产生大量冗余数据, 各种原本本质相同的信息却以不同的展示形式存在, 自成体系, 不可互通。它为网络用户的筛选和利用形成了很大的障碍。因此, 迫切需要制定更有效的标准和开展更有效的聚合技术。

三、Web3.0环境下高校图书馆对网络信息资源整合的策略

(一) 元数据处理

目前, 数字图书馆主要是从信息的内容和形成来描述和信息处理过程。信息的形式上描述主要指的是对于信息外在形象进行外部特征的描述;对信息内容的描述是以检索语言显示信息资源并揭示信息的特征。通过对元数据的检索达到对数字资源进行揭示的目的。通过对数字资源进行元数据标注、采集、存储、去重排序, 能很好地实现数字资源的信息化管理[6]。对用户而言, 这种类似于互联网搜索引擎的方式实现了“检索”与“资源获取”的统一, 无需专业知识即可方便的操作。

在数字图书馆的信息处理过程中, 它主要从信息的内容和形成来描述和揭示。信息形式的描述主要是指对信息外部图像的外部特征的描述;对信息内容的描述是以检索语言显示信息资源并揭示信息的特征。揭示数字资源的目的是通过检索元数据来实现的。通过对数字资源进行元数据标注、采集、存储、去重排序, 能很好地实现数字资源的信息化管理[6]。对用户而言, 这种类似于互联网搜索引擎的方式实现了“检索”与“资源获取”的统一, 无需专业知识即可方便的操作, 进一步降低了用户的学习使用门槛。

(二) 网络信息资源目录整合

使用网络信息资源目录集成, 首先是通过手动或半自动方法对所选信息进行排序;然后制定某些标准来对这些信息进行分类;之后, 通过不同的标准对该信息进行汇总, 并将其放置在适合于各自信息特征的框架内, 以形成目录。本质上, 网络信息资源目录是类似于物理书籍的面向主题的指南。由于网络信息量非常大, 因此在集成网络信息资源目录的过程中不可能保存信息的所有内容。保存的内容仅是信息来源的站点URL或域名, 以及信息的内容摘要等数据。信息资源目录集成的规模大于搜索引擎的规模, 但信息资源目录的数据库相对较小。数据库是专业筛选后保留的信息, 因此使信息资源目录效率极高;此外, 网络信息资源目录的使用提高了信息质量, 增强了组织信息的主题表达[7]。

(三) 多技术结合的信息整合

在Web3.0时代, 众多新技术的应用给网络信息资源的采集整合提供了新的可能。例如, 徐德智等[8]将语义Web技术与传统的信息检索技术相结合, 获得了基于本体的Web信息集合和集成框架结构。提出了一种利用主题本体和相应字典判断主题相关性的方法;郑国良等[9]提出了一种基于本体的主题信息收集方法, 用于分析新语义空间中的主题相关性;李国栋等[10]提出了一种基于目录树的采集算法, 结合领域本体知识库, 以本体知识作为评价依据, 进而提取和识别有效的目录链接。

(四) 搜索引擎整合

当前的网络搜索引擎主要分为三种类型, 第一种是基于目录的搜索引擎, 第二种是关键字搜索引擎, 第三种是元搜索引擎。在网络信息资源整合方法中, 搜索引擎网络信息检索的重要途径和首选工具。搜索引擎可以定期自动收集和存储与网站相关的信息, 并自动索引和编目信息[7]。同时, 将索引数据引入数据库进行分析和提取, 赋予相对应的索引值, 并构建索引数据库。这允许引擎提供各种基于站点的搜索信息并限制搜索内容。对于搜索引擎的集成, 有必要从主要内容入手, 并使用知识组织分类和索引的方法来深入挖掘信息。

四、现存问题

(一) 战略性长远规划的缺乏

在国外方面, 其优先关注于网络信息资源的整合的长远发展, 注重于从战略的角度规划统筹。而且, 其不仅仅关注于相关信息整合技术的长远研究, 同时更关注于其对国家经济、法律等问题的长远影响。在国内方面, 网络信息资源整合研究不仅缺乏长远的战略性指导规划, 更仅仅局限于自身领域, 鲜少涉及经济、法律、管理等社会性问题。从制度层面来看, 很少提到如何改进网络信息资源的整合和保存活动。鉴于网络信息收集和保存活动的复杂性和实用性, 为了确保该领域的研究取得突破, 应采取协作和创新的方式, 系统地规划, 充分整合各科研机构的资源和特点。共同推动网络信息资源收集, 长期资源保护和信息资源建设研究。

(二) 网络信息采集与整合项目缺乏大规模实际应用

在这个阶段, 中国的网络信息收集和整合研究仍处于理论阶段, 实际应用很少。国内, 小规模的网络资源收集实验和内部项目是主要实践, 从国家和区域战略层面开始缺乏实际应用。仅有的几个代表性成果也仅仅局限于面向政府性文件, 新闻, 大事记等信息的收集整合, 面向我国人民生产生活领域的目前尚有欠缺。项目成果投入到人类生产生活, 进行商业化运作更是遥遥无期。随着我国在网络信息资源采集、整合和保存相关内容研究范围的扩大, 深度的加深, 其各个阶段对应的采集工具和方法将得到不断的完善。需要进一步加强大型项目的商业运作和项目成果的实际应用。

(三) 网络信息资源采集与整合相关纵深问题研究缺乏

在收集和整合网络信息资源的过程中, 需要更加注意的是分析相关集合对象的资源和信息需求特征, 研究和开发收集技术, 如页面收集 (动态网页提取与静态网页提取) , 信息提取, 检索和过滤, 以及包含最新技术的数据挖掘。收集元数据标准, 资源组织和资源的长期保存, 项目过程中的成本效益分析和风险管理是网络信息采集发展中需要长期关注和深入研究的关键问题。尽管在这些问题上有许多相关的研究成果, 但大多数都停留在表面, 研究深度仍有待提高[11]。许多文献都集中在基础理论的讨论上, 缺乏深入而持久的实践研究和可持续投入的项目实践。

五、发展建议

(一) 建立全面完善的标准化体系

标准化体系的建立主要体现在资源分类、资源描述、资源包装三个维度[8]。

标准化的资源分类是指将原本零散分布、不成体系的网络资源按照统一的标准进行编码, 使其成为具有自己的特殊标识和统一分类的完整系统。但是并不改变各资源的实际物理存储路径。缺乏标准一致性的一个重要原因是各种描述标准通常在细节中没有详细说明。因此, 分类标准的统一也是极其必要的。标准化的资源描述是指已经具有标准化分类属性的资源进行元数据级别的标准化描述, 使其成为更统一的元数据结构。标准化的资源包装基于元数据的标准化, 根据已经具备一致性特征数据格式的小粒度资源需要, 进行组织和封装, 成为一个标准化资源包。

(二) 异构性网络趋一化

互联网的快速迭代特性也使相对应的网络设备更新加快, 也间接导致了网络信息资源异构性的存在。因此, 在后续的网络建设过程中应充分的考虑未来各数据接口的统一, 充分考虑其传承性的保持。应灵活部署, 规划和设计, 合理考虑利用现有网络资源提高网络性能和效率[12]。对于当前的异构网络, 在整体操作和维护优化中涉及的数据规模极大, 不仅仅是采集整合, 存储和管理, 之前的不同传播表达形式的信息格式统一化也非常艰巨, 合理统一的信息组织是非常必要的。为了使网络信息资源利用率最大化, 必须加强异构网络的优化与融合, 趋一化势在必行。

(三) 关联数据

关联数据需要通过对数据资源进行统一标识、深层关联, 实现各数据源之间的跨库联接。同时, 还可以基于元数据实现各种数据资源的深度聚合, 然后创建关联数据, 在链接, 发布, 浏览和链接维护过程中有效地聚合资源[13]。有利于提高资源的利用率及用户的采集效率。当用户收集目标信息时, 通过可以重用的特定搜索路径获取信息, 即固定了搜索步骤, 降低了用户之后的学习使用成本, 也大大提高资源利用率。

六、结语

随着互联网的发展, Web3.0的到来, 以教学科研为主要任务的高校图书馆不应该仅仅局限于加强对传统馆藏信息资源的建设, 还应当满足国家的经济建设、社会发展需求, 从长远战略的角度对网络信息资源进行开发利用。因此, 在Web3.0背景下高校图书馆对于网络信息资源的采选、整合、保存、利用等方面需要进一步的深度研究。在这一领域的研究与应用在我国图书馆学界仍有欠缺, 以长远的战略性眼光建立完善的标准化体系是当务之急。

摘要：Web3.0的到来使高校图书馆对网络信息资源的采选与整合迎来了新的机遇与挑战。本文首先分别概述了Web3.0, 网络信息资源概念及其特征。在此基础上, 阐述了Web3.0环境下高校图书馆对网络信息资源整合的必要性及相关策略。最后探讨了现存问题及发展建议。

关键词：Web3.0,高校图书馆,网络信息资源,整合

参考文献

[1] 熊回香.面向Web3.0的大众分类研究[D].武汉:华中师范大学, 2011:44.

[2] 马启花.基于Web3.0的高校图书馆图书采访智能化决策设想[J].现代情报, 2009, 29 (4) :117-118.

[3] 陈茫.基于Web3.0的信息资源共建共享应用研究及实现[J].大众科技, 2013, 15 (12) :37-41.

[4] 黄燕.数字图书馆网络信息资源整合研究[J].信息化建设, 2016 (03) :68-69.

[5] 施蕴心.浅谈网络信息资源聚合技术及其标准化[J].科技展望, 2016, 26 (34) :1-2.

[6] 唐亦玲.Web3.0环境下高校移动图书馆建设研究[A].Singapore Management and Sports Science Institute, Singapore、Academic Conference Institute, USA.Proceedings of 2016 ICMIBI International Conferenceon Applied Social Science and Business (ICMIBI-ASSB2016) [C].Singapore Management and Sports Science Institute, Singapore、Academic Conference Institute, USA:, 2016:6.

[7] 洪秋.网络档案信息资源整合利用的内容及模式分析[Jl.决策与信息 (中旬刊) , 2015 (8) :164一164.

[8] 徐德智, 王庆涛, 王斌.基于本体的Web信息采集[J].现代图书情报技术, 2007 (2) :53-55.

[9] 郑国良, 叶飞跃, 林国俊, 等.基于领域本体的主题信息采集方法[J].计算机应用, 2008 (12) :3274-3277.

[10] 李国栋, 刘忠强, 柳长安.基于目录树的网络科技资源采集算法[J].计算机工程, 2009 (1) :277-282.

[11] 张婧, 刘彦君, 范漪萍, 贾明慧.国内网络信息采集研究现状述评[J].科技管理研究, 2017, 37 (09) :260-266.

[12] 刘青, 孔凡莲.中国网络信息存档及其与国外的比较--基于国家图书馆WICP项目的研究[J].图书情报工作, 2013, 57 (18) :80-86+93.

[13] 李明.高校图书馆学科书评网络资源深度聚合服务探析[J].图书情报工作, 2013, 57 (18) :94-97+126

本文来自 99学术网(www.99xueshu.com)，转载请保留网址和出处