数据标引范文

2024-07-17

数据标引范文(精选8篇)

数据标引 第1篇

一、数据标引内涵

新闻信息量的不断积累, 用传统的手段进行翻阅和浏览从庞大的文献中想要找到自己所需的信息已经是不可能的, 所以新闻信息的二次加工就是非常重要的, 所谓的这种加工过程在信息处理上称之为标引。新闻信息的第二次加工其实就是将复杂、无顺序、难利用的新闻信息通过加工处理, 能够方便检索和使用的信息处理过程, 也可以说经过对信息内容的具体分析, 将信息中每个重要的检索点找到, 进行标注。因为新闻的信息量非常庞大、更新速度更是非常快、具有较强的时效性等特性。

二、新闻信息特点

新闻工作人员获取新闻信息主要从社交活动中和社会环境中得到, 经过加工处理, 能够在第一时间内向外部环境提供最新消息, 这些消息具有公开性和及时性特性, 其主要内容都是事物的最新发展情况和发展方向。目前新闻信息已经成为我国一种新型知识产品, 其特点主要是具有庞大的信息量, 且也需要进一步进行开发和使用。新闻工作人员对新闻信息的资源进行整理和加工, 最终能使信息用户能在及时了解和获取到最新信息。

新闻信息主要具备以下几点特性:1.样式多样性。2.覆盖范围广。3.形式和内容复杂性。4.客户要求多样性。5.报道需要及时性。另外, 新闻信息中的信息量具有积累性和连续性等特点。比如:我国新华社电讯新闻每天都有具体的规定字数量, 当前我国28种数据库的信息量总共才达到80多亿汉字。不难看出新闻信息对我国新闻文献和社会主义现代建设具有非凡的意义, 不但能在第一时间能了解到国家的新政策和新法规, 而且还有利于宣传和传播科学文化, 推进我国与外国进行交流和合作的关系。

三、目前常用的标引方式及其优缺点

当前我国各大报社都采取手工标注的方式来进行分类标注, 比如我国南方报社传媒集团就采纳工作人员直接进行标注, 然后由管理人员从数据管理系统中直接使用, 采纳手工标注有以下几大优点: (1) 简单分配任务, 比如张三分配了20个工作任务, 李四分配了25个文件, 标注完成后能自动提交文件需要的共享目录中。 (2) 各成员的工作独立, 能够根据各自的任务独立完成自己所需标注的文件。 (3) 无需担心系统故障问题, 能够减少信息系统维护的时间和成本。再后来南方报业传媒公司也进行开发了一种小软件, 可以不让工作人员直接接触到需要标注的原文件, 而采取通过软件界面来对每一个字段进行标注, 并且在标注编辑框中能够自动显示出标引列表, 经过这种标注方式不仅提高了工作效率, 而且总体来说这种标注方式也是传统的一种手工处理方式, 其实两者都存在很大的不足: (1) 标引效率能更好的提高, 标引列表也没具有智能筛选的过程。 (2) 无法做到标注错误有效跟踪, 根本无法准确找到是谁标注错误了, 不能为工作人员的工作量进行考核。 (3) 只能按文件进行分配工作, 无法按不同类别的标注信息进行重新分配, 比如不能将同一个文件中的关键词标注任务分给张三进行标注, 也不能做到同时将专题分类标注分给李四进行标注。所以标注方式还是不全面, 有待于提高。

四、新闻信息自动标引的运用

1. 自动标引内涵

自动标引就其自身而言是一种信息的分离, 通过对全部信息的分析, 选择有用的信息组成基础信息知识库, 很多研究工作必须在基础知识库的基础上来进行研究的, 现在也有一种快速、减少过多人工参与的方法即通过自动标引来建立词库。自动标引能大大提高信息检索的速度。信息检索的通常意义是指在繁杂的各种档案知识中寻找出有用的信息用于研究, 称这个过程为信息检索。随着信息化程度的加快, 现在是一个信息化的时代, 知识库的规模也越来越大, 所以, 就检索来说对准确率和相关度就要求就更为严格甚至高于查全率。这种要求解决的一个重要途径就是在检索的过程中主要查找主题词, 主题词本身覆盖了信息的检索点和信息点, 所以, 是文章的主要内容的体现。

2. 自动标引实现的关键内容

(1) 自动标注的步骤。自动标注主要是根究新闻信息的内容, 使用计算机的处理技术, 能够自动的从文章中的标题、摘要、全文找出能够作为文章的标注词。步骤如下:首先将原文进行首次处理, 也就是对新闻信息有效的规范, 然后根据各种有关主体的数据进行研究分析, 在使用主题词和规则库统一的进行标注, 然后加以论证, 最终才能确定主题词的集合, 也能有效的使用。

(2) 自动标引的主要条件是主题分析。主题分析能起到决定标注系统的功能, 也是进行自动标注的条件。其实主题分析是从文章中选取出能够反映出主题内容的关键词和句子, 主题词也大多数都是短词, 因此更加需要加以标注和识别。假如一个字串多次在文章中出现, 其字串有可能就是反映文章的主旨, 因此要把这个字串收入到候选到主题词中。在进行主题词统计时, 使用各种方式, 查出本字串的各方面属性, 比如在文中的哪段句子的第几个位置、其长度、表达意思等, 具体分析, 然后根据分析结果对主题词的候选项进行不断筛选, 多次筛选之后可以不断缩小寻找范围, 最终能找到恰当的主体分析词语。

(3) 自动标注的实现方式是主题词的有效选取。自动主体标注是使用计算机的处理技术, 在新闻信息分析的基础上, 能够自动从文章中得出主体词作为本条新闻的标注词。其主题词应该是通过规范化的词, 主要是从主题词列表中选取出来, 能够具体的表达出文章的主要内容。

(4) 标注的隐含。并不是所有的主题词都能在文章中体现, 而是在由文章的内容隐含, 只有通过对文章的分析才能了解, 这就是通常所说的隐含标引。应对这类情况就要求人们在平时的生活和工作中注意总结和把握经验。也可以根据专家的经验建立规则库, 视之为标引隐含的准则, 对需要查阅的主题词进行合理的扩充。

(5) 基础知识库。基础知识库是标引的基础模块, 具有非常重要的基础作用。在基础知识库里包含很多词表, 并通过一定的关联建立彼此之间的联系。总结一下对基础知识库的设想。第一, 主题词表的设想。第二, 近义词表的设想。第三, 专用名词表的设想。第四, 词典的设想。在基础知识库的词典里有经常会被检索的词语和他的词性解析。第五, 规则库的设想。

五、结语

新闻信息的数量庞大、种类繁多、出版周期较短且内容丰富多变, 这些特点都给新闻信息的二次加工带来了非常多的麻烦。所以, 对于新闻信息的建设问题亟需解决。新闻信息建设的关键在于数据库系统的质量建设, 主要改变信息加工手段即人工标引, 取代原有的人工标引, 让新闻数据库实现自动化是现代新闻信息应时代的要求。

参考文献

[1]徐曼.《中文新闻信息分类标准》研究[D].武汉大学, 2005.

[2]李楠.控制主题标引质量提高文献检索效率[J].河南图书馆学刊, 2010, (06) :122-123.

数据标引 第2篇

报刊数据库与其它类型数据库相比,最突出的特点是要反映西北地方文献本身所具有的特征,同时还要满足适合地方文献用户特殊的检索需求。加之在主题标引方面,比馆藏书目数据库的标引深度要高,难度也大。因此,选择一部适合西北地方文献特征的主题词表是开展标引工作的首要问题。

由于地方文献的内容表现的.地域性和专指性极强,用综合性的《汉语主题词表》来标引西北地方文献,则很难满足其主题标引的特殊需求,报刊索引的标引用词与时代发展同步,《汉语主题词表》作为阶段性产品,也很难满足对新事物的标引需求,所以西北地方文献主题词表需要在《汉语主题词表》的基础上自行编制。

由于编制先组式的主题词表需要一段相当长的时间,同时还要编制一系列的标引细则,这将会影响报刊索引数据库主题标引工作的迅速展开。因此,可以采取后控式编制词表的方式,即首先应确定一段时间为实验期,先进行地方文献的标引工作,由标引人员直接从报刊所载的地方文献信息内容中,选取有检索意义的关键词作为主题词,这种主题词是未经过规范的自然语言,也无词间关系可言,待积累了一定数量之后,再对其进行修改、充实,并参照《汉语主题词表》使之规范化,确定好词间关系和基本范畴,从而形成适用的词表。采用这种方式编制词表,比较适合于特殊类型文献主题词表的编制,并且选词更直观、专指性强,还能使标引工作与编制、修改词表同时进行,标引时不用考虑词间关系及查表抽词,所以对标引人员的要求也相对较低。目前,广东省中山图书馆的地方文献数据库系统主题标引就采用了这种方法。

地方文献主题词表中所收录的主题词来源主要有:

(1)《汉语主题词表》中已有的词汇。这是地方文献与非地方文献都使用的综合性词汇,它占将来的西北地方文献主题词表所收录词汇的绝大部分,由于是从《汉语主题词表》中选词,所以它们是相对规范的。

(2)《汉语主题词表》中没有的、带有地方文献特征的词汇、这部分词汇在未来的西北地方文献主题词表中所占比例不会很大,但它们在西北地方文献标引中出现频率相对较高,对于这部分词汇必须经过一段时间的数量积累,再加以规范。

(3)《汉语主题词表》作为阶段性产品,它的编制受时间的限制,对于编表以后新产生的一些词汇它不可能收录。在编制西北地方文献主题词表时要收录这部分词汇,并加以规范。

2.2 主题词字段的设置

无论是先有词表,还是先进行标引工作,在报刊数据库中,都需要设置若干个主题词字段,以便展开具体的标引工作。在设置主题词字段时,一定要反映地方文献的时空特征。地方文献的基本性质是地方史料,即所有的历史事件都离不开时间、地点和人物这几个因素,为了强调这几个因素,也为了使不同标引人员在不同时期内具有相同的工作标准,因此设计了“非控主题词”、“年代主题词”、“地域主题词”、“个人主题词”和“团体主题词”字段。

2.2.1 非控主题词

为了充分揭示文献内容和满足用户的使用需求,西北地方文献报刊索引数据库的主题标引,应根据主题法的一般原则,对所有的款目进行主题标引。此字段选词灵活性大,标引内容十分广泛,可控性弱,故称“非控主题词”。非控主题词对所有地方文献信息的内容范畴进行涵盖,也是以后编制地方文献主题词表时确定词表基本范畴的依据。

非控主题的标引方法与其它非地方文献资料的标引并无本质的不同。在标引非控主题词的过程中,标引人员除从文献题名中选取词汇外,还有必要从文章内容中选取标引词,所选的标引词是一些名词及词组。由于所选的词汇不是从固有的词表中抽出来的,标引词汇的逻辑概念和词间关系都不用事先确定,故称自由词。

尽管非控主题标引时选用的是自由词,但也有一些问题需要明确,在某些词汇不能准确表达文献的内容时,可选用词组来做主题词增强其专指性,能明显反应地方文献特征的词首选,同时,一些无实际检索意义的词不选。

2.2.2 可控主题词

由于“年代主题词”、“地域主题词”、“个人主题词”、“团体主题词”这四个字段相对规范,所以称为“可控主题词”。

地域主题所标引的不是整体地方文献的地域,而是文章内容涉及的某一具体区域的名称,或者给文章内容带来影响的区域名称。在标引中,如遇到旧有的行政区划名称或旧地名时,为反映某一地区名称的历史发展沿革,应将现行行政区划名称与旧有行政名称同时标引作为检索点,现有行政区划名称或新地名标在前面,旧行政区划名称或地名注于其后,可用括号括起。

年代主题标引的是文献内容所涉及的时间范围,而不是文献撰写或出版发行的时间。清以前的历朝历代均可使用“朝代/年号”的方法标引,中华民国时期(19前)可标引成“民国时期”,到了19以后可标引成“二十年代”、“八十年代”等。

个人主题和团体主题标引的是文章内容所涉及到某一具体机构、个人,或与某地方有关系的机构和个人。团体主题标引时,用机构和单位的标准全称。而个人主题的标引,是标具体人名,如果同一人物有本名与笔名时,要同时标引,清代人物或少数民族人物的名称较长时,一般应标引人物的全名。

总之,无论是非控主题词还是可控主题词,报刊标引人员都要站在用户的角度,即从索引的终极使用目的出发,给地方文献实际使用者提供报刊中有价值的地方文献信息。因此,在对报刊数据库进行主题标引过程中一定要确定好标引深度。西北地方文献报刊索引的标引深度,则取决于地方文献各类用户的检索需求,这些用户所从事研究的学科内容及其深入程度,就是文献标引人员确定标引文献内容及深度的依据。

基于篇章结构的文本自动标引算法 第3篇

文本篇章结构表示了文本的组成情况,在基于篇章结构的自动文摘研究中,为了适应处理大规模真实语料的需要,自动文摘应立足面向非受限领域,而篇章结构属于语言学范畴,不涉及领域知识,因而基于篇章结构的自动文摘方法不受领域限制,同时篇章结构比语言表层结构深入了一大步,但是在进行文本分析之前,如何给出文本篇章结构的正确表示是整个工作的关键,为此本文提出了篇章结构的两个标引算法,并用文本结构树来表示。

1 基本概念

在分析和标引一个文本的篇章结构时,可将文本看作是由文本题目、章节、自然段、复句、分句按一定关系组成的一个线性序列,并分别给出相应的标记,这种标记是能表征被标记文本语言单元在文本的篇章结构中的位置或与之有关的文本语言单元的关系。根据这些标记文本的各个语言单元可按统一的方式进行访问。

下面给出一些基本概念。

定义1 汉字字符串集,标点符号集,章节符号集

汉字字符串集Strings={u | u是具有实际意义的汉、英字符串}。

标点符号集Punctuations={p | p是标点符号}。定义中文文本中P={?,!,。},英文文本中P={?,!,.},P⊂Punctuations。

章节符号集 Title={t | t 是章节符号}。例如“一”、“二”、“第一章”、“第二章”,等等。

定义2 题目和章节标题

设u∈Strings,t∈Title∪(ε),p是空串

(1) 文本题目 h=u。

(2) 章节标题 t,u的字连接t·u称为章节标题h=tu。

(3) 对于每一篇文本,其中的章节标题应属于同一类型,每一个子集title称作Title的一个型,存在型titlei⊆Title,例如title1={第一章,_第二章,…},title2 ={一,二,…}等等,这些子集的全体构成Title集合。

定义3 自然段

文本中的一个自然段可递归定义如下:

(1) 若s=up(up表示u与p的字连接u·p)是句子,且p∈P,则s是自然段。

(2) 若s=up是句子(p∈Punctuations),pi是自然段,则s与pi的字连接spi=s·pi是自然段。

定义4 复句

若s=up(up表示u与p的字连接u·p)是分句,且p∈Punctuations-P,则cs=sup(p∈P),则cs是复句。

定义5 文本篇章结构树

文本的篇章结构是具有层次的,可以通过文本篇章结构树来表示。一棵篇章结构树是一个有向图,满足下述条件:

(1) 树中只有一个根节点是文本的题目;

(2) 树中的节点代表文本语言单元,因为篇章中的语言单元分为题目、章、自然段、复句、分句5个层次,所以节点全集可以划分为5个节点子集;

(3) 因为全文至少要由一个章节组成,一个章节至少要由一个段落组成,等等,所以低层节点的数目一定不少于高层节点的数目;

(4) 树中分句节点是叶节点,并且只有分句节点才能是叶节点,因为分句节点是构成篇章的物理实体,而其它各级节点都是逻辑单位,如果某个逻辑节点之下没有物理节点,则该逻辑节点也不应存在,每个非叶节点的下级节点按照它们在文章中出现的先后顺序从左到右排列。

图1是一棵文本篇章结构树,树中父节点和子节点之间具有层次关系(从上至下),兄弟节点之间具有顺序关系(从左到右),因此,文本篇章结构树能够描述文本的各个语言单元所蕴含的结构特征,如图1所示。

定义6 文本的标记值

一篇文本用文本的篇章结构树表示,根据相应结点在文本结构树中的位置,给每一个语言单元赋予唯一对应坐标值,称作文本的标记值:

(1) 文本的总题目,标记为h0;

(2) 章节标题标记为h0.a,且该标题有若干子段,则该标题的第i个子段的标记为pa.i(p表示子段);且该段中有若干个复句,则该段中的第j个复句的标记为csa.i.j;且该复句中有若干个分句,则该段中的第k个分句的标记为sa.i.j.k。

上述标记可以唯一确定文本中各章节、各自然段、各复句和各分句的层次与顺序关系。例如,h0.1是文本的第一个章节的标记,p1.2是文本第一个章节中第二个自然段的标记,cs1.2.1是文本第一个章节中第二个自然段的第一个复句,s1.2.2.2是文本第一个章节中第二个自然段的第二个复句中的第二个分句。

2 篇章物理结构标引

根据以上讨论,我们设计了两个篇章结构自动标引算法。

textfile:文本文件。存放待分析和标引的文本。文本均以txt格式存放,每个基本单元存放在一行中。

indexfile:标引文件。用于存放对textfile中的文本进行篇章结构标引后形成的标引结果。

在算法中,我们将使用一个标引栈S存放有关被标引节点的数据,S栈的每一项可表示为一个五元组(i,H,P,CS,S)。其中:i是标引栈S的栈顶指针,因为文本中只有文本题目和文本章节题目两种类型的标题,所以i只取0,1两值,H为被标引标题在当前层次中的标记值,P为被标引自然段在当前层次中的标记值,CS为被标引复句在当前层次中的标记值,S被标引分句在当前层次中的标记值。当前被标引标题的标记为H B[0].H. B[1].H...B[i].H;当前被标引段落的标记为p B[1].H...B[i].H. B[i+1].p;当前被标引复句的标记为cs B[1].H…B[i].H.B[i+1].p. B[i+2].cs;当前被标引分句的标记为c B[1].H…B[i].H. B[i+1].p. B[i+2].cs. B[i+3].c。初始化,栈顶内容为(0,0,0,0,0)。

Indexprg:标引程序。每次从textfile文本中读取一个章节、自然段、复句或分句,然后确定其标记,并连同其在textfile中的首地址追加到indexfile文件中,直至textfile处理完毕。

算法1描述了把文本划分为题目、章节、段落、句子四个层次,这里的句子指的是段中以符号p∈P为结尾的语言单元,没有划分复句和分句层次,如下:

算法1给出了文本篇章物理结构的一个标引算法,但是算法没有划分出复句中的各个分句,所以对所标引的文章结构划分不够精细,看不出文章的物理单元。所以算法2给出了复句中分句层次的划分。

本文只讨论出现形合复句的情况。在切分各个分句时,我们首先将文本分词,然后调用事先通过语料分析总结出的关联词词典和语法分析,拆卸各语言单元之间因省略、指代、引用等造成的内容上的依赖关系,删去关联词语,并得到分句的边界标记,标引出文本各个语言单元。

根据以上讨论,给出了算法2,如下:

算法2 描述了把文本划分为题目、章节、段落、复句、分句五个层次。

3 实验及其讨论

上述算法对于文本结构清晰的文章能够进行有效的划分。我们在Internet上随机选取了汉语和英语科技类文章、新闻报道类文章和议论文文章各100篇共600篇作为实验测试集。算法1对中英文文章进行测试,算法2只对中文文章测试,实验的准确率结果,如表1所示。

实验结果基本令人满意。从算法1的结果看出,对文章的体裁没有要求,因为没有涉及到文章的深层分析;但是算法2还存在一定的不足,导致错误的原因主要是汉语言的复句和分句定义比较复杂,所选的这三类文章中大部分复句中含有关联词,但仍然有意合复句的存在,对于意合复句的划分不够准确,所以要准确划分复句,分句还要从语义层次进行深层理解,然而当前由计算机进行汉语语义分析的研究工作还不够完善,所以在这方面还有待进一步的研究。

摘要:通过对输入文本分析,划分文本的篇章结构,分为依次存在包含关系的全文章节、段落、复句、分句五个层次,用文本结构树来表示。给出了标记方法,并在此基础上讨论并实现了文本篇章结构的自动标引,提出了两个标引算法并给出了比较结果,为自动文摘后续工作给予了很大帮助。

关键词:篇章结构,文本结构树,标引算法

参考文献

[1]王永成.中文信息处理技术及其基础[M],上海:上海交通大学出版社,1991:32-50.

[2]吕冀平.汉语语法基础[M],黑龙江:黑龙江人们出版社,1983:339-365.

[3]武柏索,许维翰,陶宗侃,阎淑卿[M].北京:商务印书馆出版社,1988:1-390.

[4]王建波,王开铸.自然语言篇章理解及基于理解的自动文摘研究[J].中文信息学报,1992,6(2):1-7.

[5]刘挺,王开铸.基于篇章多级依存结构的自动文摘研究[J].计算机研究与发展,1999,36(4):479-488.

[6]刘伟权,王明会,钟义信.建立现代汉语依存关系的层次体系[J].中文信息学报,1996,10(2):32-46.

[7]单永明.汉语文本形式结构分析及其标引算法[J].中文信息学报,2002,16(2):14-26.

[8]林鸿飞,战学刚,姚天顺.基于潜在语义索引的文本分析方法[J].模式识别与人工智能,2000,13(1):47-51.

[9]张益民,陆汝占,沈李斌.一种混合型的汉语篇章结构自动分析方法[J].软件学报,2000,11(11):1527-1533.

[10]G Salton.Automatic Text Structuring and Summarization[J].Informa-tion Processing&Management,1997,33(2):193-207.

医学论文主题词标引方法 第4篇

非规范标引

有些作者直接从文章的标题、摘要及正文中选取关键词,且对选择的关键词未作任何审核。其实,有些关键词或自由词只要稍加处理,即可变为符合规范要求的关键词即主题词。例如:局部血流量转换为局部血流;垂体激素→垂体激素类;肺表面活性物质→肺表面活性剂;创伤→创伤或损伤;食管异物→食管和异物;全肠外营养→胃肠外营养;生殖泌尿系统疾病→泌尿生殖系统疾病;腹膜冲洗→腹膜灌洗;麻醉,硬脊膜外→麻醉,硬膜外;等。不能充分表达主题概念

关键词的选择既要符合规范性,又要注重可用性。应选择与文章内容密切相关的具有特征性的或反映文章特点的词。一些笼统的对反映文章主题不太重要的关键词不宜选用,如临床;病人;化验检查;诊断与治疗;手术;等。否则,关键词的使用在很大程度上只能是一种形式。

误以缩略语、符号代替关键词

中、英文关键词均不使用英文缩略语,即使这些缩略语已广泛使用,被大家所熟知,如mof;ardmri;cta-k-atp酶;等。

主题词标引方法与步骤

对论文进行主题分析,从中提炼出反映主题概念的关键词。作者对自己的文章了如指掌,因此,选用能全面准确表达论文主题的关键词并不是一件困难的工作。

查阅主题词表将关键词转换成主题词。确定了主题概念的关键词之后,就需将确定的每一个关键词通过查对主题词表转换成规范化的关键词即主题词。中文医学主题词字顺表多以首字汉语拼音排序,作者将选择的关键词逐一查对主题词表,如与主题词表一致,即为主题词;如不一致,主题词表中往往将自由词引见到相应意义的主题词上来。例如:早搏→期外收缩;肾盂造影术→尿路造影术;肺动脉楔压→肺楔压;等。箭头前为非主题词,箭头后为主题词。英文医学主题词均以mesh词表为标准。mesh词表约1.5万个主题词,该表每年修编1次(改动很小),作为《im》期刊索引第1期和《cim》第1册出版。词表中主题词有3组参照关系,每组参照包括参照和逆参照。这3组参照分别为:

(1)用代参照:术语下出现see,表示该术语为非检索词,see后面的术语为检索词;术语下出现x,表示该术语为检索词,x后面的术语为非检索词。

(2)属分参照:术语下出现seeunder表示该术语是次要叙词,为非检索词,seeunder后面的术语为检索词;术语下出现xu表示该术语是检索词,且是xu后面术语的上位概念,xu后面的术语为非检索词。

(3)相互参照:术语下出现seerelated或xr指引检索者从一个主题词去参见有关的其他主题词,以扩大检索范围,达到全面检索的目的,因此,seerelated或xr前面和后面的术语均为检索词。

笔者认为,对于非专业标引人员,应首先查对字顺表,如字顺表难以满足要求时,再查找树状结构表。选词时,必须首先考虑最专指的主题词,当没有专指主题词时,则应选用最直接相关的几个主题词组配标引,这时,专业知识也许显得尤为重要。例如:微血管转换为微循环;氧自由基→过氧化物类;内毒素休克→休克,脓毒性;滑脱→脱位;手术治疗→外科,手术;等。

适应机读环境下的文献分类、标引 第5篇

用于文献排架的分类标引,为满足固定文献的位置和文献单线排列的需要,一种文献只能确定一个唯一的排架分类号。用于编制手检系统(分类目录)的分类标引,每一种文献除必须标引一个主要分类号用于编制主要分类款目以外,还应该根据文献的内容标引互见分类号、分析分类号和综合分类号,用于编制附加分类款目、分析分类款目和综合分类款目。

分类法中具有交替关系的类目在选择了一个使用类目用以标引文献后,应在使用类目和交替类目之间做直接参照片,以显示它们之间的关系,开拓读者的视野。但是由于手工检索系统的分类款目是单线排列的,为达到与分类法类目相同的排列顺序,使文献按分类法的知识体系得以揭示,目录分类号必须严格按分类标引规则选择类属和组号。又由于在编制手检系统时,受到目录体积和工作量的制约,互见分类号、分析分类号等不可能大量使用,参照片也不可能过多的制作。所以在手工检索条件下不能进行深度和广度标引,其只停留在理论层面上,缺乏实际的可操作性,文献主题内容难以得到充分的揭示,也难以提供多途径、多角度检索,影响检索系统的检索效率。

目前,由于受分类号固定文献排架作用的影响,大多数机读书目数据库检索系统在检索画面上只满足一种分类体系只提供一个分类号,这种沿袭手工编目的做法,也不能满足对具有多重学科或专业属性文献的检索需要。其实在建立机读书目数据库对机读数据进行分类标引时,用以检索的分类号是置于主题分析块的分类号字段。如在CNMARC格式中690字段为《中国图书馆分类法(CLC)》分类号,692字段为《中国科学院图书馆图书分类法》分类号等等;而分类索书号中的排架分类号则是置于国内使用块的馆藏信息905字段中的$d子字段,这两种功能不同的分类号被严格区分开来。文献检索用的分类号在机读书目数据库中将自动生成倒排文档,检索时可以按不同的类号长度和不同逻辑组合输出满足检索条件的文献集合。因此,标引的分类号数量、长度以及轮排等制约手工编目的因素,在机读数据标引时可以不予考虑。这就为突破手工编目的文献分类标引规则,加强互见分类、分析分类和后组标引等奠定了基础,增强机检分类系统多途径、多角度检索文献的性能。为此机读数据分类标引规则应做如下调整。

一、一种文献根据其内容及相关分类标引规则,在首先确定一个分类号作为主要分类号的同时,应当再根据文献主题的需要适当增加标引互见分类号

1.2凡是分类法中明确规定作互见分类的类目,分类标引时应在确定一个主要分类号的同时,将互见分类号著录在第二个690字段。

例标引为:690$a I251$v4

690$aK82512$v4

690$aE297$v4

905$dI251

1.2具有并列关系主题、相互影响关系主题和应用关系主题的文献,分类标引时在确定一个主要分类号的同时,应将互见分类号著录在第二个、第三个690字段。

例《数学与化学简介》

标引为:690$aO1$v4

690$aO6$v4

905$dO1

1.3具有比较关系和相互联系主题的文献,应尽可能从相比较和相互联系的两个或两个以上主题所属类目,充分揭示文献的主题内容。

例《中美两国民主之比较》

标引为:690$aD62$v4

690$aD771.22$v4

905$dD62

1.4论述交叉学科、边缘学科的文献,标引一个分类号不能充分揭示文献所涉及的多个学科时,应当增加标引互见分类号。

例《解放军舞蹈史》

标引为:690$aJ70912$v4

690$aE297$v4

905$dJ70912

二、应针对文献具体情况,加强对文献局部主题内容的揭示,应当增加标引分析分类号

2.1具有从属关系主题的多主题文献,一般按较大较全的主题标引一个分类号,同时应为较小主题作分析分类标引,将该主题的分析分类号著录于第二个690字段。

例如《物理化学与胶体化学》

标引为:690$aO64$v4

690$aO648$v4

905$dO64

2.2在同一文献中有比较重要的篇章和附录等部分的主题内容,应对它们作分析分类标引,将该主题的分析分类号著录在第二个690字段。

标引为:690$aK26418$v4

690$aK827=7$v4

905$dK26418

2.3多卷书或以整套综合著录的丛书,如果其中的分卷册或子书明显属于某一个专题,并具有分卷册题名的,应当以分卷册或子书为对象,增加标引分析分类号。

例《世界巨人传记丛书·表演艺术卷》

标引为:690$aK812-51$v4

690$aK81517$v4

905$dK812-51

三、凡属多重列类的类目

应当根据文献主题内容,选取相关的类号标引,各分类号分别著录于不同的690字段。将其中符合具体分类法中标引规定的分类号,著录于第一个690字段。

例《彩色立体电视》

标引为:690$aTN949113$v4

690$aTN949112$v4

905$dTN949113

四、分类法中交替类目的标引

专业性文献机构,如果已选择了某交替类目作为使用类目并用以标引文献,应当增加标引原正式类目的类号,著录于第二个690字段;如果文献机构未选择交替类目作为使用类目,应增加标引使用类目相对应的交替类目的类号,著录于第二个690字段。这样可以方便不同学科专业读者的检索,增加文献检索途径和角度。标引时应注意将类号中的[]去掉。(3)如某地质学专业图书馆选择《中图法》“[P52]古生物学”用以标引文献,而与其对应的使用类目“Q91古生物学”就成了交替类目,改为“[Q91]古生物学”。在机读数据标引时,应选择标引两个分类号,著录于690字段。

例:如该单位有《古生物学》

标引为:690$aP52$v4(原为交替类目该单位选择为使用类目)

690$aQ91$v4(使用类目变为交替类目)

905$dP52

五、在分类法中,凡需采用冒号组配细分的类目,可以将两个主类号分离,分别著录于两个690字段

例《管理心理学》

标引为:690$aC93-05$v4

690$aB849$v4

905$dC93-05

六、在机读书目数据中,由于检索

分类号与排架分类号分属不同字段,用于检索的分类号可进行细密分类,提高分类标引的专指度,不必考虑类号长度对文献排架的不利影响。用于排架的分类号可适当简短一些,各文献机构应根据具体情况做出选择

例《济南市气候年报》

905$dP468或P46812

标引为:690$aP46812521103$v4

经过上述对机读数据分类标引规则的调整,克服了仅标引一个主要分类号,所提供的检索途径和角度十分有限的弊端,增加了对文献所具有的多重学科或专业属性的揭示。具有多重学科或专业属性的文献,可以在不同的学科、专业检索得到,提高文献的利用率,满足读者多途径、多角度检索文献的需求。

摘要:本文就为实现机检系统能多途径、多角度检索文献的问题,阐述了如何调整机读数据分类标引规则。经过调整克服了仅标引一个分类号,提供的检索途径十分有限的弊端,增加了对文献多重学科或专业属性的揭示。可以经多途径、从不同角度检索得到,提高文献的利用率。

关键词:机读数据,标引,检索

参考文献

[1]《中国图书馆分类法》编辑委员会编.中国图书馆分类法(第四版)[M]北京图书馆出版社.1999(3)

[2]刘湘生,汪东坡主编.文献标引工作.[M].北京图书馆出版社.2001(2)

数据标引 第6篇

美国在911事件之后,为防范可能出现的恐怖袭击,先后通过了《爱国者法》和《国土安全法》,明确公众在网络上的信息在必要情况下可以受到监视,允许电子通信和远程计算机服务商在保护生命安全的紧急情况下,向政府部门提供用户的电子通信记录。

经过数年不懈的努力,中国相关部门加大了对互联网的管理力度,不断支持在传输内容监测领域进行研究,如今已实现了关键词监测、域名过滤和监控软件,均达到较先进的水平。但由于视听信息复杂程度远高于文本内容,现阶段对视听内容大都通过深度包检测和视频识别对传输内容进行计算密集型处理,监测效率和准确性仍可进一步提高。在三网融合的环境下,融合监管应先行,如何从技术上构建有效统一的监管机制值得思考。

2 主动策略监测技术方案分析

2.1 设计思想

利用监测传输流量实现对音视频内容的发现仍有较大困难。主要原因在于,互联网通过底层技术实现最大程度的兼容和开放,自创建以来处于无组织、无目的、无计划的“自生秩序”中。而且音视频信息的处理复杂度较文本信息成倍增长,因此对于网络音视频信息的监测方式,需要突破现有基于文本内容的监测规制,使用一种新的基于主动策略的技术体系。

本方案以数字媒体内容标引技术[1]为核心,在不影响现有传输机制的前提下,通过对传输内容抽取特征生成标引,并嵌入到对应的IP节目数据包中,从而使网络中的检测设备感知传输内容,实现对传输流的实时监测。笔者将从方案设计与标引表示方法、生成、嵌入、检测原理及原型系统验证等方面对该方案进行详细描述。

2.2 方案设计

基于内容标引的主动监测系统技术方案拓扑图如图1所示。根据逻辑层次分为3个平面,即基础设施平面、前台节点平面和集中管理平面。

基础设施平面的外延最为广泛,它涉及现有互联网上的所有设备,包括源端设备、传输设备和终端设备,该平面上传输的数据流为方案的监测对象。

前台节点平面处理标引与基础设计平台上传输数据流之间的一切核心操作,如完成标引主动嵌入和检测,上报原始监测数据等工作。该平台包括标引嵌入设备和标引检测设备。标引嵌入设备设置于靠近源端的传输网络边缘处,不影响传输网的数据正常发送,标引检测设备位于靠近终端的传输网络边缘,对终端透明,在终端加载检验模块进行校验处理并不是必要操作。

集中控制平面位于信息的汇聚层面,网络上和标引的各类归集和状态信息向该平面聚集,同时下发各类指令,如监测协议类型、标引过滤策略等实现分级管理,包含监控平台和指挥调度平台。

本方案处理3类信息:数据流、监测信息和指令。沿数据流方向看,源端播出服务器发送的音视频内容经过标引嵌入设备嵌入标引,并通过传输网络传输,经过标引检测设备检测标引的有效性,进而判断内容传输的有效性,统计监测信息,最终将有效数据流传到各用户终端。标引嵌入设备和标引检测设备对原始监测信息进行分类、加工,然后将其上报到信息汇总平台作深度数据挖掘。指挥调度平台同时根据不同的处置方案对前台节点平台的各设备下发调度、任务等指令,保证系统稳定运行。通过专有安全协议与前台的标引嵌入设备和标引检测设备之间通信,进行远程维护和管理。

3 内容标引技术

3.1 内容标引的表示方法

作为内容的特征及描述,内容标引应具有三大功能和对应的三大信息要素。三大功能为信源监测、内容感知和防伪造篡改。三大信息要素为运营商信息要素、节目描述信息要素和安全信息要素。

运营商信息要素对所有持证播出机构分配播出机构ID,可以保证在检测到非法内容时进行溯源,符合业务来源可靠的要求。

节目描述信息要素实现对传输内容的感知要求,综合考虑扩展性、传输效率和解析效率之间的平衡,将编目信息和节目属性等信息抽象成一种精简的数据集合。

安全信息要素实现标引防伪造、篡改功能,主要包含安全算法模式和鉴别码2个字段。设计方法是对标引内容进行单向散列运算生成鉴别码,散列函数具备计算单向性、抗碰撞、无冲突等特点,所以通过鉴别码计算出预映射值的求逆过程很困难,而且内容修改后进行散列运算会得到不同的散列值。在检测时通过比对接收到的鉴别码与重新计算的鉴别码,就可以发现篡改行为。

标引信息组织结构如图2所示。

配合标引的自识别性和扩展性,引入前同步码和版本字段,标引的格式与嵌入标引RTP[2]的报文结构[3]如图3所示。

标引各字段说明如下:1)前同步码用以区别、定位标引首部。2)版本主要考虑标引的升级和更新。3)安全算法模式为标识计算鉴别码的算法模式,每一种模式代表一种鉴别算法或安全鉴别算法。在标引的嵌入和检测之前,这个字段的取值应已完成协商。4)播出机构ID由监管机构核发,用于标识持有各类视听节目许可证的播出机构。5)编目信息用以描述节目内容,编目划分参考广播电视编目的相关标准。6)节目属性对内容的表现形式进行分类,可对不同的表现形式赋予不同的监管级别。7)鉴别码为保证标引在网络传输中的完整和有效性,标引附加鉴别码,由鉴别码根据安全算法模式对应的鉴别算法计算,并提供必要的安全、防篡改功能。

3.2 内容标引的生成及嵌入原理

标引嵌入设备获取内容流,生成标引、嵌入标引并发送至传输网络中,流程如图4所示。首先从传输网络中截获并提取待打标引的媒体数据包,根据媒体流的描述信息中提供的节目、机构等信息要素生成标引描述信息,然后根据标引描述信息、安全算法模式算出鉴别码,最后将数据报负载、标引打成携带标引的数据报,送入传输网络,同时透传无标引的数据报,实现将携带标引数据报混入无标引媒体流中。为保证传输效率,携带标引数据报的发送间隔应根据码流发送速率以及线路繁忙程度进行合理设计。当媒体流量随会话数量线性增长,发送携带标引报文的速率将按适当比例下降。

如果嵌入设备还未发送第1个携带标引数据报,嵌入间隔最小常量Tmin设置为2 s,否则设置为4 s,间隔最大常量Tmax设置为5 min。嵌入间隔T为

式中:k为调整系数,可由当时的链路质量和经验值确定;nsession为当前会话数;Ltag为标引长度;bwsession为当前会话带宽。

在标引嵌入设备中,可以维持一个计时器,计时器时长设定为嵌入间隔。图5为标引嵌入间隔算法的流程图,在确定需要嵌入标引的数据报时,首先检查计时器是否超时,如果计时器超时,则将定时器清零,再根据上述公式计算嵌入间隔T,将嵌入间隔设置为定时器的时长,并确定该报文需要嵌入的标引,如果计时器没有超时,则确定该报文不需要嵌入标引。

其中鉴别码是保证内容标引不被篡改的关键。其设计思想是:从内容标引结构中提取从左边算起n bit的字符(n<内容标引的总长度,Fleft(str,n)为数据块str从左边提取n bit字符的方法)。同时,从嵌入目标IP包的负载中提取从左边算起m bit的字符(m

预映射值=Fleft(标引描述信息,n bit)+

Fleft(IP负载,m bit)(2)

利用预映射值根据鉴别算法生成128 bit的鉴别码,如

鉴别码=Hash(预映射值,安全算法模式=0)(3)式中:安全算法模式数值取0时,鉴别算法采用单向散列函数(Hash)计算。由于单向散列函数是非可逆算法,并且该鉴别码与标引及IP包负载紧密相关,所以将标引信息替换掉,或是伪造一个相同长度的单向散列函数值,验证算法会很容易发现非法标引信息。

3.3 内容标引的检测

标引检测的目的是从待检测的数据提取标引进行分析、验证并生成监测信息。标引的检测工作既可位于传输网络的探针中,又可位于终端上。

探针的标引检测处理流程如图6所示,主要包括数据报接收、协议分析、流识别、内容标引识别、分析、鉴别以及对应鉴别结果的处理等7个步骤。

详细的标引检测流程如下:从网口或本机协议栈获得数据,根据数据报的3层、4层或更高层的协议完成规则匹配过滤、识别数据报,作为下一步流识别的依据,对同一协议类型的数据报进行流识别。对识别成功的数据进行下一步标引识别操作,对流识别失败的数据报进行非流数据报处理。之后根据标引定义的嵌入位置进行深层次协议识别———标引识别,判别该流中有无携带标引的数据报,对有此标引所属的数据流进行标引分析,对无标引所属的数据流进行无标引所属数据流操作。对标引内容进行相应语法分析和语义解释,将携带有效字段的标引数据流送入标引鉴别步骤,将携带无效标引的数据流送入带无效标引数据流处理。根据标引鉴别与算法模式完成标引的鉴别,鉴别公式为

新鉴别码==H(预映射值重计算)(4)

若新鉴别码与报文中的鉴别码相同,就认为该标引鉴别通过。

现阶段为保证内容标引检测的处理效率,在鉴别算法上采用单向比对的方式,检测采用与嵌入同样的算法生成鉴别码,与该数据报中携带的鉴别码进行对比,以判断该内容标引是否被替换或篡改。对携带有效标引的数据流进行带有效标引的数据流处理,对带无效标引的数据流进行带无效标引数据流处理。

对于所有的数据报乃至数据流,无论是否携带标引、携带标引是否正确,均记录相关信息到监测信息进行统计,便于后续分析和上报。

区分处理包含多种方式:在探针中,包括透传、过滤和阻断;在终端上,包括可根据标引描述信息进一步分析并针对本机需要的数据向对应进程进行数据传输。

4 实验验证

搭建一套由RTP流媒体服务器[4]、内容标引嵌入设备、内容标引检测设备和流媒体播放客户端和IXIA测试仪表组成的原型系统[5](见图7),对上述技术进行验证。

启动标引嵌入和检测功能,内容标引检测设备能够对是否具有内容标引及其正确性进行判断,检测结果如图8所示。每一行指示一个RTP会话信息,包含RTP的基本信息(包数、启动时间、源IP和端口、目的IP和端口、是否为RTP)和标引信息(播出机构ID、节目类型、编目和鉴别结果)。

在PC客户端使用通用播放器播放嵌入标引的媒体流,仍可流畅播放,不影响现有音视频传输。系统截图如图9所示。

在PC客户端上使用wireshark对携带标引的数据包进行解码分析,可以看到内容标引已按照生成及嵌入方法要求正确嵌入到了RTP包中,如图10所示。

利用IXIA 400T仪表仿真150个客户端并发上述播放器的点播行为,观看时长约为2 min,测试场景中的点播策略如图11所示,RTP吞吐量如图12所示。仪表接收了约62.5 Mbyte/s的RTP流量,该系统的嵌入和检测设备在性能上可处理中等规模网络流量。

5 小结与展望

对内容标引在互联网音视频监测中的应用,从方案设计、内容标引表示、内容标引的生成、嵌入与检测和实验验证等4个方面进行了研究及实现。实验结果证明,该技术成果可以在不影响现有互联网音视频传输的前提下实现透明、有效监测,并为将来实现融合监管打下良好的基础,提供新的技术方向。在后续的工作中,将进一步研究标引的动态分级监测管理技术、高性能深度嵌入与检测技术以及监测数据挖掘处理技术等。

摘要:首先简要介绍了互联网音视频传输监测现状,其次对主动监测技术方案的技术需求进行分析,以互联网音视频传输内容为研究对象提出了基于内容标引的主动监测技术方案,为内容感知和传输监测提供了新的手段。之后较为详细地论证了内容标引及相关关键技术如生成、嵌入与检测等。最后对标引嵌入和检测两个关键环节搭建原型系统进行功能及性能验证。

关键词:监测,标引,嵌入,检测

参考文献

[1]夏勇,袁敏.数字媒体内容标引及映射方法的研究与实现[J].电视技术,2009,33(8):68-70.

[2]SCHULZRINNE H,CASNER S,FREDERICK R,et al.RTP:a transport protocol for real-time applications[EB/OL].[2009-12-12].http://www.ietf.org/rfc/rfc1889.txt.

[3]杨显斌,叶梧.基于IP网络音、视频流式传输的实现[J].电视技术,2005,28(8):73-75.

[4]黄拔峰,钟明,杨传钧,等.Darwin Streaming server的研究与应用[J].计算机工程,2004,30(19):134-135.

数据标引 第7篇

1 护理学免费资源知识元组织的必要性

根据是否收费,Web上护理学电子资源分为收费资源和免费资源两种。收费资源如中国知网(CNKI)、万方等电子数据库,是护理学工作者获取知识的主要途径。由于其结构严谨,内容准确,为其知识组织方式由信息元过度至知识元提供了良好的基础,如CNKI数据库已经提供了知识元检索途径。在收费电子资源发展的同时,免费资源的发展也是日新月异,主要包括三类:①基于电子图书、期刊的开源资源,如道客巴巴、百度文库等。从目前资源的种类和数量上分析,开源资源的电子图书、期刊、博硕论文已经与收费数据库大体相当;②护理学电子论坛如丁香园、天使之城等。电子论坛向所有护理学工作者敞开了大门,是广大护理学工作者交流工作经验、思想体会的主要阵地,在资源种类和内容上与电子数据库形成了良好互补;③护理学百科知识网站,如百度百科、搜搜百科等。百科类网站的诞生为广大互联网用户提供了新的信息获取途径,其发展理念强调用户的参与和奉献精神,内容整体详实准确。可见从资源的种类和数量上分析,护理学收费资源仅是免费资源的一个子集。然而,在知识的组织方式上后者与收费资源远远不能同日而语,整体处于无组织的状态。这是由于免费资源分布过于广泛,所有的内容没有统一的结构格式要求,尤其是电子论坛信息的发布没有审核的过程,不规范用语非常常见等等,在这种条件下,显然信息元不可能成为免费资源的组织方式。为了合理组织这些资源,知识元组织方式最佳的选择。

2 护理学知识元的标引范围

2.1 限定开源资源的标引范围

目前国内大型综合类开源资源网站主要以道客巴巴、百度文库和豆丁网为代表,笔者在3月19日以“护理学”为检索词向这三个数据库的默认检索方式进行检索,分别得到956 149、 901 090 和401 445个检索结果,由于以上三者均是以电子期刊、电子图书、学术论文、电子课件等作为资源收集的内容,从资源数量可以简单的判断道客巴巴的护理学资源最为丰富。因此,将开源资源的收集范围限定在道客巴巴中,其他两个数据库没有必要做重复的分析统计。

2.2 限定电子论坛的标引范围

包括护理学在内,各种电子论坛的整体资源质量与论坛服务时间往往成正比,如丁香园论坛始建于2000年7月23日,经过多年的发展,吸引了大量高素质医学工作者的关注,内容也较为准确,信息每天都在动态更新;相比之下大量小的医学论坛不具有较强的吸引力,内容的整体质量较低,而且即使对其进行标引,这些论坛未来也非常可能被市场所淘汰,无法找到标引所对应的知识内容,显然对这样的网站内容进行深入的知识挖掘几乎没有意义。因此有必要将论坛的范围限制在2年以上,以此保充分提高对电子论坛知识元标引的质量和工作效率。

2.3 限定百科全书类网站的标引范围

主流的百科全书类网站主要有百度百科、搜搜百科、360百科、谷歌百科等等,通过名字即可发现这些网站均有一个共同的特点,即先有搜索引擎,后有百科,每个所有引擎都会首要的引用自身的百科知识,两者相互促进发展。以上百科类网站的知识内容几乎均涵盖所有的学科范围,种类和内容没有明显差别,但由于百度搜索引擎是市场占有率最大,在2012年11月占有率高达72.84%[2],可以说百度已经成为多数人检索信息的习惯。相应的使百度百科自然成为百科类知识点击率最高的网站,因此将范围限定在百度百科中。

3 知识元标引过程

3.1 护理学免费资源的分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,将没有间隔符中文词语变为机器可以理解的词语。常用的分词方法可分为三大类:基于字符串匹配的分词法、基于理解的分词方法和基于词频统计的分词方法。基于理解的分词方法模拟了人脑的理解过程,目前还处在试验阶段[3]。前两种分词方法主要的优缺点如表1所示。

前文虽然对护理学免费资源的范围进行了限定,但整体仍然是海量的,为了提高分析效率,保证分词质量,本文设计了一种曲线高效的分词方法。“曲线”表示为首先不直接对免费资源进行分词,而是以CNKI中的期刊数据库、报纸数据库、博硕论文数据库、会议论文等数据库,和读秀电子图书数据库为对象,采用字符串配算法进行分词方法对其内容进行分词。其原因如下:①电子期刊、博硕论文、会议论文等数据库是高端人才交流前沿知识的主要阵地。这决定其内容整体具有极高的含金量,任何新的理论知识、高效的工作方法必然第一时间诞生在其中或必然有所体现,保证了分词结果的全面性;②整体内容经过作者和编辑部多次审阅和校对,几乎没有错别字和奇异词,不需要对词语进行语义理解的过程,保证了分词结果的准确性;三、文献数量范围进一步缩小。笔者利用CNKI总库检索近5年发表的有关护理学方面的文献,检索表达式为:主题=护理(出版年:2009年3月29日—2013年4月29日)进行跨库检索,总计得到313 643个检索结果;以护理为检索词,在读秀电子图书中检索得到35 859个检索结果,有限的内容具备开展字符串匹配算法的基础。可见收费数据库的特点完全弥补了字符串匹配算法的缺陷。“高效”表现在以此分词结果为基础,将整体分词的结果作为字典,向免费护理学资源采取词频统计分词的方法进行分词,从而省去以往词频统计需要建立字典的复杂过程。分词统计完成后减去中文停用词表的分词,就是最终的分词结果。

3.2 护理学免费资源的关键词提取

提取关键词是知识元标引的核心环节,主要有两种方法,分别根据分词的重要性和出现频率作为提取依据。根据护理学各种免费资源自身物理结构的差异,如开源资源和百度百科对内容结构有严格的格式限制,尤其是关键词、摘要是前者必备组成部分,后者虽然没有对结构有如此细化的要求,但其内容的每个段落均有段落标题。可见以上两者在结构上就对分词间的轻重程度即权重进行了表达和说明。因此以各个分词的重要性为依据提取关键词。

在提取算法的设计上,作者傅雷在硕士研究生论文中提出了一种基于TFIDF算法的权重改进型算法,即在TFIDF算法上,增加分词的参考权重系数K,权重由标题、摘要、关键词和正文四项组成,权重值分别为2、1.5、3和1。在计算时,被统计的文章所有分词以此为参照物,若某一分词与标题、摘要等项的分词相同,就附以相应的权重值。以此进一步体现出文章结构与分词重要性的对应的关系,将结算结果前10名的分词设为关键词,并经过实践证明较为合理准确[4]。本文在此基础上,对权重系数K进行了如下细化和修改。细化内容为,根据标准格式的论文和图书结构中必有段落小标题,这是对段落或部分内容的总结性归纳,和美国学者P.E.Baxendale统计表明,反映段落主题的句子85%出现在段首,7%出现在段尾为原则[5],按着权重的重要性依次排序为段落小标题分词>段首句分词>段尾句分词。相应的对权重值进行修改为2.5、2和1.5,即正文权重值1不变,新增三项依次以0.5递增。标题、摘要、关键词的权重值依次增加1.5,分别为3.5、3和4.5。若某一分词同时与权重项的多个相同,按最大值赋予权重系数。同样取前10个分词作为关键词。最后在道客巴巴和百度百科中各随即抽取50篇文章,通过自动抽取的关键词与人工抽取的关键词相比较,计算出抽取精度、召回率和Fβ=1值分别为33%、 87%和47.8%,较TFIDF权重改进型的算法的值均有所提高,结果较为理想。

从电子论坛内容的格式分析,大部门内容由一段话组成,内容较少,甚至在百字以下。有限的内容使其产生分词与其位置几乎没有重要的对应关系,这极大降低了知识元提取的难度。因此,选择计算分词出现频率的方法提取关键词,即依次计算每一个分词的出现频率取其平均值,将出现频率高于平均值的分词提取为关键词。

3.3 护理学免费资源关键句的提取

由于关键词虽然可以表达概念,但无法完整的表达语义,从而无法准确的描述文章的知识,也不符合人们惯用的对文章的理解过程,相比之下句子才是表达知识的基本单位。因此,知识元以句子作为基本对象,能够更加合理、准确、方便的描述知识元表述的内容。具体过程如下:首先根据关键词提取的结果,将关键词还原至所在的句子。然后对句子进行分析,判断该句子是否能够完整表达一个知识且不可再分,将符合条件的句子提取为关键句。由于以上过程较为简单,在这里就不再赘述。

3.4 护理学免费资源知识元标引

按着知识元的结构描述关键句就形成了知识元。随着情报等学科对知识元研究的逐步深入,目前已经诞生较为合理的知识元描述框架[6],如表2所示。

4 知识元树型组织

本文设计分类器的思想是根据知识元结构中的内容属性设计的,整体分类器由三级组成:①设置护理学理论知识元与实践知识元分类器,对Web上免费的护理学知识元进行初次分类。通过对护理学知识元内容的特点进行分析,发现以下词语往往与护理学理论知识关系紧密,如分析、浅议、原理、概念、进展等,将以上词语组织构建成为护理学理论知识分类器。以下词语如治疗、作用、效果、调查、步骤、比较、处置等与护理学实践知识的内容相关,由此组成护理学实践知识分类器。②在根据医学广义的内、外、妇、儿的分类,设置二级分类器,如心梗、心绞痛、肾炎等词语组成内科护理学分类器等,同时根据护理学实际的研究和工作需要,增设护理学教学、护理学管理、护理学心里三个分类器[7]。③根据医院科室的和医学教学课程的设置,进一步细化分类器,如将内科护理学分类器细分为心内科护理学分类器、神经内科护理学分类器等[8]。当然,以上分类器的构建是一个非常繁琐的过程,需要护理学权威专家进行仔细论证,受到作者水平能力的制约和篇幅的限制,只是进行简单的框架描述,希望能够起到抛砖引玉的作用。分类器构建完成后,通过对护理学知识元的内容属性与分类器的词语进行比较和分析,采用决策树分类挖掘算法进行分类,将所有的知识元组织起来。

5 未来努力方向

5.1 对护理学隐性知识进行标引

知识元是显性知识的最小可控单元,也就是说本文是将护理学显性知识作为研究的对象,忽略了隐性知识的标引和组织。其实隐性知识与显性知识相比更为重要,只是由于目前隐性知识的获取和共享还存在许多实质性的问题,如部分隐性知识的显性化存在一定的技术困难,加之缺乏合理的知识保护体系和鼓励方法,限制了隐性知识整体的数量和质量。但近年来基于隐性知识的研究已经成为情报学等学科研究的重点,在一些学科隐性知识共享平台初见雏形[9]。可以以预见不久的将来,隐性知识共享平台将是人们获取知识的崭新途径。当未来护理学隐性知识显性化发展成熟时,有必要将该部分内容进行知识元层面的标引,扩大和丰富护理学知识的标引的范围,将所有的护理学知识高效组织在一起。

5.2 构建学习组织

知识元标引有效的解决了信息孤岛的问题,是目前知识组织的最佳方法,但并没有将知识的生产者有效联系在一起,知识生产之间就像在独立的包房中进行工作一样,缺乏面对面的交流和协作。因此,本文计划当护理学免费知识元标引逐渐完善成熟时,通过对用户的检索行为进行分析,动态的将查询内容向同或相近的护理学工作者组成学习组织[10],尤其是将以高校、科研院所为主的护理学研究人员和以医院为主的护理学临床工作人员组织在一起,为理论知识和实践知识的相互转化创造良好条件。

摘要:随着网络技术、信息技术的高速发展,免费资源的种类和数量已经远远超过前者,且其使用几乎没有任何条件制约,拥有更为庞大的用户市场。但这些知识整体处于无组织的状态,增加了护理学工作者检索和使用的难度。通过知识元组织的方式,可以将网络上的护理学资源全面高效地组织在一起,为护理学工作者的使用提供了便捷。

关键词:护理学,免费资源,知识元标引,知识组织

参考文献

[1]知识元[EB/OL].2012-02-20http://baike.baidu.com/view/359786.htm.

[2]2012年各大中文搜索引擎市场占有率[EB/OL].2013-03-05.http://zhidao.baidu.com/question/506779184.html.

[3]中文分词[EB/OL].2012-02-25.http://baike.baidu.com/view/19109.htm.

[4]付蕾.知识元标引系统的设计与实现[D].上海:华东师范大学,2009.

[5]温有奎.基于“知识元”的知识组织与检索[J].计算机工程与应用,2005(1):56-57.

[6]贾生.基于知识元的文献知识仓库构建研究[D].大连:大连理工大学,2012.

[7]周瑾.创新护理专业实践教学体系提高学生综合素质[J].中国农村卫生事业管理,2006,26(11):26-29.

[8]陈卫群,余昌第,冉春风,等.住院病种变化与临床科室和床位设置的研究[J].中国农村卫生事业管理,2004,24(5):50-52.

[9]卢小宾,王克平.隐性知识共享的制约因素与实现对策研究[J].情报资料工作,2011(3):6-9.

数据标引 第8篇

相邻的两个数字并列连用表示概数,必须使用汉字,连用的两个数字之间不得用顿号“、”隔开。

示例:二三米一两个小时三五天三四个月十三四吨一二十个四十五六岁七八十种二三百架次一千七八百元五六万套

带有“几”字的数字表示约数,必须用汉字。

示例:几千年十几天一百几十次几十万分之一

用“多”“余”“左右”“上下”“约”表示的约数一般用汉字。如果文中出现一组是具有统计学和比较意义的数字,其中既有精确数字,也有用“多”“余”等表示约数时,为保持局部体例上的一致,其约数也可能使用阿拉伯数字。

上一篇:通信企业固定资产管理下一篇:区域经济发展模式探讨