社会标签范文

2024-07-14

社会标签范文(精选12篇)

社会标签 第1篇

关键词:社会化标签系统,聚合连接,资源内容

1 国内外社会化标签现状

在快速的网络社会中, 社交网站吸引了很多人利用社会网络参与、关注和建立属于自己的关系网, 据统计, 在Facebook社交网站用户中85%的用户每周登陆一次, 每月至少登录一次Facebook有4亿的人, 平均每个注册用户平均每天会花费3个小时在Facebook上。随着开心网、微博、51job等各类新型的网站那的兴起, 带动了社交功能型网站的传播, 而社会化标签的推荐服务也在这些网站中暂露头角, 体现了巨大的商业价值。例如一些招聘网站会根据企业发出的招聘信息标签与招聘人员的招聘信息标签进行符合度匹配。

标签数据的三个主要因素区别于普通的结构图, 会呈现出一种独特的超图结构, 社会化标签系统中, 利用PageR-ank算法或FolkRank算法能够为用户提供高效的标签推荐, 为用户提供更加快速的访问体验。在用户偏好的数据的获取和计算上, 通过在数据模型中利用更高维度的张量分解技术减低噪声对数据采集的影响, 提高标签计算分析的准确率。

随着社会上对社会化标签系统的重视和研究, 国外的很多比较成熟的研究成果可以借鉴, 对研究社会化标签系统的个性化标签推荐有着重要意义, 例如超图能够更加直观的刻画社会化标签系统中的三种因素之间的结构关系;基于标签的聚类算法可以对标签系统周围的噪音进行过滤, 减少一些不准确的标注对资源标签标注所带来的影响;推荐节点能够为用户提供多种类别的节点, 打破了只推荐一中类别的传统思想;社会网络分析方法能够借助社会信息的, 较为社会化标签系统提供更加全面更快速的资讯, 与推荐算法结合已达到扩大影响的目的;多层网络有很好的耦合性, 有助于对资源进行标签分析。

2 社会化标签

标签可以被理解为给用户特定资源的主题等资源的特点进行描述。社会化标签是用户对资源的一种概括, 能够复合人们对资源的直观理解。元数据标签是由用户生成的, 它不同于由专家或作者的网站自动生成一种标签数据, 它能够更加简短、明确、清晰的反应出资源的特征。

人们对网络的认识从简单到复杂, 复杂的网络理论能够清楚的分析一些复杂的动态系统, 它能够帮助人们理解和解释系统的结构、相互作用的关系。在复杂网络中, 每一个节点都代表为一个单独的个体, 在本文中研究中被代表为用户, 两个节点之间的连接线表示了用户与用户之间的相互联系。

图1为第一部分, 图中所有的节点相互连接, 而且所有的节点全部相同, 这是一种典型的基本网路。图2所示是“用户-对象”, 用户和对象被分成两个部分, 一边的节点与另一边的节点进行相连, 相同类型间的节点不相连, 例如购物网站。社会化标签系统还存在另一种关系, 如图3所示。图3中不仅包括可用户、对象还包括了标签, 构成了独特的三元结构图, 是“用户-对象”结构的延伸, 不同的节点之间可以相连, 相同的节点之间同样不可以相连。超图理论打破了原有的显性连接的束缚, 允许一条边连接多个节点。

超图理论在标签算法当中具有一般性, 因此在各个学术领域都得到了认可和广泛的应用, 是现今研究社会化标签系统中的热点。

3 标签推荐图模型算法

在Folksonomies中会在系统的导航中为用户推荐几种标签, 更甚至通过用户的偏好进行分析, 推荐用户更加关心的资源。

pageRank算法又被称为网页排名, 它能够通过用户在某一页面入链数量对该网页的重要性进行分析。pageRank算法入链方法假设页面入链的次数越多, 那么这个页面就越重要, 而链接到它的上级页面也是重要的。pageRank不但考虑到入链数量也考虑到了入链质量, 同理, 入链质量越高该页面越重要。在本文中pageRank值以下被称为PR值, 每个网页都有一个PR值, 而每个页面的PR值都是由链接页面的PR值迭代而成。PR值的计算公式如下:

公式中PR (A) 是页面A的PR值;用PR (Ti) 表示入链到网页A的页面的值, 也就是页面Ti的PR值, 网页Ti是到达网页A的最后链接页;C (Ti) 是入链到页面Ti时所有的总跳转数。d的数值为0到1。

我们可以将标签的Folksonomy四元素F= (U, T, I, Y) 形成一个三部图GF (V, E) 。三部图中一条边权重的值为GF, w (u, t) =|{r∈R (u, r, t) ∈Y}|中w是节点出现的数量。设w (vi, vj) 为GF中边的权值, w (vi) 为vi顶点的值。公式如下:

利用随机冲浪模型改进后的PageRank算法的迭代方程如下:

算法的矩阵公式:

矩阵公式中→ω是一个非负实数的向量, GF中顶点的团体为V, →ω是该团体的评分。→p是用户在上网浏览页面是链接到其他页面的概率, 也可以用来表示该用户的兴趣方向。

FolkRank算法是pageRank算法的一种扩展算法, 这种算法将标签、资源和用户看做三个顶点的集合, 而集合中这三个顶点见得权重也有所不同。当d=1时, 通过矩阵公式得到ω0;当d<1时, 通过矩阵公式得到ω1。ω值评分算式为ω=ω1-ω0, 最终得到的ω值会就是该节点的FolkRank值。

4 总结

社会化标签系统由于更加准确和简短的描述非常受广大网名的欢迎, 用户可以对任何资源进行标签自定义设置。但是, 社会标签系统并不是完美的, 数据的损失、冗余、噪音的产生都会影响到系统对资源标签的处理。标签算法的融合和革新将是今后研究的重点方向。

参考文献

[1]孔祥迎.基于社会化标签的个性化推荐技术研究[D].成都:电子科技大学, 2013.

[2]陈丽霞.基于社会化标签的P2P语义推荐研究[D].西安:西安电子科技大学, 2012.

[3]马翩翩.D~2核K-means算法在标签系统中的应用研究[D].南宁:广西大学, 2012.

[4]王晓帅.社会化标签推荐算法的研究[D].南宁:广西大学, 2012.

[5]范能能.图像社会化标签预处理与聚类方法研究[D].武汉:华中科技大学, 2012.

社会标签 第2篇

第一步、如图,先打开我的收藏。

第二步、如图,收藏列表中以第一个为例说明,长按第一个。

第三步、弹出菜单如图,解释一下,编辑标签是对单条收藏的标签进行编辑,更多可以对多条收藏标签编辑,先看更多吧,点击更多。

第四步、看每条收藏右侧都多了个选框,底部多了几个图标(从左往右依次是转发给朋友、标签、删除),我点击选框选择同一类的收藏,之后点击底部的标签按钮,

第五步、如图打开标签添加,在添加标签那里点击一下可以直接输入名字,如图我已经加了个标签了,填写好标签,点击右上角完成。

第六步、如图添加标签完成自动回到界面,可以看到收藏下面的标签,点手机返回键。

第七步、如图回到我的收藏界面,这时候看不到标签了,其实是隐藏了。

后记:

社会标签 第3篇

本届大奖作品征集的序幕拉开以来,不少企业都开始积极准备参赛作品。为了能让大家更好地了解新一届大奖的细则,最全面客观地展示自己的印刷水平,“太阳杯”亚洲标签大奖组委会特别推出参赛指南,供大家参考。

教你玩转“太阳杯”

1.评审团组成

评审团由国内外著名设计专家、资深印制专家及知名品牌商的包装专家组成。

2.评审办法

为保证大赛评审的客观性、公正性,参赛作品将分组评审。

印制类分组:作品将按照不同印刷方式和不同画面特点(线条印品、线条+加网印品、彩色加网印品)进行分组评比;侧重考察作品的工艺设计、颜色再现、阶调层次、整饰效果等。

综合应用类分组:侧重考察作品的创意设计和功能设计,通过材料和印制工艺展现的货架效果及使用性能等。

另设最佳设计奖,打破行业束缚,结合生产工艺、材料选取、应用效果等评选出最能完美体现所标识产品的原创设计作品。

共设全场大奖三项,分别表彰印刷水平、创新应用及设计水平最优的作品。

全场印制大奖:印制水平得分最高且综合应用得分排名靠前的作品。

全场创新大奖:有突出创新元素(印制、应用或设计),在该项目得分最高且综合应用得分排名靠前的优秀作品。

全场设计大奖:设计水平得分最高且综合应用得分排名靠前的作品。

3.如何将您的作品归类

将参赛作品按照正确的分类填写报名表并完成递交非常重要,因为评审是分类进行的(如表1所示)。每一件作品都有机会同时参加“综合应用奖”和“印刷奖”评审,如:某洗发露标签由承印厂为客户提供创意设计,画面主体为飘动的发丝和灵动的蓝色水波,采用水性柔印+丝网印刷+定制图案全息转移工艺制作而成,则该标签可以选择综合应用类别中的“日化”、“智能防伪”,印制方式中的“组合印刷”,印刷图案中的“彩色加网”,原稿设计中的“本企业代客设计”,绿色技术中的“水性油墨”,这样就可同时参与“日化”、“智能防伪”、“组合印刷—彩色加网”、“绿色标签”、“最佳设计奖”五类奖项的角逐。

一种社会性标签聚类算法 第4篇

社会化标注(Social Annotations)服务(如Del.icio.us、Flickr、Cite ULike等)用户提供了基于标签技术的信息组织和管理方式,是当前Web2.0的标志性应用之一。在社会化书签系统中,用户根据个人的需要自由选择词汇对资源(网页、图片、视频等)进行标注,每添加一个词汇被称为对资源添加一个“标签”。用户、资源和标签组成了社会化书签系统的三个基本元素,一个社会化书签系统可以使用<用户,标签,资源>的三元组表示,其结构模型如图1所示。

在社会化书签系统中,用户使用标签对资源进行标注,每个标签相当于用户对资源的一个分类,资源根据不同的标签被组织到不同的分类之下;所有用户的资源存在于一个共享的平台上,相同的标签还能够聚合不同用户相同分类下的资源。这种信息组织方式具有两个明显的特征:一是在对资源添加标签的过程中,用户不需要遵循任何事先制定的分类法或者词表;二是每个用户的活动空间不是孤立、封闭的,而是开放、共享的,因此也是互相影响的。信息构建专家Thomas Vander Wal将这种在基于互联网的社会环境中、由大众用户产生的信息分类组织方式命名为“Folksonomy”[1](可称为“自由分类法”、“大众分类法”、“分众分类法”等)。

作为一种“群众”自发性定义的分类法,自由分类法具有自由性、共享性、动态性的特点,但同时也有不够严谨,缺乏准确度的弱点。这种弱点主要来自两个原因:(1)非受控词汇表。标签含义具有模糊性,如一词多义、缩略词等。(2)平面化、无等级的层次结构。这些弱点造成了对标签浏览和检索的困难。

一些研究已经开始关注如何改善自由分类法下标签的浏览和检索,主要的研究思路是对标签进行聚类,形成标签类簇。如文献[2]使用图的谱分割算法(Spectral Bisection)对共现标签形成的图结构进行了聚类。文献[3]使用一种概率模型对标签进行聚类。文献[4]中提出了基于确定性退火技术的非监督算法实现标签的聚类和层次生成。

本文提出了一种基于加权网络分割的社会性标签聚类算法STNC(Social Tags Network Clustering Algorithm)。与已有研究不同,论文构建了基于相似度的标签共现网络,并赋予标签节点相应的信息值来衡量节点的核心程度。聚类算法基于节点的核心度和相似性进行加权网络分割。算法的另一个特点是在聚类后自动生成该类的特征标签来代表该类簇。

1 标签共现网络

自然界中存在的大量复杂系统都可以通过网络进行抽象和描述。原则上讲,任何包含大量组成单元的系统,当把构成单元抽象成节点,单元之间的相互关系抽象为边时,都可以当作复杂网络来研究[5]。在社会化书签系统中,用户通过标签对资源进行标注的行为,使标签,资源和用户之间产生了一定的联系(如图1所示),在拓扑上形成网络结构。

共现(co-occurrence)分析是将各种信息载体中的共现信息定量化的分析方法。它运用统计方法和心理学原理分析文本中知识单元的共现分布特征,从中发现和挖掘潜在的知识及其关联。这里定义标签的共现指:若标签tagi和tagj标注了同一个资源,则称tagi和tagj共现。若两个标签经常用于标注相同的资源,则它们在一定程度上具有相似的语义。标签之间的共现关系形成网络结构,可以通过图来表示。

定义1标签共现网络定义为一个加权网络G=(V,E,W),其中V为节点集(标签集),E为边集,W为权值集。如果两个标签标注了同一个资源,则它们之间存在一条边,边的权值表示两个标签的相似程度。

2 算法思想

2.1 网络分割算法

网络分割,是将网络按照一定的标准进行划分,生成若干个子网(社区,社团)。不同的算法从不同角度来界定网络分割的标准。如文献[6]中算法界定划分子网的前提为:子网内部结点之间联系紧密,而子网之间通过少量的边连接在一起,子网之间的边比子网内部的边有更大的边介数(Betweenness)。依据该前提,该算法使用边介数作为网络分割的标准,通过逐步删除边介数最高的边,将整个网络分解为各个子网。文献[7]中使用距离的相异性(Dissimilarity)作为划分子网的标准,引入了相异性指数(Dissimilarity Index)来表示两个节点属于同一个子网的可能性大小,使用相异性的上下阈值来表征一个子网,将网络划分为一系列具有等级性的子网。文献[8]中提出了一种基于信息中心度(Information Centrality)的算法,引入网络有效率(Network Efficiency)的概念来衡量网络节点传输信息的有效性。算法每次从网络中移除信息中心度最高的那条边,直到整个网络被分裂成为若干独立的子网。在加权网络分割方面,文献[9]在基于边介数的无权网络的子网分割算法基础上,提出了加权网络的子网分割算法,以边介数与权值的商作为划分依据,逐步删除网络中商值最大的边。

2.2 STNC算法思想

与已有算法不同,STNC算法对子网的划分的标准是基于节点“核心度”,使用距离的相似性(Similarity)来分割网络。算法将与“核心节点”距离相近的节点集划分为一个子网,并且核心节点为该类的特征标签。

在STNC算法中,对“核心节点”的界定是算法的关键。在现实的网络中(如Web、社交网络等),网络中节点的地位或节点的重要性程度往往是不同的,常存在地位相对重要的节点,这些节点对于理解网络的特征一般具有比较重要的意义。在社会网络分析中,一般使用核心性(Centrality)和声望(Prestige)指标来描述节点在网络中的地位,度量方法主要包括节点的度(Degree)、接近度(Closeness)、中介性(Betweenness)、特征向量(Eigenvector)和累计提名(Cumulated nomination)等。针对社会化标注的特点,我们在标签共现网络中,定义了节点的信息值来综合描述节点自身的性质和节点在网络中的地位,信息值反映了节点在形成类簇时的核心度,其定义见本文第3节。

3 算法的相关概念

3.1 标签相似度

在标签共现网络中,边的权值定义为两个标签的相似度。如果两个标签共同标注的资源数目越多,则其相似度越高。标签相似度矩阵(即标签共现网络的邻接矩阵),计算如下。

定义2标注矩阵是m×n矩阵C=(Cij)其中m和n分别为标签总数和资源总数,Cij表示使用第i个标签标注第j个资源的频度。

定义3关联矩阵是m×n矩阵A=(Aij)其中Aij表示标签i和资源j的关联度,一个简单的方法是使Aij=Cij。为了更好地反映出标签的特征,借鉴TFIDF(Term Frequency Inverse Document Frequency)概念,定义标签—资源关联度TFIRF(Tag Frequency Inverse Resources Frequency)为:

其中U(ti)表示使用标签ti标注的资源数。

定义4相似度矩阵是m×m矩阵S=(Sij)在关联矩阵A中,每一个标签的信息相当于矩阵中的一个行向量Ti(u1,u2,…,un),标签之间的相似度计算可以转化为标签向量在空间中的距离计算。我们使用余弦相似度计算两个向量间的相似性。

3.2 标签信息值

标签的信息值用来衡量该标签的核心度,结合社会化标注的特点,标签的信息值由标签的下列属性确定:

(1)Sim To Tag其值为相似度矩阵S中的某一行(或列),该属性描述了一个特定标签与其他标签间的相似度。

(2)TFIRF该值用于表示量化的标签权重,使用公式(1)来计算。

(3)定义5ICS(Intra-Cluster Similarity)该性质用于测量一个标签是否可以较好地表示一类主题。如果一个标签可以较好地表示一个主题,那么这个标签所标注的资源应具有一定的相似度。我们用Ot表示标签t所标注的所有资源的质心,由公式(3)来计算。其中资源ui由关联矩阵A中的列向量ui(t1,t2,…,tm)来表示,U(t)表示标签t所标注的资源数目。

ICS用标签t所标注的所有资源与质心Ot的平均余弦相似度来计算:

(4)定义6标签熵TE(Tag Entropy)社会性标注的特点是标签的含义具有模糊性和歧义性。如标签OWL与标签apple,OWL的意义较为明确,而apple标签,具有意义上的模糊性,可以表示Apple公司或者水果。我们用标签的熵值来度量标签意义的歧义程度。

其中定义0·log0=0

定义7标签的信息值定义为:

其中t′为检索标签。

我们选取了8个标签(apple、community、game、health、python、mac、search、weka)在del.icio.us系统进行检索,通过训练集学习,使用线性回归模型,确定系数为:w0=0.89,w1=0.097,w2=0.78,w3=-0.075。

4 算法描述

4.1 系统流程

系统的整个处理流程如图2所示,其中,预处理模块进行数据集的获取、清理,并使用Porter Stemming算法对标签进行处理。在得到标签—资源标注矩阵C后,计算出标签网络邻接矩阵S,通过聚类算法的执行得到聚类结果。

4.2 算法描述

算法首先计算标签的信息值(1-3行),顺序排序后存入链表(第4行)。然后选择链表的首节点,即信息值最高的标签(第6行),在标签网络中依次判断其邻接节点是否属于同一类(7-12行)。如果首节点与邻接节点的权值大于该邻接节点与其他任何节点的权值,那么该邻接节点与首节点归入一类。得到的类簇以首节点为特征标签(14行),并将已经归类的标签从链表中删除(10,13行)。当所有节点已经归类或者已经达到期望的聚类个数时,算法结束。

5 实验及分析

5.1 算法实验

在社会化书签网站del.icio.us上,以java、elearning和dataming为检索标签进行检索,得到数据集。以java标签为例,共现标签的信息值排序为:opensource、program、software、framework、eclipse、develop、ajax、tutorial、j2ee、web、design、javascript。

经过算法运算,对标签共现网络(节点数=50)的聚类如图3所示,每个聚类用该类的特征标签来表示。可以发现,聚类结果符合检索标签的特征分布。

5.2 聚类有效性分析

聚类算法性能的评价一直是一个具有挑战性的问题,可以使用指标Rand Index[10]来进行衡量。它将类别划分看作是样本之间的一种关系,每一对样本要么被划分在同一类,要么在不同类。对于一个具有n(n-1)/2个样本的数据集,存在n个样本对,评价标准常采用正确的样本对数与总样本对数之比(Rand Index)来表示:

其中|C|表示由算法所获得的正确样本对数。

我们选择GN算法为对比算法,分别以标签网络节点数30,50,80,100进行聚类,结果如图4所示。由图可以看出,STNC算法具有较好的聚类效果。

6 结束语

本文提出了一种聚类算法来改善社会化标注系统的服务。通过对检索结果的聚类,提供语义关联的标签类簇,从而有助于提升用户浏览和检索的质量和效率。下一步的研究工作将主要集中在:(1)资源的排序研究。在检索标签的聚类后,将对应的资源按照某种标准进行排序提供给用户。(2)标签推荐服务。如何挖掘用户的使用特征和标签的性质,为用户进行标签推荐。(3)基于标签的本体构建。在Ontology的构建过程中,首要的问题就是如何获取领域概念。而共现标签经过处理,可以用于挖掘一个领域的知识概念,成为语义本体的概念基础,并且这种概念更加贴近用户而不是专家。

参考文献

[1]Adam Mathes.Folksonomies-Cooperative Classification and Communi-cation through Shared Metadata[EB/OL].http://www.adammathes.com/academic/computer-mediated-communication/folksonomies.html.

[2]Begelman G,Keller P,Smadja F.Automated Tag Clustering:Improving search and exploration in the tag space[C]//WWW Collaborative Web Tagging Workshop,2006.

[3]Wu X,Zhang L,Yu Y.Exploring Social Annotations for the Semantic Web[C]//Proceedings of the15th international conference on World Wide Web.Edinburgh,Scotland,2006:417426.

[4]Zhou M,Bao S,Wu X,et al.An Unsupervised Model for Exploring Hi-erarchical Semantics from Social Annotations[C]//Proceedings of the 6th International Semantic Web Conference.Busan,Korea,2007:680693.

[5]Newman M E J.The structure and function of complex networks[J].SIAM Review,2003,45(2):167256.

[6]Girvan M,Newman M E J.Community structure in social and biological networks[J].Proc Natl Acad Sci,2001,99(12):78217826.

[7]Zhou H.Distance,dissimilarity index and network community structure[J].Phys Rev E,2003,67(6):061901.

[8]Fortunato S,Latora V,Marchiori M.A method to find community struc-tures based on information centrality[J].Phys Rev E,2004,70(5):056104.

[9]Newman M E J.Analysis of weighted networks[J].Phys.Rev.E,2004,70(5):056131.

社会标签 第5篇

引出编号 说明 车辆合格证标签: 车辆合格证标签位于副驾驶员侧车门门框上。1 品牌 2 整车型号 3 车辆识别号(VIN 4 制造年月 5 座位数 最大设计总质量(千克 7 发动机额定功率(千瓦 8 发动机排量(升 9 发动机型号 轮胎标签: 轮胎标签位于驾驶员侧后车门上。10 前 /后排乘客数 11 总乘客数 12 可载重能力 13 气压(运行前 轮胎运行发热后,气压可增加 15 额定后桥载重量 16 额定前桥载重量 17 车辆识别号(VIN 18 额定整车载重量 19 日期 20 轮胎尺寸 21 进度级 22 车型

维修零件识别号标签: 维修零件识别号标签有助于确定车辆原装零件和选装件,此标签位于行李箱内,备胎罩 下。工程 设计型号 22 车辆识别号(VIN 23 车辆选装件内 容 24 内 饰等 级和装 饰 件 专 门定制 的油漆颜色及其编 号 工程 型号(车辆、品牌 分类 和车 身款式 车辆识别号(VIN 标牌: 车辆识别号标牌位于 仪表板左 上 角 ,可 从 车 外透过挡风玻璃看到。27 车辆识别号(VIN 标牌 是法 定标识。车辆识别(VIN 系统

社会标签 第6篇

展会当天,爱普生工业级高速全彩色标签打印机TM-C7520G、ColorWorks超高速连续纸彩色喷墨打印机GP-C832以及新一代全彩色标签打印机TM-C3520等产品最受参观者欢迎,它们为制造、化工、医疗等多个行业提供了全方位标签输出方案,体现出爱普生在标签打印设备领域的雄心和实力。

彩色标签在化工、医疗、制造等行业的应用越来越普及,相关行业对标签的品质要求也越来越高。爱普生针对行业需求进行深入研究,推出了彩色按需打印的全新解决方案,吸引了不少参观者试用体验。

针对制造业产品外箱标签混乱的问题,爱普生在现场展示了TM-C3520/ TM-C7520G涵盖整个制造业供应链系统的彩色标签应用方案。从生产制造、包装,到物流运输,再到零售终端,它们都能根据需求,灵活地打印不同介质、不同规格的全彩标签,实现色彩与可变信息的一次性输出。这样既能制作符合国家标准的彩色外包装箱标贴,又能解决小批量、多批次、个性化标签打印的难题,同时最大限度减少了标签的输出成本。

在化工行业,为了确保安全生产和规范管理,国家对GHS标签输出制定了严格的要求。一般来说,鉴于危险化学品标签的高严要求,企业很难将其进行外包,这无疑为企业带来了成本和质量双方面的难题。爱普生针对化工行业推出GHS标签打印解决方案,TM-C3520/GP-C832能够轻松解决行业内危险化学品标签的彩色警示标识和多种排列组合印制的问题,帮助企业摆脱外包、优化工作流程、提高工作效率、满足化工企业自用标签的输出需求。

爱普生同时也为医疗行业提供了全方位的打印解决方案:针对医学检验环节,爱普生TM-C3520推出医学检验标签的专业解决方案,通过彩色突出重点信息来减少医疗失误,最大限度为医患提供方便。

此次展览会中,标签印刷行业的新技术展示也是一大亮点。爱普生此次针对制造行业展示的TM-C7520G工业级高速全彩色标签打印机,采用了最新的PrecisionCore行式打印技术。在这一技术的支持下,TM-C7520G能够实现300mm/s 超高速输出。为用户带来高速度,高质量的彩色标签。

除了打印技术的更新,TM-C7520G在指令语言上也有了创新性的改变。爱普生特有的ESC/Label 指令语言,替代了预印刷彩色套打可变信息的传统模式,实现了对ZPLII指令系统的无障碍替换,能够轻松实现制造业的标签打印需求。此外,TM-C3520新一代全彩色标签打印机在打印头技术上也有革新。其创新的打印头墨滴自动检测系统,在打印头出现堵塞的情况时,可以自动进行打印头清洗。它保证了TM-C3520高品质彩色标签的长时间输出,为用户提供了便捷。

除了工业标签机相关产品以外,在本次展会上,爱普生还展示了囊括大幅面、商用墨仓式产品线的多款产品及其解决方案。其中爱普生A3+彩色商用墨仓式数码复合机WF-R8593凭借低成本彩色打印、环保安心以及更高效的强大优势为商用领域用户带来全新的打印体验,赢得到场参观者的一致好评。

作为打印行业的佼佼者,爱普生将继续深耕用户需求,不断研发集高效性、专业性、便捷性于一体的打印设备,为各类行业及领域提供更加完善的解决方案。

社会标签 第7篇

关键词:社会,边缘化,教育者,学生

随着教育经济基础的不断发展和素质教育在我国的全面推进, 教育公平、教育均衡、人本主义等教育理念逐渐出现在现行中小学教育中。在这些理念的导向下, 教育领域中的一系列非人道的称谓发生了变化, 其中, “差生”的蔑视称呼到“后进生”称谓的转变就是教育新理念起效的结果。近几年来, 人们似乎越来越重视教育与社会的有机联系, 开始引入社会学的概念和理论对教育进行解释, 边缘化学生这个概念便源于社会学的理论。虽然人们对学校教育中成绩相对落后的学生称谓进行了完美的改装, 但是这一群体在学校教育中的困境却没有相应的改观, 这严重违背素质教育的理念, 从理论上对这一群体进行研究能够唤起教育者理性的重视和应对, 同时在实践领域找到解决这一问题的突破点。

一、边缘化学生解读

当下众多的学校中存在着这样一种学生群体, 他们学习成绩落后, 充满厌学情绪。在课堂教学中, 他们往往被安排到教室的后排角落里, 教学活动中消极被动, 很少主动发现问题、回答问题, 更有甚者游离于教学之外, 在课堂上理所当然的做着与课堂教学无关的事情, 睡觉、看小说、交头接耳、玩手机等是这一群体学生的生活常态。他们看不到知识的价值, 对人生意义缺乏正确的认识, 在学校交往中, 被隔离于学校的班级体制文化中, 缺乏教师的关爱, 甚至同学的友谊。社会学理论认为在社会的变迁和转型中, 传统和现代两种价值理念交织在一起, 人们经常在价值观、信念、行为出现矛盾的抉择。部分人难以做出正确的选择, 导致他们难以融入主流群体, 从主流群体中获得自身发展的资本, 最终落后到主流群体之外, 从而处于边缘化的位置。学校群体虽有自身的特性, 但作为一种群体组织, 在某种程度上它又和社会群体有相似之处, 所以, 可以称学校为一个小型社会组织。由此来看, 边缘化学生在本质上是与学校正式组织隔离的, 班级组织的主流价值和文化很少触及到他们。

边缘化学生的存在与这一系列人本主义理念是冲突的, 这一现象破坏了学生平等发展的机会, 成为了影响师生和校园整体和谐发展的潜在威胁因素, 不利于教学和教育目标的达成, 最终造成人的畸形发展和社会潜在威胁因素的增加。

二、标签化理论视角下边缘化学生成因分析

标签理论源于20世纪30年代美国著名的犯罪学家坦南鲍姆对犯罪群体的研究, 随后, 美国著名学者莱莫特和贝克尔进一步解释了这一理论, 并使其体系化和系统化。该理论称呼偏离主流组织和文化的个体行为为越轨行为, 认为越轨具有主观性, 个体一旦被贴上越轨的标签后就会进一步强化自身的越轨行为, 与主流价值和行为渐行渐远。这一理论被越轨行为分为初级越轨和刺激越轨, 在初级越轨阶段, 越轨者的行为是临时的, 很少被人发现, 如果有有效的引导措施, 越轨行为得不到标签的强化, 越轨行为可以得到矫正。但是, 当越轨者的行为一旦被周围的人 (诸如父母、老师、同学、朋友、警察等) 发现并对其以责备、蔑视的口吻进行称呼时, 越轨行为便转向了次级阶段。这一阶段, 蔑视、责备、冷落的口吻、表情和语言逐步固化为越轨者的标签, 成为了越轨者的一个符号, 越轨者在外在的以舆论为武器的主流价值体系中得不到认可便越出主流组织在其它的非正式群体中寻求感情的认可, 久而久之, 越轨者的越轨行为发展到难以挽救的地步。

在学校中受教育的学生犯错为是很难免的, 但是在传统的严师出高徒的师生理念中和当今过分强调成绩的教育体制下, 学生一旦犯错误就会遭到以教师为中心的教育者的责备和批评, 学生一旦前几次改之, 便脱离力被边缘化的潜在危险。但是, 部分学生可能出现连续的错误, 而教育者经常以一个标准来衡量学生的错误, 经常性的对其进行批评和责备, 随着时间的推移, 消极的标签扩展学生的同伴、父母当中, 标签进一步固化, 学生失去了去标签的机会, 边缘化学生的反主流倾向越来越严重, 低学业成就、违反纪律、人格扭曲固化成了边缘化学生的行为模式。教育的个体化功能和社会化功能在这些学生身上毫无作用, 教育逐渐失去其价值关怀和人文关怀。

三、边缘化学生的教育对策

边缘化学生的存在是对当下以人为本的教育环境中公平、平等、人道等理念的公然挑战和威胁。怀有教育爱和社会责任的教育者必须对这一现象进行反思并寻求解决之道, 这对于学生的发展、教师的专业化和幸福指数的提升都是有重大意义的。

1、尊重学生, 树立人本主义教育理念

教育的中心是围绕人进行展开的, 教育者面对的是有生命力、不断变化的生命个体, 他们拥有作为人的要求平等发展的权利和机会, 享有被爱和关怀的温暖。教育者要爱护、尊重每一个学生, 对边缘化学生给以更多的关注和热爱, 看到他们的优点和长处, 多给予鼓励, 而不是盲目的责备和惩罚, 唤起他们的自信心和自尊心, 促进他们人格的健全发展。

2、转变传统, 确立多元化的评价体系

在旧的应试教育体制下, 学业成就是评价学生好坏的唯一尺度。在素质教育全面推进的今天, 这种旧的工具主义评价体系仍然在学校占有一席之地。面对边缘化学生, 教育者亟需从传统的评价理念中解放出来, 确立多元化的评价体系。

3、改变校风, 建设兼容并蓄的校园文化

校园文化潜移默化的对学生发生作用, 是学生人格形成的外在环境。教育者应该努力构建生动活泼、兼容并蓄的校园文化。在这种文化中尊师爱生, 学生之间用平等、多元的眼观看待对方, 在心理和行为上互帮互助, 每一个个体都能得到尊重和关爱。在在这种环境中边缘化学生感受不到教师和同伴的冷落和蔑视, 能从感情上得到认同, 没有了被贴标签的外在环境和去标签的机会。如此, 教育的人文关怀得到了实现, 学生的发展才有了前提。

社会标签 第8篇

关键词:社会化标签,推荐系统,协同过滤,标签噪声

个性化推荐系统能够根据用户的行为记录将用户感兴趣的信息主动推荐给用户, 是解决信息超载问题的一个重要手段[1]。随着Web2.0的发展, 社会化标签作为一种互联网资源组织方式被广泛使用[2]。社会化标签是用户兴趣的反映, 将社会化标签与个性化推荐系统结合, 不仅能改善传统的资源分类方式, 而且能根据用户的标注记录给用户推荐个性化的资源[3]。

但社会化标签存在诸如同义词、一词多义、单复数、缩略词和拼写错误等语义模糊和冗余问题[4], 给用户和资源建模带来了垃圾信息, 从而损害了推荐效果。近年来, 一些学者研究了如何改进标签质量。文献[5]采用层次聚类的方法来降低标签噪声带来的影响;信息检索领域的PLSA (Probabilistic Latent Semantic Analysis) 和LDA (Latent Dirichlet Allocation) [6]等方法也被用来改进传统的标签建模方法以期获得更好的推荐效果[7]。与这些方法不同, 本文通过流行标签建模来降低标签噪声给推荐算法带来的影响。

1 流行标签的选择

流行标签指被很多用户使用过的标签。流行标签更能反映资源的主题而那些被较少使用的标签对其他用户来说是主题无关、缺乏意义甚至是拼写错误的。所以, 合理选择流行标签能够过滤标签噪音。

定义

(1) 用户集合U={u1, u2, …, un}, 包含了所有对站点资源进行过标注的用户。

(2) 资源集合R={r1, r2, …, rm}, 包含了用户集合中所有用户标注过的资源。每个资源项rj可以被不同的用户以多个标签来描述。

(3) 标签集合T={t1, t2, …, tk}, 包含用户集合U使用的所有标签。

(4) 流行标签集合C={c1, c2, …, cq}, 包含所有流行标签。

若仅基于全局的流行度来选择流行标签, 一些具有低全局流行度但高局部流行度的重要标签将被排除。此外, 那些具有高全局流行度, 但低局部流行度的标签将被错误选择。

综合考虑后, 基于标签的最大局部流行度来选择流行标签。令O (ti) 是标签ti的最大局部流行度, 则;令θ是阈值, 满足O (ti) >θ的标签ti将被作为流行标签。

定义T (rj) 为资源rj的标签集合, 是资源rj的标签集T (rj) 中的最大局部流行度。显然, 如果阈值θ大于最大局部流行度, 那么资源rj的所有标签将不会被选为流行标签, 导致没有流行标签可描述资源rj的主题。

令;若θ≤λ, 则可保证所有的资源都能被至少一个流行标签所描述。因此, 流行标签集合C定义为

2 基于流行标签的协同过滤算法

协同过滤算法是目前广泛应用的个性化推荐算法, 其核心思想可分为两部分: (1) 利用用户的历史信息计算用户间的相似性。 (2) 利用目标用户相似性较高的邻居对其他产品的评价来预测目标用户对特定产品的喜好程度, 系统根据这一喜好程度来对目标用户进行推荐[8]。

基于协同过滤技术的推荐过程可分为3个阶段:数据表示、发现最近邻居和推荐资源[9]。

2.1 数据表示

(1) 资源的表示。

, f (rj, cx) 是资源rj被流行标签cx标注的频率

对于一个规模为q的流行标签集合C, |C|=q, 对任意资源rj∈R都可以表示为一个向量, bj= (bj, 1, bj, 2, …, bj, x, …, bj, q) , 其中bj, x=f (rj, cx) 。

(2) 标签的表示。对每个用户而言, 尽管他使用的标签对其他用户不是都有用, 但却反映了该用户对资源的个性化分类喜好。因此, 每个用户使用过的标签对用户的建模都有作用, 而无论标签是否流行。文中考虑如何用流行标签来表示用户使用过的标签, 从而最大限度的保留用户的个性化信息。

令t是用户u使用过的一个标签, C={c1, c2, …, cq}是流行标签集合, 则t可由带权重的流行标签来表示:TR (t, u) ={ (cx, w (cx, t, u) ) |cx∈C, w (cx, t, u) >0}, w (cx, t, u) 是标签cx的权重。

标签cx的权重w (cx, t, u) 可通过计算用户u用标签t标注过的资源集中流行标签cx的使用频率来表示。因不同标签标注过的资源数可能不同, 用户u使用标签t标注的资源数来对w (cx, t, u) 归一化。定义R (t, u) 为用户u用标签t标注的资源集, 则cx的权重为

显然, 标签的表示TR (t, u) 由用户u用标签t标注过的项目集产生而来, 反映了用户u对资源的分类的个性化观点。因此, 用流行标签表示每个标签的主题依然保留了用户的喜好。

(3) 用户的表示。对用户ui, 流行标签集C={c1, c2, …, cq}, 用户ui的兴趣模型可用一个规模为q的向量来表示, 定义为

sc (ui, cx) 是vi, x项的权重得分, 表示用户ui对流行标签cx的兴趣度;。

综上, 可用规模为|U|×C的矩阵v来为所有的用户U建模。矩阵v中的任意一行vi表示用户ui的兴趣模型。

为了计算每个用户主题兴趣的权重sc (ui, cx) , 首先, 对该用户使用过的标签计算兴趣分布。

令Ti={ti, 1, …, ti, k, …, ti, a}是用户ui使用过的标签集合, ti, 1, ti, k, …, ti, a∈T, 用s (ti, k) 来表示用户ui对标签ti, k的兴趣度, 则用户ui的兴趣分布可用得分向量 (s (ti, 1) , …, s (ti, k) , …, s (ti, a) ) 表示, ∑ak=1s (ti, k) =1。

显然, 若用户对一个标签或一个主题更感兴趣, 那么他会利用该标签标注更多的资源。这表明, 用户使用一个标签的数量是评价用户对该标签的兴趣度的重要指标。

定义|R (ti, k, ui) |为用户ui用标签ti, k标注过的资源的数量, 则可通过计算|R (ti, k, ui) |占用户ui标注资源总数的比例来衡量用户对标签ti, k的兴趣度

由前文所述, 每个标签都能由流行标签集表示, 则用户使用过的标签的权重都可转化为流行标签的权重

用户ui对主题cx的兴趣度为

综上, 用户兴趣度的表示方式就由个人标签转化为流行标签。这种建模方法能在降低标签噪声的同时还能保留用户对分类的个人偏好。此外, 转化后的矩阵规模大幅减小, 利于后续操作。

2.2 发现最近邻居

生成近邻的任务就是为指定用户寻找最相似的用户集合, 本文用余弦相似性来计算用户的相似度

据此, 可得到指定用户最相似的K个用户

max K () 函数用于获取最大的K个值。

2.3 推荐资源

根据找到的K个相似用户, 将属于相似用户资源集但自己没浏览过的资源推荐给用户。

根据式 (10) 得到待推荐的资源集合, 但并未考虑待推荐资源与用户模型的相似性。通过计算用户兴趣模型与资源模型的相似性, 找到最相似的N个资源推荐给用户

3 实验评估

3.1 实验数据

文中采用Movie Lens 10M作为算法实验的数据集, 其包含了71 567个用户对10 681部电影的评分记录, 共10 000 054个评分和95 580个标签。本文只研究基于标签的推荐算法, 所以只选用其中的tags.dat数据。

数据集选择方法:为了不受数据稀疏性的影响, 选取打过最多标签的50个用户作为用户集;然后在这50个用户的标注记录中筛选出被标注次数最多的100部电影作为资源集, 得到这50个用户在这100部电影上的7 772条标注记录, 其中包含1 572种不同的标签。对每个用户按1∶4划分测试集与训练集, 通过学习训练集中的用户标签数据预测在测试集上用户会给哪些电影打标签。

3.2 评测指标

通常用准确率和召回率来评价推荐算法的性能。令R (u) 是根据用户在训练集上的行为给用户作出的推荐列表, 而T (u) 是用户在测试集上的行为列表。则推荐结果的准确度P定义[10]为

推荐结果的召回率R定义为

3.3 实验对比

方法1基于本文提出的基于流行标签的协同过滤算法Popular Tag-Based。

方法2基于未经处理的传统的基于标签的协同过滤算法Tag-Based。具体步骤为:

(1) 从所有的标注记录中找出所有不同的标签组成标签集合。设标签集合为T={t1, t2, …, tn}, 不同标签的种类为n。

(2) 为每个用户构建在整个标签集合上的向量空间模型。则每个用户可被表示为一个n维向量, 第k维的权重为标签tk在该用户所有标注的标签中出现的频率。则对用户ui而言, 其的兴趣模型为ui= (wi1, wi2, …, win) 。

(3) 对用户ui寻找最相似的K个用户组成最近邻, 用余弦相似度来计算两个用户向量模型间的相似度。

(4) 在这个最近邻内部寻找他们标注过的资源, 将每项资源用向量表示。每个资源可用一个n维向量表示, 第k维的权重为标签tk在所有标注过该资源的标签中所占的频率, 则Ij= (wj1, wj2, …, wjn) 。

(5) 将目标用户的兴趣向量与资源向量求相似性, 按从大到小的顺序排列, 取前N项资源推荐给目标用户。两种算法的准确率对比图如图1所示, 召回率对比图如图2所示。

从实验结果可看出, Popular Tag-Based算法在准确率和召回率两方面均较传统的Tag-Based算法有显著提升。因Tag-Based算法并未考虑社会化标签的噪声, 而是直接利用原始标签信息进行建模, 标签的维数达到1 572维, 导致了建模维度过高而且推荐精度低的结果。本文提出的基于流行标签的算法通过对每个资源统计标签的局部流行度, 选择流行标签的阈值为θ=5, 将标签的维数降为流行标签集的个数 (343个) , 在降维的同时还过滤掉了标签的噪声, 改善了推荐的效果。

4 结束语

本文根据大众智慧改进了传统的基于社会化标签的协同过滤算法。针对社会化标签出现的语义模糊和冗余问题, 结合大众智慧选择流行标签, 利用流行标签来表示资源、用户的个性标签和兴趣模型。基于流行标签的建模方法有效降低了标签噪声的影响。阐述了基于流行标签的协同过滤算法的实现, 并在Movie Lens10 M数据集上进行了对比实验, 实验结果表明该方法能有效改善传统推荐算法的性能。

参考文献

[1]王国霞, 刘贺平.个性化推荐系统综述[J].计算机工程与应用, 2012, 48 (7) :66-76.

[2]张海燕, 孟祥武.基于社会化标签的推荐系统研究[J].情报理论与实践, 2012, 35 (5) :103-106.

[3]Shilad Sen, Jesse Vig, John Riedl.Tagommenders:connecting users to items through tags[C].Madrid, Spain:Proceedings of the 18th international conference on World wide web, 2009.

[4]Aleksandra Klasnja Milicevic, Alexandros Nanopoulos, Mirjana Ivanovic.Social tagging in recommender systems:a survey of the state-of-the-art and possible extensions[J].Artificial Intelligence Review, 2010, 33 (3) :187-209.

[5]Shepitsen Andriy, Gemmell Jonathan, Mobasher Bamshad.Personalized recommendation in social tagging systems using hierarchical clustering[C].Lausanne, Switzerland:Proceedings of the 2008 ACM Conference on Recommender Systems, 2008.

[6]Ralf Krestel, Peter Fankhauser, Wolfgang Nejdl.Latent dirichlet allocation for tag recommendation[C].New York, USA:Proceeding of the Third ACM Conference on Recommender Systems, 2009.

[7]张子柯.社会化标签系统的结构、演化和功能[J].上海理工大学学报, 2011, 33 (5) :444-451.

[8]刘建国, 周涛, 汪秉洪.个性化推荐系统的研究进展[J].自然科学进展, 2009, 19 (1) :1-15.

[9]田莹颖.基于社会化标签系统的个性化信息推荐探讨[J].图书情报工作, 2010, 54 (1) :50-53.

社会标签 第9篇

近几年, 与“X二代”有关的事件频频发生, 相关报道也层出不穷, 引起了社会的强烈关注和巨大争议。“X二代”可以是“官二代”、“富二代”、“军二代”或“星二代”等, 指官员、富人、军人或名人的子女。官员、富人、军人和名人往往拥有更多的社会资本, 其子女也被认为属于特权阶层, 在近年的“李刚门”、“药家鑫案”、“少女毁容案”以及“李天一案”中, 尽管肇事者并不一定为“X二代”, 但在报道中往往都能发现将肇事者定义为“X二代”的倾向, 理应客观公正的媒体在事件发展初期并未冷静客观, 而是给肇事者贴上“X二代”的标签, 使得事件呈现为特权阶层与平民阶层的冲突。

在新闻传播过程中, 对新闻事件进行鉴别、分类、命名, 与人们已经熟悉的事件联系起来, 把某个新闻事件归于人们已经熟悉、定型化的新闻事件类别, 这样一个建构新闻故事的过程就是“贴标签”[1]。将新闻事件贴上人们所熟悉的、形成了理解定势的事件类别标签, 往往能使新闻更好地为人们所认知和理解。本文从修辞层面具体讨论了这种标签化新闻的话语特点, 这里的“修辞”从广义上理解包括为新闻真实性、合理性、精确性和可信度而使用的策略性手段[2]。

二、“X二代”新闻报道的话语特点

1. 对事件细节与数据的详尽描述

新闻的真实性要求报道尽可能还原事实, 报道中提到的具体确切的数据所隐含的精确性也强烈暗示着报道的真实性。如“药家鑫案”, 《重庆商报》的报道《大学生驾车撞人8刀捅死伤者》中, 受害者身上有“8处刀伤”, “左手上有三道划痕, 前胸有一道刺穿伤, 后背中四刀”;《羊城晚报》的报道《网曝官二代少年求爱不成将少女毁容》中写道, 受害者“经过7天7夜的抢救治疗才脱离危险”, “烧伤面积超过30%, 烧伤程度达二度、三度, 整个人面目全非”, “住院和治疗总共花40多万元, 陶某的父母垫付了33万, 还欠医院10多万”等。在“X二代”报道中, 细节和数据不仅暗示了信息的真实精确, 也表现了受害者的悲惨遭遇和肇事者的残忍冷漠, 因此带有强烈的情感偏向, 能激发受众的愤怒之情。

2. 事件双方对立关系的夸张修饰

在“X二代”事件中, 媒体报道往往将肇事者描绘为品行恶劣的特权阶层, 而将受害者描绘为值得同情的弱者, 这类报道常用醒目的修饰语描述双方人物, 如杭州飙车案中的“富二代”与“浙大优秀毕业生”, “李刚门”中“专横嚣张的官二代”与“品学兼优的大一新生”, 药家鑫案中的“丧心病狂的军二代”与“贫穷的打工女”, 少女毁容案中“品行恶劣的”陶某与“乖巧听话的”周某等等, 报道修饰语将双方关系夸张呈现为贫富、强弱、善恶的尖锐对立。

媒体在报道中也着力展现双方的激烈冲突, 常具有强烈的画面感和戏剧性。如中新网《河北官二代大学内撞飞2名学生后接女友》:“司机不但没有停车, 反而继续去校内宿舍楼接女友”, “该李姓年轻男子却高喊‘我爸是李刚’。”新浪网援引中国网《李双江儿子无照驾宝马打人欲逃离高喊:谁敢打110》引用目击者证词称, “被打的夫妻身高都只有一米六十多, 所以完全处于挨打的局面。打人者还大喊‘谁敢打110’。”中安在线《男中学生泼油火烧16岁美丽少女可能致终身残疾》中引用目击者描述:“我听到一声惨叫, 跑过来发现孩子已被大火淹没了, 陶某不停喊‘去死吧’。”《广州日报》在《女中学生因拒求爱被毁容》中也引称:“后来他的父亲来我家协调, 母亲始终没有来。但他们并不是来道歉, 而是让我们不要扩大影响。”报道中对双方冲突的戏剧化处理, 一方面吸引了受众对事件的关注, 另一方面也极易将双方的人际矛盾扩大到社会阶层冲突的层面, 成为社会矛盾的一部分。

3. 对事实性信息的选择性铺陈

除了事件当事人外, 来自第三方的事实性信息也能够侧面反映事实, 由于这类信息处于事件双方的立场之外, 显得相对客观公正, 但在“X二代”报道中, 来自第三方的事实性信息往往超越事件本身, 成为印证“X二代”身份的证据, 如“杭州飙车案”、“药家鑫案”中肇事者的大学生身份被忽略或只是一笔带过, 媒体更多地聚焦于肇事者的家庭背景和社会地位。报道中也常出现貌似客观实则有选择呈现的信息, 如《重庆商报》报道“药家鑫案”:据多名知情警官介绍“其所驾驶的车辆系其私家车, 其家庭背景殷实”, 邻居称“他家境比较殷实, 车辆是父母掏钱买的”, 从侧面印证其家庭背景。《羊城晚报》报道“少女毁容事件”引用受害者代理律师的表述称, “如果还不能进入诉讼阶段, 陶某就有可能被取保候审”, 这极易使受众产生“肇事者有可能取保候审、逍遥法外”的印象。

“X二代”事件本质上只是不同程度的肇事案件, 双方在事件中身份平等, 但报道中的事实性信息却呈现出双方社会地位的巨大反差, 如《河北大学“飙车案”遇难者陈晓凤最后的岁月》一文中, 受害者“来自一个普通的务农家庭”, “父亲陈广乾农闲时在周围县市打井, 一天能赚80元左右, 供养她和哥哥陈林读书”, 《撞人捅死伤者大学生被逮捕称怕撞农村人难缠》中, 受害者“56岁的公公王国立和婆婆常年生病无法下地干活……家庭生活原本完全靠其丈夫王辉在外打零工维系”等。人们往往认为旁观者清, 事件双方之外的人员提供的信息相对客观公正, 不偏不倚。但在“X二代”报道中, 媒体选用的这些事实性信息凸显了双方的二元对立, 加强了受众对“X二代”恶劣形象的认知。

梵·迪克认为, 新闻文本的修辞结构是可选择的, 涉及的是如何表达的问题, 新闻要求受众接受和理解新闻到底表达了什么, 因此是一种劝服性话语。在“X二代”新闻文本中, 修辞技巧的运用凸显了双方的阶层矛盾和利益冲突, 也使得标签化的“X二代”新闻成为一种有力量的新闻话语。

三、“X二代”新闻话语的表征运作

“X二代”一词原本不具贬义色彩, 其所含贬义实为新闻话语表征的后果。最初, 社会中客观存在的“特权阶层”及其享有特权的现象并没有一个特定名称, 媒体对此也无集中报道, 这一群体在媒体和公众的概念图中十分模糊, 当第一次关于特权阶层子女的恶性事件出现在新闻中, 这一群体才得到集中关注。从2009年5月某地干部之女殴打同学、河南某地干部选拔多数干部子女当选等事件, 到杭州飙车案中的“70码”, 使网友们疯狂挖掘肇事者的家庭背景, “X二代”在媒体与公众的概念图中逐渐清晰。报道中, 媒体使用“官二代”、“富二代”等对其指称, 使报道完成了从事物到概念再到符号的表征过程。“李刚门”中, 网友和媒体都认定肇事者为“官二代”, 由于报道称肇事者叫嚣“我爸是李刚”, 便将“官二代”背后的官也拉到了事件前台, 原本是官员儿子的交通肇事案, 却演变为一场民众对官员的围观与谴责, 官民矛盾便集中体现在这起“官二代”事件上。

运用赵旭东提出的公共表征与心理表征概念进行分析, 新闻报道生产了对“X二代”的表征模式———言行嚣张、家庭优渥、目中无法等, 而这些以符号、文本、言语形式存在的公共表征与受众的心理表征之间相互转化, 使公共表征被赋予了新的解释, 形成了受众的认知、记忆和刻板印象, 这些心理表征进一步塑造了新闻报道中的公共表征。在新闻生产实践中, 媒体对“X二代”的标签化原本旨在陈述事件, 但标签却超越了事件, 与社会有权阶层和平民阶层的冲突联系在一起。关于“X二代”的标签化报道因而体现为一种表征社会冲突的新闻话语。

话语原本是一个语言学概念, 福柯扩展了它的含义, 使其开始涉及语言和实践。福柯认为, 话语构造了话题, 它界定和生产了我们知识的各种对象, 控制着一个话题能被有意义地谈论和追问的方法, 意义和意义实践因而是在话语范围内被建构的。福柯指出, 正是由于话语采纳了某些特定方式谈论一个话题, 由于限定, 话语也排除、限制和约束了其他的言谈方式及与该话题有关的为人方式或建构有关其知识的方式[3]。媒体的标签化报道建构了“X二代”的形象与特质, 也限制了人们对此类事件的认知, 使他们对疑似“X二代”事件极为敏感, 极易愤怒。“X二代”标签所带有的贬义的文化内涵为社会成员所共享, 进而引发受众对肇事者共同的负面情感。

四、标签化报道的负面影响

1. 受众刻板印象的加强

标签化报道利用的是受众对社会事物的思维定势, 媒体给新闻事件或人物贴上标签, 往往会引导和框定受众对新闻事件或新闻人物的认知, 为受众建构一个特定的理解框架。对受众而言, 那些符合原有认知模式传统的图式结构和读者的一般性知识或态度图式的新闻, 更容易被受众理解和记忆, 这就导致有关“X二代”的特征被不断归纳、理解和记忆, 人们对此类事件的认知模式也逐渐变为先定义, 后理解, 当关于“X二代”的成见被不断确认和巩固后, 认为“X二代”仗势欺人、其父母滥用职权等刻板印象便在受众的认知中定型了, 这种刻板印象一旦形成, 便很难被打破。

处于社会转型期的中国, 社会利益分配失衡导致了人们心理的失衡, 具体体现在当下普遍的仇富、仇官情绪中, 从“富二代”飙车撞人、“我爸是李刚”的骄横跋扈、药家鑫的漠视生命, 到火烧同学的嚣张少年, 再到李天一的一错再错, 以及社会上种种拼爹现象, 无不验证着公众关于“X二代”想象的合理性。媒体报道迎合了受众对“X二代”的想象和预期, 因此更容易被认可和接受, 无形中使得对“X二代”的刻板印象愈加深刻。

2. 媒体公信力与伦理问题

新闻塑造“X二代”的同时, 也导致人们产生“被滥用的权力能够左右媒体内容”这一心理预设, 因此当报道偏离“X二代”———弱者这种二元对立, 试图揭示出更多的信息以还原真相, 反思网络轻率舆论时, 媒体公信力却开始遭到质疑。在“李刚门”中, 央视《法治在线》采访了李刚, 其对着镜头痛哭并道歉却被网友认定为作秀。有网友质疑, 央视播发了约5分钟的道歉镜头, 但未采访受害者家属, 因此怀疑是“李刚要求的”、“央视收了钱”。《河北法制报》的报道《“我爸是李刚”是怎样炒起来的》, 反思了媒体和网络舆论的炒作行为, 却被网友质疑“为减轻李刚之子的罪责做舆论准备”。“药家鑫案”, 央视记者采访其父母时, 也被网友质疑“似在为药家鑫开脱”。

“X二代”事件报道中常涉及个人隐私与个人名誉等媒介伦理问题。“李刚门”与药家鑫案中, 媒体报道与网络信息共同作用给当事人造成了个人名誉损害;少女毁容事件中, 两名当事人均未成年, 但无论网络还是媒体, 均使用其真实姓名和未经处理的照片, 甚至还发布其生活照, 侵犯个人隐私。此外, 在“X二代”报道中, 媒体和网络舆论更多关注双方的阶层矛盾, 对肇事者家庭背景大肆讨论, 却很少真正关注受害者及呼吁理性应对的报道, 这种具有明显偏向的报道模式本质上是对新闻专业主义和人文关怀精神的背离。

3. 不良社会情绪的激化

“媒体从本质上说就不是一种中立的、懂常识的或者理性的社会事件协调者。”[4]在媒体报道中, 耸人听闻、色情暴力的负面新闻总能得到关注, 媒体作为报道者和公共讨论的空间, 本应在收集各方事实的过程中追寻真相, 但在“X二代”报道中, 媒体却成为社会不良情绪的煽动者, 着力渲染事件双方的矛盾与阶层冲突, 唤起和激发受众强烈的感情, 只要被媒体贴上“X二代”标签, 必然会引起普遍的愤怒与谴责。“过多地接触那些不寻常、不正常、极特殊的‘新闻’, 会导致受众毫不了解社会上平常、正常、普通的状况。”[5]在这种不良情绪的影响下, 人们认为自己应当站在受害者一方, 将肇事者绳之以法, 同时对司法机关失去信任, 怀疑司法机关不能依法处理。在“药家鑫案”的审理中, 网民唯恐其父干预司法, 因此不分青红皂白对其进行咒骂, 甚至扬言“药家鑫与法律、药家鑫与中国, 只能活一个!”“少女毁容事件”肇事者系未成年人, 并不适用死刑, 而不少网民仍表示“这样的人渣就应该去死”等, 此类言论不仅极易误导公众, 造成舆论审判, 也会给司法机关施压, 甚至影响司法公正。

作为一种新闻话语的“X二代”报道, 以建构的方式完成了对“X二代”形象特质的塑造和加强, 并实现了对当下社会阶层冲突的表征。在实际新闻生产中, 媒体为了自身描述和受众认知的便利而贴上的“X二代”标签, 往往成为群情激奋的导火索, 尽管随着时间的推移和事件的发展, 真相浮出水面, 但最初的报道在受众脑海中确立了不可磨灭的印象, 导致种种负面效应。媒体可以是恶性事件的揭露者, 但不可以成为不良社会情绪的煽动者。媒体需自省自律, 重归新闻专业主义, 慎用“X二代”标签。

参考文献

[1]王勇.大众传媒与社会越轨行为———社会控制视域下的越轨新闻信息传播研究[M].北京:光明日报出版社, 2010:81.

[2][荷]梵·迪克.作为话语的新闻[M].北京:华夏出版社, 2003:96.

[3][英]斯图尔特·霍尔.表征:文化表象与意指实践[M].北京:商务印书馆, 2003:44-45.

[4][荷]梵·迪克.作为话语的新闻[M].北京:华夏出版社, 2003:13.

社会标签 第10篇

关键词:标签本体,个性化推荐,社交网络

1 引言

随着Web2.0的发展, 互联网从信息传播的媒介逐渐转变为信息资源共享和社会交流的平台。用户既是信息的使用者, 也是信息的创造者。用户和信息的爆炸式增长, 为人们带来丰富信息资源的同时, 也造成用户难以准确找到感兴趣的资源。高效的个性化信息推荐方法可以根据用户行为特征主动为用户提供合适信息, 使信息的获取和利用更加快捷、准确。

社会化标签方法是一种更强调“感知性”的信息组织方法, 它由用户自发对资源进行标注所产生的标签组成, 为发现用户关注点、进行个性化信息推荐提供了重要的数据基础。与此同时, 标签本身所暴露出的描述不规范、无序化、多样性、缺乏语义关系[1]等, 很大程度上制约了其在提取个性化信息方面所发挥的作用。而本体是共享概念模型的明确形式化规范说明, 能系统地表示概念间的内在语义关系, 是语义构建的重要手段[2], 可以有效地弥补上述缺陷。目前, 在个性化信息推荐方面有关应用标签和本体的研究相互间比较孤立, 缺少将两者结合起来建立模型的思想。本文以主流社交网络“新浪微博”为例, 提供了一种在社会化标签系统中基于本体的个性化信息推荐方法, 用以捕捉用户兴趣的动态性变化, 优化个性化信息推荐效果。

2 相关研究

标签是用户主观地对感兴趣的资源进行发布时所使用的关键词, 它在体现用户兴趣取向的同时, 也反映了资源本身的特征属性。标签在由用户、标签、资源三者组成的社会化标签系统中扮演着核心角色, 是用户与资源之间的桥梁。规范标签的使用、实现标签语义的明确化表述, 是降低标签滥用率、提高检索效率的有效手段[3]。

近年来, 针对个性化推荐方法的研究不胜枚举。根据推荐算法的不同, Yoo Donghee等提出了UCTag新型标注方法, 设计了基于Web的文件管理系统原型, 用户提交某一标签后, 根据相应的规则得到的标签本体, 系统会自动推荐一系列符合用户兴趣的标签[4]。Kawakubo等提出一种基于Folksonomy的图片本体的自动构建模型, 并利用Flickr网站的数据进行实验[5]。张云中提出一种基于FCA的半自动构建本体方法, 使用造格算法将形式背景转化成相应概念格, 再由知识工程师对概念格进行分析, 将结果上传到社区, 经由社区成员对本体校正或补充得出改进后的本体模型, 重新应用到社区中[6]。

目前大多数应用标签系统进行个性化信息推荐的研究集中在推荐算法的设计优化上, 没有考虑标签本身的局限性, 降低了个性化信息推荐的准确性。本文将本体与标签相结合, 用以提高社会化标注系统的推荐效果。

3 研究方法

本文将用户U1及其关注用户V发布的微博数据作为研究样本, 分别对样本进行预处理、提取标签。计算用户U1的标签集IU1中的每一个兴趣i与用户V标签IV1、IV2……IVn间的相似度及亲密度来判断二者间的社会相关度[7], 从而得到可以代表用户U1兴趣的标签集。该标签集是从用户及其关注者发布微博的内容角度入手, 得到的结果集是无层次结构;而本体是一类规范的集合, 具有层次结构和语义性。因而, 将标签与本体相结合, 对用户兴趣标签集进行规范化、层次化处理、通过分析标签之间的语义关系, 建立能够反映用户兴趣的标签概念空间模型, 构建用户自身的“轻量级本体”[8], 映射已标记语义网资源的标签集, 系统自动将匹配Top-k标签的资源信息反馈给用户。

4 基于本体的个性化信息推荐模型

4.1 构建模型

本文将标签系统与本体二者相结合, 构建了一种适用于社交网络的个性化信息推荐模型, 如图1所示。该模型对社会化标签的含义做了进一步扩展, 使标签不再是用户以标注某个资源为目的去标注的, 而是用户在进行正常的网络社交活动中, 系统自动根据用户的活动数据信息进行提取的, 这种方式在很大程度上提高了标签的容错性和准确性, 能够实时、准确地监测用户兴趣变化, 更加高效地向用户提供所需资源, 优化了社交网络中个性化信息推荐服务的效果。

4.2 标签提取模块

如图1所示, 根据用户微博内容, 提取关键词作为该用户的标签。本文采用哈尔滨工业大学语言技术开发平台LTP[9]对原始微博数据进行句法分析, 具体分为: (1) 提取微博语句中的无动宾结构时语句的核心谓语以及动宾结构下的核心谓语和宾语的中心词。例如, “我下午去打球”提取“打球”和“他昨天下午去打羽毛球了”中的“打羽毛球”。 (2) 构建趋向动词表对核心谓语和宾语中心词进行修正, 该表包含“上”“下”“来”“去”等趋向动词。例如上例中的“去”这个干扰动词。 (3) 提取修正有无动宾结构时的核心谓语。 (4) 将全部提取的核心谓语和宾语构建成动名词关键词表, 即该用户的初始兴趣标签集。

4.3 用户兴趣发现模块

评论一个字词在文档中的重要程度, 多采用TF-IDF统计方法。其公式[10]为:

其中tf表示词语t在文档d中出现的次数, 表示逆文档频率, 是一个词语普遍重要性的度量;N表示总文档数;n表示包含词语t的文档数。

从中不难看出, 词语t的重要程度与它出现在当前文档中的频率成正比, 与文档集合中出现的频率成反比。这对于微博社交网络而言, 可能因为用户发表的微博数量不足, 而导致兴趣误判。针对这个问题, 本文为tf设定一个阈值m, 当tf>m时保留tf, 否则tf取“0”, 具体流程如图2所示。最后取新标签集中的Top-k为用户U1的标签库Du1, 利用同种方式求出用户关注用户的Du2......Dun。

利用标签库信息, 求出用户U1的关注用户V与U1标签库中标签的亲密度及相似度[7], 发现用户U1的兴趣集。

4.4 用户兴趣本体构建模块

用户兴趣本体是提供个性化信息服务的基础, 其质量直接决定推荐内容的准确性。用户兴趣本体的建立是依托于语义网中的领域本体, 在描述概念间关系的同时, 也为术语赋予了相应的语义网背景知识, 因为有利于知识的复用与共享, 改善传统用户模型标签描述随意性的缺陷[11]。构建用户个体的轻量级兴趣本体主要通过对标签进行聚类分析, 构造自顶向下的概念树模型。表示用户兴趣的大类表现在高层节点, 兴趣的颗粒度划分表现在底层节点, 原始提取的用户标签表现在最底层节点。在构建用户兴趣本体时, 系统根据用户不同时期发布文章的标签提取出不同的兴趣标签集, 这种方法可以及时有效地捕捉用户兴趣的动态性变化, 保证兴趣本体的准确性。

4.5 用户社群构建模块

具有相同或相似兴趣的用户聚集而成的群体称为用户社群。利用本文描述的用户兴趣本体, 结合社会复杂网络技术、聚类组合等方式可以构建用户间的社群网络。反过来, 通过社群网络, 系统会根据用户兴趣向用户推荐同类兴趣的社群, 供用户可以快速地找到并加入适合自己的群体。

4.6 个性化推荐模块

该模块主要向用户推送相关个性化信息资源。系统根据资源库所提供的资源与标签的对应关系, 将用户兴趣集中的个性化标签与语义网中的资源进行语义匹配, 得到符合用户兴趣的资源集合, 最后将推荐结果在用户主页推荐模块中进行展示, 提供给用户。个人应用最广泛的有:好友推荐、兴趣社区推荐、文章推荐等。商业方面, 可以进行准确的广告投放, 在同等的成本消耗下, 使广告的回报率达到最大值。

5 结语

社交网络中的个性化推荐是学界的一个研究热点, 但很少有学者将个性化推荐与社会化标签和本体联系起来。文章从用户的直观表述出发, 提取文章关键词作为用户兴趣的标签的同时, 参考用户关注者的兴趣标签, 将二者综合, 高效地获取反应用户兴趣的标签, 并生成独特的能够反映用户兴趣的轻量级本体。建立了基于本体的个性化信息推荐模型。但是, 文章只是对该模型进行了理论上的探讨, 并没有在实践中建模验证它的推荐准确度。在接下来的实践过程中, 对于微博数据的提取、语义网中资源的标注等问题, 都是值得进一步去关注和解决的。

参考文献

[1]Vander Wal V.Folksonomy[EB/OL].[2014-06-01].http://vanderwal.net/folksonomy-Html.

[2]熊回香.国外社会化标注系统中标签与本体结合研究综述[J].情报杂志, 2013 (8) :136-141.

[3]何金晶.社会化标注系统中的本体研究综述[J].数字图书馆, 2013 (6) :16-22.

[4]Yoo Donghee, Suh Yongmoo.User-categorized tags to build a structured folksonomy[C].International Conference on Communication Software and Networks, 2010:160-164.

[5]Kawakubo H, Akima Y, Yanai K.Automatic construction of a folksonomy-based visual ontology[C]//IEEE International Symposium on Multimedia, 2010:330-335.

[6]张云中.一种基于FCA和Folksonomy的本体构建方法[J].现代图书情报技术, 2011 (12) :15-13.

[7]石伟杰.微博用户兴趣发现研究[J].现代图书情报技术, 2015 (1) :52-58.

[8]Alves H, SantanchèA.Folksonomized Ontology and the 3E Steps Technique to Support Ontology Evolvement[J].Web Semantics:Science, Services and Agents on the World Wide Web, 2013 (18) :19-30.

[9]哈工大社会计算与信息检索研究中心.语言技术平台[EB/OL]. (2014-06-13) [2014-08-02].http://www.ltp-cloud.com.

[10]徐文海, 温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践, 2008, 31 (2) :298-302.

巧用“标签效应” 第11篇

“我家孩子就是内向、害羞,不爱说话。”“脑子笨!天生不是学习的料!”虽然所有家长都希望自己的孩子优秀出众,但当孩子没做到家长预期的成绩时,就会恨铁不成钢地顺嘴说出打击孩子的话,本意只是想用激将法让他们做得更好,其实事与愿违。如果家长经常用“负标签”限定孩子,就会很容易使他们朝着“负面”发展。

在我们自由绘画乐园有个叫米米的小姑娘,刚来的时候,米米妈妈就当着孩子的面对乐园老师说:“我家孩子动手能力特别差,在家教她简单的折纸、画画都学不好!”听到家长对孩子进行负面评价,老师立刻支走了米米。

“当米米不会折纸的时候,您有没有用过打压她的词语或失落的语气?”米米妈不好意思地承认自己说过孩子“笨”、“不灵巧”、“比其他孩子差”等这样的话,还经常对她失望地叹气。了解情况后,乐园老师劝诫米米妈不要用消极的语言打击孩子,平时交谈以夸奖为主,在睡觉前给她讲些励志的小故事,不时对她进行赞美。在乐园中老师也对米米进行了针对性的引导,经常将她在乐园里创作的优秀绘画作品、创意作品贴在展览墙上,并引导其他同学对她的作品进行赞赏,现在米米比初来时变得自信多了,和来时胆小不自信的米米完全不一样了。

心理学上的“皮格马利翁效应”,也叫“期待效应”表明,人的情感和观念会不同程度地受到周围人的影响。父母与孩子朝夕相处,是他们最亲密、最信任的人,同时也对他们的价值观、自信心、人格产生着巨大的影响。我习惯把孩子比作一面镜子,家长对孩子的影响完全能从孩子这面镜子上反映出来。经常以赞美、鼓励的语言与孩子沟通,孩子必定积极向上、乐观开朗,因为他们从最在乎的父母那里找到了自尊、自信,并且这种积极态度会随着父母的肯定逐渐加深,父母经常为孩子贴上“孩子你很棒”“真聪明”“爸爸妈妈信任你”的正面标签,“期待效应”就会开始起作用,为了不让父母失望,孩子就会努力朝着积极进取的方向前进。

但如果父母总是以消极的方式定位孩子,将“脑子笨”、“不优秀”等标签贴在孩子身上,孩子首先会怀疑“妈妈爸爸是不是不爱我?为什么别的家长都夸自己的孩子,而我总是被数落不是?”我明白家长急迫想让孩子成长的心理,但量变才能达到质变。古语有云“勿以善小而不为,勿以恶小而为之。”看似不起眼的话语,会刺痛孩子幼小脆弱的心灵,不但会恶化亲子关系,甚至对他们今后为人处世的方方面面都具有重大影响。

用放大镜看孩子身上的闪光点,看到他们细微的进步,用“正面标签”鼓励、帮助他们,这时你会意外地发现孩子会像你希望的那样越做越好!

(李凌云绘画心理专家,色彩专家)

基于标签聚类的多标签分类算法 第12篇

传统的单标签分类问题实际上就是通过对实例集的学习, 然后建立一个分类模型来解决分类任务。单标签分类问题的每条实例都只有一个单独的类标yi, 且这个标签来自于互不相交的有限标签集合L={y1, y2, …, yQ}。然而, 在现实的许多问题中, 一条实例往往可能同时属于多个标签。比如, 一首歌可能包含了多种情感的标签, 一则新闻可能同时涉及政治类和宗教两个领域。这种情况可以广泛扩展现实中的许多应用, 如图像和视频的语义标注 (新闻剪辑, 电影剪辑) , 功能基因组学 (基因与蛋白质功能) , 文本分类 (电子邮件, 书签) 以及其他应用。正是由于新的多标签应用问题的不断出现, 多标签的学习吸引了越来越多研究者的关注, 因此它成为了数据挖掘领域新的研究热点之一。

通过学习来将一条实例xϵX (X表示实例集合) 映射到一个标签集合y⊆L的任务就被称之为多标签分类[1]。相比于单标签分类, 多标签分类并不假定标签之间是互斥的, 也就是说, 多个标签可能与一个实例相关联, 或者每个实例不只属于一个类。

经过最近这些年的不断研究, 已经形成了许多不同的方法来解决多标签分类的问题。Tsoumakast和Katakis将这些方法分为两个大类: (a) 算法适应的方法; (b) 问题转换的方法[1]。算法适应的方法就是将原来的单标签学习算法进行扩展以能够直接处理多标签数据的算法, 例如ML-C4.5则修改了原来计算熵的公式和ML-k NN扩展于原来的k NN[2]。问题转化方法是将多标签分类问题转化为一个或多个单标签分类问题。尽管这种方式简化了问题, 但它同样要求谨慎应用标签之间的关联信息以用于更好的预测。由于问题转换方法的简化性以及在大多数数据集上应用的良好性, 本文将主要研究问题转换的方法。

本文接下来的组织如下:第1节总结了多标签学习研究的相关工作;第2节详细描述了提出的算法;第3节给出了实验的设计和实验结果的分析;最后第4节总结本文的工作以及结论。

1 多标签学习研究的相关工作

在问题转化方法当中, 目前最常用的两类转化方法为二值相关算法 (Binary Relevance, BR) , 标签幂集算法 (Label Power Set, LP) 。其中, BR方法是问题转换方法中转换策略最简单的多标签方法之一, 即将一个多标签问题转换为多个二值分类问题来进行处理。但BR方法的这种转化策略是建立在标签彼此独立的这种假设上, 而这种假设在现实许多领域中是不成立的, 这也是BR方法的局限性。为此, Read等人提出了CC (Classifier Chain, 分类器链) 算法[3], 它将这些基分类器 (Cj, j=1…q) 串联起来形成一条链, 第Cj分类器总是依赖于前j-1分类器的结果, 这就考虑到标签之间的关联性。但是由于CC算法中分类器链中分类器顺序是随机的, 就可能出现当前面分类器分类效果不好, 会将这种误差效果不断传递到后面的分类器。为此, Sucar等人提出了基于贝叶斯网络的CC算法[4], 通过建立贝叶斯网络来寻找到分类器链的适当顺序, 从而达到优化的目的。同样, Goncalves等人也提出了基于遗传算法的CC算法[5]来优化基分类器的最佳顺序。

本文重点研究是另一种问题转换策略的方法, 即LP方法。在LP方法中, 它将每一种标签之间的组合都看作一个新的类标, 即形成一个新的标签, 这样就隐式考虑了标签之间关联信息。但是, 这种方法也存在三个弊端。第一, 若实例集中有N个标签, 则标签的可能组合就为2N, 如果这个N很大, 那个标签组合的规模将是非常巨大的。第二, 其中许多标签的组合出现是不频繁的, 这就可能引起分类器的标签不平衡。第三, 在分类的过程中许多不可见的标签组合不能直接被发现。为此, Read等人提出了PS (Pruned Sets) 的算法和PPT (Pruned LP) 算法[6], 即在使用LP算法之前, 先除掉训练实例 (x, y) 中标签y出现的次数不频繁的所有实例。然后重新产生一条新的实例 (x, y’) 来代替 (x, y) , 但要求y’y且y’是频繁的。这样增加了多标签的数量, 也消除了标签不平衡, 改善了朴素LP算法。但是这也常常扔掉了一些重要的标签信息, 错过了许多重要的标签组合, 因此, 第三个弊端仍然没有得到解决。Tsoumakas等人提出了RAk EL (Random k-lab Elsets) 算法[7], 它通过创建m个LP分类器, 并综合它们的预测结果, 以达到检测不可见的标签组合的目的。但是, RAk EL方法的训练时间过长。与此同时, Read等人也提出了EPS (Ensemble of Pruned Sets) 算法[8], 它通过随机抽取训练集形成m个子集来创建m个PS分类器, 然后再组合这m个分类器的预测结果, 这与RAk EL算法类似。同样的, EPS算法发现那些不可见的标签组合也需要很长的训练时间, 并且容易丢失大量标签信息。

通过回顾目前用得比较广泛的几种基于LP的算法, 讨论它们各自的优缺点, 针对它们的不足, 并结合聚类算法的基本思想以及它们在实际中的一些应用[9,10,11,12,13], 我们提出了一种新的算法LCMLC (Multi-Label Classification Based on Label Clustering) , 它采用层次结构的平衡k-means聚类方法将相关度高的标签聚合在一起来形成新的标签组合, 以此来发现那些重要但不可见的标签组合。

2 基于标签聚类的多标签分类算法 (LCMLC) 的设计

LCMLC算法是通过聚类的方法将相关度高的标签聚合在一起来形成新的标签组合, 以此来发现那些重要但不可见的标签组合。该算法首先是基于这么一个假设, 即彼此相关度高的标签具有更大可能形成一个标签组合。它们是基于训练集聚合得到这些标签组合, 并把它们表示为聚类簇。这里的每个标签都用一个N-维的布尔向量表示, 即0和1, 如果第i维是1时就表示它在训练集中第i条训练实例出现过, 否则就为0。然后对这些标签向量进行聚类形成各个聚类簇, 而这里采用的聚类算法是层次结构的平衡k-means聚类方法。得到这些聚类簇之后, 就可以通过这些聚类簇在训练集中找到那些不可见的重要标签, 并将其加入到原来的训练集形成新的训练集, 最后用新的训练集来建立PS分类器进行多标签分类。

2.1 层次结构的平衡k-means聚类方法

在这里, 我们提出了一种新的聚类方法, 叫做层次结构的平衡k-means聚类方法, 它是对传统k-means聚类方法进行了扩展, 对其聚类的每个聚类簇的大小进行了明确的限制, 并在聚类的过程按自顶向下的方式在各层都采用平衡聚类。由于我们聚类的对象只是标签, 所以我们只考虑训练集 (xi, yi) 的标签部分yi, 因此最终我们会得到一棵类似于树结构的标签聚类树, 而这个树中的结点即为各个标签子集。图1详细介绍平衡k-means聚类算法的实现过程, 其中输入为标签集合LnL, 标签数据集Di, 聚类簇的数量k以及迭代的次数T。

2.2 训练集的修改过程

利用平衡k-means聚类方法得到这些聚类簇之后, 我们就可以通过这些聚类簇在训练集中找到那些不可见的重要标签, 然后将它们加入到原来的训练集形成新的训练集。

其具体过程如下:

(1) 对于每一个聚类簇c (实际是一个标签组合) , 然后我们将这个聚类簇c的所有子标签组合y c都作为新的标签组合加入新标签组合集中, 当然这里的子标签组合也是有限制的, 即|y|≥t, 它是一个可变的参数。在图2中, t=2;

(2) 找到所有的新标签组合后, 我们要遍历整个训练集, 对任意实例 (x, y) , 如果y包含某个新的标签组合y', 我们就将实例的x部分和y'组合形成一条新的实例 (x, y') 添加到训练集中形成新的训练集, 其详细过程见图4 (算法描述) 和图3 (图3的数据是相对图2中的数据进行表示的) ;

(3) 最后, 我们在新的训练集上进行学习, 形成最终的PS分类器。

3 实验

为了验证LCMLC算法的有效性, 我们将在多个多标签数据集上分别进行相实验, 并将它与其他基于LP的多标签分类算法进行比较以及分析。本节主要介绍以下几个方面:实验所选取的数据集;算法的评价指标;实验的结果以及分析。

3.1 数据集

本次实验采用的数据集有enron, gebase, medical, yeast, tmc2007 (1) 。其中enrorn, medical和tmc2007分别是邮件信息, 医学方面信息以及航空安全方面信息的文本类数据集;而gebase以及yeast则分别是用于蛋白质分类和基因功能分类的生物学类数据集。下面表1是对这五个数据集的统计信息描述。

3.2 评价指标

在本次实验中, 我们选取了三种评价指标, 分别是汉明损失, 子集准确率以及F-measure。在这里, 我们以yi表示实例第i个标签的预测值, 以ci表示实例第i个标签的真实值, N表示测试实例的个数, m表示标签的个数。以上三种评价指标的具体意义以及定义如下:

Hamming loss表示的是实例中被错误分类的比例, 它包括以下两种情况:预测的标签不属于该实例和属于该实例的标签没有被预测。Hamming loss的值越小, 则表示该分类算法的性能越好。当hamming loss=0时, 则性能是完美的。这个指标的定义如下:

子集精确率表示的是分类正确率。子集精确率认为当预测标签集合和真实标签集合完全相同时才是分类正确, 否则就是错误, 它统计的是测试集中被完全正确分类的实例的比例。所以当子集精确率值越大时, 则表示该分类算法性能越好。这个指标的定义如下:

本次实验采用的是基于实例的F-measure值评价指标。F-measure值也称为综合分类率, 它是结合精确率和召回率得到的评价指标, 其中精确率统计的是被预测标签集中有多少标签被预测正确的, 而召回率则是指在真实标签中有多少标签被正确预测。所以其值为1时, F-measure达到最好;反之为0时最差。这个指标的定义如下:

3.3 评价指标

针对提出的算法LCMLC, 本次实验采用5重交叉验证的方式来评价其性能。为了验证算法LCMLC的有效性, 我们还将其与PS算法、PPT算法、EPS算法分别进行了比较。所有实验都是在Mulan (2) 平台[14]下进行, 采用的基分类器则为WEKA (3) 平台下的决策树算法J48。在评价各个算法时, 我们采用的是将原始数据集分割为训练集以及测试集两部分来进行实验。

其次我们需要对以上比较的算法进行一些简单的参数设置。其中对于算法LCMLC, 经多次重复实验以及考虑聚类算法的时间效率, 我们最终将聚类划分的k值设置为3以及聚类迭代的次数设置为20次, 分类时被预测为相关的标签的阈值是0.5, 标签集合的个数为标签个数的2倍或实例个数。对EPS算法, 同样也将其模型数设置为20。

3.4 实验结果及分析

本小节主要介绍的是LCMLC算法与其他四种同类型算法的实验结果比较。表2到表4分别给出了PS算法, PPT算法, EPS算法, LCMLC算法在enron, genbase, medical, yeast和tmc2007这5个数据集上三种评价指标 (即汉明损失, 子集精确率以及F-measure) 的值。另外, 表6中给出了EPS算法和LCMCL算法在分类器建立时间上的比较。其中每行中用黑色加粗的数据为4个算法中在该数据集上表现最好的那个算法。

从表2至表4中可以看到, LCMLC算法在5个数据集的15个评价指标上有10个评价指标都是最好的, 这足以说明LCMLC算法相对于其他同类型算法的优越性。在3种评价指标中, LCMLC算法在子集精确率上的表现最好, 对5个数据集中的4个它都是最佳的, 对剩下的一个数据集也是仅次于最佳, 这说明LCMLC算法在优化子集精确率上的有效性。同时, LCMLC算法在enron和yeast上的表现较好, 根据表1中对数据集的描述, 这两个数据集中与每个实例相关的标签个数分别为3.378和4.237, 是5个数据集中值最大的两个数据集, 这说明LCMLC算法适用那些和实例相关标签数较多的数据集, 而与实例相关标签数较多表明标签间的依赖关系比较强, 因此LCMLC算法能够有效的寻找到那些隐藏的但是依赖关系又较强的标签集。同时, 可以看出, LCMLC算法总的分类准确率是明显优于PS算法和PPT算法, 说明LCMLC算法确实在某种程度上克服了PS算法存在的缺点, 提高了分类结果的准确率。结合图5-a到5-c可以看到, 虽然EPS算法和LCMLC算法两种算法在各个指标上的结果都是优于其他两种算法。但从表5以及图5-d, 我们可以看出, 就分类器的建立时间而言, LCMLC算法是更具有优势的。

上述实验结果表明LCMLC算法确实能通过聚类的方法来找到训练集中潜在的重要标签, 并将这些重要标签结合原来的训练集形成更加完备的新的训练集, 从而建立更加优化的分类器模型, 提高分类的预测准确度。

4 总结

本文主要研究了如何从训练集中挖掘出那些隐藏的但又具有较强依赖关系的重要标签集合, 从而形成更加完备的新的训练集来提高多标签分类器的性能。为此, 本文提出了基于标签聚类的分类算法, 它通过层次平衡聚类的方法形成聚类簇来挖掘隐藏的重要标签集合, 以此得到新的训练集来进行多标签分类。

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

【社会标签】相关文章:

标签系统06-13

标签消费06-19

电子标签05-12

新闻标签论文06-01

标签天线设计06-24

低成本标签09-02

场所安全标签07-12

标签效应范文05-17

导航标签范文05-18

电子标签芯片07-22

上一篇:急诊外伤检查论文下一篇:电信企业网络营销战略