信息过滤范文

2024-07-26

信息过滤范文(精选11篇)

信息过滤 第1篇

互联网的普及繁荣给网络商务信息带来了一个全新的发展空间, 网络信息已经成为最快捷、最有效的信息来源, 但是互联网的虚拟性和无限性以及网络商务信息分布的特殊性, 使我们在互联网上要准确、迅速地查询和采集到特定有效的商务信息非常困难, 并且众多虚假的商务信息已经成为我国电子商务良性发展的障碍。本文针对现有的网络信息过滤机制的不足, 提出了基于社会化的网络商务信息全面过滤机制, 旨在将全体网民、企业、公司和政府纳入信息过滤机制的主体中来, 在应用信息过滤工具与技术的同时, 加强全民素质教育和法律法规学习, 从而达到有效的监管商务信息的目的。

2 网络商务信息的内涵和特点

网络商务信息是指存储于网络并在网络上传播的与商务活动有关的各种信息的集合, 是各种网上商务活动之间相互联系、相互作用的描述和反映。随着因特网上信息量的迅速增加, 电子商务的飞速发展, 网络商务信息在引起市场营销巨变的过程中也逐渐呈现以下4个方面的特征:

(1) 共享和时效性。传统商务信息, 传递渠道不顺畅且传递速度慢, 网络商务信息却可以有效地弥补这种缺陷。

(2) 互动性。商务信息在网络上双向传播, 当传播者在自己或公共的站点发布商务信息之后, 接收者对信息做出反馈, 信息交流双向互动。

(3) 多样和无序性。任何企业或者个人都可以建立自己的网络站点, 他们可以随时发布和修改各种信息, 因此, 信息的来源非常广泛。然而, 网络缺乏统一的标准和规范, 没有一个机构进行合理的组织, 网上资源监管机制还很不完善, 不仅信息形式千差万别, 如文字、音频、视频等, 组织结构很大一部分也处于无序的状态。

(4) 检索难度大。互联网提供了一个高度开放的信息环境, 任何人都可以在网上发布商务信息, 网上信息发布也没有严格的新闻审查核实机构, 使得大量无用、错误甚至虚假的信息涌入网络。在浩瀚的网络资源中, 高效地找到自己所需信息, 并经过加工、筛选和整理等工作, 提炼出能反映商务活动本质的、有用的、适合本企业情况的信息, 难度很大。

对于现代企业来说, 网络商务信息, 不仅是企业进行网络营销决策和计划的基础, 而且对于企业的战略管理、市场研究以及新产品开发都有着极为重要的作用。因此, 对网络信息进行过滤具有非常重要的意义。

3 网络商务信息的全面过滤机制架构

信息过滤 (Information Filtering) 就是根据用户的信息需求, 在动态的信息流中, 搜索用户感兴趣的信息, 屏蔽其他无用和不良的信息。目前, 网络商务信息过滤的方法有很多, Malone和他的同事按过滤方法将信息过滤分为:基于内容的过滤 (content-based filtering) 、协作过滤 (co11aborative filtering) 和经济过滤 (economic filtering) 。而目前使用较多的就是基于内容的过滤和基于协作的过滤。传统过滤主要从技术、法律监管方面对网络信息进行过滤, 信息过滤参与者也很局限, 主要是监管机构, 广大网民往往与过滤行为无缘。

本文提出的全面过滤机制不仅继承了传统过滤方式的优点, 还弥补了其不足, 它把网民、企业、网站以及相关监管机构纳入商务信息过滤体系中, 结合技术层面、监管层面、商务信息发布和利用者层面进行信息的过滤, 尤其是强调网络商务信息的生产和使用者的自主自发参与, 为监管机构保驾护航, 这大大加强了商务信息过滤力度。

全面过滤机制引导网民和企业参与到网络商务信息的管理过程中来, 重点从信息文化伦理的约束与自律、信息传播源的监控以及过滤软件使用等方面进行网络商务信息的社会化协同过滤。信息用户在寻求商务信息的过程中自发的参与辨析, 从信息流中排除不良虚假的商务信息或者阻断其传播, 同时也规范商务信息传播者的行为、控制信息的源头, 以实现有效商务信息推荐与服务, 不良商务信息的过滤和隔离。达到全民维护信息“生态平衡”和网络“环保”的目的, 提高网络商务信息传播的有效性和利用率。

网络商务信息的全面过滤机制包括三个层次:底层、中间层、顶层, 见图1。

由图1可知, 顶层包括第三方、信息发布者、网络受众以及监察机关四个主体, 这四个主体间共同参与、相互合作、相互约束, 是全面过滤的核心, 也是全面过滤机制的社会化体现;中间层和底层为信息过滤提供了技术支持和法律约束, 形成基础屏障。该机制从社会层面、技术层面和管理层面为商务信息提供了全方位的过滤保障。

4 从社会层面出发过滤商务信息

4.1 企业、公司

由于企业自建的网站日益普遍, 企业在发布消息时不用经过专业过滤, 因此在商务信息发布前, 通过信息发布源的自律来进行自我把关显得非常重要。企业应该了解互联网信息传播法规, 加强社会责任意识, 目前有一些大型和管理较规范的企业制定了社会责任书, 从对国家责任、对国民责任、对员工责任等角度来审视和规范自己的运营行为, 这是一个值得推广的做法, 一旦企业担负其应有的社会责任, 提高了自身的法规意识, 在发布和利用网络商务信息时必定会加强自我约束和控制。

4.2 行业门户网站以及信息交流平台

与传统商务信息发布不同, 网络商务信息发布者身份不再受到局限。为了从根源了解信息发布者的身份, 控制不良商务信息的流出。第三方网络平台作为网络商务信息的重要发布源头, 它在不良信息过滤中的作用不言而喻。作为信息发布平台, 第三方组织可以对信息发布者实行实名制, 只有被认可了的个人或者企业才拥有在该网站发布商务信息的权利。这样将有助于第三方网站平台的操作人员对信息发布者身份的识别, 另外, 发布者自身鉴于身份透明, 为避免追究责任, 也会在一定程度上进行自律。此外, 第三方组织在接收到信息发布者的信息之前, 还应该对其内容进行一定程度的解读和相关调查, 对于无关、重复、虚假等信息进行审查, 直接阻断其传播。另外也可以在各个行业内部搭建行业内部信息交流平台, 各企业单位可以在平台上公布商务信息、设置问题栏向特定企业和对产品感兴趣的人征求意见, 往往能获得大量很有价值的信息。这些网络社区式的平台也是商务信息的监管过滤场所。

4.3 网络协会和监察机关

为了搭建政府和网络媒体之间的沟通渠道和桥梁, 还应该依法构建网络媒体中间组织及其自律行为规范。中间组织不仅能够减少监管的运行成本, 还能够有效提高监管效率。我们可以借鉴如英国因特网监察基金会 (Internet Watch Foundation) 的经验, 作为一个自发组成的行业自律组织, 为了保证委员会的代表性、权威性和公平性, 其成员由网络业界和业外人士共同组成;其主要工作是搜索网络非法信息, 并将发布非法信息的网站通知给网络服务商, 以便网络服务商采取措施来阻止网民访问这些网站。我国现有立法文件规定, 网络服务商有责任监控其网站上的信息, 当发现有法律规定的禁止性信息的时候, 应当立即停止其传播并保存记录, 及时向监察机关报告, 并积极配合调查工作。

4.4 网民

我国互联网网民已经超过5亿, 并且还在不断增长之中, 网民素质参差不齐。随之而来的网络信息数量的剧增以及质量的不确定性等问题的出现, 这要求网民的身份不应该仅仅局限于信息使用者, 还应该是信息反馈者。由于网民的个体反馈不受任何政治、商业因素以及社会背景的拘束, 能够直观表达个体的主观意见, 因此, 网民的群体性反馈也能更加鲜明的表达个体倾向的集合。大量网民对某一网络商务信息的点击、评价、推荐、关注等行为, 显示了该信息的受关注度、价值以及真实性等属性。高点击率、高推荐率、好评, 是网络大众对该商务信息肯定的直接反映, 同时也体现了群体智慧统合的力量和群体民意的趋向。

5 从技术层面出发过滤商务信息

5.1 专门过滤软件的安装

通过在电脑终端安装过滤软件是一种比较常见的过滤方式。专门过滤软件是专门为了过滤信息而开发的软件, 一般需要加载到应用程序之中, 根据预先设置的过滤模板来分析网络信息并阻挡不适宜信息, 在实现过滤功能的同时, 许多软件还向用户推荐有价值的网站。专门过滤软件分为专用、通用过滤软件两种。专用过滤软件只能过滤某种网络协议的信息, 如网页过滤软件、新闻组过滤软件、邮件过滤软件等, 只能在某种网络应用中起作用。而通用过滤软件能对多种网络协议和网络应用起作用, 除了可以过滤网页、网络聊天、电子邮件信息外, 还可以过滤FTP和新闻组等的信息。

5.2 网络应用程序的使用

有些网络应用程序, 如web浏览器、搜索引擎、新闻组、电子邮件等, 具有过滤不良信息的功能, 给用户提供了很大方便。例如, 在使用IE浏览器的内容分级审查功能的时候, 用户只需打开IE浏览器, 从菜单的“工具”栏进入“Internet选项”, 再从“内容”中点击“启用”即可看到分级审查页面。用户可以根据自身的需要设置达到过滤垃圾信息的目的。

5.3 运营商设置过滤标准

网络运营商在网络的路由器端直接设置了不良网站过滤标准, 这样一来, 用户既不需要安装终端软件, 也无须在个人电脑上做任何设置和修改, 只需要通过一个指定账号拨号上网就能实现。通过运营商设置过滤标准来过滤网络不良信息的优势在于从源头上隔离了不良网站, 从而减轻了用户的负担。

6 从管理层面出发过滤商务信息

6.1 权威的第三方机构对网站主办者的资质评估

对于网站的资格评估, 可以借助权威机构进行备案登记审核。通过备案登记审核的网站, 可以查询到其如注册资本、网站登记号、法人姓名、固定地址、网站域名等方面基础信息。备案网站每年还需要参加网上年检, 公众可以查询它的年检结果。北京工商行政管理局建立了红盾信息网 ( 红盾315) , 这是一种对网站准入资格的审核。红盾信息网审核通过后, 将向网站发放统一制作的唯一的具有网站注册编号的经营性网站备案电子标识, 网站所有者在其网站首页的右下方安装备案电子标识并链接到工商行政管理局网站的“经营性网站备案信息”数据库, 以便公众查询。

6.2 实行网站和个人实名制

要求网站对依靠自己网站运作的网站或网页的行为承担一定程度的连带责任。目前我国已经对一些较正规的网站实行了实名制, 但还有很多网站特别是链接在其他网站而设立的网站和网页还没有实行实名制。主体网站对其相关网站或网页缺乏监督机制, 这在很大程度上纵容了这些网站或网页不良信息泛滥的情况的发生。因此, 在一定范围内要求实名制网站对与其相关的网站或网页承担连带责任, 实名制个人对其言论负责, 这可以促使主体网站对相关网站和个人进行必要的监督, 一定程度上阻碍了不良商务信息的生成。

6.3 政府监管过滤商务信息

政府监管措施包括设立专门执法机构, 建立公众对虚假信息举报平台, 负责接受投诉、实施调查和进行处罚, 告知民众最新的虚假信息的形式, 让人民能及时认识不良信息以免自身权益受到损害。美国等国都有专门的通讯管理委员会负责互联网产业的政策的制定和管理, 我国也应该进行学习, 更新管理体制、设立专门执法机构, 从而解决管理缺失问题。执法机构还应建立多种途径的公众举报机制, 如通过电话、电子邮件、网站等方式, 保护举报者的个人信息。

6.4 法律约束过滤商务信息

建立行之有效的法律法规, 追究散布不良信息的网站或个人的法律责任, 从根本上保证国家、社会和个人的信息安全。在借鉴国外网络立法的基础上, 建立一个以网络法为核心, 行政法规、规章作补充, 相关基本法为配套, 最高司法机关的司法解释为法律实施说明的完备的网络立法体系。网络法应对不良商务信息信息作出定义和界定;重点规制典型的网络商务信息侵权行为, 如追究其民事责任、行政责任甚至刑事责任。

7 结论

网络商务信息的飞速膨胀对传统的信息过滤方式提出了新的要求, 监管巨大的网络空间, 需要大量的人力、物力、财力等的支持。网络商务信息全面过滤不仅要求发挥监管机构的作用, 它还要求全体企业、机构、网民的参与和交互, 体现了全社会的意识和力量。关于网络商务信息过滤问题, 除了要将全面过滤机制稳步实施外, 还应当加强全球性协作, 开展国际交流, 共同营造和谐健康的网络大环境, 促进网络商务信息利用的社会效益。

参考文献

[1]张丹红.网络商务信息的他组织[J].科技情报开发与经济, 2006, (9) :103-105.

[2]孙铁利, 王圆, 李杨.浅析网络信息过滤的关键技术[J].计算机科学与实践, 2006, (3) :9-10.

[3]Yuefeng Li, Ning Zhong.Ontology-Based Web Mining Model:Representations of User Profiles[J].IEEE/WIC International Conference on Web Intelligence, 2003, (10) :96-101.

[4]周益帆.交互式网络中不良信息过滤技术探析[J].科技创新导报, 2010, (4) :252.

[5]李晓红.浅论网络信息资源的监管[J].科技进步与对策, 2005, (1) :162-163.

[6]林建, 张帆.网络不良信息过滤研究[J].情报理论与实践, 2007, (3) :534-539.

过滤新浪微博中的垃圾信息 第2篇

利用第三方的微博客户端应用iBeebo(下载地址:http://dwz.cn/iBeebo)也可以做到微博垃圾信息的过滤。第一次使用iBeebo会自动进入到账号管理界面。首先点击右上角的“添加”按钮,在弹出的窗口输入自己的账号密码。

由于这是一款第三方的应用,所以接下来需要进行授权操作(图1)。当账号授权完成以后返回到账号管理界面,如果用户有多个账号的话可按照相同的方法继续添加。如果没有的话直接双击该账号名称,从而进入到iBeebo应用的主界面。

现在用手指从左向右滑动,在弹出的菜单里面点击“软件设置”命令,接着在列表中选择“首页过滤”命令(图2)。iBeebo为用户提供了关键词、用户、话题等多种过滤形式。我们选择“关键词”并点击右上角的按钮,在弹出的菜单里面选择“添加过滤词”按钮。比如我们这里设置关键词“心灵鸡汤”,以后凡是含有这个关键词的微博信息就会被iBeebo应用自动过滤(图3)。

小提示

基于语义的文本信息安全过滤平台 第3篇

由于以Internet为主体的信息高速公路的不断普及和发展, 信息技术已经渗透到社会生活的各个角落, 人们真正处于一个信息爆炸的时代。随之而来的是信息安全问题日益突出, 因此出现了各种信息安全技术。但大多数是基于行为的安全, 基于语义的文本信息安全技术很少。对用户来说, 如何帮助人们有效地选择和利用感兴趣的信息成为一个极富挑战性的课题, 信息过滤技术日益被人们重视。原来的信息过滤技术主要用于帮助人们查找感兴趣的信息, 但是随着网络上不良信息的大量涌现, 信息过滤技术遇到了新的挑战, 需要进一步研究如何将这些不良信息进行有效拦截的对策。

网络上的不良信息包括色情、暴力、邪教、赌博等违反国家政策的内容, 有些类型的信息可以通过关键字匹配的方式, 分析得到信息的主题内容。但有些信息则无法简单地通过关键字匹配法判断是否为不良信息, 比如宣言邪教和批判国家的信息。在对此类信息进行分析的时候, 不仅要分析信息包含的主题内容 (topic) , 还要判断它的立场和态度, 即倾向性 (polarity) 。信息过滤的条件不再是依据涉及的主题内容, 而是带有倾向性的主题信息。因此, 不良信息过滤又可以划分为主题性过滤和倾向性过滤, 目前对信息过滤的研究大多集中在兴趣信息过滤方面, 对不良信息过滤也主要采用主题性信息过滤方法, 这些方法对于需要进行倾向性分析的信息, 过滤效果并不十分理想。

本文的主要研究内容是:针对各种自动分词方法中出现的问题, 提出了具有自学机制的智能词典概念, 并实现了智能词典的基本模型;提出了一种基于TFIDF (term frequency/inverse document frequency) 的特征值提取算法, 该算法在TFIDF稳定性的基础上引入相对系数来改善特征子集的选取效果, 剔除与语义分析无关的部分, 以减轻语义分析的工作量, 进一步提高处理的速度和效果;基于朴素贝叶斯算法的分类器模型, 利用特征值的词性系数, 利用统计方法对相关度进行训练分类。

本文着重研究基于语义的文本信息过滤算法, 该算法的优势在于能根据文本上下文, 从语言学的角度去提取文本所表达的立场倾向并依据它进行过滤判断。对于那些冗长文本中因为分散存在的关键字而造成的假匹配, 通过语义分析, 可以给予很好地甄别处理, 从而提高系统的召回率。与基于规则的关键字匹配不同的是, 它能分清各个关键字在句子中的角色, 与其他项的语义关系, 减少盲目匹配, 对于某些领域的倾向性文本可以高效地进行识别和过滤。

1 语义过滤处理流程

目前针对基于语义的信息过滤的基本思想是:利用现有的自然语言的处理成果, 首先在待过滤的信息内容中进行分词操作, 然后提取能够代表文本内容的特征值, 利用语义分析的方式分析特征值代表的类别, 并进行相应的处理。

基于语义的过滤分析器主要由预处理、中文分词、特征提取和过滤分类器4个模块组成。整个平台的过滤流程如图1所示。

1.1 预处理

初始化语义过滤所需要预处理的所有内容, 包括对配置文件的签名进行验证、验证成功后将相关词库、样本库读入内存。样本训练集是从客户方之前的过滤结果中整理出来的纯文本数据。

1.2 中文分词

中文分词是将中文文本分割成汉语最小的、能独立活动的、有意义的语言成分即词条。由于中文汉字的多义性, 单个汉字在不同的词中有不同的意义, 字并不是汉语的确定性表意单元。而词条 (包含单字词条) 在段落或句子中的意义是相对确定的, 因此词条才是汉语的最小表意单元。本课题的中文分词是在中文词典的支持下, 然后结合最大正向和逆向匹配算法, 把文本的内容切分为有意义的中文词条序列。

1.3 特征值选取

特征选取的功能是从词条中挑选出适合于具有分类价值的词条作为文本分类所依据的特征向量的分量。即对文本信息分词后, 特征选取模块是对样本信息的词条进行统计和分析, 筛选出对文本最具分类价值的词条集, 以供文本分类器使用。这就需要从其词条集中将信息量小的词条从词条集中删除, 选取对分类贡献度最大的若干词条组成特征词条集, 从而减少待分类词条集中词条的个数。

实现文本自动分类的主要困难有两点:其一, 特征项空间的维数过高, 一方面导致分类算法的代价过高, 使得计算机处理的时空开销非常大, 另一方面导致无法准确地提取文档的类别信息, 造成分类效果不佳;其二, 某些特征项独立表达的类别信息不强, 对于文本分类不具有代表性, 对分类的准确度造成干扰, 如稀有的词项、感叹词等。因此, 需要在保证分类准确度的情况下尽可能地降低特征项空间的维数 (所谓特征项, 在中文文本中主要指切分处理后得到的词汇, 而特征项的维数则对应不同词汇的个数) , 这样选择有效的特征提取算法, 对于提高短信分类的效率有着关键性的作用。本文的特征提取采用TFIDF中引入相对系数的方法。

1.4 过滤分类器

过滤分类器就是对一定数量的、标注了类别的样本短信 (称为训练集) 进行统计和分析, 建立统计语言模型和算法, 然后用训练集验证和调试这个语言模型和算法, 这一步也称为机器学习。当测试达到一定指标后, 即经学习后的文本分类器就具有较强的智能识别能力, 能够对实时的文本流提取有用的识别特征并进行分析, 指出其属于安全或者垃圾类别的概率, 所属概率最大的类别被认为是文档的目标类别。

2 基于智能词典的中文分词的实现

中文自动分词是信息过滤前提和基础, 直接影响过滤的效率和准确性。一般说来, 计算机自动分词需要有一部后台词典的支持, 但词典中所收录的词是有限的, 如果词典容量较小就不能有效的识别新词, 甚至在切分过程中造成歧义。这时对未登录词的识别就尤为重要, 特别是对新出现词汇的识别更为重要。所谓未登录词, 是指在大规模真实文本处理中, 所遇到的由于在分词词库中没有被收录的词条, 因而不能由分词系统识别、切分的词条, 包括中国人名、中国地名、外国译名、品牌名、术语等。未登录词基本上可以分为两大部分:新词和专有名词。新词是随着社会和科技的发展而涌现出来的通用词汇和各行业的专业术语等;专有名词, 比如人名、地名、机构名、商品名称、商标外文译名、方言习语等, 其作为一种特殊的处理单元, 拥有词的属性, 是一个不可分割的整体, 一般说来, 专有名词有其特有的规则。

新词的数量是难以用数字来衡量的, 随着社会各方面的进步, 特别是对于某些快速发展的行业领域, 比如计算机、生物科技、信息技术等新兴领域而言, 这种类似专业术语这种新词将越来越多, 如随着网络和游戏的发展, “网游”这个词以前是没有的, 但现在就出现在常用词中, 在一些文本处理中经常遇到, 在文本分词时需要将其切分出来。如何从庞大且无序的信息中辨别出有意义的新词就成为当代信息工作的重要内容之一。本系统以机械分词方法为基础, 在分词过程中利用统计学的知识对待分词文本进行处理, 以达到识别第一种未登录词。

那么可以假设有这样一种分词系统:一方面, 这种分词法是基于词典进行分词的, 有着分词速度快、分词准确率高和分词效率高的特点;另一方面, 这种分词法在日常分词过程中自动进行学习新词, 随着学习的增加自动补充新词到分词词典中, 从而逐渐地增强词典的完备性。这种分词方法的主要工作机制在于词典的自学习特性, 也称这种可以在分词过程中通过自学习的方法增强词典完备性的词典为智能词典。

智能词典解决了2方面问题:一是识别第一类未登录词, 即对新词的识别, 逐渐完善分词词典的完备性, 本人认为第二类未登录词应该用规则和语义的方法进行识别, 因为这一类词太多, 而且出现的频率较小, 没有必要将第二类即专有名词加入词库;二是解决部分歧义问题, 基于统计模型理论, 分词程序利用智能词典扫描结果解决部分歧义问题。

2.1 智能词典中机器学习的模型

以学习定义为出发点, 提出了一个简单的学习模型, 如图2所示。

本系统的目的是学习新词, 由于语料库的过时性, 因此本系统没有建立一个语料库使系统自学习, 而是在对文本进行分词的过程中将待分词文本作为基本语料, 将每个待分词文本的学习结果存储起来, 按照一定的规则进行学习, 以达到学习新词的目的。根据自动分词中的特殊性对这个模型进行改进可以得出如下学习模型如图3所示。

2.2 基于智能词典的分词方法运行模式

该分词法的分词基本过程如下:对待分词文本按照基于统计语言模型的分词方法进行特征词提取, 提取后将提取的特征词根据其出现的频率将其分为高频词和中频词, 并将其放入相对应的高、中频词库;在分词时以词典为基础使用传统的机械分词法, 但在分词过程中用高、中频词库对分词过程进行指导。如图4所示。

特征值提取的算法将在第3节详细介绍。

怎样划分高频和中频词, 一般有2种方法来定义特征词字串:

a) 计算绝对频率, 即根据文献的长度, 确定在文献中出现多少次的字串为高频字串, 这种方法是这样规定的:当字符串C的词频P (C) 大于P (length) 时, C为高频字串, 其中P (length) 是根据文献长度length确定的经验值或统计值。

b) 计算相对频率。设字符串C的串频P (C) , 如果P (C) 满足式 (1) , 则称字符串C为特征词字符串, 其中T是用户指定的阈值。

undefined

由上可以看出阈值需要经过测试才能得出。因此, 在项目的前期阶段, 本课题暂时选用绝对频率方法来划分高频和中频词。

2.3 字符串匹配算法

在实现分词算法的过程中, 必须考虑2个方面, 即分词的正确率和分词的速度。无论使用哪种分词方法, 都需要将大量的时间用于计算待切分字符串的成词可能性, 然后通过对切分出的这些词条依据统计或语法方面的规则, 得到一种最有可能的正确切分结果, 来提高分词的正确率。因此, 如果能加快初始切分的速度, 对于提高整个分词算法的速度也会有很大帮助。

首先, 对同一个词用正向最大匹配法和逆向最大匹配法分别切词, 再将结果进行比较。如切分“长春市长春节致辞”, 因为正向最大匹配法有一个词语无法匹配, 故选择使用逆向最大匹配法作为结果。

其次, 参考前面提到的词频的概念, 及每一个词语都会根据其在汉语中出现的概率获得一个词频值。对“长春市长春药店”进行2种方法的分词, 但是因为逆向最大匹配法得到的“春药店”的词频相比于其他词语的词频要低很多。可以认为这种分词方法得到的结果不通用, 取正向最大匹配法得结果。

这样, 采用正向和逆向最大匹配方法相结合的特点, 分词的准确率大大提高, 同时, 配合词频库, 能够有效地消解分词歧义, 也是对分词准确率的进一步保证。

3 特征词选取

文本分类的主要目的是要将相似的文档群聚到一起, 对于中文文本来讲, 其分类的依据是文档的基本语义单元即词条 (term) 。通常文档中的词条数目数以百、千计乃至更多, 如果将这些词条均作为分类所依赖的特征, 显然特征的维度是极高的。这种情况会造成许多分类算法的时空开销极大甚至无法运行。例如若采用神经网络分类算法, 输入节点的数目惊人, 神经网络的结构十分庞大, 学习训练的时间难以估量。对于贝叶斯模型, 特征维度过高将导致过多的交叉计算, 除非做了特征项相互独立的假设。在不牺牲分类的准确性的前提条件下, 降低维度十分必要, 这就要求从众多特征中挑选具有区分意义的特征。特征选取的机制也应该是由机器自动进行的, 无需人工干预。

3.1 TFIDF方法

TFIDF方法是评估特征时使用最普遍的标准, 它使用特征的TF×IDF值来评估一个特征。TF (特征频度) 的定义为特征在页面中出现的次数。考虑到文档长短因素的影响, TF定义为:

undefined

特征集中未出现在文档中的各特征, 可能会出现TF值为0的情况。为避免, 再次修改TF定义为:

undefined

TF值反映了特征相对于某篇文档的重要程度, 默认为出现的次数越多越重要。但是, 有一些特征几乎出现在所有文档中, 且TF值较高, 例如网络教育资源管理系统的文本资源中“计算机”出现的次数非常高。这类特征对分类显然没有多大帮助, 应该从特征集中除去。由此引入IDF (逆文档频度) 概念, 其定义为:

undefined

特征的IDF值显然随DF值的增加而降低。

例如, 待测文本中“计算机”一词出现的次数为15, 文本中词频最高的词的词频为50, 在样本集500份文档中, “计算机”一词出现过的文档数为100, 那么“计算机”一词的TF=0.5+0.5×15/50=0.65, IDF=log (500/100) =0.699。

所以, TFIDF=0.65×0.699=0.454。

3.2 TFIDF中引入相对系数

特征子集选取算法给出的评价函数对于每一个特征赋值, 这个值就代表了这个特征表示这个类别的能力。首先, 通常不同词性的特征表示文本类别的能力不同, 名词最强, 动词其次, 然后是形容词、副词, 所以本课题的改进方案是对不同词性的特征乘以不同的相对系数, 突出不同词性的特征表示文档类别的能力。这样, 引入了相对系数来改善特征子集的选取效果。方法的基本思想是:

a) 对于训练文本的众多的特征给出词性标注。

b) 任意选取一种特征子集的选取方法 (本文用的方法是TFIDF方法) , 为所有特征赋值TFIDF (fi, pj) , 并求出所有特征值的平均值:

undefined

c) 对不同词性的特征的TFIDF值分别求平均值:V1, V2, …, Vn分别为n种词性的TFIDF值平均值。

d) 对于不同词性的相对系数ki (i=1, 2, …, n) 分别为:

undefined

e) 分别对不同词性的特征乘以ki (i=1, 2, …, n) , 再进行特征子集的选取。

4基于朴素贝叶斯算法的相对系数-改进的贝叶斯分类器

本文第3节分别求出不同词性的特征的相对系数, 分别代表了不同词性的特征。所以, 在对文本进行分类时, 对于不同词性的特征进行标识, 并在用朴素贝叶斯分类算法分类时将原公式 (7) 修改为式 (8) 。

undefined

这样在用朴素贝叶斯分类算法进行分类时, 突出了某些词性标识文章类别的能力, 使得修改过的分类算法比原朴素贝叶斯分类算法在对大多数文本进行分类时体现出更高的准确率。

4.1 R-改进的贝叶斯分类器的工作过程

改进朴素贝叶斯分类的工作过程如下:

a) 每个数据样本用一个n维特征向量X={x1, x2, …, xn}表示, 分别描述对n个属性A1, A2, …, An样本的n个度量。并对不同词性属性进行标识, 记录属性的词性。

b) 假定有m个类C1, C2, …, Cn, 给定一个未知的数据样本X (即没有类标号) , 分类法将预测X属于具有最高后验概率 (条件X下) 的类。也就是说, 朴素贝叶斯分类将未知的样本分配给类Ci, 当且仅当:

undefined

这样, 最大化P (Ci|X) 。其中P (Ci|X) 最大的类称为最大后延假定。根据贝叶斯定理有:

undefined

c) 由于P (X) 对于所有类为常数, 只需要P (X|Ci) P (Ci) 最大即可。如果类的先验概率未知, 则通常假定这些类是等概率的, 即P (C1) =P (C2) =P (C3) =…=P (Cn) 。并据此只对P (Ci|X) 最大化。否则, 最大化P (X|Ci) P (Ci) 。注意, 类的先验概率可以用P (Ci) =si/s计算, 其中si是类Ci中的训练样本数, 而s是训练样本总数。

d) 给定具有许多属性的数据集, 计算P (X|Ci) 的开销可能非常大。为了降低计算 的开销, 可以做类条件独立的朴素假定。给定样本的类标号, 假定属性值相互条件独立, 即在属性间, 不存在依赖关系。这样:

undefined

式中:k为不同词性的相对系数ki (i=1, …, n) 的相对系数的乘积, 对于不同词性的特征分别乘以词性的相对系数ki (i=1, …, n) ; k是在特征选择时根据上述公式分别计算得到的。

概率P (x1|C) , P (x2|C) , …, P (xn|C) 可以由训练样本估计。

e) 为了对未知样本X分类, 对每个类Ci, 计算P (X|Ci) P (Ci) 。样本X被指派到类Ci, 当且仅当

undefined

换言之, X被指派到其P (X|Ci) P (Ci) 最大的类Ci。

4.2 相对系数-改进的贝叶斯分类器在语义过滤中的应用

(1) 收集大量的垃圾文本 (spam) 和正常文本 (ham) , 建立垃圾文本集和安全文本集。提取2种文本集中的特征词, 并保存为垃圾文本 (spam .txt) 和正常文本 (pam .txt) 2个样本库, 保存形式都为tokens。每个tokens属性包括词频数和词性。

(2) 当待测文本到来时, 首先将前面指定的分词算法进行分词, 得到tokens, 然后从spam .txt或者pam

.txt文件中读取tokens的信息, 如果有该词, 则将对应样本库中该词的数量增加1;如果没有该词, 则在样本库末尾添加该tokens及设置数量为1。

(3) 垃圾文本集对应哈希表spam_hash, 正常文本集对应哈希表pam_hash。假设tokens 串为:t1, t2, …, tn, 它们在spam hash 中出现的次数为:N t1, N t2, …, N tn, 在ham hash中出现的次数为:M t1, M t2, …, M tn, spam hash 中token的次数之和为NUM (spam) , ham hash 中token的次数之和为NUM (ham) 。于是容易得到t1, t2, …, tn在spam和ham中出现的概率:

undefined

(4) 若设事件A为token ti出现的那份文本为spam, 计算那些可以写入概率散列表 (prob_hash) 的概率, 建立prob_hash:

undefined

这里的一些计算细节如下:

a) 为了防止 prob_hash 这张散列表扩展得太快, 不计算那些在ham_hash 和spam_hash 中出现次数不超过3 次得token。

b) 为了降低过滤系统的纠错率, 把在ham_hash中出现的token的概率加倍, 这样可以避免那些偶尔在ham中出现, 或者从不出现的token, 使得邮件被错判。

c) 为了控制一个 token 不至于过分影响整个概率的计算, 限制计算得到的概率:

undefined

(5) 假设由该文本共得到n个token串t1, t2, …, tn, prob_hash中对应的值为P1, P2, …, Pn, P (A|t1, t2, …, tn) 表示在邮件中同时出现多个token串t1, t2, …, tn时, 该文本为垃圾文本的概率。同时, 加上token串t1, t2, …, tn相对应的词性相对系数ki, 能够更加保证判断的正确率。

undefined

(6) 设定阈值, 当P (A|t1, t2, …, tn) 超过预定阈值时, 就可以判定该文本为垃圾文本。

5 结束语

怎样实现有效的智能监控过滤系统是目前信息过滤的研究热点, 市场上普遍采用“关键词”过滤技术, 通过定义某个特定词语将涵盖该词的所有句子全部过滤掉。但是, “关键词”过滤有个明显的缺陷就是会产生“错杀无辜”的现象, 如果用户定义了“打折机票”的字眼, 无论青红皂白, 所有的相关信息都被过滤掉, 包括用户正常收发的短信。“语义过滤”技术则避免了这种情况发生, 它会通过上下文的分析, 依据特有的“语料库”对语言本身的含义进行判断, 最终决定是否过滤删除。因此, “语义过滤”显然更加合理, 更加符合中文语言表达的复杂性。由于语义过滤的智能性, 目前已经成为研究热点, 但同时由于它的灵活性及复杂性, 也使研究处于初级阶段。

在本文中还有许多不足之处, 实现细节还有许多地方可以进行改进, 分类更是有待进一步深化, 更多的领域还需要我们去探索研究。总的来说, 可以进行下列工作:

首先, 本文在特征选择时采用的是基于TFIDF算法的改进, 而用TFIDF标准进行特征选择的结果也不十分准确, 在特征选择时可以采取多种算法相结合的办法, 这样能大大提高特征选择的精确度, 同时复杂性势必会增大。

其次, 本文在分类算法上引入了相对系数改进了最简单有效的朴素贝叶斯算法, 同样相对系数可以应用到其他分类算法中, 如K-最近距离、决策树等方法, 这些方法在某些方面体现出更好的性能。

最后, 在分类器的设计上, 也可以采用多种分类算法相结合的办法将多种分类算法的结果进行融合。

不过, 本文中实现的相对系数-改进的贝叶斯分类器文本过滤算法, 它的优势在于能根据文本上下文, 从语言学的角度去提取文本所表达的立场倾向并依据它进行过滤判断。同时还可以将此算法应用于针对文本内容的分类、搜索操作, 提高其准确度;也可以应用于网络文本的自动分类、自动提取摘要以及机器翻译等领域。既能服务于普通用户, 也能提高网管的效率, 有着广阔的应用前景。

总之, 基于语义的文本信息安全过滤平台为信息安全提供了一种新的方法和思路, 提高了信息安全的强度, 对信息的安全使用和提取提供了新的方法。

摘要:信息安全是人们关注的焦点, 从传统的基于行为的安全向基于内容本身的安全不断发展, 信息安全的外延在不断扩大。Internet提供的海量、庞杂的信息中, 不良信息以不同的表现形式, 从不同的角度对不同人群造成毒害或干扰。因此, 对网络访问进行必要的、有效的内容过滤是营造健康安全网络环境的重要环节。但是, 传统的文本信息过滤算法仅能实现结构对应层次上的判断, 无法体现文本的语义, 过滤效果难以满足智能化的要求。文中结合计算机语言学知识, 提出并实现了一种语义分析的过滤方法, 对于那些冗长文本中因为分散存在的关键字而造成的假匹配, 通过语义分析, 可以很好地甄别处理, 从而提高系统的召回率。

信息过滤 第4篇

[摘 要]根据Ruth提出的恒压过滤方程式中之参数,分析影响真空立盘过滤机过滤效率的各个因素,着重讨论立盘过滤机结构中的浸没率对过滤效率的影响,其分析结果可以作为提高过滤机过滤效率的设计参考依据。

[关键词]真空立盘过滤机;恒压过滤;过滤效率;浸没率

[中图分类号] TF351.[文献标识码] A

[文章编号] 100300172 ]。国内立盘过滤机最早应用在煤炭行业,用于制焦前的精煤洗选。最初国内的真空立盘过滤机主要从国外引进,随后国内一些生产厂家陆续进行了仿制。恒成机械厂于2000年开始研制真空立盘过滤机,并且进行了一定的应用推广工作。

真空过滤机的主要指标是在一定的真空和压缩空气消耗下,如何提高过滤机的过滤效率,亦即如何提高产能。近年来,立盘过滤机在氧化铝生产行业有大量应用,用于氢氧化铝种子过滤的固液分离,本文以氢氧化铝过滤过程为例,通过对真空过滤过程中的恒压过滤方程以及真空立盘过滤机结构进行分析,为提高真空立盘过滤机的过滤效率提供设计参考依据。立盘过滤机的典型工艺配置

立盘过滤机在氧化铝生产中应用非常广泛,山东铝业公司拜尔法和烧结法生产氧化铝流程中均有立盘过滤机的使用。其典型工艺配置见图1。

氢氧化铝料浆经过给料管道进入过滤机槽体,滤液和空气先被真空泵抽至气水分离器,上部空气被抽走,滤液从下部自动流入到母液槽。2 影响过滤效率的因素

211 Ruth的恒压过滤方程式

压力恒定的压缩空气作用在滤浆上的过滤机以及连续式真空过滤机,均属于恒压过滤类型。对于

恒压过滤,Ruth提出了不可压缩滤饼恒压过滤方程式[3 ] :(V + Vm)2 = KRA2(θ+θm)(v + vm)2 = KR(θ+θm)(1)

式中 KR—鲁思恒压过滤系数,m·s;

A —过滤面积,m2;θ—过滤时间, s;

θm—得到假想滤液量Vm或vm所需要的假想过滤时间, s;V —总滤液量,m3;

Vm —假想滤液的总体积,m3;

v —单位过滤面积的滤液量,m3/ m2;

vm —为得到与过滤介质阻力等效的滤饼之假想滤液量,m3/ m2。KR = 2 P 15 ]。根据鲁思的恒压过滤方程式,鲁思恒压过滤系数KR与料浆的粘度也有一定的关系。

214 过滤介质的影响

过滤介质是过滤机的一个极为重要的组成部分,过滤介质选择是否合适以及滤布质量的好坏,是影响过滤机过滤速度和产能的重要因素,亦常常是整个过滤操作的关键。滤布的质量包括两个方面,即滤布的材质种类和编制加工质量。滤布的质量主要以三个指标来衡量,即:通气性、滤液浮游物和滤布的寿命,选择适合的滤布,可以大大改善过滤效果和降低生产成本。根据生产经验选择具有高通气性的滤布,可以减少过滤过程的平均过滤比阻,同时滤布伸缩性好,遇水变形小,厚薄适当且均匀,滤布吸附性小,物料易于脱落,可以防止因粘性造成的滤孔堵塞。

以前的滤布大都采用天然纤维布、人造纤维布以及各种金属网。近年来,随着合成纤维和塑料工业的发展,以及不使用刮刀的卸料技术之改进,出现了许多合成材料制成的滤布。其中最常用的是聚丙烯、聚胺脂和聚酯滤布,此外,一种更为新型的耐腐蚀聚四氟乙烯无纺滤布已经进入工业市场。215 过滤机结构的影响

立盘过滤机的浸没率是指过滤盘浸没在液面以下的面积占整个滤盘有效面积的百分比,浸没率的提高意味着可以减少盲区,使工作区域大大增加。盲区是为了避免吹落区与过滤、干燥区发生短路。在与盲区对应的区域内,过滤机既不吸液,也不进行反吹风,属于无效工作区域。所以,欲提高立盘的浸没率,可以减少盲区在整个过滤周期中的比例,亦即可以提高过滤机效率。

图2中的黑色区域是分配头盲区,从图2b中可以看出,提高浸没率后,分配头的盲区占整个分配头的比例大大减少,所以过滤机的无效过滤时间减少,使得过滤机的过滤效率得以提高。

表1是在固含为750 g/ L、转速为3 r/ min、真空度为0104MPa时,某型号152 m2立盘过滤机在不同浸没率下的过滤产能。当浸没率增大时,过滤机的产能有明显的提高。3 结束语

对于真空立盘过滤机而言,其过滤效率与料桨的匀质性、粘度、固含、温度以及物料的粒度等因素有关,这些因素与实际生产工艺又有着非常紧密的

关系。而过滤机的真空度、过滤介质以及过滤机浸没率对过滤效率亦有很大的影响,这些因素属于过滤机结构对于过滤效率的影响因素,可以在过滤机结构设计中尽量减少其影响。

遗憾过滤仪 第5篇

小志垂头丧气地回到家,一把把书包扔到沙发上,手托下巴,撅着嘴发起呆来。

也难怪,在今天举行的全省围棋选拔赛上,他明明已经占得先机,再差一子就可以让对方举手投降了,可遗憾的是,因为太紧张的缘故,他的手在落子的时候发了一下抖,竟然把棋子放错了格子,最终以一子之差输给了对手。

“啊,太遗憾了,我受不了啦,我要爆炸——”

“呵呵!”

声音是从坐在一旁的发明家老爸的嘴里发出来的,他正抱着一个榨汁机似的大瓶子,里面好像还有一张过滤用的网。

“喂,老爸,你还笑,我都快遗憾死了!”小志的嘴巴撅得都能拴一头驴了。

“呵呵!”

“还呵呵,老爸你也太没有同情心了吧,你知道我今天——”

“不用说了!”老爸突然酷酷地一甩手,“不用说你具体有什么遗憾,我现在只想确定,你的确有一件非常遗憾的事对吗?”

“呃——”小志被老爸的样子弄懵了,“对——对啊!我——”

“那就对了!”老爸忽然冲过来,把手里的大瓶子递到小志跟前。

“——可是老爸,我现在根本不想喝果汁。”

“啊!你在想什么啊?”老爸重新看看大瓶子的造型,“不过也是啊,这遗憾过滤仪怎么这么像榨汁机啊?不行,我得再改进一下。”说着扶扶眼镜,就要往实验室走。

“什么?遗憾过滤仪?”听到这几个字之后,小志哪里还会放老爸走,他一把抱住老爸的大腿,“你怎么不早说啊,竟然有这样的宝贝,我现在才知道真是太遗憾了。老爸,我不要留遗憾,我要赢今天这盘棋,你快用遗憾过滤仪帮我把今天的遗憾过滤掉吧,可以吗?”

“当然可以!”老爸来精神了,立刻拿出记忆提取仪,按在小志的头上,把小志今天的记忆暂时剪切了下来,然后,再把它浓缩成一种浑浊的液体。

“呵呵,现在只要过滤一下,再把——哦,我都忘了,现在你的大脑暂停活动。”老爸拍拍脑门,不再理一旁呆若木鸡的小志,而是把小志的记忆小心地倒入了遗憾过滤仪中。

——当那一汪浑浊的液体透过过滤网之后,神奇的事情发生了,滴落到过滤仪底部的记忆液竟然变成了透明的颜色。

“这下好了,再把记忆重新给你装回去就行了!”

一刻钟后,小志恢复了意识。

“怎么样?”老爸睁大眼睛看着小志,紧张地问,“今天的围棋比赛——”

“什么围棋比赛?”小志莫名其妙地看看老爸,“我还要做作业呢!咦,新买的榨汁机吗?我去榨点儿柠檬汁!”

“哎,别!”老爸把遗憾过滤仪紧紧抱在怀里,“这个不能用,用旧的去。”

看着小志乐呵呵地走进自己的卧室,老爸一阵窃喜,不过又觉得有点儿不对劲儿:今天下棋的遗憾是过滤掉了,不过小志怎么会连遗憾过滤仪也不认识了呢?哦,对了,刚才小志说没有早知道遗憾过滤仪的事,挺遗憾的,所以连这一个遗憾也给过滤掉了。

——太神奇了,遗憾过滤仪第一次使用就大获成功。

过了几天,到了六一儿童节,小志缠着老爸要去游乐场玩儿,可老爸正在实验室里忙活,哪里有时间,便对小志说:“下周,下周吧,乖啊小志!”

“又下周!”小志不高兴了,“老爸,你知道你已经推了多少周了吗?都快一年了,去年六一儿童节的晚会就是让你给耽误的,你知道我有多遗憾吗?我一辈子——”

“啊——遗憾?”老爸听到这个词之后一把把小志拉过来,坚定地说,“放心吧,儿子,老爸不会再让你留遗憾了。”

“啊!是吗?太好了老爸,你答应陪我玩儿了!”小志高兴得跳起来。

不过他高兴得太早了,老爸并没有陪他出门的意思,而是从宝贝抽屉里拿出了遗憾过滤仪。

半个小时之后,被过滤掉去年六一节遗憾的小志平静了下来,自个儿跑出去玩儿了!

老爸得意扬扬地梳了梳头发,觉得自己简直就是世界上最酷的发明家。

以后的日子里,前年的,大前年的……小志的遗憾一个接一个地被过滤掉,半年之后,他所有的记忆中已经不留一点儿遗憾了。

这都是完美的遗憾过滤仪的功劳啊,老爸像抱着稀世珍宝一样在遗憾过滤仪上使劲儿亲了两口。

不过,老爸的好心情并没有持续多久,因为他很快发现,小志的记忆中虽然没有遗憾了,不过身上同时也少了另一样东西——快乐。

“儿子,你怎么不会笑啦?生活中处处都完美无瑕不是很好吗?”

“哦!”小志看着老爸,眨巴眨巴眼睛,“也许吧,不过我总觉得缺了点儿什么似的!”

缺了点儿什么?

到底是什么呢?

老爸苦思冥想了好几天,扯掉了好几百根头发,最后终于恍然大悟一对啊,这不是理所当然的事嘛,如果生活中只剩下完满,而没有遗憾的衬托,那么这些完满还有什么意义呢?换句话说,谁还知道它的珍贵呢?

不行,必须让遗憾重新走进儿子的生活,老爸下定了决心。

这一天,小志在考试中答错了一道本该答对的题目,回家后一直嚷嚷着遗憾遗憾,可是老爸没有像往常一样拿出遗憾过滤仪。

又一次,小志因为生病错过了校队的足球比赛,这是他整整盼了一年的,巨大的遗憾让小志闷闷不乐了好几天,可老爸还是没有碰遗憾过滤仪……

一段时间之后,小志终于又成了那个会哭、会笑、会悲伤、会调皮的可爱儿子了,老爸欣慰地笑了,他把宝贝抽屉里的遗憾过滤仪拿出来,放到了客厅壁橱的最上层。

信息过滤 第6篇

随着知识经济的不断发展, 信息量与日俱增, 而以baidu、google为代表的信息检索技术 (Information Retrieval, 简称IR) , 由于检索结果不具有个性化, 已不能满足用户的需求。为了较好地解决此类问题, 信息过滤技术 (information filtering, 简称IF) 逐渐兴起。信息过滤技术是通过兴趣模型的建立, 描述并保存用户的各类兴趣, 并以此为基础, 从而帮助用户过滤掉不符合需要的信息。

在智能信息推送系统的设计中, 为提高向用户所推送信息的准确率, 更贴近用户的个性需求, 对信息过滤技术进行了深入研究, 采用了信息过滤技术进行推送信息的筛选。本文主要对智能信息推送系统中信息过滤模块的设计与实现进行了详细的阐述。

1 信息过滤模块设计思想

向量空间模型 (VSM) 是20世纪60年代末由Salton等人提出来的, 其基本思想是:假设词与词之间是不相关的, 以向量来表示文本, 从而简化了文本中关键词之间的复杂关系, 使得模型具备了可计算性。利用向量空间模型, 即可实现基于文本内容的过滤, 还可实现协同过滤。

基于内容的过滤, 即通过信息源的内容和用户兴趣之间的匹配, 来实现信息过滤的方式。其中假定用户间相互独立, 不考虑其相似性。

协同过滤则认为, 不同人对同一类物品的喜好程度并不是随机分布的, 而是存在着一般的规律。因此, 协同过滤是利用用户信息需求之间的相似性或用户对信息的评价进行的过滤, 因此着重体现了用户爱好的相似性, 而弱化用户需求的个性。

本文结合了基于内容和协同两种过滤方案, 使优势得以互补, 在信息的智能推送中既彰显个性, 又体现共性。

2 信息过滤模块设计与实现

信息过滤模块是智能信息推送系统的核心之一, 主要分为4部分:用户需求表示、文档特征信息提取、信息过滤匹配、推荐信息生成。

2.1 用户需求表示与处理

用户需求的表示与处理, 即建立用户兴趣模型的过程, 兴趣模型是关于用户兴趣、偏好的描述, 用户建模就是从用户兴趣和行为信息中归纳出用户模型, 用户模型的建立分为以下几步:

(1) 本文依据《中国图书馆图书分类法》 (后文简称《中图法》) 建立“领域—主题”两层概念体系。具体做法是取《中图法》的第二层22个基本大类, 构成22个兴趣领域;取其第三层195个基本类, 构成195个兴趣主题分属于各领域。

(2) 需要用户提供其在各个兴趣主题下的信息需求, 用户提交的需求就作为信息空间各个子区域的中心点。

本文允许用户的兴趣需求以自然语言 (一般是几句话) 的形式加以描述, (例如:“VSM在信息过滤中的应用, RSS技术在智能推送中的应用”) , 然后对其进行分词处理, 去除应删除词, 形成关键词列表, 并赋予每个关键词相应的权重, 形成用户兴趣向量。

2.2 文档特征信息提取

文档特征信息提取流程图如图1所示, 先对文档进行中文分词, 去除停用词, 并将分词结果入库, 再统计每个词的TF与IDF值, 提取特征项, 计算特征项的权重, 存入知识库中。

(1) 文档分词处理

本课题采用由Kai Too搜索开发的基于字典的简单中英文分词算法, 它所采用的方法是基于词库的最大匹配方法。

(2) 去除停用词、分词结果入库

停用词是指在文本中出现频度很高, 但对文本的区分能力弱, 不足以将该文本的内容与其他内容的文本相区分, 或对文本的内容表达能力弱, 不足以表达文本的内容的词。

(3) 特征项提取

在第二步扫描结束时, 已经得到各关键词的TF值, 对于每篇文档提取TF值最大的前n个关键词组成该文档的特征向量, 这n个词就被称为特征项。计算特征项权重时, 采用比较普遍的TF-IDF公式:

TF———项频率 (Term Frequency) :表示一个特征项与某个文档的相关性, 公式为特征项K在文档D中出现的次数除以中所有关键词出现的总次数。

DF———文档频率 (Document Frequency) :文档集合中含有特征项K的文档数量, 记做df (K, N) 。

IDF———逆向文档频率 (Inverse Document Frequency) :与df (K, N) 成反比关系, 是特征项K在整个文本集中的反比文档数。

经过上面步骤处理后, 得文档的特征向量表示如下:

其中d为特征向量, ki代表特征项, 而wi是该特征项对应的权值。

2.3 信息匹配

先从知识库中读取文档权限与用户权限, 进行比较, 若两者权限相同, 则提取文档特征向量与用户兴趣向量进行匹配计算, 否则不进行匹配操作。设文档特征向量‖d= (d1, d2, …dn) , 用户对应于该类主题的需求向量‖q= (q1, q2, …qn) , ‖q和‖d之间的相似度通过夹角余弦表示为:

2.4 推荐信息生成

推荐信息即通过协同过滤产生的信息, 在协同过滤中, 用户依据其他用户对信息做出的评价来挑选信息, 它对用户之间的相似性、用户评价行为进行分析, 而不关心信息的实际内容。

(1) 最近邻查询

最近邻查询的过程也就是用户兴趣小组的生成过程, 将用户按兴趣主题分类后, 读取同类用户的评分向量, 进行相似性计算, 对于每位用户u, 取与其评分向量相似性值最大的n个用户作为其兴趣小组成员。

(2) 信息生成

获取用户的兴趣小组信息和小组成员评分信息后, 便可就当前用户对某项未知信息的兴趣度进行预测。假设当前用户为Uk, 已知信息集合I= (I1, I2, …In) , Uk对集合I中所有物品已进行了评分, 新增信息项It, 与I中信息属于同一主题, 它对Uk来说是未知信息。Uk所属的兴趣小组U共有m个成员, U={U1, U2, …Uk…Um}, 对任意用户Ui (Ui∈U, Ui≠Uk) , 信息集合I与信息项It均属于已推送信息, Ui对It的评分值为Sit, Ui与Uk的相似度为sim (i, k) 。则Uk对未知项It的兴趣度的预测值为:

其中s为用户Uj (Uj∈U) 对集合I评分的平均值。

通过上述方式, 预测用户对所有未知项的评分, 然后选择预测评分最高的前若干项存入推送集。

3 实验结果与分析

3.1 数据集描述与实验环境

本文所选系统测试数据集隶属于政治、军事、经济、文科教体 (文化、科学、教育、体育) 、工业技术5大领域, 共计16784篇文档信息, 都是文本文档格式, 本实验所用机器为1台联想万全T168 G5服务器, 5台拥有2.8G双核处理器和2G内存的个人计算机, 形成实验室局域网环境, 人工模拟了35个用户, 对系统的主要功能进行测试。

3.2 实验结果分析

本文采用的是基于用户直接反馈的兴趣学习方法, 取了20篇文档成功推送给用户后, 用户根据自己的喜好, 对接受的信息进行评价, 共有5种评估值:很满意 (1) 、较满意 (0.5) 、一般 (0) 、较差 (-0.5) 、很差 (-1) 。每经过一轮反馈, 系统对用户的兴趣模型进行更新, 反馈轮数的确定同样基于用户的角度考虑。当经过4轮反馈后, 用户模型得到更新, 得到3个用户在模型更新前后对文档的平均评分值的参照表, 如表1所示。

由表1可知, 用户初始兴趣模型有一定程度的准确性。同时, 我们注意到在第一批推送的20篇文档中, 有9篇用户评分较低的文档在兴趣模型更新后已不能入选推送文档集, 取代它们的是9篇用户评分较高的文档。从表中可知, 该组用户对所推送文档的满意程度与第一次比较整体上有很大提高, 这也证明用户反馈起到了较好的效果。

4 结束语

本文介绍了基于VSM的信息过滤技术, 并将其应用到一个实际的智能信息推送系统中, 实现了信息过滤模块的功能。经验证, 取得了较好的实际效果。本文采用的信息过滤方法, 具有可扩展性、灵活性, 但在信息查全率上还有提高的余地, 这将是以后研究的方向。

参考文献

[1]曾春, 邢春晓, 周立柱.个性化服务技术综述[J].软件学报, 2002 (10) .

[2]许洪波.大规模信息过滤技术研究及其在Web问答系统中的应用[D].北京:中国科学院研究生院, 2003.

[3]LILIANA A, LUCA C, ILARIA T.An adaptive system for the personalized access to news[J].AI Comunications2001, 14 (3) :129-147.

[4]徐小琳, 阙喜戎, 程时端.信息过滤技术和个性化信息服务[J].计算机工程与应用, 2003 (9) .

[5]林鸿飞, 杨元生.用户兴趣模型的表示和更新机制[J].计算机研究与发展, 2002 (7) .

信息过滤 第7篇

作为面向Internet的个性化主动信息服务的一个重要中间环节, 近年来信息过滤 (Information Filtering, IF ) 技术近年来在信息的处理体系中应用越来越广泛。IF系统的作用与传统的信息检索 (Information Retrieval, IR) 系统类似, 用于帮助用户选择感兴趣的文本。但传统的信息过滤技术难以适应这种动态环境的需求。个性化文本信息过滤就是基于这一要求, 根据用户过滤需求, 建立基于样本的信息特征过滤模型, 在词频和词长的基础上, 结合文本中词的属性特征和局部语法结构分析, 从统计特性和知识两方面建立特征模型, 实现对文本的分析过滤, 获得了较好的特定信息过滤准确性和快速性[1,2,3]。采用计算机能够理解的形式表示文本是信息过滤系统所必须解决的问题。之后, 系统可以采用类似于人的工作方式从文本中抽取一些反映文本内容的特征词, 并以适当的方式表示这些特征。

1 文本表示

文档的表示方法有许多种, 如向量空间模型 (Vector Space Model, VSM) 、N-Grams表示法和文档概念分类表示法等[4]。向量空间模型于20世纪60年代末由Gerard Salton等人提出, 因其简单及有效性, 是近几年来应用最为广泛的模型, 检索效果较为显著[5,6]。在VSM模型中, 每一个文本都可以用一个向量来表示。向量的元素是由项 (词条) 及其权重组成的, 该向量称之为文本的特征向量。特征向量是文本的一个特征表示, 在某种意义上可以完全代表文本的特性。在VSM中, 每一篇文本都被映射成多维向量空间中的一个点, 对于所有的文本类和未知文本, 都可用此空间中的向量 (T1, W1;T2, W2;…;Tm, Wm) 来表示 (其中Ti为词, Wi为词对应的权重, 用以刻画该词在描述此文本内容时的重要程度) , 从而将文本信息的表示和匹配问题转化为向量空间中向量的表示和匹配问题来处理。

2 特征向量获取

人们用以辨识或区分该事物的标志就是特征。特征向量就是整个文本的标志, 它在后续处理中直接代表原文本, 特征向量的优劣将直接影响到整个文本处理结果的好坏。因此, 文本的特征向量获取是文本信息处理中的一个重要处理步骤。为了提高特征词条获取的精度和速度, 需要对分词得到的词条进行预处理, 包括无用词条过滤、词频加权、位置加权、同 (近) 义词合并[7,8]。图1为特征向量的获取过程。

2.1 无用词条过滤

无用词条过滤指与Web文本挖掘无关或相关性甚小的词条。它们在各个文本中均可以出现, 不代表文本的特点。这些词条的存在不仅不为挖掘操作提供任何信息量, 而且将导致距离的计算不准确, 同时还将增加存储与计算的额外开销, 必须予以删除。另外, 从自然语言理解的角度来看, 名词和动词构成了一个文本的核心。它们的简单组合可以作为整个文本的简单表示。所以, 无用词条主要包括:停用 (Stop-list) 词典中的词条, 如“the”, “is”等词条;名词、动词以外的词条, 这些词条不提供信息量或提供很小的信息量;在各个类别中都出现的词条。

2.2 词频加权

在VSM中, TF-IDF是一种最常见的确定词权重的方法。对于词权重的计算, 经典的TF-IDF方法考虑词条频率 (Term Frequency, TF) 和词条倒排文本频率 (Inverse Document Frequency, IDF) 两个因素。

(1) 词条频率:

词条在文本中出现的次数;

(2) 词条倒排文本频率:

该词条在文本集合中分布情况的一种量化, 常用的计算方法是log2 (N/nk+0.01) 。其中:N为文本集合中的文本数目;nk为出现该词条的文章数。

各个系统中TF-IDF的实现不尽相同, 但它们的词权重与词频率成正比, 与文本频率成反比。

根据以上两个因素, 可以得出:

Wik=ΤFik×log2 (Ν/nk+0.01) (1)

式中:TFik为词条Tk在文本Di中出现的次数;N表示全部样本的总数;nk表示词条Tk的文本频率, 即包含词条Tk的文本个数;Wik为词条Tk在文本Di中的权重, k=1, 2, …, m (m为词的个数) 。

为了计算方便, 通常要对向量进行归一化, 最后有:

Wik=ΤFik×log2 (Ν/nk+0.01) k=1m[ΤFik×log2 (Ν/nk+0.01) ]2 (2)

2.3 位置加权

与普通文本不同, Web文本数据是一种半结构化的数据, 文本中包含了由各种标记指明的格式信息。据统计, <Title>中的文本涵盖了页面的全局描述信息, 它概括和总结了整个网页内容, 包含的是网页中最主要的特征;<H1>~<H6>经常是网页中十分重要的提纲挈领的内容。在计算权重的过程中, 对出现在不同格式区域的词条词频预处理以后乘以相应的加权系数, 以利用Web文本中的格式信息。例如, <Title>可以赋予很大的权重, H1~H6的权重可以依次递减, B, U, I, URL, META中的内容权重可以酌情设定。

2.4 同 (近) 义词合并

在传统的向量空间模型中, 最基本的假设是各个分量间正交。而在真实文档中, 作为分量的词汇往往具有很大的相关性[9]。这是因为在自然语言理解的过程中, 语境中经常出现多词同 (近) 义以及词条之间相互蕴含等现象。如果不考虑词条的这种语义关系, 而将它们分别作为单独的词条来对待, 那么词条权重的计算会存在很大的问题。

在进行文本表示时, 考虑到把具有语义联系的词条转化为同一个核心词汇, 将它们统一起来, 并相应地调整词条的权重。词条在文本中的出现频数是由中心关键词、蕴含词词条、近义词词条三部分的词频数累计得到的, 其词条权重统计公式为:

ΤF=ΤΜF+ΤΙFi×ai+ΤJFi×wi (3)

式中:TMF为中心词词条的词频数;TIFi为蕴含词词条的词频数;ai为蕴含词与中心词之间的蕴含度;TJFi为近义词词条词频数;wi为近义词与中心词之间的近似度。

3 文本相似度计算

若想判断一篇文本是否真正符合用户兴趣, 一种常见的方法是衡量文本与主题特征间的相似程度, 即需要计算文本与主题间的相似度。在信息过滤过程中, 相似度是十分重要的概念[10]。文本的一切特性通过由较为重要的特征词汇构成的特征向量来表示。所以, 文本相似度借助于其特征向量的相似度计算方法。

3.1 词语相似度计算

相似度这个概念, 涉及到词语的词法、句法、语义, 甚至语用等方方面面的特点。其中, 对词语相似度影响最大的应该是词的语义。

度量两个词语关系的另一个重要指标是词语的距离。一般而言, 词语距离是在[0, ∞) 之间的实数。一个词语与其本身的距离为0。词语距离与词语相似度之间有着密切的关系。两个词语的距离越大, 其相似度越低;反之, 两个词语的距离越小, 其相似度越大。二者之间可以建立一种简单的对应关系。这种对应关系需要满足以下几个条件:

(1) 两个词语距离为0时, 其相似度为1;

(2) 两个词语距离为无穷大时, 其相似度为0;

(3) 两个词语距离越大, 其相似度越小 (单调下降) 。

对于两个词语W1和W2, 将其相似度记为Sim (W1, W2) , 其词语距离为Dis (W1, W2) , 那么可以定义一个满足以上条件的简单的转换关系为:

Sim (W1, W2) =αDis (W1, W) +α (4)

式中:α是相似度为0.5时的词语距离值, 它是一个可调节的参数。

对于两个汉语词语W1和W2, 如果W1有n个义项 (概念) , 则S11, S12, …, S1n;如果W2有m个义项 (概念) , 则S21, S22, …, S2m, 那么, W1和W2的相似度就是各个概念的相似度之最大值, 也就是说:

Sim (W1, W2) =maxi=1n, j=1mSim (S1i, S2j) (5)

3.2 义原相似度计算

由于所有的义原根据上下位关系构成了一个树状的义原层次体系, 所以这里采用简单的通过语义距离计算相似度的办法。假设两个义原在这个层次体系中的路径距离为d, 根据式 (4) 可以得到这两个义原之间的语义距离为:

Sim (Ρ1, Ρ2) =α/ (d+α) (6)

式中:P1和P2为两个义原 (Primitive) ;dP1和P2在义原层次体系中的路径长度, 是一个正整数。

3.3 实词概念的相似度的计算

因为整体相似要建立在部分相似的基础上, 所以把一个复杂的整体分解成部分, 通过计算部分之间的相似度得到整体的相似度。在比较两个整体的相似性时, 首先要做的工作是在这两个整体的各个部分之间建立起一一对应的关系, 然后在这些对应的部分之间进行比较。如果某一部分对应物为空, 则:

将任何义原 (或具体词) 与空值的相似度定义为一个比较小的常数 (δ) ;整体的相似度通过部分相似度加权平均得到。

实词概念的语义表达式主要分成四个部分:

(1) 第一独立义原描述式:两个概念的这一部分相似度记为Sim1 (S1, S2) ;

(2) 其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独立义原 (或具体词) , 两个概念的这一部分相似度记为Sim2 (S1, S2) ;

(3) 关系义原描述式:语义表达式中所有的用关系义原描述式, 两个概念的这一部分相似度记为Sim3 (S1, S2) ;

(4) 符号义原描述式:语义表达式中所有的用符号义原描述式, 两个概念的这一部分的相似度记为Sim4 (S1, S2) 。

但是, 主要部分的相似度值应该对次要部分的相似度值起到制约作用, 如果Sim1非常小, 但Sim3或者Sim4比较大, 将导致整体的相似度仍然比较大的不合理现象, 于是, 最后得到两个概念语义表达式的整体相似度记为:

Sim (S1, S2) =i=14βij=1iSimj (S1, S2) (7)

式中:βi (1≤i≤4) 是可调节的参数, 且有:β1+β2+β3+β4=1, β1≥β2≥β3≥β4。后者反映了Sim1到Sim4对于总体相似度所起到的作用依次递减。由于第一独立义原描述式反映了一个概念最主要的特征, 所以其权重定义得比较大, 一般在0.5以上。

各个部分的相似度的计算方法如下:

(1) 第一独立义原描述式:就是两个义原的相似度, 按照式 (6) 计算即可;

(2) 其他独立义原描述式:按照如下步骤对这些独立义原描述式分组:

① 先把两个表达式的所有独立义原 (第一个除外) 任意配对, 计算出所有可能配对的义原相似度;

② 取相似度最大的一对, 并将它们归为一组;

③ 在剩下的独立义原的配对相似度中, 取最大的一对, 并归为一组, 如此反复, 直到所有独立义原都完成分组。

(3) 关系义原描述式:把关系义原相同的描述式分为一组, 并计算其相似度;

(4) 符号义原描述式:把关系符号相同的描述式分为一组, 并计算其相似度。

在以上步骤 (2) ~ (4) 的计算中, 最后求加权平均时, 各部分取相等的权重。

4 结 语

在过滤技术中, 文档特征向量的获取和相似度的计算方法对过滤的正确性起着关键的作用。本文理论研究中的一些文本分析所要求的步骤比如:词干的提取, 同义词的合并算法等在实际的编程实现中有一定的困难, 就算勉强实现, 对文本的分析速度也有很大的影响, 因此需要在过滤正确性和速度上找到一个平衡点, 提出更好的过滤技术来。

参考文献

[1]曹海.基于文本内容分析的过滤技术研究[J].四川大学学报:自然科学版, 2006, 43 (6) :1248-1252.

[2]胡娟丽, 姚勇, 刘志镜.基于典型反馈的个性化文本信息过滤[J].计算机应用, 2007, 27 (10) :2607-2609.

[3]刘海峰, 刘守生, 姚泽清, 等.基于Web的信息过滤技术研究[J].情报科学, 2008, 26 (12) :1869-1872.

[4]Chris H Q Ding.A Sinilarity-based Probability Model for Latent Semantic Indexing[A].Proceeding of22nd Intemra-tonal Conference on Research and Development in Informa-tion Retrieval[C], 1999:59-65.

[5]费洪晓, 穆-, 巩艳玲, 等.基于Agent的个性化信息过滤系统的设计与实现[J].计算机技术与发展, 2006 (12) :1-2.

[6]何建英, 陈蓉, 徐淼, 等.基于类别特征向量表示的中文文本分类算法[J].计算机应用研究, 2008, 25 (2) :337-338, 344.

[7]赵丰年, 刘林, 商建云.基于概念的文本过滤模型[J].计算机工程与应用, 2006, 42 (4) :186-188.

[8]汪琴, 安贺意, 秦颖.网络信息过滤和个性化信息服务[J].情报科学, 2007, 25 (6) :858-863.

[9]管玉娟.基于智能Agent的个性化信息检索技术研究[D].西安:西安建筑科技大学, 2005.

基于两级模型的信息过滤系统 第8篇

1 信息过滤的两级模型

目前, 几乎所有的信息过滤系统都不可避免地存在失配和过载的 问题 , 即用户感 兴趣的信 息被过滤 了 (召回率下降), 而不相关的信息被保留了 (准确率下降)。召回率和准确率这一对矛盾, 无法同时解决, 因此学者们把研究的重点放在两者的平衡上, 即在保留用户感兴趣信息的同时尽量地滤除不相关的信息。针对这一问题, 提出了一种两级模型的信息过滤方法, 首先将与用户需求不相关的信息尽可能地滤除, 然后再对过滤后的文档按照用户需求进行排序, 返回最佳结果。如图1所示。

其中, 不相关信息过滤采用基于主题 模型的信 息过滤 ,相关信息排序采用基于模式挖掘的排序方法。基于主题模型的信息过滤的目标就是解决失配问题, 利用粗糙集的关联规则理论对用户需求进行建模[2], 过滤与用户需求的主题模型最不相关的信息文档。基于模式挖掘的排序方法是为了解决由过载的问题, SPMining算法对用户需求模型的词序列进行剪枝, 并采用PTM2算法重新计算剪枝后词的支持度, 最后采用加权排序的方法对文档进行排序, 提高了信息过滤的准确性。

2 基于粗糙集主题模型的信息过滤

在信息检索中, 经常假设基于短语的方法比基于词的方法要好, 因为短语更具区分性, 携带了更多的语义信息。但是由于短语与词相比, 统计属性较差、出现的频率较低、存在较大数量的冗余和噪声干扰。因此, 这里采用以词为基本统计单元进行建模。

这里将词t的集合称之为词集。对于给定正例文档d和给定词t, 则词频tf(d,t)表示词t在文档d中出现的次数。

2.1 基于主题模型的用户需求表示

对于训练语料中标注的正例文档, 代表了用户所感兴趣的信息, 如何简洁有效地表示用户需求, 是信息过滤的关键。这里利用粗糙集的关联规则理论, 对正例文档主题进行建模,表示用户需求。

每一个文 档d, 根据主题 关键词建 立初始粗 糙模式pd(rough pattern, r-pattern)

即, 文档中所有出现次数大于0的词频对 (t,f) 的集合,表示文档d的主题模 型。并记示 r-pattern中的词集合。

假设文档d中出现了k个词,那么文档d的粗糙模式pd可以表示为

由于不同文档中词出现个数和频度各不相同, 因此, 需要对pd中的出现次数进行归一化, 得到归一化的粗糙模式,记为β(pd)

其中, wi表示第i个词ti的权重

那么, 训练语料中所有正例文档的粗糙模式集合记为D+,可以表示用户总体的需求, 即

其中, 表示训练语料中正例文档的个数。

不难看出 , 不同的粗 糙模式r-pattern可能会存 在相同的词。

2.2 粗糙模式合并

在训练语料中, 基于主题模型的用户需求空间与训练语料中正例文档个数成正比, 当训练语料过多时, 计算量较大。但随着训练语料的增多, 实际的用户需求可能并未改变, 因此, 需要进一步精简表示用户需求。

由于不同的文档可能包含相同词集的粗糙模式, 这表明这些文档属于同一种粗糙模式, 可以将其合并。即, 对于粗糙模式p1和粗糙模 式p2, 当且仅当 他们具有 相同的词 集合termset (p1) =termset (p2) 时可以合并。

将具有相同词集合的粗糙模式合并, 重新计算归一化粗糙模式β(pi), 那么 , 用户需求可以更加简洁地表示为 :

其中, r表示合并后粗糙模式的个数, 且r≤n。

2.3 不相关信息过滤

令粗糙模式pi的支持度support(pi)表示训练语料中pi对应文档的个数。结合归一化粗糙模式映射函数β (pi), 定义词t在词集合T中的概率分布为:

因此, 对于任意文档d, 它与用户需求的相关性可以由文档d中词t的概率和表示, 即

在训练集中, 分别计算正例文档和反例文档与用户需求的相关性, 然后采用传统的模式识别方法进行分类训练, 得到二分类模型; 对于测试集中的文档, 计算测试文档与用户需求的相关性, 并采用二分类模型进行分类, 将判决为不相关的文档丢弃, 相关文档进去下一级的处理。

3 基于模式挖掘的相关性排序

直接根据文档相关性prob(di)进行排序 , 忽略了粗糙模式中词序列之间的相关性, 导致计算量过大, 需要对其进行剪枝。在剪枝之前, 将词集合termset(p)中的词按照出现概率大小排列。

3.1 闭合序列查找

下面都是对排序后的词序列展开讨论 的 , 不失一般 性 ,令模式序列s= 〈t1,t2,…tr〉, ti∈T, 表示排序后的词序列 , 那么对于任意两个词序列s1= 〈x1,x2,…xi〉和s2= 〈y1,y2,…yi〉, 当对于任意的k1,k2,…ki, 都满足1≤k1<k2<…<ki≤j和x1=yk1, x2=yk2,…xi= …yki, 那么称模式序列s1是模式序 列s2的子序列 , 即这些模式在分类器中采用子集关系来描述。

为了提高模式挖掘中分类的效率, 对于用户需求中的词序列, 可以采用SPMining算法, 找到闭合词模式序列进行剪枝, 减少分类过程中的搜索空间, 算法输入是词序列样式列表和最小相对支持度 (min_sup), 输出是经过剪枝后闭合词序列列表, 算法流程参见文献 [5]。

3.2 基于加权的文档排序

剪枝后, 对用户信息表示中的一些信息进行了合并, 采用PTM2算法, 如表1所示, 描述了模式分类挖掘的训练过程, 对于训练语料中的所有正例文档, 都在step2中调用SP-Ming算法找到一个闭集序列样式集合。另外 , 所有在正例文档剪枝后得到的 粗糙模式 , 构成了新 的粗糙模 式集RP。然后, 在step3和step4中, 利用粗糙模式集合中出现的所有词序列, 采用归一化的粗糙模式β(pd)重新计算每一个词的支持度support(t)[6]。

从训练语料中计算得到每一个词的支持度support(t)以后,对于给定用户需求的条件下, 粗糙模式p的特异性可以由该模式中所有词的支持度求和得到。

显然, 当p1是p2的子模式时, 有

这说明当文档中包含有更大的粗糙模式, 该文档在排序时应当被分配更大的权重, 那么对于任意文档d, 他的排序权重为:

其中,然后利用文档的权重对文档与用户需求的相关性进行加权、排序, 返回排序比较靠前的结果。

4 实验结果

实验数据 采用由文 本检索会 议Text Retrieval Conference(TREC) 提供的Reuters Corpus Volume 1 (RCV1) 数据集 , 包含100个不同主题的集合, 以及每个话题的相关性标注, 可以建造一个鲁棒的过滤系统。所有100个话题都用在了试验中。实验里采用了4个基准系统, 包括3个基于词的信息过滤系统 (经典的Rocchio模型, 基于BM25的信息过滤模型,基于SVM的信息过滤模型) 和PTM模型, 提出的两级模型(T-SM) 。系统的有效性采用3个标准的IR/IF测度 : F-beta测度 (F1, 试验中采用β=1) , 平均精度 (MAP) , 收支平衡点(break-even point) (b/p)。

T-SM与4个基线系统在TREC-11数据集上的比较 , 如表2所示。其中, 提高百分比是指所提出的T-SM算法与其他4个基线系统中结果最优相比较 , 性能提高的幅度。

不难看出, 所提出的T-SM方法在RCV1的100主题数据集上, 性能较好, 所有指标都得到了一致性的结果, 更佳准确、高效。

5 结语

敏感信息自适应底层过滤模型的探究 第9篇

敏感信息过滤已经成为整个网络安全系统中非常重要的组成部分。所以, 敏感信息过滤是开发网络舆情监控系统的基础, 有极为重要的学术意义和应用价值。

1.1 技术层面

过滤模型的研究成果可以为基于自然语言处理的人机交互技术应用提供成功的实践案例, 同时本体推理, 数据挖掘、云计算等相关算法的研究也可以推动中文信息处理技术向更深层次发展。

1.2 经济层面

敏感信息过滤产品, 在近期有着广泛的需求, 如:政府、公安、学校、企业等。特别基于语义的舆情分析技术应用于商业智能、辅助决策及电子商务, 都将带来巨大的经济效益。

1.3 社会层面

能帮助政府及相关部门及时了解当前社会重要事件、流行趋向、舆论方向, 发展法相, 有利于相关部门迅速进行舆论引导, 它为确保我国互联网络大众媒体的舆论导向的正确性起到一定的辅助作用。

2 目前国内外信息过滤的局限性

目前国内外存在各种不同的敏感信息过滤手段, 但都存在着一定的局限性:

(1) 不区分敏感词和敏感信息, 会造成过滤了不该过滤的信息, 该过滤的信息没有过滤, 原因是包含敏感词的信息不一定是敏感信息。

(2) 把敏感词作为静态的信息, 事实上, 敏感词是动态变化的。目前的过滤模型缺少对敏感词的自适应识别方法, 即对突发事件和热点事件的识别方法。

(3) 对敏感信息的抽取不够重视, 不区分敏感词和敏感信息是导致这一现象的原因, 因为目前的研究方法几乎都是把敏感词作为敏感信息的特征, 造成的后果是无法描述敏感信息的动态特性, 无法区分出包含敏感词的正确的信息。

2.1 研究内容

由于敏感信息大多是对敏感词整体的负面评价, 其中包括:正面敏感词的负面评价或负面敏感词的正面评价, 所以, 敏感信息底层过滤的目的和任务是识别敏感词及其极性, 为下一步情感过滤 (顶层过滤) 奠定基础。

网络敏感词主要来自于三个方面:敏感词字典、热点话题和突发事件。关于热点话题发现、突发事件识别、敏感词字典构造已经都有一些研究, 但依然没有能够将三者的成果联系在一起, 构成一个完备的系统。

语的文本作为源文本和提取了整个报道全文的文本作为源文本, 二者使用相同的TF-IDF公式进行特征权重计算, 比较文本表示结果的差异。根据权重数值从大到小排序。受篇幅所限, 在前30位的高权重词中选择10个特征词比较其权重, 如表1所示。

从两组实验权重计算的特征词数据显示, 高权重特征词重合比例较高, 权重值的递减规律基本相同;二者比较曲线各样点间平均距离小于0.02。结果表明, 全文本提取特征词和只在标题与导语中提取特征词的方法, 获得了相近的结果。从而验证了本文最初提出的只从标题和导语提取特征词就足以表示一篇新闻报道核心内容的假设。

3 突发事件和热点话题发现测试

突发事件和热点话题都不是依靠字典能够解决的, 需要借助前文所讲的机制和方法加以识别, 检测一个过滤系统是否具有检测突发事件和识别热点话题的能力, 同样可以采用实验的方式进行检测。

首先统计出一段时间内的话题的点击量或者是词汇使用量, 然后准备一篇文档, 在该文档中写入点击量多的话题的标题和关于该话题的重要词汇, 用过滤系统进行过滤。如以只提取新闻报道标题和导

摘要:网络的发展速度迅猛在给人们带来方便的同时也带来了很多的问题, 比如:网络诈骗, 黑客, 负面信息的传播等等, 这其中以负面信息的传播为最主要问题, 这是由于网络传播信息速度快, 范围广, 影响深。

关键词:敏感信息,过滤,模型

参考文献

[1]ZHOU Y L, REID E, QIN J.US domestic extremist groups on the Web:link and content analysis[J].IEEE Intelligent Systems, 2005, 20 (5) :44-51.

[2]MIN J, HUANG X J.Text filtering system based on topic and sentimentclassification[J].Computer Engineering, 2007, 33 (2) :163-164.

微博“过滤器” 第10篇

创始人赵瑞对互联网上内容的重视由来已久。原来在百度时他就负责搜索引擎营销相关的内容捕捉,通过网民的搜索轨迹和行为,为用户打上标签。后来他接触到“饭否”,对这种“微博客”形式可谓一见钟情,直觉感到这将是个网络上的好东西,还曾将新浪微博与开心网、清华水木论坛对比。最后,他决定以微博为基点建立自己的商业模式。

赵瑞的思路是这样的:谈到内容,SNS相对比较弱化,BBS虽然内容较多,但是比较“被动”,所浏览到的信息全都依赖于版主推荐和网友的发帖,对方发什么自己看什么,而微博可以通过选择人来选择信息,就像一个为自己挑选出的论坛,让人们对信息有把控权;再看人际关系,BBS比较松散化,SNS对关系的控制又太多,微博是一种单项的弱联系,自己可以去选择和哪些人打交道,同时还能让信息的流通变得容易。赵瑞一直觉得,未来的互联网将会为每个人呈现自己需要的个性化内容,他断定微博是种颠覆性的媒体。

但微博也有缺点。也许在李开复发布的信息中,只有“创新工场”相关的才是自己感兴趣的,通过选择人来选择信息是一个很靠谱的手段,但不是一个最好的手段,每个人的页面都是“流水账”形式的信息,到底怎样才能得到更多自己感兴趣的东西?

赵瑞开发的产品“微精”就基于这样的情况,通过对用户行为的分析,找出他们的兴趣点,整理出他们关注的内容,通过一个推送模块来进行按钮化,或者通过邮件、链接等各种形式主动推送给用户,或者去为用户过滤掉一些内容。

这是个不小的工程,不仅需要处理大规模的数据,还需要加入语义分析。赵瑞从清华大学毕业后就开始做技术,离开百度后还去了12580。2009年底开始创业的他在很长一段时间都是“光杆司令”,2010年,曾经与百度的前首席架构师雷鸣一起创办“酷我”的首席架构师张明辉加盟团队,这位技术“大拿”的出现终于让他看到了曙光。

信息过滤 第11篇

电力企业的信息化,在为企业带来了效率的提升、管理费用的减少及更多利润的同时,也使企业更多地暴露在复杂的网络环境之中。企业内部员工滥用电子邮件、有意或无意泄露企业内部机密的情况,所导致的严重后果,轻则损害电力企业的利益,重则导致重大的安全事故,损害公民、甚至国家和社会的利益。本文将讨论最大限度地控制由内网信息泄露的行为,避免因内网信息泄露而导致外部网络攻击、研究成果遭窃取、电力设施破坏等诸多危害,给企业创造安全、稳定、高效的信息环境。良好的信息环境是一笔无形的资产,是其他资产安全的重要保证,势必将促进企业更快、更好地发展。

1 背景

互联网是当今最大的信息资源库之一,其信息发布的及时性与全球互联性使得其对整个社会的发展起着巨大的影响。由于互联网相关技术飞速发展,它已经影响到了日常工作和生活的方方面面。其中,有效识别并过滤通过电子邮件传播的企业敏感信息,成了当前迫切需要解决的问题。

《电力行业信息系统安全等级保护定级工作指导意见》指出,由于电力系统的重要性,电力系统的安全问题已威胁到电力系统的安全、稳定、经济、优质运行,影响着数字电力系统的实现进程。研究电力系统信息安全问题、开发相应的应用系统,制定电力系统信息遭受外部攻击时的防范与系统恢复措施等信息安全策略,是当前信息化工作的重要内容。电力系统信息安全已经成为电力企业生产、经营和管理的重要组成部分。但是,目前的电力系统信息安全保护方案大多属于入侵检测系统,工作重点在防范来自企业外部的破坏和系统恢复,忽视了防范来自企业内部的信息泄露行为的重要性,而这种由内而外的主动泄密方式会产生严重的安全隐患,给企业带来巨大的损失。

2 技术路线

要实现高检出率、低错误率的邮件过滤,首先需要确定电力企业中可能出现机密信息的媒体,并建立各类媒体中的机密信息模型,然后通过对模型的深入分析,提取各模型中所含有的语义信息,并以一种统一的形式进行描述,即最终建立独立于媒体类型的语义模型。对于不同的媒体类型的分析,研究、改进及创新相关媒体领域的专有技术,利用媒体独立的语义模型,分析媒体中所含有的机密信息,并给出危害等级评价,同时研究相关的分析算法,根据媒体间的相关性等信息、结合语义模型,分析评定电子邮件的危害等级。网络敏感信息过滤系统技术路线如图1所示。

系统主要包括预处理、内容分析、决策系统、日志报警系统、数字证据保存系统这5个主要部分,前3个部分构成分析子系统,后面2个部分构成管理子系统。

过滤系统的部署不能给企业带来明显的通信延迟或者对正常的通信产生干扰,这就要求系统有较强的处理能力。针对信息的复杂性,要提高信息过滤效率除了要求采用更高性能的硬件外,还必须从根本上优化信息的分析理解算法。更重要的是,系统还要保证报警的正确率,除了要提高检出率,还要降低误报警率。因此在实施上述技术路线时,要在满足检测的准确性和低误报的基础上,优化检测算法、提高计算效率,完善决策算法和决策规则。

3 技术分析

3.1 文本信息分析

1)文本预处理。文本预处理包括分词和去除停用词。

分词技术可以将文本中的句子拆分成最小的、能独立活动的、有意义的语言成分,即词。分词是文本分析的第1步,因此分词的质量将决定后续分析的质量。现有分词技术有3种类型:基于词典的分词法、基于理解的分词法和基于统计的分词法。这3类方法各有利弊,但是都不能取得理想的分词效果。通过对现有算法的改进,并结合多种算法优点,保留分词过程中产生的歧义解,从而达到提高检测率的目的。

根据信息论的相关理论,词汇出现的频率越高,其所含信息便越少,因此通过去除停用词,不仅可以加快后续处理速度,还可以去除噪声的干扰。在实现了分词以后,可以使用基于树的停用词搜索算法搜索并去除停用词。

2)文本表示。可靠的文本算法是建立在对文本有效表示的基础上。文本表示的方法有很多种,常用的有布尔逻辑模型、概率模型和向量空间模型等。向量表示法相对于其他2种方法在知识表示方法上有巨大的优势,在该模型中,文本内容被形式化为多维空间中的一个点,通过向量的形式给出,把对文本内容的处理简化为向量空间中向量运算,使问题的复杂性大为降低,极大地提高了自然语言文本的可计算性和可操作性,因此,本模块以向量空间模型为文本表示的基础。

3)文本特征提取。特征项的选择对表达效果有着重要意义。选择的特征项应是包含较多的语义信息,表示能力较强的语言单位。建议通过将文本在特征空间上进行表示,而后进行聚类分析,以提取出文本的特征。

4)局部语义分析。特征向量空间具有匹配特征分散、速度快、可实现性好的优点,但是,因为向量空间模型是一种不考虑特征项出现顺序的词袋文本表示模型,损失了文本内容中至关重要的结构信息,而这些信息在自然语言中是至关重要的;利用特征向量空间模型,过滤的精度低,如果不考虑语义关系,有时就不能真正识别出敏感信息的相关文本。通过建立良好的局部语义模型,可以实现优良的局部语义分析,提高识别的正确率。

5)过滤算法。过滤算法有全局匹配算法、局部匹配算法和综合匹配算法3种。全局匹配根据文本的特征向量空间模型提取出的特征值与表示用户兴趣的特征阈值的匹配;局部匹配是待测文本与局部语义模型的匹配,局部匹配引入语义的概念,提高了过滤的精度。在本系统中,信息可能被无意或有意的隐藏,例如混杂在大片文本中,因此需要结合全局匹配算法和局部匹配算法的优势,即综合匹配算法实现文本的匹配过滤。

3.2 图像信息分析

1)图像预处理。图像预处理是图像分析中非常重要的一步。通对图像进行滤波处理,可以滤除图像中的噪声等干扰,提高图像分析的准确度。常用的方法有均值滤波、中值滤波、高斯平滑滤波、维纳滤波等,需要根据实际需要选择滤波算法。

2)图像粗分类。粗分类算法可以快速、精确地判断图像中可能所含内容的种类,例如机械电气图纸图像、资料文档图像、电力设施图像等,从而进行有针对性的分析,提高图像分析的正确率。图像粗分类方法有很多种,如灰度直方图、颜色直方图、纹理特征等方法,对这些方法的结果进行加权组合,可以快速精确地进行图像的分类。

3)特征提取。图像的粗分类已经得到基本的图像类型,根据过滤的策略,可以为某种类型的图像指定敏感等级,例如所有的图纸图像都有较高的敏感等级。但是这种标准无法应用到所有的图像类型,例如景物、事物的图像需要进行深入的分析与理解,特征提取是很重要的一步。

特征提取的方法包含图像粗分类中使用的方法,但是受算法的限制,这些特征只能起到辅助作用,不能得到所需的精度,为此,可以使用边缘特征、角点特征等,最大程度挖掘图像中所含的有用信息,供进一步分析。

4)目标级图像理解。目标级图像理解的目的是通过分析提取出的特征,识别图像中的可疑目标。根据目标的分类不同,目标识别需要使用不同的算法,例如使用模板匹配、SIFT特征匹配等方法识别图像中的物体和场景,使用基元提取算法提取图像中的基元等。

5)反馈技术。在系统部署后,难免会出现无法检出或误报的现象,反馈技术使得管理人员可以手动添加未检出或者误报的样本,对知识库中的知识和前述各算法中建立的模型进行修改,来不断提高系统的可用性。

3.3 二进制文件签名分析

应用统计学的相关方法,提取不同类型媒体数据中有区别性的二进制签名信息,建立媒体类型数据库。通过对待检测文件的二进制签名进行分析,判断邮件附件中文件的类型。对电子邮件中的附件使用二进制签名检测的方法检测其所属媒体类型,避免发件人有意修改文件扩展名而导致的误判。

3.4 音频信息分析

音频主要的形式为音乐和人声2部分,而在一个敏感部门工作的人员,除音乐中的歌声外,传递语音信息本身就具有很强的敏感性,设计一个音乐和人声自动判别的模块,当监测处是人声时,系统将其作为一个敏感特征自动进行预警并记录传递的内容。为了实现这一功能,将根据音乐和人声的频段分布特点,构建一个基于分类器的统计模型来判别。

3.5 邮件传输信息截获

设计实现邮件系统的插件,对发送至邮件服务器上的邮件暂缓投递,并将其送至分析引擎进行分析,根据分析和决策的结果决定是否继续投递邮件。设计实现邮件系统的插件,对发送至邮件服务器上的邮件送至分析引擎进行分析,并根据分析和决策的结果记入日志。

3.6 电力行业信息模型

研究电力系统中所使用的多媒体资料的类型,提取出各种媒体中的机密信息,研究这些信息之间的相关性等。

3.7 媒体独立的语义模型研究

对不同的媒体,例如文本、图像、音频等,建立一种不依赖于媒体类型的语义模型,用以统一表示媒体中所包含的企业信息。

3.8 结合语义与统计的信息分析

以媒体独立的语义模型为基础, 结合文本、图像、音频识别领域的技术,分析拦截到的邮件中的内容及其危害等级。

3.9 基于规则的过滤决策

研究使用规则表,对信息分析的结果进行分析,决定对邮件、发件人等采取何种操作。

3.1 0 日志和报警系统

因为有追踪机密信息流向的需求,日志系统要求对每一次邮件收发操作进行相近、准确的记录,提供方便的查询界面和完善报表分析功能。报警系统用于在检出含有机密信息的电子邮件时及时通知管理员,使得有意泄露机密者可以得到迅速的处理,对于误判情况也可以进行快速的响应,避免因为误判,系统锁定邮件账号而带来的问题。

3.1 1 数字证据保留

研究数字取证领域的相关技术和标准,对检出机密信息的电子邮件保留具有法律效力的相关数字证据,以便在追究责任人法律责任时进行举证。设计一套针对电子邮件的数字证据保留模型。为了提高数字证据的可信度和法律效力,可以部分使用第三方可信机构提供的相关技术,针对邮件系统的需要进行改进。

4 最终成果

相关调查显示,内网用户的泄密行为相对于来自外部的窃取行为更不易察觉,且更容易导致严重的后果,通过采用网络敏感信息过滤的系统可以产生以下效果:

1)通过研究建立一种信息过滤系统,过滤内网用户有意或无意地向外发送的机密信息,防止可能因机密泄露而导致的各种风险,以及投入了大量人力物力所得到的宝贵资料的泄露,保证企业各部门安全、高效的运作,降低维护成本、提高利润;

2)对向外发送机密的行为进行存档,保留具有法律效力的数字证据,便于向泄露机密的相关责任人追究法律责任,降低企业的举证成本;

3)提供对员工不恰当行为的有力约束,提高员工的工作效率;

4)以电力企业的信息模型为样本,对相关过滤算法提出创新的改进,有较高的学术价值。

5 结语

敏感信息过滤系统将综合电子邮件中的文本、图像、图纸、视频、语音等多媒体信息,采用不同的分类器算法识别出其中带有敏感信息的部分,之后采用基于概率模型的融合算法融合多种分类的结果,从大方向上看,属于模式识别领域。该方法结合了网页内容理解、文本处理、图像处理和模式识别等技术,一定程度上解决了复杂网页过滤的技术难题,有助于基于多媒体信息的网络过滤技术的开发和应用,保护电力行业内企业集团的知识产权与涉密信息安全。

本文来自 99学术网(www.99xueshu.com),转载请保留网址和出处

【信息过滤】相关文章:

文本信息过滤08-29

纤维过滤06-19

智能过滤06-24

邮件过滤算法05-26

混凝过滤06-01

输入过滤论文07-12

数据包过滤论文06-06

生物过滤器06-23

膜过滤器07-19

过滤教学设计07-15

上一篇:高校专项资金管理研究下一篇:科学管理锻造团队精神