反垃圾邮件技术

2024-07-29

反垃圾邮件技术(精选9篇)

反垃圾邮件技术 第1篇

既然垃圾邮件给我们带来了这么大的不便,那肯定会有反垃圾邮件的技术存在,那目前国际上主要的反垃圾邮件技术又有哪些呢?

1.关闭open relay,发送认证法

这种方法即在发送方和发送服务器间进行认证,但这种方式无法要求接收服务器进行认证。

2.实时黑名单rbl法

实时黑名单(rbl:realtime blackhole list):即将发送垃圾邮件的服务器列入 黑名单拒收。所谓实时黑名单实际上是一组可供查询的ip地址列表,判断一个ip地址是否已经被列入了黑名单,只要使用黑名单服务的软件会发出一个查询到黑名单服务器。如果该地址被列入了黑名单,那么服务器会返回一个有效地址的答案。反之则得到一个否定答案。同时,由于现在世界上大多数的主流邮件服务器都支持实时黑名单服务,通常多数的提供者都是比较有国际信誉的组织,因此该名单是可信任的。

同时,这种方式最大弊端在于容易发生 “误伤”,比如宽带用户自行发出的邮件,尤其是动态ip的(比如拨号用户和adsl),这样经常导致整个ip区域被列入黑名单。但值得一提的是,笔者已知国内的263公司的邮箱已经采用实时黑名单技术。而且同时还采用了自身的技术让动态ip用户垃圾邮件无处隐身。从而做到让真正的垃圾邮件制造者无处可躲,同时又可以将真正的垃圾邮件杀死在襁褓之中。

3.建立垃圾特征库进行邮件过滤法

与杀毒软件类似,建立“垃圾特征库”,对邮件的信封、信头、信体等内容进行对比检测,剔除垃圾邮件。但这种方式的弊端在于很容易躲避,不是非常有效。

现在很多的邮箱服务器都提供了邮件过滤技术,如163、126、sina、sohu等,但这些多数提供免费邮箱。263邮箱虽然是收费的,但是它却拥有智能内容分析技术,即垃圾邮件判断标准的样本库具有自学习功能。可以让用户登录web邮箱后进行‘反垃圾级别设置’。根据“大量有共性的数据是有价值”和“网聚人的力量”的客观规律,多数用户的参与,将会使得垃圾邮件的过滤更为彻底,

当然,关于一些常见邮箱客户端的设置,我们会在后面详细介绍。

4.连接/发送限制法

这种方法很好理解,就是对于发送邮件的频率、用户数等进行限制,比如每分钟只能发10封,超过10封邮件将无法发送。当然,实际上这种方式就是在试图增加垃圾邮件发送工作的成本,从而起到限制垃圾邮件泛滥的作用。很显然,通过这种方式不能从根本上解决垃圾邮件问题。因为只要一个自动批量的发送程序就可以做到“慢慢发”。

5.服务器间建立认证法

相互认证的服务器和用户之间建立信任关系,接收邮件。当然,由于邮件服务器的数量非常巨大,因此这是一个庞大的社会工程。不过,现在已经有一些邮件服务器之间建立了关联,并且采用了一些全新的技术。如针对垃圾邮件传播者惯用的伪造成同域用户的伎俩,263的邮件服务器就具有同域认证技术,经过该技术的过滤,凡是那些伪装成同域用户的邮件,都会被打入垃圾邮件的黑名单,以保证邮件的安全。

6.hash技术

hash 技术是邮件系统通过创建hash来描述邮件内容,比如将邮件的内容、发件人等作为参数,最后计算得出这个邮件的hash来描述这个邮件。如果hash相同,那么说明邮件内容、发件人等相同。这在一些isp上在采用,如果出现重复的hash值,那么就可以怀疑是大批量发送邮件了。

7.贝叶斯bayesian算法

这是一个非常著名的算法,很多电子邮件程序包括foxmail都在使用。贝叶斯(bayesian)算法,可以学习单词的频率和模式,这样可以同垃圾邮件和正常邮件关联起来进行判断。这是一种相对于关键字来说,更复杂和更智能化的内容过滤技术。

关 键 字:反垃圾邮件

反垃圾邮件技术 第2篇

邮件过滤按照邮件系统的角色结构可以分为三类:

MTA(邮件传输代理)过滤

MDA(邮件递交代理)过滤

MUA(邮件用户代理)过滤

MTA过滤是指MTA在会话过程中对会话的数据进行检查,对于符合过滤条件的邮件进行过滤处理。邮件会话过程中有两个阶段可以进行过滤:

第一个阶段,邮件发送邮件数据前,即在发送DATA指令前的过滤。在发送DATA指令前,邮件对话可以在SMTP连接开始、HELO/EHLO指令、MAIL FROM指令和RCPT TO指令中对会话数据进行检查。

如果在检查中该会话符合过滤的条件,就可以按照规则采取相应的动作,如直接在会话阶段断开连接、发出警告代码等。邮件发送邮件数据前的检查也叫做信封检查。

第二个阶段,邮件发送邮件数据后,即在发送DATA指令后的过滤。在通过一个点的单行结束DATA指令后,可以对DATA指令接收到的数据进行检查,这包括信头检查和信体检查。在DATA指令所传送的数据中,信头和信体是通过一个空行分隔开的。

信头一般都比较小,通常在1KB-10KB之间,检查信头也比较快。而信体检查就要检查大量的数据,会给邮件服务器带来很大的负载。所以通常不做信体检查。

邮件发送邮件数据后的检查实际上是在邮件数据传输基本完毕后进行的,因此并不能节省下被垃圾邮件占用的带宽和处理能力,只是可以让用户不再收到这些已被过滤的垃圾邮件。MDA过滤是指MDA在从MTA中接收到信件,在本地或远程进行递交时进行检查,对于符合过滤条件的邮件进行过滤处理。

很多的MDA都支持在这个过程进行过滤,如Procmail、Maildrop和Cyrus-IMAP等,甚至它们本身就是作为过滤器使用的。这些过滤器使用过滤语言(如Sieve,它是一个标准化的邮件过滤语言,现在已成为IETF标准)。来制订过滤规则,因此配置比较灵活、功能强大。但是由于是在邮件递交阶段进行过滤,同MTA的邮件发送邮件数据后的检查一样,并不能节省下被垃圾邮件占用的带宽和处理能力,只是可以让用户不再收到这些已被过滤的垃圾邮件。

MTA和MDA过滤都是邮件服务器端的过滤,而MUA过滤是邮件用户的客户端的过滤。多数流行的邮件客户端,如Outlook、Outlook Express、Netscape Mail、Foxmail等都支持MUA过滤。

邮件过滤技术作为一个有效的对抗垃圾邮件的手段,就如同杀毒软件对病毒的查杀一样,也是需要不断根据情况更新邮件过滤规则的。通常都是管理员自行根据垃圾邮件监测情况来更新过滤规则。不过本站即将推出一个推荐的信头过滤规则和信体过滤规则,并不断根据情况进行更新。用户可以订阅这些规则并参考应用到自己的邮件系统中。

邮件过滤是一项应用的相当早的技术,因而也发展的比较完善。已经有很多主流的邮件系统支持邮件过滤,一些不直接支持该功能的邮件系统也可以通过补丁或外置的邮件过滤器来实现邮件过滤。

反垃圾邮件技术 第3篇

1 常用反垃圾邮件技术

只要未经用户允许, 擅自发送到用户邮箱的电子邮件都可被称为垃圾邮件。除去常见的广告等垃圾信息外, 垃圾邮件还包括病毒、木马等恶意信息, 危害巨大。当前常用的反垃圾邮件技术有:过滤技术和验证技术。

1.1 过滤技术

过滤技术是当今使用最频繁的反垃圾邮件技术, 根据过滤处理的内容成分可分为地址过滤技术和内容过滤技术两大类。

1.1.1 地址过滤技术

地址过滤技术对邮件的发送地址进行分析来判断邮件是否为垃圾邮件, 黑名单技术是应用地址过滤的一个范例。这是最早被使用的一种反垃圾邮件技术, 凡是黑名单上的地址均会被拒绝连接, 如今的邮件服务器都采用了这项技术。黑名单中的垃圾邮件地址名单可以通过权威机构发布的黑名单进行配置。利用该技术处理邮件时, 查看邮件的来源地址, 如果此地址被包含在黑名单中, 则该邮件会被过滤掉, 不能继续传播。这项技术可以控制垃圾邮件的发送量, 压制了垃圾邮件的发展。

实时黑名单 (Realtime Blackhole List, RBL) 技术是当前使用最广泛的黑名单技术, 它通过对黑名单服务器的查询判断, 来过滤掉垃圾邮件。黑名单服务器以域名服务器的形式来提供动态的、实时的IP地址;也可将此服务器的数据复制到本地的域名服务器, 这样就可直接查询本地服务器来进行垃圾邮件的鉴定。通常黑名单是由国际上比较有信誉的组织提供和维护的, 所以该名单是可信任的。由此可见, 实时黑名单技术不需要用户自己设置黑名单, 并且能及时、自动的更新黑名单, 能提高检验的准确性、降低误报率。

黑名单技术简单、快速, 容易实现;但也存在一定的局限性。因为服务器中的黑名单不可能包含所有的垃圾邮件源头地址, 所以存在漏报的情况;同时, 整个判断全部依赖名单, 如果黑名单过于强势, 则存在一定的误报率, 使用户丢失正常的邮件。

1.1.2 内容过滤技术

基于内容的过滤技术是对邮件的内容特征或者其他特征 (如群发特征) 进行判别来实现, 主要分为基于规则匹配和基于概率统计两类[1]。

基于规则的过滤技术是对垃圾邮件的某些特征进行分析提取, 根据这些特征制定出一系列的规则, 形成规则库;检测时将邮件的特征与规则库里的规则进行对比匹配, 来判别该邮件是否为垃圾邮件。此技术的关键在于规则库的建立与维护。关键词过滤技术是基于规则过滤的一个典型应用, 它通过一个单词列表来辨别垃圾邮件。单词列表由与垃圾邮件相关的若干关键词组成, 是垃圾邮件特征的集合;建立一个庞大的单词列表是关键词过滤技术的核心。基于规则过滤技术的局限性在于过滤的能力全部依赖规则库, 存在漏报与误报, 并且占用的系统资源会比较多。

基于统计的过滤技术, 比基于规则的过滤技术复杂和智能, 因为规则是由统计方法自动生成的[2]。目前常用的基于概率统计的方法有SVM (支持向量机) [3,4]、k-NN (k-Nearst Neighbor) 、Winnow方法、贝叶斯 (Bayesian) 方法等, 其中应用最广泛的是贝叶斯方法[5]。贝叶斯方法是对电子邮件的邮件头和邮件体中出现的分词进行概率统计, 进而全面判断此邮件是否为垃圾邮件的一种技术, 其工作流程包括两个阶段:学习阶段和判别阶段。学习阶段通过训练邮件样本, 分析特征, 从中提取出特征字符串, 可以获得每个特征字符串在垃圾邮件和正常邮件中的出现概率;判别阶段将整个邮件内容进行分词, 将这些分词出现的概率与前面学习阶段获得的概率按贝叶斯算法进行计算分析, 来判别出垃圾邮件与正常邮件。与前面基于规则的过滤方法不同, 贝叶斯方法是基于邮件的全部内容作出判断, 而不是仅仅依靠是否有特殊词语的出现, 所以准确性得以提升。而且, 在检测过程当中, 贝叶斯技术通过对新的垃圾邮件与正常邮件样本进行学习, 使它能够自动应对新型的垃圾邮件。从目前的分类效果来看, 这种方法以其运算速度快、易于实现等特点被广泛应用[6]。

1.1.3 过滤技术缺点

现行的很多反垃圾处理系统就是多种过滤技术的综合使用。过滤器通过他们的误报和漏报来分等级, 基于过滤技术的反垃圾邮件系统需要解决三个问题:漏报、误报和复查。

漏报, 即垃圾邮件可能被绕过。垃圾邮件发送者会根据过滤规则修改垃圾邮件的内容, 以此逃避检测。多数过滤技术的数据库一般最多只能保持几周的有效期, 所以, 过滤数据库必须不断更新。

误报, 即将正常邮件判断为垃圾邮件, 这是反垃圾邮件技术最不能犯的错误。比如, 基于地址过滤技术时, 某些正常服务器会被包含在不负责任的组织发布的黑名单中而被屏蔽掉。但是, 如果要减少误报, 就有可能造成漏报。

复查, 是为了避免误报而存在的问题。在一般邮件系统中, 对于垃圾邮件的处理不是删除而是将其放置到垃圾箱中。这样, 并不能彻底解决垃圾邮件, 仍然需要用户去察看垃圾邮件。

虽然过滤技术存在一定的局限性, 它仍然是当前使用最广泛的反垃圾邮件技术。

1.2 验证技术

简单邮件传输协议 (Simple Mail Transfer Protocol, SMTP) 是电子邮件的主要支持协议, 因为简单, 所以缺乏身份认证, 邮件很容易被伪造邮件头或隐藏源头来躲避检测。如果能够识别被伪造的邮件, 就可以避免大量程度的垃圾邮件的产生。验证技术就是通过对发送方进行检验的技术手段, 主要包含反向查询技术、DKIM、Sender ID和Fai UCE四种技术。

反向查询技术是通过对邮件发送地址进行验证来判断邮件是否被伪造。反向邮件交换 (RMX) 、发送者许可 (SPF) 和标明邮件协议 (DMP) 是反向查询的应用范例。这些技术查询的原理类似, 即将发送者的域名和IP地址进行比较验证。反向查询技术就是定义反向的MX (邮件交换记录, 列出了邮件服务器) 纪录, 根据此记录 (RMX) 将发信人的IP地址反向解析, 确定其真实域名。如果获得的域名与邮件头的指定域名不一致, 即可判断此邮件是伪造的。反向查询方法的局限性在于:只能查询来自固定IP地址的邮件。如果域名分配的是动态IP地址的时候, 反向查询就无法进行。

DKIM (Domain Keys Identified Mail) 技术是基于雅虎的Domain Keys验证技术和思科的Internet Identified Mail, 通过密钥来验证。Sender ID技术通过对邮件的来源进行检查验证来区分垃圾邮件, 它需要发件方和接收方的共同支持。Fair UCE技术由IBM开发, 通过分析邮件域名来辨别垃圾邮件。

验证技术通过对发信方进行身份验证来判别邮件是否为垃圾邮件, 但此技术不够灵活, 存在一定的局限性。例如, 当遇到垃圾邮件制造者利用免费注册的合法域名来发送垃圾邮件, 或者利用有漏洞的合法邮件服务器发送垃圾邮件这类情况发生时, 验证查询技术就失效了。

2 新兴反垃圾邮件技术

垃圾邮件与反垃圾邮件技术, 是一个不停斗争的过程, 每一种反垃圾邮件新技术都会导致能与之对抗的新的垃圾邮件的出现。同时, 任何一种反垃圾技术都不可能解决所有的垃圾邮件问题, 所以反垃圾邮件技术必将不停发展。目前新兴的反垃圾邮件技术有:反图像垃圾邮件技术、行为识别技术和专门针对中文垃圾邮件的反中文垃圾邮件过滤技术。

2.1 反图像垃圾邮件技术

图像垃圾邮件是将垃圾信息通过技术手段嵌入到图像文件中并发送的垃圾邮件。把垃圾邮件以图片的形式发送, 可隐蔽掉文本信息, 躲避内容过滤。如今, 对于图片垃圾邮件比较有效的技术手段是OCR识别技术和指纹识别技术[7]。

OCR (Optical Character Recognition) 识别技术也可以算一种过滤技术, 它先将图片中的图像信息转换成文本信息, 再将文本的特征提取出来, 进行比对识别, 就可过滤掉垃圾邮件。OCR是光学识别技术, 通过算法模式识别, 将图片中的文字转变为文本字符。识别过程中, 图片质量、识别的方法、学习及测试的样本等因素均可影响到识别转换。所以, 图片转换为字符不可能完全正确;降低OCR的误报率是本技术的关键问题。

指纹识别技术采用数字指纹算法, 能够用一个数字DNA来标记一封具有相似内容的邮件[7]。此技术提取邮件中的数字DNA (指纹信息) , 并将其保存到数据库中。利用垃圾邮件大量发送的特点, 当检测到含有相同DNA的邮件同时大量发送时, 就可以判定此邮件是垃圾邮件。对于图片邮件, 无论图片的背景、部分文字怎么变换, 只要其指纹特性并未改变, 它的数字DNA就确定不变。所以, 此技术与邮件的内容格式无关, 具有一定的自适应性。对于指纹识别技术, 关键在于庞大指纹数据库的建立与维护。

2.2 行为识别技术

由垃圾邮件和正常邮件的通信行为对比得知, 正确判别垃圾邮件的关键问题在于对邮件发送过程中的通信信息进行正确的识别[8]。对邮件的发送行为进行分析, 可以区分出垃圾邮件与正常邮件, 在垃圾邮件发送之前就拒绝其发送请求, 将其扼杀在萌芽阶段。

电子邮件的邮件头中包含了邮件投递过程中的各种参数, 邮件的行为可以从邮件头中提取。行为识别先收集邮件获得邮件数据集合, 从集合中提取邮件头信息并从中确定垃圾邮件的行为特征, 然后对行为特征进行向量化处理, 对这些向量化的行为特征进行数据挖掘, 从而建立行为识别模型[9]。这样, 就可以通过行为识别模型对垃圾邮件进行处理。基于行为识别技术开发的反垃圾邮件系统, 不需要处理邮件正文, 只对邮件头进行处理, 极大提高了系统的处理速度。行为识别技术在会话连接阶段就进行识别和拦截, 无需后续工作, 节约了网络资源。并且, 因为邮件头信息有固定的格式, 不会频繁改变, 这样可以保证识别效果持久。由此可见, 行为识别技术是垃圾邮件处理技术的发展方向之一。

2.3 中文垃圾邮件过滤技术

因为中文分词和特征选取与英语完全不同, 所以对于中文垃圾邮件, 采用通常的过滤技术存在一定难度。英文的分词由空格字符完成, 而中文的词与词之间没有分词符号, 是通过人的理解来划分的, 并且中文语义理解还处于研究初期。所以, 贝叶斯过滤技术不能直接应用于中文环境。对此, 可以对中文以词为单位进行分词, 再提取特征建立样本库, 实现基于贝叶斯的中文垃圾邮件过滤系统[10]。发展到现在, 又提出了基于短语的贝叶斯中文垃圾邮件过滤方法[11], 短语是由几个单词按一定的语序和语法规则组成的序列, 包含更多的信息, 可以有效弥补以词为单位的欠缺。经过实验统计, 基于短语过滤技术的准确率可以达到比较大的提升。

3 结语

垃圾邮件是一个全球性的问题, 已成为一种普遍的社会现象。通过上文对反垃圾邮件技术的介绍可知, 每种技术都有其局限性, 所以成熟的反垃圾邮件系统不会只支持一种反垃圾技术, 而应是多种反垃圾技术的联合应用。随着各种新型垃圾邮件的出现, 反垃圾邮件技术必将不停发展。

参考文献

[1]王斌, 潘文锋.基于内容的垃圾邮件过滤技术综述[J].中文信息学报, 2005, 19 (5) :1-10.

[2]衣治安, 毛岩.垃圾邮件过滤技术概述[J].长江大学学报:自然科学版, 2010, 7 (1) :256-258.

[3]H Drucker, D Wu, VN Vapnik.Support Vector Machines for Spam Categorization[J].IEEE Transactions on Neural Networks, 1999, 10 (5) :1048-1054.

[4]向昌盛, 周子英.支持向量分类机的参数选择方法研究[J].计算机技术与发展, 2010, 20 (9) :94-97.

[5]金彩琴, 裘国永.对垃圾邮件过滤技术的问题研究[J].计算机技术与发展, 2011, 21 (9) :225-228.

[6]张铭锋, 李云春, 李巍.垃圾邮件过滤的贝叶斯方法综述[J].计算机应用研究, 2005 (8) :14-19.

[7]郑冬冬, 宋顺林.图片垃圾邮件过滤技术综述[J].计算机工程与设计, 2010, 31 (1) :41-44.

[8]T Oda, T White.Developing an Immunity to Spam[A]//In Proceedings of the Genetic and Evolutionary Computation Conference (GECCO 2003) [C].2003.

[9]李新洁, 张新有.垃圾邮件行为识别技术研究[J].计算机技术与发展, 2011, 21 (10) :20-27.

[10]黄志刚.基于贝叶斯的中文垃圾邮件过滤系统的设计与实现[D].成都:成都电子科技大学, 2007.

反垃圾邮件技术及其最新展望 第4篇

反垃圾邮件技术初探 第5篇

摘要:如今,电子邮件的应用已经非常广泛,给人们的工作和生活带来了很大的方便。但是垃圾邮件的泛滥也给用户带来了诸多不便,尤其是病毒类垃圾邮件已经严重威胁用户信息的安全。在本文中,笔者通过对Internet存在的垃圾邮件问题进行探讨,从垃圾邮件的起因和特点出发,阐述了反垃圾邮件的技术。关键词:垃圾邮件;技术;过滤

随着计算机互联网技术的发展,电子邮件成为人们生活、工作中不可缺少的一项互联网服务,电子邮件费用低廉、使用方便、信息量大、信息传递速度快,极大的满足了人们的需求。正是因为邮件的这些特点,使垃圾邮件泛滥,而且具有反复性、不健康性和强制性,严重干扰了人们的正常生活,因此,要对反垃圾邮件技术进行探讨。

一、垃圾邮件简介

(一)垃圾邮件的概念

垃圾邮件是指收件人没有事先提出要求或者同意接受的电子刊物、广告等具有宣传性质的电子邮件;隐藏发件人身份、标题、地址等信息的电子邮件;收件人无法拒收的电子邮件;含有虚假信息源、路由、发件人的电子邮件。总之,垃圾邮件是指和内容无关,发送给多个未明确要求该邮件的收件人的邮件,也指发送给与信件主体不相关的新闻组或列表服务器的同一信件的重复邮件。

(二)垃圾邮件发送手段

1.以图片方式代替文字内容发送。把将要传送的内容以图片的形式附入邮件中,过滤器很难识别图片文件包含的内容。

2.邮件内容、发件信息伪装。通过随机内容生成器等将收信人地址加到正文或标题中,吸引收件人查看。

3.利用受病毒感染的“僵尸网络”发送。比如说利用蠕虫病毒,将垃圾邮件发送给世界各地可被蠕虫病毒感染的机器,使被感染的电脑在机主不知情的情况下发送垃圾邮件。

4.采用“视觉战术”,采用HTML格式,把内容加噪,干扰反垃圾邮件系统对于邮件内容的判断,但是垃圾邮件的接受者依然可以接受垃圾邮件的原始信息。

二、反垃圾邮件技术

(一)规则过滤技术

规则过滤技术是指通过设置一些基本规则,对要识别的邮件进行评估,只有符合这些规则的一条或几条规定,就认为是垃圾邮件。这些规则主要有:

1.通过SMTP通信链接频度、速率的设定,过滤垃圾邮件。垃圾邮件的发送者常常试图通过在很短一段时间内发送大量邮件来阻塞邮件服务器,所以,可通过对每个IP地址可用的带宽比例或并发SMTP连接数目进行限制,限制异常的网络流量,达到限制垃圾邮件的目的,也减少服务器因为垃圾邮件耗费的能源。

2.利用邮件地址、反向域名、域名“黑白名单”、IP查询进行邮件的过滤和限制。①实时黑名单技术就是通过检查收到邮件的IP地址,与实时黑名单中的IP地址进行核对阻止垃圾邮件,同时,实时黑名单是通过DNS来查找IP地址的A记录是否存在,并不需要手工维护IP地址的列表清单。②反向域名验证方法是通过启动邮件服务器的反省域名解析功能,对收到来源的IP地址采用反向的DNS验证真实性,有效过滤掉来自动态IP的垃圾邮件,降低垃圾邮件的数量。

(二)图片垃圾邮件的判别技术

1.杜绝图片垃圾邮件的关键在于分层处理,分层处理的解决方案加上有效的过滤原则,可帮助用户解决图片垃圾邮件带来的网络资源和网络带宽的浪费。

2.通信协议扫描技术是针对垃圾邮件的发信行为,对发件人进行监控和阻挡,减少垃圾邮件。通过对垃圾邮件行为解析,透过SMTP联机实时通信协议,对寄件者真实身份进行分析判断并适时回馈,判断其通讯行为,到图像式垃圾邮件实现高效的阻挡。

(三)基于统计的内容过滤技术

1.基于统计的内容过滤技术,是利用统计分类算法与文本分类对垃圾邮件进行检测,典型技术是贝叶斯过滤器。

2.贝叶斯过滤器的基本流程是:①在已经确定的正常邮件集和垃圾邮件集中进行学习,根据每个单词都两个集合中分别出现的次数,计算单词为垃圾词汇的概率。②当新邮件到达时,对信件内容进行系统性的分词和选词,得到一组组单词,根据在集合中学到的信息,计算整个单词流的概率,判断信件是否是垃圾邮件。

3.在实际应用中,因为贝叶斯分类法是利用概率推断邮件是否是垃圾邮件,为了方便管理,系统通过对邮件的打分确定邮件是否是垃圾邮件,为不同的概率设立不同的分数,每封邮件是否是垃圾邮件就以分数表示,确定一个阙值,查看邮件的分数,如果邮件的分数超过了阙值,邮件就是垃圾邮件,反之不是。结语:

垃圾邮件是全球性的问题,也是一种社会现象,对于这一问题,应该采用管理和技术相结合的方式,以先进的技术手段为基础,同时以完善的法律法规和管理规范为依托,通过建立国家性的反邮件服务体系,促进邮件服务商和运营商的协调合作,推动反垃圾邮件技术的发展。

参考文献:

[1]熊应, 朱斌, 朱海云.电子邮件智能分类系统的设计.电子学报, 2011, 29(12)

[2]杨清, 杨岳湘, 翟国平.智能文本分类系统的研究与设计,计算机应用研究,2009,10

反垃圾邮件最新的技术公布 第6篇

发件人特征识别技术 Predictive Sender Profiling

在身份欺骗技术被垃圾邮件制造者广泛利用的新形式下,邮件安全厂商推出了针对性的发件人特征识别技术,代表产品为国际领先安全厂商博威特公司的梭子鱼垃圾邮件防火墙。在06年底,该公司宣布将针对“好人”身份欺骗的特征识别技术加入梭子鱼垃圾邮件防火墙中,首先要验证发信者身份并预测其行为,这其中包括列举垃圾邮件制造者的行为以及加强不依靠身份验证进行辨认的措施。博威特网络技术公司表示,对于发件人特征识别技术来说,邮件信誉的校验只是最基本的,它必须通过启发式和人性化的检查来勾勒出垃圾邮件的行为特性,必须具备多样的有效对策。

信誉评分技术 IP Reputation

加州山景城的Habeas公司从事信誉过滤(reputation-filtering)服务,也就是协助企业改良电子邮件的名声,客户包括WalMart.com、Staples、Vanguard、Geico和

Tickets.com等公司。Habeas的对手公司ReturnPath从事的也是设法把邮件投入收件信箱的服务,避免让邮件被弃置于垃圾信件分类。

Habeas首席执行官Des Cahill说:“电子邮件不是白吃的午餐。没有什么好东西仍然免费。就像做搜索引擎最好做引擎优化(search engine optimization)一般,电子邮件信誉与投递也是快速增长的新兴行业。”专家把电子邮件信誉比喻成驾驶纪录或信用纪录。如果驾驶纪录不佳,你必须付更高的保险费;信用纪录不良,你就无法取得优惠的贷款利息。同理,如果电子邮件信誉差,你寄的邮件就会被丢入垃圾桶。

多重图片识别技术 OCR

打击图片垃圾邮件的主导技术有图片垃圾邮件指纹识别技术、ocr识别技术以及之后的第三代图像防御技术。这三种技术在梭子鱼垃圾邮件防火墙上有集中的体现,在ocr识别技术的初期,图片垃圾邮件的发送者们企图使用动态的gif图像使内容占用多帧。而且,他们采用横线,符号和其他图像模糊图片内的文字。为了对付这些技巧,博威特公司第二代ocr引擎既包含动态gif文件分析功能还包括模糊文本识别技术。

随着第三代图片垃圾邮件的出现,博威特公司研发出新型复合ocr引擎。该引擎深入分析图片,在进行ocr识别之前对表象图片进行规范化处理。这个新技术主要针对图片掩饰,不同颜色的对比,以及组合文字,背景等手段。综合处理正确率在95%以上。意图分析技术 Intention Analysis

意图分析包括鉴别历史记录里的错误邮件发送基点、它们目前的行为和意图。许多防御策略用来鉴别垃圾邮件,而意图是随时间而改变的特殊类别。

大部分垃圾邮件背后的动机是使接受某物,例如登陆某个站点,拨打某个电话,或者买某只股票。这些动机被称为邮件“意图”,观察邮件的这些特点叫做“意图分析”。目前为止,大部分垃圾邮件的意图都是让用户点击一个网页或链接。

即使邮件发送者试图通过新IP地址掩盖他们的不良记录,他们最终还是需要驱使用户去特定的网站。梭子鱼中心维护着垃圾邮件发送者常用网站地址库,能够基于邮件中插入的站点地址阻断邮件。

意图分析是阻断垃圾邮件非常有效的手段,它的有效性随着黑名单有效性的相对减少而增加。梭子鱼中心分析后发现,在梭子鱼垃圾邮件防火墙的过滤邮件中,意图分析过滤占到了10~20%。

9个方法告别垃圾邮件

几乎可以这样说,如果你有免费电子邮箱,你收到垃圾邮件的机会将会很高。对付垃圾邮件除了各方共同努力外,对于普通用户来讲,注意以下几点是可以防范垃圾邮件的:

① 不要响应不请自来的电子邮件或者垃圾邮件,绝对不要回复垃圾邮件,如果你回复甚至警告他们不要再发,这无疑也相当于告诉对方你的邮件地址实际存在,今后你可能会收到更多的垃圾邮件。所以,即使垃圾邮件上写有“如果不需要此邮件的话请回信告知”等句子,也决不要回复,这一点非常重要。

② 不要试图点击垃圾邮件中的任何链接,某些垃圾邮件发送者会自动收集点击者的信息,事实上当你点击链接进入相应网站时就无疑高速对方这个电子邮件地址是存在的(不然谁会去点击?)。

③ 不要把您的邮件地址在因特网页面上到处登记,如果经常用某个邮件地址在网上大量注册(很多论坛都要求填写email地址然后给你发送密码),相信你今后收到垃圾邮件的次数会越来越多,那怎么办呢?告诉你一个方法:由于网络上收集电子邮件地址通常是用软件进行,而目前的电子邮箱表示法中都会包含 “@”这个符号,所以当你注册成功后不妨再次进入论坛,将电子邮箱中的”@”改为其他符号如“#”,这样其他用户查看时会知道你的email的,但对付那些软件就有效多了;不过有些网站,检测地址的合法性,所以此法肯定行不通,那也有办法——将电邮地址修改为其他的字符组合,比如增加字符长度等。④ 不要登陆并注册那些许诺在垃圾邮件列表中删除你名字的站点。

⑤ 保管好自己的邮件地址,不要把它告诉给你不信任的人。

⑥ 不订阅不健康的电子杂志,以防止被垃圾邮件收集者收集。

⑦ 谨慎使用邮箱的“自动回复”功能。为了体现互联网高效、快捷的特点,很多网站和邮件收发工具中都设置了“自动回复”功能,这虽然方便,但是如果两个联系人之间都设置了“自动回复”,想想看有何后果?恐怕双方的邮箱中都是一些“自动回复”的垃圾信件。换句话说,此功能使用不当,人人都会变成垃圾邮件发送者。

⑧ 发现收集或出售电子邮件地址的网站或消息,请告诉相应的主页提供商或主页管理员,将您删除,以避免邮件地址被他们利用。

⑨ 用专门的邮箱进行私人通信,而用其他邮箱订阅电子杂志。

有哪几种反垃圾邮件技术?

反垃圾邮件的几种技术 第7篇

这是最基本的反垃圾邮件手段,通过设置一个庞大的发件人地址黑名单来实现,不过现在很多垃圾邮件是通过本地smtp服务器发送的,不需要服务器认证,发件人地址本身可以随便伪造,所以这种过滤的效果不是很好。

2.关键词过滤

分为两种:

一种是对邮件主题进行过滤,当来信主题中含有特定关键词的时候即判为垃圾邮件。不过现在的垃圾邮件标题起得都很好,“看上去”都不像垃圾邮件,这个办法也就不太好用了。另一种是对邮件正文进行过滤,因为垃圾邮件的正文总要包含广告、色情等等垃圾信息,所以这种过滤方式比较有效,不过执行这种过滤方式就得把垃圾邮件收取下来,无法在远程管理的时候就把垃圾信件过滤掉。用becky的远程管理也是一样,双击邮件的时候其实已经把相应的信件收下来了。另外,某些垃圾邮件(例如法x功发来的邮件)对正文采用了特殊的处理(比如在关键词中间插入符号,像“政.府.”什么的),或者是在附件中放上宣传内容的zip包,这样就不好过滤了。

3.群发过滤

对于个人用户来说,就是扫描来信的邮件头,如果收件人/抄送人大于某个指定的数量,便判为垃圾邮件。

对于服务器而言,就是在一个相当短的时间里收到从同一个发送或回信地址发出的信件,或者在一个相当短的时间里收到从不同发送或回信地址发出的一定数量相同内容的信件,则该这些信件即被判为垃圾邮件。

4.域名反查

对比邮件头中的Helo字段和来信的IP地址,发现不一致即判为垃圾邮件。这个对于个人用户来说,是不好做到的。

5.地址校验

对来信人的发送地址和回信地址进行校验,如果这些地址根本不存在,即判为垃圾邮件。这个对于个人用户来说,也是不好做到的。

6.IP过滤

列出那些spammer经常使用的发信代理服务器,将从黑名单中的IP地址发出的信件判为垃圾邮件。

7.文件大小过滤

反垃圾邮件技术分析 第8篇

关键词:电子邮件,垃圾邮件,黑名单,白名单,身份认证,安全审计

1. 引言

通过因特网收发的邮件叫做电子邮件。因特网提供的最常见的网络服务之一就是电子邮件服务。电子邮件的快速、高效、方便以及廉价,是普通邮件所不能比拟的。垃圾邮件是指强制发送到用户电子信箱中的、未经用户同意或请求的、对用户没有意义的电子邮件。这些垃圾邮件一般包含广告、病毒、色情资料等内容,一般具有批量发送等特征,对用户的工作、生活有害无益。

2. 垃圾邮件的概念

垃圾邮件一般分为以下几类:未经收件人请求或同意,而强行发送到收件人电子邮箱中的有宣传作用的垃圾电子邮件;收件用户无法拒绝接收的电子邮件;隐藏发件用户地址、身份等信息的垃圾电子邮件;含有假冒的发件人、信息源、路由等信息的垃圾电子邮件;含有色情资料、病毒软件、反动内容等有害信息的垃圾电子邮件。

垃圾电子邮件有非常大的危害。垃圾电子邮件泛滥成灾,占用大量网络带宽,使因特网不堪重负,还传播病毒,成为黑客利用的工具,危害系统和网络安全。垃圾邮件不仅侵犯收件人的隐私权,而且妖言惑众,骗人钱财,传播色情等内容,对现实社会造成极大的危害。在经济利益的驱动下,垃圾邮件在很长一段时间内还会继续存在。反垃圾邮件工作是一项艰巨而长期的任务。

3. 过滤技术

一种直接而简单的垃圾电子邮件处理技术是过滤技术,通过过滤垃圾电子邮件的内容或来源来拦截垃圾电子邮件。这种过滤技术有广泛的应用,大部分反垃圾电子邮件的产品都支持过滤技术。为了提高过滤效果,反垃圾邮件产品往往结合使用多种过滤技术。

(1)黑名单技术。这种技术将已知垃圾邮件制造者的IP地址、主机域名或邮箱地址,存入一个黑名单数据库。邮件服务器或邮件客户端以这个黑名单数据库为依据,拒绝接收垃圾邮件制造者的垃圾邮件。当垃圾电子邮件的制造者快速地改变其电子邮箱地址时,黑名单过滤技术的整体过滤效力就会大幅下降。

实时黑名单技术需要权威机构建立并实时更新一个含有黑名单的数据库服务器,这个服务器上包含的黑名单数据被及时传输到本地的DNS服务器,供本地的电子邮件服务器或邮件客户端访问使用。国内的黑名单数据库服务器由中国的反垃圾电子邮件联盟提供使用。目前主流的电子邮件服务器都支持这种实时的黑名单过滤技术,如Postfix、Qmail、Sendmail、IMail等。

(2)白名单技术。这种技术将合法的、可信赖的邮件发送者的IP地址、主机域名或邮箱地址,存入一个白名单数据库。邮件服务器或邮件客户端以这个白名单数据库为依据,只接收白名单中包含的发送邮件者发过来的电子邮件。

白名单过滤技术提供了两种过滤方式:一种方式是直接拒绝接收白名单中没有包含的发送用户发来的电子邮件;另一种方式是邮件系统给发送邮件者发送一个质询邮件,要求他回复,以证实确实有发送邮件者这个人,通过验证后,邮件发送者被加入白名单。

白名单技术也有缺点。白名单的更新和维护难以达到实时。接收方只有将发送方加入白名单,才能顺利接收发送方发来的电子邮件。如果发送方改变了邮箱地址,那么接收方必须将新地址加入白名单,才能顺利接收发送方发来的电子邮件。白名单技术会产生大量质询邮件,要求垃圾电子邮件制造者回复,这些起质询作用的邮件也会成为垃圾电子邮件。白名单过滤技术会把因各种具体原因而无法响应质询的正常发信用户发送的电子邮件阻断。

(3)基于规则过滤垃圾电子邮件的技术。这种过滤技术将垃圾电子邮件的典型特征抽取出来,构成规则或模式的集合。这种技术以规则或模式为依据,来判定一封电子邮件是否为垃圾邮件。例如,对包含某些关键词的邮件进行加分,当分数累积到一定程度时,就认为该邮件是垃圾邮件,将其过滤掉。

基于规则的过滤技术的优点明显。规则可以共享,推广性很强。一套规则可以供多个邮件服务器使用。我国科研和教育计算机网下面的紧急响应组,已经推出了一个中文垃圾邮件过滤规则集,被广泛使用。

基于规则的过滤技术也有缺点。规则更新速度慢、时效性差。例如,标题包含“免费培训”的邮件一般是垃圾邮件,但过滤器可能会因为标题字符间存在空格而未将该邮件过滤掉。另外,过滤器的过滤规则越完备,其运行速度就会越慢。

(4)贝叶斯过滤垃圾邮件技术。这种过滤技术通过特定的过滤算法,对海量垃圾电子邮件和非垃圾电子邮件进行分析统计,从而得到各种各样的关键词在两类电子邮件中出现的概率统计模型。这种过滤技术利用建立起来的概率统计模型,来估算一封电子邮件是垃圾电子邮件的概率,判断准确、全面。

贝叶斯过滤技术的优点很多。这种过滤技术具有自学习过滤能力,能够分辨垃圾电子邮件与非垃圾电子邮件之间的区别,并自动地用于以后的邮件检测中。在接收到几百封电子邮件后,贝叶斯过滤器软件就可以自动地识别出各种垃圾电子邮件。这种技术由于自适应性好、自学习能力好,所以得到广泛应用。

(5)HASH技术。这种技术也叫哈希技术、散列技术,可以把任意长度的输入内容,通过散列算法,变换成较短的固定长度的输出,该输出被称为散列值。利用这种技术,将邮件的内容、发件人等作为参数,可以求得邮件的散列值。如果大量邮件的散列值相同,那么就可以怀疑有人在大批量发送垃圾邮件。

(6)指纹识别技术。这种技术需要在各种垃圾邮件中进行抽样,并对邮件样本进行计算,得出该样本的特征码,也就是所谓的“指纹”,将指纹存入指纹库。如果一封邮件的特征与指纹库中的某个指纹相互符合,那么我们就可以断定这封电子邮件是垃圾邮件。这种识别技术需要经常维护相应的指纹库。

(7)反向DNS域名核查技术。垃圾邮件制造者在发送邮件时,随意捏造一个虚假域名非常容易。反向DNS域名核查,是指接收邮件服务器在接收到电子信件时,要对电子邮件发送者的域名进行检查,以验证发送者的信息是否真实,防止发送者利用虚假域名进行欺骗。

4. 基于SMTP的改进技术

(1)反向查询技术。SMTP是指简单邮件传输协议,是在因特网中用于邮件服务器之间交换邮件的协议。SMTP在设计时没有考虑安全问题,许多垃圾邮件工具借助该协议的漏洞隐藏或伪造邮件发送者等信息。针对垃圾邮件问题,需要对SMTP进行技术改进。如果我们能够解决垃圾电子邮件的发送地址伪造问题,我们就可以防止垃圾电子邮件的产生。为此,接收邮件服务器可以要求验证电子邮件的发送地址。反向查询邮件技术可以检查电子邮件发送方的域名和IP地址是否对应,如果不对应,就可以判定该邮件为垃圾邮件。

(2)Sender ID检查技术。该技术需要邮件发送方和接收方共同支持,能够辨别出电子信件的确切地址来源,因此能够大幅度减少垃圾电子邮件的地址欺骗行为。邮件发送方在发送邮件时要按照技术规程留下其真实身份记录,接收电子邮件的服务器要利用Sender ID检查技术对发件用户的身份进行核查验证,以决定是否接收该邮件。

(3)Fair UCE技术。该技术在邮件发送方IP地址、域名、E-mail地址间建立一种联系,以确定电子邮件的合法性。该技术会核查电子邮件发送用户的地址是否有过不良记录,是否曾经被接收方加入黑名单中,从而决定采取什么样的措施来处理该邮件。这种技术还可以通过追查源头来找到垃圾电子邮件的发送源,并将这些垃圾电子邮件返回给发送源,以此来打击垃圾电子邮件的发送者。

(4)DKIM技术。该技术利用公开密钥密码体制对电子邮件进行数字签名。用户发送邮件时,发信服务器会自动利用私钥给电子邮件(包括发送方域名等信息)加密即签名。收信服务器利用公钥解密邮件即验证签名,从而判定电子邮件及发送方信息的真实性。收信服务器确认邮件并非垃圾邮件后,投递到收件人邮箱中。

(5)加密技术。SMTP不支持邮件加密,因此不能保证邮件的安全性。为此,可以扩展SMTP的功能,引入邮件加密技术。邮件加密可以保证邮件的保密性和完整性。要证明发件人的身份,还要对邮件使用数字签名技术。

5. 邮件服务器的安全管理技术

(1)病毒过滤。邮件服务器是收发电子邮件的网络服务器。许多病毒是通过垃圾邮件传播的,因此邮件服务器必须具备垃圾邮件处理功能,能够过滤尽可能多的垃圾邮件。邮件服务器还要具备基本的病毒防御和查杀功能,以抵御大部分网络病毒的攻击。

(2)身份认证。身份认证主要是指对电子邮件发送方的身份进行识别和验证,以防止黑客用非法身份攻击邮件服务器。身份认证还可以保证邮件服务器的各种资源被充分应用到邮件处理过程中,不会造成资源浪费。

(3)安全审计。对电子邮件服务器提供的各种实际应用、各种具体服务及时记录工作情况,做好审计日志,以便在电子邮件服务器出现故障时能够快速找到故障的原因。还要对电子邮件服务器当前正在运行的各种应用和服务进行实时地监察,以便动态地调整电子邮件服务器的参数,保证电子邮件服务器安全运行。

6. 结语

综上所述,各种反垃圾邮件技术各有利弊,在实际应用中,只有把各种技术结合使用,实现优势互补,才能取得良好的效果。如今,网络安全已经成为国际性问题,只有把各种技术手段和各种管理手段相结合,才能最大限度地保证网络安全。

参考文献

[1]Dengguo Feng.Information Security and Cryptology[M].Wuhan,Hubei,China:Hubei Dictionary Press,2006

[2]Aditya Bagchi.Information systems security[M].Guangzhou,Guangdong,China:Guangdong Education Press,2006

[3]CISSP,Harold F.Tipton.Information Security Management Handbook,Fourth Edition,Volume III[M].AUERBACH,2001

智能反垃圾邮件技术应用研究 第9篇

【关键词】适应度 反垃圾邮件 数据挖掘

【中图分类号】TP3【文献标识码】A【文章编号】1672-5158(2013)02-0163-02

该遗传算法生成的模型建立在解决垃圾邮件的数据分析的新方法基础上。在模型的决策树上,每个结点数据被设计成拥有一个随机系数,这样的话,数据与系数相乘成为判断该项数据记录是否代表邮件合法的确定性权重。这里的系数基于Ephemeral Random Constants(ERC),是特定于数学建模的遗传算法生成的随机数。该系数的微小变化也会导致进化变异产生。

此系统中,之所以要选取特征子集,是考虑到特征子集的选取是在反垃圾邮件中提高机器学习算法性能的可行办法。特征子集的选取能提高学习算法的准确度,减少计算量,同时可以减少测试数据量,降低分类过程中的消耗等。进行特征子集选取,最重要的目标就是提高邮件检测的准确率,减少分类运算等过程中的数据量。

在系统调用序列数据的挖掘过程中,使用特征向量法,用特征向量的一位标识一个短序列,用挖掘算法就能从特征向量集中找出垃圾邮件的规则来。然而,由于短序列的数量较大,导致特征向量位数过大,特征向量集也相应过大。为了更高效可行地使用数据挖掘算法,采用遗传算法对特征向量集进行优化,寻找特征子集,利于后续的数据挖掘。

在使用遗传算法的过程中,用特征向量的位数决定其个体的大小,随机构造50个二进制位串的个体,其中“0”、“1”代表该位置的短序列是否入选特征子集,如图2所示。在此基础上,进行遗传得到最优个体,该最优个体必然是“0”、“1”交替的位串,将其所有“1”所在位置进行分析,可以得到“1”所在位置代表的短序列集,这就是要寻找的特征子集。后续挖掘算法根据该特征子集中的短序列,对训练数据进行分类等挖掘工作。(如图2)

采用标准交叉算子和变异算子,交叉概率取0.6,变异概率取0.001。遗传过程中,个体的选择比较复杂。因为这里是针对垃圾邮件检测进行的优化,所以在选择个体时,是将该个体代表的入选子集的短序列应用到数据分类算法(RIPPER),该算法训练数据并应用规则得到测试数据,根据检测的性能来确定上述要选择的个体的适应度值。根据个体的适应度值就可以对其进行选择,继续遗传优化工作。

研究表明,个体的适应值可以取决于有垃圾邮件被正确检测到和有正常邮件被误判为攻击,同时考虑个体中置“1”位的数目。本系统设计的适应度函数为:F(Xi)=(a/A-b/B)/(δ*m);Xi表示某个个体,(a/A-b/B)的含意正如前述,m是Xi中“1”的个数,δ是m对于该适应度函数的相关系数。也就是说,a/A是检出率,b/B是误报率,高检出率低误报率使适应度函数值高,低检出率高误报率使适应度函数值低。个体中置“1”的位数越少,适应度值越大,当然这是出于寻找最小特征子集的考虑,其影响的强弱,用相关系数δ去控制。

本系统采用的遗传算法的基本步骤如下:

1.设定进化代数g=0,生成包含n个个体的初始化群体P(g);

2.在该群体中对每个个体估值,计算各自适应度f(x);

3.通过如下步骤,生成新的群体P(g+1):

A.根据个体适应度f(x),从P(g)中选择两个个体作为父代;(适应度值越大,选中的机会越大);

参考文献

[1] Richard Blum,开放源码邮件系统安全,人民邮电出版社,2002年11月

[2] 曹麒麟,张千里,垃圾邮件与反垃圾邮件技术,人民邮电出版社, 2003年2月

上一篇:外国教育名著目录下一篇:经典励志故事:一次成功就够了