当前位置: > 硕士毕业论文 > 30000字硕士毕业论文基于特征分析的垃圾邮件检测

30000字硕士毕业论文基于特征分析的垃圾邮件检测

论文类型:硕士毕业论文
论文字数:30000字
论点:垃圾邮件,算法,过滤
论文概述:

本章首先介绍了垃圾邮件过滤系统的研究背景和现实意义,接着概述了垃圾邮件过滤的国内外发展现状,相关学者在该领域的研究工作和成果,最后给出了本文的主要工作和组织结构。1.1研究背

论文正文:

  第一章绪论         本章首先介绍了垃圾邮件过滤系统的研究背景和现实意义,接着概述了垃圾邮件过滤的国内外发展现状,相关学者在该领域的研究工作和成果,最后给出了本文的主要工作和组织结构。1.1研究背景与意义伴随着Internet的普及和发展,电子邮件(E-mail)以其方便快捷、低成本的优点得到了迅速而广泛的应用,并成为人们交流沟通的主要工具之一。然而,电子邮件在给人们带来众多好处的同时,也显现出它的巨大隐患,那就是被别有用心的人利用,生产垃圾邮件(SpamE-mail。垃圾邮件的危害U1主要有:(1)浪费网络资源,影响正常的信息传播。大量的垃圾邮件的存在和传播会占用网络的传输、存储和运算资源,造成邮件服务器拥堵,降低服务器的效率,影响正常的服务。         (2)侵犯个人隐私权和信箱空间。垃圾邮件强制发送邮件到用户邮箱,侵犯个人隐私,同时占用有限的信箱空间,并耗费收件人的时间、精力和金钱。(3)威胁网络安全。带有病毒的垃圾邮件危害更大,它会攻击没有严密防范的系统,造成网络瘫痪。黑客们还会使用他人的服务器转发垃圾邮件,影响被盗用的正常运行。(4)有的垃圾邮件的内容妖言惑众,骗人钱财,传播色情、反动等内容,对现实社会的和谐造成严重损害。(5)影响电子邮件服务商,甚至国家的形象。我国开始被其他国家视为垃圾邮件的温床,许多IP地址有遭受封杀的危险,长期下去可能使我国成为“信息孤岛”。鉴于垃圾邮件的诸多危害,中国互联网协会提出《中国互联网协会反垃圾邮件规范》l21,对垃圾邮件的定义如下:(一)收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;(二)收件人无法拒收的电子邮件;(三)隐藏发件人身份、地址、标题等信息的电子邮件;(四)含有虚假的信息源、发件人、路由等信息的电子邮件。然而,迄今为_!L,垃圾邮件在国际上并没有一个准确的定义,这是因为垃圾邮件的判定是因人而异的。比如,大学生一般会认为学术杂志征文邮件是很有用处,而药品宣传广告邮件是垃圾邮件;但药品营销人员会对药品宣传广告邮件感兴趣,而判定学术杂志广告是垃圾邮件。因此,垃圾邮件的一个重要特性就是因人而异,不同用户对同一封邮件的判断结果可能是截然相反的目前反垃圾邮件的手段主要是通过识别邮件文字中的关键字的方式来判断是否存在垃圾信息,其本质就是一种文本分类器。        这种垃圾邮件过滤器对文本型垃圾邮件的过滤效果是令人满意的,然而当垃圾邮件制造者们将文本信息以图片的形式传播的时候,它就无能为力了。这种图片型垃圾邮件是目前垃圾邮件的发展的趋势[[4]0在2006年底,图片型垃圾邮件己经占所有垃圾邮件的65,而这一数字在2006年初还是30,这种邮件已经成为当前最难过滤的垃圾邮件[[51。如图1.1是一封推销药品的垃圾邮件,制造者将文本信息嵌入到图片中以逃过文本过滤器的识别和过滤。 参考文献[]垃圾f}[3件对我国的六大危害.中国互联网协会反垃圾邮件规范.[3]  J. Chen, L. Zhang, Y. Lu. Application of Scale Invariant Feature Transform to Image SpamFilter, 2008 Second International Conference on Future Generation CoNetworking Symposia, 2008, pp. 55-58.[4]   Y. Gao, M. Yang, X. Zhao, B. Pardo, Y. Wu, T. N. Pappas, A. Choudhary. Image Spam Hunter,IEEE International Conference on Acoustics, Speech, and Signal Processing, pp. 1765一1768,2008.图片垃圾邮件:2006年垃圾邮件泛滥.   H. B. Aradhye, G. K. Myers, and J. A. Herson. Image Analysis for Efficient Categorization ofImage-based Spam E-mail, Eighth International Conference on Document Analysis and电子邮件.电子邮件.   IntranetlInternet平台中的电子邮件体系结构.电子邮件原理. J. B. Postel. Simple Mail Transfer Protocol[S]. RFC821.1982-8.[I1] J. Myers. Post office Protocol-Vesion3[S]. RFC1725. 1994-11. M. CrisPin. Internet MessageAccess Protocol-Version4 revl[S]. RFC2060. 1996-12.(13] 反垃圾邮件技术重点过滤技术介绍.邮件过滤技术介绍.h垃圾III[j件过滤技术研究综述. 摘要 7-8 ABSTRACT 8 第一章 绪论 11-16     1.1 研究背景与意义 11-13     1.2 研究内容及研究目标 13-14     1.3 本文组织结构 14-16 第二章 垃圾邮件过滤研究现状 16-27     2.1 电子邮件系统结构 16-19         2.1.1 电子邮件的概念 16         2.1.2 电子邮件的地址和邮件结构 16-17         2.1.3 电子邮件系统的实现原理 17-19     2.2 邮件传输协议 19-21     2.3 垃圾邮件过滤技术 21-26         2.3.1 三类过滤方式 21-23         2.3.2 黑/白名单过滤 23-24         2.3.3 基于统计内容的过滤技术 24         2.3.4 光学识别技术 24-25         2.3.5 本文的解决方案 25-26     2.4 本章小结 26-27 第三章 图像匹配算法 27-41     3.1 SIFT算法解决图像匹配问题 27-33         3.1.1 多尺度方法表示图像 27-28         3.1.2 得到SIFT特征的方法 28-32         3.1.3 特征向量匹配 32-33         3.1.4 SIFT算法的效率问题 33     3.2 基于DoG算子与几何变换的图像匹配算法 33-40         3.2.1 图像的特征点提取 33-35         3.2.2 图像特征点匹配 35-40     3.3 本章小结 40-41 第四章 使用Mean Shift算法截取垃圾图片特征区域 41-53     4.1 Mean Shift算法简介 41     4.2 Mean Shift过程 41-46         4.2.1 密度梯度估计 43-45         4.2.2 收敛的充分条件 45-46     4.3 在对垃圾图片截图时使用Mean Shift算法 46-52         4.3.1 将Mean Shift算法用于图像截图 46-48         4.3.2 我们所采用的Mean Shift算法的描述 48         4.3.3 实际中遇到的问题以及解决方法 48-50         4.3.4 使用Mean Shift算法截取特征区域的实验结果 50-52     4.4 本章小结 52-53 第五章 系统实现及实验 53-58     5.1 算法流程图 53-54     5.2 实验环境 54     5.3 实验样本 54     5.4 图像检索的性能指标和评价准则 54-55     5.5 实验结果 55-57         5.5.1 本文算法与SIFT算法运算时间的比较 55-56         5.5.2 本文算法与文献的工作中采用的方法的比较 56-57     5.6 实验分析 57     5.7 本章小结 57-58 第六章 总结与展望 58-60     6.1 本文工作总结 58     6.2 后续工作及展望 58-60 参考文献 60-63