论文摘要:基于统计模型的垃圾邮件过滤技术研究
电子邮件己经变成人们凡是生存中通讯、交谈的要害本领之一。但电子邮件给用户带来便当的同声,也受到了少许人的乱用,截止即是有洪量的废物邮件充溢Internet,给用户和ISP形成了宏大的丢失。所以,反废物邮件变成Internet暂时亟待处置的题目。暂时常用的反废物邮件本领重要有:鉴于函件源的本领和鉴于实质的本领两类。个中鉴于实质的本领主假如将数据发掘和呆板进修的表面引入到废物邮件实质过滤中来,又可分为鉴于准则和鉴于统计两类。在稠密鉴于统计的本领中,俭朴贝叶斯(Naïve Bayes,NB)是一种大略的呆板进修本领,它经过辨别废物邮件(Spam)和平常邮件(Ham)的特性建立统计模子举行自进修。在新邮件到来时,由分门别类器按照演练进修的统计顺序猜测新邮件为废物邮件或平常邮件的大概性,将邮件归入大概性最大的那一类。NB以其演算速率快、容易实行等特性在废物邮件过滤中获得了普遍的运用。NB废物邮件过滤模子(NBF)中的要害题目有:邮件文本的情势化刻画,特性词采用本领,几率计划模子等。正文对准那些题目举行了深刻的接洽,在领会保守本领的普通上,对其举行了灵验的矫正,并做出了少许果敢的试验。正文重要接洽了以次实质:1) 概括了废物邮件过滤题目的接洽近况,囊括废物邮件的设置、妨害、特性领会以及常用的过滤本领;2) 引见并精细领会了通用的邮件语言材料库以及评介体制;3) 精细领会了保守的NBF模子的实行本领及要害题目;4) 将文天职类中常用的特性词本领引入NBF模子中,归纳领会百般本领的特性,经过试验发此刻Ling-Spam语言材料上沿用CHI本领能使NBF过滤功效最优;5) 对准憧憬穿插熵(ECE)特性词采用本领的不及,提出了矫正的憧憬穿插熵(AECE)采用本领;6) 归纳领会了NBF中现有的几率计划模子,经过试验比拟,选定了最优计划模子,在计划模子的最优采用和特性词采用本领优化的普通上,提出了在分门别类时经过特性词加权的本领,普及过滤精度,进而实行了矫正Naïve Bayes的废物邮件过滤模子(A-NBF);7) 归纳领会了保守的鉴于最小危害的Naïve Bayes过滤模子的特性,提出一种新的过滤模子—鉴于曲线好多分隔的贝叶斯邮件过滤模子(LGDNBF),设置了新的危害因子,以越发精确地刻画危害,进而普及了过滤精度。