DataPDF Available
Filtrimi i emailave spam përmes algoritmit Naive Bayes
RAMADAN DERVISHI1
BLERIM REXHA2
VEHBI NEZIRI2
1Fakulteti i Shkencave Kompjuterike, Kolegji Riinvest
2Fakultet i Inxhinierisë Elektrike dhe Kompjuterike, Universiteti i Prishtinës
Prishtinë, Republika e Kosovës
dervishi@gmail.com blerim.rexha@uni-pr.edu vehbi.neziri@uni-pr.edu
Përmbledhje
Shërbimi i e-mailit ka ndikuar lehtësimin e komunikimit përditshëm, por edhe ka
sjellë vështirësi ndërlidhen me menaxhimin e emailave padëshiruar njohur si
spam e të cilët dita më ditë janë duke u rritur. Shumica e teknikavecilat sot përdoren
për filtrimin e emailave padëshiruar nuk janë efikase për arsye natyrës emailit.
Nuk ekziston ndonjë algoritëm i veçantë i cili mund përcaktojë qind për qind se një
email është spam ose jospam. Prandaj punimi ka për qëllim trajtimin e disa metoda
filtrimit për të dalluar emailat spam duke u fokusuar në aplikimin e rregullave Bayesiane
njohura edhe si metoda e filtrimit Bayesian, cilat bazohen probabilitetin e
ngjarjeve duke bërë algoritmi mësojë vetveten. Po ashtu tregohet pse kjo metodë
është mënyra e mirë për të trajtuar emailat spam. Njëkohësisht jepen edhe matjet të cilat
janë realizuar duke shfrytëzuar softuerin SpamBulli v4.0.0.77 përmes të cilit janë nxjerrë
statistikat dhe raporti i emailave jospam kundrejt atyre spam si dhe burimi prej nga janë
dërguar.
Fjalë çelës: filtrim, spam, e-mail, Naive Bayes, padëshiruar, algoritëm.
Key words: filter, spam, e-mail, Naive Bayes, unwanted, algorithm.
Hyrje
Me rritjen e komunikimit njerëzve përmes e-mailave, një pjesë e kohës humbet duke bërë
përzgjedhjen e emailaveme të vërtetë janë emaila nga njerëzit me të cilët komunikojmë dhe
janë emaila rëndësishëm për ne dhe emailave vijnë prej adresave panjohura dhe me
përmbajtje e cila nuk na kontribuon në punën e përditshme dhe nuk janë fare të rëndësishëm për
ne. Në një raport që është publikuar në www.postini.com në maj 2006 është shkruar që aktiviteti i
spam-ave është rritur për 65% prej janarit 2002 dhe se mbi 80% e transportit të e-mailave është
spam [4]. Kjo rritje shkakton mbingarkesë të bandwidth-it, zënë hapësirë në server dhe gjithashtu
humb edhe produktivitetin e shfrytëzuesit (kur bëhet fjalë për punëtoret në ndonjë kompani). Në
një statistike (marre ne: http://en.wikipedia.org/wiki/E-mail_spam#Statistics_and_estimates),
jepen shifrat e rritjes se spam emailave nëpër vite ndryshme, ku në shkurt vitit 2007 kemi
rreth 90 miliardë spam emaila ditë. Rrezik tjetër vlen përmendet është edhe se përmes
emailave spam, fëmijëve mund tu ekspozohet përmbajtje e papërshtatshme. (siç janë: përmbajtje
te dhunës, pornografike etj.) [5] Bazuar në këto fakte është më se e rëndësishme që të gjendet një
zgjidhje për eliminimin e këtyre emailave apo se paku që të mund ti klasifikojmë sa më saktë se
cili prej tyre është vërtetë email na nevojitet e cili është spam. Mirëpo edhe duke
përdorur metodat për klasifikim ekziston rreziku i klasifikimit të ndonjë emaili si spam, që në të
vërtetë ai email mund të jetë më rendësi për ne.
Metodat e filtrimit Spam
SPAM është keqpërdorimi i sistemeve elektronike për dërgim mesazheve janë
padëshirueshëm, ndërsa forma më e njohur si spam është emaili spam. Ky term përdoret edhe në
keqpërdorime tjera ngjashme siç janë: instant messaging spam, Web search engine spam,
spam in blogs, mobile phone messaging spam, internet forum spam, junk fax transmissions etj.
Për mbrojtjen apo më mirë të thuhet për detektimin dhe klasifikimin e këtyre mesazheve përdoren
metoda apo filtra të ndryshëm, ku disa prej tyre paraqiten në vijim.
Filtrat e bazuar në lista
Filtrat e bazuar lista tentojnë ndalin spam-et duke kategorizuarrguesit si spamer apo
shfrytëzues besueshëm dhe duke i bllokuar apo lejuar mesazhet e tyre. [2] bazë
kerkimeve është tentuar mesazhet spam ndalen nivelin e rrjetit. Psh. Disa serverë i
bllokojnë mesazhet spam duke u bazuar në lista[8].
Disa prej filtrave që bazohen në lista janë: Blacklist, Real-Time Blackhole List,Whitelist etj.
BlackList
Kjo metodë e filtrimit spam tenton që të ndalojë emailat e padëshiruar duke bllokuar mesazhet që
vijnë prej listës dërguesve është krijuar nga vetë shfrytëzuesi, apo nëse është fjala për
organizatë, nga administratori i sistemit në atë organizatë.
BlackList-at janë radhë (rreshta) adresave emailave apo adresave IP kanë dërguar
ndonjëherë spam. Në momentin që vjen një mesazh i ri filteri spam kontrollon për IP apo adresën
e dërguesit në BlackList, nëse është atëherë konsiderohet si spam [2], në të kundërtën lejohen si
email i lejueshëm.
Përparësi e kësaj metode është se nëse mesazhet vijnë prej adresave që i kemi në listë atëherë nuk
ka nevojë kontrollohet përmbajtja e mesazhit sepse direkt mund klasifikohet si spam,
ndërsa si dobësi e kësaj metode është se për mesazhet cilat vërtetë janë spam, mirëpo
adresa e dërguesit të tyre nuk është në listën e ndalesës, atëherë ai mesazh klasifikohet si jospam,
tjetër dobësi e kësaj metode është se lista duhet gjithmonëpërditësohet për shfrytëzuesit nga
administratori.
Real-Time Blackhole List
Edhe kjo metodë është pothuajse e ngjashme me metodën e mëhershme por kjo kërkon me pak
mirëmbajtje. Kjo është për shkak se shumica e Real Time Blackhole list mirëmbahen prej një
“pale të trete”, që merr përsipër krijimin e blacklistes gjithëpërfshirëse në të cilën mund të lidhen
gjithë klientët. Filtri mund lidhet sistemin e “palës tretë” çdo moment vjen
ndonjë email i ri dhe mund ta krahason adresën e dërguesit me listën në blacklist.
Ekzistojnë edhe ueb faqe net të cilat mund të kontrollohet për ndonjë adresë të IP se a është në
blocklist apo jo. Një ndër to është edhe http://cbl.abuseat.org .
Whitelist
Metoda Whitelist funksionon si opozitë e Blacklist, ku ne ketë metodë krijohet lista e adresave
rguesve lejohen dërgojnë emaila, adresat vendosen në listën e shfrytëzuesve
besueshëm.[2] Përdorimi i kësaj metode nuk është shumë i favorshëm pasi që mund bllokojë
edhe ndonjë mesazh i cili dërgohet nga ndonjë dërgues i cili nuk është në whitelist.
Disa aplikacione anti-spam përdorin disa metoda të ndryshme të njohura si whitelist automatike.
këtë sistem ndonjë adresë e panjohur e dërguesit kontrollohet në bazë e të dhënave dhe nëse
nuk ka histori të spam-it atëherë dërgohet në inbox të pranuesit.[2]
Përparësi e kësaj metode është se definitivisht i ndalon mesazhet nga dërguesit nuk janë
whitelist, mirëpo kjo metode ekziston niveli i rrezikut se nëse dërgohet ndonjë mesazh nga
ndonjë dërgues i ri e që mesazhi mund të jetë i një rëndësie të lartë atëherë rreziku është në atë qe
mund ta humbim mesazhin për shkak se adresa e dërguesit nuk është ne liste.
Përveç metodave te cilat për klasifikim te mesazheve përdorin adresat e dërguesve ekziston edhe
metoda te cilat për klasifikim përdorin apo bazohen përmbajtjen e mesazhit. Disa prej
metodave që përdorin përmbajtjen e mesazhit për klasifikim janë:
- Filtrat e bazuar në fjalë
- Filtrat Heuristik
- Filtrat Bayesian etj.
Filtrat e bazuar në fjalë
Filtrat e bazuar fjalë janë filtrat thjeshtë tipin e filtrave bazuar fjalë.[2]
përgjithësi filtrat e bazuar fjalë thjeshtë bllokojnë mesazhet përmbajnë ndonjë term
caktuar. [2]
Filteret Bayesian
Filtri spam ndryshon prej filtrave të tjerë në atë se nuk është përmbajtja e tera ajo që përcakton se
një mesazh është spam apo jo, po janë faktet ato që e përcaktojnë mesazhin si spam.[5]
Filtrat që përdorin metodën Naive Bayes konsiderohen si filtrat më të mirë. Kjo është për shkak
thjeshtësisë se tyre e cila i bën lehtë implementohen, kompleksiteti i kalkulimit është
linear dhe saktësia e tyre është mjaft e madhe[3], karakteristika këto që e bëjnë këtë filtër efektiv.
Filtrat Bayesian funksionojnë në atë mënyrë që gjejnë gjasën e paraqitjes se një fjale adekuate në
mesazhin spam apo jospam. Matematikisht kjo mund të paraqitet me formulën
P(Y=yi|X=xk)=
===
===
jjjk
iik
yYPyYxXP
yYPyYxXP
)()|(
)()|(
[1]
X- është vektor, anëtaret e të cilit përmbajnë vlera 0 ose 1, X=( x1, x2, x3,..., xn)
Y- përmban vlera 0 ose 1.
Për përdorimin e këtyre filtrave duhetse pari të bëjmë trajnimin e tyre, në mënyrë që të jenë
efektiv. Pastaj duke përdorur rezultatet e trajnimit dhe duke përdorur rregullat e Bayesit
mund të përcaktojmë P(Y|X=xk) për ndonjë rast të ri. [1]
Nëse shprehja e mësipërme interpretohet me gjuhë më të thjeshtë, atëherë do te ishte kështu:
P(Y=yi|X=xk)- paraqet gjasën që fjala xk gjendet në spam ose jospam.
Duhet pasur parasysh se sa shumë emaila merren për trajnim, atëherë do kemi një
saktësi më të madhe te këtij filtri. Kujdes veçantë duhetkemi edheatë se filtrimi spam
nuk është vetëm klasifikim i tekstit, sepse klasifikimi i një emaili si spam vërtetë nuk
është spam është me keq se sa klasifikimi i një emaili si jospam e në të vërtetë është spam[6]. Kjo
qëndron ne faktin se nëse e bëjmë një klasifikim tillë (klasifikimi i emailit jospam si spam)
atëherë mund të humbim ndonjë informatë që do të ketë rendësi të veçantë në kohen e caktuar. Si
p.sh. humbja e ndonjë oferte me çmime të lira, humbja e ndonjë takimi etj.
Filtrat nuk mund të jenë të saktë 100%, pasi që edhe “spameret1” punojnë çdo ditë e më shumë që
mesazhet e dërguara nga ata t’i tejkalojnë filtrat, duke ndryshuar fjalët apo duke i shkruar
formë jo të rregullt gjuhësore në mënyrë që filtrat të mos i njohin ato fjalë.[6]
Nga shumica e emaileve spam që shpërndahen, dy lloje janë që dominojnë më shumë, ku
në shumicën e rasteve kemi kur një person i gjinisë femërore bën ftesë që të komunikojë përmes
chat-eve të ndryshme dhe për ta parë profilin e tyre ndonjë webfaqetakimeve, ku ketë
rast përdoret fjalor i njëjtë në mesazhe sikurse në mesazhe të rregullta [6], dhe lloj tjetër është kur
ndonjë kompani nga ndonjë shtet i caktuar ofron kontrata për shërbime te programimit[7],
gjithashtu edhe ky lloj përdoret fjalor i njëjtë sikurse mesazhet normale. Tentimi i parë i
përdorimit të algoritmeve vetëmesuese në gjeneratën e parë të filtereve spam është raportuar prej
Sahami ne vitin 1998.[7]
Rezultate nga eksperimentet
Nga disa eksperimente kam bërë me një softuer i quajtur SpamBully me mbi 4000 emaila
spam dhe jospam, në bazë të statistikave që ka nxjerrë ky softuer shumica e emailave burimin e
dërgimit e kanë pasur nga Rusia, Polonia, Bullgaria,Spanja etj.
tabelat e mëposhtme janë ta paraqitura rezultatet e bëra nga disa testime me softuerin
SpamBully V 4.0.0.77. Për mësim algoritmit janë përdorur 1183 emaila jospam dhe 3581
emaila spam. Testimi është berë me 148 emaila ku prej tyre 26 janë përzgjedhur si spam, ndërsa
të tjerët janë përzgjedhur si emaila jospam. Tabela dhe grafiku i mëposhtëm paraqesin rezultatet:
Saktësia
False Positives 17
False negatives 1
Saktësia 87.84%
Përfundim
këtë punim kam paraqitur disa prej metodave përdoren për identifikimin dhe filtrimin e
mesazheve spam. Mesazhet spam çdo ditë e shumë janë duke e rritur aktivitetin e tyre, e
shpërndarja e këtyre mesazheve kohëve fundit po ndodhë jo vetëm E-mail-a por edhe
SMS. Filtrimi i këtyre mesazheve paraqet një rëndësi të veçantë dhe do të ndihmonte shumë
punën e përditshme njerëzve shumicën e komunikimit tyre e bëjnë përmes e-mail-ve.
Saktësia e metodave të përmendura në këtë punim varet prej llojit të mesazhit. Kur është fjala për
metodat e bazuara në lista mund të themi se të gjithë mesazhet që vijnë nga adresa e cila është
listë të zezë, filtrohen me sukses, mirëpo spam mesazhet nuk vijnë gjithmonë nga adresat e njëjta.
Ndërsa të metodat që bazohen në fjale siç është Naive Bayes, janë metoda që janë treguar mjaft
efikase në filtrimmesazheve, mirëpokëto metoda ekziston rreziku i filtrimitmesazheve
jospam si spam dhe mesazheve spam si jospam, ku filtrimi i parë (filtrimi jospam si spam)
paraqet një rrezik të madh kur është fjala për emailabazë të të cilëve duhet të merret ndonjë
veprim apo vendim i caktuar në kohë të caktuar.
Prandaj duke u bazuar fakteti përmenda më lartë si detyrë mjaft e rëndësishme dhe jo e
lehtë mbetet të dizajnohet ndonjë algoritëm ku saktësia e tij në filtrimin e mesazheve, do
jetë e kënaqshme për shfrytëzues.
Literatura:
[1] Machine Learning Tom Mitchel, McGraw Hill.s,[Chapter 1]
http://www.techsoup.org/learningcenter/internet/page6028.cfm
[2] Ten Spam Filtering Methods Explained
Learn how different spam-fighting techniques work By: Brian Satterfield November 30, 2006
http://www.ceas.cc
[3] Spam Filtering with Naive Bayes – Which Naive Bayes?
Vangelis Metsis †
Institute of Informatics
and
Telecommunications,
N.C.S.R. “Demokritos”,
Athens, Greece
Ion Androutsopoulos
Department of
Informatics,
Athens University of
Economics and Business,
Athens, Greece
Georgios Paliouras
Institute of Informatics
and
Telecommunications,
N.C.S.R. “Demokritos”,
Athens, Greece
[4] The Effects of AntiSpam Methods on Spam Mail
Eran Reshef
Blue Security Inc
Eilon Solan
School of Mathematical Sciences
Tel Aviv University
Tel Aviv, 69978 Israel
eilons@post.tau.ac.il
[5] Naive Bayes Spam Filtering Using Word-Position-Based Attributes
Johan Hovold,Department of Computer Science,Lund University,Box 118, 221 00 Lund, Sweden
johan.hovold.363@student.lu.se
[6] http://paulgraham.com/better.html Better Bayesian Filtering January 2003
[7] Naive Bayes Spam Filtering Using Word-Position-Based Attributes.
Johan Hovold, Department of Computer Science, Lund University,Box 118, 221 00
Lund, Sweden,johan.hovold.363@student.lu.se
[8] Parameterization of Na¨ıve Bayes for Spam Filtering, Trevor Stone,Department
of Computer Science, University of Colorado at Boulder.

File (1)

ResearchGate has not been able to resolve any citations for this publication.
ResearchGate has not been able to resolve any references for this publication.