In weekend am facut o serie de teste legate de analiza de content si de modul in care aceasta influenteaza livrarea emailurilor. Deci, am luat un filtru anti spam care foloseste analiza Bayesiana pentru analiza de content. L-am setat insa sa nu invete din mesajele primite. L-am instalat peste 6 conturi de email.
Am setat severitatea filtrarii ca medie (normala), aceasta inseamna ca va marca un email ca spam daca este 60% sigur ca acel email este spam. Apoi am folosit logurile generate de filtru anti spam pentru a analiza rezultatele.
Perioada de analiza a fost sambata – luni (11 august). Luni dupa amiaza am hotarat sa-l dezistalez pentru ca imi marca ca spam f multe emailuri valide. La sfarsitul perioadei de analiza, asa cum se poate observa in loguri, dintr-un toatal de 143 de emailuri: 73 de emailuri au fost marcate ca spam si 70 de emailuri au fost validate ca fiind ok.
vezi toate logurile
Am validat insa manual fiecare email din punctul de vedere al legitimitatii. Emailurile situate peste linie au fost marcate ca spam (am pus in dreptul fiecarui email valid marcat GRESIT ca spam FP – Fals Positive), iar rezultatul este:
– 17 spam-uri au fost blocate corect, insa in acelasi timp au 56 de emailuri bune au fost marcate ca spam (in printscreen le-am marcat cu FP de la false positive)
– 17 spam-uri au fost validate ca fiind bune, odata cu alte 53 de emailuri care chiar sunt valide.
Analiza procentuala ne arata ca doar 23,29% (17/73*100) dintre emailurile blocate au fost spam-uri (blocate corect) in timp ce 24,28% (17/70*100)dintre emailurile care au fost livrate in inbx au fost spam.
Apoi 76,71% (56/73*100) dintre emailurile valide au fost blocate in mod eronat in timp ce procentul emailurilor corect livrate in inbox este de75,71% (53/70*100).
In plus si poate cel mai important 51,37% dintre cele 109 emailuri valide (53+56) au fost considerate ca fiind spam
De ce am pornit cu aceasta analiza? Pentru ca in urma discutiilor cu mai multi admini de ISP-uri locale am auzit “avem mai multe filtre” sau “filtrele de content sunt ultimele”. Adica analiza de content este tratata de multi ca un aspect separat si tratata separat, ceea ce de cele mai multe ori se poate dovedi a fi o mare greseala. Andrei mentiona aici cate ceva despre cum evolueaza tehnologia pe partea asta.
De exemplu spam-urile care au la from CNN Alert (de care vorbea andrei aici), au un procent foarte bun in ceea ce priveste contentul, insa au o reputatie f proasta, IP-urile de unde sunt trimise fiind listate de Spamcop. Ok, intr-adevar intr-o structura de filtre pe layere nu ar fi trecut de filtrul de reputatie insa aceasta nu ar modifica procentul de 51,37% emailuri valide blocate.
PS. Pentru a nu face anumite adrese de email private publice am mascate cu rosu unele adrese, de asemenea din motive de confidentialitate am blurat si subiectele emailurilor.