Plug-in per il software anti-spam Spamassassin
Bayes OCR Plug-in si propone come uno strumento di analisi per contenuto delle immagini allegate alle e-mail. In particolare, l'obiettivo è quello di contrastare la tendenza degli spammer a includere messaggi non leciti in immagini modificate ad arte per aggirare le tecniche standard di analisi del contenuto testuale.
Altri plug-in usano l'OCR?
Fra i software di terze parti disponibili per integrare le funzionalità di Spamassassin esistono diversi plug-in che consentono di analizzare i contenuti multimediali delle e-mail per contenuto.
Il più semplice è l'
OCR Plugin che estrae del testo dall'immagine e lo analizza tramite una semplice keyword search. Il plug-in non valuta qualitativamente il testo estratto ma conta nella e-mail quante parole, conosciute come "illecite", compaiono; se tale conteggio supera una certa soglia, per quella data e-mail viene reso un hit.
Il punto debole di questo sistema è che per sua natura lo spam contiene messaggi leggibili dall'uomo ma difficilmente interpretabili in modo automatico, per cui le immagini contenute nella spam sono modificate ad arte per mantenere la leggibilità da parte dell'uomo e contemporaneamente rendere scadenti le prestazioni dell'OCR. Come risultato, il testo estratto dall'OCR contiene molti errori, per cui si rende necessario trattare le parole estratte in modo più complesso.
L'approccio del
Fuzzy OCR Plugin è quello di prendere il testo in uscita da un OCR e, similmente al caso del precedente plug-in, di fare una ricerca di parole illecite. Per superare il punto debole dell'OCR Plug-in le parole vengono considerate illecite non solo se sono comprese fra quelle conosciute come illecite ma anche se ci sono vicine (caso delle parole viagra e vi @gra).
Il concetto di vicinanza è il contributo maggiore di questo plug-in che cerca di migliorare il matching dei termini calcolando la "Levenshtein edit distance", se tale distanza è inferiore ad una certa soglia il sistema considera il termine riconosciuto.
Perché usare Bayes OCR Plug-in?
I due plug-in precedenti eseguono essenzialmente una keyword search sul testo estratto dalle immagini. Tali sistemi non hanno nessuna capacità di generalizzazione e riconoscono solo quei documenti in cui compaiono le parole presenti nella keyword list. Per cui risentono degli stessi problemi che ha la keyword search nel testo dell'e-mail.
Bayes OCR Plug-in cerca di estendere l'analisi Bayesiana, normalmente eseguita sui soli contenuti testuali, anche al testo estratto tramite l'OCR in modo da avere un sistema più flessibile. In particolare, un OCR estrae il testo dall'immagine eventualmente contenuta nella e-mail e lo passa al classificatore bayesiano per essere analizzato in modo analogo a quanto effettuato per il normale contenuto testuale delle e-mail. L'attuale versione di Bayes OCR Plug-in sfrutta per la classificazione lo stesso classificatore Naive Bayes integrato in Spamassassin, e quindi addestrato sul solo contenuto testuale. Questa scelta risulta ragionevole in quanto il contenuto nelle immagini di spam è spesso molto simile al normale contenuto testuale.
I primi test effettuati su un nostro database locale (qualche centinaio di mail), mostrano che Bayes OCR Plug-in può dare un buon contributo alla classificazione della spam contenente immagini. I test hanno mostrato una sensibile diminuzione dei falsi negativi (spam non riconosciuta dall'analisi di spamassassin) mantenendo nulli i falsi positivi (mail legittime classificate come spam).
Volutamente non sono stati riportati risultati numerici dei nostri test sul plug-in sia perché non esiste attualmente un database standard come riferimento per questo tipo di e-mail (mancherebbe un riferimento preciso su cui confrontare le performance) sia perché allo stato attuale delle cose il nostro database non è sufficientemente rappresentativo.
Valutazioni di tipo quantitativo sul metodo implementato in questo plug-in e ulteriori approfondimenti possono essere trovati fra le
pubblicazioni accademiche del gruppo di ricerca PRA in materia di
spam filtering.
Installazione
- Scaricare dal link sulla destra i files BayesOCR_PLG.cf e BayesOCR_PLG.pm
- Copiare i due files nella cartella locale della configurazione di Spamassassin.
- Modificare eventualmente gli score nel file BayesOCR_PLG.cf se lo si ritiene necessario.
- Il plug-in verrà caricato al successivo riavvio di Spamassassin.
|
Download |
Dipendenze
Per usare Bayes OCR Plug-in è sufficiente avere una versione funzionante di Spamassassin e dei software convert (imagemagick), identify (imagemagick) e gocr.
Licenza
Questo software è rilasciato con licenza
Apache Software License (versione 2.0). La distribuzione e la modifica del codice è approvata e incoraggiata.
Disclaimer
Tutte le notifiche riportate nella pagina dei Custom plug-ins di Spamassassin sono valide per questo plug-in. In particolare non sono in alcun modo garantite le prestazioni di questo software né ci assumiamo alcuna responsabilità su effetti eventualmente dannosi derivanti da ogni suo possibile uso.