Mit kell tudni a Bayesian Spam Filteringről?

by Heinz Tschabitscher

Tudja meg, hogy a statisztikák hogyan segítik a beérkező levelek tisztántartását

A bayes-i spamszűrők kiszámítják annak a valószínűségét, hogy egy üzenet spam-e a tartalom alapján. Az egyszerű tartalomalapú szűrőktől eltérően a Bayes levélszemétszűrés megtanulja a levélszemét és a jó levelek használatát, így egy nagyon robusztus, alkalmazkodó és hatékony levélszemét-ellenes megközelítést eredményez, amely legfőképpen alig támaszkodik hamis várakozásokra.

Hogyan ismeri fel a levélszemét?

Gondolj arra, hogy hogyan észleli a levélszemetet . Gyors pillantás elég gyakran. Tudod, hogy néz ki a levélszemét, és tudod, hogy milyen jó levél néz ki.

Az a valószínűség, hogy a levélszemét úgy néz ki, mint a jó levél, körülbelül ... nulla.

A tartalomalapú szűrők pontozása nem igazodik

Nem lenne jó, ha az automatikus spamszűrők is így működtek?

A tartalomalapú spamszűrők pontozása megpróbálja ezt. Szavakat és egyéb jellegzetességeket keresnek a spamre. Minden jellemző elemhez egy pontszámot rendelünk, és az egész üzenetre egy spam pontszámot számolunk ki az egyes pontszámokból. Néhány pontozó szűrő a legitim levél jellemzőit is megvizsgálja, csökkentve az üzenet végső pontszámát.

A pontozási szűrők megközelítése működik, de számos hátránya is van:

A jellemzők listája a szűrő mérnökei által elérhető spamből (és jó levelezésből) épül fel. Ahhoz, hogy jól megértsük a tipikus spameket, bárki megkapja, a mailt több száz e-mail címen kell gyűjteni. Ez gyengíti a szűrők hatékonyságát, különösen azért, mert a jó levelek jellemzői különbözőek lesznek minden személy számára , de ezt nem veszik figyelembe.
A keresendő jellemzők többé-kevésbé kőbe vannak állítva . Ha a spammerek erőfeszítik az alkalmazkodást (és a levélszemét úgy néz ki, mint a jó levél a szűrőkre), a szűrési jellemzőket manuálisan kell csípnie - még nagyobb erőfeszítés.
Az egyes szavakhoz rendelt pontszám valószínűleg jó becslésen alapul, de még mindig önkényes. És mint a jellemzők listája, nem alkalmazkodik sem a spam változó világához, sem az egyéni felhasználók igényeihez.

Bayes-i spamszűrők önmagukban alkalmazzák, egyre jobbak és jobbak

A bayeszi spam szűrők egyfajta pontozó tartalomalapú szűrők is. A megközelítés azonban elhárítja a spamszűrők egyszerű értékelésével kapcsolatos problémákat, és ez radikálisan meg is történik. Mivel a pontozó szűrők gyengesége a jellemzők és azok pontszámainak kézzel készített listája, ez a lista megszűnik.

Ehelyett a bayeszi spamszűrők maguk készítik el a listát. Ideális esetben egy (nagy) csomó e-mailt kezdesz, amelyet spamnek minősítettek, és egy újabb csomó jó levelezést. A szűrők mindkettőt megvizsgálják, és elemzik a törvényes leveleket és a levélszemetet, hogy kiszámolják a különféle jellemzők valószínűségét spamben és jó mailben.

Hogyan értelmezi az e-mailt egy Bayes-i spamszűrő?

A Bayes levélszemétszűrő jellemzői a következők lehetnek:

az üzenet szövege, természetesen, és
annak fejléceit (például küldőket és üzenetet , például!), hanem az is
más szempontok, például a HTML / CSS kód (például a színek és egyéb formázás), vagy akár
szópárok, kifejezések és
meta információ (ahol például egy adott kifejezés jelenik meg).

Ha egy szó, például a "Descartes" például soha nem jelenik meg a spamben, de gyakran a legitim e-mailben, akkor a valószínűsége, hogy a "Descartes" spamre utal, közel nulla. A "toner" viszont kizárólag és gyakran spamként jelenik meg. A "toner" nagyon nagy valószínűséggel található a levélszemétben, nem sokkal 1 alatt (100%).

Amikor új üzenet érkezik, a Bayes levélszemétszűrő elemzi, és a teljes üzenet valószínűsége a kiszámítása az egyedi jellemzők alapján történik.

Tegyük fel, hogy az üzenet "Descartes" és "toner" -t is tartalmaz. Ezekből a szavakból még nem tisztázott, hogy van-e spam vagy legitim mail. Más jellemzők (remélhetőleg és valószínűleg) jelzik azt a valószínűséget, amely lehetővé teszi, hogy a szűrő az üzeneteket spam vagy jó levélként osztályozza.

A Bayes Spam szűrők automatikusan megtanulják

Most, hogy van besorolási osztályunk, az üzenet a szűrő továbbfejlesztésére használható. Ebben az esetben a jó levelezést jelző "Descartes" valószínűsége csökken (ha a "Cartesian" és a "toner" tartalmú üzenet spam), vagy a "toner" valószínűségét újra kell vizsgálni.

Ezt az auto-adaptív technikát alkalmazva a Bayesian szűrők mind saját, mind a felhasználó döntéseit megtanulják (ha kézzel korrigálja a szűrők hibás értelmezését). A Bayes-szűrés alkalmazkodóképessége szintén biztosítja, hogy a leghatékonyabbak az egyes e-mail felhasználók számára. Bár a legtöbb ember levélszemétje hasonló tulajdonságokkal bír, a legitim levél jellegét tekintve mindenki más.

Hogyan tudnak spammerek elfogyasztani a Bayes-szűrőket?

A legitim levél jellemzői ugyanolyan fontosak a Bayes levélszemétszűréshez, mint a spam. Ha a szűrőket minden felhasználó számára kifejezetten kiképzik, akkor a spammerek még nehezebben fognak dolgozni mindenki (vagy akár a legtöbb ember) spamszűrőjén, és a szűrők szinte mindent tudnak alkalmazkodni a spamszal.

A spammerek csak jól átgondolt Bayes-szűrőket tudnak eljuttatni, ha spam üzenetük tökéletesen hasonlít a hagyományos e-mailre, amelyet mindenki kaphat.

A spammerek általában nem küldnek ilyen egyszerű e-maileket. Tegyük fel, hogy ez azért van, mert ezek az e-mailek nem junk e-mailként működnek. Szóval, valószínű, hogy nem fogják ezt csinálni, ha a szokásos, unalmas e-mailek az egyetlen módja annak, hogy a spamszűrőket megelőzzék.

Ha a spammerek általában túlnyomórészt hagyományos e-mailekre váltanak, az Inboxok sok spamjét láthatjuk újra, és az e-mailek olyan bosszantóak lehetnek, mint a Bayes-kor előtti napokban (vagy még rosszabb). Az is elrontja a piacon a legtöbb spamtípust, és így nem tart sokáig.

Erős jelzők lehetnek Bayes-i spamszűrők Achilles & # 39; Sarok

Egy kivételt észlelhetünk a spammerek számára, hogy a szokásos tartalmukon keresztül is dolgozzanak a Bayes-szűrőkön. A Bayes-statisztikák természetéből adódóan egy olyan szó vagy jellemző, amely nagyon gyakran megjelenik a jó levelekben, annyira jelentős lehet, hogy az üzeneteket levélszemétként nézzük, és a szűrőt a szűrőként értékeljük.

Ha a spamküldők megtalálják a módját, hogy meghatározzák a biztos tűzzel kapcsolatos jó szócikkeket - a HTML visszaadott beérkezések használatával megnézheti, hogy mely üzeneteket nyitott meg - pl. Egy levélszemétbe ágyazhatja az egyiket, képzett Bayes-i szűrő.

John Graham-Cumming megpróbálta ezt, ha két Bayes-szűrőt működtet egymás ellen, a "rossz", amely alkalmazkodik ahhoz, hogy milyen üzeneteket találjanak át a "jó" szűrőn. Azt mondja, hogy működik, bár a folyamat időigényes és összetett. Nem hisszük, hogy sok mindent láthatunk, legalábbis nem nagy léptékben, és nem az egyének e-mail jellegzetességeinek megfelelően. A spammerek (megpróbálhatják) kitalálni néhány kulcsszót a szervezetek számára (például "Almaden" néha az IBM számára?).

Általában a levélszemét mindig (szignifikánsan) eltér a rendszeres levelezéstől, vagy nem lesz spam.

Az alsó sor: a bayeszi szűrés erőssége lehet gyengesége

A Bayes levelezőszűrők olyan tartalomalapú szűrők, amelyek:

kifejezetten arra van kiképezve, hogy felismerje az egyéni e-mail felhasználó spamét és jó levelét , ami rendkívül hatékony és nehezen alkalmazkodik a spammerekhez.
folyamatosan és sok erőfeszítés nélkül vagy kézi elemzéssel alkalmazkodik a spammerek legújabb trükkökhez.
vegye figyelembe az egyéni felhasználó jó levelét, és nagyon alacsony a hamis pozitívumok aránya .
Sajnos, ha ez a vak bizalmat a bayeszi levélszemétszűrőkben okozza, az alkalmi hibát még súlyosabbá teszi . A hamis negatívok ellentétes hatása (a levélszemét, amely pontosan úgy néz ki, mint a rendszeres levelezés), potenciálisan zavarhatja és megzavarhatja a felhasználókat.