- Přehledy IS
- APS (20)
- BPM - procesní řízení (22)
- Cloud computing (IaaS) (10)
- Cloud computing (SaaS) (33)
- CRM (51)
- DMS/ECM - správa dokumentů (20)
- EAM (17)
- Ekonomické systémy (68)
- ERP (79)
- HRM (27)
- ITSM (6)
- MES (32)
- Řízení výroby (36)
- WMS (29)
- Dodavatelé IT slueb a řeení
- Datová centra (25)
- Dodavatelé CAD/CAM/PLM/BIM... (39)
- Dodavatelé CRM (33)
- Dodavatelé DW-BI (50)
- Dodavatelé ERP (71)
- Informační bezpečnost (50)
- IT řeení pro logistiku (45)
- IT řeení pro stavebnictví (26)
- Řeení pro veřejný a státní sektor (27)
Hlavní partner sekce
Partneři sekce
Tematické sekce
ERP systémy
CRM systémy
Plánování a řízení výroby
AI a Business Intelligence
DMS/ECM - Správa dokumentů
HRM/HCM - Řízení lidských zdrojů
EAM/CMMS - Správa majetku a údrby
Účetní a ekonomické systémy
ITSM (ITIL) - Řízení IT
Cloud a virtualizace IT
IT Security
Logistika, řízení skladů, WMS
IT právo
GIS - geografické informační systémy
Projektové řízení
Trendy ICT
E-commerce B2B/B2C
CAD/CAM/CAE/PLM/3D tiskBranové sekce
![]() | |
| Přihlaste se k odběru newsletteru SystemNEWS, který kadý týden přináí výběr článků z oblasti podnikové informatiky | |
![]() | |
Partneři webu
IT Security , IT Security
Přehled antispamových technologií
Jaroslav najdr
Spam je největím problémem současné elektronické poty. Není proto divu, e k jeho filtraci a rozpoznávání byla vynalezena celá řada různorodých technologií a metod. Moderní antispamové filtry potom pouívají kombinaci několika vybraných technik, které jejich autoři povaují za účinné. V následujícím textu uvádíme přehled několika základních metod a vysvětlení jejich principu.
Pro publikaci SPF záznamů a pro jejich vyhledávání a přenos po síti se pouívá stávající systém DNS. Není třeba implementovat a nasazovat ádné nové síové protokoly. SPF informace je uloena v TXT záznamu pro doménu. Zde je příklad záznamu pro doménu example.org: example.org. IN TXT "v=spf1 mx ptr -all"
Jednotlivé poloky v SPF záznamu mají následující význam:
Obr. 1: Schéma ověřování odesílatele
Signatura se počítá z těla zprávy a několika vybraných hlaviček. Dojde-li během transportu k pozměnění zprávy, například nějakým antivirem nebo filtrem, signatura samozřejmě nebude souhlasit. To je jeden z nedostatků celého systému. DomainKeys se tomuto problému snaí předcházet tím, e tělo zprávy prochází před podepsáním určitým preprocessingem (např. odstraňují se nadbytečné mezery), a také tím, e signaturu počítá jen z několika zvolených hlaviček.
Na začátek odchozí zprávy je potom přidána speciální hlavička DomainKey-Signature:
DomainKey-Signature: a=rsa-sha1;q=dns;c=nofws;s=beta;d=gmail.com;
h=received:message-id:date:from:reply-to:to:subject:mime-version:content-type;
b=l3iXOK6F...18XpKvPE
V tomto příkladě můeme rozeznat, e zpráva byla odeslána z domény gmail.com, e byl pouit ifrovací algoritmus RSA-SHA1, a vidíme také seznam hlaviček, které byly zahrnuty do signatury (Received, Message-ID, Date, ...) Poloka s=beta je tzv. selektor. Jedna doména můe pouívat více klíčů a selektor říká, který z nich byl pouit k podepsání konkrétní zprávy.
Při doručování zprávy přes dalí servery se přidávají dalí hlavičky, jako například Received, ale takové hlavičky se vdy přidávají na začátek zprávy, tj. před hlavičku DomainKey-Signature. Při ověřování signatury se bere v úvahu jen část zprávy následující po této hlavičce, proto změny zprávy tohoto typu nemají na platnost signatury vliv.
Přijímající potovní server nebo klientský program můe ověřit signaturu tak, e podle hlavičky DomainKeys-Signature zjistí, která doména zprávu odeslala, podle selektoru získá z DNS přísluný veřejný klíč a pomocí něho ověří, zda je signatura platná. Pokud není, můe to znamenat, e zpráva byla odeslána neoprávněným odesílatelem, který zfaloval adresu odesílatele.
Protokol DomainKeys navrhla a prosazuje firma Yahoo!. Pouívá ho při odesílání zpráv hodně e-mailových slueb jednou z prvních byla například sluba GMail firmy Google. Protokoly DomainKeys a SPF se navzájem doplňují a není ádný problém je pouívat současně.
Dotaz do DNS blacklistu funguje následujícím způsobem. Dejme tomu, e chceme ověřit IP adresu 216.239.59.104, zda je na blacklistu provozovaném na adrese bl.spamcop.net. Otočíme tedy pořadí bajtů v hledané IP adrese a připojíme adresu blacklistu: 104.59.239.216.bl.spamcop.net.
Takto vzniklé jméno potom zkusíme najít v DNS (tj. zeptáme se na jeho A záznam). Není-li hledaná IP adresa na blacklistu, odpoví nám DNS server, e hledané jméno v DNS neexistuje. Je-li adresa na blacklistu, vrátí nám DNS kladnou odpověď: jméno existuje a má nějakou IP adresu. Tato IP adresa je podle konvence větinou 127.0.0.x a bývají v ní občas zakódované dodatečné informace. V podstatě ale není důleitá jde hlavně o to, e DNS vrátilo kladnou odpověď.
DNS blacklisty jsou jednou z nejstarích a nejrozířenějích antispamových metod a jsou iroce pouívány. Blacklist lze provozovat na jakémkoliv DNS serveru a lze se do něj dotazovat jakýmkoliv DNS klientem. Fakt, e pouití je velice jednoduché a nevyaduje ádný speciální software, hodně pomáhá rozíření jakéhokoliv protokolu. V podstatě kadý e-mailový server v současné době DNS blacklisty podporuje.
Dejme tomu, e nám přijde zpráva s následujícím odkazem: http://shop.poppedpeanuts.com/buy?ref=1128.
Toto URL chceme ověřit v SURBL blacklistu provozovaném na adrese multi.surbl.org. Postup je následující. Z URL extrahujeme část, kterou lze nejméně často měnit a falovat: jméno domény druhé úrovně, poppedpeanuts.com. Zbytek URL ignorujeme. Ke jménu této domény potom připojíme adresu blacklistu a zeptáme se DNS na doménové jméno poppedpeanuts.com.multi.surbl.org
Je-li tato doména na blacklistu, dostaneme kladnou odpověď, podobně jako u DNSBL.
SURBL je sluba, kterou lze zachytit relativně velké mnoství spamu, její klient je například součástí programu SpamAssassin.
SMTP server s greylistingem si pamatuje následující informace (nazývané také triplet) o kadém příchozím spojení:
Nevýhodou greylistingu je opodění doručování zpráv často a o desítky minut, co nemusí být vdy akceptovatelné. Na druhou stranu, tato metoda je a překvapivě účinná a jednodue implementovatelná. Existuje mnoho open source implementací pro vechny populární MTA a také několik komerčních.
Hlavní metodou, jak obejít tuto techniku, je neposílat stejnou zprávu vícekrát: spameři v kadé rozesílané zprávě provedou nějakou změnu a kadá odesílaná zpráva se trochu lií od ostatních. Autoři systému DCC proto pouívají tzv. fuzzy hash, který ze zprávy získá jen podstatné informace a je odolný vůči malým změnám. Spameři samozřejmě vymýlejí nové techniky, jak tyto algoritmy obejít, vývojáři antispamových technologií zase vylepují své algoritmy a probíhá lítý boj.
DCC klient je součástí populárního antispamového balíku SpamAssassin. Princip DCC pouívají také mnohé komerční antispamové sluby, například Brightmail nebo Postini.
Obr. 2: Zjednoduené schéma fungování bayesiánského filtru
Během učení předkládáme filtru zprávy, o kterých u víme, zda se jedná o spamy, nebo ne. Filtr si tyto zprávy rozdělí na jednotlivá slova (tokeny) a tyto tokeny si ukládá do databáze. Ke kadému tokenu si ukládá informaci o tom, kolikrát se vyskytnul ve spamech a kolikrát v normálních zprávách. Dejme tomu, e jsme bayesiánskému filtru předloili k učení sto zpráv, ve kterých se vyskytuje slovo Viagra. O 99 z nich jsme řekli, e je to spam a jedna zpráva byla normální. Databáze bayesiánského filtru si tuto informaci uloí a ví, e 99 % výskytů slova Viagra se nachází ve spamech. Tokeny nemusí být jen slova lze klasifikovat v podstatě jakoukoliv vlastnost zprávy. Můeme například ověřovat SPF záznamy pro příchozí zprávy a výsledky ověření (SPF:fail, SPF:success, SPF:unknown) pouít jako dalí tokeny při učení a klasifikaci.
Druhá fáze je klasifikace, kdy filtru předkládáme příchozí zprávy a chceme od něj odpověď, zda jsou tyto zprávy spamy. Testovaná zpráva je opět rozdělena na tokeny a z databáze filtru zjistíme spamové pravděpodobnosti jednotlivých tokenů. Známe-li jednotlivé pravděpodobnosti, pomocí metod matematické statistiky můeme vypočítat celkovou pravděpodobnost, e zpráva jako celek je spam. Obor, který se zabývá řeením problémů tohoto typu, se jmenuje bayesiánská statistika odtud pochází také název filtru.
Autoři filtrů se snaí je navrhovat tak, aby se pokud mono co nejvíce sníil počet tzv. false positives. To jsou korektní zprávy, které byly filtrem nesprávně identifikovány jako spam. Pokud se někomu kvůli antispamovému filtru ztratí důleitá zpráva, je to subjektivně vnímáno jako velký problém.
Účinnost bayesiánského filtru závisí na mnoha faktorech. Ze veho nejdůleitějí je kvalita učení, tj. kvalita a velikost korpusu, na kterém byl filtr naučen. Dále záleí na tom, jaký algoritmus je pouit při tokenizaci zpráv, jaká matematická metoda je pouita pro výpočet finální pravděpodobnosti atd. Ve vech těchto oblastech probíhá intenzivní výzkum a stále se objevují nové optimalizace.
Jednou z novinek poslední doby je tzv. bayesiánská redukce umu. Spameři se snaí obejít bayesiánské filtry tím, e náhodně přidávají do textu zprávy různá slova, která mají obvykle nízkou spamovou pravděpodobnost. Tím se snaí ovlivnit celkové skóre zprávy ve svůj prospěch. Byly vyvinuty algoritmy snaící se takový náhodně vloený um, který je mimo kontext zbytku zprávy, detekovat a odstranit. Jde o velmi zajímavé algoritmy, které jsou podobné algoritmům pouívaným například při redukci umu ve fotografiích. Mezi programy, jejich autoři se věnují výzkumu a které pouívají hodně originálních algoritmů, patří například program DSPAM.
Autor článku působí ve společnosti Kerio Technologies.

Ověřování odesílatele
Elektronická pota je jednou z nejstarích slueb na internetu. Standardní protokol pro doručování poty, SMTP (Simple Mail Transfer Protocol), byl poprvé standardizován v srpnu 1982 a od té doby proel jen několika spíe kosmetickými změnami. Mnohé jeho vlastnosti, týkající se zejména bezpečnosti, ji dnes nevyhovují a dohánějí se různými extenzemi. Jednou z takových nevyhovujících vlastností je monost snadno zfalovat adresu odesílatele a nemonost ověření její autentičnosti. Tento nedostatek umoňuje spammerům rozesílat maily, které se tváří, jako by přily například z Microsoftu (a vybízejí ke staení bezpečnostní záplaty, tj. viru), z vaí banky (chtějí po vás zadat heslo) atd. Tato podvodná technika je známá pod názvem phishing. Pro ověření adresy odesílatele existují dvě rozířené technologie: SPF a DomainKeys.SPF: Sender Policy Framework
Protokol SPF poskytuje vlastníkovi domény monost publikovat v systému DNS informaci o tom, které počítače (IP adresy) mají právo odesílat zprávy s kontrolovanou doménou v adrese odesílatele. Můeme tedy například stanovit, e zprávy z domény example.org smějí být odesílány pouze z naí firemní sítě. Protoe spammer nemá do naí sítě přístup, musí své falované zprávy odesílat odjinud. Kontrola SPF záznamu na straně příjemce potom snadno odhalí, e zpráva nebyla odeslána z autorizovaného počítače.Pro publikaci SPF záznamů a pro jejich vyhledávání a přenos po síti se pouívá stávající systém DNS. Není třeba implementovat a nasazovat ádné nové síové protokoly. SPF informace je uloena v TXT záznamu pro doménu. Zde je příklad záznamu pro doménu example.org: example.org. IN TXT "v=spf1 mx ptr -all"
Jednotlivé poloky v SPF záznamu mají následující význam:
- v=spf1 říká, e tento TXT záznam obsahuje SPF informace a specifikuje verzi protokolu,
- mx má-li doména MX záznam, který se resolvuje na IP adresu odesílatele, patří tato IP adresa mezi oprávněné adresy,
- ptr IP adresa odesílatele patří mezi oprávněné adresy, má-li korektní reverzní DNS záznam v kontrolované doméně,
- -all vechny ostatní adresy, na které nezabrala předchozí pravidla, se zamítají. Výsledek SPF kontroly je záporný.
Obr. 1: Schéma ověřování odesílatele
DomainKeys
Dalím protokolem pro autentizaci odesílatele e-mailové zprávy je DomainKeys. Plní podobnou funkci jako SPF, funguje vak jinak pouívá princip elektronického podpisu. Servery, které mají oprávnění odesílat zprávy z dané domény, vytvářejí signaturu pro kadou odchozí zprávu a ukládají ji do speciální hlavičky v odesílané zprávě. Veřejné klíče, kterými lze tyto signatury ověřit, publikuje vlastník domény v systému DNS, podobně jako SPF.Signatura se počítá z těla zprávy a několika vybraných hlaviček. Dojde-li během transportu k pozměnění zprávy, například nějakým antivirem nebo filtrem, signatura samozřejmě nebude souhlasit. To je jeden z nedostatků celého systému. DomainKeys se tomuto problému snaí předcházet tím, e tělo zprávy prochází před podepsáním určitým preprocessingem (např. odstraňují se nadbytečné mezery), a také tím, e signaturu počítá jen z několika zvolených hlaviček.
Na začátek odchozí zprávy je potom přidána speciální hlavička DomainKey-Signature:
DomainKey-Signature: a=rsa-sha1;q=dns;c=nofws;s=beta;d=gmail.com;
h=received:message-id:date:from:reply-to:to:subject:mime-version:content-type;
b=l3iXOK6F...18XpKvPE
V tomto příkladě můeme rozeznat, e zpráva byla odeslána z domény gmail.com, e byl pouit ifrovací algoritmus RSA-SHA1, a vidíme také seznam hlaviček, které byly zahrnuty do signatury (Received, Message-ID, Date, ...) Poloka s=beta je tzv. selektor. Jedna doména můe pouívat více klíčů a selektor říká, který z nich byl pouit k podepsání konkrétní zprávy.
Při doručování zprávy přes dalí servery se přidávají dalí hlavičky, jako například Received, ale takové hlavičky se vdy přidávají na začátek zprávy, tj. před hlavičku DomainKey-Signature. Při ověřování signatury se bere v úvahu jen část zprávy následující po této hlavičce, proto změny zprávy tohoto typu nemají na platnost signatury vliv.
Přijímající potovní server nebo klientský program můe ověřit signaturu tak, e podle hlavičky DomainKeys-Signature zjistí, která doména zprávu odeslala, podle selektoru získá z DNS přísluný veřejný klíč a pomocí něho ověří, zda je signatura platná. Pokud není, můe to znamenat, e zpráva byla odeslána neoprávněným odesílatelem, který zfaloval adresu odesílatele.
Protokol DomainKeys navrhla a prosazuje firma Yahoo!. Pouívá ho při odesílání zpráv hodně e-mailových slueb jednou z prvních byla například sluba GMail firmy Google. Protokoly DomainKeys a SPF se navzájem doplňují a není ádný problém je pouívat současně.
DNSBL
DNSBL neboli DNS-based Blackhole List je metoda, jak pomocí systému DNS publikovat na internetu veřejný seznam IP adres, ve kterém lze snadno vyhledávat pomocí jakéhokoliv DNS klienta. První DNS blacklist vytvořil v roce 1997 Paul Vixie, kdy zaloil slubu MAPS (Mail Abuse Prevention Systems), která publikovala IP adresy SMTP serverů, ze kterých je posílán spam. Spammeři toti často vyhledávají patně nakonfigurované nebo napadené SMTP servery na internetu a ty potom zneuívají k rozesílání svého spamu. Dostane-li se takový server na blacklist, můe ho kadý uivatel blacklistu snadno blokovat a odmítat vekerou potu z něj odeslanou. To jednak omezí mnoství spamu, které od tohoto serveru přijmeme, jednak vyburcuje správce napadeného serveru k rychlé nápravě situace a odstranění z blacklistu, poté co velká část internetu odmítne přijímat potu z jeho serveru.Dotaz do DNS blacklistu funguje následujícím způsobem. Dejme tomu, e chceme ověřit IP adresu 216.239.59.104, zda je na blacklistu provozovaném na adrese bl.spamcop.net. Otočíme tedy pořadí bajtů v hledané IP adrese a připojíme adresu blacklistu: 104.59.239.216.bl.spamcop.net.
Takto vzniklé jméno potom zkusíme najít v DNS (tj. zeptáme se na jeho A záznam). Není-li hledaná IP adresa na blacklistu, odpoví nám DNS server, e hledané jméno v DNS neexistuje. Je-li adresa na blacklistu, vrátí nám DNS kladnou odpověď: jméno existuje a má nějakou IP adresu. Tato IP adresa je podle konvence větinou 127.0.0.x a bývají v ní občas zakódované dodatečné informace. V podstatě ale není důleitá jde hlavně o to, e DNS vrátilo kladnou odpověď.
DNS blacklisty jsou jednou z nejstarích a nejrozířenějích antispamových metod a jsou iroce pouívány. Blacklist lze provozovat na jakémkoliv DNS serveru a lze se do něj dotazovat jakýmkoliv DNS klientem. Fakt, e pouití je velice jednoduché a nevyaduje ádný speciální software, hodně pomáhá rozíření jakéhokoliv protokolu. V podstatě kadý e-mailový server v současné době DNS blacklisty podporuje.
SURBL
Určitě jste si vimli, e součástí skoro kadého spamu je odkaz na nějaký web. Na tomto webu si můete zakoupit nabízený produkt nebo vykonat jinou činnost. Co kdybychom vytvořili databázi spammerských webů a kontrolovali příchozí zprávy, jestli v nich není odkaz na nějakou podezřelou adresu? Kombinací této mylenky a techniky DNS blacklistů vzniká sluba SURBL: Spam URI Realtime Blocklists.Dejme tomu, e nám přijde zpráva s následujícím odkazem: http://shop.poppedpeanuts.com/buy?ref=1128.
Toto URL chceme ověřit v SURBL blacklistu provozovaném na adrese multi.surbl.org. Postup je následující. Z URL extrahujeme část, kterou lze nejméně často měnit a falovat: jméno domény druhé úrovně, poppedpeanuts.com. Zbytek URL ignorujeme. Ke jménu této domény potom připojíme adresu blacklistu a zeptáme se DNS na doménové jméno poppedpeanuts.com.multi.surbl.org
Je-li tato doména na blacklistu, dostaneme kladnou odpověď, podobně jako u DNSBL.
SURBL je sluba, kterou lze zachytit relativně velké mnoství spamu, její klient je například součástí programu SpamAssassin.
Greylisting
Greylisting je jednoduchá ochrana SMTP serveru před spamem vyuívající některé vlastnosti protokolu SMTP. Tento protokol umoňuje přijímajícímu serveru dočasně odmítnout jakoukoliv zprávu. Správně nakonfigurovaný klient se pokusí takto odmítnutou zprávu znovu doručit po uplynutí určitého timeoutu (v řádu desítek minut). Trik je v tom, e spammeři se o opakované doručení téměř nikdy nepokusí, protoe nemají zdroje a čas k tomu, aby si udrovali frontu nedoručených zpráv a snaili se o stoprocentní doručení.SMTP server s greylistingem si pamatuje následující informace (nazývané také triplet) o kadém příchozím spojení:
- IP adresa SMTP klienta,
- adresa odesílatele,
- adresa příjemce.
Nevýhodou greylistingu je opodění doručování zpráv často a o desítky minut, co nemusí být vdy akceptovatelné. Na druhou stranu, tato metoda je a překvapivě účinná a jednodue implementovatelná. Existuje mnoho open source implementací pro vechny populární MTA a také několik komerčních.
Hash-based antispam: DCC
Systém DCC (Distributed Checksum Clearinghouse) je databáze, která ukládá hashe (krátké jedinečné identifikátory vypočítané z obsahu zprávy) nevyádaných zpráv, které byly do systému nahláeny. Uivatel systému DCC potom spočítá hash z kadé přijaté zprávy a pomocí něj se zeptá DCC serveru, zda zná tuto zprávu a jestli se jedná o spam. Mylenka je taková, e kadý spam je rozeslán do internetu v mnoha kopiích a poté, co první příjemce identifikuje zprávu jako spam a pole ji do systému DCC, můou vichni tuto sdílenou informaci vyuít.Hlavní metodou, jak obejít tuto techniku, je neposílat stejnou zprávu vícekrát: spameři v kadé rozesílané zprávě provedou nějakou změnu a kadá odesílaná zpráva se trochu lií od ostatních. Autoři systému DCC proto pouívají tzv. fuzzy hash, který ze zprávy získá jen podstatné informace a je odolný vůči malým změnám. Spameři samozřejmě vymýlejí nové techniky, jak tyto algoritmy obejít, vývojáři antispamových technologií zase vylepují své algoritmy a probíhá lítý boj.
DCC klient je součástí populárního antispamového balíku SpamAssassin. Princip DCC pouívají také mnohé komerční antispamové sluby, například Brightmail nebo Postini.
Obr. 2: Zjednoduené schéma fungování bayesiánského filtru
Bayesiánské filtry
Nejpouívanějí antispamovou metodou jsou v dnení době bayesiánské filtry. Tuto metodu poprvé navrhl v roce 2002 Paul Graham ve svém článku Plan for Spam. Bayesiánský filtr je provádí statistickou analýzu zpráv a snaí se podle obsahu zprávy vypočítat pravděpodobnost toho, e daná zpráva je spam. Práce s bayesiánským filtrem má dvě fáze: učení a klasifikaci.Během učení předkládáme filtru zprávy, o kterých u víme, zda se jedná o spamy, nebo ne. Filtr si tyto zprávy rozdělí na jednotlivá slova (tokeny) a tyto tokeny si ukládá do databáze. Ke kadému tokenu si ukládá informaci o tom, kolikrát se vyskytnul ve spamech a kolikrát v normálních zprávách. Dejme tomu, e jsme bayesiánskému filtru předloili k učení sto zpráv, ve kterých se vyskytuje slovo Viagra. O 99 z nich jsme řekli, e je to spam a jedna zpráva byla normální. Databáze bayesiánského filtru si tuto informaci uloí a ví, e 99 % výskytů slova Viagra se nachází ve spamech. Tokeny nemusí být jen slova lze klasifikovat v podstatě jakoukoliv vlastnost zprávy. Můeme například ověřovat SPF záznamy pro příchozí zprávy a výsledky ověření (SPF:fail, SPF:success, SPF:unknown) pouít jako dalí tokeny při učení a klasifikaci.
Druhá fáze je klasifikace, kdy filtru předkládáme příchozí zprávy a chceme od něj odpověď, zda jsou tyto zprávy spamy. Testovaná zpráva je opět rozdělena na tokeny a z databáze filtru zjistíme spamové pravděpodobnosti jednotlivých tokenů. Známe-li jednotlivé pravděpodobnosti, pomocí metod matematické statistiky můeme vypočítat celkovou pravděpodobnost, e zpráva jako celek je spam. Obor, který se zabývá řeením problémů tohoto typu, se jmenuje bayesiánská statistika odtud pochází také název filtru.
Autoři filtrů se snaí je navrhovat tak, aby se pokud mono co nejvíce sníil počet tzv. false positives. To jsou korektní zprávy, které byly filtrem nesprávně identifikovány jako spam. Pokud se někomu kvůli antispamovému filtru ztratí důleitá zpráva, je to subjektivně vnímáno jako velký problém.
Účinnost bayesiánského filtru závisí na mnoha faktorech. Ze veho nejdůleitějí je kvalita učení, tj. kvalita a velikost korpusu, na kterém byl filtr naučen. Dále záleí na tom, jaký algoritmus je pouit při tokenizaci zpráv, jaká matematická metoda je pouita pro výpočet finální pravděpodobnosti atd. Ve vech těchto oblastech probíhá intenzivní výzkum a stále se objevují nové optimalizace.
Jednou z novinek poslední doby je tzv. bayesiánská redukce umu. Spameři se snaí obejít bayesiánské filtry tím, e náhodně přidávají do textu zprávy různá slova, která mají obvykle nízkou spamovou pravděpodobnost. Tím se snaí ovlivnit celkové skóre zprávy ve svůj prospěch. Byly vyvinuty algoritmy snaící se takový náhodně vloený um, který je mimo kontext zbytku zprávy, detekovat a odstranit. Jde o velmi zajímavé algoritmy, které jsou podobné algoritmům pouívaným například při redukci umu ve fotografiích. Mezi programy, jejich autoři se věnují výzkumu a které pouívají hodně originálních algoritmů, patří například program DSPAM.
Autor článku působí ve společnosti Kerio Technologies.
Chcete získat časopis IT Systems s tímto a mnoha dalími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z naeho archivu.




















