www.systemonline.cz

Hlavní partner sekce

Partneři sekce

Tematické sekce

ERP systémy

CRM systémy

Plánování a řízení výroby

AI a Business Intelligence

DMS/ECM - Správa dokumentů

HRM/HCM - Řízení lidských zdrojů

EAM/CMMS - Správa majetku a údržby

Účetní a ekonomické systémy

ITSM (ITIL) - Řízení IT

Cloud a virtualizace IT

IT Security

Logistika, řízení skladů, WMS

IT právo

GIS - geografické informační systémy

Projektové řízení

Trendy ICT

E-commerce B2B/B2C

CAD/CAM/CAE/PLM/3D tisk

Branžové sekce

Automobilový průmysl

Banky a finanční organizace

Energetika a utility

Potravinářský průmysl

Stavebnictví - BIM, CAFM

Veřejný sektor a zdravotnictví

SystemNEWS


	Přihlaste se k odběru zpravodaje SystemNEWS na LinkedIn, který každý týden přináší výběr článků z oblasti podnikové informatiky

Archiv SystemNEWS

Přehledy

Přehledy IS
APS (20)
BPM - procesní řízení (23)
Cloud computing (IaaS) (10)
Cloud computing (SaaS) (32)
CRM (51)
DMS/ECM - správa dokumentů (20)
EAM (17)
Ekonomické systémy (68)
ERP (77)
HRM (28)
ITSM (6)
MES (32)
Řízení výroby (36)
WMS (29)
Dodavatelé IT služeb a řešení
Datová centra (25)
Dodavatelé CAD/CAM/PLM/BIM... (38)
Dodavatelé CRM (33)
Dodavatelé DW-BI (50)
Dodavatelé ERP (71)
Informační bezpečnost (50)
IT řešení pro logistiku (45)
IT řešení pro stavebnictví (26)
Řešení pro veřejný a státní sektor (27)

Inzerce

Partneři webu

Best WordPress Themes

Hlavní strana -> Časopis IT Systems -> Rok 2006 -> IT Security -> Přehled antispamových technologií

IT Security , IT Security

Přehled antispamových technologií

Jaroslav Šnajdr

Spam je největším problémem současné elektronické pošty. Není proto divu, že k jeho filtraci a rozpoznávání byla vynalezena celá řada různorodých technologií a metod. Moderní antispamové filtry potom používají kombinaci několika vybraných technik, které jejich autoři považují za účinné. V následujícím textu uvádíme přehled několika základních metod a vysvětlení jejich principu.

Ověřování odesílatele

Elektronická pošta je jednou z nejstarších služeb na internetu. Standardní protokol pro doručování pošty, SMTP (Simple Mail Transfer Protocol), byl poprvé standardizován v srpnu 1982 a od té doby prošel jen několika spíše kosmetickými změnami. Mnohé jeho vlastnosti, týkající se zejména bezpečnosti, již dnes nevyhovují a dohánějí se různými extenzemi. Jednou z takových nevyhovujících vlastností je možnost snadno zfalšovat adresu odesílatele a nemožnost ověření její autentičnosti. Tento nedostatek umožňuje spammerům rozesílat maily, které se tváří, jako by přišly například z Microsoftu (a vybízejí ke stažení „bezpečnostní záplaty“, tj. viru), z vaší banky (chtějí po vás zadat heslo) atd. Tato podvodná technika je známá pod názvem „phishing“. Pro ověření adresy odesílatele existují dvě rozšířené technologie: SPF a DomainKeys.

SPF: Sender Policy Framework

Protokol SPF poskytuje vlastníkovi domény možnost publikovat v systému DNS informaci o tom, které počítače (IP adresy) mají právo odesílat zprávy s kontrolovanou doménou v adrese odesílatele. Můžeme tedy například stanovit, že zprávy z domény example.org smějí být odesílány pouze z naší firemní sítě. Protože spammer nemá do naší sítě přístup, musí své falšované zprávy odesílat odjinud. Kontrola SPF záznamu na straně příjemce potom snadno odhalí, že zpráva nebyla odeslána z autorizovaného počítače.
Pro publikaci SPF záznamů a pro jejich vyhledávání a přenos po síti se používá stávající systém DNS. Není třeba implementovat a nasazovat žádné nové síťové protokoly. SPF informace je uložena v TXT záznamu pro doménu. Zde je příklad záznamu pro doménu example.org: example.org. IN TXT "v=spf1 mx ptr -all"
Jednotlivé položky v SPF záznamu mají následující význam:

v=spf1 – říká, že tento TXT záznam obsahuje SPF informace a specifikuje verzi protokolu,
mx – má-li doména MX záznam, který se resolvuje na IP adresu odesílatele, patří tato IP adresa mezi oprávněné adresy,
ptr – IP adresa odesílatele patří mezi oprávněné adresy, má-li korektní reverzní DNS záznam v kontrolované doméně,
-all – všechny ostatní adresy, na které nezabrala předchozí pravidla, se zamítají. Výsledek SPF kontroly je záporný.

Protokol SPF vznikl v průběhu roku 2003 a od té doby probíhá komplikovaná snaha o jeho standardizaci v rámci IETF. První pokus, kdy se autoři SPF snažili domluvit společný standard s firmou Microsoft a jejím protokolem Sender ID, selhal a v současné době probíhá druhé kolo jednání o standardizaci. Mezitím se SPF začalo relativně široce používat a v současné době mají SPF záznamy tisíce domén na internetu a velká část výrobců softwaru pro elektronickou poštu tento protokol podporuje.

Obr. 1: Schéma ověřování odesílatele

DomainKeys

Dalším protokolem pro autentizaci odesílatele e-mailové zprávy je DomainKeys. Plní podobnou funkci jako SPF, funguje však jinak – používá princip elektronického podpisu. Servery, které mají oprávnění odesílat zprávy z dané domény, vytvářejí signaturu pro každou odchozí zprávu a ukládají ji do speciální hlavičky v odesílané zprávě. Veřejné klíče, kterými lze tyto signatury ověřit, publikuje vlastník domény v systému DNS, podobně jako SPF.
Signatura se počítá z těla zprávy a několika vybraných hlaviček. Dojde-li během transportu k pozměnění zprávy, například nějakým antivirem nebo filtrem, signatura samozřejmě nebude souhlasit. To je jeden z nedostatků celého systému. DomainKeys se tomuto problému snaží předcházet tím, že tělo zprávy prochází před podepsáním určitým preprocessingem (např. odstraňují se nadbytečné mezery), a také tím, že signaturu počítá jen z několika zvolených hlaviček.
Na začátek odchozí zprávy je potom přidána speciální hlavička DomainKey-Signature:
DomainKey-Signature: a=rsa-sha1;q=dns;c=nofws;s=beta;d=gmail.com;
h=received:message-id:date:from:reply-to:to:subject:mime-version:content-type;
b=l3iXOK6F...18XpKvPE

V tomto příkladě můžeme rozeznat, že zpráva byla odeslána z domény gmail.com, že byl použit šifrovací algoritmus RSA-SHA1, a vidíme také seznam hlaviček, které byly zahrnuty do signatury (Received, Message-ID, Date, ...) Položka s=beta je tzv. selektor. Jedna doména může používat více klíčů a selektor říká, který z nich byl použit k podepsání konkrétní zprávy.

Při doručování zprávy přes další servery se přidávají další hlavičky, jako například Received, ale takové hlavičky se vždy přidávají na začátek zprávy, tj. před hlavičku DomainKey-Signature. Při ověřování signatury se bere v úvahu jen část zprávy následující po této hlavičce, proto změny zprávy tohoto typu nemají na platnost signatury vliv.
Přijímající poštovní server nebo klientský program může ověřit signaturu tak, že podle hlavičky DomainKeys-Signature zjistí, která doména zprávu odeslala, podle selektoru získá z DNS příslušný veřejný klíč a pomocí něho ověří, zda je signatura platná. Pokud není, může to znamenat, že zpráva byla odeslána neoprávněným odesílatelem, který zfalšoval adresu odesílatele.
Protokol DomainKeys navrhla a prosazuje firma Yahoo!. Používá ho při odesílání zpráv hodně e-mailových služeb – jednou z prvních byla například služba GMail firmy Google. Protokoly DomainKeys a SPF se navzájem doplňují a není žádný problém je používat současně.

DNSBL

DNSBL neboli DNS-based Blackhole List je metoda, jak pomocí systému DNS publikovat na internetu veřejný seznam IP adres, ve kterém lze snadno vyhledávat pomocí jakéhokoliv DNS klienta. První DNS blacklist vytvořil v roce 1997 Paul Vixie, když založil službu MAPS (Mail Abuse Prevention Systems), která publikovala IP adresy SMTP serverů, ze kterých je posílán spam. Spammeři totiž často vyhledávají špatně nakonfigurované nebo napadené SMTP servery na internetu a ty potom zneužívají k rozesílání svého spamu. Dostane-li se takový server na blacklist, může ho každý uživatel blacklistu snadno blokovat a odmítat veškerou poštu z něj odeslanou. To jednak omezí množství spamu, které od tohoto serveru přijmeme, jednak vyburcuje správce napadeného serveru k rychlé nápravě situace a odstranění z blacklistu, poté co velká část internetu odmítne přijímat poštu z jeho serveru.
Dotaz do DNS blacklistu funguje následujícím způsobem. Dejme tomu, že chceme ověřit IP adresu 216.239.59.104, zda je na blacklistu provozovaném na adrese bl.spamcop.net. Otočíme tedy pořadí bajtů v hledané IP adrese a připojíme adresu blacklistu: 104.59.239.216.bl.spamcop.net.
Takto vzniklé jméno potom zkusíme najít v DNS (tj. zeptáme se na jeho A záznam). Není-li hledaná IP adresa na blacklistu, odpoví nám DNS server, že hledané jméno v DNS neexistuje. Je-li adresa na blacklistu, vrátí nám DNS kladnou odpověď: jméno existuje a má nějakou IP adresu. Tato IP adresa je podle konvence většinou 127.0.0.x a bývají v ní občas zakódované dodatečné informace. V podstatě ale není důležitá – jde hlavně o to, že DNS vrátilo kladnou odpověď.
DNS blacklisty jsou jednou z nejstarších a nejrozšířenějších antispamových metod a jsou široce používány. Blacklist lze provozovat na jakémkoliv DNS serveru a lze se do něj dotazovat jakýmkoliv DNS klientem. Fakt, že použití je velice jednoduché a nevyžaduje žádný speciální software, hodně pomáhá rozšíření jakéhokoliv protokolu. V podstatě každý e-mailový server v současné době DNS blacklisty podporuje.

SURBL

Určitě jste si všimli, že součástí skoro každého spamu je odkaz na nějaký web. Na tomto webu si můžete zakoupit nabízený produkt nebo vykonat jinou činnost. Co kdybychom vytvořili databázi spammerských webů a kontrolovali příchozí zprávy, jestli v nich není odkaz na nějakou podezřelou adresu? Kombinací této myšlenky a techniky DNS blacklistů vzniká služba SURBL: Spam URI Realtime Blocklists.
Dejme tomu, že nám přijde zpráva s následujícím odkazem: http://shop.poppedpeanuts.com/buy?ref=1128.
Toto URL chceme ověřit v SURBL blacklistu provozovaném na adrese multi.surbl.org. Postup je následující. Z URL extrahujeme část, kterou lze nejméně často měnit a falšovat: jméno domény druhé úrovně, poppedpeanuts.com. Zbytek URL ignorujeme. Ke jménu této domény potom připojíme adresu blacklistu a zeptáme se DNS na doménové jméno poppedpeanuts.com.multi.surbl.org
Je-li tato doména na blacklistu, dostaneme kladnou odpověď, podobně jako u DNSBL.
SURBL je služba, kterou lze zachytit relativně velké množství spamu, její klient je například součástí programu SpamAssassin.

Greylisting

Greylisting je jednoduchá ochrana SMTP serveru před spamem využívající některé vlastnosti protokolu SMTP. Tento protokol umožňuje přijímajícímu serveru „dočasně odmítnout“ jakoukoliv zprávu. Správně nakonfigurovaný klient se pokusí takto odmítnutou zprávu znovu doručit po uplynutí určitého timeoutu (v řádu desítek minut). Trik je v tom, že spammeři se o opakované doručení téměř nikdy nepokusí, protože nemají zdroje a čas k tomu, aby si udržovali frontu nedoručených zpráv a snažili se o stoprocentní doručení.
SMTP server s greylistingem si pamatuje následující informace (nazývané také „triplet“) o každém příchozím spojení:

IP adresa SMTP klienta,
adresa odesílatele,
adresa příjemce.

Pokud určitý triplet server ještě nikdy neviděl, tuto zprávu dočasně odmítne. Pokusí-li se odesílatel o opakované doručení, tentokrát už se triplet v databázi serveru najde a zpráva je přijata bez problémů. Stejně tak projde snadno i veškerá následující e-mailová komunikace mezi již známým odesílatelem a příjemcem.
Nevýhodou greylistingu je opoždění doručování zpráv často až o desítky minut, což nemusí být vždy akceptovatelné. Na druhou stranu, tato metoda je až překvapivě účinná a jednoduše implementovatelná. Existuje mnoho open source implementací pro všechny populární MTA a také několik komerčních.

Hash-based antispam: DCC

Systém DCC (Distributed Checksum Clearinghouse) je databáze, která ukládá hashe (krátké jedinečné identifikátory vypočítané z obsahu zprávy) nevyžádaných zpráv, které byly do systému nahlášeny. Uživatel systému DCC potom spočítá hash z každé přijaté zprávy a pomocí něj se zeptá DCC serveru, zda zná tuto zprávu a jestli se jedná o spam. Myšlenka je taková, že každý spam je rozeslán do internetu v mnoha kopiích a poté, co první příjemce identifikuje zprávu jako spam a pošle ji do systému DCC, můžou všichni tuto sdílenou informaci využít.
Hlavní metodou, jak obejít tuto techniku, je neposílat stejnou zprávu vícekrát: spameři v každé rozesílané zprávě provedou nějakou změnu a každá odesílaná zpráva se trochu liší od ostatních. Autoři systému DCC proto používají tzv. fuzzy hash, který ze zprávy získá jen „podstatné“ informace a je odolný vůči malým změnám. Spameři samozřejmě vymýšlejí nové techniky, jak tyto algoritmy obejít, vývojáři antispamových technologií zase vylepšují své algoritmy a probíhá lítý boj.
DCC klient je součástí populárního antispamového balíku SpamAssassin. Princip DCC používají také mnohé komerční antispamové služby, například Brightmail nebo Postini.

Obr. 2: Zjednodušené schéma fungování bayesiánského filtru

Bayesiánské filtry

Nejpoužívanější antispamovou metodou jsou v dnešní době bayesiánské filtry. Tuto metodu poprvé navrhl v roce 2002 Paul Graham ve svém článku Plan for Spam. Bayesiánský filtr je provádí statistickou analýzu zpráv a snaží se podle obsahu zprávy vypočítat pravděpodobnost toho, že daná zpráva je spam. Práce s bayesiánským filtrem má dvě fáze: učení a klasifikaci.
Během učení předkládáme filtru zprávy, o kterých už víme, zda se jedná o spamy, nebo ne. Filtr si tyto zprávy rozdělí na jednotlivá slova (tokeny) a tyto tokeny si ukládá do databáze. Ke každému tokenu si ukládá informaci o tom, kolikrát se vyskytnul ve spamech a kolikrát v normálních zprávách. Dejme tomu, že jsme bayesiánskému filtru předložili k učení sto zpráv, ve kterých se vyskytuje slovo „Viagra“. O 99 z nich jsme řekli, že je to spam a jedna zpráva byla normální. Databáze bayesiánského filtru si tuto informaci uloží a ví, že 99 % výskytů slova „Viagra“ se nachází ve spamech. Tokeny nemusí být jen slova – lze klasifikovat v podstatě jakoukoliv vlastnost zprávy. Můžeme například ověřovat SPF záznamy pro příchozí zprávy a výsledky ověření (SPF:fail, SPF:success, SPF:unknown) použít jako další tokeny při učení a klasifikaci.
Druhá fáze je klasifikace, kdy filtru předkládáme příchozí zprávy a chceme od něj odpověď, zda jsou tyto zprávy spamy. Testovaná zpráva je opět rozdělena na tokeny a z databáze filtru zjistíme spamové pravděpodobnosti jednotlivých tokenů. Známe-li jednotlivé pravděpodobnosti, pomocí metod matematické statistiky můžeme vypočítat celkovou pravděpodobnost, že zpráva jako celek je spam. Obor, který se zabývá řešením problémů tohoto typu, se jmenuje bayesiánská statistika – odtud pochází také název filtru.
Autoři filtrů se snaží je navrhovat tak, aby se pokud možno co nejvíce snížil počet tzv. false positives. To jsou korektní zprávy, které byly filtrem nesprávně identifikovány jako spam. Pokud se někomu kvůli antispamovému filtru ztratí důležitá zpráva, je to subjektivně vnímáno jako velký problém.
Účinnost bayesiánského filtru závisí na mnoha faktorech. Ze všeho nejdůležitější je kvalita učení, tj. kvalita a velikost korpusu, na kterém byl filtr naučen. Dále záleží na tom, jaký algoritmus je použit při tokenizaci zpráv, jaká matematická metoda je použita pro výpočet finální pravděpodobnosti atd. Ve všech těchto oblastech probíhá intenzivní výzkum a stále se objevují nové optimalizace.
Jednou z novinek poslední doby je tzv. bayesiánská redukce šumu. Spameři se snaží obejít bayesiánské filtry tím, že náhodně přidávají do textu zprávy různá slova, která mají obvykle nízkou spamovou pravděpodobnost. Tím se snaží ovlivnit celkové skóre zprávy ve svůj prospěch. Byly vyvinuty algoritmy snažící se takový náhodně vložený „šum“, který je mimo kontext zbytku zprávy, detekovat a odstranit. Jde o velmi zajímavé algoritmy, které jsou podobné algoritmům používaným například při redukci šumu ve fotografiích. Mezi programy, jejichž autoři se věnují výzkumu a které používají hodně originálních algoritmů, patří například program DSPAM.

Autor článku působí ve společnosti Kerio Technologies.

Chcete získat časopis IT Systems s tímto a mnoha dalšími články z oblasti informačních systémů a řízení podnikové informatiky? Objednejte si předplatné nebo konkrétní vydání časopisu IT Systems z našeho archivu.