Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia Tuesday TopDrive KupDnes Navrcholu Bomba NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Nepoužívejte IP blacklisty! (2.)

Ve druhém díle seriálu dojde konečně na lámání chleba - vyhodnocení účinnosti jednotlivých blacklistů: každý je jinak spolehlivý jak co do počtu propuštěných spamů, tak i zablokovaných hamů. Pokusím se rovněž z výsledků vyvodit nějaké obecnější závěry. A nakonec se dozvíte, že nadpis článku není přece jen myšlen úplně doslova.

E-maily jsem testoval oproti pěti databázím – spamhaus.org, dsbl.org, sorbs.net, spamcop.net a njabl.org. V rámci jedné databáze jsem IP testoval proti všem dostupným blacklistům v databázi. Z nich jsem pak sestavil následující souhrnné hodnoty:

  • sbl-xbl.spamhaus.org jako kombinaci jeho dvou seznamů (stačí, aby IP byla v jednom z nich),
  • dnsbl.sorbs.net jako kombinaci všech jeho seznamů (stačí, aby IP byla v jednom z nich),
  • combined.njabl­.org jako kombinaci dynablock.njabl.org a dnsbl.njabl.org (stačí, aby IP byla v jednom z nich),
  • Q1 jako kombinaci sbl-xbl.spamhaus.org, dnsbl.sorbs.net, list.dsbl.org, bl.spamcop.net a combined.njabl.org, kde stačí, aby IP byla v jednom z nich,
  • Q2 jako kombinaci stejných seznamů, ale IP musí být ve dvou z nich
  • Q3 jako kombinaci stejných seznamů, ale IP musí být ve třech z nich,
  • Q4 jako kombinaci stejných seznamů, ale IP musí být ve čtyřech z nich,
  • Q5 jako kombinaci stejných seznamů, ale IP musí být ve všech pěti,
  • Q1-sorbs jako kombinaci sbl-xbl.spamhaus.org, list.dsbl.org, bl.spamcop.net a combined.njabl.org, kde stačí, aby IP byla v jednom z nich,
  • Q2-sorbs jako kombinaci stejných seznamů, ale IP musí být ve dvou z nich.

Nyní již k vlastní výsledkové tabulce. Jak se počítaly hodnoty účinnosti a chybovosti, jsem popsal v minulém díle. Pro zajímavost jsem spočítal a doplnil ještě pravděpodobnosti pspam pro případ, že IP protistrany je/není na IP blacklistu (viz články o bayesiánských filtrech – první a druhý).

Význam jednotlivých sloupečků:

  • pm – účinnost naměřená,
  • fprm – chybovost naměřená,
  • pc – účinnost po „korekci“,
  • fprc – chybovost po „korekci“,
  • pspam_ex – pravděpodobnost, že je e-mail spam, pokud existuje v blacklistu,
  • pspam_nex – pravděpodobnost, že je e-mail spam, pokud neexistuje v blacklistu.
Blacklist pm fprm pc fprc pspam_ex pspam_nex
unconfirmed.dsbl­.org 33,7 % 3,99 % 33,5 % 2,64 % 0,90 0,42
list.dsbl.org 32,8 % 1,89 % 32,6 % 0,49 % 0,95 0,42
multihop.dsbl.org 0,92 % 2,06 % 0,6 % 2,12 % 0,32 0,52
dynablock.njabl.org 22,5 % 1,99 % 22,2 % 1,0 5% 0,92 0,45
dnsbl.njabl.org 13,4 % 2,76 % 13,1 % 2,27 % 0,84 0,48
combined.njabl.org 30,9 % 4,48 % 30,7 % 3,27 % 0,88 0,43
sbl.spamhaus.org 15,9 % 1,54 % 15,5 % 0,89 % 0,92 0,47
xbl.spamhaus.org 50,6 % 4,76 % 50,4 % 2,67 % 0,92 0,35
sbl-xbl.spamhaus.org 65,8 % 6,23 % 65,7 % 3,52 % 0,92 0,28
dnsbl.sorbs.net 43,5 % 9,02 % 43,3 % 7,45 % 0,84 0,39
bl.spamcop.net 58,9 % 5,99 % 58,8 % 3,47 % 0,91 0,31
Q1 82,9 % 15,16 % 82,9 % 12,07 % 0,85 0,17
Q1-sorbs 80,0 % 11,29 % 80,0 % 8,15 % 0,88 0,19
Q2 67,8 % 7,68 % 67,7 % 4,94 % 0,90 0,27
Q2-sorbs 60,0 % 4,61 % 59,9 % 2,09 % 0,93 0,31
Q3 42,1 % 2,82 % 41,9 % 1,04 % 0,94 0,39
Q4 25,5 % 1,33 % 25,2 % 0,23 % 0,95 0,44
Q5 13,6 % 0,51 % 13,2 % –0,08 % 0,97 0,48

Jak vidíte, u Q5 se false positive rate korekcí dostala do záporných čísel, což je samozřejmě nesmysl. Z toho bych odvozoval, že platí spíše druhá možnost korelace (viz předchozí díl), a reálné hodnoty budou někde mezi naměřenými a korigovanými.

Protože tabulka obsahuje poměrně hodně čísel a je nepřehledná, vyrobil jsem z ní graf, který je snad o něco názornější. Každý blacklist je na něm prezentován úsečkou, spojující naměřené a korigované hodnoty. Reálná hodnota by pak měla ležet někde na této úsečce – podle míry korelace, o které jsem se zmiňoval výše. Přitom platí, že čím je hodnota blíže pravému dolnímu rohu, tím lépe.

1629

Jako jednoznačně nejhorší se ukázal blacklist (dnsbl.)sorbs.net, který při účinnosti necelá 44 procenta dosáhl přes sedm procent false positiv. Kvůli jeho vysokému počtu false positiv jsem počítal i Q1-sorbs a Q2-sorbs.

Nejvyšší účinnosti – skoro 83 procenta – dosáhla kombinace Q1. To není zas tak špatná účinnost, ale extrémně dobrá také ne; vždyť to znamená čtyřikrát tolik spamů, než by propustil bayesiánský antispam Centra. Co tuto hodnotu ale zcela devalvuje, je počet false positiv. Každý osmý ne-spam by byl neprávem odmítnut.

O něco lepší je kombinace Q1-sorbs. Má účinnost jen o něco málo menší (80 procent), ale má „jen“ osm procent false positiv. I to je daleko za hranicí snesitelnosti.

Z jednotlivých poskytovatelů blacklistů měl nejvyšší účinnost spamhaus.org se svým kombinovaným listem sbl-xbl.spamhaus.org. Dosáhl účinnosti 66 procent, což je ale už docela málo, a chybovost (3,5 procenta) je přitom stále dosti vysoká.

Druhé místo patří poskytovateli spamcop.net (účinnost 59 procent, chybovost 3.5 procenta). Třetí je list.dsbl.org, který má účinnost už jen 33 procenta, ale jako první se s chybovostí dostává pod jedno procenta – na 0,5 procenta. njabl.org je předposlední – má o něco nižší účinnost, ale o hodně vyšší chybovost.

Chybovost list.dsbl.org je už srovnatelná s chybovostí antispamu Centra, ale účinnost je o mnoho, mnoho horší – propustí skoro 17krát více spamů!

Určit absolutního vítěze je těžké. Jak je vidět z grafu, jsou výsledky (až na určité excesy) zhruba na hyperbole. Takže pokud má blacklist alespoň trochu ucházející účinnost, má velkou chybovost a naopak – při rozumné chybovosti má mizivou účinnost.

Co tedy s tím? Když se podíváte do pravého spodního rohu, uvidíte se tam skromně krčit tmavě modrou „hvězdičku“, která označuje parametry antispamu Centra, založeného především na bayesiánských filtrech. Tento obrázek je hezkou ilustrací, že statistické filtry jsou svými vlastnostmi – a na obrázku doslova – někde úplně jinde než blacklisty.

Snad vás tento článek v souladu se svým trochu kontroverzím nadpisem přesvědčil, že používat blacklisty pro tvrdé blokování pošty není dobrý nápad. Ale ten nadpis neplatí stoprocentně. Podívejte se na hodnoty pspam_ex a pspam_nex v tabulce. Třeba pokud je odesílatel v listu list.dsbl.org, tak je jeho e-mail na 95 procent spam. To je pro bayesiánský filtr docela zajímavý fakt. Přitom takto „označkována“ bude skoro třetina spamů.


Davame_internetu_obsah

       

Hodnoty pspam_nex jsou oproti tomu poměrně nezajímavé (blízké 0,5), až na hodnotu u Q1. Ta říká, že pokud e-mail není v žádném z pěti blacklistů, je 83procentní šance, že to není spam.

Takže bych zakončil přece jen trochu upraveným nadpisem: „Používejte blacklisty, ale jen jako pomocné vstupy do sofistikovanějších antispamových metod.“

Anketa

Používáte IP blacklisty?

       

Michal Kára

Autor je konzultant a programátor na volné noze. Úzce spolupracuje s portálem Centrum.cz, především v oblasti e-mailu – je autorem antispamu a pozadí gigabajtového e-mailu.

Školení: Úvod do UX (user experince)

DW - Školení použitelnosti
  • Použitelný web mají návštěvníci rádi a lépe vrací investované peníze.
  • Poradíme vám, které metody využít a co vám to přinese.
  • Jak na uživatelský výzkum a návrh webu.
  • Naučíte se, jak rychle a levně otestovat web.

Další informace o školení Úvod do UX »

Přehled názorů

Blacklisty používám
Twm 23. 5. 2005 09:07
Nový
└ 
Re: Blacklisty používám
l4m4 23. 5. 2005 09:22
Nový
 
├ 
Re: Blacklisty používám
Ladislav Soukup 23. 5. 2005 09:28
Nový
 
└ 
Re: Blacklisty používám
šmudlinek 27. 8. 2006 09:31
Nový
Prihoda
Boza 23. 5. 2005 09:37
Nový
├ 
Re: Prihoda
Ondřej Surý 23. 5. 2005 10:37
Nový
│
└ 
Re: Prihoda
Boza 23. 5. 2005 11:01
Nový
├ 
Re: Prihoda
Jiří Kuchta 23. 5. 2005 12:30
Nový
│
├ 
Re: Prihoda
sartori 23. 5. 2005 13:02
Nový
│
│
└ 
Re: Prihoda
Michal Kára 23. 5. 2005 13:21
Nový
│
│
 
└ 
Re: Prihoda
Ivan 23. 5. 2005 15:26
Nový
│
│
 
 
├ 
Re: Prihoda
J 23. 5. 2005 15:47
Nový
│
│
 
 
│
└ 
Re: Prihoda
Flasi 23. 5. 2005 16:05
Nový
│
│
 
 
│
 
├ 
Re: Prihoda
Ondřej Čečák 24. 5. 2005 09:58
Nový
│
│
 
 
│
 
│
└ 
Re: Prihoda
Flasi 24. 5. 2005 10:41
Nový
│
│
 
 
│
 
└ 
Re: Prihoda
J.H. 24. 5. 2005 13:37
Nový
│
│
 
 
└ 
Re: Prihoda
Jan Kulveit 23. 5. 2005 18:14
Nový
│
│
 
 
 
└ 
Re: Prihoda
Jerry 24. 5. 2005 00:34
Nový
│
│
 
 
 
 
└ 
Re: Prihoda
Ivan 24. 5. 2005 13:33
Nový
│
└ 
Re: Prihoda
Kuba 24. 8. 2005 09:53
Nový
├ 
Re: Prihoda
Kolja 23. 5. 2005 15:07
Nový
│
├ 
Re: Prihoda
Flasi 23. 5. 2005 15:24
Nový
│
│
└ 
Re: Prihoda
Kolja 23. 5. 2005 15:45
Nový
│
│
 
└ 
Re: Prihoda
Flasi 23. 5. 2005 16:00
Nový
│
└ 
Re: Prihoda
Boza 24. 5. 2005 16:13
Nový
│
 
└ 
Re: Prihoda
Kolja 25. 5. 2005 15:30
Nový
├ 
Re: Prihoda
uzivatel 23. 5. 2005 15:44
Nový
└ 
Re: Prihoda
Kajik 26. 5. 2005 08:10
Nový
 
└ 
Re: Prihoda
Franta 26. 5. 2005 09:24
Nový
 
 
└ 
Re: Prihoda
Kajik 26. 5. 2005 10:12
Nový
 
 
 
└ 
Re: Prihoda
Franta 26. 5. 2005 11:19
Nový
 
 
 
 
├ 
Re: Prihoda
Kajik 26. 5. 2005 13:37
Nový
 
 
 
 
│
└ 
Re: Prihoda
Franta 26. 5. 2005 15:10
Nový
 
 
 
 
└ 
Re: Prihoda
kali 1. 3. 2007 16:08
Nový
DNS blacklist
Peppa 23. 5. 2005 10:20
Nový
└ 
Re: DNS blacklist
dod 23. 5. 2005 11:02
Nový
Jedna napůl OT pro pana Kadlece
Mormegil 23. 5. 2005 13:29
Nový
└ 
Re: Jedna napůl OT pro pana Kadlece
Flasi 23. 5. 2005 14:01
Nový
Nesouhlasim s clankem
tomas 23. 5. 2005 14:45
Nový
├ 
Re: Nesouhlasim s clankem
Michal Kára 23. 5. 2005 15:19
Nový
│
└ 
Re: Nesouhlasim s clankem
jr 25. 5. 2005 09:46
Nový
├ 
Re: Nesouhlasim s clankem
Ondřej Surý 24. 5. 2005 10:17
Nový
│
└ 
Re: Nesouhlasim s clankem
PaJaSoft 24. 5. 2005 13:57
Nový
└ 
Re: Nesouhlasim s clankem
Peppa 24. 5. 2005 16:22
Nový
článek
AZOR 24. 5. 2005 02:52
Nový
└ 
Re: článek
Jan Kulveit 24. 5. 2005 17:20
Nový
SPF framework
muhehe 24. 5. 2005 12:26
Nový
└ 
Re: SPF framework
Peppa 24. 5. 2005 16:15
Nový
Spam na xxx@chello.cz
Ivan Uzin 24. 5. 2005 17:35
Nový
Takový ptákoviny tu řešíte, ale že České spořitelně už téměř týden nefunguje…
Karel 24. 5. 2005 17:49
Nový
└ 
Re: Takový ptákoviny tu řešíte, ale že České spořitelně už téměř týden…
Vraána 24. 5. 2005 19:57
Nový
 
└ 
Re: Takový ptákoviny tu řešíte, ale že České spořitelně už téměř týden…
lokop 24. 5. 2005 22:51
Nový
       

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem