Nepoužívejte IP blacklisty! (2.)

Ve druhém díle seriálu dojde konečně na lámání chleba - vyhodnocení účinnosti jednotlivých blacklistů: každý je jinak spolehlivý jak co do počtu propuštěných spamů, tak i zablokovaných hamů. Pokusím se rovněž z výsledků vyvodit nějaké obecnější závěry. A nakonec se dozvíte, že nadpis článku není přece jen myšlen úplně doslova.

E-maily jsem testoval oproti pěti databázím – spamhaus.org, dsbl.org, sorbs.net, spamcop.net a njabl.org. V rámci jedné databáze jsem IP testoval proti všem dostupným blacklistům v databázi. Z nich jsem pak sestavil následující souhrnné hodnoty:

  • sbl-xbl.spamhaus.org jako kombinaci jeho dvou seznamů (stačí, aby IP byla v jednom z nich),
  • dnsbl.sorbs.net jako kombinaci všech jeho seznamů (stačí, aby IP byla v jednom z nich),
  • combined.njabl­.org jako kombinaci dynablock.njabl.org a dnsbl.njabl.org (stačí, aby IP byla v jednom z nich),
  • Q1 jako kombinaci sbl-xbl.spamhaus.org, dnsbl.sorbs.net, list.dsbl.org, bl.spamcop.net a combined.njabl.org, kde stačí, aby IP byla v jednom z nich,
  • Q2 jako kombinaci stejných seznamů, ale IP musí být ve dvou z nich
  • Q3 jako kombinaci stejných seznamů, ale IP musí být ve třech z nich,
  • Q4 jako kombinaci stejných seznamů, ale IP musí být ve čtyřech z nich,
  • Q5 jako kombinaci stejných seznamů, ale IP musí být ve všech pěti,
  • Q1-sorbs jako kombinaci sbl-xbl.spamhaus.org, list.dsbl.org, bl.spamcop.net a combined.njabl.org, kde stačí, aby IP byla v jednom z nich,
  • Q2-sorbs jako kombinaci stejných seznamů, ale IP musí být ve dvou z nich.

Nyní již k vlastní výsledkové tabulce. Jak se počítaly hodnoty účinnosti a chybovosti, jsem popsal v minulém díle. Pro zajímavost jsem spočítal a doplnil ještě pravděpodobnosti pspam pro případ, že IP protistrany je/není na IP blacklistu (viz články o bayesiánských filtrech – první a druhý).

Význam jednotlivých sloupečků:

  • pm – účinnost naměřená,
  • fprm – chybovost naměřená,
  • pc – účinnost po „korekci“,
  • fprc – chybovost po „korekci“,
  • pspam_ex – pravděpodobnost, že je e-mail spam, pokud existuje v blacklistu,
  • pspam_nex – pravděpodobnost, že je e-mail spam, pokud neexistuje v blacklistu.
Blacklist pm fprm pc fprc pspam_ex pspam_nex
unconfirmed.dsbl­.org 33,7 % 3,99 % 33,5 % 2,64 % 0,90 0,42
list.dsbl.org 32,8 % 1,89 % 32,6 % 0,49 % 0,95 0,42
multihop.dsbl.org 0,92 % 2,06 % 0,6 % 2,12 % 0,32 0,52
dynablock.njabl.org 22,5 % 1,99 % 22,2 % 1,0 5% 0,92 0,45
dnsbl.njabl.org 13,4 % 2,76 % 13,1 % 2,27 % 0,84 0,48
combined.njabl.org 30,9 % 4,48 % 30,7 % 3,27 % 0,88 0,43
sbl.spamhaus.org 15,9 % 1,54 % 15,5 % 0,89 % 0,92 0,47
xbl.spamhaus.org 50,6 % 4,76 % 50,4 % 2,67 % 0,92 0,35
sbl-xbl.spamhaus.org 65,8 % 6,23 % 65,7 % 3,52 % 0,92 0,28
dnsbl.sorbs.net 43,5 % 9,02 % 43,3 % 7,45 % 0,84 0,39
bl.spamcop.net 58,9 % 5,99 % 58,8 % 3,47 % 0,91 0,31
Q1 82,9 % 15,16 % 82,9 % 12,07 % 0,85 0,17
Q1-sorbs 80,0 % 11,29 % 80,0 % 8,15 % 0,88 0,19
Q2 67,8 % 7,68 % 67,7 % 4,94 % 0,90 0,27
Q2-sorbs 60,0 % 4,61 % 59,9 % 2,09 % 0,93 0,31
Q3 42,1 % 2,82 % 41,9 % 1,04 % 0,94 0,39
Q4 25,5 % 1,33 % 25,2 % 0,23 % 0,95 0,44
Q5 13,6 % 0,51 % 13,2 % –0,08 % 0,97 0,48

Jak vidíte, u Q5 se false positive rate korekcí dostala do záporných čísel, což je samozřejmě nesmysl. Z toho bych odvozoval, že platí spíše druhá možnost korelace (viz předchozí díl), a reálné hodnoty budou někde mezi naměřenými a korigovanými.

Protože tabulka obsahuje poměrně hodně čísel a je nepřehledná, vyrobil jsem z ní graf, který je snad o něco názornější. Každý blacklist je na něm prezentován úsečkou, spojující naměřené a korigované hodnoty. Reálná hodnota by pak měla ležet někde na této úsečce – podle míry korelace, o které jsem se zmiňoval výše. Přitom platí, že čím je hodnota blíže pravému dolnímu rohu, tím lépe.

1629

Jako jednoznačně nejhorší se ukázal blacklist (dnsbl.)sorbs.net, který při účinnosti necelá 44 procenta dosáhl přes sedm procent false positiv. Kvůli jeho vysokému počtu false positiv jsem počítal i Q1-sorbs a Q2-sorbs.

Nejvyšší účinnosti – skoro 83 procenta – dosáhla kombinace Q1. To není zas tak špatná účinnost, ale extrémně dobrá také ne; vždyť to znamená čtyřikrát tolik spamů, než by propustil bayesiánský antispam Centra. Co tuto hodnotu ale zcela devalvuje, je počet false positiv. Každý osmý ne-spam by byl neprávem odmítnut.

O něco lepší je kombinace Q1-sorbs. Má účinnost jen o něco málo menší (80 procent), ale má „jen“ osm procent false positiv. I to je daleko za hranicí snesitelnosti.

Z jednotlivých poskytovatelů blacklistů měl nejvyšší účinnost spamhaus.org se svým kombinovaným listem sbl-xbl.spamhaus.org. Dosáhl účinnosti 66 procent, což je ale už docela málo, a chybovost (3,5 procenta) je přitom stále dosti vysoká.

Druhé místo patří poskytovateli spamcop.net (účinnost 59 procent, chybovost 3.5 procenta). Třetí je list.dsbl.org, který má účinnost už jen 33 procenta, ale jako první se s chybovostí dostává pod jedno procenta – na 0,5 procenta. njabl.org je předposlední – má o něco nižší účinnost, ale o hodně vyšší chybovost.

Chybovost list.dsbl.org je už srovnatelná s chybovostí antispamu Centra, ale účinnost je o mnoho, mnoho horší – propustí skoro 17krát více spamů!

Určit absolutního vítěze je těžké. Jak je vidět z grafu, jsou výsledky (až na určité excesy) zhruba na hyperbole. Takže pokud má blacklist alespoň trochu ucházející účinnost, má velkou chybovost a naopak – při rozumné chybovosti má mizivou účinnost.

Co tedy s tím? Když se podíváte do pravého spodního rohu, uvidíte se tam skromně krčit tmavě modrou „hvězdičku“, která označuje parametry antispamu Centra, založeného především na bayesiánských filtrech. Tento obrázek je hezkou ilustrací, že statistické filtry jsou svými vlastnostmi – a na obrázku doslova – někde úplně jinde než blacklisty.

Snad vás tento článek v souladu se svým trochu kontroverzím nadpisem přesvědčil, že používat blacklisty pro tvrdé blokování pošty není dobrý nápad. Ale ten nadpis neplatí stoprocentně. Podívejte se na hodnoty pspam_ex a pspam_nex v tabulce. Třeba pokud je odesílatel v listu list.dsbl.org, tak je jeho e-mail na 95 procent spam. To je pro bayesiánský filtr docela zajímavý fakt. Přitom takto „označkována“ bude skoro třetina spamů.

Content

Hodnoty pspam_nex jsou oproti tomu poměrně nezajímavé (blízké 0,5), až na hodnotu u Q1. Ta říká, že pokud e-mail není v žádném z pěti blacklistů, je 83procentní šance, že to není spam.

Takže bych zakončil přece jen trochu upraveným nadpisem: „Používejte blacklisty, ale jen jako pomocné vstupy do sofistikovanějších antispamových metod.“

Anketa

Používáte IP blacklisty?

52 názorů Vstoupit do diskuse
poslední názor přidán 1. 3. 2007 16:08
Zasílat nově přidané názory e-mailem

Školení e-mail marketingu

  •  
    Jak získat e-mailové kontakty
  • Jak udělat e-mailing více relevantní
  • Jak zavést automatizované kampaně

Detailní informace o školení e-mailingu »