Hlavní navigace

Nepoužívejte IP blacklisty! (2.)

Michal Kára 23. 5. 2005

Ve druhém díle seriálu dojde konečně na lámání chleba - vyhodnocení účinnosti jednotlivých blacklistů: každý je jinak spolehlivý jak co do počtu propuštěných spamů, tak i zablokovaných hamů. Pokusím se rovněž z výsledků vyvodit nějaké obecnější závěry. A nakonec se dozvíte, že nadpis článku není přece jen myšlen úplně doslova.

E-maily jsem testoval oproti pěti databázím – spamhaus.org, dsbl.org, sorbs.net, spamcop.net a njabl.org. V rámci jedné databáze jsem IP testoval proti všem dostupným blacklistům v databázi. Z nich jsem pak sestavil následující souhrnné hodnoty:

  • sbl-xbl.spamhaus.org jako kombinaci jeho dvou seznamů (stačí, aby IP byla v jednom z nich),
  • dnsbl.sorbs.net jako kombinaci všech jeho seznamů (stačí, aby IP byla v jednom z nich),
  • combined.njabl­.org jako kombinaci dynablock.njabl.org a dnsbl.njabl.org (stačí, aby IP byla v jednom z nich),
  • Q1 jako kombinaci sbl-xbl.spamhaus.org, dnsbl.sorbs.net, list.dsbl.org, bl.spamcop.net a combined.njabl.org, kde stačí, aby IP byla v jednom z nich,
  • Q2 jako kombinaci stejných seznamů, ale IP musí být ve dvou z nich
  • Q3 jako kombinaci stejných seznamů, ale IP musí být ve třech z nich,
  • Q4 jako kombinaci stejných seznamů, ale IP musí být ve čtyřech z nich,
  • Q5 jako kombinaci stejných seznamů, ale IP musí být ve všech pěti,
  • Q1-sorbs jako kombinaci sbl-xbl.spamhaus.org, list.dsbl.org, bl.spamcop.net a combined.njabl.org, kde stačí, aby IP byla v jednom z nich,
  • Q2-sorbs jako kombinaci stejných seznamů, ale IP musí být ve dvou z nich.

Nyní již k vlastní výsledkové tabulce. Jak se počítaly hodnoty účinnosti a chybovosti, jsem popsal v minulém díle. Pro zajímavost jsem spočítal a doplnil ještě pravděpodobnosti pspam pro případ, že IP protistrany je/není na IP blacklistu (viz články o bayesiánských filtrech – první a druhý).

Význam jednotlivých sloupečků:

  • pm – účinnost naměřená,
  • fprm – chybovost naměřená,
  • pc – účinnost po „korekci“,
  • fprc – chybovost po „korekci“,
  • pspam_ex – pravděpodobnost, že je e-mail spam, pokud existuje v blacklistu,
  • pspam_nex – pravděpodobnost, že je e-mail spam, pokud neexistuje v blacklistu.
Blacklist pm fprm pc fprc pspam_ex pspam_nex
unconfirmed.dsbl­.org 33,7 % 3,99 % 33,5 % 2,64 % 0,90 0,42
list.dsbl.org 32,8 % 1,89 % 32,6 % 0,49 % 0,95 0,42
multihop.dsbl.org 0,92 % 2,06 % 0,6 % 2,12 % 0,32 0,52
dynablock.njabl.org 22,5 % 1,99 % 22,2 % 1,0 5% 0,92 0,45
dnsbl.njabl.org 13,4 % 2,76 % 13,1 % 2,27 % 0,84 0,48
combined.njabl.org 30,9 % 4,48 % 30,7 % 3,27 % 0,88 0,43
sbl.spamhaus.org 15,9 % 1,54 % 15,5 % 0,89 % 0,92 0,47
xbl.spamhaus.org 50,6 % 4,76 % 50,4 % 2,67 % 0,92 0,35
sbl-xbl.spamhaus.org 65,8 % 6,23 % 65,7 % 3,52 % 0,92 0,28
dnsbl.sorbs.net 43,5 % 9,02 % 43,3 % 7,45 % 0,84 0,39
bl.spamcop.net 58,9 % 5,99 % 58,8 % 3,47 % 0,91 0,31
Q1 82,9 % 15,16 % 82,9 % 12,07 % 0,85 0,17
Q1-sorbs 80,0 % 11,29 % 80,0 % 8,15 % 0,88 0,19
Q2 67,8 % 7,68 % 67,7 % 4,94 % 0,90 0,27
Q2-sorbs 60,0 % 4,61 % 59,9 % 2,09 % 0,93 0,31
Q3 42,1 % 2,82 % 41,9 % 1,04 % 0,94 0,39
Q4 25,5 % 1,33 % 25,2 % 0,23 % 0,95 0,44
Q5 13,6 % 0,51 % 13,2 % –0,08 % 0,97 0,48

Jak vidíte, u Q5 se false positive rate korekcí dostala do záporných čísel, což je samozřejmě nesmysl. Z toho bych odvozoval, že platí spíše druhá možnost korelace (viz předchozí díl), a reálné hodnoty budou někde mezi naměřenými a korigovanými.

Protože tabulka obsahuje poměrně hodně čísel a je nepřehledná, vyrobil jsem z ní graf, který je snad o něco názornější. Každý blacklist je na něm prezentován úsečkou, spojující naměřené a korigované hodnoty. Reálná hodnota by pak měla ležet někde na této úsečce – podle míry korelace, o které jsem se zmiňoval výše. Přitom platí, že čím je hodnota blíže pravému dolnímu rohu, tím lépe.

1629

Jako jednoznačně nejhorší se ukázal blacklist (dnsbl.)sorbs.net, který při účinnosti necelá 44 procenta dosáhl přes sedm procent false positiv. Kvůli jeho vysokému počtu false positiv jsem počítal i Q1-sorbs a Q2-sorbs.

Nejvyšší účinnosti – skoro 83 procenta – dosáhla kombinace Q1. To není zas tak špatná účinnost, ale extrémně dobrá také ne; vždyť to znamená čtyřikrát tolik spamů, než by propustil bayesiánský antispam Centra. Co tuto hodnotu ale zcela devalvuje, je počet false positiv. Každý osmý ne-spam by byl neprávem odmítnut.

O něco lepší je kombinace Q1-sorbs. Má účinnost jen o něco málo menší (80 procent), ale má „jen“ osm procent false positiv. I to je daleko za hranicí snesitelnosti.

Z jednotlivých poskytovatelů blacklistů měl nejvyšší účinnost spamhaus.org se svým kombinovaným listem sbl-xbl.spamhaus.org. Dosáhl účinnosti 66 procent, což je ale už docela málo, a chybovost (3,5 procenta) je přitom stále dosti vysoká.

Druhé místo patří poskytovateli spamcop.net (účinnost 59 procent, chybovost 3.5 procenta). Třetí je list.dsbl.org, který má účinnost už jen 33 procenta, ale jako první se s chybovostí dostává pod jedno procenta – na 0,5 procenta. njabl.org je předposlední – má o něco nižší účinnost, ale o hodně vyšší chybovost.

Chybovost list.dsbl.org je už srovnatelná s chybovostí antispamu Centra, ale účinnost je o mnoho, mnoho horší – propustí skoro 17krát více spamů!

Určit absolutního vítěze je těžké. Jak je vidět z grafu, jsou výsledky (až na určité excesy) zhruba na hyperbole. Takže pokud má blacklist alespoň trochu ucházející účinnost, má velkou chybovost a naopak – při rozumné chybovosti má mizivou účinnost.

Co tedy s tím? Když se podíváte do pravého spodního rohu, uvidíte se tam skromně krčit tmavě modrou „hvězdičku“, která označuje parametry antispamu Centra, založeného především na bayesiánských filtrech. Tento obrázek je hezkou ilustrací, že statistické filtry jsou svými vlastnostmi – a na obrázku doslova – někde úplně jinde než blacklisty.

Snad vás tento článek v souladu se svým trochu kontroverzím nadpisem přesvědčil, že používat blacklisty pro tvrdé blokování pošty není dobrý nápad. Ale ten nadpis neplatí stoprocentně. Podívejte se na hodnoty pspam_ex a pspam_nex v tabulce. Třeba pokud je odesílatel v listu list.dsbl.org, tak je jeho e-mail na 95 procent spam. To je pro bayesiánský filtr docela zajímavý fakt. Přitom takto „označkována“ bude skoro třetina spamů.

Hodnoty pspam_nex jsou oproti tomu poměrně nezajímavé (blízké 0,5), až na hodnotu u Q1. Ta říká, že pokud e-mail není v žádném z pěti blacklistů, je 83procentní šance, že to není spam.

Takže bych zakončil přece jen trochu upraveným nadpisem: „Používejte blacklisty, ale jen jako pomocné vstupy do sofistikovanějších antispamových metod.“

Anketa

Používáte IP blacklisty?

Našli jste v článku chybu?

1. 3. 2007 16:08

kali (neregistrovaný)
ja mam za tuto cenu 500kbps internet a mam aj vlastnu IP-cku :)))

27. 8. 2006 9:31

šmudlinek (neregistrovaný)
Dobrý den.Jmenuju se Kristýnka
Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

120na80.cz: 5 poporodních problémů a jejich řešení

5 poporodních problémů a jejich řešení

Vitalia.cz: Naučí vás péct kváskový chléb bez lepku i s lepkem

Naučí vás péct kváskový chléb bez lepku i s lepkem

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

DigiZone.cz: Česká televize mění schéma ČT :D

Česká televize mění schéma ČT :D

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

Podnikatel.cz: Prodává přes internet. Kdy platí zdravotko?

Prodává přes internet. Kdy platí zdravotko?

Vitalia.cz: Chtějí si léčit kvasinky. Lék je jen v Německu

Chtějí si léčit kvasinky. Lék je jen v Německu

DigiZone.cz: Milan Kruml: procházka TV historií

Milan Kruml: procházka TV historií

Lupa.cz: UX přestává pro firmy být magie

UX přestává pro firmy být magie

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Podnikatel.cz: Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

Vitalia.cz: Tesco: Chudá rodina si koupí levné polské kuře

Tesco: Chudá rodina si koupí levné polské kuře

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Měšec.cz: Vklad na cizí účet je draze zpoplatněn (přehled)

Vklad na cizí účet je draze zpoplatněn (přehled)

Root.cz: Vypadl Google a rozbilo se toho hodně

Vypadl Google a rozbilo se toho hodně

120na80.cz: Popraskané rty? Některé balzámy stav zhoršují

Popraskané rty? Některé balzámy stav zhoršují

Podnikatel.cz: Na poslední chvíli šokuje vyjímkami v EET

Na poslední chvíli šokuje vyjímkami v EET

120na80.cz: Rakovina oka. Jak ji poznáte?

Rakovina oka. Jak ji poznáte?

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá