Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia TopDrive KupDnes Navrcholu NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Názory k článku
Jak funguje bayesovský antispamový filtr? (2.)

Michal Kára
Michal Kára (neregistrovaný)
12. 3. 2005 8:18 Nový

Re: asciart jako nova generace spamu

celé vlákno
Tohle jsem resil na konci minuleho dilu (ne tento konkretni pripad, ale obecne). Ono to ASCII art sdeleni neni moc pusobive. Spam je hlavne reklama a ta musi zaujmout. Navic hlavicky a subject do ASCII artu neprepisete :-) Asi proto se rozhodne se vic pouzivaji obrazky, nez ASCII art.

> slovnikem nejpouzivanejsich NONspamovejch

Takovy slovnik bych chtel videt ;-) On je totiz pro kazdeho uzivatele jiny 9opet viz predchozi dil).
Roj
Roj (neregistrovaný)
13. 3. 2005 1:03 Nový

Re: asciart jako nova generace spamu

celé vlákno
Krome toho vypnout obrazky a HTML v mejlech je asi to prvni a nejjednodussi, co kazdy proti spamu muze udelat.
Dave
Dave (neregistrovaný)
11. 3. 2005 10:49 Nový

Pěkné

celé vlákno
Opět moc pěkný článek, už se těším na další pokračování!
P.Sgall
P.Sgall (neregistrovaný)
11. 3. 2005 15:03 Nový

Re: Pěkné

celé vlákno
Děkuji za vysvětlení.
To jsem za celý život nepochopil, jak doopravdy lze implementovat linguistické teorie.
Dodatečně se omlovám všem svým studentům, že jsem se nenaučil programovat - a tak způsobil, že jejich teorie neberou u počítačů moc vážně. Ale snad se konečně začíná blýskat na lepší časy!
Michal Kára
Michal Kára (neregistrovaný)
11. 3. 2005 15:11 Nový

Re: Pěkné

celé vlákno
To bylo mysleno jako ironie, ze? ;-)

Ja nerikam nic o linguistickych teoriich. Rikam pouze to, ze pro antispamovy filtr neni lematizator potreba. Pokud mate nejakou vyhradu - mohl byste byt, prosim, konkretni?
LK
LK (neregistrovaný)
11. 3. 2005 12:35 Nový

Opravdu pěkné

celé vlákno
Navíc čtivé a zajímavé, už se zase těším na pokračování.
Kicko
Kicko (neregistrovaný)
11. 3. 2005 21:14 Nový

Spam Assasin

celé vlákno
Dost pouzivany Spam Assasin pouziva druhu metodu ... teda prevedie "slovo" (skupinu znakov) na zakladny tvar a zaroven si zachova aj povodny tvar ... nemyslim si, ze by to bolo zle riesenie.
Michal Kára
Michal Kára (neregistrovaný)
12. 3. 2005 8:36 Nový

Re: Spam Assasin

celé vlákno
> Dost pouzivany Spam Assasin pouziva druhu metodu ...

Myslite bayesovsky filtr obsazeny v SA? A zakladnim tvarem myslite prevedeni na mala pismena atp? To je mozne.

Co se tyce vlastnosti: Ve vysledku muzete mit v hodnoceni dve informace se silnou korelaci (poruseni principu nezavislosti). Tipuji, ze ten zakladni tvar bude mit hodnoceni pomerne blizko k polovine, takze ve vetsine pripadu se do "uzsiho vyberu asi nedostane"... Navic pokud pocitate v mailu jako skutecnosti pouze vyskyty slov (coz SA dela), tak to asi prilis nevadi. Mozna v nekterych pripadech to muze mit nizsi ucinnost/jistotu (ten zakladni tvar bude hodnoceni tahnout ke stredu). Ale zas to bude mit kratsi dobu uceni.

Takze muj teoreticky zaver je, ze to neni vylozene spatne (zvlast vzhledem k hodnoticimu systemu SA - viz predchozi dil), ani (zrejme) nijak genialni. Realne vlastnosti by se museli overit experimentalne.
Nobody
Nobody (neregistrovaný)
15. 3. 2005 15:53 Nový

Re: Spam Assasin

celé vlákno
"... teda prevedie "slovo" (skupinu znakov) na zakladny tvar ..."
A toto je právě "sgallovština". Nikdo neví, co po překladu (z cizí literatury) asi tak může znamenat "zakladny tvar". To ale nevadí, aby se to nedalo diplomantům programovat. (Natož aby je to naprogramovat někdo naučil. Hlavně, když se do diplomky opíše neimlementovaná teorie, protože se stejně muselo udělat plno zanedbání. Vždyť na to v životě nikdo nepřijde.)
Jirka
Jirka (neregistrovaný)
12. 3. 2005 18:14 Nový

Bez titulku

celé vlákno
Ten algoritmus má ale jednu podmínku pro správné fungování, kterou jsem vám minule zatajil. Pravděpodobnosti, se kterými počítá, musí být nezávislé. To však není v praxi splněno.

Proč si myslíte, že pro správnou funkci musí být vlastnosti na sebe kolmé (vzájemně nezávislé)? Není to tak docela pravda. Bayesiánský klasifikátor funguje, i když jsou některé vlastnosti totožné.

Je pravda, že, když některé vlastnosti nejsou na sebe kolmé, tak klasifikátor nefunguje optimálně rychle, ale funguje. Důležité je, aby na sebe kolmých vlastností (nebo aspoň téměř kolmých) bylo dostatečně mnoho a tyto vlastnosti byly co nejvíce diskriminující - čím větší pravděpodobnost, že se podle dané vlastnosti rozhodne správně, tím lépe.

Protože slovník je velmi rozsáhlý soubor vlastností, je prakticky nemožné vybrat, které vlastnosti jsou ty nejvhodnější. Existují algoritmy, jak nalézt aspoň dostatečně dobrou skupinu takových vlastností, ale i tak je to výpočetně velmi složitá procedura. Proto, když to není nezbytně nutné, je lepší výběr nedělat, nebo ho udělat nějak naivně s rizikem, že v něm zůstanou vzájemně na sobě závislé vlastnosti.
Jirka
Jirka (neregistrovaný)
12. 3. 2005 18:16 Nový

Re:

celé vlákno
Uf, červeně mi to napsalo, že jsem zapomněl titulek, tak jsem ho přidal a teď je to tu dvakrát. Tak tuhle beztitulkovou verzi, prosím, ignorujte.
Roj
Roj (neregistrovaný)
13. 3. 2005 1:05 Nový

Re: Re:

celé vlákno
Prusvih, ignoroval jsem tu versi s titulkem! Neva? :-)
Jirka
Jirka (neregistrovaný)
12. 3. 2005 18:15 Nový

Nezávislost

celé vlákno
Ten algoritmus má ale jednu podmínku pro správné fungování, kterou jsem vám minule zatajil. Pravděpodobnosti, se kterými počítá, musí být nezávislé. To však není v praxi splněno.

Proč si myslíte, že pro správnou funkci musí být vlastnosti na sebe kolmé (vzájemně nezávislé)? Není to tak docela pravda. Bayesiánský klasifikátor funguje, i když jsou některé vlastnosti totožné.

Je pravda, že, když některé vlastnosti nejsou na sebe kolmé, tak klasifikátor nefunguje optimálně rychle, ale funguje. Důležité je, aby na sebe kolmých vlastností (nebo aspoň téměř kolmých) bylo dostatečně mnoho a tyto vlastnosti byly co nejvíce diskriminující - čím větší pravděpodobnost, že se podle dané vlastnosti rozhodne správně, tím lépe.

Protože slovník je velmi rozsáhlý soubor vlastností, je prakticky nemožné vybrat, které vlastnosti jsou ty nejvhodnější. Existují algoritmy, jak nalézt aspoň dostatečně dobrou skupinu takových vlastností, ale i tak je to výpočetně velmi složitá procedura. Proto, když to není nezbytně nutné, je lepší výběr nedělat, nebo ho udělat nějak naivně s rizikem, že v něm zůstanou vzájemně na sobě závislé vlastnosti.
Michal Kára
Michal Kára (neregistrovaný)
13. 3. 2005 9:03 Nový

Re: Nezávislost

celé vlákno
Diky za teoreticky rozbor ;-)

Nicmene myslim, ze nejsme ve sporu. Jen jsem asi mel vice zduraznit, ze funguje i kdyz nejsou kolme, jenom hure. A ze to ve vetsine pripadu v praxi nevadi (az na ten problem s HTML).
Zasílat nově přidané příspěvky e-mailem