Splog: fenomén, který potrápil Blog.cz

Jen několik dnů po oznámení prodeje společnosti Jyxo a jeho Blog.cz do rukou Novy odhalil u této služby bloger David Grudl více než 1300 spamovacích blogů. Kdo a jak je založil? A jaký účel vlastně splogy, trápící i takové giganty jako je Google, na Internetu plní?

Minulý týden se na blogu La Trine (Moc divná čísla kolem Blog.cz) objevily úvahy nad tím, jak je možné, že na Blog.cz se mohou objevovat nové blogy rychlostí několika kusů za minutu, zatímco na konkurenčním Lidé.cz jsou blogy zakládány rychlosti okolo deseti za den (pro ilustraci doporučuji statistiky WordPress.com za březen 2008). Příklad – 1300 blogů s názvem „Můj Blog“ založených během dvě a půl hodiny – byl dostatečně výmluvný k tomu, aby se spekulovalo i na téma, zda celková čísla Blog.cz nejsou vytořená jakýmsi důmyslným generátorem. Pochyby zavládly i o skutečnosti, že by snad 2,5 milionu reálných lidí moho číst „roboticky generovaný obsah“.

Jako vždy bývá pravda někde uprostřed. „Blogy podle kopíráku“ měly nakonec opravdu robotickou strukturu a také některé společné prvky. Zejména zpětné odkazy na některé weby (0s.cz, caller.cz, mp3freak.cz a další). A právě přes tuto skutečnost se dalo dojít k Stanislavu Humplíkovi. Ten se nakonec hrdě k založení těchto blogů přihlásil a také odpověděl na normální a vážně míněné dotazy. Jeho odpovědi nakonec ale nesvědčí o ničem jiném než o omezenosti (osobně bych dodal, že omezenosti odpovídající vytvoření 1300 a více blogů pro získání zpětných odkazů, ale to je čistě můj osobní názor).

Stojíte za falešnými blogy na Jyxo.cz? Docela by mě (pro Lupa.cz) zajímalo pár věcí:

Kolik jste si jich tam založil?

nespočet

Co bylo cílem?

mezinárodní terorizmus

Jak bylo obtížné si je tam zakládat?

mnozí blogeři a blogerky to stále nezvládají!

V jakém časovém období k tomu docházelo?

…víte, to bylo hned a pak to šlo ráz na ráz

Mazal Blog.cz ty blogy?

šeptandou se mi doneslo, že se radši namazali sami

Zakládáte je i jinde?

kolik máš blogů tolikrát si člověkem!

Kde udělalo Jyxo chybu? A co je to splog?

Spam blogy (splogy, jak jsou již řadu let nazývány) jsou stejně chronické jako spam v e-mailové poště či komentářích pod články. S těmi mají navíc společné i využití v šíření virů a malware, stejně tak jako pro vytváření zpětných odkazů. Od doby, kdy Google (a další vyhledávače) nějakým způsobem určují „význam“ stránek pro „zlepšení“ umístění ve výsledcích vyhledávání, je jedním z nejjednodušších způsobů, jak si vylepšit vlastní hodnocení (PageRank, atd.), dosáhnout umístění zpětných odkazů na stránkách, které již dobré hodnocení mají. Nezřídka jsou splogy využívány i v souvislosti s AdSense (zajímavý je článek Cashing in on fake blogs).

Slouží k tomu nejenom link farmy (weby vytvořené jenom proto, aby odkazovaly na další weby), ale ve velké míře také blogy. Google by mohl vyprávět (Is spam permitted on Blogger?), protože odhadem každý pátý blog na této službě je ve skutečnost splog  – falešný blog, vytvořený jenom proto, aby vytvořil tolik kýžené zpětné odkazy. A v analýze eBiquity zjistíte, že 75 % nových pingnutí (oznámení o novém blognutí některé ze služeb, které pro tento účel fungují a propagují nové texty na blozích) pochází ze splogů (a i zde už existuje specifický název sping). A skutečnost, že většina „pingnutí“ pochází z Číny, snad ani není označitelná jako překvapení (24 Hours of Blogs, Part 4).

A když už jsme u těch různých statistik, co třeba zjištění, že 99,75 % blogů hostovaných na doméně .info jsou splogy (zdroj), tedy konkrétně – z 1,65 milionu blogů jsou pouze zhruba 4 tisícovky skutečné? Podle některých je celosvětově třetina blogů ve skutečnosti splog. Dejte si to dohromady s odhady Technorati hovořícími o stovce milionů blogů (celosvětově) a zkuste být trochu méně optimističtí – Ma.tt například zcela vážně uvažuje o tom, že splogů je až 80 %. Skutečných blogů je pak na celém světě možná 25–30 milionů (a 8–14 milionů z nich je skutečně aktivních).

Splogy jsou pochopitelně problém, zabírají diskový prostor, spotřebovávají síťové kapacity, zaplevelují vyhledávače. A v posledních dvou letech slouží k šíření malware a virů. V některých případech neobsahují nic než potřebná klíčová slova a odkazy, v jiných případech se budují tak, že se prostě zkopírují texty z jiných blogů – což samo o sobě způsobuje opět problém ve vyhledávačích a může ubírat návštěvníky pro původní weby či blogy. Jyxo (Michal Illich) ostatně splogy nijak nevítá:

Strojově generované blogy nejsou v našem zájmu! Nepřínášejí žádný obsah navíc, naopak rozmělňují návštěvnost z vyhledávačů mezi pravé a falešné blogy – a ty falešné nemají ani kontinuitu ani vybudovanou komunitu uživatelů, takže z nich uživatel odejde zklamaný, případně nás opustí přes některý z těch odkazů, které tam podvodník přidal. Na tom se prostě budovat nedá, strojové blogy nás poškozují.

Paradoxně si některé weby (a blogy) o problémy doslova říkají poskytováním kompletních článků v RSS – dokonce i v malém českém Internetu už se podobný problém objevil, viz RSS: užitečný pomocník pro zloděje obsahu? A pokud si stále myslíte, že uvádění plných textů v RSS není již dávno způsobem výdělku někoho uplně jiného než vás, tak pro konečné pochopení doporučuji rss2blog.com.

Vytváření splogů už dávno není věc nějaké pracné ruční činnosti. Na Internetu je možné najít software určený právě pro hromadné zakládání blogů – podobný (vlastní) software použil i Stanislav Humplík (BlogPeer.pm, BlogDump.pm, Article.pm) a na rozdíl od jeho hloupých odpovědí na dotazy stojí tyto tři skripty za případnou pozornost. Ukazují, jak snadné je automatizování jakékoliv činnost na Internetu – trojice skriptů nejprve založí blog s použitím webového rozhraní Blog.cz, aby se zároveň postarala o potvrzení registrační (ověřovací) informace zasílané na e-mailovou adresu.

Následně opět použije webové rozhraní k tomu, aby blogy naplnil texty (branými z blogů na Blog.cz) – ty jsou mírně pozměňovány (příklad změny a originálu), tak, aby nebyl obsah uplně stejný. Humplíkovi se podařilo obejít i „ochranu“ pomocí rel=nofollow tím, že odkazy mimo doplňoval o #blog.cz. 

Kde tedy Jyxo udělalo chybu?

Dlouhý úvod byl nutný pro ilustraci toho, jak masová činnost zakládání falešných blogů je. Technorati sledované blogy poukazují na 70 000 blogů založených denně, zhruba 8 % jsou splogy. Malý český Internet na tom samozřejmě není tak „špatně“ jako velký celosvětový (kde Blogger.com a MySpace.com je označováno jako za největší původce splogů), ale to přece neznamená, že by Blog.cz neměl nasadit odpovídající opatření, která znemožňují čistě automatizovatelné zakládání blogů.

Jyxo prostě nemělo v cestě automatizaci žádnou ochranu – nejčastěji se používá Captcha, strojově nečitelný obrázek nutící člověka, aby v něm obsaženou informaci přepsal, a teprve poté došlo k založení blogu. Totožnou ochranu osobně používám na Pooh.cz při zadávání komentářů a denně zamezí zadání až několika stovek „spam ohlasů“.

Jyxo udělalo pochopitelně i některé další chyby – například nemělo nasazeno žádné statistické vyhodnocení týkající se zakládání nových blogů. To by totiž velmi pravděpodobně dokázalo upozornit na více než 1300 blogů založených během velmi krátkého časového období. Stejně jako je diskutabilní, kolik z blogů na Blog.cz je efektivně mrtvých (nejsou navštěvovány jinak než náhodou z vyhledávače a nejsou v nich žádné nové a skutečné články) – i to lze vyhodnocovat s pomocí statistik. Michal Illich (Jyxo) mi to ostatně částečně potvrdil v následujícím vyjádření:

My teď máme přibližně 520 000 zveřejněných blogů (oproti podzimu tohle číslo pokleslo, protože jsme promazali ty neaktivní). Zdůrazňuji slovo „zveřejněných“. Kdybychom chtěli mluvit o „aktivních“ blozích, tak by se čísla pohybovala mezi 250 000 až 450 000, podle toho, jak striktně či volně bychom si aktivitu definovali.

Disclamer k tomu, jak číslo chápat:

  • nepíšu nic o tom, které blogy jsou tvořené lidmi a které stroji, Turingův stroj jsme bohužel ještě neimplementovali, tedy to nejsme schopni rozlišit. Každopádně náš nejlepší odhad je, že kromě těch 1300 Humplíkových blogů tam žádné další strojové nevidíme. 
  • nejde o blogery, ale o blogy. Hodně našich uživatelů má více blogů, které dokonce nezávisle udržují. Jiní uživatelé zase dělají jeden blog, pak ho nechají ladem a začnou jiný.

Dlouhý úvod se statistikami je ale také důležitý k tomu, aby bylo jasně vidět, jak je boj proti splogům obtížný. Ani CAPTCHA není nepřekonatelná, před pár měsíci se podařilo prolomit CAPTCHA používanou Yahoo i Googlem – úspěšnost se sice pohybuje někde okolo 20–30 %, ale pořád to znamená, že z tisíců pokusů o založení e-mailové schránky pro spam se jich podaří stovky založit. A navíc je vždy k dispozici dostatek levné pracovní síly v Asii. Ta se běžně používá pro ta místa, kde není možné plně strojové zpracování.

Jyxo ale také udělalo chybu v tom, že neumožňuje na Blog.cz žádnou rychlou a snadno použitelnou cestu, jak oznámit splog. Pokud budete chvíli Blog.cz procházet, najdete neskutečné množství blogů, které vypadají jeden jako druhý (příklad) a které navíc masově porušují autorský zákon (například tím, že obrázky jsou uloženy na Jyxo.cz).

Chci také blog (vsouvané Blog.cz) pochopitelně na stránkách nechybí – co ale citelně chybí, je možnost ohlásit problém. A odkaz nápověda a kontakt z hlavní stránky žádný slíbený kontakt neobsahuje, musíte se proklikat až na kontakt a tam objevit „Nahlášení závadného obsahu“, kde možnost ohlásit splog přímo nenajdete.

Nejde o počet blogů, ale o návštěvnost

Kolik splogů je na které blogovací službě, asi skutečně nikdy nezjistíme. Nova (CME) nakonec Jyxo nekoupila pro stovky tisíc blogů, ale spíše pro milionovou návštěvnost domény Blog.cz (a pochopitelně i pro další technologie a služby, které Jyxo má).

Dala by se podobně strojově generovat návštěvnost? Tedy uměle vytvářet miliony požadavků na náhodné stránky na doméně Blog.cz tak, aby se obešly ochranné mechanismy NetMonitoru, který návštěvnost sleduje a audituje? Teoreticky jistě – dokázal bych si například představit využití botnet aktivity. Tedy za předpokladu, že by měla skutečně aktivní nějaký milion (lépe dva) počítačů a ty uměle stahovaly stránky z Blog.cz (pochopitelně včetně měřících skriptů) tak, aby to vypadalo jako legitimní požadavky (referery, user-agent a další informace). Objektivně jde o hodně velkou sci-fi. A případně hodně velký malér, který by znamenal pád metodiky a technologií, které pro změnu používá NetMonitor a čísel, o které se opírá (nejenom) český Internet řadu let.

Osobně docela těm milionům návštěvníků měsíčně na Blog.cz věřím. Je to totiž stejně „šílené“ jako obrovský náskok Seznam.cz před všemi ostatními – náskok ani ne tak v měsíčních číslech, ale zejména v těch denních. A ony ty „náctileté“ slečny skutečně tvoří právě takové „blogísky“, kterými je Blog.cz proslulý.

Návštěvnost ostatně také byla důvodem, proč se Stanislav Humplík vydal cestou parazitování na cizí službě a vytvořil nakonec 1365 blogů obsahujících odkazy na různé weby, které provozuje. Splogy jsou na jedné ze služeb je sledující označovány za „terorismus“ na Internetu, takže nakonec Humplík není až tak daleko od pravdy, když ve snaze o vtip a originalitu odepsal tak, jak odepsal.

Co dělat proti splogům?

Spam v podobě splogů je potřeba potírat uplně stejně jako spam v e-mailu či komentářích. Teoreticky by každý provozovatel blogovacího systému měl být schopen velmi promptně reagovat na oznámení o falešných blozích. Slovo teoreticky je zde důležité, protože například právě Blogger.com (ale i další služby Google, zejména Google Groups) jsou celosvětové proslulé laxním přístupem – pokud vůbec dojde k odstranění spblogu, trvá to neúměrně dlouho. A v řadě případů budete mít vůbec problém splog kamkoliv oznámit – Blogger.com (BlogSpot) je v tomto ohledu jedním z dobrých příkladů, „podezřelý“ blog můžete ohlásit jedním kliknutím. Zcela laxní přístup Google k splogům a dalšímu smetí můžete vidět na Google Groups (projděte si pár výsledků vyhledání slova Viagra).

Splogy se samozřejmě netýkají jenom blogovacích systémů – v problémech jsou sociální sítě, webhosting zdarma, osobní stránky zdarma, diskusní skupiny, ohlasy pod články či cokoliv dalšího, kam je možné zadávat obsah uživatelem a není k dispozici 100% kontrola provozovatele. Všechny tyto systémy jsou stejně ohrožené robotickým vytvářením obsahu. A zodpovědný provozovatel by měl dbát na to, aby jeho služby nebyly snadno automaticky zneužitelné. Třeba tím, že nasadí alespoň CAPTCHA – zamezí tak v určitém kroku plně automatizovatelnému využívání služby, které je ve skutečnosti určena „pro lidi“ (a nikoliv stroje).

Zejména blogovací systémy by měly obsahovat mechanismus, který ruší nepoužívané blogy, a to nejenom z důvodu splogů. Pokud někdo chce mít na Internetu obsah věčně, neměl by počítat s tím, že ho tam bude mít za nulové náklady. Jakkoliv podivně to zní, má to svůj smysl.

Vyhledávací stroje mohou využít některou ze služeb evidujících a řešících splogy: FightSplog či SplogSpot (byl zde i SplogReporter, ale ukončil činnost v roce 2005)- jde i o snadno použitelné služby, které poskytují přehled adres splogů a nabízejí API, které umožňuje automatizovat dotazy. Zde se například můžete podívat na přehled nejnovějších splogů.

Splogy často žijí z cizího obsahu, včetně toho, že jej automaticky stahují přes RSS (což je podstatně jednodušší, než jej vyzobávat z HTML stránek blogu). Pokud už tedy poskytujete svůj obsah na Internetu (a není to, jako většina blogů, pouze kolekce cizích obrázků a videí), není špatný nápad do svého obsahu doplnit něco, co vám ho umožní najít. Zejména v případě RSS není od věci do poskytovaného textu doplnit nějaký další – ať již viditelný či nikoliv. Některé blogovací systémy dokonce pro tuto potřebu nabízejí plug-in.

CIF16

Špatná není ani služba CopyScape, ta přímo hledá „vaše“ články na jiných webech. A staré dobré Technorati či IceRocket a PubSub (momentálně čeká na novou „2.0“ verzi) mohou pomoci tak, že čas od času se podíváte, zda se vaše jméno (či nějaké jiné unikátní „texty“) neobjevily někde jinde. Pokud jste své texty doplnili o nějakou jednoznačnou identifikaci (MD5 hash nemusí být až tak špatný nápad), budete to mít jednodušší.

Co uživatelé (návštěvníci stránek)? Narazíte-li na splog (spam blog), neváhejte jeho existenci oznámit. Nebude-li se vám to dělat snadno, upozorněte na to provozovatele daného systému. Nepomůže-li to, upozorněte na to média.

Anketa

Všimli jste si někdy falešných, spamovacích blogů?

35 názorů Vstoupit do diskuse
poslední názor přidán 30. 9. 2008 22:24

Školení UX: Jak zapojit uživatele do designu

  •  
    Jak dostat ono tajemné UX do designu.
  • Ve kterých fázích zapojit uživatele, abyste dostali nejvíc muziky za nejmíň peněz.
  • Jak vytvářet jednoduché a srozumitelné persony

Detailní informace o školení UX »