Slevové servery a srovnávače cen, třeste se: Google Panda Update přichází

31. 8. 2011

Doba čtení: 11 minut

Zkušenosti z anglicky mluvících zemí ukazují, že nový algoritmus Googlu, který má bojovat se spamem ve vyhledávání, zasahuje také srovnávače cen, slevové servery, agregátory nabídek cestovních kanceláří, zpravodajství a další typy webů. Jak se vyrovnat se změnou?

Přidat mezi oblíbené zdroje na Googlu

O takzvaném Google Panda (Farmer) Updatu už se na Lupě psalo. V krátkosti: jde o přídavek k algoritmu vyhledávače Google, který má poznat stránky s nekvalitním obsahem a dát je ve výsledcích níž nebo je úplně vyřadit. Jde přitom zejména o takzvané „obsahové farmy“. Jak se ale ukazuje, algoritmus zasahuje podstatně také srovnávače cen, slevové servery, zpravodajství a další typy webů (dále viz tento text níže). Tento algoritmus byl zaveden nejprve v USA, pak v UK, nyní se šíří i do dalších zemí včetně Česka.

24. února 2011: Panda Update 1.0 (pouze v USA),
11. dubna 2011: Panda Update 2.0 (rozšíření na všechny anglicky psané weby),
10. května 2011: Panda Update 2.1 (menší změna v algoritmu, reindexace),
21. června 2011: Panda Update 2.2 (další úpravy v algoritmu, reindexace).

Otázkou ovšem je, jestli „ruka Googlu“ nemůže dopadnout na někoho neoprávněně. Je také otázka, jak se lze bránit, případně se na příchod další verze „Pandy“ připravit. Nemusí to totiž být zase taková legrace, třeba server Mahalo.com musel propustit 10 % lidí, kteří pro něj psali články.

Hal hadra aneb na základě čeho pozná Google nekvalitní stránku?

Ačkoliv Google tají, jak pozná nekvalitní stránky, něco z pozadí nového algoritmu odhalili Matt Cutts a Amit Singhal v rozhovoru pro Wired.com. Ve článku „TED 2011: Panda, která nesnáší farmy: rozhovor s hlavnímy inženýry vyhledávání Googlu“ lze najít následující „stopy“:

Google na to šel takhle: „outsourcoval“ dotazník, ve kterém určitému počtu tázaných předložil webové stránky a k nim otázky jako „Jsou reklamy na stránce příliš agresivní?“ „Bylo by v pořádku, kdyby takový obsah vyšel v papírovém časopise?“ a podobně…
…a pak sledoval vlastnosti stránek vyjádřitelné čistě matematicky (signály), které s nekvalitou korelovaly…
…a na základě toho vytvořil definici „nekvalitní stránky“.
Pak se inženýři s Googlu podívali na Chrome Site Blocker (uživatelé mohou v prohlížeči označit nežádoucí stránky) a zjistili, že data se s jejich pečlivě sledovaným průzkumem kryjí z 84 % (tady je mimochodem vidět motivace Googlu pro protlačování vlastního prohlížeče) – zřejmě tedy budou používat i tyto data.
Signály, které Google používá k výpočtu, mohou být zfalšovány („gamed“). Proto Google nechce prozradit, jaké jsou vstupy do algoritmu ani jak algoritmus vypadá.
Ve velmi malém počtu hraničních případů upraví Google nastavení pro konkrétní stránku ručně.

Otázka je, které matematicky vyjádřitelné parametry má Google k dispozici? Prakticky všichni profesionální i amatérští komentátoři internetového prostoru se shodují na těchto:

Vysoká „bounce rate“ (míra opuštění),
nízká průměrná doba trvání návštěvy na stránce („time on site“),
vysoké množství materiálu okopírovaného odjinud („duplicate content“) – jak na celém webu, tak na jednotlivých stránkách,
nepřirozeně vysoký výskyt klíčového slova (slovního spojení) vzhledem k celkové hmotě textu (tzv. „SEO přeoptimalizace“ - promiňte mi ten jazykový nesmysl).

Mnohem diskutabilnější jsou následující signály:

Reklamní plochy: nerelevantní, příliš mnoho (není pravděpodobné, že tento signál Panda Update používá obecně. Vždyť mnoho renomovaných webů s kvalitním obsahem je doslova „olepených“ reklamou, nemluvě o tom, jak zjistit relevanci např. statických bannerů, moderních pozadí na stránce apod. Mohlo by se to ovšem týkat sad zpětných odkazů, které se dají snadno strojově přečíst – to už tady ovšem bylo. Hlavně ovšem: Google má dobrý přehled o AdSense – nejoblíbenějším reklamním systému spamerů. A o to tady asi půjde. Tak třeba: legitimní obsah mívá „skyscraper“ vpravo od hlavního streamu textů, „MFAčkaři“ ho dávají z pochopitelných důvodů doleva nahoru. A tak dále.).
Vysoké procento obsahu, které se opakuje na všech stránkách – a to jak text, tak HTML apod. („boilerplate“, „template“).
Uživatelé vyhledávání od Googlu vyhýbající se dané stránce ve výsledcích vyhledávání („low SERP clickthrough“) – tady bychom přeceňovali uživatele Googlu. Spameři přece mají vysokou návštěvnost, proto spamují. Uživatelé jsou ale nepoučitelní a stejné problémové stránky navštěvují znovu a znovu (viz u nás šikovně optimizovaný falešný registr dlužníků, v USA je toho mnohem víc).

Signály, které Google v rámci Pandy velmi pravděpodobně nesleduje:

Diferenciace a „rozkročenost“ obsahu – např. stránka je úplně o něčem jiném než celý web (toto je nesmysl u velkých zpravodajských webů).
Nepřirozený jazyk – vzhledem ke stavu strojových překladů a dalších podobných problémů v jazykovědě zřejmě neexistuje algoritmus, který by to dokázal poznat – uplatnitelné snad v nejkřiklavějších případech (zcela nesmyslné texty typu Lorem Ipsum napodobující skutečný jazyk).

Je přitom jasné, že nejde o jednotlivé parametry jako takové. Z tohoto pohledu jsou nesmyslné debaty na téma „Je nízká „bounce rate“ negativní, když v určitých případech je to vlastně pozitivní fakt?“. Spíše jde o mix parametrů, jejich kombinaci (ve které pravděpodobně existují určité vzájemné závislosti, takže ani váhy parametrů nebudou neměnné).

Larry na lovu aneb kde Google vezme jednotlivé vstupní parametry do algoritmu?

Google Analytics – jak se říká, „ani kuře nehrabe zadarmo“. Ani Google ne. On vám dá slušnou analýzu návštěvnosti, vy mu data jako „bounce rate“ (míra opuštění), „time on site“ (doba setrvání návštěvníka na stránce) a další.
Google Toolbar – díky tomuto doplňku do prohlížeče Google sleduje chování uživatelů, získává z něj mimo jiné „bounce rate“ (míra opuštění).
Google SERP aneb stránka s výsledky vyhledávání – jde hlavně o „bounce rate“ (možná i „time on site“). Kolem tohoto bodu si lze přečíst mnoho vášnivých diskuzí o cookies, sessions apod. Pokud to Google dělá takhle (asi ano), musí se spoléhat na uživatele, kteří klikají při návratu na stránku s výsledky na tlačítko zpět, nikoliv na ty, kteří otevírají výsledky v nové záložce, kterou pak zavírají (=zřejmě převážně geekové). Google je údajně držitelem několika patentů, které řeší zjištění „bounce rate“ tímto způsobem.
Google Plus v Google SERP – tady je zatím brzo soudit, je však pravděpodobné, že Google získané „jedničky“ přinejmenším vezme nějakým způsobem v úvahu.
Prohlížeč Chrome – doplňky a vlastnosti, které umožňují uživatelům hodnotit stránky.
Ostatní parametry („SEO přeomptimalizovanost“ a duplicitní obsah) dokáže Google zjistit zpracováním „nacrawlerovaného“ materiálu.

Au, to bolí, aneb koho se propad v návštěvnosti bude týkat u nás?

Výrobci webů s neužitečným obsahem, které mají za úkol pouze nést reklamu („MFAčkaři“), se u nás sice snaží, ale s porovnáním se zahraničím je to stále slabé. Americké weby jsou velmi drzé a agresivní (vodí vás například za nos na stáhnutí softwaru zdarma spoustou kroků, aby se pak omluvily, že ho nemají) a spoléhají se na složité robotické systémy, které hlídají přesně definovanou provázanost linků na stránkách, vytváří texty z hledaných klíčových slov a frází a dělají další „roztomilé kulišárny“. Na domácím písečku se rozmohli spíše drobní tvůrci, „pubertální pyžamoví programátoři“. Pro ně je ovšem vážným problémem míra opuštění stránek a délka návštěvy, stejně jako „duplicate content“ a přehnané „zahlcení“ textu klíčovými slovy. Napříště to holt bude chtít větší vynalézavost…

O něco jiná je situace u rybek větších. Také jste celí nadšení ze sto plus jednoho webu, na který si kdekdo může dát libovolný PR článek? A co teprve ty kila „skvělých“ katalogů firem či weby, které „scrapují“ justici cé zet jak divé? Spamerská povaha těchto projektů je dostatečně známá a jejich užitečnost naznačí veškeré už zmíněné parametry v patřičné kombinaci. Právě tyhle projekty by se teď měly začít bát. Je totiž Panda zaručeně už brzo postihne.

Mezi nejserióznější weby, které Panda zřejmě nebude mít ráda, jsou ty, které umožňují položit otázku a dostat na ní od jiných uživatelů odpověď. Některé z podobných stránek už v USA a UK narazily… K dalším patří podle zámořských zkušeností srovnávače cen, slevové servery, agregátory nabídek cestovních kanceláří, zpravodajství a webů s recenzemi – viz tuto zajímavou infografiku.

Lampárna, aneb co když se propadne web, který je prokazatelně kvalitní?

Co když váš web bude patřit mezi ty, které jsou jednoduše postižené Pandou neprávem? Inu, komunikativnost Googlu je laskavému čtenáři jistě dobře známa. Ovšem velké firmy, které přinášejí Googlu opravdu solidní peníze, s domluvou s vyhledávacím (skoro)monopolem takový problém – jak známo – nemají. Nicméně, ať už patříte k „nýmandům“ nebo k těm, kdo jsou s Googlem kamarádi, vězte, že se vám může hodit tento odkaz. Na něm si můžete postěžovat. Je to taková lepší lampárna.

Trochu té zábavy aneb protiútok internetového podsvětí

Specialisté na „black-hat SEO“ (SEO techniky, které nejsou tak úplně košer) samozřejmě uvažují, jak signály, které Google zjevně používá k odhalení nekvalitních stránek, buď skrýt nebo podvrhnout, případně agresivním a efektivním způsobem ovlivnit. Pokud jde o ukrývání, dva základní kroky vypadají následovně:

Nahrazení statistik a analýzy návštěvnosti něčím jiným než Analytics. Osvědčuje se například Histats.com, případně „self-hosted“ řešení jako AWStats.
Nahrazení AdSense jiným reklamním systémem. U nás Etarget, AdFOX už skončil. U Etargetu navíc nemusíte být (velmi pravděpodobně) plátci DPH. Etarget si ovšem stránky, se kterými spolupracuje, kontroluje a se zjevnými MFA odmítá „sedět u jednoho stolu“. Zbývají tedy zejména „affily“, prodej linků a podobně.

Bylo by zajímavé dát k dobrému nějaké ty techniky boje proti Google Toolbaru a dalším „špehovacím“ metodám Googlu, zatím o nich však není nikde slyšet. Pokud jde o ovlivnění hodnot jako je „bounce rate“ nebo průměrný čas strávený návštěvníkem na stránce:

Velmi agresivní a nevšední metodou je zablokování tlačítka Zpět v prohlížeči. Že to není možné? Ovšem, když nevíte jak na to. Používá se Javascript. Vypadá to tak, že člověk, který se dostane na vaši stránku, je hned přesměrován na tutéž stránku s nějakým parametrem navíc ve „querystringu“. Tak například: z výsledků vyhledávání Googlu se někdo dostane na stránku www.domena.cz. Javasriptem je však ihned přesměrován na www.domena.cz/?a=0. Pokud klikne v prohlížeči na tlačítko Zpět, je okamžitě „kopnut“ zase zpátky dopředu. Z jeho pohledu je tedy tlačítko zpět zablokováno. Když se skript chytře napíše, po výchozí doméně se lze pohybovat bez problémů, jen se nelze vrátit na Google (parametr „a“ se zvyšuje o jeden a při zpětném chodu se zase snižuje – když je nula, víme že jsme v historii jednu stránku po Googlu). K tomu je ještě potřeba přinutit návštěvníka někam kliknout, k tomu stačí umístit doleva nahoru vlastní tlačítko Zpět. Co na to říct, milý čtenáři, než „fuj“. Ukazuje se že tito borci jsou s výše uvedeným javascriptem a trochou „sociálního inženýrství“ schopni dosáhnout „time on site“ kolem 5 minut a „bounce rate“ 10 % až 20 % na stránce, na které je jinak jedno veliké nic.
Do sloupců kolem stránky se dává bulvární obsah, který vás pak vodí za nos – šokující videa a podobně. Případně obrázky pohledných slečen.
U nabídek na stáhnutí něčeho se přidá mnohem víc mezikroků s několikerým odpočítáváním (servery jako Fileserve.com, jenže zde jde často o vyložený podfuk).
Při vstupu na stránku vyskočí nějaké okénko. Než si ho návštěvník přečte, případně zavře, chvíli to trvá.
Vstup na stránku je podmíněn vyplněním jakéhosi dotazníku, který vás zdrží.

Vynalézavosti se samozřejmě meze nekladou. A co „ti dobří?“

Bílé klobouky aneb kdo z vás to má?

Jestli pracujete pro lidi a ne pro vyhledávač, jste z toho venku. Zrovna takhle totiž vypadají vodítka pro tu nejsprávnější stránku (jedná se v podstatě o otázky z výše uvedeného dotazníku):

Důvěřovali byste informacím z daného článku?
Je článek napsán odborníkem/nadšencem, který ví o čem píše nebo je spíš povrchní?
Je na stránce okopírovaný obsah, nebo obsah (i malými variacemi), který se stále opakuje?
Platili byste přes stránku platební kartou?
Jsou ve článku chyby – pravopisné/stylistické/faktické?

A tak dále, a tak dále. Asi nemá smysl veškeré poznámky Googlu překládat do češtiny, jejich poselství je jednoduché – dělejte práci kvalitně, pište pro lidi. Ostatně je ani nelze brát moc doslova („čemupak se dá dneska věřit“). Věci se mají spíš tak – pokud se vás výše uvedené body týkají, (možná) jste venku. Pokud ne, těžko je z ničeho nic začnete splňovat. Smysl má zaměřit se na drobné úpravy, které mohou vylepšit čas návštěvy, míru opuštění a snížit výskyt klíčových slov a okopírovaného obsahu na rozumnou míru:

Zvýšit množství upoutávek na další obsah.
zvýšit provázanost článků linky.
zkvalitnit a zvýraznit navigaci na stránkách.
snížit počet zobrazených tagů a vyhledávaných výrazů pod články.
snížit množství uveřejňovaných zpráv z tiskových agentur a PR článků (tady je důležité, jaký objem tvoří vzhledem k celkovému objemu článků na celém webu).
analýza slabých míst: například ze kterých částí webu návštěvník hned odejde? Proč to tak je? Co hledal? Zjistěte závislosti.
jaká je bounce rate z nakoupených odkazů? Pokud vysoká, je třeba změnit klíčová slova či znění, případně obsah stránky, na kterou se návštěvník dostane.
zrychlit načtení webu, buď optimalizovat všechno v průběhu tvorby webu nebo mít cachovací systém jako další vrstvu.
snížit množství „exit points“, tedy bodů, které vyzývají k opuštění stránky (linky ven).
zařadit ankety, soutěže, videa.
zjistit vztah mezi hledanými slovy (slovními spojeními) a obsahem na stránce. Odpovídá? Nebo se nějak stává, že uživatelé hledají něco a dostanou se někam jinam?
odstranit odstrašující prvky (složité dlouho se načítající flashe, hudba a videa, které hrají, aniž by je někdo spustil a podobně),
psát dobré, poutavé titulky a perexy ke článkům (čtenář si musí říct: tohle si přečtu).

Možností je samozřejmě mnohem víc – a to vůbec nerozebíráme klasické poučky typu „naslouchejte zákazníkům“ ani technické tipy co a jak (heatmapy, multivariantní testování a tak dále a tak dále). A ještě něco, pokud už vás Panda Update zasáhl a vy jste provedli potřebné změny, bude to zřejmě trvat dlouho, než je Google zaregistruje.

Závěrem

Pokud vašemu webu spadnou po Panda Updatu ranky, neberte to negativně. Je čas si z toho něco vzít. Někteří se potřebují naučit, že stavění MFA je hezké do začátku, časem je ale třeba pustit se do smysluplného projektu, který bude fungovat dlouhodobě nebo přinese skutečnou přidanou hodnotu. Jiní zase potřebují pochopit, že být nadšený ze všeho co Google dělá a pomáhat mu dobrovolně v dobývání světa není všespásné – a začnou diferencovat zdroje.

Jazyková poznámka: Jazyk tohoto článku je ohavný. Rád se k tomu přiznávám, doufám ale že nehezký jazyk přispěje naopak k funkčnosti textu. V češtině se totiž o Panda Updatu moc nepíše ani nediskutuje. Znalost klíčových slov pomůže (nejen) vyhledání dalších informací v angličtině…

Vstoupit do diskuse (46 názorů)

Lukáš Tomek

Autor je publicista, pracoval jako redaktor Lidových novin. Jeho články najdete v Respektu, Lidových novinách a řadě dalších tištěných i internetových periodik.

Témata:

Jsem docela překvapený, že si Cutts a Singhal takhle pustili hubu na špacír, protože konkrétní detaily rozpoznávacích algoritmů i detaily sběru je skutečně nutné ostře strážit. Ani ne tak před konkurencí jako spíš před blackhat SEO farmáři. Tyhle věci (rozpoznávání spamu apod.) se dělají už aspoň osm let a nikdy se o nich moc nemluvilo. Asi se teď snaží být zajímaví nebo ženou cenu akcií. Je sice zajímavé, že se "komentátoři internetového prostoru" na něčem shodnou, ale mnohem důležitější je,…

Yuhů

Sdílet

Autor článku

Lukáš Tomek

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Komerční sdělení

Platíte za pružnost, kterou nevyužijete. Rozhovor s Tomášem Kostkou z Webglobe o tom, kdy public cloud přestává dávat smysl

Jak stavět AI datová centra: Tři cesty z technologické pasti