Hlavní navigace

Existuje odvrácená tvář Googlu? (2.)

Aleš Miklík 30. 1. 2004

Představy vnitřního zneužití potenciálu Googlu jsou zpravidla lákavější než ty uskutečněné zásahem zvenčí, zejména díky dopadu, jaký by mohly v reálném případě mít. Ovšem pochopitelně čím větší hrozbu nějaký subjekt představuje svojí potenciální skrytou manipulací, tím větší úsilí vynakládá, aby podobné obavy v ostatních rozptýlil.

Na rozdíl od prokázaných pokusů třetích stran získat prostřednictvím Googlu výhodu, jež jsme popsali ve včerejším článku, je těch ze strany samotných majitelů či správců systému mnohem méně – a spíše se jedná o chyby než o úmyslné zásahy. Ačkoliv tedy někteří komentátoři nepřestávají varovat před možností vnitřního politického zneužití, zatím se žádná taková událost neprokázala. (Jak však říká technologický žurnalista Hassan Fattah, autor knihy o peer-to-peer sítích, „to, co by nám mělo dělat starosti, není cenzura, o které víme, ale ta, kterou nevidíme.“) To však nic nemění na tom, že více či méně zdařené úpravy v chodu vyhledávače mohou způsobit – a způsobují – potíže jak svým uživatelům, tak jedincům či firmám na „mínění“ Googlu závislým.

Google dance

Asi nejznámější a prakticky stále špatně chápanou událostí je tak zvaný Google dance. Jedná se několikadenní proces, během kterého je zhruba jednou za měsíc obnovován index Googlu a přepočítávají se hodnoty zpětných odkazů na stránky (Page Rank). Protože Page Rank je stále rozhodujícím kritériem pro řazení stránek ve výpisu vyhledávání, pravidelně dochází k tomu, že se řada stránek rázem propadne v hodnocení a tím i v nabídce hledajícím uživatelům a naopak některé jiné stránky stoupnou v očích Googlu tak, že je „vytáhne“ z předchozí nevalné pozice do popředí. Takový „tanec“ nutně vyvolává zmatky nejen pro neznalého hledače (jedním z projevů Google dance je fakt, že jednotlivé servery Googlu umístěné v různých datových střediscích po celém světě vracejí při zadání téhož dotazu různé výsledky podle toho, zda se řídí ještě starým či již nově setříděným indexem). Představuje zároveň klíčový okamžik pro celou jednu profesní vrstvu konzultantů, tzv. SEO (Search Engine Optimization). Jejich prací není nic menšího než péče o stránky klientů tak, aby byly co nejlépe zařazeny do výsledků vyhledávání (hlavně Googlu) a přivedly jim co nejvíce nejzajímavějších klientů. Google dance je pro ně zkouškou, nakolik zvládli poslední kus svého díla, a pro leckteré i řádně stresujícím zážitkem – to když se optimalizace nepovede a prezentace jejich klientů se řítí do zapomnění x-tých stran ve výpisu vyhledávačů spolu s jejich honoráři.

O tom, co všechno může takový „tanec“ způsobit firmě spoléhající na vyhledávač jako na primární zdroj svých zákazníků (a takových je stále víc, stačí sledovat nárůst počtu firem podnikajících v internetové oblasti – těm často téměř nic jiného ani nezbývá), svědčí nejlépe známá kauza společnosti Data Recovery Group, popsaná v říjnu roku 2002 na serveru CNET.com:

„Patrick Ahern může dosvědčit jak silný potenciál Googlu, tak tíži podnikání bez něj. Společnost Data Recovery Group, kterou řídí, se minulý rok umísťovala okolo čtvrtého místa v populárním vyhledavači Googlu. V lednu, kdy Google bez vysvětlení společnost z databáze vyřadil, postihl Data Recovery 30procentní propad tržeb.“

Celková návštěvnost webu Date Recovery Group se tímto nešťastným vypadnutím z Googlu snížila o 85 procent, což přimělo manažery firmy k procitnutí a přehodnocení vlastní marketingové politiky. Výpadek návštěvníků je nicméně přišel na několik tisíc dolarů v placených odkazech konkurenčního vyhledávače Overture.

To není zdaleka jediný ani poslední případ, kdy změna pohledu Googlu na relevanci stránek některého majitele dokonale zaskočí – stránky s nelegálním obsahem či s uměle navyšovanou návštěvností jsou z jeho indexu vyřazovány denně. Velmi nepříjemné ovšem je, pokud se tak stane bez objektivního zavinění provozovatele postiženého webu. To nemusí spočívat ani ve špatné volbě při výběru SEO konzultanta, sázejícího na nekalé či nefunkční praktiky optimalizace, či webhostingové firmy, jejíž vinou mohou být stránky na nějakou dobu nepřístupné. Díky pozicování stránek ve výpisu, které je silně závislém na Page Ranku, se může snadno stát, že po odstranění zpětných odkazů ze stránek jiných majitelů, vedoucích na sledovaný web, se tento propadne v hodnocení Googlu na místa hluboko pod čarou prvního výpisu. Co je ještě zrádnější a z hlediska vnější manipulace zneužitelnější, je vlastnost Page Ranku, při které u negativně hodnocených stránek vztahuje toto hodnocení i na jiné stránky, na které odkazují. Při kombinaci více takových faktorů se pak komukoliv, kdo je na přílivu návštěvníků z vyhledávačů závislý, může stát něco podobného jako firmě Data Recovery Group, v horším případě se pak stane obětí cíleného záškodnictví konkurence (ať již finanční nebo ideologické).

Chyby technického charakteru

Odhlédneme-li od mnohdy vykonstruovaných, spekulativních teorií vnitřního ovlivňování funkcionality Googlu, zůstane kritikům stále nemalá část možných argumentů ke zkoumání v podobě dopadů na výsledky vyhledávání kvůli programovým chybám. Vyhledávací stroj Googlu není nic jiného než program běžící na stovkách počítačů po celém světě, a jak ví každý programátor, program bez chyb není úplný. Přes samozřejmou a poměrně pečlivou snahu firmy vyvarovat se jakéhokoliv přehmatu, v čistě „hrubé“ návrhářské a kódovací práci k nim přesto výjímečně dochází. Jedním z projevů může být z pohledu jednoho majitele stránek nespravedlivé znevýhodnění po konci Google dance, může ale jít i o čistě nedomyšlený důsledek některých optimalizačních zásahů. Někteří kritici monopolního postavení Googlu [16] jsou schopní jako jeho zásadní chyby nacházet i jeho jinak oceňované přednosti, jako je technologie Page Rank. Větší kritika se však ozývá spíše po chybách, o jaké psal v říjnu roku 2003 server The Register.

Její vnější projev byl znám již dříve, a sice mezi komunitou uživatelů soutěže Googlewhack. Ta spočívá v nalezení co nejoriginálnější fráze dotazu, po které Google vrátí jediný odkaz. Více účastníků této svérázné zábavy si začalo všímat, že Google vrací jeden či velmi málo odkazů i na dotazy, které, ač nezvyklé, příliš invence nevyžadují a hlavně, Google zároveň tvrdí, že dotazu vyhovují tisíce výsledků, které však nezobrazí. The Register uvádí sousloví „keyboard bracelet,“ na které Google vrací řádově jednotky odkazů z „přibližně 49 000“, dají se však najít i řady dalších výraznějších příkladů (výsledky se však mohou lišit podle více faktorů včetně toho, kde zrovna se nacházíte). Chyba dostala název GoogleNACK („Negative ACKnowledgement“) a záhy bylo zřejmé, že nejde o náhodu.

S vysvětlující teorií přišel výzkumník Seth Finkelstein. Cituje ji The Register: anti-spamové filtry Googlu, navržené k odrušení falešných odkazů používaných spamery, pornografickými stránkami či sektami, jako jsou scientologové, odfiltrovaly i ostatní servery. „Hledá-li Google kombinaci slov, jsou vysoce hodnoceny stránky s hledanými slovy blízko u sebe. Podobné stránky bohužel často používají spameři, když ji zaplní množstvím vzájemně nesouvisejících klíčových slov,“ uvedl Finkelstein a dodal: „Technická řešení mohou mít nezamýšlené důsledky.“ Google tedy do výsledku vyhledávání nezahrne i odpovídající správné odpovědi, protože je vyhodnotí jako podvodné.

Hodnotící algoritmy začal Google používat poté, co se spameři naučili zneužívat jeho do té doby vysoce účinný Page Rank. Spameři se ho totiž naučili klamat tak, že zakládali celé „linkovací“ farmy domén, které, často s jinak prázdným obsahem, odkazovaly na jedinou adresu. Programátoři Googlu proto neustále mění vyhodnocovací algoritmy, doplňující tuto metodu, aby ztížili podvodníkům práci; v tomto boji však těžko někdy definitivně zvítězí. Každý faktor, jednou známý, je snadno zneužitelný, s čímž si neporadí žádný vyhledávač.

Společný jmenovatel a jak jej pokrátit

Snahou obou zúčastněných stran by měl být stejný cíl: co nejpřesnější zodpovídání dotazů tak, aby hledající našel hledané po co nejmenším možném počtu úkonů. Jsou samozřejmě výjímky mezi uživateli, snažící se získat výhodu v databázi Googlu na úkor druhých či využít jeho schopností k nekalým cílům – a Google na tyto pokusy musí reagovat. Postiženi jsou pak kromě nich i regulérní uživatelé, kteří dostávají na dotazy výsledky, jež tolik nevyhovují jejich potřebám. Na druhou stranu Google je progresivní firma, těžící ze svého postavení maximum, a jeho stratégové dobře ví, že s prostým vyhledávacím strojem již dnes těžko vystačí. Současností je integrace služeb a budoucností jejich nabídka na míru každému člověku. A daří se jim to velmi dobře – tak, jak o tom svědčí čísla v úvodu. V Británii dokonce postavení Googlu a některé jeho chyby (jako posledně zmiňovaný Negative ACKnowledgement) vedly některé komentátory k požadavku po jeho regulaci, podobně jako jsou regulovány telekomunikační operátoři s převažujícím podílem na trhu. K tomuto účelu by měl být zřízen regulační úřad Ofsearch (obdoba britského Oftelu, dohlížejícího na telekomunikační prostředí). Není však příliš jasné, kdo, jakým způsobem a na základě jakých oprávnění by podobnou aktivitu vykonával, a mezi názory na internetovém trhu idejí jde stále spíše o minoritní proud.

Značná část kritiky směřující proti Googlu do značné míry souvisí s jeho symbiózou s komunitou bloggerů. Tradiční novináři při té příležitosti nezapomínají na své argumenty o „nežurnalistické,“ „nevyužitelné“ povaze blogů a samoúčelnosti tohoto vztahu. Blogeři podle nich tvoří jen zanedbatelnou část uživatelů Internetu, avšak dokáží ovlivňovat informace a mínění, předávané většině jen díky tomu, že snadno pronikají do vyhledávacích priorit Googlu. Zvláště silné hlasy s tímto obsahem lze zaznamenat z poměrně vlivného magazínu The Register, který je však pověstný svým nepříliš přívětivým postojem ke Googlu (jeho komentátor Andrew Orlowski už si mezi čtenáři vysloužil přezdívku Google-hater). Bloggeři se zase hájí, že jen využívají potenciál, který jim vyhledávače nabízí, a že jejich pozice odpovídají přirozené potřebě lidí nacházet i jiné zdroje informací, než jsou oficiální a zavedené internetové a tištěné tituly. Určitě je zajímavé sledovat tyto protichůdné směry uvažování, kus pravdy totiž v sobě skrývají oba dva.

Google je při správném využívání, tedy při nespoléhání se na tento jeden zdroj, skutečně velmi užitečným nástrojem k přístupu k širokému spektru názorů a z hlediska šancí nových zdrojů dostat se do popředí je poměrně demokratický. Kvalitní obsah si do jeho výsledků vždy najde cestu přímým „hlasováním“ čtenářů, tedy většinou bloggerů či jiných lidí, uvádějících k němu odkaz na svých stránkách. Je však vždy dobré hodnotit, kdo a proč tento zdroj doporučuje a jakou tedy bude mít hodnotu pro mne. Začínající a malé firmy zase mají k dispozici elegantní a propracovaný reklamní systém Googlu AdSense a AdWords, který umožňuje za minimum financí proniknout s inzercí na vysoce kvalitní místo – na úvodní stranu výsledků vyhledávání či hodně navštěvovaných serverů. Záleží jen na schopnostech každého podnikavce, jak šikovně a relevantně se mu podaří svoji nabídku sestavit.

Přílišné spoléhání se na Google jako zázračný stroj však není cesta vedoucí k ideálu přístupu k informacím. Původní idea zakladatelů a „tvůrců“ Internetu, jeho standardů a funkcionality, bylo přímé a interaktivní sdílení informací všemi uživateli bez ohledu na okolní podmínky – tedy kdokoliv měl mít možnost publikovat svoje názory a přidávat je k názorům druhých (např. původní návrh hypertextového jazyka počítal s možností zasahovat do webové stránky vytvořené někým jiným). Současná realita je však zcela jiná. Se zásahem komerčních zájmů a přílivem milionů netechnicky orientovaných uživatelů se Internet roztříštil do vzájemně těžko dosažitelných ostrůvků informací, omezených přístupem na technické, sociální i ekonomické úrovni. Největší bohatství jinak veřejných knihoven a tiskovin je uzavřeno za dveřmi registrovaného přístupu. Lidé zdaleka nevyhledávají zdroje po celém světě, ale preferují opět svoje místní znalostní okruhy. Z řady dříve neplacených služeb se pod vlivem zklamání z internetové horečky konce devadesátých let stávají placené a s tím, jak k Internetu získává přístup větší počet lidí, sílí i tlaky oficiálních institucí po jeho regulaci a kontrole.

Z hlediska tohoto stavu situace je Google stále nejlepším z dostupných nástrojů, jak se k co největšímu množství informací dostat, ne však pro každý případ a pro každého člověka. Přestože indexuje z vyhledávačů na Internetu nejvíce dokumentů, pořád je to sotva třetina všech, které na světové síti jsou. Existují desítky tematicky zaměřených vyhledávačů, se kterými se Google v dané oblasti těžko může rovnat – a nemusí jít jen o problematiku okrajových témat. Důležitou výhodou vyhledávačů pro národní domény je jejich lokalizace a schopnost poradit si s jazykovými specifiky hledaných dokumentů. České Jyxo například umí hledaná slova skloňovat a doplňovat do nich diakritiku. Poctivou hloubkovou rešerši s využitím knihovnických zdrojů Google těžko nahradí, stejně jako se nikdy nestane plně postačujícím jediným zdrojem informací pro opravdové žurnalisty.

Přesto se zdá být mezi lidmi používajícími Internet stále více těch, kdo spoléhají na jeho zdánlivě nepřekonatelnou schopnost nalézt vše potřebné. Noví uživatelé jsou ohromeni jeho možnostmi či se jen nedostanou k příležitostem poznat jiné cesty k informacím a ti pokročilejší už jednoduše nic jiného nehledají, protože „to nepotřebují“. Mezi odborníky se pro popis dnešního stavu vžil termín Googlefilie, v originálu Googlephilia. Nejen z příkladů, které jsme zde uvedli, je evidentní, že právě ona stojí na pozadí problémů, které u komentátorů dění na Internetu vyvolávají úvahy o potřebě vyhledávací regulace. Přílišné spoléhání na Google jako jediný smysluplný vyhledávač, přivádějící podstatné množství čtenářů/zákazníků, přináší nejzřejmější potíže firmám, jako se stalo Data Recovery Group, a ve svém důsledku také posiluje pozitivní zpětnou reakci mezi uživateli k preferenci Googlu. S narůstajícím tržním podílem lze pak očekávat i odvážnější touhy ze strany vyhledávače po více způsobech těžby ze svého postavení (větší diskusi vyvolalo nedávno například zjištění, že Google zřejmě indexuje obsah chatových kanálů na IRC – včetně soukromých rozhovorů. Důvod se nejspíš v dohledné době odhalit nepodaří, nicméně většina názorů se přiklání k variantě, že Googlem takto sesbíraná data budou nabídnuta k prodeji marketingovým agenturám a využita k lepším personalisovaným nabídkám a analýzám uživatelských zvyklostí).

Řešení, které se nabízí – pružný výběr vyhledávače podle oboru či lokalizačních nároků dotazů – nejspíš nebude to, které problém s dominancí Googlu vyřeší. Šlo by hlavně o cestu příliš náročnou pro největší množství lidí, kteří Internet používají. Mnohem pravděpodobnější je nanejvýš pomalý sestup podílu Googlu ve prospěch jiného všeobecného vyhledávače nadprůměrné velikosti: záleží na Yahoo a Microsoftu, ale i mnohých dalších menších strojích, které na svoji slávu možná teprve čekají. Podstatnou výhodou by v dnešním Internetu byl třeba automatický překlad různojazyčných dokumentů a hlavně nápad, jak maximalizovat jednoduchost přístupu k hledanému objektu. Jednou z nevýhod Googlu je totiž paradoxně i jeho gigantická databáze, jejíž přednosti neocení ti, kterým nenabídne hledaný zdroj na prvním výpisu stránek. Zpřesňující a kombinované dotazy byly dobrým nápadem, bohužel jen zlomek hledajících ví, co a jak jim mohou nabídnout. Konec éry Internetu ve znamení Googlu se však docela jistě blíží, z čehož leccos naznačuje i jeho chystaný prodej formou vstupu na burzu (z hlediska ekonomické teorie je vhodné prodej načasovat tak, aby proběhl těsně před vrcholem hodnoty společnosti – a Google měl času na rozhodování i nabídek ke koupi dost). Co přijde dál, není vůbec jisté, nezbývá však než doufat, že další krok vývoje nebude poslední – ať už ve prospěch Googlu, či jiného poskytovatele, koncentrujícího oblibu uživatelů i zdrojů informací.

Našli jste v článku chybu?

31. 7. 2004 10:04

Petr (neregistrovaný)
Zdravím, jen mě zajímá, zda někdo neví, zda u nás je předpis na označování placených nebo upřednostněných odkazů, viz. předešlý příspěvek.
Dík

19. 3. 2004 18:56

Pavel (neregistrovaný)
Nevím jak ostatní, ale já osobně hledám maximálně do 4. strany, pak výraz nějak předefinuji, nebo rozšířím.

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Vitalia.cz: Tesco: Chudá rodina si koupí levné polské kuře

Tesco: Chudá rodina si koupí levné polské kuře

Měšec.cz: mBank cenzuruje, zrušila mFórum

mBank cenzuruje, zrušila mFórum

Root.cz: Vypadl Google a rozbilo se toho hodně

Vypadl Google a rozbilo se toho hodně

DigiZone.cz: Digi CZ výrazně zlevnila balíček HBO

Digi CZ výrazně zlevnila balíček HBO

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

120na80.cz: Na ucho teplý, nebo studený obklad?

Na ucho teplý, nebo studený obklad?

Měšec.cz: Přejete si číslo účtu na přání?

Přejete si číslo účtu na přání?

Vitalia.cz: Spor o mortadelu: podle Lidlu falšovaná nebyla

Spor o mortadelu: podle Lidlu falšovaná nebyla

120na80.cz: Rovnátka, která nejsou vidět

Rovnátka, která nejsou vidět

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

Podnikatel.cz: Berňák kvůli EET prodlužuje otevírací dobu

Berňák kvůli EET prodlužuje otevírací dobu

DigiZone.cz: Milan Kruml: procházka TV historií

Milan Kruml: procházka TV historií

Vitalia.cz: Chtějí si léčit kvasinky. Lék je jen v Německu

Chtějí si léčit kvasinky. Lék je jen v Německu

Podnikatel.cz: Platební brány a EET? Stále s otazníkem

Platební brány a EET? Stále s otazníkem

120na80.cz: Rakovina oka. Jak ji poznáte?

Rakovina oka. Jak ji poznáte?

DigiZone.cz: Další dva kanály nabídnou HbbTV

Další dva kanály nabídnou HbbTV

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

DigiZone.cz: HD programy ČT i v UPC Horizon

HD programy ČT i v UPC Horizon

Podnikatel.cz: Babiše přesvědčila 89letá podnikatelka?!

Babiše přesvědčila 89letá podnikatelka?!