Robot Google se zkouší ponořit do hlubokého webu, zůstává ale na povrchu

24. 4. 2008

Doba čtení: 5 minut

Autor: 29

Indexovací robot Google se nově pokouší prokutat do hlubin toho, čemu se někdy říká Deep Web – tedy do těch částí Internetu, které byly dosud vyhledávačům a tudíž i většině uživatelů skryty. Podívejme se, co přináší tento konkrétní krok, ale také na to, jaké dosud skryté končiny webu se tak mohou otevřít.

Přidat mezi oblíbené zdroje na Googlu

Informace (Lupa, Computerworld.com), jak přesně budou nové metody indexace Googlu fungovat, se podle zdrojů poněkud liší. Podle blogu Google budou hlavním novým cílem robota rozevírací formuláře, které se někde používají například pro zeměpisnou navigaci. Tenhle typ budování „odkazů“ mezi stránkami se samozřejmě nedoporučuje a dnes už ani moc nepoužívá, je nevýhodný z marketingového hlediska právě kvůli vyhledávačům.

Lze ale poněkud pochybovat o tom, že by se tímto způsobem uživatelé ve větší míře dostali k nějakým skutečně novým stránkám. Kupříkladu zeměpisnou navigaci používaly nejspíš firmy, jejichž stránky byly tak či onak nějak dostupné i odjinud a rozlezlé po více zemích světa. Výsledně si mohou provozovatelé polepšit v očích PageRanku, to je ale tak všechno (nadto i informace o tom, jak se bude s nově objevenými stránkami zacházet v rámci PageRanku, se liší).

Doplň, zadej, hledej…

Nepůjde ovšem jen o rozevírací seznamy. Robot Googlu začne zaškrtávat různá políčka a klikat na tlačítka. Do volných políček bude Google také zkoušet vkládat slova, která našel na stránce a zkoumat, jaká bude odpověď serveru (takže vlastně bude generovat třeba vyhledávací dotazy).

Složitější formuláře přitom robot podle vlastních informací Googlu vyplňovat nebude, nebude lámat grafické kontrolní kódy CAPTCHA ani tipovat uživatelská jména, hesla nebo ID. Zkusí jen pár dotazů, nezahltí server hromadou požadavků, například vyhledávacích. Robot se bude rozhodovat mj. dle toho, zda je k odeslání dat použita metoda GET nebo POST. I tak se sice objevují komentáře, že některým webmasterům může robot Googlu komplikovat život, nicméně podobné kroky už stejně prováděli roboti jiní – a mnohem méně přátelští.

Google prohlašuje, že stránky, k nimž se tímto způsobem dostane, nejdřív porovná se svojí databází (přičemž se nejspíš zjistí, že obsah už má – viz výše). Pokud narazí na rozdíl, bude se stránkou dále pracovat; nejdřív zjistí, zda vůbec jde o nějak relevantní obsah – asi nemá cenu indexovat stránku obsahující odpověď na vyhledávání, že bohužel nic nalezeno nebylo; totéž se týká chybových hlášek při odeslání nesmyslných údajů. Jak se dál takový obsah nebo stránka bude řadit ve výsledcích vyhledávání, to ale zatím není příliš jasné.

Co se stane v případě výsledků vyhledávání? Tady robot najde stránku, kterou téměř jistě v databázi nemá (totiž odpověď na konkrétní vyhledávací dotaz). Tímhle způsobem by množství stránek (spíše „stránek“) v databázi vyskočilo explozivně prakticky k nekonečnu, bez toho, že by se uživatelé dostali k nějakému novému obsahu, Google si to jistě nějak ošetří.

Také není nutné zatěžovat server stále novými vyhledávacími dotazy. Stačí se podívat na způsob, jakým se generuje URL, a další stránky zkoušet přímo podle adresy. To lze mimochodem použít i tam, kde jsou třeba články generovány s URL nějak odpovídajícím číselnému ID článku – pak stačí zkoušet adresy podle čísel. U různých slovníků či encyklopedií bez existence „statických“ stránek jde zvolit obdobné metody.

Zde už se zdá, že by se Google k novému obsahu dostat mohl, a to nejen u dynamicky generovaného obsahu typu slovníků. Řada serverů má s přístupem ke starším článkům přes hyperlinky totiž problémy. Změnil se třeba publikační systém a odkazy zmizely, starší archiv se při proměnách webu „odpojil“, nebo je třeba kromě vyhledávání přístupný jen přes konkrétní adresy zveřejněné kdysi v tištěné verzi média. Nicméně na vlastním serveru třeba obsah stále zaindexován je a Google se k němu takhle může dostat. Informací tohoto druhu může být nakonec i docela dost a Google tak pomůže těm, kdo mají web v nepořádku – a trochu snad i uživatelům.

Ale přeceňovat se to nedá. Robot nezahltí vyhledávání a zkusí jen slova přednostně se objevující na stránce. Výsledek bude prostě mix „běžného“ obsahu (jak by to dopadlo, kdybyste na serveru o IT teď zadali něco jako „Windows Vista Service Pack?“).

Hluboký web: co všechno obsahuje?

Vypadá to tedy, že konkrétně tento krok asi žádný zvláštní význam mít nebude, ale obecně se jedná o vývoj velice zajímavým směrem, do vod temných a neprobádaných, ale zřejmě velmi rozlehlých. Wikipedia uvádí, že deep web výrazně objemem dat přesahuje to, co vyhledají vyhledávače – řádově snad až tisíckrát. Pravda, není úplně jasné, jak se něco takového počítá, zda se tím míní opravdu jen web (a nikoliv třeba filmy z výměnných sítí), apod. Z hlediska uživatele by asi bylo zajímavější to zkusit srovnat podle výlučně textového obsahu. Nicméně odhady jsou to stejně jen velmi zkusmé, když jednu ze stran poměru z definice neznáme.

Když se ještě trochu zamyslíme nad pojmem deep web, napadne nás jistě celá řada otázek. Tak třeba: Jedná se o izolované stránky, na něž nevede žádný odkaz, nebo Internet není „souvislý“ a obsahuje větší ostrovy oddělené od hlavního kontinentu? O souvisejících vlastnostech sítí jsme ostatně psali i na Lupě: Internet: Pravidla růstu, uzly a vzdálenosti v síti, Internet je zranitelnější, než se zdá či v článku Internet není vůči cíleným útokům odolný (Science World).

Wikipedie na výše uvedeném odkazu mimochodem popisuje i první pokusy vyhledávačů nějak indexovat tu část pavučiny, na kterou nevedou hyperlinky. Uvádí se zde pokus Yahoo Subscription v roce 2005, kdy bylo snad poprvé umožněno robotovi indexovat i obsah jinak určený jen předplatitelům (ona ovšem ta přístupnost může být různá, třeba jen z počítačů v akademické doméně nebo v určitém regionu – je to pak deep web, nebo ne?). Zmíněn je zde také vyhledávač přímo specializovaný na přístup k deep web (ScienceGov) a další projekty tohoto druhu.

Do deep web se dá zařadit celá řada obsahu různého typu. Technické chyby, kdy je namísto normálního hyperlinku použit formulář, nebo nějaký javascriptový či flashový fígl jsou jen jednou a nejspíš zanedbatelnou částí tohoto takřka bezedného prostoru. Najdeme zde placené stránky (nebo opět – stránky přístupné jen z akademické sítě, jen z určitého regionu, volně jen po určitou dobu atd.) nebo obsah ve formátech, který vyhledávače nejsou schopny indexovat. Každá z těchto kategorií bude vyžadovat jiné přístupy, až po třeba metody rozpoznávání řeči, které by mohly vyhledávačům umožnit indexovat audiobsah. Otázka ale je, zda by se to vyplatilo. K části deep webu by jistě rády získaly přístup vlády, hlavně když jde o aktivity skryté záměrně pro svůj kriminální obsah. Proč se tím ale měl zabývat komerční vyhledávač?

Kromě toho, že slušný robot by neměl indexovat data, kde si to uživatelé nepřejí (a zapomněli to zdůraznit v robots.txt), je velká otázka, zda by pak vyhledávač uživatelům mohl poskytnout lepší služby. Už teď nejde ani tak o to zahrnout do databáze co nejvíc zdrojů, ale spíše je umět nějak inteligentně zpracovat. Nakonec poslední krok Googlu tak lze chápat spíše jako službu několika správcům než uživatelům.

Stále ale platí, že být k nalezení je až na výjimečné okolnosti věcí a zájmem především samotných provozovatelů serverů.