Hlavní navigace

Nové trendy ve vyhledávání (3)

Michal Illich

Dnešní článek byl měl uzavřít miniseriál o moderních vyhledávacích technologiích. Tentokráte si ukážeme, jak současné hledače dokáží detekovat podobně zaměřené servery a následně automaticky kategorizovat stránky. Stejně jako v předchozích článcích budeme používat analýzu struktury Internetu pomocí odkazů.

Představte si, že z celého českého Internetu znáte pouze tento článek a doménu www.lupa.cz. Lupa se vám líbí a chtěli byste číst i další, podobně zaměřené články. Neznáte ale z hlavy adresu žádného českého katalogu a jediné, co u sebe náhodou máte, je počítač s databází obsahující všechny české stránky. Co uděláte, abyste v této záplavě informací nalezli nějaký další časopis o počítačích a Internetu??

Cesty k řešení jsou v zásadě dvě. První by spočívala v tom, že se podíváte, o čem Lupa píše (tedy jaká slova jsou na jejích stránkách nejčastější), a porovnáte to s počty výskytů slov na ostatních stránkách. Toto zní jako přirozený postup, ale nejen že je algoritmicky velmi náročný, také pravděpodobně nedospějete k žádnému dobrému výsledku. Maximálně najdete někde mirrory Lupy samotné, ale časopisy, které píší o podobných tématech těžko – hlavně proto, že všichni používáme stejný jazyk (český), a slov, která jsou specifická pro počítačově zaměřené servery je málo, a tak informace, kterou máte, vám nebude stačit k dostatečnému rozlišení. Ačkoliv je tedy tato technika teoreticky zajímavá a možná se jí budeme ještě v budoucnu zabývat, nyní nám vůbec nepomůže.

Druhá cesta je daleko perspektivnější a také se v současnosti používá. Nejste totiž na Internetu sami a někdo jiný už podobnou otázku určitě řešil. A je dokonce možné, že za sebou nechal nějakou stopu, kterou můžete použít. A tak stejně jako u algoritmu Autorit a Rozcestníků, kterým jsme se zabývali minule, budeme předpokládat, že odkazy mezi jednotlivými stránkami nejsou náhodné a skrývá se za nimi určitý řád, záměr a úmysl jejich tvůrce. Například stránky v katalozích jsou tématicky zaměřené a na domácích stránkách nějakého uživatele jsou odkazy, které odpovídají jeho zájmům.

Z toho můžeme usoudit, že když je na nějaké stránce hyperlink na /, tak u dalších odkazů uvedených na stejném místě je vyšší pravděpodobnost, že to budou také stránky o počítačích a Internetu. Spočítáme tedy pravděpodobnost, s jakou se jednotlivé linky vyskytovaly společně s linkem na Lupu, a stránky s největší pravděpodobností budou ty námi hledané.

Vyhledávání podobnosti umí např. Google nebo Altavista. Z českých fulltextů (stejně jako všechny vlastnosti probírané v tomto seriálu) to nedokáže žádný. Konkrétní algoritmus, který např. Google používá, není nikde dokumentovaný, proto výše uvedené berte spíše jako moji představu o řešení úkolu.

Zajímavou alternativou je Alexa, která také určuje podobnost stránek, ale ne na základě odkazů, ale podle sledování uživatelů, kteří si software od ní nainstalovali. Stránky, které mají z velké části shodnou uživatelskou základnu, jsou pak označeny za podobné. Tyto informace jsou zajímavým vedlejším produktem hlavního zaměření Alexy, kterým je měření návštěvnosti serverů pomocí monitorování vzorku uživatelů. Podobný postup používá např. i MediaMetrix, PC Data Online (ten výsledky zase používá ve svém katalogu Top9.com) nebo v budoucnu český SPIR.

Automatická kategorizace


Pokud jsme schopni programem rozlišit, které stránky k sobě tématicky patří, jsme už na půli cesty k algoritmu, který by samostatně vytvářel katalog, jaký má kupříkladu Yahoo nebo Seznam. Pouze bychom potřebovali vyřešit problém, jak nalezené skupiny kategorizovat tak, aby se v nich lidé snadno orientovali. I když i toto by šlo algoritmicky řešit, zatím se spokojíme s tím, že nějaký „lidský“ zásah do systému bude nutný.

Na Internetu už dlouhou dobu existuje projekt Hubat, který se o automatickou kategorizaci snaží. Jeho myšlenka je poměrně jednoduchá – celý systém spravuje člověk, který vytvořil základní stromovou strukturu katalogu a pro každou kategorii zvolil jednu stránku jako příklad. Zbytek už záleží na robotech – jejich úkolem je procházet Internet a hledat stránky, které se té „příkladné“ podobají. K posuzování podobnosti mohou docela dobře používat výše uvedený postup, i když je pravděpodobné, že je jejich algoritmus ještě vylepšený: například tak, že neposuzuje podobnost s příkladem, ale hned s celou množinou stránek, které do dané kategorie patří.

Yahoo je spravované asi 120 lidmi, kteří posuzují vhodnost stránek, které jim uživatelé posílají. Ani s takhle velkým týmem lidí se ale nápor zřejmě nedá zvládnout, jak dokládají časté nářky webmasterů, kteří nemohou své stránky do Yahoo protlačit. Systém, který používá Hubat, hodně ulehčí administraci systému – místo 30 odkazů je nutné vložit pouze jediný. I pak ale pravděpodobně na běh robota někdo dohlíží a opravuje jeho případné chyby.

Nejlepší způsob, jak kvalitu Hubatova katalogu posoudit, je podívat se na něj. Určitě vás překvapí, že dokáže k vybraným stránkám přiřadit i poměrně inteligentní popisek. Tato vlastnost se ale do dnešního článku už nevejde a tak mi nezbývá než popřát vám skvělého Silvestra a možná se setkáme nad dalšími zajímavými nápady zase v budoucnu.
Našli jste v článku chybu?
120na80.cz: 5 nejčastějších mýtů o kondomech

5 nejčastějších mýtů o kondomech

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Vitalia.cz: Bižuterie tisícinásobně překračuje povolené limity

Bižuterie tisícinásobně překračuje povolené limity

Podnikatel.cz: Chtějte údaje k dani z nemovitostí do mailu

Chtějte údaje k dani z nemovitostí do mailu

Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

Podnikatel.cz: Chaos u EET pokračuje. Jsou tu další návrhy

Chaos u EET pokračuje. Jsou tu další návrhy

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

DigiZone.cz: ČT má dalšího zástupce v EBU

ČT má dalšího zástupce v EBU

Vitalia.cz: Pravda o přibírání na zimu

Pravda o přibírání na zimu

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

DigiZone.cz: Velká cena v Abú Dhabí: 131 ti­síc diváků

Velká cena v Abú Dhabí: 131 ti­síc diváků

Vitalia.cz: Když přijdete o oko, přijdete na rok o řidičák

Když přijdete o oko, přijdete na rok o řidičák

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá

120na80.cz: Rovnátka, která nejsou vidět

Rovnátka, která nejsou vidět

Měšec.cz: Europlatby: někde bez poplatku, jinde i 350 Kč

Europlatby: někde bez poplatku, jinde i 350 Kč

Root.cz: 250 Mbit/s po telefonní lince, když máte štěstí

250 Mbit/s po telefonní lince, když máte štěstí

DigiZone.cz: Perspektivy TV v roce 1939 podle časopisu Life

Perspektivy TV v roce 1939 podle časopisu Life

Měšec.cz: Banky mlží o nákladech na předčasnou splátku hypotéky

Banky mlží o nákladech na předčasnou splátku hypotéky

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

120na80.cz: Co všechno ovlivňuje ženskou plodnost?

Co všechno ovlivňuje ženskou plodnost?