Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia TopDrive KupDnes Navrcholu NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Nové trendy ve vyhledávání

V dávných dobách Internetu fulltextové vyhledavače neexistovaly - uživatelé se pohybovali po stránkách svých výzkumných ústavů, případně používali bookmarky na domácích stránkách ostatních. Když se objevili roboti, kteří Internet pročesávali a umožňovali vyhledat stránky obsahující zadaná slova, byl to velký přelom.

Nyní má ale Internet několik miliard stránek a dříve používané algoritmy vyhledavačů již nefungují. Stránek, které splňují nějaké kritérium (např. obsahují slovo „lupa“), bývají tisíce nebo milióny – uživateli jich je ale vráceno obvykle jen deset. Vyhledávač musí vybrat ty, které uživateli přinesou největší užitek (v našem příkladu by to pro českého uživatele mohla být třeba adresa /). Velkým tématem jak současných hledačů tak i tohoto článku je relevance výsledků a její zvyšování. Dnes se podíváme na algoritmy, které používají analýzu hyperlinků.

Síla v odkazech

Internet, ač velmi chaotický (nebo demokratický, volný, anarchistický, svobodný), má také svůj řád a strukturu. Ta je daná propojením jednotlivých stránek. Kromě vlastního těla stránky má vyhledavač tedy k dispozici ještě informaci, která leží MIMO tuto stránku. Ta bývá často dokonce důležitější než obsah posuzované stránky, a umožňuje přesnější zhodnocení jejího tématu, typu či důležitosti.

Všechny moderní vyhledavače v menší či větší míře informaci z hyperlinků posuzují. Toto tvrzení se bohužel netýká veřejně přístupných hledačů českých, z pokud vím, neumí to ani jediný. Nyní se podíváme, jaké konkrétní informace můžeme z hyperlinků vyčíst:

Známost stránky

Nejjednodušší, co můžeme posuzovat, je počet odkazů, které na danou stránku ukazují. Dá se pak předpokládat, že více linkovaná stránka je známější. Tato úvaha má ale několik chyb – nepochytí rozdíl mezi tím, jestli na stránku ukazuje milión jednotlivých uživatelů nebo někde jediný robot vygeneroval milión umělých stránek, které mají stránku podpořit svými hyperlinky. Navíc také není totéž, že vás z hlavní stránky linkuje Yahoo nebo vás zmiňuje váš kamarád Honza.

Před dvěma lety přišel s dobrým řešením tehdy neznámý Google. Zakládá si na své veličině pojmenované PageRank (jak podle svého autora Larryho Pagee, tak přeložitelné jako „hodnost stránky“). Google interpretuje hyperlink jako hlas pro cílovou stránku. Tyto hlasy ale nemají stejnou váhu – stránka, která má sama vyšší PageRank, má pak větší váhu při hodnocení ostatních. S určitým zjednodušením se dá říct, že PageRank nějaké stránky je součet PageRanků stránek, které na ni odkazují.

Představte si, že „náhodný surfer“ sedí před svým počítačem, prohlíží si stránky na Internetu a náhodně kliká na odkazy. Čas od času ho to přestane bavit a přeskočí na jinou, zcela náhodnou stránku. Z definice PageRanku vyplývá, že je to pravděpodobnost, že se tento náhodný surfer bude v kterémkoliv okamžiku nacházet na dané stránce. Google tak nejen aproximuje známost nějaké stránky, ale také její návštěvnost.

Tento algoritmus dobře řeší dříve zmíněné problémy. Uměle vygenerovaným stránkám nepřizná větší váhu, než jakou si zaslouží (tedy obvykle žádnou, protože na ně nikdo nelinkuje), a odkazy z důležitých a dobře spravovaných zdrojů jako je např. Yahoo nebo DMOZ dobře ocení. V prvním prototypu Google nedělal nic jiného, než že vzal stránky, které mají hledané slovo v titulku a seřadil stránky podle PageRanku. I samotní autoři byli překvapeni, že takto jednoduchý postup funguje obvykle lépe než konkurenční Altavista.

Distribuce textu odkazu

Ve světě platí jednoduchá závislost: Lepší pozice ve vyhledavači znamená více návštěvníků, to pak znamená více peněz. Každého webmastera pak dříve či později napadne upravit svou stránku, aby se používaným vyhledavačům co nejvíc líbila – a někteří jdou tak daleko, že svou stránku prošpikují desítkami opakovaných (a často irelevantních) slov a tím hloupější vyhledávače úplně popletou. Co pak zmůže vyhledávač, když někteří uživatelé na svých stránkách úmyslně matou? Odpověď jsme již jednou zmínili – musí použít informaci, kterou webmaster stránky nemá pod kontrolou. Obecně tomu můžeme říkat externí validace.

Ve své nejjednodušší formě to může znamenat vzít texty odkazů (tedy ta podtržená slova) a připsat je cílovým stránkám. Při vhodné statistické reprezentaci (která zohledňuje různorodost odkazujících serverů) pak máme informaci, kterou v podstatě nelze nijak zkompromitovat. Pokud např. 60% odkazů, které mají ve svém textu slovo Yahoo, ukazují na www.yahoo.com, můžeme z toho dobře usoudit na relevanci této stránky k dotazu „yahoo“. Složitější algoritmy zohledňují i texty kolem odkazu (což mohou být třeba popisky v katalozích) nebo celou stránku.

Kontakty? Setkání? Předplaťte si celoroční členství v NetClubu

Chcete být v centru dění, v internetové komunitě? Setkávat se s těmi, jejichž názory hýbou českým internetem? Předplaťte si členství na každoměsíčním setkání NetClubu a potkávejte se s zajímavými lidmi. Bližší informace zde

Letošní druhý NetClub proběhne v únoru s Erikem Taberym, šéfredaktorem časopisu Respekt, který lidé buďto milují, nebo nenávidí. 

       

Tuto techniku používá opět Google (původně jen vlastní texty odkazů, nyní údajně i jejich okolí), dále Excite (celý obsah domény, tzv. theming) a také Altavista (přinejmenším ve svých výzkumech, na výsledcích jejího vyhledávání to není nijak znát).

Příště

Přes mou snahu nějak do tohoto článku ještě vtěsnat informace o Clever Search od IBM nebo o určování podobnosti stránek se tento text poměrně rozrostl a tak si tato témata necháme na příště. Můžete také očekávat informace o rozeznávání významu slov, automatické kategorizaci a psaní popisků. Uvítám vaše komentáře a názory v diskusním fóru.

Michal Illich

@michalillich, nyní podnikatel, mentor a případný investor; předtím zakladatel firmy Jyxo, která kromě vyhledávače vyvinula i Blog.cz, Galerie.cz a původní verzi Sklik.cz.

Školení Google+ pro firmy

DW - Školení PPC
  • Jak využít Google+ pro firemní komunikaci a marketing.
  • Čím se liší Google+ od Twitteru a Facebooku z pohledu firemního využití.
  • Jak využít Google+ v souladu s pravidly užívání.
  • Založení Google+ Page (Stránky) krok po kroku, včetně praktických tipů.

Detailní informace o školení Google+ »

Přehled názorů

Pochvala
Miroslav Obeslo 19. 12. 2000 11:18
Nový
Vyhledávače neexistovaly?
Jiri Ludvik 19. 12. 2000 12:08
Nový
└ 
Re: Vyhledavace neexistovaly?
Michal Illich 19. 12. 2000 19:36
Nový
Neverte reklame
Sustek 19. 12. 2000 14:37
Nový
├ 
Re: Neverte Sustekovi (was: Neverte reklame)
Ladislav Zajicek 19. 12. 2000 16:35
Nový
├ 
Re: Neverte Sustekovi (was: Neverte reklame)
Ladislav Zajicek 19. 12. 2000 16:37
Nový
├ 
Re: Neverte Sustekovi (was: Neverte reklame)
Ladislav Zajicek 19. 12. 2000 16:42
Nový
│
└ 
Re: Neverte Sustekovi (was: Neverte reklame)
jan chavel 20. 12. 2000 05:43
Nový
│
 
├ 
Re: Neverte Sustekovi (was: Neverte reklame)
David Nebeský 20. 12. 2000 09:02
Nový
│
 
│
├ 
Re: Neverte Sustekovi (was: Neverte reklame)
Sustek 20. 12. 2000 11:01
Nový
│
 
│
└ 
Re: Neverte Sustekovi (was: Neverte reklame)
jan chavel 20. 12. 2000 20:12
Nový
│
 
├ 
Re: Neverte Sustekovi (was: Neverte reklame)
VmiP 21. 12. 2000 09:44
Nový
│
 
│
└ 
Re: Neverte Sustekovi (was: Neverte reklame)
VmiP 21. 12. 2000 09:51
Nový
│
 
│
 
└ 
Re: Neverte Sustekovi (was: Neverte reklame)
Ladislav Zajicek 21. 12. 2000 11:16
Nový
│
 
│
 
 
└ 
Taky mam zajem
pARANOIk 22. 12. 2000 02:07
Nový
│
 
│
 
 
 
└ 
Re: Taky mam zajem
Ladislav Zajicek 22. 12. 2000 12:09
Nový
│
 
└ 
Re: Neverte Sustekovi (was: Neverte reklame)
Ladislav Zajicek 22. 12. 2000 12:03
Nový
├ 
Re: Neverte reklame
Lukáš Mižoch 19. 12. 2000 17:26
Nový
│
├ 
Re: Neverte reklame
Sustek 20. 12. 2000 08:17
Nový
│
│
└ 
Re: Neverte reklame
Lukáš Mižoch 22. 12. 2000 11:31
Nový
│
└ 
Re: Neverte reklame
Patrik Chrz 20. 12. 2000 18:14
Nový
├ 
Re: Neverte reklame
Pepa Kokes 19. 12. 2000 18:43
Nový
├ 
Re: Neverte reklame
Michal Illich 19. 12. 2000 19:20
Nový
│
└ 
Re: Neverte reklame
Sustek 20. 12. 2000 08:51
Nový
│
 
├ 
Re: Neverte reklame
Pepa Kokes 20. 12. 2000 09:17
Nový
│
 
│
└ 
Re: Neverte reklame
Sustek 20. 12. 2000 11:06
Nový
│
 
│
 
└ 
Re: Neverte reklame
Pepa Kokes 20. 12. 2000 12:39
Nový
│
 
│
 
 
└ 
Re: Neverte reklame
Sustek 20. 12. 2000 12:56
Nový
│
 
│
 
 
 
└ 
Re: Neverte reklame
Jindrich Sarson 20. 12. 2000 13:34
Nový
│
 
│
 
 
 
 
└ 
Re: Neverte reklame
Sustek 20. 12. 2000 15:03
Nový
│
 
│
 
 
 
 
 
├ 
Re: Neverte reklame
Pepa Kokes 20. 12. 2000 15:28
Nový
│
 
│
 
 
 
 
 
└ 
Re: Neverte reklame - algoritmus k indexovani
Jindrich Sarson 20. 12. 2000 16:18
Nový
│
 
│
 
 
 
 
 
 
└ 
Re: Neverte reklame - algoritmus k indexovani
Sustek 20. 12. 2000 19:59
Nový
│
 
│
 
 
 
 
 
 
 
└ 
Re: Neverte reklame - algoritmus k indexovani
Jindrich Sarson 21. 12. 2000 01:12
Nový
│
 
└ 
Re: Neverte reklame
Karel Panek 20. 12. 2000 12:27
Nový
│
 
 
└ 
Re: Neverte reklame
Sustek 20. 12. 2000 13:20
Nový
├ 
Re: Neverte reklame
Petr Klimovic 20. 12. 2000 08:40
Nový
├ 
Re: Neverte reklame
Filip Jirsák 20. 12. 2000 11:02
Nový
├ 
Re: Neverte reklame
Radek 20. 12. 2000 11:17
Nový
└ 
Upresneni
Karel Panek 20. 12. 2000 11:56
Nový
Yahoo
Jiří Doškář 19. 12. 2000 17:12
Nový
pouze malicka chybicka
jiri pallas 19. 12. 2000 17:13
Nový
├ 
Re: pouze malicka chybicka
Pepa Kokes 19. 12. 2000 18:47
Nový
└ 
Re: pouze malicka chybicka
Michal Illich 19. 12. 2000 19:45
Nový
Co to je znamost stranky...
Jan Kotek 19. 12. 2000 17:21
Nový
├ 
Re: Co to je znamost stranky...
Michal Illich 19. 12. 2000 20:05
Nový
│
└ 
Re: Co to je znamost stranky...
Jan Kotek 20. 12. 2000 09:16
Nový
└ 
Re: Co to je znamost stranky...
Jiří Kubička 21. 12. 2000 00:34
Nový
 
└ 
Re: Co to je znamost stranky...
Ladislav Zajicek 21. 12. 2000 06:42
Nový
Jiny nazev ?
Mk 19. 12. 2000 17:40
Nový
└ 
Re: Jiny nazev ?
Michal Illich 19. 12. 2000 19:28
Nový
PageRank
Michal Illich 20. 12. 2000 20:57
Nový
       

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem