Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia TopDrive KupDnes Navrcholu NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Jak pracuje tematický PageRank (TPR)

Originální PageRank algoritmus slouží k zlepšení hodnocení výsledků při vyhledávání. Je počítán jako vektor a používá strukturu odkazů na webu pro určení relativní důležitosti daných stránek. Pro získání přesnějších výsledků je lepší získat sadu PageRank vektorů, počítaných podle předem daných reprezentativních témat.

Jednoduše řečeno: místo řazení podle klasického PageRanku dojde k řazení podle tématického PageRanku, a to podle toho, jehož téma se bude nejvíce blížit tématu vámi hledané fráze, či jinak preferovaného. Pro běžné vyhledávání se počítá tematicky citlivý PageRank pro nalezené stránky pomocí tematického zaměření vyhledávaných slov.

Vyhledáváme-li v kontextu (například tím, že na webové stránce zvýrazníme slova a ta jsou použita pro vyhledávání), je užito téma daného kontextu, v němž se vyhledávaná slova nachází. Použitím kombinace takto předpočítaných tematických PageRanků jsme schopni dosáhnout přesnějších výsledků při vyhledávání.

Použití tematicky zaměřeného PagaRanku rozšiřuje původní předpoklad – že webové stránky, které jsou odkazovány ostatními stránkami, jsou důležité, a tudíž jsou důležité i webové stránky, na něž odkazují (klasický PageRank) – o myšlenku, že stránky, které na sebe odkazují, se týkají podobného tématu. Změníme-li PageRank na tematicky citlivý, vyhneme se ve výsledcích vysokému hodnocení webových stránek, jež jsou sice dobře a ze široka zalinkované, ale velmi málo tematicky souvisejí s námi hledanou frází. Webové stránky důležité při hledání jednoho tématu nemusí být důležité pro hledání tématu jiného.

Vzhledem k velké náročnosti na výpočetní výkon není možné počítat TPR zvlášť pro všechna myslitelná témata, ale v návrhu Tahera H. Haveliwaly ze Standford University se počítá s předpočítáváním TPR pro sadu základních témat, převzatých z Open Directory, ve spolupráci s mnohočlennou klasifikací (naive-Bayes classifier – Machine Learning) hledaného dotazu či hledaného kontextu.

Ve zmíněném návrhu se počítá se dvěma scénáři. V prvním dochází k zadání vyhledávací fráze do vyhledávače, je zjištěno téma, kterého se dotaz týká, a výsledky jsou řazeny podle TPR daného tématu. Toto zajistí, že se ve výsledcích objeví webové stránky, jejichž odkazová struktura má nějaký vztah k hledanému tématu.

Ve druhém scénáři předpokládáme, že uživatel si prohlíží nějaký dokument (webovou stránku nebo email) a vybere si výraz, pro který by chtěl získat více informací. Zde je vybírán TPR na základě kontextu, ve kterém se hledané slovo nachází. Takže jiné výsledky dostaneme, hledáme-li slovo „architektura“ z dokumentu o designu CPU, a jiné výsledky budou, týká-li se dokument stavby budov.

Další zdroj kontextu může přijít od uživatele, jenž hledá dané téma, například z jeho záložek v prohlížeči či již prohlédnutých webových stránek. Toto je možné – pro zachování soukromí – udělat tak, že se pošle jen váha jednotlivých hlavních témat. Například že váha uživatelových preferencí tématu Počítače je 0,5.

Taher H. Haveliwala navrhuje spočítat při získávání obsahu z webu (crawl time) TPR podle URL z 16ti nevyšších kategorií v Open Directory (ODP). V době dotazování (query time) je počítána podobnost dotazu ke každému z těchto 16ti témat. Poté je k seřazení výsledků použita kombinace jednotlivých TPR, přičemž je jim dána váha podle podobnosti tématu k dotazu. Protože jsou jednotlivé TPR počítány offline a nikoliv v době dotazu, není tento způsob o mnoho časově náročnější než řazení dle klasického PR.

Blogujte na Lupě

Chcete mít vlastní blog o tématu kolem světa IT a internetu? Blogujte na Lupě a buďte na titulní stránce Lupy. Registrujte se na blog.lupa.cz.

       

Pro výpočet jednotlivých TPR je sice možno použít jakýkoliv jiný zdroj, dělící stránky podle kategorií, ale záměrně je použito ODP, které vytvářejí tisíce dobrovolných editorů, a to proto, že díky principu svého vzniku je méně náchylné na ovlivňování. Pro vyloučení vlivu „špatných“ editorů dochází k modifikaci, kdy je nejdřív spočítán TPR na stránkách uvedených ODP a posléze je rozdistribuován na všechny stránky na webu.

Tak teď nám nezbývá než si počkat, až nasadí TPR třeba Google. Zamotalo by to hlavu nejen SEO „konzultantům“, ale hlavně by to ztížilo jejich šance na manipulace s výsledky.

Anketa

Nasadí Google TPR?

       

David Bureš

Autor pracuje jako development manager a dále se zabývá webdesignem a SEO, má svůj weblog na adrese www.websky.

Kurzy web copywritingu - Praha, Brno, i internetové kurzy

DW - Školeny webcopywritingu
  • Jak správně strukturovat text na webové stránce.
  • Tajemství atraktivního a úderného titulku nejen pro vyhledávače.
  • Metody optimalizace webového textu pro vyhledávače.
  • PPC inzerát a jak ho napsat.
  • Pořádáme veřejné jednodenní školení i online kurzy.

Detailní informace o jednodenním kurzu psani pro web »

Detailní informace o online školení web copywritingu »

Akce: Využijte last minute slevu na školení v Brně!

Přehled názorů

BEZOHLEDNÁ REKLAMA
Ronnie 24. 3. 2004 07:22
Nový
├ 
Re: BEZOHLEDNÁ REKLAMA
Patrick Zandl 24. 3. 2004 08:52
Nový
│
└ 
Re: BEZOHLEDNÁ REKLAMA
dgx 24. 3. 2004 11:47
Nový
│
 
└ 
Re: BEZOHLEDNÁ REKLAMA
Petr 24. 3. 2004 12:00
Nový
├ 
Re: BEZOHLEDNÁ REKLAMA
Martin Kopta 24. 3. 2004 14:01
Nový
└ 
Re: BEZOHLEDNÁ REKLAMA
hrebinek 24. 3. 2004 17:46
Nový
 
└ 
Re: BEZOHLEDNÁ REKLAMA
Ronnie 24. 3. 2004 19:52
Nový
Vždy se najdou cestičky
Robert Němec 24. 3. 2004 07:28
Nový
├ 
Re: Vždy se najdou cestičky
David Bureš 24. 3. 2004 07:55
Nový
│
├ 
Re: Vždy se najdou cestičky
Robert Němec 24. 3. 2004 08:20
Nový
│
│
├ 
Re: Vždy se najdou cestičky
Martin Kalenda 24. 3. 2004 08:32
Nový
│
│
│
└ 
Re: Vždy se najdou cestičky
Robert Němec 24. 3. 2004 08:44
Nový
│
│
│
 
└ 
Re: Vždy se najdou cestičky
PaJaSoft 24. 3. 2004 15:09
Nový
│
│
│
 
 
└ 
Re: Vždy se najdou cestičky
Robert Němec 24. 3. 2004 16:01
Nový
│
│
├ 
Re: Vždy se najdou cestičky
David Bureš 24. 3. 2004 08:41
Nový
│
│
│
└ 
Re: Vždy se najdou cestičky
Robert Němec 24. 3. 2004 08:47
Nový
│
│
│
 
└ 
Re: Vždy se najdou cestičky
Jan Brta 25. 3. 2004 16:09
Nový
│
│
└ 
Re: Vždy se najdou cestičky
deda.jabko 24. 3. 2004 15:54
Nový
│
└ 
Re: Vždy se najdou cestičky
Václav Mach 25. 3. 2004 16:01
Nový
└ 
Re: Vždy se najdou cestičky
Digero 25. 3. 2004 08:39
Nový
vzal zálohu a ..
Filip 24. 3. 2004 09:09
Nový
STOP 16ti
Yeti 24. 3. 2004 10:03
Nový
└ 
Re: STOP 16ti
Martin Kopta 24. 3. 2004 14:10
Nový
 
└ 
Re: STOP 16ti
Martin Trčka 25. 3. 2004 14:26
Nový
Tematický
Petr Tesařík 25. 3. 2004 18:52
Nový
└ 
Re: Tematický
Martin Kopta 26. 3. 2004 23:57
Nový
       

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem