Internet Info, s.r.o. Lupa Root Měšec Podnikatel DigiZone Slunečnice Vitalia new Bomba Navrcholu Weblogy Jagg Woko Dobrý web Computer.cz SK: MojeLinky


Lupa.cz » Rubriky » Vyhledávače » Jak pracuje tematický PageRank (TPR)

Jak pracuje tematický PageRank (TPR)

David Bureš – 24. 3. 2004 6:25

Originální PageRank algoritmus slouží k zlepšení hodnocení výsledků při vyhledávání. Je počítán jako vektor a používá strukturu odkazů na webu pro určení relativní důležitosti daných stránek. Pro získání přesnějších výsledků je lepší získat sadu PageRank vektorů, počítaných podle předem daných reprezentativních témat.

Nálepky
  1. Google
  2. SEO

Jednoduše řečeno: místo řazení podle klasického PageRanku dojde k řazení podle tématického PageRanku, a to podle toho, jehož téma se bude nejvíce blížit tématu vámi hledané fráze, či jinak preferovaného. Pro běžné vyhledávání se počítá tematicky citlivý PageRank pro nalezené stránky pomocí tematického zaměření vyhledávaných slov.

Vyhledáváme-li v kontextu (například tím, že na webové stránce zvýrazníme slova a ta jsou použita pro vyhledávání), je užito téma daného kontextu, v němž se vyhledávaná slova nachází. Použitím kombinace takto předpočítaných tematických PageRanků jsme schopni dosáhnout přesnějších výsledků při vyhledávání.

Použití tematicky zaměřeného PagaRanku rozšiřuje původní předpoklad - že webové stránky, které jsou odkazovány ostatními stránkami, jsou důležité, a tudíž jsou důležité i webové stránky, na něž odkazují (klasický PageRank) - o myšlenku, že stránky, které na sebe odkazují, se týkají podobného tématu. Změníme-li PageRank na tematicky citlivý, vyhneme se ve výsledcích vysokému hodnocení webových stránek, jež jsou sice dobře a ze široka zalinkované, ale velmi málo tematicky souvisejí s námi hledanou frází. Webové stránky důležité při hledání jednoho tématu nemusí být důležité pro hledání tématu jiného.

Vzhledem k velké náročnosti na výpočetní výkon není možné počítat TPR zvlášť pro všechna myslitelná témata, ale v návrhu Tahera H. Haveliwaly ze Standford University se počítá s předpočítáváním TPR pro sadu základních témat, převzatých z Open Directory, ve spolupráci s mnohočlennou klasifikací (naive-Bayes classifier - Machine Learning) hledaného dotazu či hledaného kontextu.

Ve zmíněném návrhu se počítá se dvěma scénáři. V prvním dochází k zadání vyhledávací fráze do vyhledávače, je zjištěno téma, kterého se dotaz týká, a výsledky jsou řazeny podle TPR daného tématu. Toto zajistí, že se ve výsledcích objeví webové stránky, jejichž odkazová struktura má nějaký vztah k hledanému tématu.

Ve druhém scénáři předpokládáme, že uživatel si prohlíží nějaký dokument (webovou stránku nebo email) a vybere si výraz, pro který by chtěl získat více informací. Zde je vybírán TPR na základě kontextu, ve kterém se hledané slovo nachází. Takže jiné výsledky dostaneme, hledáme-li slovo "architektura" z dokumentu o designu CPU, a jiné výsledky budou, týká-li se dokument stavby budov.

Další zdroj kontextu může přijít od uživatele, jenž hledá dané téma, například z jeho záložek v prohlížeči či již prohlédnutých webových stránek. Toto je možné - pro zachování soukromí - udělat tak, že se pošle jen váha jednotlivých hlavních témat. Například že váha uživatelových preferencí tématu Počítače je 0,5.

Taher H. Haveliwala navrhuje spočítat při získávání obsahu z webu (crawl time) TPR podle URL z 16ti nevyšších kategorií v Open Directory (ODP). V době dotazování (query time) je počítána podobnost dotazu ke každému z těchto 16ti témat. Poté je k seřazení výsledků použita kombinace jednotlivých TPR, přičemž je jim dána váha podle podobnosti tématu k dotazu. Protože jsou jednotlivé TPR počítány offline a nikoliv v době dotazu, není tento způsob o mnoho časově náročnější než řazení dle klasického PR.

Pro výpočet jednotlivých TPR je sice možno použít jakýkoliv jiný zdroj, dělící stránky podle kategorií, ale záměrně je použito ODP, které vytvářejí tisíce dobrovolných editorů, a to proto, že díky principu svého vzniku je méně náchylné na ovlivňování. Pro vyloučení vlivu "špatných" editorů dochází k modifikaci, kdy je nejdřív spočítán TPR na stránkách uvedených ODP a posléze je rozdistribuován na všechny stránky na webu.

Tak teď nám nezbývá než si počkat, až nasadí TPR třeba Google. Zamotalo by to hlavu nejen SEO "konzultantům", ale hlavně by to ztížilo jejich šance na manipulace s výsledky.

David Bureš

Autor pracuje jako development manager a dále se zabývá webdesignem a SEO, má svůj weblog na adrese www.websky.cz

Školení: Jak na firemní Facebook a Twitter prakticky

DW - Školení PPC
  • Vytvoření vhodného sociálního mixu pro vaši firmu.
  • Jak efektivně propojit Facebook a Twitter s firemním webem.
  • Jak měřit a vyhodnocovat zapojení firmy do sociálních sítí.
  • Řešení krizové situace v sociální síti nebo jejím prostřednictvím

Detailní informace o kurzu...

Anketa

Nasadí Google TPR?

56%
36%
8%
Odpovědělo 25 čtenářů.

Názory

Sledování názorů

Registrovaným uživatelům nabízíme upozornění na nové názory e-mailem. Prosím, přihlaste se nebo se zaregistrujte.

Přehled názorů

Nastavení kvality: Vlastní Vše 2 3 4 5 6 7 8 9
BEZOHLEDNÁ REKLAMA Ronnie 24. 3. 2004 7:22 Nový
   Re: BEZOHLEDNÁ REKLAMA Patrick Zandl 24. 3. 2004 8:52 Nový
   Re: BEZOHLEDNÁ REKLAMA dgx 24. 3. 2004 11:47 Nový
   Re: BEZOHLEDNÁ REKLAMA Petr 24. 3. 2004 12:00 Nový
   Re: BEZOHLEDNÁ REKLAMA Martin Kopta 24. 3. 2004 14:01 Nový
   Re: BEZOHLEDNÁ REKLAMA hrebinek 24. 3. 2004 17:46 Nový
   Re: BEZOHLEDNÁ REKLAMA Ronnie 24. 3. 2004 19:52 Nový
Vždy se najdou cestičky Robert Němec 24. 3. 2004 7:28 Nový
   Re: Vždy se najdou cestičky David Bureš 24. 3. 2004 7:55 Nový
   Re: Vždy se najdou cestičky Robert Němec 24. 3. 2004 8:20 Nový
   Re: Vždy se najdou cestičky Martin Kalenda 24. 3. 2004 8:32 Nový
   Re: Vždy se najdou cestičky Robert Němec 24. 3. 2004 8:44 Nový
   Re: Vždy se najdou cestičky PaJaSoft 24. 3. 2004 15:09 Nový
   Re: Vždy se najdou cestičky Robert Němec 24. 3. 2004 16:01 Nový
   Re: Vždy se najdou cestičky David Bureš 24. 3. 2004 8:41 Nový
   Re: Vždy se najdou cestičky Robert Němec 24. 3. 2004 8:47 Nový
   Re: Vždy se najdou cestičky Jan Brta 25. 3. 2004 16:09 Nový
   Re: Vždy se najdou cestičky deda.jabko 24. 3. 2004 15:54 Nový
   Re: Vždy se najdou cestičky Václav Mach 25. 3. 2004 16:01 Nový
   Re: Vždy se najdou cestičky Digero 25. 3. 2004 8:39 Nový
vzal zálohu a .. Filip 24. 3. 2004 9:09 Nový
STOP 16ti Yeti 24. 3. 2004 10:03 Nový
   Re: STOP 16ti Martin Kopta 24. 3. 2004 14:10 Nový
   Re: STOP 16ti Martin Trčka 25. 3. 2004 14:26 Nový
Tematický Petr Tesařík 25. 3. 2004 18:52 Nový
   Re: Tematický Martin Kopta 26. 3. 2004 23:57 Nový
Zobrazit kvalitníZobrazit vše Přidat

Další články v rubrice Vyhledávače

Vodafone_CZ na Twitter

Vodafone_CZ: @ondrabenes Nabídka je pouze pro brouzdání v rámci Internetu v mobilu na den, L.
30. 7. 11:41

Vodafone_CZ: @dejvknap Všechny telefony v naší nabídce jsou neblokované, L.
30. 7. 10:27

Vodafone_CZ: Nezapomeňte, že dnes máte internet v mobilu zdarma :), Více na http://bit.ly/apURNS, L.
30. 7. 10:20