Hlavní navigace

Jak pracuje tematický PageRank (TPR)

David Bureš 24. 3. 2004

Originální PageRank algoritmus slouží k zlepšení hodnocení výsledků při vyhledávání. Je počítán jako vektor a používá strukturu odkazů na webu pro určení relativní důležitosti daných stránek. Pro získání přesnějších výsledků je lepší získat sadu PageRank vektorů, počítaných podle předem daných reprezentativních témat.

Jednoduše řečeno: místo řazení podle klasického PageRanku dojde k řazení podle tématického PageRanku, a to podle toho, jehož téma se bude nejvíce blížit tématu vámi hledané fráze, či jinak preferovaného. Pro běžné vyhledávání se počítá tematicky citlivý PageRank pro nalezené stránky pomocí tematického zaměření vyhledávaných slov.

Vyhledáváme-li v kontextu (například tím, že na webové stránce zvýrazníme slova a ta jsou použita pro vyhledávání), je užito téma daného kontextu, v němž se vyhledávaná slova nachází. Použitím kombinace takto předpočítaných tematických PageRanků jsme schopni dosáhnout přesnějších výsledků při vyhledávání.

Použití tematicky zaměřeného PagaRanku rozšiřuje původní předpoklad – že webové stránky, které jsou odkazovány ostatními stránkami, jsou důležité, a tudíž jsou důležité i webové stránky, na něž odkazují (klasický PageRank) – o myšlenku, že stránky, které na sebe odkazují, se týkají podobného tématu. Změníme-li PageRank na tematicky citlivý, vyhneme se ve výsledcích vysokému hodnocení webových stránek, jež jsou sice dobře a ze široka zalinkované, ale velmi málo tematicky souvisejí s námi hledanou frází. Webové stránky důležité při hledání jednoho tématu nemusí být důležité pro hledání tématu jiného.

Vzhledem k velké náročnosti na výpočetní výkon není možné počítat TPR zvlášť pro všechna myslitelná témata, ale v návrhu Tahera H. Haveliwaly ze Standford University se počítá s předpočítáváním TPR pro sadu základních témat, převzatých z Open Directory, ve spolupráci s mnohočlennou klasifikací (naive-Bayes classifier – Machine Learning) hledaného dotazu či hledaného kontextu.

Ve zmíněném návrhu se počítá se dvěma scénáři. V prvním dochází k zadání vyhledávací fráze do vyhledávače, je zjištěno téma, kterého se dotaz týká, a výsledky jsou řazeny podle TPR daného tématu. Toto zajistí, že se ve výsledcích objeví webové stránky, jejichž odkazová struktura má nějaký vztah k hledanému tématu.

Ve druhém scénáři předpokládáme, že uživatel si prohlíží nějaký dokument (webovou stránku nebo email) a vybere si výraz, pro který by chtěl získat více informací. Zde je vybírán TPR na základě kontextu, ve kterém se hledané slovo nachází. Takže jiné výsledky dostaneme, hledáme-li slovo „architektura“ z dokumentu o designu CPU, a jiné výsledky budou, týká-li se dokument stavby budov.

Další zdroj kontextu může přijít od uživatele, jenž hledá dané téma, například z jeho záložek v prohlížeči či již prohlédnutých webových stránek. Toto je možné – pro zachování soukromí – udělat tak, že se pošle jen váha jednotlivých hlavních témat. Například že váha uživatelových preferencí tématu Počítače je 0,5.

Taher H. Haveliwala navrhuje spočítat při získávání obsahu z webu (crawl time) TPR podle URL z 16ti nevyšších kategorií v Open Directory (ODP). V době dotazování (query time) je počítána podobnost dotazu ke každému z těchto 16ti témat. Poté je k seřazení výsledků použita kombinace jednotlivých TPR, přičemž je jim dána váha podle podobnosti tématu k dotazu. Protože jsou jednotlivé TPR počítány offline a nikoliv v době dotazu, není tento způsob o mnoho časově náročnější než řazení dle klasického PR.

MIF16

Pro výpočet jednotlivých TPR je sice možno použít jakýkoliv jiný zdroj, dělící stránky podle kategorií, ale záměrně je použito ODP, které vytvářejí tisíce dobrovolných editorů, a to proto, že díky principu svého vzniku je méně náchylné na ovlivňování. Pro vyloučení vlivu „špatných“ editorů dochází k modifikaci, kdy je nejdřív spočítán TPR na stránkách uvedených ODP a posléze je rozdistribuován na všechny stránky na webu.

Tak teď nám nezbývá než si počkat, až nasadí TPR třeba Google. Zamotalo by to hlavu nejen SEO „konzultantům“, ale hlavně by to ztížilo jejich šance na manipulace s výsledky.

Anketa

Nasadí Google TPR?

Našli jste v článku chybu?
DigiZone.cz: Samsung EVO-S: novinka pro Skylink

Samsung EVO-S: novinka pro Skylink

Podnikatel.cz: Letáky? Lidi zuří, ale ony stále fungují

Letáky? Lidi zuří, ale ony stále fungují

Vitalia.cz: Výrobci začnou snížovat obsah cukru, soli a tuku

Výrobci začnou snížovat obsah cukru, soli a tuku

DigiZone.cz: Nova opět stahuje „milionáře“

Nova opět stahuje „milionáře“

Vitalia.cz: Tesco nabízí desítky tun jídla zdarma

Tesco nabízí desítky tun jídla zdarma

120na80.cz: Na různou rýmu různá homeopatie

Na různou rýmu různá homeopatie

120na80.cz: Co je padesátkrát sladší než cukr?

Co je padesátkrát sladší než cukr?

Vitalia.cz: Tohle jsou nejlepší česká piva podle odborníků

Tohle jsou nejlepší česká piva podle odborníků

Podnikatel.cz: Babišovi se nedá věřit, stěžovali si hospodští

Babišovi se nedá věřit, stěžovali si hospodští

Vitalia.cz: Muž, který miluje příliš. Ženám neimponuje

Muž, který miluje příliš. Ženám neimponuje

DigiZone.cz: LG OLED65E6: první pohled

LG OLED65E6: první pohled

Podnikatel.cz: Takhle se prodávají mražené potraviny

Takhle se prodávají mražené potraviny

Vitalia.cz: 5 chyb, které děláme při skladování potravin

5 chyb, které děláme při skladování potravin

DigiZone.cz: O2 TV doplnilo kanály HBO v HD

O2 TV doplnilo kanály HBO v HD

Vitalia.cz: dTest odhalil ten nejlepší kečup

dTest odhalil ten nejlepší kečup

Vitalia.cz: Test dětských svačinek: Tyhle ne!

Test dětských svačinek: Tyhle ne!

Podnikatel.cz: Poslanci chtějí sebrat majetek Bakalovi

Poslanci chtějí sebrat majetek Bakalovi

DigiZone.cz: UPC má v nabídce Discovery v HD

UPC má v nabídce Discovery v HD

Vitalia.cz: Tahák, jak vyzrát nad zápachem z úst

Tahák, jak vyzrát nad zápachem z úst

Vitalia.cz: Když všichni seli řepku, on vsadil na dýně

Když všichni seli řepku, on vsadil na dýně