Hlavní navigace

Jak pracuje tematický PageRank (TPR)

David Bureš 24. 3. 2004

Originální PageRank algoritmus slouží k zlepšení hodnocení výsledků při vyhledávání. Je počítán jako vektor a používá strukturu odkazů na webu pro určení relativní důležitosti daných stránek. Pro získání přesnějších výsledků je lepší získat sadu PageRank vektorů, počítaných podle předem daných reprezentativních témat.

Jednoduše řečeno: místo řazení podle klasického PageRanku dojde k řazení podle tématického PageRanku, a to podle toho, jehož téma se bude nejvíce blížit tématu vámi hledané fráze, či jinak preferovaného. Pro běžné vyhledávání se počítá tematicky citlivý PageRank pro nalezené stránky pomocí tematického zaměření vyhledávaných slov.

Vyhledáváme-li v kontextu (například tím, že na webové stránce zvýrazníme slova a ta jsou použita pro vyhledávání), je užito téma daného kontextu, v němž se vyhledávaná slova nachází. Použitím kombinace takto předpočítaných tematických PageRanků jsme schopni dosáhnout přesnějších výsledků při vyhledávání.

Použití tematicky zaměřeného PagaRanku rozšiřuje původní předpoklad – že webové stránky, které jsou odkazovány ostatními stránkami, jsou důležité, a tudíž jsou důležité i webové stránky, na něž odkazují (klasický PageRank) – o myšlenku, že stránky, které na sebe odkazují, se týkají podobného tématu. Změníme-li PageRank na tematicky citlivý, vyhneme se ve výsledcích vysokému hodnocení webových stránek, jež jsou sice dobře a ze široka zalinkované, ale velmi málo tematicky souvisejí s námi hledanou frází. Webové stránky důležité při hledání jednoho tématu nemusí být důležité pro hledání tématu jiného.

Vzhledem k velké náročnosti na výpočetní výkon není možné počítat TPR zvlášť pro všechna myslitelná témata, ale v návrhu Tahera H. Haveliwaly ze Standford University se počítá s předpočítáváním TPR pro sadu základních témat, převzatých z Open Directory, ve spolupráci s mnohočlennou klasifikací (naive-Bayes classifier – Machine Learning) hledaného dotazu či hledaného kontextu.

Ve zmíněném návrhu se počítá se dvěma scénáři. V prvním dochází k zadání vyhledávací fráze do vyhledávače, je zjištěno téma, kterého se dotaz týká, a výsledky jsou řazeny podle TPR daného tématu. Toto zajistí, že se ve výsledcích objeví webové stránky, jejichž odkazová struktura má nějaký vztah k hledanému tématu.

Ve druhém scénáři předpokládáme, že uživatel si prohlíží nějaký dokument (webovou stránku nebo email) a vybere si výraz, pro který by chtěl získat více informací. Zde je vybírán TPR na základě kontextu, ve kterém se hledané slovo nachází. Takže jiné výsledky dostaneme, hledáme-li slovo „architektura“ z dokumentu o designu CPU, a jiné výsledky budou, týká-li se dokument stavby budov.

Další zdroj kontextu může přijít od uživatele, jenž hledá dané téma, například z jeho záložek v prohlížeči či již prohlédnutých webových stránek. Toto je možné – pro zachování soukromí – udělat tak, že se pošle jen váha jednotlivých hlavních témat. Například že váha uživatelových preferencí tématu Počítače je 0,5.

Taher H. Haveliwala navrhuje spočítat při získávání obsahu z webu (crawl time) TPR podle URL z 16ti nevyšších kategorií v Open Directory (ODP). V době dotazování (query time) je počítána podobnost dotazu ke každému z těchto 16ti témat. Poté je k seřazení výsledků použita kombinace jednotlivých TPR, přičemž je jim dána váha podle podobnosti tématu k dotazu. Protože jsou jednotlivé TPR počítány offline a nikoliv v době dotazu, není tento způsob o mnoho časově náročnější než řazení dle klasického PR.

Pro výpočet jednotlivých TPR je sice možno použít jakýkoliv jiný zdroj, dělící stránky podle kategorií, ale záměrně je použito ODP, které vytvářejí tisíce dobrovolných editorů, a to proto, že díky principu svého vzniku je méně náchylné na ovlivňování. Pro vyloučení vlivu „špatných“ editorů dochází k modifikaci, kdy je nejdřív spočítán TPR na stránkách uvedených ODP a posléze je rozdistribuován na všechny stránky na webu.

Tak teď nám nezbývá než si počkat, až nasadí TPR třeba Google. Zamotalo by to hlavu nejen SEO „konzultantům“, ale hlavně by to ztížilo jejich šance na manipulace s výsledky.

Anketa

Nasadí Google TPR?

Našli jste v článku chybu?

26. 3. 2004 23:57

Martin Kopta (neregistrovaný)
Čeština zakládá svůj pravopis na zvukové podobě řeči, takže správně je i přídavné jméno "tématický". Pravopisný slovník nikdy nebude obsahovat všechny pravopisně správné tvary.

25. 3. 2004 18:52

Petr Tesařík (neregistrovaný)
Supr! Konečně někdo, kdo ví, že je sice "téma", ale adjektivum od toho ("tematický") je kratce. Gratuluji autorovi, prip. korektorce. :)
DigiZone.cz: Mňam TV splnila slib a odešla z DVB-T

Mňam TV splnila slib a odešla z DVB-T

120na80.cz: Popraskané rty? Některé balzámy stav zhoršují

Popraskané rty? Některé balzámy stav zhoršují

Měšec.cz: Platby do zahraničí: pozor na tučné poplatky

Platby do zahraničí: pozor na tučné poplatky

Vitalia.cz: Vláknina: Rozpustná, nebo nerozpustná?

Vláknina: Rozpustná, nebo nerozpustná?

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Lupa.cz: Avast po spojení s AVG propustí 700 lidí

Avast po spojení s AVG propustí 700 lidí

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

Podnikatel.cz: Změny v daních z příjmů u zaměstnávání

Změny v daních z příjmů u zaměstnávání

Měšec.cz: U levneELEKTRO.cz už reklamaci nevyřídíte

U levneELEKTRO.cz už reklamaci nevyřídíte

120na80.cz: Rovnátka, která nejsou vidět

Rovnátka, která nejsou vidět

Lupa.cz: Babiš: E-shopů se EET možná nebude týkat

Babiš: E-shopů se EET možná nebude týkat

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

Vitalia.cz: Chtějí si léčit kvasinky. Lék je jen v Německu

Chtějí si léčit kvasinky. Lék je jen v Německu

Lupa.cz: UX přestává pro firmy být magie

UX přestává pro firmy být magie

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Vitalia.cz: Spor o mortadelu: podle Lidlu falšovaná nebyla

Spor o mortadelu: podle Lidlu falšovaná nebyla

Podnikatel.cz: Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

Podnikatel.cz: Pozor, pojišťovny mění čísla účtů

Pozor, pojišťovny mění čísla účtů

Podnikatel.cz: EET zvládneme, budou horší zákony

EET zvládneme, budou horší zákony