Hlavní navigace

Záhadný Google Toolbar PageRank

Dušan Janovský 25. 1. 2005

Google tvrdí, že odraz PageRanku zobrazovaný na Toolbaru je pouze informace pro uživatele, jak moc je právě prohlížená stránka důvěryhodná. Znát přibližný PageRank se ovšem vyplácí také při běžné optimalizaci stránek. Pomocí odhaleného algoritmu kontrolního součtu si navíc můžete nasimulovat komunikaci toolbaru se servery Googlu.

Google hodnotí stránky veličinou zvanou PageRank. Je to číslo, které si Google počítá pro každé jednotlivé URL, které na webu najde. Hodně úkazů nasvědčuje tomu, že Google skutečně PageRank používá, a autoři Googlu to také uvádějí v dokumentacích a propagačních materiálech.

Odraz hodnoty PageRanku je pro každou stránku vidět na Google Toolbaru. To je (jak pravděpodobně víte) nástrojová lišta, kterou si lze doinstalovat do Internet Exploreru. Toolbar pro jiné prohlížeče neexistuje.

Google toolbar si uživatelé Internet Exploreru můžou stáhnout a nainstalovat na adrese http://toolbar­.google.com. Během instalace se instalátor ptá, zda si přejete povolit rozšířené volby. To se mimochodem týká právě toolbarového PageRanku. Kdo si rozšířené volby nepovolí, ten toolbarový PageRank neuvidí.

Smysl toolbarového PageRanku

Takto vypadá proužek s toolbarovým PageRankem (klikněte pro zvětšení):

1513

Jak uvádějí autoři toolbaru, zelený proužek, na kterém je hodnota vidět, má pouze jediný zamýšlený účel – naznačit uživateli stránky, jak moc je právě prohlížená stránka důvěryhodná. Nic víc. Že kolem hodnoty toolbarového ranku leckdo tropí neúměrný povyk, je ze sociologického hlediska zajímavý úkaz.

K čemu je PageRank

Je třeba upřímně přiznat, že nikdo s výjimkou nejhlubších zaměstnanců Googlu neví, k čemu přesně PageRank je. Jsou pouze odůvodněné teorie. Vyšší PageRank by měl znamenat:

  • vyšší umístění stránky ve výsledcích hledání,
  • rychlejší aktualizaci stránek v indexu,
  • větší ochotu robota sledovat nové odkazy.

Ale ruku do ohně za to nikdo nedá.

Výpočet PageRanku je popsán v původní dokumentaci ke Google. Na základě této dokumentace vzniklo několik různých návodů vysvětlujících, jak vlastně PageRank funguje. Asi nejpopulárnější je PageRank explained s různými pofidérními modely, které ovšem pro pochopení základů odkazových strategií stačí. Asi nejlepší české zdroje na téma obecného PageRanku naleznete zde na Lupě v článku Michala Illicha (model náhodného brousiče) nebo v článku od Martina Kopty (Slavný trik velkého kouzelníka). Matematiky odkazuji na vzoreček.

PageRank stránky A se počítá z odkazů, které na danou stránku míří ze všech různých stránek B. Čím je těch odkazujících stránek B více, tím lépe. Ještě důležitější ale je, aby samy tyto stránky B měly vysoký PageRank. Také je důležité, aby na těch odkazujících stránkách B bylo kromě odkazu na stránku A málo dalších odkazů (přeposílaný vliv se dělí počtem tamních odkazů).

Rád dávám k PageRanku dva kulhající příměry. První je příměr o mohutnosti řeky. Řeka je natolik mohutná (má takový PageRank), jak mohutné má přítoky – vůbec nejde o to, kolik má přítoků. Druhý příměr je o babičce a vnoučatech (stránka babička jako odkazuje na stránky vnoučata). Pokud má babička pět vnoučat (odkazuje na pět stránek), dostane každé vnouče k vánocům dvě stokoruny (málo PageRanku). Kdyby měla tato babička jenom jedno vnouče (jeden odkaz), tak mu pošle k vánocům celý tisíc (hodně PageRanku).

Různá měřítka PageRanku

Při studiu PageRanku nejspíš brzy zjistíte, že je značný zmatek v tom, v jakých číslech se PageRank vyjadřuje. Věřte nevěřte, objevují se čtyři různé „soustavy“, vůči nimž se může PageRank chápat:

  1. PageRank počítaný od nuly do jedničky, matematicky nejhezčí teoretický model. Naprostá většina stránek v tomto modelu má PageRank velmi blízký nule. Hodně teoretické.
  2. PageRank počítaný podle vzorečku z originální dokumentace a podle různých populárních návodů (zadejte do Googlu dotaz PageRank). Dosahuje hodnot od 0,15 do několika miliónů až miliard. Tyto návody do toho vnášejí pěkný zmatek.
  3. PageRank, který si počítá Google interně. Neznámé hodnoty v neznámém intervalu s neznámou přesností, jedná se však o ta nejdůležitější čís­la.
  4. PageRank, který se zobrazuje na Google Toolbaru, označovaný jako Toolbar PageRank. Dosahuje hodnot od nuly do deseti, což je sice velmi hrubé dělení, ale na druhou stranu je pro veřejnost snadno pochopitelné.

Tak… a teď, jak se to přepočítává. První tři soustavy jsou vlastně to samé, protože jsou lineárně převoditelné. Pokud si pod tím nic nepředstavíte, můžete to zkusit tak, že jednou je to v kilometrech, podruhé v milimetrech a potřetí v metrech (velmi laicky podáno). Vždycky jsou to jenom nějaká čísla (pro každou stránku jedno číslo) vypočítaná z nějaké odkazové sítě a je jedno, jaké mají jednotky.

Zajímavější je to ovšem s Toolbarovým PageRankem, o kterém pojednává tento text. Zde je zřejmé, že nejde o lineární odvozeninu interních čísel, uvažuje se spíše o odvozenině logaritmické. Představte si to třeba tak, že Google si pro stránku www.lupa.cz vypočítá z odkazové sítě nějaké šílené číslo se sedmi číslicemi, třeba pět miliónů. A teď to na toolbarový PageRank převede podle nějaké logaritmické tabulky, dejme tomu se základem deset. Takže si řekne „Fajn, pět miliónů má sedm číslic, na toolbaru bude pro Lupu sedmička“.

Toto je ovšem jenom laické přiblížení postupu, jak by to mohlo fungovat, takže tuto pasáž prosím necitovat! Ale přibližně logaritmická škála odpovídá zkušenosti webmasterů. Jakmile je totiž stránka mladá, tak se jí dobře stoupá. Začne na nule a jak nasbírá dva tři odkazy, brzo se dostane na jedničku. Na dvojku či trojku na toolbaru stránce stačí nějakých deset dvacet odkazů. Jakmile se ale stránka dostane na toolbaru na čtyřku nebo na pětku, přestane se zlepšovat tak rychle. Logaritmický model to pěkně ilustruje – čím jsem výš, tím těžší je další stoupání.

Dokonce se často stává, že toolbarový PageRank stránky poklesne. To nemusí být jenom tím, že stránka ztrácí odkazy. Spíše je to tím, že Google ten přepočet mění, a jak je v síti stále více stránek, neustále jej zpřísňuje, aby toolbarový PageRank vyjadřoval relativní důležitost dané stránky. Kdyby to Google nezpřísňoval, nastala by inflace (opět zjednodušuji).

Jak si stojíte?

Dokud jsou stránky mladé, nemají GTPR žádný. Proužek na toolbaru je celý bílý, čili nula. Tato nula neznamená, že na stránku nevedou žádné odkazy, ale prostě to, že v databázi ranků stránka zatím nemá záznam. Pro některé stránky, které v databázi Googlu jsou už velmi dlouho, sice toolbar ukazuje také nulu, ale takových je málo.

Po příští aktualizaci ranku stránky trochu vyskočí. Není těžké dostat stránku na GTPR čtyřku. GTPR pětka už je slušná stránka a šestka (v českých poměrech) nadprůměr. GTPR sedmičku má z českých webů jenom několik desítek stránek. Osmičku míval Toplist nebo Navrcholu, dnes má osmičku z českých stránek (pokud vím) pouze Karlova univerzita.

Za devítkou a desítkou už musíme do zahraničí. Nikoho asi nepřekvapí desítka u yahoo.com nebo google.com, ale třeba msn.com má jenom devítku.

Pokud vás trápí, že soused má šestku a vy jenom pětku, nedělejte si z toho těžkou hlavu. Kromě toho, že na tom doopravdy nezáleží, je dobré si uvědomit, že se PageRank počítá zvlášť pro každé jedno URL, nikoliv pro celý web. Takže třeba – podle mě – je lepší mít web s pěti stránkami, každou s toolbarovým rankem 5, než jednu stránku s rankem 6.

Jak PageRank v toolbaru funguje

Když v Internet Exploreru zobrazím nějakou stránku, dejme tomu www.example.com, tak si toho Google Toolbar všimne a pošle na server toolbarqueries­.google.com/ požadavek. V odpověď dostane číslo, které zobrazí. Komunikace probíhá normálním http protokolem. Požadavek vypadá takto:

http://toolbar­queries.google­.com/search?cli­ent=navclient-auto&q=info: www%2Eexample%2E­com&features=Ran­k&ch=6904731021

Když provedu pitvu požadavku, tak:

http://toolbar­queries.google­.com/search je prostě adresa skriptu, který toolbar dotazuje, ale funguje i www.google.com/se­arch

client=navclient-auto je nějaký parametr, bez kterého to nefunguje,

q=info:www.exam­ple.com je url, u kterého chce toolbar znát rank

features=Rank je parametr, kterým toolbar říká, že chce jenom rank (bez tohoto parametru by dostal celé popiskové XML)

ch=6904731021 je tajný parametr specifický pro každé URL (ch jako checksum). O parametru ch se ještě zmíním.

Na výše uvedený požadavek o www.example.com přijde pro Google Toolbar jako odpověď toto:

Rank1:1:7

Důležitá je jen ta sedmička na konci. (První jednička je o ničem, druhá jednička udává počet číslic výsledku. Např. pro www.google.com vypadá odpověď takto: Rank1:2:10). Toolbar tu sedmičku vezme a nakreslí zelený proužek odpovídající délky.

Parametr ch funguje jako ochrana před automatickým dotazováním. Toolbar v sobě má zabudován tajný algoritmus, kterým si za provozu pro každé URL vypočítá parametr ch. Podle správného ch server pozná, že jej dotazuje Google Toolbar, protože parametr ch by žádný jiný program neměl být schopen vypočítat. To je možná důvod, proč toolbar neexistuje pro Mozillu – algoritmus by se asi v rozšířeních Mozilly nedal dobře utajit, ale to hádám. Pokud na server pošlete požadavek bez správného parametru ch odpovídajícího dotazu, dostanete chybu 403.

Odsekávání parametrů

  • Pokud se s Google Toolbarem podíváte na statickou stránku bez parametrů (v jejíž adrese prostě není otazník), řekne vám Toolbar odvozený rank přesně takový, jaký pro dané URL zná.
  • Pokud se ovšem podíváte na dynamickou stránku, která má v adrese otazník, dostanete odpověď nepřesnou. Toolbar totiž před odesláním dotazu na server toolbarqueries­.google.com z adresy odstraní všechno, co je za otazníkem.

Příklad pro stránku /clanek.php3?show=3­485:

V Exploreru na toolbaru to vypadá, že stránka s článkem má toolbarový PageRank rovný nule. Je to tím, že se toolbar ptá serveru na údaje o useknutém URL:

/clanek.php3?

To je ovšem adresa, na kterou nevedou žádné odkazy, a tak má rank skutečně roven nule. Pokud by se ale toolbar zeptal na rank konkrétní stránky, třeba tímto dotazem:

http://www.go­ogle.com/sear­ch?client=nav­client-auto&ch=630262­32856& q=info:/clanek­.php3?show=3485

dostal by odpověď, že článek má rank 2. Kdo máte stránky s dynamickými adresami, vidíte na toolbaru tedy jiný rank, než stránky skutečně mají.

V tomto ohledu se zvyky toolbaru docela mění (software se automaticky aktualizuje). Ještě v prosinci 2004 se toolbar ptal sice též na useknuté URL, ale otazník z toho mazal také. Těžko říci, jak to bude za měsíc. Před několika lety měl toolbar ještě jiný zvyk – PageRank stránek, které neznal, odhadoval z adresářové struktury. Vyskákal po adresářích na URL, které znal, dozvěděl se PageRank, za každý adresář do hloubky potom ubral jeden bodík a odhad zobrazil. Dlouho už to tak ale nedělá.

Aktualizace toolbarového PageRanku

Servery Google, kterých se toolbar ptá na rank, tedy nějak vědí, jaký rank která stránka má. Nepočítají si to ovšem průběžně, ale nárazově aktualizují údaje pro všechna URL najednou. Google si ta čísla asi někde předpočítá a nahrává to na popiskové servery ve vlnách. Možná to souvisí s tím, jak je iterační výpočet PageRanku pro všechny stránky webu náročný (několik miliard stránek).

Rok 2004 byl, co se aktualizací toolbarového PageRanku týká, poměrně zajímavý. Zhruba celé léto se totiž GTPR pro žádnou stránku neaktualizoval. První velká aktualizace proběhla 16. března, pak se to měnilo průběžně přibližně do konce dubna. Načež dlouho nic, dokonce se uvažovalo o tom, jestli Google tuhle funkci nehodlá zrušit. Až 9. září se ranky konečně razantně změnily. Další malé aktualizace proběhly koncem října (to si nejsem zcela jistý) a pak těsně před koncem roku.

Tak zvané prolomení PageRanku

Už jsme si popsali, jak dotazovat server, pokud chcete zjistit rank. Můžete přímo dotazovat popiskové servery, ale u každého dotazu potřebujete ale znát parametr ch, bez kterého to nefunguje. Toolbar je navržen tak, aby se ch nedalo z dotazu spočítat.

Pro konkrétní URL, které jste už Explorerem navštívili, můžete parametr ch najít v prohlížečové keši. Čerpám z jednoho návodu:

  • Navštivte Explorerem stránku, u které chcete znát ch.
  • Jděte do keše prohlížeče, seřaďte objekty podle názvu. Hledejte položku začínající textem search? ze serveru toolbarqueries­.google.com.
  • Položku dvojklikem otevřete. Dostanete se na stránku s výpisem ranku, jejíž URL je velmi dlouhé a obsahuje pro parametr ch správnou hodnotou.

Ačkoli jde o postup logický, je to poněkud zdlouhavé a nedá se to aplikovat pro adresy obsahující otazník. Kdyby existoval algoritmus, který pro dané URL parametr ch vypočítá, bylo by to zajímavější. Právě takový algoritmus odhalil v březnu 2004 autor stránky http://www.top25web­.com/pagerank­.php. Tato stránka dovolovala (a stále dovoluje) zjistit toolbarový PageRank u mnoha URL najednou. Byla to tehdy docela převratná událost. Například Petr Weida napsal, že Toolbar PageRank je prolomen, přičemž přesnější by asi bylo, kdyby napsal, že byl prolomen pouze Toolbar. Veřejně známý vzorec výpočtu samotného PageRanku totiž není třeba prolamovat.

Přibližně v téže době, na jaře 2004, prokmitla ohledně PageRanku křivka humbuku. Zatímco předtím byl PageRank téměř nábožně vyznáván jako kouzelný proutek pro úspěch stránek, dnes je mezi odbornější veřejností PageRank bezmála odepsán coby totální zbytečnost a hračka pro webmastery. Oba přístupy jsou dle mého názoru chybné.

CIF16

Dnes je znám i algoritmus výpočtu parametru ch. Lze jej dokonce stáhnout jako program v PHP (pokud se v algoritmu budete šťourat a něco z něj budovat, dejte pozor na šestku, která se těsně před koncem vždycky přidává na začátek výsledku). Tento algoritmus je pravděpodobně použit v hledání na Google s výpisem toolbarového PageRanku. Během aktualizace rankových databází na různých googleovských serverech se dají posuny sledovat nástrojem Future PageRank, který dotaz na rank posílá na různé servery.

Googlu se samozřejmě nelíbí, že byl odhalen výpočet jeho tajného parametru. Proto vydal novou nenápadnou verzi toolbaru 2.0.114 (toolbar se aktualizuje automaticky), v němž výpočet trochu změnil. Dotazy ze starých verzí toolbaru jsou stále akceptovány, ale počítá se, že je Google časem vypne a bude přijímat pouze nová ch. Ovšem i výpočet z verze 2.0.114 byl rozlousknut, takže lze očekávat, že se ještě bude měnit.

Anketa

Jaký je podle vašeho názoru skutečný význam GTPR?

Našli jste v článku chybu?
Vitalia.cz: Dostal malý pivovar ze Slovenska do Tesca

Dostal malý pivovar ze Slovenska do Tesca

Lupa.cz: Patička e-mailu závazná jako vlastnoruční podpis?

Patička e-mailu závazná jako vlastnoruční podpis?

DigiZone.cz: Nova opět stahuje „milionáře“

Nova opět stahuje „milionáře“

Vitalia.cz: Tohle jsou nejlepší česká piva podle odborníků

Tohle jsou nejlepší česká piva podle odborníků

Vitalia.cz: Muž, který miluje příliš. Ženám neimponuje

Muž, který miluje příliš. Ženám neimponuje

DigiZone.cz: O2 TV doplnilo kanály HBO v HD

O2 TV doplnilo kanály HBO v HD

DigiZone.cz: UPC má v nabídce Discovery v HD

UPC má v nabídce Discovery v HD

DigiZone.cz: Mordparta: trochu podchlazený 87. revír

Mordparta: trochu podchlazený 87. revír

120na80.cz: Zázrak ze smetiště: co léčí lopuch?

Zázrak ze smetiště: co léčí lopuch?

DigiZone.cz: Pure má tři nové přijímače DAB

Pure má tři nové přijímače DAB

Lupa.cz: Další Češi si nechali vložit do těla čip

Další Češi si nechali vložit do těla čip

DigiZone.cz: Digi2GO: výborný základ, ale...

Digi2GO: výborný základ, ale...

Vitalia.cz: Jaký je rozdíl mezi brambůrky a chipsy?

Jaký je rozdíl mezi brambůrky a chipsy?

Vitalia.cz: dTest odhalil ten nejlepší kečup

dTest odhalil ten nejlepší kečup

Vitalia.cz: Tahák, jak vyzrát nad zápachem z úst

Tahák, jak vyzrát nad zápachem z úst

DigiZone.cz: RRTV: licence pro Šlágr TV

RRTV: licence pro Šlágr TV

Podnikatel.cz: Babišovy firmy a registr smluv. Co odhalil?

Babišovy firmy a registr smluv. Co odhalil?

120na80.cz: Hrbatá prsa aneb mýty o implantátech

Hrbatá prsa aneb mýty o implantátech

Podnikatel.cz: Byla finanční manažerka, teď cvičí jógu

Byla finanční manažerka, teď cvičí jógu

DigiZone.cz: Rapl: seriál, který vás smíří s ČT

Rapl: seriál, který vás smíří s ČT