Hlavní navigace

Názor k článku Který vyhledávač je nejlepší? od Jirka - M.I. ma sice pravdu, ze takto polozene dotazy...

Článek je starý, nové názory již nelze přidávat.

  • 13. 12. 2004 22:29

    Jirka (neregistrovaný)
    M.I. ma sice pravdu, ze takto polozene dotazy jsou nejcastejsi, ale zapomina na dve veci:

    1) Uzivatel, ktery zada jednoslovny a velmi obecny pojem jako "sex" nebo "prace" neceka nijak extra relevantni vysledky. Bude mu bohate stacit, kdyz se mu ukazi nejake nahotinky a nebo mu vyjede seznam agentur nabizejici praci. Uz se ale urcite nechce v prvnim okamziku nic dovedet o podrobnostech. Chce hlavne rychle _nejake_ vysledky. Na druhou stranu, kdyz se clovek chce opravdu neco dovedet, zadava delsi fraze, ktere dotaz specifikuji.

    2) Pokud bychom vychazeli z predpokladu, ze nejlepsi vyhledavac najde nejlepsi vysledky pro tech 500 nejhledanejsich frazi, ktere jsou na http://www.jyxo.cz/top/, tak by asi nejefektivnejsi bylo pro ne rucne udelat index. Razem by takovy vyhledavac byl nejlepsi. Evidentne, toto neni to prave orechove.

    Podle me, musi samozrejme vyhledavac byt schopen vyhledat relevantni stranky jak pro ty nejcastejsi dotazy, tak hlavne i pro ty mene caste. Pricemz samozrejme ty dotazy mene caste jsou pro uzivatele mnohem bolestivejsi. Je mu jedno, jakou nahotinku mu vyhledavac najde, kdyz zada "porno". Za to mu uz vubec neni jedno, ze mu vyhledavac najde na dotaz "atrofie dasni" clanek z www.islamweb.cz .

    Jinymi slovy by se to dalo vyjadrit takto: Ano, hodnotme kvalitu vyhledavace podle vyrazu, ktera uzivatele vyhledavaji, ale vybirejme je spravedlive. Tedy treba tak, ze udelame databazi vsech hledanych vyrazu, priradime jim pravdepodobnosti polozeni a seradime je od nejcasteji vyhledavanych k nejmene casto vyhledavanym. Pak v celem seznamu udelejme 99 car, kterymi ho rozskatulkujeme na 100 casti, pricemz v prvni bude nejmene vyrazu, ale za to takove, ktere se nejcasteji vyskytuji, a v posledni budou nejspis jen vyrazy, ktere byly zadany jen jednou, ale za to jich bude opravdu hodne.

    Nyni z techto vsech skatulek vyberme reprezentativni vzorky tak, aby soucet vyrazu pro danou skupinu byl, rekneme, 0.01%. Uz ted je jasne, ze v pripade prvni skatulky mame problem, protoze vyraz "sex" a nektera dalsi se asi vyskytuji casteji. Ale to neni zas takovy problem. Bud vysledky pro tuto skatulku pozdeji preskalujeme (pouzijeme vahy), nebo z ni vybereme takova slova, aby soucet jejich pravdepodobnosti se blizil co nejlepe te hranici 0.01%. Obecne by bylo nejlepsi, kdyby vyber vyrazu ze skatulky byl nahodny (myslim, ze by stacilo pouzit jednoduche uniformni rozdeleni, ale nejlepsi by zase byly nejake vahy odpovidajici pravdepodobnostem daneho vyrazu).

    Je jasne, ze v posledni skatulce bude spousta vyrazu, z nichz kazdy da do vysledku jen velmi malo, ale za to dohromady daji do vseskatulkoveho vysledku uplne stejne jako to malo vyrazu vybranych z prvni skatulky.

    Snad jsem to moc nezamlzil :-). Chtel jsem jen naznacit, ze Michal Illich je velmi schopny v PR (a nastesti nejen tam) a tak je nutno nad jeho reakcemi trochu premyslet.