Hlavní navigace

Vlákno názorů k článku Který vyhledávač je nejlepší? od Jirka - To jiste. Ale otazka je jak rychle. A...

Článek je starý, nové názory již nelze přidávat.

  • 14. 12. 2004 9:43

    Jirka (neregistrovaný)
    To jiste. Ale otazka je jak rychle. A taky jak zohlednit nektere veci, ktere tak uplne do statistiky nepatri.
  • 14. 12. 2004 9:07

    jk (neregistrovaný)
    Jezkovy voci, proc tak slozite? ;-) Vahy, kvantily,... Staci vybirat nahodne, a ono to dokonverguje. (tzv. "zakon velkych cisel")
  • 13. 12. 2004 23:30

    Jirka (neregistrovaný)
    Fajn, jsem rad, ze Vase i me PR funguje uplne stejne :-). Skutecne jsem hlavne proti testovani tech top500 dotazu.

    Na druhou stranu, kritizoval jste vyber testovanych frazi (z 2. odstavce Vaseho vyjadreni uvedeneho v clanku jsem vycitil, ze byste mnohem radsi prave tech top500). Ony by zas tak moc nemusely byt od toho nahodneho vyberu daleko. Ale to je velmi tezke posoudit, kdyz clovek nema pred sebou tu tabulku pravdepodobnosti (a rekl bych, ze Vy ji muzete mit). Kazdopadne vyber byl autorem clanku proveden naprosto nesystematicky.

    Co se tyce toho "sex"u, take nevim, jak to presne zohlednit, proto jsem reseni ani nenavrhnul. On je vubec problem s tim, jak poznat, ktery vysledek je relevantni. Podle me je u takoveto slova vysledek tim relevantnejsi, cim vic hambatych fotek na nem najdu. Technicky popis souloze by vetsinu tazatelu asi nenadchnul. A podobne "vlak jizdni rad Praha Kolin" a "panda cervena" maji zcela jina kriteria relevantnosti. K tomu vsemu posuzovani relevantnosti je veci velmi subjektivni. Test by mel byt proveden alespon nekolika lidmi.

    U tech nejhledanejsich frazi je podle me skutecne asi zdaleka nejlepsi prachsprosty index.
  • 13. 12. 2004 22:58

    Michal Illich (neregistrovaný)
    Naprosto s vámi souhlasím! :)

    Toto jsem také měl na mysli, když jsem říkal, že by měly být hodnoceny jak časté, tak méně časté dotazy. Totéž jsem měl na mysli, když tady pořád dokolečka říkám, že testované dotazy by měly ve svých vlasnostech odpovídat tomu, co uživatelé skutečně vyhledávají.

    Možná nesouhlasíte spíš s Jirkou Lahvičkou, ten navrhoval testovat hlavně Top dotazy.

    Snad jen dílčím způsobem nesouhlasím s tím, že u dotazů 'sex' či 'práce' uživatel nečeká nějaké extra výsledky, že mu stačí prostě "nějaké" výsledky. Podle mě je důležité, aby i na tyto dotazy dostal uživatel co nejlepší stránky.

    A také malý zlepšovák: není úplně potřeba dělat nějaké škatulky a složitě to vážit, stačí vybírat dotazy náhodně. Tím zajistíte nejen to, že bude váš vzorek vyvážený ve vlastnosti, kterou kontrolujete (třeba četnost nebo diakritika), ale i ve vlastnostech ostatních.
    Aha, teď čtu váš příspěvek ještě jednou a vidím, že náhodnost také navrhujete, takže spolu opravdu souhlasíme téměř ve všem :)
  • 13. 12. 2004 22:47

    Jirka (neregistrovaný)
    Kdyz tak o tom premyslim, mozna by to slo jeste jednoduseji: Udelat seznam vsech vyhledavanych vyrazu s jejich pravdepodobnostmi. Z nich uniformne vybrat, rekneme, 1000 vyrazu. Preskalovat jejich pravdepodobnosti tak, aby dohromady daly 100%. Pak otestovat jejich relevanci a pri vypoctu celkove kvality brat relevanci kazdeho vyrazu s takovou vahou, jakou ma vyraz pravdepodnost.

    Tohle ma nicmene problem, ze s velmi velkou pravdepodobnosti se nepouziji nejvice vyhledavana slova.

    Jeste me napadlo, ze kdyby se ze seznamu vsech spojeni vyloucila spojeni, ktera se za dany casovy usek hledala mene nez, dejme tomu, petkrat, relevanci testu by to nejspis prospelo, protoze by se asi vyloucilo dost spojeni, ktera uzivatele vlastne ani nechteli hledat (preklepy, chyby apod...)

    Jeste par, snad samozrejmych poznamek. U te me prvni navrhovane metody neni potreba testovat x set vyrazu z posledni skatulky. Staci jen nahodne vybrat treba 3 (cim vice, tim lepe) a vysledky naskalovat tak, aby tyto 3 vyrazy mohly reprezentovat vysledky cele skatulky.

    Skatulek nemusi byt nutne 100, staci treba 20. Ale cim vic skatulek, tim presnejsi vysledek.

    Jo a abych nezapomnel - operuje se tu vsude s pravdepodobnosti, takze by bylo zahodno test spustit nekolikrat a jako relevantni vysledek brat prumer.

    !Kazdopadne, vydavat za relevantni test, ktery obsahuje 10 vyrazu, neni vubec profesionalni a Lupa si jiste zaslouzi vice!
  • 13. 12. 2004 22:29

    Jirka (neregistrovaný)
    M.I. ma sice pravdu, ze takto polozene dotazy jsou nejcastejsi, ale zapomina na dve veci:

    1) Uzivatel, ktery zada jednoslovny a velmi obecny pojem jako "sex" nebo "prace" neceka nijak extra relevantni vysledky. Bude mu bohate stacit, kdyz se mu ukazi nejake nahotinky a nebo mu vyjede seznam agentur nabizejici praci. Uz se ale urcite nechce v prvnim okamziku nic dovedet o podrobnostech. Chce hlavne rychle _nejake_ vysledky. Na druhou stranu, kdyz se clovek chce opravdu neco dovedet, zadava delsi fraze, ktere dotaz specifikuji.

    2) Pokud bychom vychazeli z predpokladu, ze nejlepsi vyhledavac najde nejlepsi vysledky pro tech 500 nejhledanejsich frazi, ktere jsou na http://www.jyxo.cz/top/, tak by asi nejefektivnejsi bylo pro ne rucne udelat index. Razem by takovy vyhledavac byl nejlepsi. Evidentne, toto neni to prave orechove.

    Podle me, musi samozrejme vyhledavac byt schopen vyhledat relevantni stranky jak pro ty nejcastejsi dotazy, tak hlavne i pro ty mene caste. Pricemz samozrejme ty dotazy mene caste jsou pro uzivatele mnohem bolestivejsi. Je mu jedno, jakou nahotinku mu vyhledavac najde, kdyz zada "porno". Za to mu uz vubec neni jedno, ze mu vyhledavac najde na dotaz "atrofie dasni" clanek z www.islamweb.cz .

    Jinymi slovy by se to dalo vyjadrit takto: Ano, hodnotme kvalitu vyhledavace podle vyrazu, ktera uzivatele vyhledavaji, ale vybirejme je spravedlive. Tedy treba tak, ze udelame databazi vsech hledanych vyrazu, priradime jim pravdepodobnosti polozeni a seradime je od nejcasteji vyhledavanych k nejmene casto vyhledavanym. Pak v celem seznamu udelejme 99 car, kterymi ho rozskatulkujeme na 100 casti, pricemz v prvni bude nejmene vyrazu, ale za to takove, ktere se nejcasteji vyskytuji, a v posledni budou nejspis jen vyrazy, ktere byly zadany jen jednou, ale za to jich bude opravdu hodne.

    Nyni z techto vsech skatulek vyberme reprezentativni vzorky tak, aby soucet vyrazu pro danou skupinu byl, rekneme, 0.01%. Uz ted je jasne, ze v pripade prvni skatulky mame problem, protoze vyraz "sex" a nektera dalsi se asi vyskytuji casteji. Ale to neni zas takovy problem. Bud vysledky pro tuto skatulku pozdeji preskalujeme (pouzijeme vahy), nebo z ni vybereme takova slova, aby soucet jejich pravdepodobnosti se blizil co nejlepe te hranici 0.01%. Obecne by bylo nejlepsi, kdyby vyber vyrazu ze skatulky byl nahodny (myslim, ze by stacilo pouzit jednoduche uniformni rozdeleni, ale nejlepsi by zase byly nejake vahy odpovidajici pravdepodobnostem daneho vyrazu).

    Je jasne, ze v posledni skatulce bude spousta vyrazu, z nichz kazdy da do vysledku jen velmi malo, ale za to dohromady daji do vseskatulkoveho vysledku uplne stejne jako to malo vyrazu vybranych z prvni skatulky.

    Snad jsem to moc nezamlzil :-). Chtel jsem jen naznacit, ze Michal Illich je velmi schopny v PR (a nastesti nejen tam) a tak je nutno nad jeho reakcemi trochu premyslet.