Hlavní navigace

Vlákno názorů k článku Který vyhledávač je nejlepší? od Tomáš Hodboď - Jak by tedy podle vás měla vypadat metodika...

Článek je starý, nové názory již nelze přidávat.

  • 14. 12. 2004 14:58

    Tomáš Hodboď (neregistrovaný)
    Jak by tedy podle vás měla vypadat metodika správného testu? Všichni jsme se zde bavili o malém počtu vzorků atd. Dobře, souhlasím, že čím větší vzorek dotazů (ať již počet, či různorodost) tím lépe.

    Pokud ale má z této diskuse být něco prospěšného pro příští testy, tak by to měla být ta správná metodika. Tu zatím nikdo nikde nenavrhl.
    Tedy očekávám návrhy, zda-li hodnotit všelijaká cinkrlátka (funkce, synonyma, skloňování, pokročilé hledání) nebo čistě kvalitu výsledků a o ostatní se v testu příliš nezajímat. IMHO je lepší se soustředit jen na kvalitu vyhledávače. Ostatně ty pokročilé funkce k ní směřují, takže bych je jednotlivě nechal stranou.

    A za druhé, jak samotnou kvalitu hodnotit, aby nebylo posuzování založeno na subjektivitě autora a bylo použitelné pro jakýkoli dotaz. To zde nikdo neřekl a nenvrhl. Očekávám tedy vaše názory na tento problém.
  • 14. 12. 2004 21:02

    Jirka (neregistrovaný)
    Vhodnou metodu jsem navrhl o kousek vyse. Dokonce dve ruzne, i kdyz podobne.

    Nejprve ale potrebujete statistiku cetnosti dotazu z nejakeho vyhledavace. Nevim, jestli M.Illich bude chtit pustit takovou informaci, preci jenom je to podstatna cast know how.

    Subjektivite se nevyhnete, kvalitu vysledku musi urcit lidsky tester. Ale melo by testovat vice lidi nezavisle na sobe a treba i ruzne vzorky (ziskane stejnou metodou).

    Nejlepsi by asi bylo pomoci statistiky a pravdepodobnosti ziskat seznam vyrazu, ktere chci otestovat, aniz bych o nich vedel neco vic. U kazdeho pak napsat, co od vyhledavace cekam. Teprve ted zacit testovat.

    Jeste je otazka, jak hodnotit. Umistenim prvniho ocekavaneho vysledku (cim mensi, tim lepsi)? Poctem ocekavanych vysledu v prvni desitce (cim vetsi, tim lepsi)? Nejak jinak?

    A pak uz je to jenom matematika.
  • 14. 12. 2004 21:27

    jk (neregistrovaný)
    To asi spatne ctete. Jinak me pripada mirne receno neslusne, ze Vy provedete metodicky velmi slaby test, dostanete za nej pravdepodobne honorar, a kdyz se v diskusi ctenari ozvou, vyzvete kritiky, at navrhnou, jak to delat lepe. (Navic, kdyz uz to v diskusi vicemene popsali.)

    Mimochodem i kdyz se podivam na Vas blog, tak mi Vase psani prijde povrchni a bez dostatecneho odborneho zazemi, coz je mi dost nesympaticke. Vubec nemam chut Vam zadarmo radit :-/

    No ale budiz - problem je zajimavy - jednoducha metodika

    1. Vezmou se nahodne dotazy. Pokud test staci "osobni", tak nahodnym vyberem z vasi osobni hledaci historie. Pokud chcete obecnejsi test, tak nahodnym vyberem z logu vyhledavace/vyhledavacu. Protoze vyhledavace maji ruzne skupiny uzivatelu, nejlepsi by bylo pro kazdy vyhledavac vzit dotazy jeho uzivatelu.

    2. Je treba brat logy alespon za tyden a vybirat nahodne z celeho logu. Je otazka, zda vyhledavace budou takove logy ochotne poskytnout (je to obchodne zajimava informace). Na druhou stranu nelze nechat vyber na vyhledavacich, protoze by mohli rucne ovlivnit vzorek a test tak zmanipulovat. Castecne reseni je takove - prohnat kazdy radek hesovaci funkci, napr. md5. Vyhledavac preda seznam hesi radku. Testujici nahodne vybere radky. Vyhledavac zverejni konkretni radky, da se overit hes. (Ja vim ze zmanipulovat se to da porad, ale je to pracnejsi.)

    3. Ted je treba (pred testem) ke kazdemu dotazu vymyslet a popsat "co mel hledajici na mysli". Toto je nejvetsi slabina testu, ale pokud nemame moznost dal sledovat chovani uzivatelu (napr. ktera stranka je skutecne uspokoji) nebo nejaky pruzkum uzivatelu, nic s tim nenadelame. Nejlepsi co se da udelat je, ze se pozadavky na relevantni stranku popisou predem. Takto se da vyporadat i s dotazy typu "eroticke povidky" nebo "lolita". Spravnou odpoved na ertocke povidky muzeme definovat napr. "stranka, ktera obsahuje alespon deset erotickych povidek zadarmo". Spravnou odpoved na "lolita" - "stranka, ktera obsahuje zadarmo bez rozsahlych reklam alespon 10 pornografickych fotografii nebo 3 video nebo 2 povidky s erotickou tematikou s divkami mladistveho vzhledu". Stejne dobre muzeme definovat jako spravnou odpoved "stranka o Nabokovove romanu" (ale jen jedno z toho!). Dulezite je, ze definujeme odpoved predem, nasi libovule v definici spravne odpovedi muzeme s primhourenyma ocima prohlasit za nahodny sum.

    4. Ted je treba zkonstruovat, co budeme merit.
    Na to by bylo dobre mit vyzkum, jak lide vysledky zpracovavaji. Ten nemame, takze je nejlepe se vydat cestou maximalni jednoduchosti. Priklad meritka - M je poradi prvniho relevantniho odkazu z prvnich 10 nalezenych, jinak 10. Pro snazsi chapani je asi jeste vhodne vzit to zaporne a posunout do 0. (rel. stranka na 1. miste -> 10 bodu atd.)
    Muzete to nazyvat treba jkSearchEngineRank (tm)(C){patent pending). Nebo vorisekSearchEngineRank ;-)

    5. Pro kazdy vyhledavac pocitame aritmeticky prumer a rozptyl vorisekSERu, coz bude normalni nahodna velicina. Provedeme 20 mereni (vezmeme 20 slov) a podivame se, jake to ma rozdeleni a jak nam to konverguje. Oproti rade lidi kteri tu od boku strili "stovky", ja bych si tipnul, ze pro urceni poradi vyhledavacu bude stacit tech 20 mereni.

    6. Vysledkem bude nejen poradi vyhledavacu, ale i jakasi hodnota, ktera se da sledovat s casem, neco o "narocnosti" vyrazu a dalsi zajimave veci. Proste dost na dobry clanek jednou za pul roku, pokud to tak udelate, nedekujte, misto toho z kazdeho hororare poslete 150Kc o.p.s. Clovek v tisni.

    HOWGH
  • 14. 12. 2004 21:49

    jk (neregistrovaný)
    ...prece jen jeste. V bodu 5. se muze ukazat, ze data jsou nevychovana. To se neda dopredu odhadnout. V tom pripade by bylo treba vzit vetsi statisticke kladivo - napriklad neco ze supliku "robustni metody".
  • 15. 12. 2004 15:41

    Michal Illich (neregistrovaný)
    Log dotazů klidně poskytneme. Náhodně z nich vybírat může nějaký důvěryhodný redaktor (nebo vezme každý ntý dotaz, jak navrhl Jirka Lahvička, s hodně velkým n). Nebo pokud chcete něco úplně nezávislého, požádejte Alenku, ta už v minulosti při různé příležitosti poskytovala statistiky.

    K tomu "vymyslet a popsat co mel hledajici na mysli") Zároveň by se tam neměla přidávat žádná dodatečná informace ("zadal jsem jen 'lolita', ale uznám pouze Nabokova!" nebo "zadal jsem mapa evropy, ale tajně si myslím, že je to do seminárky"). Dokud neumějí telepatii ani lidé, nebylo by úplně fér to vyžadovat od vyhledavače :)

    Náhodný výběr a hodnocení více lidmi je výborný základ. Ale jsou také různé typy dotazů (např. 'český telecom' má jen jedinou správnou odpověď, objektivně testovatelnou, ale 'mp3' je zase nutné hodnotit jinak a to dost subjektivně, a docela objektivně se dají testovat i ty 'datum narození pavla nedvěda').

  • 15. 12. 2004 15:54

    Tomáš Hodboď (neregistrovaný)
    > To asi spatne ctete. Jinak me pripada mirne receno neslusne, ze Vy provedete metodicky velmi slaby test, dostanete za nej pravdepodobne honorar, a kdyz se v diskusi ctenari ozvou, vyzvete kritiky, at navrhnou, jak to delat lepe. (Navic, kdyz uz to v diskusi vicemene popsali.)

    Popsanou metodiku ani její náznak jsem výše nenašel. V diskuzi jsme se bavili o malém počtu dotazů testu, s tím do jisté míry souhlasím. Ale jinak nevím v čem byla metodika tak špatná. Ptal jsem se pro příště, ať už by to psal kdokoli, ať si odnese z této diskuse alespoň nějaké ponaučení. Názory jako s tímhle souhlasím a já s tímhle ne se příliš využít nedají.

    Upřímně jsem vám vděčný. Jako jediný z diskutujích jste řádně dokázal něco více navrhnout. Nicméně stále se ta pravá metodika hledá. Vytýkali jste především subjektivitu, ale tento test je na ni také dosti závislý. A také - hodnotit pouze prvních 10 odkazů? Není to příliš malý trest pro vyhledávač, který nenajde nic použitelného? A také - hodnotit pouze stránku, kterou najde vyhledávač nebo se proklikávat dále?
  • 15. 12. 2004 16:07

    Tomáš Hodboď (neregistrovaný)
    > K tomu "vymyslet a popsat co mel hledajici na mysli") Zároveň by se tam neměla přidávat žádná dodatečná informace ("zadal jsem jen 'lolita', ale uznám pouze Nabokova!" nebo "zadal jsem mapa evropy, ale tajně si myslím, že je to do seminárky"). Dokud neumějí telepatii ani lidé, nebylo by úplně fér to vyžadovat od vyhledavače :)

    Jak potom chcete zajistit objektivnost? Ta je obzvláště složitá u jednoslovných dotazů, kdy nemůžete poznat co konkrétně uživatel hledal... mp3, auto, hudba, porno, ... nebo to dokážete? Nelíbí se vám, že takové dotazy v testu chybí, ale jak je otestovat už nenavrhnete.
  • 15. 12. 2004 16:08

    Jirka (neregistrovaný)
    Ad Lolita: S timhle ne tak zcela souhlasim. Hledajici je jen clovek a jako clovek neni dokonaly. Pta se jako clovek. Co kdyz krome Nabokova o zadne jine lolite nevi (zni to smesne, ale u spousty jinych veci to muze byt pravda, nakonec i toho Nabokova muze hledat 12 lete dite, ktere toho o preteenage sexu moc nevi). Navic tenhle problem bude potlacen, kdyz bude testovat vic lidi vic vyrazu. Proste relevance odpovedi musi byt dana tim, co vyhledavajici ocekaval. Ze se blbe ptal, to je uplne normalni a bezne. A navic, pro vsechny vyhledavace je to stejne.

    Prave u tech mp3 to chce vedet, co vlastne clovek ceka. Predstavuju si to tak, ze skupina lidi dostane seznam hesel, ktere bude nezavisle testovat. Kazdy si pod tim mp3 samozrejme predstavi neco jineho (bohuzel to zcela zrejme nemusi predstavovat to, co si pod tim pojmem predstavi vetsina). Tedy i vysledky by mel mit kazdy jiny. Nekdo hleda informaci, co to mp3 je, nekdo zas, kde stahne nejake nove pecky (stare slagry ho nezajimaji).

    Testeri by asi meli ocekavat to, co je jako prvni napadne. Nemeli by hledat klicky - "dobre, je to mp3, nejspis bych hledal nejakou muziku, ale vyzkousim ho, jestli najde nejaky technicky popis Fraunhoferova kodeku". To by urcite kvalite testu nepridalo. Samozrejmosti musi tedy byt i zverejneni toho, co se ocekavalo. Otazkou je, co delat, kdyz tester u nejakeho slova nebude tusit, ktera bije.
  • 15. 12. 2004 16:34

    Jirka (neregistrovaný)
    Subjektivity se nezbavite. Jen se musi potlacit. Coz se da, pokud bude testovat vic ruznych lidi, kteri se nezavisle budou rozhodovat, co od vysledku ocekavaji, a pozdeji jestli to, co dostali, je to, co ocekavali.

    Samozrejme muzete hodnotit treba prvnich 1000 dotazu. Ale pak bych nechtel bych testerem. Z vlastni zkusenosti vim, ze hledam v naproste vetsine jen na prvni strane vysledku (10 nalezenych odkazu), na druhou jdu vyjimecne, na treti skoro nikdy - snad jen u obrazku, protoze tam mam sanci rychle prohlednou obsah vsech najednou.

    Pokud bych mezi prvnimi deseti nenasel relevantni odkaz, do vysledku bych zapsal nejake trestne body, treba 20 (zalezi na dohode - nevidel bych to jako zasadni problem, navic se da po testu snadno zjistit, jak hodne tenhle parametr ovlivnuje vysledky). V pripade, ze by se pocitalo pocet relevantnich odkazu mezi prvnimi deseti, tak by vysledek byl v takovem pripade jednoduse 0.
  • 15. 12. 2004 16:42

    Jirka (neregistrovaný)
    "Ale jinak nevím v čem byla metodika tak špatná."

    Tohle jeste porad myslite vazne?
  • 15. 12. 2004 20:37

    jk (neregistrovaný)
    Hm. Otazka je, zda u vas lide vyhledavaji stejne veci jako napr. na Seznamu. Zajimava moznost by bylo zkouset kazdy vyhledavac proti dostatecne rozsahlym vzorkum dotazu z ostatnich vyhledavacu, ale to uz muze byt dost subtilni, tzn. velke vzorky, objem prace by kvadraticky rostl s poctem vyhledavacu... asi ne tema na clanek.

    Bylo by ale alespon vhodne smichat vzorek z vic vyhledavacu. Hypoteza ze uzivatele Jyxa jsou netypicti zni dost verohodne (prinejmensim ma Jyxo pomerne jinou reklamu nez treba Seznam).

    Vyhledavace sice neumeji telepatii, ale muzou nabidnout ruzne "interpetace dotazu". Napriklad u hesla lolita se nabizi a) Nabokovuv roman b) porno. Vyhledavac muze na prvnich mistech "prostridat" obe interpretace. Pokud to udela, tak v navrzene metodice dopadne pomerne dobre. Jiste mi rozumite, aby to bylo obecne jeste jasnejsi - kdyz budu vyhledavac ja, a nekdo se me zepta "tábor?" tak ja odpovím "a myslíte místo táboření, město Tábor, biblickou horu?". Totez muze umet vyhledavac.

    Vam by se asi libilo uznat "jakoukoli odpoved". To je ale nesmysl. Je potreba zohlednit, ze sance, ze dotazem "tábor?" mam na mysli napriklad studenta 3. rocnika gymnazia v Kutne Hore Josefa Tabora je nepatrna.

    Opravdu je nejrozumejsi predem vybrat nejakou interpretaci a tu pak hodnotit. Nejlepe samozrejme nahodne z nejakeho repreazentativniho vzorku interpretaci, ten nemam, tak se to da proste nejak nastrelit. Je to subjektivni, ale oproti moznosti ze si autor vymysli dotazy i interpretace libovolne je to rekl bych efekt druheho radu.

    Statisitka zafunguje tak, ze nejlip dopadnou vyhledavace, ktere dokazou nabidnout v top10 ruzne interpretace, a na nejvyssi mista zaradi ty nejcastejsi. Nemusi se vam to libit, ale je to v poradku ;-)
  • 16. 12. 2004 8:53

    jk (neregistrovaný)
    Ze tester nebude tusit ktera bije nevadi - to se da vzit jako docela genericky pripad, "vysvetli me tohle slovo". Takhle bezne pouzivam google "definiton" a wikipedii.

    Relevantni odpovedi bude stranka, z ktere tester pochopi, o co jde.

    Jinak s nasazenim vic lidi nevim - jestli se to vyplati. Nemame k diposici vzorek dotazu, takze neni jasne, jaka cast je "nejednoznacnych". Napriklad u dotazu na jmena firem, osob, dobrych dotazu na konkretni informace atd. je mnohonasobne vyhodnocovani ponekud mrhanim sil.

    Druha vec je, ze vhodny by byl "reprezentativni vzorek" uzivatelu. Neni jasne, ze kdyz budou myslenky tazatelu odhadovat tri pocitacovi geeci, bude to lepsi, nez kdyz jeden.

    Pokud je "nejasnych" dotazu jen mala cast, je casove efektivnejsi, aby se autor testu zeptal treba na nejakem chatu obecneho publika ("co vas napadne, kdyz se rekne... lolita").
  • 16. 12. 2004 9:29

    Michal Illich (neregistrovaný)
    > Jinak s nasazenim vic lidi nevim - jestli se to vyplati.

    Ono to nemusí být tak, že každý testuje všechno. Může testovat X lidí, každý Y dotazů (jiných). Je to sice horší v tom, že nebudete moct spočíst reliabilitu (shodu pozorovatelů), ale bude to efektivnější. Přínos většího počtu dotazů (X*Y) je myslím také lepší (než důkladně otestovaných 1*Y).