Hlavní navigace

Vlákno názorů k článku Který vyhledávač je nejlepší? od Jirka Lahvička - Pokud už testovat vyhledávače, tak dotazy, které lidé...

Článek je starý, nové názory již nelze přidávat.

  • 13. 12. 2004 10:20

    Jirka Lahvička (neregistrovaný)
    Pokud už testovat vyhledávače, tak dotazy, které lidé používají (co vyjít třeba z http://www.jyxo.cz/top/ ?), a dostatečným počtem - z 8 dotazů může dělat závěry jen člověk, který nemá nejmenší ponětí o statistice.
    Před provedením testu je třeba jednoznačně definovat, které nalezené stránky jsou ty správné, to nemůže vycházet pouze ze subjektivních pocitů autora.
    Maximální možný počet reklamních pozic vůbec nevypovídá o tom, kolik jich uživatel uvidí při průměrném dotazu.
  • 13. 12. 2004 11:13

    Roman Pudil (neregistrovaný)
    S navrhem vychazet pri vyberu dotazu z http://www.jyxo.cz/top/ to nemyslite vazne, ze ne? V prvnich 15 se 8x objevuje tematika sexu, ostatni slova jsou pro jakykoliv test naprosto zavadejici...

  • 13. 12. 2004 11:24

    Jirka Lahvička (neregistrovaný)
    Myslím to vážně. Nikdo neříká, že testovací výraz má být třeba www.seznam.cz, ten opravdu mnoho neotestuje, ale pokud lidé houfně hledají sex, tak by to mělo být součástí testu. Moje představa o testovacích výrazech je něco jako "horoskopy", "erotické povídky", "ester ládová", "slovník cizích slov", "java hry", "spanking", "autobazary", "mapa evropy", "pohlednice", "porno video", "O-Zone", "maturitní otázky" (vše vybráno z Jyxo TOP 500).
  • 13. 12. 2004 12:04

    Dusan (neregistrovaný)
    Tim se dostavame k otazce: "Ktery vyhledavac je NA CO a PRO KOHO nejlepsi?" Jestli pro pornonadsence, sekretarku, IT experta, pravnika, ... Kazdy ma jine pozadavky, kazdemu muze vyhovet jiny vyhledavac.
    Pri vami navhovanem zprumerovani je pri tak malem poctu dotazu otazkou statisticka relevantnost (vybrane dotazy predstavuji 2% z TOP 500, coz neni prilis vypovidajici skupina. Jina dve procenta mohou dat uplne jine vysledky. Pokud by se to takhle melo udelat a mit nejakou realnou informaci o kvalite (a ne o "stesti" daneho vyhledavace), bylo by potreba dle meho nazoru vybrat minimalne padesat spise vice slov a obratu. Ale takovou dukladnou analyzu uz by vam II prodalo, nikoliv nalupovalo. ;-)
  • 13. 12. 2004 12:11

    Jirka Lahvička (neregistrovaný)
    Souhlasím s tím, že test by se měl provádět minimálně na několika stech výrazů zastupujících všechny typy dotazů. Uvedené příklady slouží spíš jako ilustrace toho, jak vypadají běžné reálné dotazy namísto testovaných nesmyslů.
  • 13. 12. 2004 14:15

    Roman Pudil (neregistrovaný)
    Stale nechapu, proc by se testovaci vyrazy mely brat z nejakeho top listu toho ci onoho serveru? Proc by mel autor testovat prave tyto? To je prece naprosta blbost! Vyhledavace musi byt schopny vyhledat odkazy na "vsechny" vyrazy, ktere uzivatel pro vyhledani zada. Tim nerikam, ze pocet testovacich vyrazu byl dostatecny (spis naopak) a ze jejich vyber byl nejstastnejsi.

    Navic spousta techto TOP vyrazu je tzv. sezonnich (viz. Ester Ladova (nemusim snad komentovat), java hry (pred Vanoci), mapa evropy (pred letni/zimni dovolenou) atp.
  • 13. 12. 2004 14:24

    Jirka Lahvička (neregistrovaný)
    Testovat vyhledavače na výrazech, které lidé skutečně hledají, mi jako naprostá blbost nepřipadá.
  • 13. 12. 2004 14:57

    Michal Kára (neregistrovaný)
    Tak si polozte vyhledavacum takovy dotaz jako treba "superstar" (jednu dobu byl mezi nejvyhledavanejsimi) nebo "sex" a zkuste zhodnotit, ktery je lepsi... Vsadil bych se, ze dojdete k zaveru, ze je to proste nehodnotitelne.

    Viz tez moje uvahy v 1. dilu clanku "Test vyhledavacu pragmaticky".
  • 13. 12. 2004 14:58

    Tomáš Hodboď (neregistrovaný)
    > Před provedením testu je třeba jednoznačně definovat, které nalezené stránky jsou ty správné, to nemůže vycházet pouze ze subjektivních pocitů autora.

    ??? Opravdu? A jak byste to chtěl jednoznačně definovat?

    "horoskopy", "erotické povídky", "ester ládová", "slovník cizích slov", "java hry", "spanking", "autobazary", "mapa evropy", "pohlednice", "porno video", "O-Zone", "maturitní otázky"

    A jak chcete u těchto slov jednoznačně určit, které odkazy uspokojí vyhledávání uživatele, průměrného uživatele (a to plošně!).

    Souhlasím, že testovaných dotazů mělo být více, také jsem jich mnohem více testoval. Z vašeho seznamu to např. byly horoskopy, něco v souvislosti s auty a ještě myslím mapa evropy. Jenomže do výsledné tabulky jsem je nezařadil z jednoho prostého důvodu. Např. při hledání oné mapy evropy mi google vrátil nějaký český mapový server, který mi postačoval, ale ostatní, např. Jyxo nějaký obrázek punkové mapy evropy a prodej nějakých map s jejich náhledy. A měl jsem brát tyto odkazy za relevantní? Někomu postačit mohli a někomu ne. Do seminárky bych je opravdu použít nemohl. Ale psal jsem o tom již v úvodu článku v metodice.

  • 13. 12. 2004 15:10

    Jirka Lahvička (neregistrovaný)
    Tzn. nejlepší je ten vyhledávač, který vrací nejlepší výsledky pro velmi specifickou a v praxi nehledanou skupinu dotazů, která se recenzentovi dobře hodnotí? Nezávisle na tom, že drtivá většina dotazů vypadá úplně jinak a kvalita jim odpovídajících výsledků nejspíš vypadá úplně jinak?
  • 13. 12. 2004 15:11

    Michal Illich (neregistrovaný)
    Na ten dotaz Jyxo odpoví na obou předních místech mapami Evropy:

    http://jyxo.cz/s?s=mapa+evropy&d=cz

    na té první stránce si můžete dokonce vybrat, zda chcete automapu, mapu evropských PSČ, mapu EU, panoramatickou mapu, železniční sítě (vše evropa).

    Nic punkového tam nevidím.

    Nemyslel jste náhodou "Metalová mapa Evropy - Nejrozsáhlejší databáze evropských kapel extrémně metalových žánrů", což je první odkaz na Morfeu?


  • 13. 12. 2004 15:45

    Tomáš Hodboď (neregistrovaný)
    Mně Jyxo našel nástinné mapy evropy k prodeji, do seminární práce bych je použít nemohl, i když pro někoho mohou být dobré. Proto jsem takovéto dotazy do tabulky nepočítal. S tou metalovou mapou Evropy jste měl pravdu, to jsem se spletl, bylo to u Morfea, ale to na druhém místě nabídlo komplexní mapy evropy na idnesu. Ale nechci se tady hádat o jednotlivých dotazech. Takto byly vybrány a nevidím důvod, proč by je nemohli uživatelé takto vyhledávat.
  • 13. 12. 2004 18:00

    Zednář (neregistrovaný)
    "Pro někoho mohou být dobré"

    Pro kolik procent lidí hledajících dotaz "mapa evropy" je vhodná mapa metalových skupin? Takoví lidé zadají trochu jiný dotaz... Podle mého názoru lze metodiku určit celkem snadno.
  • 13. 12. 2004 18:16

    Czskittle (neregistrovaný)
    Ono to imho není tak jednoduché, je spousta dotazů, u kterých nelze tak jednoduše určit, co je to "správné". Řešením bude až personalizované vyhledávání.
  • 13. 12. 2004 19:24

    Tomáš Hodboď (neregistrovaný)
    A můžete mi tedy prosím říci, jak chcete hodnotit např. vámi navrhovovaná slova jako o-zone, autobazary atd.? Hledáte o o-zone článek, oficiální stránku, recenzi, neoficiální stránku, texty písní, ...? Jak to podle vás mám nesubjektivně hodnotit? Vyhledávač, který nenajde ani jedno z toho a nabídne odkazy zcela mimo mísu je špatný vyhledávač, ale jak mám hodnotit ty, co to najdou?
  • 13. 12. 2004 19:45

    Michal Kára (neregistrovaný)
    > Tzn. nejlepší je ten vyhledávač, který vrací nejlepší výsledky pro velmi
    > specifickou a v praxi nehledanou skupinu dotazů, která se recenzentovi dobře
    > hodnotí?

    I tak by se to dalo rict ;-) Predne je nutno hodnotit neco, co vubec lze hodnotit. A to velke mnozstvi vyrazu z Top N neni, vetsina jich je "najdi neco o ...". Obecne pokud nezname motivaci tazatele, muzeme vyhodnotit jen velmi malo dotazu [z logu] (vyjimku tvori pouze dotazy typu "výsledek finále ME 2004").

    A s tim, ze test testoval "uzkou skupinu dotazu": Podle p. Illicha tvori 2-3 slovne dotazy 54% dotazu na vyhledavac a vetsina polozenych dotazu do tohoto rozmezi smeruje (kdyz vynechame predlozky, tak jeste vice). Jedine, co je mozne vytknout testu je prave absence jednoslovnych dotazu - ale to podle meho uzce souvisi prave s dosti omezenou hodnotitelnosti vysledku podobnych dotazu.

    Vemte si, kdyby se podle vasi metodiky testovaly treba auta. To bysle se docetl, jak auto popojizi v mestske zacpe, jede plynule po meste, po silnici... Za normalniho provozu je "projev" vetsiny aut velmi podobny. Stejne tak si troufam tvrdit, ze vysledky vyhledavacu na "obycejne" dotazy budou +/- srovnatelne (s prihlednutim k ruznym motivacim tazatelu). Auta se v testech testuji hodne v situaci, kdy jedou "na limit", ackoli se takove podminky v beznem provozu vyskytuji zridka. A totez IMHO plati o vyhledavacich - jejich opravdova kvalita se projevi az kdyz se ptate po dost konkretni informaci.
  • 13. 12. 2004 22:09

    JeromeHeretic (neregistrovaný)
    Me to naopak pripada jako ta uplne nejvetsi kravina, jakou clovek pri testu vyhledavace udelat muze.
    Rekl bych, ze clovek v nezanedbatelnem mnozstvi pripadu hodla pouzit vyhledavac ve chvili, kdy se pokousi vyhledat cosi o cem se domniva, ze je to informace, kterou nemuze jinak "trivialne" ziskat. Takze naopak, ne top10, ale button 1000 dotazu je vhodny reprezentativni vzorek na testovani kvality vyhledavace. Teprve vyhledavac, ktery dokaze najit "fajfku a pantofle Alberta Einsteina", "navod na vyrobu vodikoveho motoru z mixeru a pytliku lentilek", eventuelne vrati relevantni odkaz i pri zadani dotazu "hacknuti bankomatu pomoci krabicky zapalek" je v mych ocich tim jedinym spravnym vyhledavacem. IMHO na tech top10 staci ty prasive katalogy...
  • 13. 12. 2004 22:20

    JeromeHeretic (neregistrovaný)
    Tomuto dotazu se da oponovat dotazem "kolik lidi pri zadani dotazu 'mapa evropy' hleda obchod, kde si takovou mapu muze zakoupit?" Uznavam tedy, ze vetsina tech lidi asi nehleda metalovou mapu evropy :-), nicmene pokud morfeo v tomto pripade vratilo odkaz na stranku s mapou, pak mi vysledek nerelevantni nepripada.
  • 13. 12. 2004 22:26

    Michal Illich (neregistrovaný)
    > Podle p. Illicha tvori 2-3 slovne dotazy 54% dotazu na vyhledavac

    Jistě, a proto by mělo být v testu cca 54% takových dotazů (a totéž platící pro ostatní počty).
    Stejně tak by měl poměr dotazů s diakritikou a bez odpovídat tomu, jak je uživatelé pokládají.
    Totéž s typem dotazů.
    Totéž s hledaným obsahem (stránky, obrázky, hudba, atd.).
    Totéž s ... atd. atd.

    Prostě test by měl odpovídat skutečnému chování uživatelů.
    Tento test to bohužel nesplňoval.
    To je v podstatě vše, co jsem říkal v tom druhém bodu vyjádření.

    -
    > Auta se v testech testuji hodne v situaci, kdy jedou "na limit"

    Moc tyhle pořady nesleduji, ale opravdu se třeba rodinná auta testují při závodění, offroad jízdě nebo brodění? To jistě ne :) - co jsem si všiml, tak se v porovnání aut uvádějí takové nudné věci jako je objem zavazadlového prostoru či nastavitelnost sedaček. Prostě to, co uživatele zajímá a co využívají.




  • 13. 12. 2004 22:30

    Tomáš Hodboď (neregistrovaný)
    Nemluvil jsem ani tak o relevantnosti, ale o tom, jak může být daný odkaz prospěšný pro toho, kdo dotaz zadává. Tzn. že někdo může hledat nástěnnou mapu evropy, někdo podklady pro seminárku. Pro prvního bude odkaz použitelný, pro druhého nikoli, i když oba zadali stejný dotaz.
  • 13. 12. 2004 22:39

    Bochi (neregistrovaný)
    Jiri, vam to mozna tak nepripada, ale nesmyl to je. Kazdy, kdo nekdy aspon trochu pricich k matematicke statistice vi, ze jediny spravny vzorek ne ten zcela nahodne vybrany (krome toho je samozrejme dulezita dostatecna ve3likost testovaciho vzorku). Takze zadne top 10 ani top 1000. Potazmo by se dalo cekat, ze na "top" vyrazy budou vyhledavace nejakym zpusobem optimalizovane, coz by mohlo vysledky dost zkreslit.
    Takze nevidim jedine opodstatneni "testovat na vyrazech, ktere lide skutecne hledaji". Lide muzou hledat prakticky cokoliv, takze testovat byste mel nahodny vyber toho "cokoliv" (pro stouraly: je samozrejme vhodne omezit se na "smysluple" dotazy, tedy netestovat treba na "ubnh834hchw8a91wfx"). Zvolene vyrazy by pak mohly nanejvys odrazet realne zastoupeni poctu slov v jednom vyrazu a mozna jeste zastoupeni dotazu s diakritikou.
    No a pak by asi bylo vhodne vygenerovat urcity pocet dotazu se zamernymi preklepy, ovsem takto bych spise vytvoril novy vzorek dotazu, ktery by o zkoumanem vyhledavaci cosi vypovidal, rozhodne bych ho neslucoval se vzorkem puvodnim.
    Zustava tedy uz jen metodicka otazka, jak takovy nahodny vzorek dotazu ziskat.
  • 13. 12. 2004 22:41

    Michal Illich (neregistrovaný)
    Jistě, mluvit o konkrétních dotazech nemá moc smysl, to bychom tu byli do konce týdne.

    Jde bohužel o to, že jste si prostě ty dotazy vybíral. Nemám důvod vám nevěřit, že jste měl při tom čestné úmysly, ale přece když něco testujete, tak nejde v průběhu testu si říct: "hmm, safra, tady to Morfeo hází nějaké metalové kapely, já nevím, jak to hodnotit, tak škrtnu radši celý dotaz." (opakuji, že nejde o debatu o tomto konkrétním dotazu, ten vem čert, použil jsem jej jen jako příklad. Jde o princip, že v průběhu testu děláte změny potom, co jste prozkoumal výsledky jednotlivých vyhledavačů). Z necelých třiceti dotazů, které jste vyzkoušel, se jich v testu objevilo osm. Já nevím, proč jste vybral právě tyto dotazy, neví to ani čtenáři, ani Lupa, jen vy.





  • 14. 12. 2004 9:10

    Michal Kára (neregistrovaný)
    Ja s tim v podstate souhlasim, jen upozornuji, ze nevidim jinou moznost jak takovy test provest, nez vzit N statisticky korektnich vzorku uzivatelu. Nakazat jim, at pouziva kazda jiny vyhledavac a postavit k nim draba, ktery bude cekat az budou neco hledat (ze sve iniciativy). A bude merit, jak dlouho jim trva nalezeni informace, pripadne jak moc jsou spokojeni s vysledkem.

    Sam asi uznate, ze tento test je bez velkeho grantu tezko uskutecnitelny. Pokud to nebudu delat takto, tak nelze IMHO udelat _vyznamne_ lepsi test, nez je tento (nebo muj pred rokem, ktery mel, BTW, propracovanejsi metodiku hodnoceni).

    Veskere pokusy o dotazovani se dotazy z logu ztroskotavaji na nemoznosti hodnotit alespon trochu objektivne nalezene vysledky.

    Ad ty testy: Treba velikost zavazadloveho prostoru je spis parametr auta, neexistuje "nejlepsi" hodnota - nekdo uprednostni auto s vetsim, nekdo s mensim. Testuji se treba takove veci jako prudke brzdeni, zrychleni 0-100, ostry prujezd zatackami, "losi test", hodnoti se vysledky crashtestu (jak casto bourate?). Naopak spolehlivost zajima drtivou vetsinu zakazniku, ale hodnoti se jen zridka (a ve specialnich testech), protoze je dost obtizne ji "merit".
  • 14. 12. 2004 9:21

    Jirka Lahvička (neregistrovaný)
    K matematicke statistice jsem pricichl. Vybrane vyrazy z TOP treba 1000 se nahodnemu vzorku blizi daleko vice nez vyrazy pouzite v testu. Ziskani nahodneho vzorku dotazu, pokud by byl recenzent ochoten testovat na stovkach vyrazu, je trivialni - staci odchytit kazdy n-ty dotaz polozeny vyhledavaci.

    "Takze nevidim jedine opodstatneni "testovat na vyrazech, ktere lide skutecne hledaji"."
    Test na nahodnem vzorku je ale presne toto.
  • 14. 12. 2004 9:42

    jk (neregistrovaný)
    "Vybrane vyrazy z TOP treba 1000 se nahodnemu vzorku blizi daleko vice nez vyrazy pouzite v testu."

    Tak to je temer statisticky oxymoron :-) Prosimvas, kde jste k te statistice pricichl?

    "Ziskani nahodneho vzorku dotazu, pokud by byl recenzent ochoten testovat na stovkach vyrazu, je trivialni - staci odchytit kazdy n-ty dotaz polozeny vyhledavaci."

    Nesmysl.

    a) Vzorek je treba porizovat nahdonym vyberem z logu alespon za tyden, aby se vyloucily ruzne casove vlivy. (dotazy v 23.00 muzou vypadat jinak, nez v 8.30)

    b) Vsadil bych se, ze vysledky budou dobre konvergovat uz u desitek mereni.
  • 20. 12. 2004 11:29

    Petr Jakubec (neregistrovaný)
    >(pro stouraly: je samozrejme vhodne omezit se na "smysluple" dotazy, tedy netestovat treba na "ubnh834hchw8a91wfx").

    tak momeeent! to mi pripomina me nejcastejsi vhledavani procesouru dle vyrobniho / typoveho cisla... to ma asi stejny smysl jako tento patvar a presto to mas jasny kontextovy vaznam.

    apropos napriklad funkcionalita jyxo me treba absolutne nezajima, protoze bohate mi staci jeho skvele vyhledavani v usenet konferencich - tzn. jednoucelove vice-mene specialni pouziti...
    PJ