> Tzn. nejlepší je ten vyhledávač, který vrací nejlepší výsledky pro velmi
> specifickou a v praxi nehledanou skupinu dotazů, která se recenzentovi dobře
> hodnotí?
I tak by se to dalo rict ;-) Predne je nutno hodnotit neco, co vubec lze hodnotit. A to velke mnozstvi vyrazu z Top N neni, vetsina jich je "najdi neco o ...". Obecne pokud nezname motivaci tazatele, muzeme vyhodnotit jen velmi malo dotazu [z logu] (vyjimku tvori pouze dotazy typu "výsledek finále ME 2004").
A s tim, ze test testoval "uzkou skupinu dotazu": Podle p. Illicha tvori 2-3 slovne dotazy 54% dotazu na vyhledavac a vetsina polozenych dotazu do tohoto rozmezi smeruje (kdyz vynechame predlozky, tak jeste vice). Jedine, co je mozne vytknout testu je prave absence jednoslovnych dotazu - ale to podle meho uzce souvisi prave s dosti omezenou hodnotitelnosti vysledku podobnych dotazu.
Vemte si, kdyby se podle vasi metodiky testovaly treba auta. To bysle se docetl, jak auto popojizi v mestske zacpe, jede plynule po meste, po silnici... Za normalniho provozu je "projev" vetsiny aut velmi podobny. Stejne tak si troufam tvrdit, ze vysledky vyhledavacu na "obycejne" dotazy budou +/- srovnatelne (s prihlednutim k ruznym motivacim tazatelu). Auta se v testech testuji hodne v situaci, kdy jedou "na limit", ackoli se takove podminky v beznem provozu vyskytuji zridka. A totez IMHO plati o vyhledavacich - jejich opravdova kvalita se projevi az kdyz se ptate po dost konkretni informaci.