Odpověď na názor
Odpovídáte na názor k článku Který vyhledávač je nejlepší?.
Nesouhlas s Michalem Illichem
celé vlákno1) Uzivatel, ktery zada jednoslovny a velmi obecny pojem jako "sex" nebo "prace" neceka nijak extra relevantni vysledky. Bude mu bohate stacit, kdyz se mu ukazi nejake nahotinky a nebo mu vyjede seznam agentur nabizejici praci. Uz se ale urcite nechce v prvnim okamziku nic dovedet o podrobnostech. Chce hlavne rychle _nejake_ vysledky. Na druhou stranu, kdyz se clovek chce opravdu neco dovedet, zadava delsi fraze, ktere dotaz specifikuji.
2) Pokud bychom vychazeli z predpokladu, ze nejlepsi vyhledavac najde nejlepsi vysledky pro tech 500 nejhledanejsich frazi, ktere jsou na http://www.jyxo.cz/top/, tak by asi nejefektivnejsi bylo pro ne rucne udelat index. Razem by takovy vyhledavac byl nejlepsi. Evidentne, toto neni to prave orechove.
Podle me, musi samozrejme vyhledavac byt schopen vyhledat relevantni stranky jak pro ty nejcastejsi dotazy, tak hlavne i pro ty mene caste. Pricemz samozrejme ty dotazy mene caste jsou pro uzivatele mnohem bolestivejsi. Je mu jedno, jakou nahotinku mu vyhledavac najde, kdyz zada "porno". Za to mu uz vubec neni jedno, ze mu vyhledavac najde na dotaz "atrofie dasni" clanek z www.islamweb.cz .
Jinymi slovy by se to dalo vyjadrit takto: Ano, hodnotme kvalitu vyhledavace podle vyrazu, ktera uzivatele vyhledavaji, ale vybirejme je spravedlive. Tedy treba tak, ze udelame databazi vsech hledanych vyrazu, priradime jim pravdepodobnosti polozeni a seradime je od nejcasteji vyhledavanych k nejmene casto vyhledavanym. Pak v celem seznamu udelejme 99 car, kterymi ho rozskatulkujeme na 100 casti, pricemz v prvni bude nejmene vyrazu, ale za to takove, ktere se nejcasteji vyskytuji, a v posledni budou nejspis jen vyrazy, ktere byly zadany jen jednou, ale za to jich bude opravdu hodne.
Nyni z techto vsech skatulek vyberme reprezentativni vzorky tak, aby soucet vyrazu pro danou skupinu byl, rekneme, 0.01%. Uz ted je jasne, ze v pripade prvni skatulky mame problem, protoze vyraz "sex" a nektera dalsi se asi vyskytuji casteji. Ale to neni zas takovy problem. Bud vysledky pro tuto skatulku pozdeji preskalujeme (pouzijeme vahy), nebo z ni vybereme takova slova, aby soucet jejich pravdepodobnosti se blizil co nejlepe te hranici 0.01%. Obecne by bylo nejlepsi, kdyby vyber vyrazu ze skatulky byl nahodny (myslim, ze by stacilo pouzit jednoduche uniformni rozdeleni, ale nejlepsi by zase byly nejake vahy odpovidajici pravdepodobnostem daneho vyrazu).
Je jasne, ze v posledni skatulce bude spousta vyrazu, z nichz kazdy da do vysledku jen velmi malo, ale za to dohromady daji do vseskatulkoveho vysledku uplne stejne jako to malo vyrazu vybranych z prvni skatulky.
Snad jsem to moc nezamlzil :-). Chtel jsem jen naznacit, ze Michal Illich je velmi schopny v PR (a nastesti nejen tam) a tak je nutno nad jeho reakcemi trochu premyslet.
Pravidla pro diskutující
Přidáním čtenářského příspěvku do diskusí či fóra souhlasíte s tím, že budete dodržovat následující pravidla. Při jejich hrubém porušení se vystavujete riziku smazání příspěvku, jeho modifikaci, v krajním případě i zablokování přístupu do diskusí.
Redakce ze zásady nezasahuje do čtenářských diskusí a zavazuje se, že nebude mazat ani modifikovat příspěvky, kromě případů, kdy tyto porušují některé z následujících pravidel. V takové situaci je na zvážení redakce, zda příspěvek modifikuje s viditelným upozorněním, či přímo smaže. Redakce nikdy nemaže „nesouhlasné komentáře“ jen proto, že jsou nesouhlasné. Vítáme střet názorů, ale vždy v rámci slušné a kultivované debaty.
Příspěvky nesmí obsahovat:
- Vulgární či hrubé výrazy.
- Urážlivé výroky na adresu druhé osoby či skupiny osob.
- Texty, které mají za cíl jen vyprovokovat emotivní reakci (trolling).
- Rasové útoky či útoky na jakoukoliv jinou menšinu či skupinu obyvatel.
- Komerční nabídky a affiliate odkazy.
- Odkazy na warez, sériová čísla, licenční kódy, pornografii a další nevhodný materiál stejně jako žádosti o poskytnutí tohoto obsahu.
- Prokazatelně protiprávní obsah.
Informace o soukromí: U všech přidaných komentářů provozovatel ukládá IP adresu a hostname odesílatele. U neregistrovaných uživatelů se na webu zobrazuje část hostname, případně IP adresy, neumožňující identifikovat konkrétní počítač.
Povolené značky XHTML: a, br, code, em, li, ol, p, pre, strong, sub, sup, ul