Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia Tuesday TopDrive KupDnes Navrcholu Bomba NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Odpověď na názor

Odpovídáte na názor k článku Který vyhledávač je nejlepší?.

jk
jk (neregistrovaný)
13. 12. 2004 13:10

Statistika

celé vlákno
Aneb uvedení některých omylů na pravou míru.

Vůbec není jasné, že "nejčastěji pokládané dotazy" jsou reprezentativní. Dotazy na vyhledávač mají nepochybně nějaké frekvenční rozdělení - které může vypadat třeba takhle (uvedená čísla jsou zvolená náhodně)

top 100 ... 10% dotazů
top 500 ... 35% dotazů
top 1000 ... 45% dotazů
top 5000 ... 50% dotazů
top 10000 ... 60% dotazů
...

při takovém to rozdělení je samozřejmě "typický dotaz" "velmi netypický" - 40% dotazů se nevejde ani do top 10000.

Navíc se domnívám, že tahle frekvenční charakteristika může být různá u různých vyhledávačů. Tipoval bych, že čím zkušenější a inteligentnější uživatelé, tím větši je podíl "méně obvyklých dotazů". Dotazy např. z "jyxo top 10" zkušený uživatel zřejmě vůbec nepokládá.

Proč to sem píšu? Mámení "top 500" podléhají tvůrci stránek a zdá se i tvůrci vyhledávačů. Vzhledem k odhadované korelaci mezi zkušeností uživatele a "unikátností dotazů" se tak optimalizuje na blbé dotazy blbých uživatelů.

Taky bych chtěl požádat Michala Illicha, jestli by frekvenční charakteristiku dotazů na Jyxu nezveřejnil, místo mlžení o "netypickosti dotazů". Jsem si jistý, že popsaný "problém" se statistikou jistě chápe (narozdíl třeba od pana Lahvičky, kterému věřím, že plácá nesmysly, protože statistice opravdu nerozumí).

Mimochodem, statisticky vhodný způsob výběru dotazů pro testování je překvapivě jednoduchý. Zapomenout na top500 a různé ad-hoc ruční výběry. Vzít třeba 20 náhodných dotazů. Otázka je čích - například "Test vyhledávačů pana X.Y." - stačí vygrepnout dotazy z vlastní historie. Obdobně třeba pro uživatele za nějakou cachí. A nebo pro uživatele nějakého vyhledávače - vzít dvacet náhodných dotazů na ten vyhledávač. Možná by se ukázalo, že třeba BFU uživatelům Seznamu jejich portál vyhovuje.

Mým vyhledávačem zůstavá Google. Zaprvé většinou hledám anglicky a z adresního řádku. Zadruhé pokud mě stačí nějaká konkrétní informace, v Googlu mívá nejlepší pozici. Zatřetí, pokud dělám "důkladnou rešerši" a zajímá mě co nejvíc zdrojů, tak Google jako jediný opravdu vyhledává v českých stránkách (=stránka v jazyce českém) a né podle tld a podobných nesmyslů.
   
Chcete přispět jako registrovaný uživatel? Přihlaste se ke svému účtu.
Ochrana proti spamovacím robotům. Odpovězte prosím na následující otázku: Jaký je letos rok?
 

Pravidla pro diskutující

Přidáním čtenářského příspěvku do diskusí či fóra souhlasíte s tím, že budete dodržovat následující pravidla. Při jejich hrubém porušení se vystavujete riziku smazání příspěvku, jeho modifikaci, v krajním případě i zablokování přístupu do diskusí.

Redakce ze zásady nezasahuje do čtenářských diskusí a zavazuje se, že nebude mazat ani modifikovat příspěvky, kromě případů, kdy tyto porušují některé z následujících pravidel. V takové situaci je na zvážení redakce, zda příspěvek modifikuje s viditelným upozorněním, či přímo smaže. Redakce nikdy nemaže „nesouhlasné komentáře“ jen proto, že jsou nesouhlasné. Vítáme střet názorů, ale vždy v rámci slušné a kultivované debaty.

Příspěvky nesmí obsahovat:

  1. Vulgární či hrubé výrazy.
  2. Urážlivé výroky na adresu druhé osoby či skupiny osob.
  3. Texty, které mají za cíl jen vyprovokovat emotivní reakci (trolling).
  4. Rasové útoky či útoky na jakoukoliv jinou menšinu či skupinu obyvatel.
  5. Komerční nabídky a affiliate odkazy.
  6. Odkazy na warez, sériová čísla, licenční kódy, pornografii a další nevhodný materiál stejně jako žádosti o poskytnutí tohoto obsahu.
  7. Prokazatelně protiprávní obsah.

Informace o soukromí: U všech přidaných komentářů provozovatel ukládá IP adresu a hostname odesílatele. U neregistrovaných uživatelů se na webu zobrazuje část hostname, případně IP adresy, neumožňující identifikovat konkrétní počítač.

Povolené značky XHTML: a, br, code, em, li, ol, p, pre, strong, sub, sup, ul