Hlavní navigace

Vlákno názorů k článku Který vyhledávač je nejlepší? od jk - Aneb uvedení některých omylů na pravou míru. Vůbec není...

Článek je starý, nové názory již nelze přidávat.

  • 13. 12. 2004 13:10

    jk (neregistrovaný)
    Aneb uvedení některých omylů na pravou míru.

    Vůbec není jasné, že "nejčastěji pokládané dotazy" jsou reprezentativní. Dotazy na vyhledávač mají nepochybně nějaké frekvenční rozdělení - které může vypadat třeba takhle (uvedená čísla jsou zvolená náhodně)

    top 100 ... 10% dotazů
    top 500 ... 35% dotazů
    top 1000 ... 45% dotazů
    top 5000 ... 50% dotazů
    top 10000 ... 60% dotazů
    ...

    při takovém to rozdělení je samozřejmě "typický dotaz" "velmi netypický" - 40% dotazů se nevejde ani do top 10000.

    Navíc se domnívám, že tahle frekvenční charakteristika může být různá u různých vyhledávačů. Tipoval bych, že čím zkušenější a inteligentnější uživatelé, tím větši je podíl "méně obvyklých dotazů". Dotazy např. z "jyxo top 10" zkušený uživatel zřejmě vůbec nepokládá.

    Proč to sem píšu? Mámení "top 500" podléhají tvůrci stránek a zdá se i tvůrci vyhledávačů. Vzhledem k odhadované korelaci mezi zkušeností uživatele a "unikátností dotazů" se tak optimalizuje na blbé dotazy blbých uživatelů.

    Taky bych chtěl požádat Michala Illicha, jestli by frekvenční charakteristiku dotazů na Jyxu nezveřejnil, místo mlžení o "netypickosti dotazů". Jsem si jistý, že popsaný "problém" se statistikou jistě chápe (narozdíl třeba od pana Lahvičky, kterému věřím, že plácá nesmysly, protože statistice opravdu nerozumí).

    Mimochodem, statisticky vhodný způsob výběru dotazů pro testování je překvapivě jednoduchý. Zapomenout na top500 a různé ad-hoc ruční výběry. Vzít třeba 20 náhodných dotazů. Otázka je čích - například "Test vyhledávačů pana X.Y." - stačí vygrepnout dotazy z vlastní historie. Obdobně třeba pro uživatele za nějakou cachí. A nebo pro uživatele nějakého vyhledávače - vzít dvacet náhodných dotazů na ten vyhledávač. Možná by se ukázalo, že třeba BFU uživatelům Seznamu jejich portál vyhovuje.

    Mým vyhledávačem zůstavá Google. Zaprvé většinou hledám anglicky a z adresního řádku. Zadruhé pokud mě stačí nějaká konkrétní informace, v Googlu mívá nejlepší pozici. Zatřetí, pokud dělám "důkladnou rešerši" a zajímá mě co nejvíc zdrojů, tak Google jako jediný opravdu vyhledává v českých stránkách (=stránka v jazyce českém) a né podle tld a podobných nesmyslů.
  • 13. 12. 2004 13:41

    Michal Illich (neregistrovaný)
    Jistě, klidně zveřejním:

    Top 100 znění dotazů - 4,4%
    Top 1000 znění dotazů - 14,1%
    Top 5000 znění dotazů - 25%

    V testu by podle mě měly být jak časté, tak málo časté dotazy, ve správném poměru. Prostě by měl co nejvíce odpovídat skutečnosti.

    Jirka Lahvička statistice rozumí poměrně dost, soudě podle jeho různých příspěvků.

    Souhlasím s tím, že aby byl test opravdu vypovídající, je potřeba nejméně 20 dotazů (a samozřejmě stovky jsou nejlepší). Vybírat je náhodně z logů je dobrý způsob.

    Mimochodem, Jyxo se také orientuje na "česky psané" stránky. Cz doména je jen výchozí skupinou indexovaných stránek.
  • 13. 12. 2004 22:58

    Bochi (neregistrovaný)
    Pan Lahvicka statistice mozna rozumi, ale podle nekterych jeho komentaru zde to tak vubec nevypada. (Bez urazky, to nema byt zadna utocna osobni poznamka, ale pouze konstatovani meho dojmu z toho, co zde prezentuje.)