Test vyhledávačů pragmaticky (1.)

Musím přiznat, že k napsání tohoto článku mne vyprovokovala spousta již uveřejněných testů vyhledávačů. Od těch nejhorších, až po ty, které považuji za slušné (článek porovnávající schopnosti ohýbat slova a hledat synonyma). Ale stále jsem nebyl spokojen, neboť mi tu chybělo nějaké komplexní porovnání.

reklama

Začal jsem přemýšlet o tom, že podobný test napíšu. Uvažoval jsem, které všechny vlastnosti bych měl porovnat a jak je otestovat. A začal jsem se do toho stále více zaplétat. Až jsem došel k zásadním otázkám:

Zajímá mě, zda vyhledávač umí ohýbat slova? No, v podstatě ano. Ale proč? Protože pak lépe najde to, co hledám. Takže mě vlastně nezajímá, jestli dobře ohýbá slova, ale jestli mi to pomůže při hledání.

Zajímá mě, kolik vyhledávač indexuje stránek? Určitě ano, řeknete si napoprvé. Ale co když indexuje právě ty, na kterých není to, co hledám? Pomůže mi to? Zjevně ne. Tedy kolik stránek indexuje, je v podstatě irelevantní, pokud nemají „dobrý“ obsah. A jak zjistím kvalitu obsahu?

A tak bych mohl pokračovat. Nakonec jsem došel k jednoznačnému závěru. Nemá smysl akademicky testovat různé funkce vyhledavače, neboť stejně bude nutné otestovat jejich přínos v praxi. Proč tedy neotestovat v praxi rovnou celý vyhledávač komplexně? Tento přístup jsem vzal za základ svého testu.

V tomto bodě se přísluší podotknout, že z hlediska vyhledavače existují dvě skupiny uživatelů. Ta menší jsou webmasteři. Pro ně je lepší ten vyhledávač, který jejich web uvede nejvýše. Tady se ovšem bude nějaké objektivní poměření hledat těžko, neboť kriteria každého webmastera jsou neslučitelná s kriterii ostatních webmasterů. Když jeden vyhledávač uvede weby v pořadí 1,2,3, druhý 3,1,2 a třetí 2,3,1, bude každý webmaster tvrdit o jiném, že je nejlepší, ale „v průměru“ budou všechny stejně dobré. Jediné, jak si může vyhledávač pohoršit, je uvádění irelevantních webů. To ale zajímá i druhou skupinu, z hlediska které je test dělán. Proto jsem hledisko webmasterů zcela vypustil.

Tedy zásada číslo 1: Test je dělán z pohledu „hledače“, který přichází najít nějakou informaci. Ano, správně. Najít informaci. Ne se rozplývat nad tím, jak vyhledávač hezky našel synonyma, nebo žasnout, kolik tisíc stránek s daným slovem indexuje. Proto zásada číslo 2: Testujeme schopnost vyhledávače najít hledanou informaci.

Test je zaměřený na české vyhledávače, proto zásada číslo 3: Budeme hledat informace, které jsou dostupné na česky psaných stránkách.

Nyní k samotnému testu. Prvním oříškem je najít vhodné dotazy na test. Nechtěl jsem použít laciné dotazy typu „moje jméno“. Stejně tak dotazy, které uživatelé pokládají vyhledávači, nejsou moc upotřebitelné, protože my potřebujeme vědět, jakou informaci uživatel hledá a jaké výsledky pro něj budou užitečné, a to ze samotného dotazu nezjistíme.

Proto, když jsem v uplynulých několika měsících hledal něco na českém Internetu, zapsal jsem si, co hledám, a takto vytvořil sadu testovacích dotazů. Některé z nich jsem ale musel vyloučit. Za prvé ty, které byly nekonkrétní a neumožňovaly dostatečně objektivní zhodnocení vrácených výsledků („najdi co nejvíc o …“). A potom ty, na které jsem nenašel nic alespoň přibližně podobné tomu, co jsem hledal.

V tomto je také obsažena největší slabina testu. Obsahuje poměrně málo dotazů a je subjektivní. Tedy, vzhledem k použitému pohledu „hledače“ je test nutně subjektivní už z definice, avšak objektivitě by pomohlo zapojit do testu statisticky vhodnou skupinu uživatelů. Tou však bohužel nedisponuji. Pokud by se však někdo chtěl tohoto úkolu zhostit, budu jen rád. (Na druhou stranu se na základě publikovaných seznamů nejvyhledávanějších slov domnívám, že většina dotazů této skupiny by stejně moc hodnotitelná nebyla, a schopnosti vyhledávače neprověřila.)

Druhým oříškem je hodnocení. Pokusil jsem se o určitá pravidla, přesto však nutně zůstává alespoň částečně subjektivním. Výsledek hodnotím stupnicí od 1 do 5, tak jako ve škole:

  • Přímý odkaz na hledanou informaci je mezi prvními dvěma – 1
  • Odkaz není mezi prvními dvěma, ale je na první stránce (vzhledem k různým délkám stránek jsem definoval, že stránka má 10 odkazů) – půl stupně až stupeň dolů (podle polohy)
  • Odkaz je na druhé stránce – stupeň dolů
  • Za každou další stránku stupeň dolů (stejně jsem prohlížel maximálně třetí stranu)
  • K informaci je nutno se z odkazu lehce proklikávat – půl stupně dolů
  • K informaci je nutno se z odkazu více proklikávat – stupeň dolů
  • K informaci je nutno se hodně proklikávat – dva stupně dolů
  • Dotaz je potřeba lehce měnit – půl stupně až stupeň dolů (podle zjevnosti)
  • Dotaz je třeba hodně měnit a ladit – cca dva stupně dolů
  • Informace nalezena, ale plně neuspokojuje – stupně dolů podle míry uspokojení
  • Informace nenalezena – za 5

V hodnocení se odrážejí: Zásada č. 4: Odkaz musí být na první stránce, a to nejlépe co nejvýše a zásada č. 5: Chci hledat a najít, ne ladit dotaz. Zde malé vysvětlení. Občas lze dotaz položit několika způsoby, které jsou stejně dobré, a člověk mezi nimi volí náhodně. Přesto má volba dotazu na výsledek velký vliv. Za toto jsem penalizovat nechtěl. Naopak si ale nemyslím, že by mělo být nutné dotaz hodně ladit. Sice narozdíl od většiny uživatelů tuším, jak položit vyhledávači smysluplný dotaz, ale nemyslím si, že bych měl povinnost jít příliš do hloubky různých parametrů. Stejně tak už předem upozorňuji, že na protesty „kdybyste dotaz napsal tak a tak, byl by hledaný odkaz výše“ nemohu brát zřetel. Pozdě bycha honit.

(Poznámka k hodnocení: V průběhu testu mi došlo, že nejlepším přirozeným kritériem by bylo měřit čas, za který uživatel nalezne informaci. Bohužel, v praktickém testu je to špatně použitelné, protože pokud uživatel informaci na jednom vyhledávači nalezne, na dalším ji přirozeně nalezne rychleji.)

Třetím oříškem bylo, co s reklamními odkazy. Prvním impulsem bylo započítat je do celkového hodnocení, nicméně ony nejsou vlastně produktem vyhledávacího stroje, ale rozhraní. Stejně tak je jejich zobrazení závislé na momentálním stavu běžících reklamních kampaní. Proto jsem je počítal mimo a u každého vyhledávače uvádím výsledky bez penalizace za reklamu a s ní.

A posledním oříškem byla diakritika. Já mám zvyk při používání Internetu nepsat háčky a čárky, a proto jsem chtěl považovat nutnost použití diakritiky za lehkou změnu dotazu. Můžete si říci, že je to penalizace za moji osobní libůstku. Ano i ne. Pokud se vyhledávač s nezadanou diakritikou nedokáže vyrovnat, nedokáže to ani opačně – když třeba na Google hledám bez diakritiky, dostanu jiné výsledky než s diakritikou. A ne nutně horší – někdy jsou lepší ty první, jindy zase ty druhé. Záleží na tom, zda hledaná stránka diakritiku obsahuje či nikoliv. Takže určitý smysl tato penalizace má. Nicméně jsem celý problém vyřešil šalamounsky – penalizaci za diakritiku jsem zohlednil ve zvláštním sloupečku, takže si každý může vybrat, jakému stylu hodnocení dá přednost.

V testu jsem se snažil pokrýt většinu významných českých vyhledávačů. Pokud jsem na některý zapomněl, už předem se omlouvám. Pro porovnání jsem někdy zahrnul i různá rozhraní pro jeden vyhledávací stroj, a pro zajímavost také tři české katalogy:

Fulltexty:

  • AllTheWeb.com
  • Atlas.cz (používá Jyxo)
  • Empyreum.cz
  • Google.com
  • Jyxo.cz
  • Morfeo.cz (Centrum.cz fulltext)
  • Najdi.to český fulltext (používá Empyreum)
  • Quick.cz fulltext „český internet“ (používá Jyxo)
  • Redbox.cz česko (používá Empyreum)
  • Seznam.cz fulltext (používá Google)
  • Tiscali.cz web
  • Yo.cz fulltext (používá Webseek)

Katalogy:

  • Atlas.cz
  • Centrum.cz
  • Seznam.cz

Nezahrnuté vyhledávače:

  • Caramba.cz – odkazuje přímo na Google
  • Google.com, nastavení „Vyhledávání stránek česky“ – původně jsem chtěl zahrnout, ale při testu jsem zjistil, že (u mnou testovaných dotazů) nemá toto nastavení praktický vliv
  • Uzdroje.cz – odkazuje přímo na Google
  • Volny.cz – odkazuje přímo na Najdi.to
  • Webseek.cz – na jeho existenci jsem byl upozorněn až po testu. Ale využívá jej Yo.cz, takže alespoň nepřímo jsem jej otestoval.

Prohlášení

Autor prohlašuje, že žádný z vyhledávačů o připravovaném testu nevěděl.

Autor rovněž považuje za vhodné uvést, že několik let spolupracoval s a byl zaměstnancem společnosti NetCentrum, provozovatele portálu Centrum.cz a vyhledávače Morfeo.cz. Nyní pracuje v jiném zaměstnání a s uvedenou společností aktivně nespolupracuje. Obor činnosti jeho nynějšího zaměstnavatele nemá s Internetem ani s vyhledáváním na něm nic společného.

Vlastní test

Jak číst tabulky hodnocení

U každého vyhledávače uvádím v prvním sloupečku hrubé hodnocení, pak přidávám případnou penalizaci za nutnost použít diakritiku a nakonec penalizaci za případné reklamní odkazy.

První dotaz

Na začátek jsem zkusil něco jednoduchého:

Hledaná informace: Potřeboval jsem svého kamaráda poslat do Centra volného času (CVČ) Paleta v Brně. Vím, kde to je, ale chtěl jsem mu říci přesnou adresu (tedy ulici a číslo popisné). To jsem neznal. Obrátil jsem se proto na Internet.
Datum testu: 19. září 2003
Použité dotazy: cvč paleta

Vyhodnocení tohoto dotazu je možno dělat poměrně objektivně – hledaná adresa je Touškova 9. Většina vyhledávačů si s ním poradila dobře, často byla adresa vidět už v „náhledu“ části stránky pod nalezeným odkazem. AllTheWeb a Google vyžadovaly podle předpokladů uvedení diakritiky. Vyhledávače založené na Empyreum CZ najdou sice odkazy na CVČ Paleta Touškova, ale bohužel ne ty, kde je uvedeno i číslo popisné. Pokud hledám „cvc paleta touskova“, tak je číslo popisné obsaženo ve třetím odkazu. Yo.cz našlo po zadání diakritiky na čtvrtém místě odkaz na dlouhou stránku, ve které se adresa vyskytuje, ale musí se v ní hledat.

V katalozích jsem, dle očekávání, nic nenašel.

Vyhledávač
Hrubé
Diakritika
Reklama
AllTheWeb.com
1
1-
1-
Atlas.cz
1
1
1
Empyreum.cz
2
2
2
Google.com
1
1-
1-
Jyxo.cz
1
1
1
Morfeo.cz
1
1
1
Najdi.to
2
2
2
Quick.cz
1
1
1
Redbox.cz
2
2
2
Seznam.cz
1
1-
1-
Tiscali.cz
1
1
1
Yo.cz
2
2-
2-
Katalogy:



Atlas.cz 5
5
5
Centrum.cz
5
5
5
Seznam.cz
5
5
5

Druhý dotaz

Hledaná informace: Chci jít na Křižíkovu fontánu. Takže mě zajímá, co tam kdy dávají.
Datum testu: 19. září 2003
Použité dotazy: program krizikova fontana (Teoreticky bych mohl chtít odzkoušet skloňování, ale když jsem to hledal, zadal jsem dotaz bez uvažování v prvním pádu.)

Zde už to tak jednoduché nebylo. Cílem jsou poměrně jednoznačně stránky www.krizikova­fontana.cz. Tam je uveden i program. Většina nalezených odkazů vedla na titulní stránku – za to jsem dával půl stupně dolů.

AllTheWeb docela propadl (možná proto, že nezvládnul už kódování). Našel pouze na šestém a desátém místě odkazy na seznam pražských divadel, ve kterém fontána byla. (Ale odkaz na šestém místě nefungoval.)

Google překvapil tím, že zobrazil i přímo odkaz na stránku programu (ale až jako třetí odkaz). Například Morfeo a Jyxo ji sice také našly, ale skryly ji pod titulní stránku (bylo nutno kliknout na „odkazy odtud“).

Pokud jde o katalogy, tak Atlas i Seznam vyžadovaly odstranění slova Seznam v dotazu, Centrum ne. Nalezený odkaz byl samozřejmě nepřímý.

Vyhledávač
Hrubé
Diakritika
Reklama
AllTheWeb.com
3– 3– 3-
Atlas.cz
1-
1-
1-
Empyreum.cz
1-
1-
1-
Google.com
1-
2
2
Jyxo.cz
2
2
2
Morfeo.cz
1-
1-
1-
Najdi.to
1-
1-
1-
Quick.cz
2
2
2-
Redbox.cz
1-
1– 1-
Seznam.cz
1-
2
2-
Tiscali.cz
2
2
2-
Yo.cz
2
2-
2-
Katalogy:



Atlas.cz 2
2
2
Centrum.cz
1-
1-
1-
Seznam.cz
2
2
2

b

Třetí dotaz

Hledaná informace: Chci jít do Pražské botanické zahrady v Tróji. Ale chci tam jít ráno a nevím, od kolika hodin mají otevřeno.
Datum testu: 22. září 2003
Použité dotazy: oteviraci doba prazska botanicka zahrada v troji (poznámka o skloňování viz výše)

A zde to bylo ještě problematičtější. Hledám důvěryhodný zdroj, tj. pokud je doba uvedena v rok starém článku, mohla se mezitím změnit. Nakonec stejně jediný zdroj, který mi vyhledávače našly, byly oficiální stránky PBZ.

Zde jsem u několika vyhledávačů musel dotaz zkrátit – někde jsem odstranil „v troji“, jinde jsem musel hledat jenom „prazska botanicka zahrada“.

Většinou jsem byl odkázán na titulní stránku, ale Google (a tím i Seznam) dá odkaz i přímo na stránku s otevírací dobou, bez nutnosti „rozbalovat“ doménu. A je to o to zajímavější, že jsem u nich musel použít dotaz, kde se „oteviraci doba“ vůbec nevyskytovala.

S diakritikou u tohoto dotazu nebyly problémy.

newsletter_lupa

       
b
Vyhledávač
Hrubé
Diakritika
Reklama
AllTheWeb.com
2-
2-
2-
Atlas.cz
2
2
2
Empyreum.cz
2-
2-
2-
Google.com
2 2
2
Jyxo.cz 2
2
2
Morfeo.cz
2
2
2
Najdi.to
2-
2-
3
Quick.cz
2
2
2-
Redbox.cz
2-
2-
3
Seznam.cz
2
2
2
Tiscali.cz 3
3
3-
Yo.cz
2
2
2
Katalogy:



Atlas.cz 2-
2-
2-
Centrum.cz
2-
2-
3
Seznam.cz
2-
2-
2-

b

Zde bych první díl ukončil. V příštím dílu bude zhodnoceno zbylých sedm dotazů a rovněž se ze zjištěných výsledků pokusím vyvodit závěry.

Michal Kára

Autor je konzultant a programátor na volné noze. Úzce spolupracuje s portálem Centrum.cz, především v oblasti e-mailu – je autorem antispamu a pozadí gigabajtového e-mailu.

Školení: Programování v PHP 5

 
  • Nový objektový model se všemi jeho vlastnostmi.
  • Práce s databázemi - MySQLi, SQLite, PDO.
  • Zajištění kompatibility s PHP 4, výhled na PHP 6.

Zjistěte více informací o školení>>

       
31 názorů Vstoupit do diskuse
poslední názor přidán 25. 10. 2003 16:48

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem