Hlavní navigace

Hledání nejlepšího hledače

Michal Illich 1. 3. 2001

Internetové portály kolem nás bují jako houby po dešti - jen na malém českém Internetu vám k jejich spočítání nebudou stačit prsty. Ačkoliv uživateli nabízejí všelijaké služby a lákadla, jejich srdcem ve většině případů bývá vyhledávač. Jak můžeme posoudit jeho kvalitu? Který český portál vyhledává skutečně nejlépe?

Existuje několik různých vlastností, které můžeme u vyhledavače hodnotit. Dvě nejdůležitější jsou rozsah jeho databáze (tedy o kolika různých stránkách má nějaké informace) a relevance vyhledavání (tedy zda dokáže vybrat ke každému dotazu ty správné odkazy z databáze). Dále bychom mohli hodnotit rychlost, podporu operátorů nebo přítomnost chyb. Společným a nejvyšším kritériem je však vždy spokojenost uživatele s vrácenými výsledky.

Klasik lingvistiky a psychologie Noam Chomsky definuje veškerou komunikaci tímto modelem: Odesílatel má nějaký záměr, ten zakóduje, kódovaný signál projde kanálem (kde je modifikován šumem), přijímatel informaci dekóduje, tedy nějak pochopí. Internetový vyhledávač stojí před téměř neřešitelným úkolem – ze záměru uživatele („chci najít stránky firmy XY“) zakódovaným do krátké fráze („XY“), musí vrátit to, co uživatel původně chtěl (domácí stránku firmy XY). Měl by tak v ideálním případě fungovat jako novodobé orákulum – uhodnout přání uživatele.

V současnosti je ale častějším jevem, že vyhledávač vrátí takové informace, které „jemu“ přijdou jako nejlepší (mají třeba nejvyšší hustotu klíčového slova nebo mají v jeho databázi nejnižší identifikační číslo nebo třeba dobré místo v abecedě). Uživatel je tak často nucen brodit se desítkami bezcenných stránek, případně se pokusit dotaz přeformulovat, aby „tomu ten krám konečně porozuměl“.

Pokusme se tedy nyní společně vymyslet metodu, jak najít ten vyhledávač, který odpovídá na dotazy tak, jak my (uživatelé, LIDÉ) chceme. Sestrojme test, který ohodnotí algoritmy jednotlivých vyhledávačů podle toho, jak kvalitní (z lidského pohledu) výsledky dávají.

Přesné cílení

Častým problémem, který uživatel na Internetu mívá, je najít stránky nějaké firmy, člověka či instituce. V takovém případě napíše zřejmě do vyhledávače jméno hledaného subjektu a očekává, že dostane požadovanou adresu.

Pojďme tedy vyzkoušet české vyhledávače, jak se s takovou situací vyrovnají. Navrhuji následující metodiku:

  • Nejdřív si napíšeme seznam firem, lidí a institucí spolu s adresami jejich domácích stránek.
  • Jména hledaných subjektů zadáme do všech testovaných vyhledávačů.
  • Ohodnotíme vyhledávač podle toho, zda byl schopen patřičným odkazem odpovědět. Například když ho vrátil na prvním místě, dostane 3 body, když na druhém až čtvrtém, tak 2 body, pokud kdekoliv na první stránce, tak 1 bod, jinak nic.
  • Dílčí výsledky sečteme a vyhledavače setřídíme podle dosaženého skóre.

Vystižení tématu

Trochu jiná situace nastává, když nehledáte konkrétní subjekt, ale chcete se pouze dozvědět informace o nějakém tématu. V takovém případě neexistuje žádná jedna „správná“ stránka, kterou by vyhledávač měl přednostně najít. Tedy nemůžeme aplikovat předchozí metodu hodnocení. Daleko spíš bychom měli posoudit, zda se stránky, které vyhledávač vrátil, zabývají tím, co hledáme. Navrhuji následující test:

  • Zvolme si několik témat (třeba MP3, zpravodajství, politika, Pink Floyd, papoušci).
  • Zadejme tato témata do testovaných vyhledávačů.
  • U každého vyhledavače ohodnotíme prvních X odkazů 0–3 body, podle toho, jak nám stránka po jejím prozkoumání přijde užitečná.
  • Dílčí výsledky sečteme a vyhledávače setřídíme podle dosaženého skóre.

Pro objektivitu tohoto testu je vhodné hodnocení provádět jako „blind-test“ – tedy osoba, která posuzuje kvalitu vráceného odkazu, by neměla vědět, který vyhledávač ho vrátil.

To je tedy metodika, kterou navrhuji k testování relevance českých vyhledavačů. Máte-li k ní nějaké nápady či připomínky, neváhejte a připojte se do diskuse. Tento článek je prvním z minisérie – v příštím dílu necháme autory jednotlivých českých vyhledávačů, ať nám svůj server představí, a v posledním dílu provedeme samotný test podle domluvené metodiky.

Anketa

Myslíte, že testem podle výše popsané metodiky získáme užitečné informace?

Našli jste v článku chybu?

27. 4. 2005 19:06

Ladislav Koubek (neregistrovaný)
Nedavno jsem se snazil najit praci pres ruzne personalni servery a prohledavace a nahodou jsem objevil odkaz na http://www.eprofil.cz kde je super odkazovnik na vsechny mozne IT firmy, trochu sice nemotorne roztridene, avsak prohlizeni je konfortni a velmi rychle. Doporucuji. Lada Koubek

5. 3. 2001 23:14

Jiří Kubička (neregistrovaný)
Nalezení informace zadáním jednoho či dvou klíčových slov není hudbou vzdálené budoucnosti, ale vzdalující se minulosti, protože stránek, kde ta slova jsou, přibývá obrovskou rychlostí. Odpověď na specifičtější dotazy lze dnes získat jen fulltextovým vyhledavačem s booleanským hledáním.
Rozumět přirozenému jazyku potřebuje uživatel - dvě klíčová slova nejsou přirozený jazyk, ale dokumenty, které uživatel hledá, většinou v přirozeném jazyce jsou.
Nevěřím,že internet někdy odstraní nutno…
Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Vitalia.cz: Pečete cukroví a zbyl vám bílek?

Pečete cukroví a zbyl vám bílek?

Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

Vitalia.cz: Mondelez stahuje rizikovou čokoládu Milka

Mondelez stahuje rizikovou čokoládu Milka

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

Měšec.cz: Golfové pojištění: kde si jej můžete sjednat?

Golfové pojištění: kde si jej můžete sjednat?

120na80.cz: Rovnátka, která nejsou vidět

Rovnátka, která nejsou vidět

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

120na80.cz: Rakovina oka. Jak ji poznáte?

Rakovina oka. Jak ji poznáte?

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

Měšec.cz: Přejete si číslo účtu na přání?

Přejete si číslo účtu na přání?

Root.cz: Mirai má nový cíl 5 milionů routerů

Mirai má nový cíl 5 milionů routerů

DigiZone.cz: Milan Kruml: procházka TV historií

Milan Kruml: procházka TV historií

Podnikatel.cz: Na poslední chvíli šokuje výjimkami v EET

Na poslední chvíli šokuje výjimkami v EET

Podnikatel.cz: Babiše přesvědčila 89letá podnikatelka?!

Babiše přesvědčila 89letá podnikatelka?!

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Root.cz: Vypadl Google a rozbilo se toho hodně

Vypadl Google a rozbilo se toho hodně

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá

Měšec.cz: Vklad na cizí účet je draze zpoplatněn (přehled)

Vklad na cizí účet je draze zpoplatněn (přehled)