Hlavní navigace

Lesk a bída českých vyhledavačů

Marek Prokop 6. 12. 2001

V oblasti fulltextových vyhledavačů došlo během krátké doby na českém Internetu hned k několika velkým změnám. Nejprve si několik portálů vybralo jako nové řešení Empyreum, posléze se objevil téměř nový WebFast, a nakonec ještě skutečně nový WebSeek. Jedná se pouze o nepodstatné změny, či zároveň dochází k posunu v kvalitě?

Když jsem v létě psal svou případovou ministudii o optimalizaci stránek pro české vyhledavače, vypadala scéna zcela jinak než dnes. Atlas měl ještě svůj vlastní fulltext, Redbox používal Google i na český Internet, WebFast a WebSeek neexistovaly, Empyreum skoro nikdo neznal.

Od té doby se mnohé změnilo. Atlas, RedBox, Klikni a Uzdroje začaly používat Empyreum, Centrum osamostatnilo svůj vyhledavač pod značkou WebFast a objevil se nový WebSeek a Tiscali. Od Atlasu se oddělil MSN, který používá svůj vlastní vyhledavač. Otázka je, zda se tím život hledajících uživatelů stal snazším.

Stejně jako jinde ve světě, i u nás se na poli vyhledavačů uplatňují dva základní obchodní modely. První je založen na vlastním provozování vyhledavače jako služby pro koncové návštěvníky. Druhý se naopak soustřeďuje na vyhledavač jako technologii, kterou lze pronajímat jiným serverům.

První případ u nás reprezentují hlavně zavedené portály, které si již dříve vlastní vyhledavač vyvinuly. Z těch nejvýznamnějších se jedná o Centrum (WebFast), Seznam (Kompas) a Tiscali. Do druhého tábora patří především vyhledavač Empyreum, který poskytuje své služby Atlasu, RedBoxu, Klikni a Uzdroje, a Megatext, který je používán na portálu Quick.

Nástup „technologicky orientovaných“ vyhledavačů je pro uživatele jasné plus. Tento obchodní model si totiž nepotrpí na obsahově přetížené weby plné reklam, a tak se dnes můžeme těšit ze strohé jednoduchosti a rychlosti WebFastu (ve skutečnosti stejný stroj, jako na Centru, ovšem bez všeho balastu, včetně reklam, okolo) či WebSeeku. Jak jsme ale na tom se samotnou kvalitou vyhledávání?

Určit kvalitu vyhledavačů není jednoduché. Existuje několik základních kriterií, která se obtížně vyhodnocují, neboť vyhledavače sami se o svých výsledcích a parametrech příliš nešíří. Navíc vzájemné váhy těchto kritérií v celkovém hodnocení nejsou zcela jednoznačné a závisí od úhlu pohledu. Zkusme se na jednotlivá kritéria podívat podrobněji.

Rychlost vyhledávání

Rychlost vyhledávání, tj. čas potřebný k nalezení odpovědi, je dnes již kritériem prakticky bezvýznamným. Všechny české vyhledavače mohou směle parafrázovat známého výrobce luxusních automobilů a svůj výkon deklarovat jako „dostatečný“. Toto kritérium nám tedy v hodnocení kvality moc nepomůže.

Rychlost aktualizace indexu

S rychlostí a pravidelností, jakou vyhledavače aktualizují svou databázi, je tomu však již jinak. Jednak se jedná o kritérium velmi významné, a jednak jsou v něm mezi jednotlivými vyhledavači značné rozdíly.

Asi nejhůře je na tom v tomto ohledu Seznam, který, jak se zdá, provedl poslední aktualizaci své fulltextové databáze někdy letos v červnu. Mnoho stránek, které zde najdete, tedy dnes vypadá jinak, zadaná klíčová slova už třeba vůbec neobsahují a někdy dokonce vůbec neexistují.

V aktuálnosti databáze naopak exceluje Empyreum, které dokáže samo nalézt nové stránky a reagovat na změny existujicích přibližně během týdne, maximálně dvou. Pod jeden měsíc se ještě vejde WebSeek, s přibližně měsíční periodou aktualizací pracuje WebFast (Centrum).

Rozsah databáze

Rozsah databáze, neboli počet indexovaných stránek, je poněkud sporné kritérium. Zejména portály se rádi chlubí tím, kolik stránek mají ve svém indexu, jenže metodika určení se zpravidla liší a mezi jednotlivými servery je obtížně srovnatelná.

Navíc se z praktického hlediska jedná o kritérium méně podstatné. Uživatelé mívají spíše problém, jak si z mnoha odpovědí na svůj dotaz vybrat, než aby si stěžovali na jejich malý počet. Malý rozsah databáze lze tedy vytknout snad jen nováčkovi na trhu, vyhledavači WebSeek.

Relevance odpovědí

Na závěr jsem si schválně nechal kritérium nejzávažnější a nejobtížněji vyhodnotitelné. Pokud vyhledavač disponuje rozumně rozsáhlou a přiměřeně aktuální databází, je relevance odpovědí tím, co uživatele zajímá nejvíce. Typický uživatel vyhledavače totiž obvykle projde a vyzkouší pouze první dvě až tři stránky výsledků, tedy maximálně 30 odpovědí. Není-li v nich, co hledal, těžko bude s vyhledavačem spokojen.

Proti vyhledavačům (a v důsledku i proti jejich uživatelům) však většinou stojí majitelé webů, kteří si přejí dostat své stránky ve výsledcích co nejvýše, relevance nerelevance. Vyhledavače proto nesmí vycházet jen z triviálních kritérií, jako je počet slov či obsah metatagu keywords, ale musí indexované stránky hodnotit komplexněji.

O mnoho délek v soutěži relevance prohrává Quick. Ten by si snad dokonce zasloužil v této disciplíně diskvalifikaci, neboť nad jeho výsledky někdy zůstává rozum stát. Posuďte sami např. odpověď na dotaz „podnikání na webu“, kde na druhé a třetí pozici naleznete tutéž stránku, na kterou se právě díváte. Quick se tedy do výsledků hledání nerozpakuje zahrnout své vlastní výsledky hledání, často namíchané s výsledky hledání jiných hledačů a katalogů. Zároveň výsledky třídí mechanicky podle počtu slov na stránce. Proto právě první tři stránky odpovědí bývají v Quicku ty nejméně použitelné.

Typickou bolestí českých vyhledavačů je jejich důvěřivost. K tomu, abyste ošidili například Seznam, nemusíte být zrovna odborníkem na optimalizace pro vyhledavače. Typickým příkladem je odpověď na dotaz „nokia“ – na páté a šesté pozici naleznete odkaz na stránky Faktor-Light, slovo „nokia“ byste však na nich hledali marně. Ovšem jen do okamžiku, kdy si prohlédnete zdrojový kód a zjistíte, že se vyskytuje vždy dvakrát v metatagu keywords a description, a navíc ještě černým písmem na černém pozadí dole na stránce spolu s asi stovkou dalších slov.

Jedná se o starý trik, který u renomovaných zahraničních vyhledavačů fungoval naposledy před několika lety. Dnes ho naopak tvrdě penalizují. V Googlu proto tuto stránku na stejný dotaz (omezený pro doménu .cz) nenajdete ani mezi prvními dvěma sty odkazy.

Nicméně i ostatní české vyhledavače v rozporu se světovým trendem stále zřetelně preferují výskyt klíčových slov uvnitř metatagů keywords a description oproti výskytu jinde v textu. Až roztomile to působí u Empyrea, které navíc evidentně hodnotí hustotu klíčových slov na stránce a díky tomu často ve výsledcích preferuje samotné framsety s dostatečně malým počtem slov v keywords, description a v titulku stránky (tag title), před stránkami se skutečným, na klíčová slova mnohem bohatším obsahem.

Abych však Empyreu nekřivdil, co se relevance odpovědí týče, patří u nás ke špičce a blíží se úrovni obvyklé u zahraničních vyhledavačů, což lze ověřit porovnáním jeho výsledků třeba s Googlem, který představuje fulltext nejmodernější, tematicky orientované koncepce relevance rankingu s vysokým důrazem na měření kvality indexovaných stránek.

Shrnutí

Pokud bych měl značně subjektivně shrnout výsledky jednotlivých vyhledavačů podle jednotlivých kritérií a sestavit pomyslný žebříček kvality, na jeho čele by se umístilo právě Empyreum s plným počtem bodů za relevanci odpovědí a aktuálnost databáze. V těsném závěsu by následoval WebFast (Centrum), který ztrácí body za pomalejší aktualizaci. Peleton by naopak uzavíral Seznam s minimem bodů za relevanci a nulou za aktuálnost a Quick, jehož výsledky jsou prakticky nepoužitelné kvůli balastu z ostatních vyhledavačů a katalogů.

Zdá se, že je tedy dobře, když se k Empyreu přiklonila většina českých portálů. Přesto považuji za škodu, že RedBox k Empyreu přešel od Googlu, který relevancí výsledků stále předčí Empyreum o tolik, že tím kompenzuje i o něco menší aktuálnost a menší rozsah databáze pro stránky v doméně  .cz.

Velmi slušnými výsledky mne překvapil WebSeek, který by si určitě zasloužil větší popularitu jak u koncových uživatelů, tak u portálů.

Našli jste v článku chybu?

30. 7. 2002 20:27

vkmkmk@seznam.cz (neregistrovaný)
empyreuum, ani google, ani cokoli jinyho stejne nebyly schopny po 6 měsících od změny stránek zaregistrovat nějakou jejich změnu. A to i přes to, že sem posílal do systému link znova. V marné naději, že se odkaz změní.
Nevím co používá jako vyhledávač quick.cz, ten aspoň přidal i ten druhý odkaz a nyní existují oba. Stejná adresa, jiný popis. Problém je ale hlavně v cashováním stránek. Proč tam proboha zůstává něco, co už půl roku neexistuje a celé zaměření stránek je naprosto odlišné?!

17. 12. 2001 20:03

MK (neregistrovaný)
co zkusit SCSI disky ? :-)
Vitalia.cz: Naučí vás péct kváskový chléb bez lepku i s lepkem

Naučí vás péct kváskový chléb bez lepku i s lepkem

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

DigiZone.cz: Česká televize mění schéma ČT :D

Česká televize mění schéma ČT :D

Podnikatel.cz: Prodává přes internet. Kdy platí zdravotko?

Prodává přes internet. Kdy platí zdravotko?

Podnikatel.cz: Udávání kvůli EET začalo

Udávání kvůli EET začalo

Lupa.cz: UX přestává pro firmy být magie

UX přestává pro firmy být magie

120na80.cz: Rakovina oka. Jak ji poznáte?

Rakovina oka. Jak ji poznáte?

Měšec.cz: Vklad na cizí účet je draze zpoplatněn (přehled)

Vklad na cizí účet je draze zpoplatněn (přehled)

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá

Lupa.cz: Babiš: E-shopů se EET možná nebude týkat

Babiš: E-shopů se EET možná nebude týkat

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

Root.cz: Vypadl Google a rozbilo se toho hodně

Vypadl Google a rozbilo se toho hodně

120na80.cz: Popraskané rty? Některé balzámy stav zhoršují

Popraskané rty? Některé balzámy stav zhoršují

Lupa.cz: Google měl výpadek, nejel Gmail ani YouTube

Google měl výpadek, nejel Gmail ani YouTube

Vitalia.cz: Manželka je bio, ale na sex moc není

Manželka je bio, ale na sex moc není

Podnikatel.cz: Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

Přivýdělek u Airbnb nebo Uberu? Čekejte kontrolu

120na80.cz: Rovnátka, která nejsou vidět

Rovnátka, která nejsou vidět