Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia TopDrive KupDnes Navrcholu NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Recenze vyhledavačů: WebFast.cz

Novým vyhledávacím strojem se v naší národní doméně pyšní Centrum.cz. Tatáž technologie je v podání á la Google dostupná i na stránce WebFast.cz. Podíváme se trochu podrobněji na tento systém a zhodnotíme, jaké nové přínosy či vylepšení přináší pro vyhledávání v česky psaných dokumentech.

Ja dobra ceska

Nadpis je velice příhodný pro schopnosti stroje zpracovat český text. To, co v angličtině přílíš nevadí, je chybějící jazykový modul, který by například alespoň převáděl všechna slova na jejich základní tvar. Připravte se proto na to, že když budete něco hledat, budete muset sami v dotazu vypsat dané slovo ve všech pádech. To může být značně frustrující zejména pro běžné uživatele, kteří se mohou divit, proč když mají v dotazu slovo „koních“ (kupř. ve formě dotazu „dovolená na koních“), stroj odmítá nalézt stránky se slovem „kůň“. U angličtiny tento problém nemusí nastat, protože některé syntaktické tvary jsou tvořeny předložkami nebo pozicí slova ve větě, aniž by samo slovo doznalo změnu. Tento nedostatek pochopitelně snižuje jak přesnost (precision), tak i úplnost (recall).

Stroj neumí dle mého zjištění ani doplnit jak levo-, tak pravostranné rozšíření slov v dotazu, takže zřejmě nemáte možnost pokrýt všechny koncovky slova třeba populární hvězdičkou: „pravd*“ = „pravd“, „pravda“, „pravdy“ atd. Tento nedostatek musím bohužel ve spojení s ostatními jazykovými možnostmi stroje pokládat za fatální.

Co nebudeme penalizovat

Zdá se, že stroj pracuje nad boolským modelem, který byl obohacen o funkci provádějící vyčíslení relevance mezi uživatelským dotazem a dokumentem. Subjektivně musím vyjádřit obavu z toho, jak je vlastní kalkulace prováděna, neboť spíše než fundovanou matematickou oporu v ní lze spatřit magické sčítání. To ale po pravdě není v moderních strojích fundamentální problém, protože podobné vzorce občas (spíše více než méně náhodně) vedou dokonce ke zkvalitnění odpovědí, které stroj vrací.

Z teoretického pohledu se stroje na bázi boolského modelu vyznačují jasnými formalismy a jednoduchostí. Hlavní nevýhodou je ale nutnost přesné shody slov z dotazu vůči slovům v dokumentu. To mnohdy vede k malému či naopak příliš obsáhlému výsledku, což demonstruji dále. V současnosti se považuje za obecný fakt, že alespoň nějaká aplikace vah nad termy indexu vede k výraznému zlepšení výkonu po stránce přesnosti a úplnosti. Tato technika by nás pak přivedla blíže k vektorovému modelu. Jak jsem ale zjistil při konkrétním testování, testovaný stroj nejspíše vůbec neimplementuje žádnou technologii s podobným efektem. Při déletrvajícím testování jsem více a více zjišťoval, že stroj není dle mého názoru dostatečně kvalitní pro zpracování dotazů (zejména v češtině) nad větší bází dokumentů. Sice vrací výsledky rychle, ale kvůli zřejmé absenci dostatečně kvalitních algoritmů i velice nepřesně.

Jak budeme testovat?

Vlastní testování povedu očima běžného uživatele, v jehož patách kráčí „odborník“. Testy budou směřovány k ergonomii kladení dotazů, schopnosti zpracovat češtinu (synonyma, homonyma, překlepy atd.), a dále pak i kvalitě pokrytí (viz. přesnost a úplnost). Protože se jedná o nový stroj, zhodnotím také kvalitu a strukturování výsledku, mimo jiné shlukování dle serveru a hledání podobných dokumentů. V neposlední řadě se zaměřím i na možnosti pokročilého vyhledávání. Z prostorových důvodů nebudu uvádět přesné dotazy a výsledky, spíše popíši, jaký typ dotazu způsobuje jaký problém.

K testování stroje jsem nejprve zvolil webfast.cz , ale záhy jsem seznal, že index nebude zřejmě nejrozsáhlejší, a proto jsem se přesunul na centrum.cz . Ale ani zde mě kvalita stroje neuspokojila, protože čím více jsem prodlužoval (zpřesňoval) dotaz, tím více odpovědí stroj vracel, a bohužel relevantní odkaz nebyl nikdy v horních patrech. Až poté, co jsem využil pokročilého vyhledávání s omezením vyhledávání jen na určitý server, dostal se odkaz nahoru. Z personálních důvodů nebudu publikovat přesný dotaz, ale v obecné rovině byl směrován na domovskou stránku vedoucího katedry UK. Jeho jméno je na ní uvedeno v titulku a nadpisu. Stránka sama o sobě obsahuje cca 50 slov (telefon, odkazy na další informace, seznam konferencí atp.). Místo zmíněné stránky jsem ale nalézal výhradně seznamy osob, kde byla hledaná osoba pouze jedním z mnoha uvedených. Tento efekt bezesporu vznikl z důvodu nevyladění funkce pro tyto případy – čím obsáhlejší stránka, tím více možných shod s dotazem a z toho plynoucí velká hodnota relevance, neboť každá shoda zvyšuje hodnotu relevance. Jakákoliv kompenzace tohoto jevu, kterou stroj (možná) provádí, je nedostatečná.

Shrnu-li dosavadní poznatky, dovolím si tvrdit, že pro běžného českého uživatele má stroj nízkou hodnotu pokrytí (coverage), a také přesnosti a úplnosti. S ohledem na publikovaný výpočet relevance dotazu a dokumentu je i sémantická analýza dokumentu na nedostatečné úrovni, takže ani touto metodikou není stroj schopen „dohnat“ kvalitativní ztráty. Pro odborníka je pak vhodný hlavně pro vyhledávání textů, kde se nevyhledávají běžná slova, ale například zkratky nebo technická označení. Mohu ho tedy doporučit obchodům, protože zákazník zajistě najde, co hledá, když položí dotaz „EOS 30“ (pozn. jde o druhou řadu zrcadlovek SLR Canon). Je ale otázka, zda pro takové dotazy nestačí běžná databázová relační technologie, která může indexovat in-time a je ve své náročnosti v celkových nákladech levnější.

Pokročilé vyhledávání

Možnosti, které stroj nabízí v pokročilém vyhledávání, vycházejí z možností modelu, na kterém byl postaven. Jako zdařilou mohu jmenovat například možnost požadovat vzájemnou vzdálenost dvou slov v dotazu (vhodné pro hledání vazeb). Tuto vlastnost ale do jisté míry degraduje fakt, že stroj neumí skloňovat, což je pak v případě vyhledávání českých slovních vazeb těžko řešitelný problém. Líbilo se mi, že stroj zvládá zápis nejen v logické formě, ale i poněkud lidštější podobě s „+“ a „-“. Jako spornou naopak chápu možnost stanovování váhy termu z dotazu. S ohledem na mně nejasnou formulaci funkce, která provádí výpočet relevance, jsem nebyl schopen nastavování vah efektivně využít.

Některé funkce (např. stanovení od jaké do jaké pozice si přejete vidět odpovědi ve výsledkové listině) jsou naproti tomu zbytečné pro webové rozhraní. Je otázkou, nakolik autoři zamýšlejí zapojení SOAP nebo IIOP ve svých obchodních strategiích. Tam je implementace zajisté relevantní, včetně implementace vyhledávání pouze v určité doméně.

Pro běžného uživatele, který nemá základy v IT, je jistou bariérou i pokládání pokročilých dotazů formou logického zápisu, který je v dnešní době pod silnou kritikou i části odborné veřejnosti. Důvody jsou nepřehlednost zápisu, stanovování relevancí atp. V tomto ohledu by bylo možná vhodné umožnit vstup pokročilých dotazů v přehlednějším formuláři, jako to mají velké nadnárodní vyhledávače. Přesto ale vysoce hodnotím již zmíněnou možnost vstupu v „lidském“ i „logickém“ zápisu.

Výsledky a vysvědčení

Pro hodnocení využívám klasické desítkové stupnice, kde dokonalost ocením hodnotou 10, úplné selhání hodnotou 0, a hodnotou 15 oceníme takovou funkci vyhledávače, která je unikátní a jsem jí ve svém věku příjemně vzrušen. Pozn. – Hodnota 0 může znamenat, že daná funkce není vůbec implementována.

Blogujte na Lupě

Chcete mít vlastní blog o tématu kolem světa IT a internetu? Blogujte na Lupě a buďte na titulní stránce Lupy. Registrujte se na blog.lupa.cz.

       
Oblast Běžný uživatel Odborník
lemmatizátor (CS/US) 0/0 0/0
thesaurus (CS/US) 0/0 0/0
analýza překlepů 0/0 0/0
schopnost identifikovat jazyk 0 0
zpracování diakritiky 5 5
sémantická analýza HTML 3 1
vyhledávání částí slov 1 0
možnosti pokročilých dotazů 5 3
seskupování odpovědí 5 7
pokrytí, přesnost, úplnost 4 2
rychlost 5 5
pokročilé vyhledávání – kvalita 3 4
formátování výstupu 5 8
Celková známka 3 4

Stroj se nám celkově nejevil jako příliš vhodný pro zpracování velkého množství českých dokumentů v rozsáhlých systémech, jako je například internet. Celkovou známku do značné míry ovlinil fakt, že jsme nemohli dostatečně nahradit neexistenci pravostranného rozšíření slov v dotazu pomocí „*“. Tento aspekt také ovlivnil i hodnotu pokročilého vyhledávání. Pozn. – Některé stroje (třeba Seznam) toto rozšíření provádějí automaticky, pokud tak činil i fulltext centrum.cz, činil to do značné míry nedostatečně dobře.

Stroj mohu doporučit jako přiměřeně kvalitní alternativu pro malé servery, pokud se tvůrci rozhodnou na bázi SOAP či IIOP nabízet vyhledávání jen v určitých doménách (přesněji zónách) svých zákazníků prostřednictvím služeb ASP.

Karel Pánek

Autor není v zádném komerčním vztahu k firmám, které se orientují na vyhledávání v doméně CZ, a nikdy v takovém vztahu nebyl. Jeho komerční aktivity směřují mimo kontinentální Evropu.

Kurz SEO - Praha, Brno

DW - Školení SEO
  • Jak fungují vyhledávače a co od nich můžete očekávat.
  • Analýza klíčových slov - kde hledat, jak slova vybrat, jak optimalizovat.
  • Metody linkbuildingu - jak získat zpětné odkazy aniž byste za ně museli platit.
  • Vyhodnocování SEO - nesledujte jen pozice.

Další informace o kurzu SEO »

Akce: Využijte last minute slevu na školení v Brně!

Přehled názorů

Dotaz
im@point.cz 2. 1. 2002 06:49
Nový
├ 
Re: Dotaz
Martin Kopta 2. 1. 2002 08:02
Nový
│
└ 
Re: Dotaz
im@point.cz 2. 1. 2002 17:43
Nový
│
 
├ 
Re: Dotaz
Martin Kopta 2. 1. 2002 20:49
Nový
│
 
│
└ 
Re: Dotaz
im@point.cz 2. 1. 2002 21:04
Nový
│
 
└ 
Re: Dotaz
Jan Karabina 2. 1. 2002 22:34
Nový
└ 
Re: Dotaz
k.p. 3. 1. 2002 01:59
Nový
nenalézá...
vlczaak 2. 1. 2002 08:55
Nový
stranky mimo .cz
L. Kyndl 2. 1. 2002 12:15
Nový
Mnoho povyku pro nic
Martin Mares 2. 1. 2002 13:54
Nový
├ 
Re: Mnoho povyku pro nic
MK 2. 1. 2002 14:58
Nový
│
└ 
Zatim jsme nevideli dalsi kritiku
Jiri Pallas 3. 1. 2002 12:50
Nový
│
 
└ 
Re: Zatim jsme nevideli dalsi kritiku
Libor Nováček 3. 1. 2002 16:14
Nový
│
 
 
└ 
Re: Zatim jsme nevideli dalsi kritiku
Jiri Pallas 3. 1. 2002 16:57
Nový
│
 
 
 
├ 
Re: Zatim jsme nevideli dalsi kritiku
Libor Nováček 3. 1. 2002 20:35
Nový
│
 
 
 
│
└ 
Re: Zatim jsme nevideli dalsi kritiku
Jiri Pallas 3. 1. 2002 21:54
Nový
│
 
 
 
│
 
└ 
Re: Zatim jsme nevideli dalsi kritiku
Libor Nováček 3. 1. 2002 22:20
Nový
│
 
 
 
│
 
 
└ 
Re: Zatim jsme nevideli dalsi kritiku
Jiri Pallas 3. 1. 2002 23:25
Nový
│
 
 
 
│
 
 
 
└ 
Re: Zatim jsme nevideli dalsi kritiku
Martin Kopta 4. 1. 2002 17:33
Nový
│
 
 
 
├ 
Re: Zatim jsme nevideli dalsi kritiku
Jan Průša 4. 1. 2002 12:23
Nový
│
 
 
 
│
└ 
GULÁŠ.klikni.cz
Jiri Pallas 4. 1. 2002 12:53
Nový
│
 
 
 
│
 
└ 
GULÁŠ.seznamka.cz
Jan Průša 4. 1. 2002 14:36
Nový
│
 
 
 
│
 
 
└ 
Re: GULÁŠ.seznamka.cz
Jiri Pallas 4. 1. 2002 14:42
Nový
│
 
 
 
└ 
Re: Zatim jsme nevideli dalsi kritiku
Jan Karabina 18. 1. 2002 20:01
Nový
├ 
Re: Mnoho povyku pro nic
Mirek Zeman 2. 1. 2002 15:56
Nový
│
└ 
Re: Mnoho povyku pro nic
Hercule Poirot 2. 1. 2002 18:36
Nový
│
 
└ 
Re: Mnoho povyku pro nic
Martin Kopta 2. 1. 2002 20:48
Nový
├ 
Re: Mnoho povyku pro nic
Jan Karabina 2. 1. 2002 23:01
Nový
│
└ 
Re: Mnoho povyku pro nic
Martin Mareš 4. 1. 2002 22:48
Nový
└ 
Re: Mnoho povyku pro nic
k.p. 3. 1. 2002 02:33
Nový
 
└ 
Re: Mnoho povyku pro nic
Martin Mareš 4. 1. 2002 22:55
Nový
Malinko jednostranné
Marek Prokop 3. 1. 2002 10:27
Nový
└ 
Re: Malinko jednostranné
k.p. 4. 1. 2002 00:06
Nový
 
└ 
Re: Malinko jednostranné
Marek Prokop 4. 1. 2002 00:52
Nový
EMPYREUM: Shoda jmen;)
Karel Panek 5. 1. 2002 13:57
Nový
└ 
Re: EMPYREUM: Shoda jmen;)
Martin Kopta 6. 1. 2002 21:13
Nový
       

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem