Hlavní navigace

Recenze vyhledavačů: WebFast.cz

Karel Pánek

Novým vyhledávacím strojem se v naší národní doméně pyšní Centrum.cz. Tatáž technologie je v podání á la Google dostupná i na stránce WebFast.cz. Podíváme se trochu podrobněji na tento systém a zhodnotíme, jaké nové přínosy či vylepšení přináší pro vyhledávání v česky psaných dokumentech.

Ja dobra ceska

Nadpis je velice příhodný pro schopnosti stroje zpracovat český text. To, co v angličtině přílíš nevadí, je chybějící jazykový modul, který by například alespoň převáděl všechna slova na jejich základní tvar. Připravte se proto na to, že když budete něco hledat, budete muset sami v dotazu vypsat dané slovo ve všech pádech. To může být značně frustrující zejména pro běžné uživatele, kteří se mohou divit, proč když mají v dotazu slovo „koních“ (kupř. ve formě dotazu „dovolená na koních“), stroj odmítá nalézt stránky se slovem „kůň“. U angličtiny tento problém nemusí nastat, protože některé syntaktické tvary jsou tvořeny předložkami nebo pozicí slova ve větě, aniž by samo slovo doznalo změnu. Tento nedostatek pochopitelně snižuje jak přesnost (precision), tak i úplnost (recall).

Stroj neumí dle mého zjištění ani doplnit jak levo-, tak pravostranné rozšíření slov v dotazu, takže zřejmě nemáte možnost pokrýt všechny koncovky slova třeba populární hvězdičkou: „pravd*“ = „pravd“, „pravda“, „pravdy“ atd. Tento nedostatek musím bohužel ve spojení s ostatními jazykovými možnostmi stroje pokládat za fatální.

Co nebudeme penalizovat

Zdá se, že stroj pracuje nad boolským modelem, který byl obohacen o funkci provádějící vyčíslení relevance mezi uživatelským dotazem a dokumentem. Subjektivně musím vyjádřit obavu z toho, jak je vlastní kalkulace prováděna, neboť spíše než fundovanou matematickou oporu v ní lze spatřit magické sčítání. To ale po pravdě není v moderních strojích fundamentální problém, protože podobné vzorce občas (spíše více než méně náhodně) vedou dokonce ke zkvalitnění odpovědí, které stroj vrací.

Z teoretického pohledu se stroje na bázi boolského modelu vyznačují jasnými formalismy a jednoduchostí. Hlavní nevýhodou je ale nutnost přesné shody slov z dotazu vůči slovům v dokumentu. To mnohdy vede k malému či naopak příliš obsáhlému výsledku, což demonstruji dále. V současnosti se považuje za obecný fakt, že alespoň nějaká aplikace vah nad termy indexu vede k výraznému zlepšení výkonu po stránce přesnosti a úplnosti. Tato technika by nás pak přivedla blíže k vektorovému modelu. Jak jsem ale zjistil při konkrétním testování, testovaný stroj nejspíše vůbec neimplementuje žádnou technologii s podobným efektem. Při déletrvajícím testování jsem více a více zjišťoval, že stroj není dle mého názoru dostatečně kvalitní pro zpracování dotazů (zejména v češtině) nad větší bází dokumentů. Sice vrací výsledky rychle, ale kvůli zřejmé absenci dostatečně kvalitních algoritmů i velice nepřesně.

Jak budeme testovat?

Vlastní testování povedu očima běžného uživatele, v jehož patách kráčí „odborník“. Testy budou směřovány k ergonomii kladení dotazů, schopnosti zpracovat češtinu (synonyma, homonyma, překlepy atd.), a dále pak i kvalitě pokrytí (viz. přesnost a úplnost). Protože se jedná o nový stroj, zhodnotím také kvalitu a strukturování výsledku, mimo jiné shlukování dle serveru a hledání podobných dokumentů. V neposlední řadě se zaměřím i na možnosti pokročilého vyhledávání. Z prostorových důvodů nebudu uvádět přesné dotazy a výsledky, spíše popíši, jaký typ dotazu způsobuje jaký problém.

K testování stroje jsem nejprve zvolil webfast.cz , ale záhy jsem seznal, že index nebude zřejmě nejrozsáhlejší, a proto jsem se přesunul na centrum.cz . Ale ani zde mě kvalita stroje neuspokojila, protože čím více jsem prodlužoval (zpřesňoval) dotaz, tím více odpovědí stroj vracel, a bohužel relevantní odkaz nebyl nikdy v horních patrech. Až poté, co jsem využil pokročilého vyhledávání s omezením vyhledávání jen na určitý server, dostal se odkaz nahoru. Z personálních důvodů nebudu publikovat přesný dotaz, ale v obecné rovině byl směrován na domovskou stránku vedoucího katedry UK. Jeho jméno je na ní uvedeno v titulku a nadpisu. Stránka sama o sobě obsahuje cca 50 slov (telefon, odkazy na další informace, seznam konferencí atp.). Místo zmíněné stránky jsem ale nalézal výhradně seznamy osob, kde byla hledaná osoba pouze jedním z mnoha uvedených. Tento efekt bezesporu vznikl z důvodu nevyladění funkce pro tyto případy – čím obsáhlejší stránka, tím více možných shod s dotazem a z toho plynoucí velká hodnota relevance, neboť každá shoda zvyšuje hodnotu relevance. Jakákoliv kompenzace tohoto jevu, kterou stroj (možná) provádí, je nedostatečná.

Shrnu-li dosavadní poznatky, dovolím si tvrdit, že pro běžného českého uživatele má stroj nízkou hodnotu pokrytí (coverage), a také přesnosti a úplnosti. S ohledem na publikovaný výpočet relevance dotazu a dokumentu je i sémantická analýza dokumentu na nedostatečné úrovni, takže ani touto metodikou není stroj schopen „dohnat“ kvalitativní ztráty. Pro odborníka je pak vhodný hlavně pro vyhledávání textů, kde se nevyhledávají běžná slova, ale například zkratky nebo technická označení. Mohu ho tedy doporučit obchodům, protože zákazník zajistě najde, co hledá, když položí dotaz „EOS 30“ (pozn. jde o druhou řadu zrcadlovek SLR Canon). Je ale otázka, zda pro takové dotazy nestačí běžná databázová relační technologie, která může indexovat in-time a je ve své náročnosti v celkových nákladech levnější.

Pokročilé vyhledávání

Možnosti, které stroj nabízí v pokročilém vyhledávání, vycházejí z možností modelu, na kterém byl postaven. Jako zdařilou mohu jmenovat například možnost požadovat vzájemnou vzdálenost dvou slov v dotazu (vhodné pro hledání vazeb). Tuto vlastnost ale do jisté míry degraduje fakt, že stroj neumí skloňovat, což je pak v případě vyhledávání českých slovních vazeb těžko řešitelný problém. Líbilo se mi, že stroj zvládá zápis nejen v logické formě, ale i poněkud lidštější podobě s „+“ a „-“. Jako spornou naopak chápu možnost stanovování váhy termu z dotazu. S ohledem na mně nejasnou formulaci funkce, která provádí výpočet relevance, jsem nebyl schopen nastavování vah efektivně využít.

Některé funkce (např. stanovení od jaké do jaké pozice si přejete vidět odpovědi ve výsledkové listině) jsou naproti tomu zbytečné pro webové rozhraní. Je otázkou, nakolik autoři zamýšlejí zapojení SOAP nebo IIOP ve svých obchodních strategiích. Tam je implementace zajisté relevantní, včetně implementace vyhledávání pouze v určité doméně.

Pro běžného uživatele, který nemá základy v IT, je jistou bariérou i pokládání pokročilých dotazů formou logického zápisu, který je v dnešní době pod silnou kritikou i části odborné veřejnosti. Důvody jsou nepřehlednost zápisu, stanovování relevancí atp. V tomto ohledu by bylo možná vhodné umožnit vstup pokročilých dotazů v přehlednějším formuláři, jako to mají velké nadnárodní vyhledávače. Přesto ale vysoce hodnotím již zmíněnou možnost vstupu v „lidském“ i „logickém“ zápisu.

Výsledky a vysvědčení

Pro hodnocení využívám klasické desítkové stupnice, kde dokonalost ocením hodnotou 10, úplné selhání hodnotou 0, a hodnotou 15 oceníme takovou funkci vyhledávače, která je unikátní a jsem jí ve svém věku příjemně vzrušen. Pozn. – Hodnota 0 může znamenat, že daná funkce není vůbec implementována.

Oblast Běžný uživatel Odborník
lemmatizátor (CS/US) 0/0 0/0
thesaurus (CS/US) 0/0 0/0
analýza překlepů 0/0 0/0
schopnost identifikovat jazyk 0 0
zpracování diakritiky 5 5
sémantická analýza HTML 3 1
vyhledávání částí slov 1 0
možnosti pokročilých dotazů 5 3
seskupování odpovědí 5 7
pokrytí, přesnost, úplnost 4 2
rychlost 5 5
pokročilé vyhledávání – kvalita 3 4
formátování výstupu 5 8
Celková známka 3 4

Stroj se nám celkově nejevil jako příliš vhodný pro zpracování velkého množství českých dokumentů v rozsáhlých systémech, jako je například internet. Celkovou známku do značné míry ovlinil fakt, že jsme nemohli dostatečně nahradit neexistenci pravostranného rozšíření slov v dotazu pomocí „*“. Tento aspekt také ovlivnil i hodnotu pokročilého vyhledávání. Pozn. – Některé stroje (třeba Seznam) toto rozšíření provádějí automaticky, pokud tak činil i fulltext centrum.cz, činil to do značné míry nedostatečně dobře.

Stroj mohu doporučit jako přiměřeně kvalitní alternativu pro malé servery, pokud se tvůrci rozhodnou na bázi SOAP či IIOP nabízet vyhledávání jen v určitých doménách (přesněji zónách) svých zákazníků prostřednictvím služeb ASP.

Našli jste v článku chybu?

18. 1. 2002 20:01

Jan Karabina (neregistrovaný)
> druhem chat.seznamka.cz je to za jedna. To splnuje Empyreum
> Google, Atlas a Webfast maji seznamku na prvnim miste - ok.
takze webseek.cz ma take za jedna, to mne tesi ;)

6. 1. 2002 21:13

Martin Kopta (neregistrovaný)
Pana Pánka znám, vím, kdo to je. Narozdíl od většiny autorů dokonce vím i kde bydlí. :-) Vím o něm více, než si myslí, ale co naši článkopisci nechtějí říci o sobě sami, my o nich roztrubovat nemíníme.
Podnikatel.cz: V restauraci bez cigaret? Sněmovna kývla

V restauraci bez cigaret? Sněmovna kývla

Měšec.cz: U levneELEKTRO.cz už reklamaci nevyřídíte

U levneELEKTRO.cz už reklamaci nevyřídíte

Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

Měšec.cz: Vklad na cizí účet je draze zpoplatněn (přehled)

Vklad na cizí účet je draze zpoplatněn (přehled)

120na80.cz: 5 nejčastějších mýtů o kondomech

5 nejčastějších mýtů o kondomech

Podnikatel.cz: Daňové úlevy s EET nestačí. Budou zdražovat

Daňové úlevy s EET nestačí. Budou zdražovat

Měšec.cz: Za palivo zaplatíte mobilem (TEST)

Za palivo zaplatíte mobilem (TEST)

DigiZone.cz: ČT má dalšího zástupce v EBU

ČT má dalšího zástupce v EBU

Podnikatel.cz: Chaos u EET pokračuje. Jsou tu další návrhy

Chaos u EET pokračuje. Jsou tu další návrhy

Vitalia.cz: Nahradí sluch, ale zvuk je zcela jiný

Nahradí sluch, ale zvuk je zcela jiný

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Vitalia.cz: Když přijdete o oko, přijdete na rok o řidičák

Když přijdete o oko, přijdete na rok o řidičák

Root.cz: Kamery Sony se dají ovládnout na dálku

Kamery Sony se dají ovládnout na dálku

120na80.cz: Stoná vaše dítě často? Upravte mu jídelníček

Stoná vaše dítě často? Upravte mu jídelníček

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

DigiZone.cz: Česká televize mění schéma ČT :D

Česká televize mění schéma ČT :D

Vitalia.cz: Mondelez stahuje rizikovou čokoládu Milka

Mondelez stahuje rizikovou čokoládu Milka

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

Podnikatel.cz: Udávání kvůli EET začalo

Udávání kvůli EET začalo