Hlavní navigace

Recenze vyhledávačů: Empyreum (Uzdroje.cz, Atlas.cz)

17. 1. 2002
Doba čtení: 6 minut

Sdílet

V tomto článku jsme se zaměřili na Empyreum - stroj, kterým podle zatím nepotvrzených informací Seznam nahradí Kompas. Empyreum nás dokázal překvapit v některých výsledcích dobrou kvalitou. Bohužel však ne ve všech situacích, a typový seznam dotazů je právě obsahem tohoto příspěvku. Kritice jsou podrobeny i některé věřejně publikované PR.

Po konzultaci s kolegogou spolupracujícím s BBC považuji za korektní zveřejnit, že v rámci komunikace se společností Empyreum, k.s., (dále v závislosti na kontextu jen Empyreum) mi byly učiněny určité nabídky spolupráce. Mimo přínosnou faktickou spolupráci se jednalo i o nabídku, která ale neměla vliv na hodnocení v kladném ani záporném smyslu, neboť jsem ji nepřijal. Byla mi totiž učiněna nabídka v obchodně-marketingové oblasti, ve spojení s tím, že společnost Empyreum vyvíjí činnost i „v oblasti financí“. Po ověření proti internetovému obchodnímu rejstříku se domnívám, že zmiňovaná společnost v dané oblasti není oprávněna působit, a že se při určitém výkladu může jednat o „sponzoring“ vhodných závěrů recenze.

Domácí adresa empyreum.cz po dlouhou dobu hlásila, že prezentace bude brzy dostupná. Proto mnohé z testů byly prováděny proti systému Uzdroje.cz a částečně i Atlas.cz. Pro hlavní testování jsem ale zvolil Uzdroje.cz, protože další implementace na Atlas.cz nevyužívá možností stroje naplno. Jedná se mimojiné o výstup, který je v podání Atlas.cz ochuzen o některé zajímavé pokročilé informace. Jedinou škodou je, že je Uzdroje.cz implementuje tak, že vlastně vůbec nefungují (náhled, seznam odkazů na stránku).

Implementace na Uzdroje.cz není oproštěna od dalších dětských nemocí, se kterými jsme se mohli setkat i v předchozích recenzích. Zde se jedná o počet stránek výsledku, který se občas protahoval jen tím, jak jsem se pohyboval po jednotlivých stránkách (dotaz „petr libal“). Také pokud vložíte dotaz produkující dlouhý výsledek a vstoupíte na stránky v závěru, zjistíte, že jsou prázdné, přestože jsou na ně odkazy v navigační liště.

Hodí se na web?

Web obsahuje spoustu podobných stránek a není přece v zájmu uživatele, aby dostal od stroje odpověď, kde prvních 200 odkazů tvoří typově stejné stránky – např. manuálové. Jak si s tím poradí Empyreum, můžete zjistit dotazem „phpinfo“. Na první stránce výsledků je sedm obsahově totožných, a to lze považovat za kvalitativní nedostatek. Spíše by se hodilo vypsat pouze jeden takový výsledek, a pokud ho uživatel uváží jako relevantní, umožnit mu pokračování volbou „show similar pages“.

Zmíněnou techniku zpětné vazby (a ostatně ani žádnou jinou) stroj neumožňuje. Konkurent, Webfast, možná bude argumentovat, že on nabízí zobrazení odkazů s podobnou adresou, ale to rozhodně nepočítám do techniky zpětné vazby. Stačí tožiž, když si dotaz „phpinfo“ necháte vyřešit na Centrum.cz. Myslím, že si ani tam kvalitativně nepomůžete. Pozn.: při dotazu „atlas“ je ale technika Webfast úspěšná (schopnosti Webfast v této oblasti byly v odpovídající recenzi oceněny až 7 body).

Přesto musím konstatovat, že Empyreum se mi jevil při delším používání jako stroj, který je z dosud posuzovaných strojů nejlépe určen pro zpracování velké báze textů. Má na to vliv mně osobně neznámá technika zapracování citací do výsledné hodnoty podobnosti. Dle white-paper se jedná o heuristiky vyvinuté firmou Empyreum. Jejich kvalitu, jak uvidíme dále, zřejmě negativně ovlivnila doba jejich testování a vývoje, a doufejme, že jejich reálný vývoj ještě neskončil.

Příklad málo vyladěné heuristiky Empyrea: Dotaz „kopacka“ preferuje Reflex, „milan kopacka“ preferuje osobni dokumenty, „milan kopacka matka“ už zase Reflex a iDNES, „domovska stranka milan kopacka“ vůbec stránky Milana Kopačky nevrací, přestože dotaz přesně sedí na vektorový model (navíc Milan Kopačka je v linku / nadpisu pro tuto domovskou stránku!). Pozn.: Centrum.cz vrací na tyto typy dotazu seznamy osob – toto chování jsem kritizoval předminule.

Úplnost a přesnost

V předchozím testu jsme použili dotaz „penzion hradec“. Zkusme jej i nyní. Ve výsledkové listině se ve vysokých patrech objevují odkazy na různé penziony, které ale rozhodně s naším dotazem nemají nic společného. V top10 je dokonce odkaz na stránku, která hledaná slova vůbec neobsahuje (stránka „Pro e-mailový kontakt … použijte …“). Tento omyl pravděpodobně souvisí s tím, že stroj uvažuje citace podobně jako Google. Zřejmě tak existuje link se slovy „penzion Hradec“ směřující na tuto stránku, a tím ji dostává do vyšších pater výsledku. To, že se ve výsledku vůbec ukáže, je způsobeno dle slov Karla Pánka (Empyreum) tím, že je stránka indexována včetně vlastní textové podoby URL. Vskutku textový zápis konkrétního URL ( URL.toString()) obsahuje slova „penzion“ i „hradec“. Určitě by stálo za to uvážit, zda je vhodné takové stránky, které neobsahují žádný rozumný text, vůbec indexovat.

Na druhou stranu je ale nutné přiznat, že v případě vyhledávání domovských stránek dotazy typu jméno-přijmení, je stroj poměrně úspěšný a daří se mu zdárně eliminovat seznamy jmen (zřejmě pro malý rozsah indexu však poměrně často nenalezne domovskou stránku vůbec). Přestože mi nebylo poskytnuto konkrétní vyjádření k technice citací a používaných heuristik, lze to vysvětlit tím, že na takové stránky existují linky pod označením odpovídajícím jménu. Tak dojde k posílení relevance a vzestupu na výsledkové listině.

Protože jsem plně nepochopil, jakým způsobem Empyreum konstruuje výsledek, mohu pouze konstatovat, že stanovení relevance nebude založeno na prvoplánovém vyčíslení. Bohužel mi není jasné, proč českou a německou verzi stránky penzionu na tomtéž serveru ( www.outdoor.cz) nevrací při sobě, stejně jako to činí pro stránky z web.reality.cz  a reality.cz, kde se jedná dokonce o identické texty. Jak se zdá, stačí když stránky budou přístupné ekvivalentně pod více doménami, abyste vytlačili konkurenci z výsledkové listiny. Tento typ floodingu by bylo vhodné detekovat a eliminovat.

Domnívám se, že by bylo prospěšné alespoň schematicky publikovat používané heuristiky, a dovolit uživateli nastavovat jejich parametry. Kdyby byly by tyto hodnoty zasílány zpět na server v rámci dotazů, server by si mohl nastavit heuristiku sám, na nově přícházejícího uživatele např. váženým průměrem.

Pozn.: Pro dotaz „penzion Hradec“ je výsledek z vyhledávače Empyreum méně úplný a má nižší coverage než výsledky z Webfast. Tento jev platí obecně pro dotazy dvou termů, které by měly ve vyšších patrech obsahovat zásahy s uvedenými slovy zároveň. Takové termy se dále nesmí ale navíc nevyskytovat v dlouhých seznamech.

Jazykové dovednosti

Po stránce zpracování jazyka patří stroj opět k tzv. českému standardu. Žádné rozpoznávání synonym, překlepů, a pochopitelně ani skloňování.

Kraulování při indexování

I v případě crawlingu (pozor, Empyreum má dle vlastního tvrzení TM na slovo Crawler) stroj používá nepublikované heuristiky. Ty mu zajišťují, aby rychle indexoval celou českou doménu. Servery k indexování přitom objevuje zcela automaticky. Nebudu se na tomto místě rozepisovat o tom, jak agresivně tento produkt indexuje, ale s jakým efektem pro výsledný index.

Někteří zákazníci Empyrea si před několika měsíci na podpoře stěžovali, že jejich weby nejsou v indexu, přestože na ně existuje link. Vydal jsem se proto po stopě toho, jak je to s úplností indexu, zvláště když firma Empyreum ve své prezentaci uvádí, že indexuje řádově 10 milionů stránek, a že se jedná o nejrozsáhlejší index naší domény.

Protože každý z dotázaných serverů se může dopouštět určité fabulace, provedl jsem poměrně jednoduchý test. Zvolil jsem několik velice obecných slov a sledoval, kolik zásahů obsahují příslušné výsledky. Má-li stroj v indexu více stran než jiný, neměl by mít ani tyto výsledky kratší, protože by měl nižší výkon (sp. recall). Pro porovnání nahlédněte do tabulky:

Dotaz Empyreum Webfast
sem 156K 200K
server 497K 623K
stranka 428K 927K

Myslím, že tento malý výčet staví realitu do správného světla.

Výsledky a vysvědčení

Pro hodnocení využijeme již prezentované desítkové stupnice, kde dokonalost ocením hodnotou 10, úplné selhání hodnotou 0, a hodnotou 15 ocením vyjímečnou implementaci. Pozn.: Hodnota 0 může znamenat, že daná funkce není vůbec implementována. Pro podrobnější popis hodnot tabulky nahlédněte prosím do předchozích recenzí (zde – pozn. edit.).

cif - debata 2

Oblast Běžný uživatel Odborník
lemmatizátor (CS/US) 0/0 0/0
thesaurus (CS/US) 0/0 0/0
analýza překlepů 0/0 0/0
schopnost identifikovat jazyk 0 0
zpracování diakritiky 5 5
sémantická analýza HTML 4 5
vyhledávání částí slov 5 4
možnosti pokročilých dotazů 5 2
seskupování odpovědí 5 5
pokrytí, přesnost, úplnost 5 2
rychlost 5 5
pokročilé vyhledávání – kvalita 2 3
formátování výstupu 5 5
Celková známka 4 3

Do sémantické analýzy započítávám možnost reagovat na provázanost dokumentů hypertextovými odkazy.

Závěr: Stroj Empyreum nabízí pokročilou technologii, která by po vhodném vyladění parametrů mohla velice úspěšně prohledávat tak velkou bázi textů, jako je česká národní doména. Zatím trpí v porovnání s konkurencí menší bazí indexovaných dokumentů a určitými nepřesnostmi (dotaz „spoluzaci“ vrací server o spolužacích až na 18. místě).

Byl pro vás článek přínosný?

Autor článku

Autor není v zádném komerčním vztahu k firmám, které se orientují na vyhledávání v doméně CZ, a nikdy v takovém vztahu nebyl. Jeho komerční aktivity směřují mimo kontinentální Evropu.
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).