Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia Tuesday TopDrive KupDnes Navrcholu Bomba NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Recenze vyhledávačů: Empyreum (Uzdroje.cz, Atlas.cz)

V tomto článku jsme se zaměřili na Empyreum - stroj, kterým podle zatím nepotvrzených informací Seznam nahradí Kompas. Empyreum nás dokázal překvapit v některých výsledcích dobrou kvalitou. Bohužel však ne ve všech situacích, a typový seznam dotazů je právě obsahem tohoto příspěvku. Kritice jsou podrobeny i některé věřejně publikované PR.

Po konzultaci s kolegogou spolupracujícím s BBC považuji za korektní zveřejnit, že v rámci komunikace se společností Empyreum, k.s., (dále v závislosti na kontextu jen Empyreum) mi byly učiněny určité nabídky spolupráce. Mimo přínosnou faktickou spolupráci se jednalo i o nabídku, která ale neměla vliv na hodnocení v kladném ani záporném smyslu, neboť jsem ji nepřijal. Byla mi totiž učiněna nabídka v obchodně-marketingové oblasti, ve spojení s tím, že společnost Empyreum vyvíjí činnost i „v oblasti financí“. Po ověření proti internetovému obchodnímu rejstříku se domnívám, že zmiňovaná společnost v dané oblasti není oprávněna působit, a že se při určitém výkladu může jednat o „sponzoring“ vhodných závěrů recenze.

Domácí adresa empyreum.cz po dlouhou dobu hlásila, že prezentace bude brzy dostupná. Proto mnohé z testů byly prováděny proti systému Uzdroje.cz a částečně i Atlas.cz. Pro hlavní testování jsem ale zvolil Uzdroje.cz, protože další implementace na Atlas.cz nevyužívá možností stroje naplno. Jedná se mimojiné o výstup, který je v podání Atlas.cz ochuzen o některé zajímavé pokročilé informace. Jedinou škodou je, že je Uzdroje.cz implementuje tak, že vlastně vůbec nefungují (náhled, seznam odkazů na stránku).

Implementace na Uzdroje.cz není oproštěna od dalších dětských nemocí, se kterými jsme se mohli setkat i v předchozích recenzích. Zde se jedná o počet stránek výsledku, který se občas protahoval jen tím, jak jsem se pohyboval po jednotlivých stránkách (dotaz „petr libal“). Také pokud vložíte dotaz produkující dlouhý výsledek a vstoupíte na stránky v závěru, zjistíte, že jsou prázdné, přestože jsou na ně odkazy v navigační liště.

Hodí se na web?

Web obsahuje spoustu podobných stránek a není přece v zájmu uživatele, aby dostal od stroje odpověď, kde prvních 200 odkazů tvoří typově stejné stránky – např. manuálové. Jak si s tím poradí Empyreum, můžete zjistit dotazem „phpinfo“. Na první stránce výsledků je sedm obsahově totožných, a to lze považovat za kvalitativní nedostatek. Spíše by se hodilo vypsat pouze jeden takový výsledek, a pokud ho uživatel uváží jako relevantní, umožnit mu pokračování volbou „show similar pages“.

Zmíněnou techniku zpětné vazby (a ostatně ani žádnou jinou) stroj neumožňuje. Konkurent, Webfast, možná bude argumentovat, že on nabízí zobrazení odkazů s podobnou adresou, ale to rozhodně nepočítám do techniky zpětné vazby. Stačí tožiž, když si dotaz „phpinfo“ necháte vyřešit na Centrum.cz. Myslím, že si ani tam kvalitativně nepomůžete. Pozn.: při dotazu „atlas“ je ale technika Webfast úspěšná (schopnosti Webfast v této oblasti byly v odpovídající recenzi oceněny až 7 body).

Přesto musím konstatovat, že Empyreum se mi jevil při delším používání jako stroj, který je z dosud posuzovaných strojů nejlépe určen pro zpracování velké báze textů. Má na to vliv mně osobně neznámá technika zapracování citací do výsledné hodnoty podobnosti. Dle white-paper se jedná o heuristiky vyvinuté firmou Empyreum. Jejich kvalitu, jak uvidíme dále, zřejmě negativně ovlivnila doba jejich testování a vývoje, a doufejme, že jejich reálný vývoj ještě neskončil.

Příklad málo vyladěné heuristiky Empyrea: Dotaz „kopacka“ preferuje Reflex, „milan kopacka“ preferuje osobni dokumenty, „milan kopacka matka“ už zase Reflex a iDNES, „domovska stranka milan kopacka“ vůbec stránky Milana Kopačky nevrací, přestože dotaz přesně sedí na vektorový model (navíc Milan Kopačka je v linku / nadpisu pro tuto domovskou stránku!). Pozn.: Centrum.cz vrací na tyto typy dotazu seznamy osob – toto chování jsem kritizoval předminule.

Úplnost a přesnost

V předchozím testu jsme použili dotaz „penzion hradec“. Zkusme jej i nyní. Ve výsledkové listině se ve vysokých patrech objevují odkazy na různé penziony, které ale rozhodně s naším dotazem nemají nic společného. V top10 je dokonce odkaz na stránku, která hledaná slova vůbec neobsahuje (stránka „Pro e-mailový kontakt … použijte …“). Tento omyl pravděpodobně souvisí s tím, že stroj uvažuje citace podobně jako Google. Zřejmě tak existuje link se slovy „penzion Hradec“ směřující na tuto stránku, a tím ji dostává do vyšších pater výsledku. To, že se ve výsledku vůbec ukáže, je způsobeno dle slov Karla Pánka (Empyreum) tím, že je stránka indexována včetně vlastní textové podoby URL. Vskutku textový zápis konkrétního URL ( URL.toString()) obsahuje slova „penzion“ i „hradec“. Určitě by stálo za to uvážit, zda je vhodné takové stránky, které neobsahují žádný rozumný text, vůbec indexovat.

Na druhou stranu je ale nutné přiznat, že v případě vyhledávání domovských stránek dotazy typu jméno-přijmení, je stroj poměrně úspěšný a daří se mu zdárně eliminovat seznamy jmen (zřejmě pro malý rozsah indexu však poměrně často nenalezne domovskou stránku vůbec). Přestože mi nebylo poskytnuto konkrétní vyjádření k technice citací a používaných heuristik, lze to vysvětlit tím, že na takové stránky existují linky pod označením odpovídajícím jménu. Tak dojde k posílení relevance a vzestupu na výsledkové listině.

Protože jsem plně nepochopil, jakým způsobem Empyreum konstruuje výsledek, mohu pouze konstatovat, že stanovení relevance nebude založeno na prvoplánovém vyčíslení. Bohužel mi není jasné, proč českou a německou verzi stránky penzionu na tomtéž serveru ( www.outdoor.cz) nevrací při sobě, stejně jako to činí pro stránky z web.reality.cz  a reality.cz, kde se jedná dokonce o identické texty. Jak se zdá, stačí když stránky budou přístupné ekvivalentně pod více doménami, abyste vytlačili konkurenci z výsledkové listiny. Tento typ floodingu by bylo vhodné detekovat a eliminovat.

Domnívám se, že by bylo prospěšné alespoň schematicky publikovat používané heuristiky, a dovolit uživateli nastavovat jejich parametry. Kdyby byly by tyto hodnoty zasílány zpět na server v rámci dotazů, server by si mohl nastavit heuristiku sám, na nově přícházejícího uživatele např. váženým průměrem.

Pozn.: Pro dotaz „penzion Hradec“ je výsledek z vyhledávače Empyreum méně úplný a má nižší coverage než výsledky z Webfast. Tento jev platí obecně pro dotazy dvou termů, které by měly ve vyšších patrech obsahovat zásahy s uvedenými slovy zároveň. Takové termy se dále nesmí ale navíc nevyskytovat v dlouhých seznamech.

Jazykové dovednosti

Po stránce zpracování jazyka patří stroj opět k tzv. českému standardu. Žádné rozpoznávání synonym, překlepů, a pochopitelně ani skloňování.

Kraulování při indexování

I v případě crawlingu (pozor, Empyreum má dle vlastního tvrzení TM na slovo Crawler) stroj používá nepublikované heuristiky. Ty mu zajišťují, aby rychle indexoval celou českou doménu. Servery k indexování přitom objevuje zcela automaticky. Nebudu se na tomto místě rozepisovat o tom, jak agresivně tento produkt indexuje, ale s jakým efektem pro výsledný index.

Někteří zákazníci Empyrea si před několika měsíci na podpoře stěžovali, že jejich weby nejsou v indexu, přestože na ně existuje link. Vydal jsem se proto po stopě toho, jak je to s úplností indexu, zvláště když firma Empyreum ve své prezentaci uvádí, že indexuje řádově 10 milionů stránek, a že se jedná o nejrozsáhlejší index naší domény.

Protože každý z dotázaných serverů se může dopouštět určité fabulace, provedl jsem poměrně jednoduchý test. Zvolil jsem několik velice obecných slov a sledoval, kolik zásahů obsahují příslušné výsledky. Má-li stroj v indexu více stran než jiný, neměl by mít ani tyto výsledky kratší, protože by měl nižší výkon (sp. recall). Pro porovnání nahlédněte do tabulky:

Dotaz Empyreum Webfast
sem 156K 200K
server 497K 623K
stranka 428K 927K

Myslím, že tento malý výčet staví realitu do správného světla.

Výsledky a vysvědčení

Pro hodnocení využijeme již prezentované desítkové stupnice, kde dokonalost ocením hodnotou 10, úplné selhání hodnotou 0, a hodnotou 15 ocením vyjímečnou implementaci. Pozn.: Hodnota 0 může znamenat, že daná funkce není vůbec implementována. Pro podrobnější popis hodnot tabulky nahlédněte prosím do předchozích recenzí (zde – pozn. edit.).

UX konference
       
Oblast Běžný uživatel Odborník
lemmatizátor (CS/US) 0/0 0/0
thesaurus (CS/US) 0/0 0/0
analýza překlepů 0/0 0/0
schopnost identifikovat jazyk 0 0
zpracování diakritiky 5 5
sémantická analýza HTML 4 5
vyhledávání částí slov 5 4
možnosti pokročilých dotazů 5 2
seskupování odpovědí 5 5
pokrytí, přesnost, úplnost 5 2
rychlost 5 5
pokročilé vyhledávání – kvalita 2 3
formátování výstupu 5 5
Celková známka 4 3

Do sémantické analýzy započítávám možnost reagovat na provázanost dokumentů hypertextovými odkazy.

Závěr: Stroj Empyreum nabízí pokročilou technologii, která by po vhodném vyladění parametrů mohla velice úspěšně prohledávat tak velkou bázi textů, jako je česká národní doména. Zatím trpí v porovnání s konkurencí menší bazí indexovaných dokumentů a určitými nepřesnostmi (dotaz „spoluzaci“ vrací server o spolužacích až na 18. místě).

Karel Pánek

Autor není v zádném komerčním vztahu k firmám, které se orientují na vyhledávání v doméně CZ, a nikdy v takovém vztahu nebyl. Jeho komerční aktivity směřují mimo kontinentální Evropu.

Školení Facebooku s Danem Dočekalem

DW - Školení PPC
  • Jak efektivně propojit Facebook s firemním webem.
  • Jak měřit a vyhodnocovat zapojení firmy do sociálních sítí.
  • Řešení krizové situace v sociální síti nebo jejím prostřednictvím
  • Jak podnikat na Facebooku v souladu s pravidly

Detailní informace o školení Facebooku »

Přehled názorů

Je ten článek ČESKY?
Petr Ptáček 17. 1. 2002 14:04
Nový
└ 
Re: Je ten článek ČESKY?
JP 17. 1. 2002 14:36
Nový
 
└ 
Re: Je ten článek ČESKY?
Petr Ptáček 17. 1. 2002 14:41
Nový
 
 
└ 
Re: Je ten článek ČESKY?
Jarek Jesenský 17. 1. 2002 20:39
Nový
 
 
 
├ 
Re: Je ten článek ČESKY?
k.p. 17. 1. 2002 23:52
Nový
 
 
 
└ 
Re: Je ten článek ČESKY?
Dusan Bolek 18. 1. 2002 09:00
Nový
PROHLASENI
Karel Panek - EMPYREUM 17. 1. 2002 15:21
Nový
├ 
Re: PROHLASENI
k.p. 17. 1. 2002 17:33
Nový
│
└ 
Re: PROHLASENI
Karel Panek - EMPYREUM 17. 1. 2002 20:08
Nový
└ 
Re: PROHLASENI
Zdeněk Polách 17. 1. 2002 17:57
Nový
 
└ 
Re: PROHLASENI
Karel Panek - EMPYREUM 17. 1. 2002 19:35
Nový
 
 
└ 
Re: PROHLASENI
Zdeněk Polách 17. 1. 2002 19:45
Nový
 
 
 
└ 
Re: PROHLASENI
Karel Panek - EMPYREUM 17. 1. 2002 20:18
Nový
 
 
 
 
├ 
Re: PROHLASENI
Jiří Pallas 18. 1. 2002 09:02
Nový
 
 
 
 
└ 
Re: PROHLASENI
Roj 18. 1. 2002 09:21
Nový
 
 
 
 
 
└ 
Re: PROHLASENI
Karel Panek 21. 1. 2002 12:10
Nový
 
 
 
 
 
 
└ 
Re: PROHLASENI
Daniel Dočekal 21. 1. 2002 17:27
Nový
 
 
 
 
 
 
 
├ 
Re: PROHLASENI
Pavel 22. 1. 2002 00:31
Nový
 
 
 
 
 
 
 
└ 
Re: PROHLASENI
Karel Panek - EMPYREUM 22. 1. 2002 11:06
Nový
 
 
 
 
 
 
 
 
└ 
Re: PROHLASENI
Dan Lukes 23. 1. 2002 00:32
Nový
Taky mi to vadi
Jindra Kos 17. 1. 2002 20:49
Nový
└ 
Re: Taky mi to vadi
k.p. 18. 1. 2002 00:06
Nový
 
├ 
Re: Taky mi to vadi
Karel Panek - EMPYREUM 18. 1. 2002 00:38
Nový
 
└ 
Re: Taky mi to vadi
Vincent 18. 1. 2002 09:36
Nový
 
 
└ 
Re: Taky mi to vadi
k.p. 18. 1. 2002 13:58
Nový
 
 
 
└ 
Re: Taky mi to vadi
Petr Ptáček 18. 1. 2002 14:59
Nový
 
 
 
 
└ 
Re: Taky mi to vadi
Michal Illich 18. 1. 2002 20:03
Nový
 
 
 
 
 
└ 
Northernlight
Libor Nováček 19. 1. 2002 11:16
Nový
 
 
 
 
 
 
└ 
Re: Northernlight
Michal Illich 19. 1. 2002 12:09
Nový
 
 
 
 
 
 
 
└ 
Re: Northernlight
Petr Anderle 19. 1. 2002 13:54
Nový
 
 
 
 
 
 
 
 
└ 
Re: Northernlight
Michal Illich 19. 1. 2002 15:19
Nový
 
 
 
 
 
 
 
 
 
└ 
Re: Northernlight
Petr Anderle 19. 1. 2002 15:23
Nový
 
 
 
 
 
 
 
 
 
 
└ 
Re: Northernlight
Michal Illich 19. 1. 2002 15:36
Nový
 
 
 
 
 
 
 
 
 
 
 
└ 
Re: Northernlight
Petr Anderle 19. 1. 2002 15:41
Nový
Autor je mimo
Diss 18. 1. 2002 00:06
Nový
└ 
Re: Autor je mimo
k.p. 18. 1. 2002 00:20
Nový
pokracovani ....
Jiri C. 18. 1. 2002 00:07
Nový
└ 
Re: pokracovani ....
k.p. 18. 1. 2002 00:34
Nový
 
├ 
Re: pokracovani ....
Karel Panek - EMPYREUM 18. 1. 2002 00:43
Nový
 
└ 
Re: pokracovani ....
Petr Ptáček 18. 1. 2002 09:00
Nový
PREKVAPIVE ODHALENI
agent Kocour 18. 1. 2002 12:55
Nový
Moc by me zajimalo ...
Pavel Kuda 20. 1. 2002 00:22
Nový
├ 
Re: Moc by me zajimalo ...
David Votruba 21. 1. 2002 11:42
Nový
│
└ 
Re: Moc by me zajimalo ...
kuda pavel 21. 1. 2002 15:06
Nový
└ 
Re: Moc by me zajimalo ...
Karel Panek 21. 1. 2002 11:53
Nový
 
└ 
Re: Moc by me zajimalo ...
kuda pavel 21. 1. 2002 14:42
Nový
       

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem