Internet Info, s.r.o. Lupa Měšec Podnikatel Root Zdroják DigiZone Slunečnice Vitalia Tuesday TopDrive KupDnes Navrcholu Bomba NovýTarif Dobrý web Weblogy Woko Jagg Computer.cz SK: MojeLinky

Recenze vyhledavačů: Seznam.cz

Seznam.cz patří bezesporu k dobře etablovaným vyhledávačům českého Internetu. V další recenzi vyhledavačů Seznam.cz nebude hodnocen jako celek. Místo toho se zaměříme na službu, jejíž vysokou kvalitu bychom rádi využili k vyhledávání zajímavých stránek a míst českého webu -- podíváme se blíže na fulltextové vyhledávání.

Co nebudu testovat

Nebudu hodnotit dotazy, které vracejí naprosto nesmyslné výsledky. Tyto chyby navíc nezohledním do výsledné známky. Pro zajímavost, hledáte-li například „a“, dovíte se, že „mod_kompas_ban­ner_nosearchre­klama“. Hledáte-li naproti tomu slovo „an“, dozvíte se, že bylo nalezeno 10834 odkazů, ale jejich seznam budete hledat na stránce marně. Ostatně Seznam neumí nalézt ani sám sebe, stačí když vyzkoušíte dotaz „seznam“.

Jak budeme testovat?

Testování povedeme ve třech na sobě nikterak závislých rovinách. V první fázi se zaměřím na schopnost Seznam.cz reagovat na naši mateřštinu, např. zda disponuje thesaurem či kontrolou překlepů. Fázi číslo dvě napřu směrem na zpracovaní anglických, nebo chcete-li anglicko-českých dokumentů. Typicky se bude jednat o „počítačoidní“ stránky. V poslední fázi se zaměřím na pokročilé vyhledávací funkce, jako je možnost ladění dotazu, modifikace důležitosti slov, ale i např. užívání pravostranného rozšíření a dalších pokročilých možností.

Kromě těchto rovin budu sledovat i formátování výsledku, jeho seskupování dle zdrojového serveru, odhalování duplicit, podobných stránek atp. Výslednou známku, kterou si dovolím fulltextovému vyhledávači Seznam.cz udělit, odvodím od dosaženého bodového ohodnocení, ve kterém odpovídajícím způsobem zohledním jak pohled běžného uživatele, tak následně i odborníka.

Pro úplnost připomínám, že testy provádím v širším záběru, avšak z prostorových důvodů demonstruji závěry vždy jedním příkladem.

Testujeme češtinu…

Příklad, na kterém mohu demonstrovat výsledné obodování, jsem zvolil s ohledem na probíhající zimní sezónu. Snažme se proto nalézt informace o ubytování v penzionu Hradec, který je situován v Peci pod Sněžkou. Volba tohoto dotazu není zcela nahodilá. Existuje několik míst, které se jmenují Hradec – např. Hradec Králové, a v případě, že by stroj odhalil tuto závislost, je tu malá past v podobě slova Králové (Městec Králové); navíc slovo penzion můžeme zapsat i jako pension, příp. můžeme volit různá synonyma (kupř. tzv. slabé synonymum hotel). Spojení „Pec pod Sněžkou“ samo o sobě také může otestovat kvalitu stroje, neboť každé ze slov má svoji relevanci, avšak právě ve frázi by je měl stroj efektivně posílit. Výhodné pro naše testy je i to, že penzion má své informace umístěné v několika světových jazycích v téměř totožné podobě a to na více serverech.

Dotaz penzion Hradec vrací velice nešťastnou odpověď na prvním místě (odkaz na www.rudolec.cz). Slovní spojení z dotazu je natolik určující, že důvod tohoto přehmatu můžeme hledat pravděpodobně v nevhodném stanovení normalizačních vektorů (využívá-li stroj vektorový přístup), nebo ohodnocovací funkci (při zastaralém boolském – logickém – modelu), eventuelně i starém indexu.

Naproti tomu dotaz penziony v Hradci už vrací přímo celý nesmyslný výsledek, ze kterého je zřejmé, že stroj naší mateřštině nejen nerozumí, ale není schopen ani slova dotazu transformovat do základního tvaru, nebo alespoň využít n-gramových strategií pro objevování slov „podobných“ slovům dotazu.

Pokusme se stroj ještě potrápit dotazem pension Hradec. Nyní je již potvrzeno, že stroj není určen pro zpracování českých textů (vyřešil by přesmyk „s“ a „z“) a ani nedisponuje metodou pro odhalování překlepů („s“ by pak odhalil jako překlep za „z“). Nejmenované cizí vyhledávače v takových situacích volí alespoň dotaz „Did you mean“ s korekcí případných překlepů.

Ja dobra cesky, zakusila cizojazyk…

Pro zkoušku angličtiny jsem již zvolil mnohem jednodušší testování, neboť v průběhu předchozích testů jsem dostal do krve trochu z možností stroje. Na ukázku mi pak stačí, jakým způsobem stroj nakládá při řešení slov „engine“ a „engines“ (porovnejte si oba výstupy). Výstup vypadá poměrně kvalitně, což je ale zejména způsobeno tím, že jde o anglické výrazy nemající tolik rozdílných tvarů. Tento příklad též krásně demonstruje, jak se stroj chová, když využívá výhradně základních technik výpočtu podobnosti, v našem případě pravděpodobně boolského modelu. Výstup je „mdlý“, bez šumu, výsledková listina obsahuje spoustu podobných zásahů z velice podobných (obsahových) míst. „Pochopí-li“ tedy stroj dotaz jinak, než jej chápete sami, musíte listovat dlouhým nudným seznamem. Moderní stroj by obsahové zdroje (vstupní uzly) střídal, aby v horních patrech dal možnost vybrat si konkrétní vstupní uzel s následným „show similar pages“. Tím by si ušetřil i obsluhu zpětné vazby, která je díky své paměťové režii velice nepopulární.

Označení nalezených vzorků ve výsledkové listině mě v předchozí recenzi omylem uvedlo na zcestí (viz. dále), když jsem se domníval, že seznam.cz automaticky doplňuje pravostrannou expanzi. Nečiní tak, a to ani kdyz ho nutíte přesně dle návodu. Vložíte-li dotaz „expression“, dostanete cca 5000 odkazů. Vložíte-li ale „expressio*“, výstup je prázdný, přestože by měl obsahovat alespoň všechny předcházející odkazy z hledání „expression“. Další frustrující skutečností pro uživatele je, že při vložení „expressio*“ dostane radu, že má používat hvězdičku nebo např. dotaz zjednodušit. Tyto poznámky bych považoval spíše za ironické než nápomocné…

Pokročilé funkce vyhledávání

Podle návodu jsem se snažil aplikovat pokročilé funkce. Kvalitu zpracování nám pak může ukázat porovnání výsledku pro AND a OR dotaz. AND dotaz jsme již prezentovali výše; pozn.: stroj Seznamu poněkud nestandardně předpokladá spojku AND na termy dotazu. Stačí proto sledovat rozdíl proti „penzion OR Hradec“. Ve výsledku jsou pak ve vysokých patrech pouze seznamy s objekty, které jsou umístěny vesměs v Hradci Králové. Rozhodně by stroji prospělo implementovat alespoň základní techniky inverzní frekvence (termu i dokumentu), protože výsledek je bez nich nadmíru nekvalitní.

Stejně tak další funkce, které jsou v dnešních fulltextech běžné, nejsou dnes již ve starší technologii fulltextového hledání na Seznam.cz implementované. Jako vážný nedostatek lze uvést nemožnost hledání sousloví či frází.

Vrátím se ještě několika málo slovy k tomu, proč stroj vyvolával dojem, že umí zpracovat pravostranné rozšíření či ho dokonce sám aplikoval. Velice podrobným rozborem stránek z výsledků mnoha dotazů jsem dospěl k závěru, že stroj indexuje nejen text, ale i např. IMG ALT. Protože do těchto alternativních textů mnoho autorů vkládá zkratky (místo „preklep“ použijí „prekl.“), dojde po odfiltrování oddělovačů k tomu, že dokument náhle obsahuje slova, která jsou předponami delších slov. Z výsledkové listiny je patrné, že tato slova mají velkou, ne-li totožnou, sílu jako slova v textu dokumentu. To je dle mého názoru fatální chyba. V jednom případě se dokonce zdálo, že stroj indexuje i text za ‚#‘, který byl v A HREF/NAME při lokálním odkazování. Toto chování jsem ale bohužel nebyl schopen ověřit alespoň dvěma nezávislými výsledkovými listinami dotazů.

Výsledky a vysvědčení

Známky jsou stanoveny na základě stupnice: 0 (nejhorší nebo neimplementováno) – 5 (běžné) – 10 (nejlepší mně známá implementace). Pro situace, kdy je daná oblast realizována lepším způsobem, než je bežně a dostupně popsáno v literatuře, využívám hodnotu 15.

Oblast Běžný uživatel Odborník
lemmatizátor (CS/US) 0/0 0/0
thesaurus (CS/US) 0/0 0/0
analýza překlepů 0/0 0/0
schopnost identifikovat jazyk 0 0
zpracování diakritiky 5 5
sémantická analýza HTML 5 1
vyhledávání částí slov 0 0
kladení pokročilých dotazů 0 0
seskupování odpovědí 0 0
pokrytí, přesnost, úplnost 2 1
pokročilé vyhledávání 0 0
formátování výstupu 5 1
aktuálnost indexu 0 0
Celková známka 1 0

U sémantické analýzy jsem nebyl schopen určit, zda je ve stroji vůbec nějak implementována. Situace, kdy jsem došel k závěru „ano“, mohly být též postraním produktem výpočtu váhy dokumentu vůči dotazu. Proto jsem z pohledu běžného uživatele navrhl hodnotu 5, zatímco z pohledu experta 1. Nižší ohodnocení expertního pohledu bylo dáno tím, že v situacích, kdy se zdálo, že stroj využil sémantickou analýzu, provedl několikrát chybu, tj. nadhodnocení – které mohlo být způsobeno účastí slova z dotazu v nadpisu, bohužel však vždy za cenu snížení výsledné přesnosti.

UX konference
       

Stanovení bodové úrovně přesnosti, úplnosti a pokrytí je z velké části subjektivní záležitost. Protože jsem schopen efektivně měřit pouze pokrytí, kalkuluji jej do ohodnocení takto: 0% jako –2 body, 100% jako +2 body. V základu (5 bodů) rozumím, že výsledek není uspořádán výhradně podle počtu výskytů slov ve vlastním těle dokumentu a novost (novelty) je nenulová mezi prvními 10ti zásahy. Hodnotově nad základ pak řadím schopnost reagovat na zpětnou vazbu, kde hodnota 10 představuje nejvyšší schopnost rychlé konvergence ke kvalitnímu pokrytí. Obecně by tedy mělo platit, že 0–2 body znamená nekvalitu, 3–4 body běžný střed, 5–6 bodů solidní stroj, nad 6 bodů velice slušný systém.

Závěr: fulltext Seznamu.cz není vhodný pro širokou ani pro odbornou veřejnost. Aktuálnost indexu je katastrofální, a činí jej naprosto nepoužitelným. Vlastní technologie rozhodně zasluhuje zásadní inovaci, kterou by mohlo představovat minimálně zapojení n-gramové techniky. Tu by šlo do stávajícího stroje implementovat rychle, prakticky v řádu hodin, a to i bez přeindexování, přičemž by se tím vyřešil zároveň problém překlepů a vyhledávání s hvězdičkou. Kdo z nás si pamatuje kdysi neochvějnou pozici vyhledávače AltaVista, jistě v tuto chvíli přemýšlí, jak dlouho vydrží Seznam.cz se svojí technologií, zpracováním a úrovní podpory. Je s podivem, že takový server neudržuje svůj fulltextový index dostatečně aktuální, nehledě na relevanci nápovědy a neošetření vyjímek (např. zmíněné dotazy „a“, „an“ z úvodu).

Anketa

Používáte na Seznamu fulltext?

       

Karel Pánek

Autor není v zádném komerčním vztahu k firmám, které se orientují na vyhledávání v doméně CZ, a nikdy v takovém vztahu nebyl. Jeho komerční aktivity směřují mimo kontinentální Evropu.

Školení Google Analytics pro pokročilé

DW - Školení Google Analytics
  • Jak využít nové funkce Google Analytics
  • Vyhodnocování kampaní díky používání Multichannel funnels
  • Kde návštěvníci vašeho webu utíkají z objednávacího procesu.
  • Nebudete opakovat časté chyby při vyhodnocování dat o návštěvnosti.

Detailní informace o školení Google Analytics pro pokročilé »

Přehled názorů

Seznam jak ho neznam
Dusan Bolek 9. 1. 2002 08:18
Nový
Seznam je stara opajcnuta sr*a
Ondrej Hnilicka 9. 1. 2002 09:08
Nový
└ 
Re: Seznam je stara opajcnuta sr*a
Petr 9. 1. 2002 10:55
Nový
To jsem zvedav
Martin 9. 1. 2002 11:42
Nový
└ 
Re: To jsem zvedav
k.p. 9. 1. 2002 12:37
Nový
 
├ 
Re: To jsem zvedav
Solvina 9. 1. 2002 14:50
Nový
 
│
└ 
Re: To jsem zvedav
k.p. 10. 1. 2002 00:08
Nový
 
└ 
Re: To jsem zvedav
? [v(d)ěčný otazník] 10. 1. 2002 02:53
Nový
 
 
└ 
Re: To jsem zvedav
k.p. 10. 1. 2002 11:57
Nový
 
 
 
├ 
Re: To jsem zvedav
k.p. 10. 1. 2002 12:24
Nový
 
 
 
│
└ 
Re: To jsem zvedav
ČoČkin I. Líný 10. 1. 2002 16:55
Nový
 
 
 
│
 
├ 
Re: To jsem zvedav
MK 10. 1. 2002 17:25
Nový
 
 
 
│
 
└ 
Re: To jsem zvedav
k.p. 10. 1. 2002 18:27
Nový
 
 
 
└ 
Re: To jsem zvedav
Martin Vobr 10. 1. 2002 16:39
Nový
 
 
 
 
└ 
Re: To jsem zvedav
k.p. 10. 1. 2002 19:17
Nový
Reseni prece existuje!
Advor 9. 1. 2002 21:31
Nový
└ 
Re: Reseni prece existuje!
k.p. 10. 1. 2002 00:19
Nový
 
├ 
Re: Reseni prece existuje!
Nishkam 10. 1. 2002 12:11
Nový
 
└ 
Re: Reseni prece existuje!
Advor 10. 1. 2002 17:14
Nový
 
 
└ 
Re: Reseni prece existuje!
k.p. 10. 1. 2002 18:56
Nový
 
 
 
└ 
Re: Reseni prece existuje!
Michal Illich 11. 1. 2002 15:02
Nový
 
 
 
 
└ 
Re: Reseni prece existuje!
k.p. 11. 1. 2002 18:10
Nový
 
 
 
 
 
├ 
Re: Reseni prece existuje!
Michal Illich 11. 1. 2002 20:12
Nový
 
 
 
 
 
│
└ 
Re: Reseni prece existuje!
k.p. 11. 1. 2002 23:04
Nový
 
 
 
 
 
│
 
└ 
Re: Reseni prece existuje!
Michal Illich 12. 1. 2002 13:22
Nový
 
 
 
 
 
│
 
 
└ 
Re: Reseni prece existuje!
k.p. 13. 1. 2002 16:24
Nový
 
 
 
 
 
│
 
 
 
└ 
Re: Reseni prece existuje!
Michal Illich 13. 1. 2002 17:09
Nový
 
 
 
 
 
│
 
 
 
 
└ 
Re: Reseni prece existuje!
Dan Lukes 13. 1. 2002 19:21
Nový
 
 
 
 
 
│
 
 
 
 
 
└ 
Re: Reseni prece existuje!
Michal Illich 14. 1. 2002 15:10
Nový
 
 
 
 
 
│
 
 
 
 
 
 
└ 
Re: Reseni prece existuje!
Dan Lukes 16. 1. 2002 01:05
Nový
 
 
 
 
 
└ 
Re: Reseni prece existuje!
Martin Kopta 14. 1. 2002 19:30
Nový
img alt
Marek Prokop 9. 1. 2002 23:41
Nový
└ 
Re: img alt
k.p. 10. 1. 2002 00:55
Nový
 
└ 
Re: img alt
Marek Prokop 10. 1. 2002 09:49
Nový
 
 
└ 
Re: img alt
k.p. 10. 1. 2002 11:14
Nový
Jiny Karel Panek
Karel Panek - EMPYREUM 10. 1. 2002 12:46
Nový
├ 
Re: Jiny Karel Panek
Libor Nováček 10. 1. 2002 18:06
Nový
│
└ 
Re: Jiny Karel Panek
Karel Panek - EMPYREUM 10. 1. 2002 18:58
Nový
└ 
Re: Jiny Karel Panek
Martin Kopta 14. 1. 2002 19:27
Nový
Seznam a fulltext
Aleš Michálek 12. 1. 2002 19:48
Nový
└ 
Re: Seznam a fulltext
Martin Kopta 14. 1. 2002 19:34
Nový
 
└ 
Re: Seznam a fulltext
Aleš Michálek 14. 1. 2002 20:23
Nový
 
 
└ 
Re: Seznam a fulltext
Martin Kopta 14. 1. 2002 22:28
Nový
       

Tento text je již více než dva měsíce starý. Chcete-li na něj reagovat v diskusi, pravděpodobně vám již nikdo neodpoví. Pro řešení aktuálních problémů doporučujeme využít naše diskusní fórum.

Zasílat nově přidané příspěvky e-mailem