Hlavní navigace

Recenze vyhledavačů: Seznam.cz

9. 1. 2002
Doba čtení: 7 minut

Sdílet

Seznam.cz patří bezesporu k dobře etablovaným vyhledávačům českého Internetu. V další recenzi vyhledavačů Seznam.cz nebude hodnocen jako celek. Místo toho se zaměříme na službu, jejíž vysokou kvalitu bychom rádi využili k vyhledávání zajímavých stránek a míst českého webu -- podíváme se blíže na fulltextové vyhledávání.

Co nebudu testovat

Nebudu hodnotit dotazy, které vracejí naprosto nesmyslné výsledky. Tyto chyby navíc nezohledním do výsledné známky. Pro zajímavost, hledáte-li například „a“, dovíte se, že „mod_kompas_ban­ner_nosearchre­klama“. Hledáte-li naproti tomu slovo „an“, dozvíte se, že bylo nalezeno 10834 odkazů, ale jejich seznam budete hledat na stránce marně. Ostatně Seznam neumí nalézt ani sám sebe, stačí když vyzkoušíte dotaz „seznam“.

Jak budeme testovat?

Testování povedeme ve třech na sobě nikterak závislých rovinách. V první fázi se zaměřím na schopnost Seznam.cz reagovat na naši mateřštinu, např. zda disponuje thesaurem či kontrolou překlepů. Fázi číslo dvě napřu směrem na zpracovaní anglických, nebo chcete-li anglicko-českých dokumentů. Typicky se bude jednat o „počítačoidní“ stránky. V poslední fázi se zaměřím na pokročilé vyhledávací funkce, jako je možnost ladění dotazu, modifikace důležitosti slov, ale i např. užívání pravostranného rozšíření a dalších pokročilých možností.

Kromě těchto rovin budu sledovat i formátování výsledku, jeho seskupování dle zdrojového serveru, odhalování duplicit, podobných stránek atp. Výslednou známku, kterou si dovolím fulltextovému vyhledávači Seznam.cz udělit, odvodím od dosaženého bodového ohodnocení, ve kterém odpovídajícím způsobem zohledním jak pohled běžného uživatele, tak následně i odborníka.

Pro úplnost připomínám, že testy provádím v širším záběru, avšak z prostorových důvodů demonstruji závěry vždy jedním příkladem.

Testujeme češtinu…

Příklad, na kterém mohu demonstrovat výsledné obodování, jsem zvolil s ohledem na probíhající zimní sezónu. Snažme se proto nalézt informace o ubytování v penzionu Hradec, který je situován v Peci pod Sněžkou. Volba tohoto dotazu není zcela nahodilá. Existuje několik míst, které se jmenují Hradec – např. Hradec Králové, a v případě, že by stroj odhalil tuto závislost, je tu malá past v podobě slova Králové (Městec Králové); navíc slovo penzion můžeme zapsat i jako pension, příp. můžeme volit různá synonyma (kupř. tzv. slabé synonymum hotel). Spojení „Pec pod Sněžkou“ samo o sobě také může otestovat kvalitu stroje, neboť každé ze slov má svoji relevanci, avšak právě ve frázi by je měl stroj efektivně posílit. Výhodné pro naše testy je i to, že penzion má své informace umístěné v několika světových jazycích v téměř totožné podobě a to na více serverech.

Dotaz penzion Hradec vrací velice nešťastnou odpověď na prvním místě (odkaz na www.rudolec.cz). Slovní spojení z dotazu je natolik určující, že důvod tohoto přehmatu můžeme hledat pravděpodobně v nevhodném stanovení normalizačních vektorů (využívá-li stroj vektorový přístup), nebo ohodnocovací funkci (při zastaralém boolském – logickém – modelu), eventuelně i starém indexu.

Naproti tomu dotaz penziony v Hradci už vrací přímo celý nesmyslný výsledek, ze kterého je zřejmé, že stroj naší mateřštině nejen nerozumí, ale není schopen ani slova dotazu transformovat do základního tvaru, nebo alespoň využít n-gramových strategií pro objevování slov „podobných“ slovům dotazu.

Pokusme se stroj ještě potrápit dotazem pension Hradec. Nyní je již potvrzeno, že stroj není určen pro zpracování českých textů (vyřešil by přesmyk „s“ a „z“) a ani nedisponuje metodou pro odhalování překlepů („s“ by pak odhalil jako překlep za „z“). Nejmenované cizí vyhledávače v takových situacích volí alespoň dotaz „Did you mean“ s korekcí případných překlepů.

Ja dobra cesky, zakusila cizojazyk…

Pro zkoušku angličtiny jsem již zvolil mnohem jednodušší testování, neboť v průběhu předchozích testů jsem dostal do krve trochu z možností stroje. Na ukázku mi pak stačí, jakým způsobem stroj nakládá při řešení slov „engine“ a „engines“ (porovnejte si oba výstupy). Výstup vypadá poměrně kvalitně, což je ale zejména způsobeno tím, že jde o anglické výrazy nemající tolik rozdílných tvarů. Tento příklad též krásně demonstruje, jak se stroj chová, když využívá výhradně základních technik výpočtu podobnosti, v našem případě pravděpodobně boolského modelu. Výstup je „mdlý“, bez šumu, výsledková listina obsahuje spoustu podobných zásahů z velice podobných (obsahových) míst. „Pochopí-li“ tedy stroj dotaz jinak, než jej chápete sami, musíte listovat dlouhým nudným seznamem. Moderní stroj by obsahové zdroje (vstupní uzly) střídal, aby v horních patrech dal možnost vybrat si konkrétní vstupní uzel s následným „show similar pages“. Tím by si ušetřil i obsluhu zpětné vazby, která je díky své paměťové režii velice nepopulární.

Označení nalezených vzorků ve výsledkové listině mě v předchozí recenzi omylem uvedlo na zcestí (viz. dále), když jsem se domníval, že seznam.cz automaticky doplňuje pravostrannou expanzi. Nečiní tak, a to ani kdyz ho nutíte přesně dle návodu. Vložíte-li dotaz „expression“, dostanete cca 5000 odkazů. Vložíte-li ale „expressio*“, výstup je prázdný, přestože by měl obsahovat alespoň všechny předcházející odkazy z hledání „expression“. Další frustrující skutečností pro uživatele je, že při vložení „expressio*“ dostane radu, že má používat hvězdičku nebo např. dotaz zjednodušit. Tyto poznámky bych považoval spíše za ironické než nápomocné…

Pokročilé funkce vyhledávání

Podle návodu jsem se snažil aplikovat pokročilé funkce. Kvalitu zpracování nám pak může ukázat porovnání výsledku pro AND a OR dotaz. AND dotaz jsme již prezentovali výše; pozn.: stroj Seznamu poněkud nestandardně předpokladá spojku AND na termy dotazu. Stačí proto sledovat rozdíl proti „penzion OR Hradec“. Ve výsledku jsou pak ve vysokých patrech pouze seznamy s objekty, které jsou umístěny vesměs v Hradci Králové. Rozhodně by stroji prospělo implementovat alespoň základní techniky inverzní frekvence (termu i dokumentu), protože výsledek je bez nich nadmíru nekvalitní.

Stejně tak další funkce, které jsou v dnešních fulltextech běžné, nejsou dnes již ve starší technologii fulltextového hledání na Seznam.cz implementované. Jako vážný nedostatek lze uvést nemožnost hledání sousloví či frází.

Vrátím se ještě několika málo slovy k tomu, proč stroj vyvolával dojem, že umí zpracovat pravostranné rozšíření či ho dokonce sám aplikoval. Velice podrobným rozborem stránek z výsledků mnoha dotazů jsem dospěl k závěru, že stroj indexuje nejen text, ale i např. IMG ALT. Protože do těchto alternativních textů mnoho autorů vkládá zkratky (místo „preklep“ použijí „prekl.“), dojde po odfiltrování oddělovačů k tomu, že dokument náhle obsahuje slova, která jsou předponami delších slov. Z výsledkové listiny je patrné, že tato slova mají velkou, ne-li totožnou, sílu jako slova v textu dokumentu. To je dle mého názoru fatální chyba. V jednom případě se dokonce zdálo, že stroj indexuje i text za ‚#‘, který byl v A HREF/NAME při lokálním odkazování. Toto chování jsem ale bohužel nebyl schopen ověřit alespoň dvěma nezávislými výsledkovými listinami dotazů.

Výsledky a vysvědčení

Známky jsou stanoveny na základě stupnice: 0 (nejhorší nebo neimplementováno) – 5 (běžné) – 10 (nejlepší mně známá implementace). Pro situace, kdy je daná oblast realizována lepším způsobem, než je bežně a dostupně popsáno v literatuře, využívám hodnotu 15.

Oblast Běžný uživatel Odborník
lemmatizátor (CS/US) 0/0 0/0
thesaurus (CS/US) 0/0 0/0
analýza překlepů 0/0 0/0
schopnost identifikovat jazyk 0 0
zpracování diakritiky 5 5
sémantická analýza HTML 5 1
vyhledávání částí slov 0 0
kladení pokročilých dotazů 0 0
seskupování odpovědí 0 0
pokrytí, přesnost, úplnost 2 1
pokročilé vyhledávání 0 0
formátování výstupu 5 1
aktuálnost indexu 0 0
Celková známka 1 0

U sémantické analýzy jsem nebyl schopen určit, zda je ve stroji vůbec nějak implementována. Situace, kdy jsem došel k závěru „ano“, mohly být též postraním produktem výpočtu váhy dokumentu vůči dotazu. Proto jsem z pohledu běžného uživatele navrhl hodnotu 5, zatímco z pohledu experta 1. Nižší ohodnocení expertního pohledu bylo dáno tím, že v situacích, kdy se zdálo, že stroj využil sémantickou analýzu, provedl několikrát chybu, tj. nadhodnocení – které mohlo být způsobeno účastí slova z dotazu v nadpisu, bohužel však vždy za cenu snížení výsledné přesnosti.

KL24

Stanovení bodové úrovně přesnosti, úplnosti a pokrytí je z velké části subjektivní záležitost. Protože jsem schopen efektivně měřit pouze pokrytí, kalkuluji jej do ohodnocení takto: 0% jako –2 body, 100% jako +2 body. V základu (5 bodů) rozumím, že výsledek není uspořádán výhradně podle počtu výskytů slov ve vlastním těle dokumentu a novost (novelty) je nenulová mezi prvními 10ti zásahy. Hodnotově nad základ pak řadím schopnost reagovat na zpětnou vazbu, kde hodnota 10 představuje nejvyšší schopnost rychlé konvergence ke kvalitnímu pokrytí. Obecně by tedy mělo platit, že 0–2 body znamená nekvalitu, 3–4 body běžný střed, 5–6 bodů solidní stroj, nad 6 bodů velice slušný systém.

Závěr: fulltext Seznamu.cz není vhodný pro širokou ani pro odbornou veřejnost. Aktuálnost indexu je katastrofální, a činí jej naprosto nepoužitelným. Vlastní technologie rozhodně zasluhuje zásadní inovaci, kterou by mohlo představovat minimálně zapojení n-gramové techniky. Tu by šlo do stávajícího stroje implementovat rychle, prakticky v řádu hodin, a to i bez přeindexování, přičemž by se tím vyřešil zároveň problém překlepů a vyhledávání s hvězdičkou. Kdo z nás si pamatuje kdysi neochvějnou pozici vyhledávače AltaVista, jistě v tuto chvíli přemýšlí, jak dlouho vydrží Seznam.cz se svojí technologií, zpracováním a úrovní podpory. Je s podivem, že takový server neudržuje svůj fulltextový index dostatečně aktuální, nehledě na relevanci nápovědy a neošetření vyjímek (např. zmíněné dotazy „a“, „an“ z úvodu).

Používáte na Seznamu fulltext?

Byl pro vás článek přínosný?

Autor článku

Autor není v zádném komerčním vztahu k firmám, které se orientují na vyhledávání v doméně CZ, a nikdy v takovém vztahu nebyl. Jeho komerční aktivity směřují mimo kontinentální Evropu.
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).