Najde si nový vyhledávač Microsoftu své uživatele?

Minulý čtvrtek Microsoft zpřístupnil veřejnosti ukázkovou verzi vlastní vyhledávací technologie, kterou chce konkurovat Google a Yahoo. Sliboval si, že svět ohromí velikostí databáze, ale nakonec se to mu spuštění příliš nepodařilo - jednak Google svou databázi zvětšil, druhak byl nový MSN často nedostupný. Jaký tedy je nový MSN Search?

Firma Microsoft již před přibližně rokem a půl dala vědět, že pracuje na vlastním vyhledávači. Na svém MSN.com dosud používá pro hledání licencovanou technologii Inktomi. Ta sice není českým uživatelům příliš známa, ale kdysi zajišťovala většinu světového fulltextového vyhledávání. Používalo ji totiž Yahoo, MSN i Hotbot.

Inktomi bylo mezitím koupené společností Yahoo a jako samostatná technologie velmi upadá, protože Yahoo dalo přednost své nové vyhledávací technologii a Inktomi pouze udržuje při životě. Tento fakt, spolu s obrovským vlivem firmy Google, přiměl Microsoft, aby začal tvořit vyhledávač vlastní.

Nejdříve – před rokem a čtvrt – začal po síti běhat pavouk MSNBot, který shromažďuje data do jejich vyhledávací databáze. Dlouho se nic nedělo, až nakonec Microsoft spustil Tech Preview svého vyhledávače a konečně minulý čtvrtek spustil i přímo betaverzi nového MSN Search.

Microsoftu (který má mimochodem 56.000 zaměstnanců) tedy trvalo vytvoření vlastního vyhledávače rok a půl, možná déle. Nyní je v beta verzi, což je v případě vyhledávače spíše začátek cesty – teď přijde pracné ladění relevance a zvyšování rychlosti. Je rok a půl málo, či hodně? Osobně mi přijde, že to obecně docela odpovídá složitosti úkolu a na „microsoftí“ poměry je to poměrně rychlé. Je vidět, že Microsoft vyhledávání přikládá vysokou prioritu (neboli hodně se bojí).

Jak kvalitní je nový MSN Search?

U vyhledávače se dají posuzovat v podstatě tři kritéria:

  • rozsah – kolik informací má ve své vyhledávací databázi,
  • relevance – jak přesně dokáže ze své databáze vybírat odpovědi, které uživatele uspokojí,
  • rychlost – jak dlouho trvá nalezení odpovědi.

Tato tři „R“ jsou i do jisté míry propojená. Pokud má vyhledávač příliš malou databázi, nebude pro méně obvyklé dotazy znát relevantní odpověď. Pokud má velkou databázi, sníží to jeho rychlost (tedy z pohledu využitého procesorového času, což se ale nemusí projevit v době čekání uživatele) a zároveň potřebuje chytřejší algoritmy, aby v té záplavě textů našel relevantní odpověď.

Rozsah databáze se dá zjistit relativně jednoduše, prostě si několik vyhledávačů zkusíme a zjistíme, kolik odpovědí vracejí. Pro zahraniční dotazy by to bylo:

Dotaz Google MSN Yahoo AllTheWeb Inktomi
mp3 196 143 82 74 17
cat 119 120 67 47 14
intel 54 30 26 16 5
qwertyuiop 34 26 31 17 6

V tabulce jsou počty výsledků, které jednotlivé vyhledávače nahlásily. Jsou vyjádřené v milionech, kromě poslední řádky, kde jde o tisíce výsledků.

Při posuzování takovýchto výsledků je nutno pamatovat na pár věcí:

  • dostatečný počet testovacích dotazů – čtyři je málo, chce to tak deset či více,
  • reprezentativnost dotazů – měly by být v ideálním případě náhodně vybrané za dohledu někoho důvěryhodného (tyto dotazy náhodně vybrané nebyly, je to prostě to, co mě narychlo napadlo),
  • odhady – všechny zmíněné vyhledávače poskytují pouze odhady počtu výsledků, nikoliv přesné počty,
  • velká čísla – milionové počty výsledků o kvalitě vyhledávače příliš neřeknou. Počet výsledků je důležitější, teprve když dotazu odpovídají jen desítky či jednotky dokumentů. Také pouze v tomto případě jdou počty ručně ověřit.

Když jsem si tedy výše uvedený test dostatečně zkritizoval a upozornil na možná rizika, i přesto si troufnu tvrdit, že Google má v tento okamžik největší zahraniční databázi, následuje MSN a Yahoo, a pak s velkým odstupem jsou upadávající AllTheWeb a Inktomi.

Rychlost mají teď všichni přibližně stejnou, i když při spuštění bylo MSN i stonásobně pomalejší nebo nevrátilo odpověď vůbec. Microsoft si docela uřízl ostudu, když prvním dojmem z nového vyhledávače bylo obvykle sledování nápisu „This site is temporarily unavailable“ (tedy nedostupný).

Posuzovat relevanci objektivně také lze, ale vyžaduje to desítky reprezentativně vybraných dotazů a rozumnou metodiku, což je časově nad rámec tohoto článku. Subjektivně na mě působí trojice Google/MSN/Yahoo jako vyrovnaná, pokud jde o zahraniční vyhledávání.

Pro češtinu je MSN výrazně horší. Ta ostatně není ani mezi nabízenými jazyky pro zúžení hledání. Je zajímavé, že tam není žádný slovanský jazyk, dokonce ani velmi rozšířená ruština. Také chybí čínština, což nás ale příliš netrápí. MSN neumí ani doplňovat či odstraňovat diakritiku, podobně jako ostatní zahraniční vyhledávače.

Google odpovídá

Googleři samozřejmě předem věděli, co MSN chystá, a náležitě se na to připravili. Od přelomu října a listopadu znásobil Googlebot svoji aktivitu, a tak bylo zasvěceným docela jasné, co se děje. Microsoft pustil ukázku své nové technologie minulý čtvrtek a ve stejný den se na hlavní stránce Google.com změnilo malé číslo ze čtyř miliard na osm miliard. A nebyl to jen marketingový trik: ve stejný den se zvýšil i počet výsledků, které Google vrací. Sice v průměru jen o 50 procent (nikoliv o 100 procent), ale to může odpovídat – prostě ty dodatečné čtyři miliardy stránek nejsou tak kvalitní (informačně bohaté). Zároveň se zdá, že Google opět více uplatňuje svou „Potěmkinovu vesnici“, kdy do velikosti databáze započítává i dokumenty, které stáhnuté nemá, jenom zná jejich adresu.

Nicméně i když Google zvětšil svou databázi na poslední chvíli a informuje o tom ne úplně korektně, podařilo se mu dostatečně zkazit Gatesovi slavnostní spuštění. Microsoft se mohl holedbat, že má největší databázi (což by měl, kdyby se srovnával se starou databází Google), nyní se žádným primátem chlubit nemůže.

Novinky od Microsoftu

Docela zajímavou vlastností vyhledávače je jeho „Search builder“. Po kliknutí na tento nápis se objeví nad stránkou nová vrstva, kde si může uživatel naklikat i pokročilé dotazy. Je to výborné pro vzdělávání uživatelů – hned vidí, jak se jejich požadavky promítnou do obvyklého jazyka vyhledávačů. Nejsem si ale jist, zda je to lepší přístup než obvyklejší „Pokročilé vyhledávání“.

CIF16

Je tam i hledání článků a obrázků. Ty obrázky jsou na MSN nově (běžná verze dostupná na search.msn.com je nemá), ale pro uživatele ostatních vyhledávačů to není nic nového – hledání obrázků je nyní víceméně povinná výbava každého portálu.

A ještě perlička na závěr: Když uživatel zadal do nového MSN v den jeho spuštění dotaz „more evil than Satan himself“, co myslíte, že se objevilo na vrchu výsledků? Samozřejmě že www.microsoft­.com :)

Anketa

Který vyhledávač bude podle vás za pět let nejužívanější?

20 názorů Vstoupit do diskuse
poslední názor přidán 21. 3. 2005 17:12