Seznam.cz začal testovat novou verzi vyhledávače s pozměněným způsobem uložení slov v databázi (indexu) hledání. Dříve jsme měli v databázi uložená tzv. „lemmata“ – tj. základní tvar každého zaindexovaného slova. Výhodou bylo jednodušší vyhodnocování dotazů, protože se pro každé slovo hledalo jedno lemma a ne množství různých tvarů. Toto byla paradoxně i největší nevýhoda – nebylo možné rozlišovat tvary jednoho slova, což se zvláště negativně projevovalo u slov jejichž některý tvar kolidoval s jiným dotazem,
popisuje dosavadní stav blog fulltextového týmu české portálové jedničky.
Nové zpracování oproti tomu ukládá do databáze všechna slova v takovém tvaru, tak jak se přesně vyskytují na stránce a následně pak rozšiřuje slova dotazu o možné tvary. Vyhodnocení je o něco náročnější, ale umožňuje řídit jak se které slovo má přesně vyhledat,
uvádí dále Seznam.cz na jednom ze svých oficiálních blogů. Veřejná testovací verze inovovaného vyhledávače je opět k dispozici na už notoricky známé adrese http://searchtest.seznam.cz/. Nutné bude znovu indexovat všechny stránky. V ostrém provozu by nová verze mohla být do konce srpna.