Seznam.cz nasadil novou verzi vyhledávání. Může vést ke změnám v pořadí výsledků

19. 1. 2023

Seznam.cz - homepage - hlavní stránka - 2022

Seznam.cz nasadil novou verzi vyhledávání. Je to výsledkem projektu, který se interně nazývá “vsáknutí vektorů”. Dušan Janovský ze Seznamu uvedl, že to může vést k velkým změnám v pořadí nalezených výsledků.

Janovský změny popisuje takto:

Hlavní změna proběhla na nejhlubší vrstvě výběru kandidátů v komponentách předvýběru, které ještě nevyhodnocují relevanci, ale jenom k dotazu vybírají vhodné dokumenty pro další vyhodnocování. Podstatou změny bylo vnitřní spojení (vsáknutí) různých metod výběru.

Starší metoda je vybírání podle slov obsažených ve stránce (termový výběr), novější vybírá stránky pomocí jejich vektorové reprezentace. Poslední dva roky se tyto dva způsoby výběru kandidátů řešily na různých strojích a spojovaly se až v pozdějším procesu relevance.

Teď jsou termy i vektory na stejných strojích v blízkých komponentách. Účelem je, aby si mohly termy a vektory navzájem pomáhat. Zároveň se trochu rozvolnily požadavky na úzkost shody, takže relevance dostává kandidátů víc a může je následně pomocí vektorů řadit efektivněji.

Protože změny proběhly na hlubokých vrstvách vyhledávání, které také produkují nové signály (např. ty vektorové), bylo potřeba vytunit nebo přeučit i spoustu komponent relevance na vyšších vrstvách. Všechny relevanční modely jsou nové, a tak očekávám změny ve výsledcích velké.

Jedná se o klasický infrastrukturní projekt, jehož cílem není bezprostřední zaměření na nějakou vlastnost vyhledávání pro uživatele. Spíš je to odrazový můstek pro další zásadní rozvoj. Veřejně to hlásím jenom proto, že budou poskakovat ty výsledky, jinak je to dost interní věc.

Jako vektorová interpretace se používají embedingy z prediktivních jazykových modelů Electra naučených na korpusu z robota a doučených na relevančních anotacích. Takhle naučené neuronové síti se uříznou hlavičky a předposlední vrstva se prohlásí za vektor (embeding) vstupu.

Transformerová architektura využívá předpokladu, že podobné vstupy mají semanticky podobné embedingy (měřeno např. cosinovou podobností vektorů). Když pak uživatel zadá dotaz, stačí z něj neuronkou spočítat vektor a porovnat ho se všemi vektory všech dokumentů.

To se snáze řekne než udělá, hlavně protože těch všech vektorů jsou velké miliardy. Zároveň protože se vektory musejí někam vejít do paměti, jsou menší, než by bylo optimální, a tak se do nich nepřenese veškerá sémantika. Proto musejí stále významně pomáhat i slova z dotazu.

Celý projekt vsáknutí vektorů byl přípravou na další rozvoj s chytřejšími jazykovými modely. Žádný vyhledávač nemá dnes dost grafáren, času ani paměti na to, aby prohnal celý index příšerkou typu GPT-3, ale prostor pro další použití jednodušších modelů je obrovský.

Jednu z předchozích seznamáckých verzí jazykových modelů Seznam veřejně publikoval. Novější interní verze se liší zatím jen v tom, že jsou trénovány déle a na větších datech.

Vstoupit do diskuse (9 názorů)

Zasílat nově přidané názory e-mailem

Našli jste v článku chybu?

Jan Sedlák

Dlouholetý technologický novinář, kmenový redaktor portálu Lupa.cz. Kromě Lupy publikuje i na webu E15 a v zahraničních médiích.

Sdílet

Autor aktuality

Jan Sedlák

Témata:

Anketa

Co si myslíte o funkci AI Overviews (česky Přehledy od AI) od Googlu?

Seznam.cz nasadil novou verzi vyhledávání. Může vést ke změnám v pořadí výsledků

Sdílet

Autor aktuality

Jan Sedlák

Témata:

Anketa

Co si myslíte o funkci AI Overviews (česky Přehledy od AI) od Googlu?

Dále u nás najdete

Petr Šmíd: Když startupy rostou, české fondy je opouštějí

Daňové přiznání 2026: Termíny, novinky a změny

Hackeři útočí přes e-mail, prahnou po přihlašovacích údajích

Nejen daňové přiznání, OSVČ musí podat elektronicky přehledy

Miliony webů nesplňují zákon o přístupnosti. Jaký hrozí trest?

Stát se za data retention omluvil, ale údaje sbírá dál

Malware, ransomware a další online hrozby: Jak se liší?

V Evropě roste zájem o alternativu k Microsoftu, říká Petra Novotná

Rostoucí cena operačních pamětí zásadně zdražuje počítače

Digitalizační masakr: stát chce data o zaměstnancích

Školkovné se vrací. S jakou obměnou?

Nový model OpenAI kóduje 15krát rychleji než jeho předchůdce

Sailfish OS na Sony Xperia 10 III: seznámení a instalace

Desítky rozšíření pro Chrome kradou uživatelská data

Google Pixel 10a má plochý design a vylepšenou odolnost

Příspěvek na produkty spoření na stáří a daň z příjmů

Pojišťovny zneužívají lenosti svých klientů. Ti za to platí

V USA povolili terapii Optune i pro léčbu rakoviny slinivky

Lidé si mohou nechat zdarma vyšetřit znaménka, zrak i cukr

Google uvádí Gemini 3.1 Pro a přidává působivé benchmarky