Hlavní navigace

Seznam.cz chystá vlastní umělou inteligenci. V češtině už je o něco lepší než GPT-3.5

17. 1. 2024
Doba čtení: 4 minuty

Sdílet

Diana Hlaváčová Autor: Seznam.cz
Velkým cílem Seznamu je mít vlastní jazykový model. Zatím se ve firmě ladí open source modely.

Tuzemská internetová jednička Seznam.cz plánuje vstoupit do byznysu s generativní umělou inteligencí. Firma prozatím uvolnila desítky milionů korun na vývoj jazykových modelů, které by se mohly stát základem různých služeb včetně webového vyhledávače. Je možné, že první výsledky budou vidět ještě letos.

Seznam je díky své velikosti jednou z mála ryze českých společností, která si podobné nákladné projekty může dovolit. Podnik například buduje vlastní datová centra, v nich umístěný serverový hardware a interní cloud. Podobné věci, stejně jako vývoj LLM, většinou bývají doménou mezinárodních obrů.

Seznam by se rád dopracoval k vlastnímu foundation modelu, k tomu by ale mělo dojít později. Tým velkých jazykových modelů, jak se oficiálně jmenuje, pracuje s větším množstvím modelů s různými parametry. V současné době řeší hlavně úpravy dostupných open source technologií, jako jsou Llama, Falcon nebo Mistral.

Přes sto miliard parametrů

„Pracujeme na korpuse českých textových dat, pomocí kterých můžeme na těchto modelech dělat fine tuning,“ přiblížila Diana Hlaváčová, produktová manažerka LLM v Seznamu. „Modelů je hodně. Vybíráme si ty, které už nějak pracovaly s češtinou. Tyto modely jdou do užšího výběru a pak se rozhodujeme podle jejich vlastností.“

Seznamácké pokusy mají sedm miliard parametrů a více. Největší model má v současné době přes sto miliard parametrů. Seznam se chce od konkurence odlišit co nejlepší prací s českým jazykem. Společnost v současné době interně disponuje modelem, který podle ní v češtině už nyní dosahuje o trochu lepších výsledků než model GPT-3.5 od Open AI.

„Je pro nás důležité, aby modely měly sofistikovanou češtinu včetně dialektů a tak dále. GPT v tom zase tolik neexceluje. Máme rozběhnutý model, který toto zvládá trochu lépe,“ navázala Hlaváčová.

Rok 2023 v AI: Přehnaná očekávání, chatboty s očima a ušima i soudy o autorská práva Přečtěte si také:

Rok 2023 v AI: Přehnaná očekávání, chatboty s očima a ušima i soudy o autorská práva

Obecně řečeno: současné zahraniční jazykové modely pro Seznam nemluví dostatečně česky, nerozumí specifikům a neví, jaké přesně Češi na internetu používají dotazy. Výzkumníci se proto snaží zahrnovat prompty obsahující hovorovou češtinu a vyžadují lepší pochopení jazyka. Firma má díky své pozici „nakoukáno“, jak se lidé na internetu dotazují, z čehož těží.

„Naše data máme dobře zdokumentovaná. Korpus se snažíme tvořit z dat, která jsou k dispozici pod naší střechou. Takových údajů máme naštěstí hodně. Jde například o textová data v našich službách, databázi zboží nebo zpravodajské texty z našich médií. V komunitě rovněž existují LLM sety, které se snažíme zkoumat a které by do jisté míry mohly být použitelné,“ vysvětlila Hlaváčová.

Větší soběstačnost

Seznam chce kromě lepší podpory češtiny docílit také větší samostatnosti. Podobně jako u zmiňovaných datacenter a serverů nechce být příliš závislý na třetích stranách a jejich licencích. Roli hrají rovněž související náklady. Dále je to fakt, že Seznam nebude muset sdílet data s externími firmami.

„Nechceme se spoléhat na technologie třetích stran. Také vidíme velkou hodnotu v tom, že data, která nám uživatelé svěří, nepůjdou nikam jinam. A rovněž chceme vědět, co dělají a jak fungují použité algoritmy,“ shrnula produktová manažerka LLM.

Chcete si natrénovat vlastní AI? EU a Ostrava dávají k dispozici superpočítače s akcelerátory Přečtěte si také:

Chcete si natrénovat vlastní AI? EU a Ostrava dávají k dispozici superpočítače s akcelerátory

Seznam se o jazykové modely zajímá už dlouho, konkrétně od transformerů. Velká část produktů společnosti používá strojové učení. V roce 2021 například vydala neuronovou síť Smolíček (Small-E-Czech) používanou pro řazení výsledků vyhledávání nebo opravu překlepů. U LLM se Seznamu v posledních měsících daří významně pohnout zejména s inferencí modelů.

Vstup Seznamu do nové éry LLM ovlivnilo vícero aspektů, včetně konkurence na trhu. Společnost čekala na průlom a musela poskládat specializovaný tým a řešit hardwarové náklady. Pro práci s modely používá grafické karty H100 od Nvidie, jejich množství ale Seznam nekomentoval.

Vyhledávač a další

Způsobů, jak by jazykové modely šly v rámci Seznamu produktově využít, asi každého napadne hodně. Firma ostatně má přes sto různých konceptů. Obecně směřuje k tomu, aby se lidem lépe pracovalo s informacemi a větším množstvím textu. A také tam, kde AI šetří čas a pomůže pochopit kontext.

Nabízí se hlavně vyhledávač, který by se mohl dostat do třetí vývojové fáze. Nejdříve byl v podstatě statickým katalogem a nyní operuje jako vyhledávač, jak ho běžně známe. Díky jazykovým modelům by se mohly transformovat odpovědi na vyhledávací dotazy.

Seznam zároveň chce u modelů využít primárně jejich jazykové znalosti. Na znalost faktů zase tolik spoléhat nechce, protože modely stále halucinují. „Chceme modelu předkládat relevantní data, abychom využili dostupné zdroje, a zároveň jazykové kapacity modelů,“ přiblížila Hlaváčová. Kombinace modelu doplněného o „živá“ data v rámci vyhledávání bude určitě výzvou, mimo jiné z hlediska škálování výpočetního výkonu a celkové optimalizace.

CIF 24 - tip - superearly cena

Dále se o nasazení AI uvažuje například v automatickém navrhování textových inzerátů pro reklamní systém Seznamu nebo generování popisků. Některé prototypy v následujících týdnech a měsících půjdou z výzkumné fáze do interních testů.

To, jak tyto novinky zamíchají s byznysem zdejší webové jedničky, se teprve uvidí. Obchodní modely kolem LLM se obecně tvoří. „Naším cílem je najít ještě lepší balanc mezi dobrou odpovědí na otázku, spokojeností uživatele a přínosem pro inzerenta,“ doplnila Hlaváčová.

Byl pro vás článek přínosný?

Autor článku

Reportér Lupa.cz a E15. O technologiích píše také do zahraničních médií.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).