Seznam.cz chystá vlastní umělou inteligenci. V češtině už je o něco lepší než GPT-3.5

17. 1. 2024

Doba čtení: 4 minuty

Velkým cílem Seznamu je mít vlastní jazykový model. Zatím se ve firmě ladí open source modely.

Tuzemská internetová jednička Seznam.cz plánuje vstoupit do byznysu s generativní umělou inteligencí. Firma prozatím uvolnila desítky milionů korun na vývoj jazykových modelů, které by se mohly stát základem různých služeb včetně webového vyhledávače. Je možné, že první výsledky budou vidět ještě letos.

Seznam je díky své velikosti jednou z mála ryze českých společností, která si podobné nákladné projekty může dovolit. Podnik například buduje vlastní datová centra, v nich umístěný serverový hardware a interní cloud. Podobné věci, stejně jako vývoj LLM, většinou bývají doménou mezinárodních obrů.

Seznam by se rád dopracoval k vlastnímu foundation modelu, k tomu by ale mělo dojít později. Tým velkých jazykových modelů, jak se oficiálně jmenuje, pracuje s větším množstvím modelů s různými parametry. V současné době řeší hlavně úpravy dostupných open source technologií, jako jsou Llama, Falcon nebo Mistral.

Přes sto miliard parametrů

„Pracujeme na korpuse českých textových dat, pomocí kterých můžeme na těchto modelech dělat fine tuning,“ přiblížila Diana Hlaváčová, produktová manažerka LLM v Seznamu. „Modelů je hodně. Vybíráme si ty, které už nějak pracovaly s češtinou. Tyto modely jdou do užšího výběru a pak se rozhodujeme podle jejich vlastností.“

Seznamácké pokusy mají sedm miliard parametrů a více. Největší model má v současné době přes sto miliard parametrů. Seznam se chce od konkurence odlišit co nejlepší prací s českým jazykem. Společnost v současné době interně disponuje modelem, který podle ní v češtině už nyní dosahuje o trochu lepších výsledků než model GPT-3.5 od Open AI.

„Je pro nás důležité, aby modely měly sofistikovanou češtinu včetně dialektů a tak dále. GPT v tom zase tolik neexceluje. Máme rozběhnutý model, který toto zvládá trochu lépe,“ navázala Hlaváčová.

Obecně řečeno: současné zahraniční jazykové modely pro Seznam nemluví dostatečně česky, nerozumí specifikům a neví, jaké přesně Češi na internetu používají dotazy. Výzkumníci se proto snaží zahrnovat prompty obsahující hovorovou češtinu a vyžadují lepší pochopení jazyka. Firma má díky své pozici „nakoukáno“, jak se lidé na internetu dotazují, z čehož těží.

„Naše data máme dobře zdokumentovaná. Korpus se snažíme tvořit z dat, která jsou k dispozici pod naší střechou. Takových údajů máme naštěstí hodně. Jde například o textová data v našich službách, databázi zboží nebo zpravodajské texty z našich médií. V komunitě rovněž existují LLM sety, které se snažíme zkoumat a které by do jisté míry mohly být použitelné,“ vysvětlila Hlaváčová.

Větší soběstačnost

Seznam chce kromě lepší podpory češtiny docílit také větší samostatnosti. Podobně jako u zmiňovaných datacenter a serverů nechce být příliš závislý na třetích stranách a jejich licencích. Roli hrají rovněž související náklady. Dále je to fakt, že Seznam nebude muset sdílet data s externími firmami.

„Nechceme se spoléhat na technologie třetích stran. Také vidíme velkou hodnotu v tom, že data, která nám uživatelé svěří, nepůjdou nikam jinam. A rovněž chceme vědět, co dělají a jak fungují použité algoritmy,“ shrnula produktová manažerka LLM.

Seznam se o jazykové modely zajímá už dlouho, konkrétně od transformerů. Velká část produktů společnosti používá strojové učení. V roce 2021 například vydala neuronovou síť Smolíček (Small-E-Czech) používanou pro řazení výsledků vyhledávání nebo opravu překlepů. U LLM se Seznamu v posledních měsících daří významně pohnout zejména s inferencí modelů.

Vstup Seznamu do nové éry LLM ovlivnilo vícero aspektů, včetně konkurence na trhu. Společnost čekala na průlom a musela poskládat specializovaný tým a řešit hardwarové náklady. Pro práci s modely používá grafické karty H100 od Nvidie, jejich množství ale Seznam nekomentoval.

Vyhledávač a další

Způsobů, jak by jazykové modely šly v rámci Seznamu produktově využít, asi každého napadne hodně. Firma ostatně má přes sto různých konceptů. Obecně směřuje k tomu, aby se lidem lépe pracovalo s informacemi a větším množstvím textu. A také tam, kde AI šetří čas a pomůže pochopit kontext.

Nabízí se hlavně vyhledávač, který by se mohl dostat do třetí vývojové fáze. Nejdříve byl v podstatě statickým katalogem a nyní operuje jako vyhledávač, jak ho běžně známe. Díky jazykovým modelům by se mohly transformovat odpovědi na vyhledávací dotazy.

Seznam zároveň chce u modelů využít primárně jejich jazykové znalosti. Na znalost faktů zase tolik spoléhat nechce, protože modely stále halucinují. „Chceme modelu předkládat relevantní data, abychom využili dostupné zdroje, a zároveň jazykové kapacity modelů,“ přiblížila Hlaváčová. Kombinace modelu doplněného o „živá“ data v rámci vyhledávání bude určitě výzvou, mimo jiné z hlediska škálování výpočetního výkonu a celkové optimalizace.

Dále se o nasazení AI uvažuje například v automatickém navrhování textových inzerátů pro reklamní systém Seznamu nebo generování popisků. Některé prototypy v následujících týdnech a měsících půjdou z výzkumné fáze do interních testů.

To, jak tyto novinky zamíchají s byznysem zdejší webové jedničky, se teprve uvidí. Obchodní modely kolem LLM se obecně tvoří. „Naším cílem je najít ještě lepší balanc mezi dobrou odpovědí na otázku, spokojeností uživatele a přínosem pro inzerenta,“ doplnila Hlaváčová.

Vstoupit do diskuse (9 názorů)

Jan Sedlák

Dlouholetý technologický novinář, kmenový redaktor portálu Lupa.cz. Kromě Lupy publikuje i na webu E15 a v zahraničních médiích.

Témata:

Možná si stačí přečíst článek... "přiblížila Diana Hlaváčová, produktová manažerka LLM v Seznamu"

Milan Kryl

Sdílet

Přes sto miliard parametrů

Rok 2023 v AI: Přehnaná očekávání, chatboty s očima a ušima i soudy o autorská práva

Větší soběstačnost

Chcete si natrénovat vlastní AI? EU a Ostrava dávají k dispozici superpočítače s akcelerátory

Vyhledávač a další

Autor článku

Jan Sedlák

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Onsemi kupuje tvůrce procesorů z Brna, Brusel brzdí českou AI gigafactory, Microsoft zruší Ovládací panely

Svět domén v roce 2025: od kvantity ke kvalitě a bezpečnosti

Nových 500 hodin premiér Novy: skutečné kauzy pro Oneplay, ověřené seriály pro lineár

Privátní 5G sítě slibovaly hory doly, ale zatím spíš skutek utek. Změnit to chce nová největší pokusná síť v Česku

Jsme „AI generated“. Nejrychleji rostoucí technologická firma regionu ukázala, jak nechce ztratit roky

Možnosti prolomení kryptoměn, Google zpřístupní svůj kvantový počítač, laser integrovaný na čipu

V Kutné Hoře se znásobí výroba serverů pro AI, v Lužicích běží nejvýkonnější grafiky Nvidia, Raspberry Pi zase zdražuje

Petr Šíma (Depo Ventures): Infrastruktura pro AI je dost možná bublina. Dobře, že jsme zaspali

Poslanci vybrali 18 finalistů do Rady ČT. Postoupil i Matocha a Xaver Veselý

Ministerstvo pro místní rozvoj přišlo o IT experty, kteří bojovali se starými pořádky. Personální změny mohou vyjít draho

Komerční sdělení

Jak na efektivní e-mailing, který prodává a buduje vztahy se zákazníky

Seznam.cz chystá vlastní umělou inteligenci. V češtině už je o něco lepší než GPT-3.5

Sdílet

Přes sto miliard parametrů

Rok 2023 v AI: Přehnaná očekávání, chatboty s očima a ušima i soudy o autorská práva

Větší soběstačnost

Chcete si natrénovat vlastní AI? EU a Ostrava dávají k dispozici superpočítače s akcelerátory

Vyhledávač a další

Autor článku

Jan Sedlák

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Nejnovější články

Onsemi kupuje tvůrce procesorů z Brna, Brusel brzdí českou AI gigafactory, Microsoft zruší Ovládací panely

Svět domén v roce 2025: od kvantity ke kvalitě a bezpečnosti

Nových 500 hodin premiér Novy: skutečné kauzy pro Oneplay, ověřené seriály pro lineár

Privátní 5G sítě slibovaly hory doly, ale zatím spíš skutek utek. Změnit to chce nová největší pokusná síť v Česku

Jsme „AI generated“. Nejrychleji rostoucí technologická firma regionu ukázala, jak nechce ztratit roky

Možnosti prolomení kryptoměn, Google zpřístupní svůj kvantový počítač, laser integrovaný na čipu

V Kutné Hoře se znásobí výroba serverů pro AI, v Lužicích běží nejvýkonnější grafiky Nvidia, Raspberry Pi zase zdražuje

Petr Šíma (Depo Ventures): Infrastruktura pro AI je dost možná bublina. Dobře, že jsme zaspali

Poslanci vybrali 18 finalistů do Rady ČT. Postoupil i Matocha a Xaver Veselý

Ministerstvo pro místní rozvoj přišlo o IT experty, kteří bojovali se starými pořádky. Personální změny mohou vyjít draho

Komerční sdělení

Jak na efektivní e-mailing, který prodává a buduje vztahy se zákazníky

Dále u nás najdete

Je tu první pokus Evropy, aby z ní neutíkaly technologie

Start JMHZ: ztracená data, chyby a infolinky na zhroucení

Spoofing: boj s ním a co se v tomto směru chystá

Nachlazení, zápal plic, černý kašel. Laik nemusí rozdíl poznat

Babiš znovu zaútočil na Seznam a Novinky

Jak reagovat při epileptickém záchvatu? Do úst nesahejte

Nevysvětlíte zaměstnanci nižší plat? Bude vám hrozit pokuta

Konec copilotů se blíží, podnikový software čekají dramatické změny

Anthropic vyvinul model schopný odhalovat tisíce zranitelností

Securitas ČR zažil rekordní rok, obrat přesáhl 2 miliardy

ASUS v Česku odhalil ExpertBook Ultra pro ty nejnáročnější

Zyxel zahajuje éru výkonných multigigabitových PoE přepínačů

Prolomení moderního šifrování může být blíž, než se očekávalo

Ultrarychlý internet vzduchem do „každé vesnice“ se blíží

Jednotné měsíční hlášení se týká i jednatelů společností

Příspěvek na zábavu bude daňově výhodnější než na prevenci rakovin

Ministerstvo přišlo o IT experty, kteří bojovali se starými pořádky

Provoz EET 2.0 má stát až 600 milionů korun ročně

Další pokuta za švarcsystém, tentokrát pro kadeřnice

Miliardy z EU, strach z hackerů a marný boj s tabulkovými platy (4.)