Rohlík začal nasazovat generativní AI. Na trénování nepoužívá cloud, ale server za tři miliony

9. 10. 2023

Server Rohlíku na umělou inteligenci (LLM)

Rohlík.cz je další z velkých společností, které se do svého fungování snaží začlenit generativní umělou inteligenci. Modely LLM postupně začíná využívat jak v Česku, tak ve svých zahraničních pobočkách v rámci skupiny Rohlik Group. Zakladatel Tomáš Čupr už několikrát uvedl, že AI může tu část e-commerce, kde Rohlík působí, zásadně změnit.

Rohlík si začal trénovat LLM na základě interních dat jako jsou firemní wiki nebo informace z reportingu. Firma používá několik modelů a postupně zkouší nové. Jde například o druhou verzi LLaMA, YOLO na obrázky nebo Mistral. Pro LangChain, vektorizaci a embeddings jde o modely E5.

Možností využití je několik. Jde o rozpoznávání kvality produktu (čerstvost ovoce a podobně), ověřování správnosti objednávek, kontrolu kvality zpracování objednávek, asistenci při hledání informací nebo vytváření chytrých reportingů. Například zaměstnanec se může pomocí chatu dobrat k tomu, jak funguje interní proces, jaká je politika pro schvalování nových pozic a tak dále.

“Do budoucna bude možné se přes interního chatbota dostat i k odpovědi na otázky spojené s konkrétními výsledky v nějaké KPI,” uvedl technický ředitel Rohlíku Ondřej Klamt.

Rohlík nepoužívá kapacity z veřejného cloudu typu AWS nebo Azure. Pronajímá si managed server od firmy ČMIS, takže neměl náklady s pořizováním serveru a platí měsíční poplatky.

Server je od Dellu a obsahuje čtyři akcelerátory Nvidia A100 zapojené skrze NVLink. Každá karta má 80 GB paměti. Rohlík kvůli modelům potřebuje hodně VRAM, i proto nebyly zvoleny karty H100 s 32 GB paměti.

Pořizovací hodnota stroje byla kolem tří milionů korun. ČMIS ani Rohlík konkrétně nekomentují, jaká je návratnost této investice (TCO). Oproti cloudu má jít ale údajně o velkou úsporu.

“Využití GPU služeb v public cloudu může být vhodné pro občasné použití zdrojů, nebo v případě, kdy jsou předem dobře známé výpočetní nároky pro již natrénované modely. V Rohlíku má k serveru přístup několik vývojových týmů a výkon serveru je časově neomezený. Taková služba by v public cloudech stála pětkrát až desetkrát více než dedikovaný GPU výkon. Vývojáři také mají plný přístup k GPU a mohou instalovat vlastní komponenty a ladit výkon až na úrovni hardwaru,” uvedly podniky pro Lupu.

“LLaMA 2 trénujeme (fine tuning) podle vstupních dat, velikosti modelu a počtu iterací kolem dvou dní (48 hodin). Zatím jsme nic netrénovali déle než týden (opět pouze fine tuning). Rozumně natrénovaný LLM model od cca 40 hodin více. Každopádně LangChain tohle velmi výrazně mění, pro spoustu případů odpadá potřeba dělat fine tuning a lze se spolehnout na kontext dodaný embeddings/LangChainem. Nicméně i vektorizace je poměrně dost výpočetně náročná disciplína, jen se změní distribuce potřebného výkonu z jednoho enormního peaku na více méně konstantní zátěž a výkon GPU je potřebný i při inferenci. Co se týká obrázkových úloh, i ty nejnáročnější s velkým datasetem máme hotové do 15 hodin, obvykle mnohem rychleji (maximálně jednotky hodin). Roli zde samozřejmě hraje to, že trénování modelů lze jednou paralelizovat snadno, jindy hůře,” dodal pro Lupu Klamt z Rohlíku.

Podle Václava Svátka z ČMIS už dnes není problém AI akcelerátory od Nvidie objednat s rozumnými dodacími lhůtami. A100 dorazily za asi sedm týdnů.