Marek Rosa (GoodAI): Brzy budeme mít AI asistenta, který si pamatuje úplně všechno

20. 5. 2024

Doba čtení: 10 minut

Autor: Jan Vaca, Internet Info

Už za několik měsíců uvedeme novou hru AI People, která využívá AI k vyprávění příběhů za pomoci chytrých agentů, říká zakladatel společnosti GoodAI Marek Rosa. Pracuje také na dlouhodobé paměti pro AI chatboty.

Česká firma GoodAI vznikla v roce 2014 jako v podstatě výzkumná organizace snažící se vyvinout obecnou umělou inteligenci (Artificial General Intelligence, AGI). Její zakladatel Marek Rosa do společnosti vložil peníze, které vydělal na vývoji úspěšné hry Space Engineers.

Situace se ale změnila, když na podzim 2022 americká firma OpenAI představila svůj AI chatbot ChatGPT založený na velkém jazykovém modelu GPT-3. Přišel boom generativní AI založené na strojovém učení a neuronových sítích. „Pro mě to byl zlomový bod, kdy jsem si uvědomil, že nemá smysl v té první fázi dál pokračovat, protože už je tu hromada dalších, kteří na tom dělají a mnozí to dělají lépe než my,“ popisuje Rosa v rozhovoru pro Lupu.

GoodAI se proměnila ve společnost využívající existující jazykové modely k vývoji konkrétních produktů. Momentálně pracuje na dlouhodobé paměti pro AI chatboty, vlastním AI asistentovi pojmenovaném Charlie Mnemonic a také na hře AI People, která využívá umělou inteligenci k vyprávění interaktivních příběhů.

Část rozhovoru jsme přepsali do textu, celý si jej můžete poslechnout ve formě podcastu na službách Spotify, Apple Podcast a dalších nebo přímo zde:

Začal jste s hrami, to znamená Space Engineers, teprve potom jste založil GoodAI. Jak vás napadlo, že se vrhnete do vývoje a výzkumu umělé inteligence?

Plánoval jsem to vlastně od začátku. Už od dětství mě zajímaly hlavně dvě věci: programování nebo vývoj her a umělá inteligence. Umělou inteligenci jsem bral jako důležitější cíl. Říkal jsem si, že automatizováním inteligence se dá odemknout cokoliv dalšího, že je to násobič všeho možného. Ale začal jsem hrami. Vlastně už ani nevím přesně proč. Možná mi to přišlo jako dostupnější varianta a zároveň jsem měl chuť udělat hru. Ale říkal jsem si, že když vydělám peníze, tak si za ně potom budu moct otevřít firmu, kde budu spolu s dalšími zkoumat univerzální umělou inteligenci (AGI).

Společnost GoodAI vznikla v roce 2014, takže letos to je deset let. Jak těch deset let hodnotíte? Splnil jste si už svůj sen?

Zatím ne, stále na tom makáme. Původní vize Good AI měla dvě fáze. První byla vytvořit AGI, abychom měli umělou inteligenci, která může něco vytvářet. A druhá fáze měla být použití AGI na užitečné produkty, služby a jednoduše nějak zlepšit civilizaci. Na té první fázi jsem začal pracovat a najal jsem na ni tým proto, že mi to přišlo, že nikdo jiný AGI nedělá. V té době mi přišlo, že všichni se zajímají jenom o úzce zaměřenou AI, a vlastně mě to dost štvalo. Takže jsem si řekl, že ji musíme vyvinout, protože když to neuděláme my, tak to neudělá nikdo jiný a potom se nemůžeme dostat do té druhé fáze.

A pak, před rokem a půl, přišel ChatGPT. Pro mě to byl zlomový bod, kdy jsem si uvědomil, že nemá smysl v té první fázi dál pokračovat, protože už je tu hromada dalších, kteří na tom dělají a mnozí to dělají lépe než my. Také na to určitě mají mnohem víc peněz, mnohem větší zdroje, počítačová datacentra a podobné záležitosti. Tomu se těžko konkuruje. A schopnost Sama Altmana a dalších získat peníze od investorů je někde jinde než moje schopnosti.

Outstream Placeholder

Přemýšlel jsem, v čem můžeme mít nějakou konkurenční výhodu a případně nějaký niche, kde můžeme fungovat. Říkal jsem si, že nemá smysl, abychom dál pokračovali ve výzkumu našich architektur, které byly založeny na jiných principech než třeba ChatGPT. Nikdy jsem moc nevěřil deep learningu, protože jsem si myslel, že nebude dobře generalizovat. Ale velké jazykové modely ukázaly, že to není pravda, protože generalizují velmi pěkně. Tak jsem si řekl, že je lepší začít používat existující AI, které je určitým proto-AGI, a přepnout se do toho druhého režimu. Vzít to, co je k dispozici na trhu, samozřejmě k tomu hromadu věcí přidat, vylepšit a tak dále a potom to použít na nějaký konkrétní produkt. Naším cílem už není publikovat články, ale vytvořit produkt, na kterém se dá vydělat.

GoodAI se transformovalo z firmy, která dělá v podstatě akademický výzkum, do společnosti, která dělá produkty. Konkrétně jde o tři projekty: AI hra, která se jmenuje AI People, druhým je Long-Term Memory (LTM) systém a třetím Charlie Mnemonic, AI agent podobný ChatGPT, ale s naší dlouhodobou pamětí.

Tu hru ale vyvíjíte už delší dobu, ne?

Ano, už před několika lety jsme začali dělat na experimentální hře, kterou jsme nazvali AI Game. Její zábavnost měla spočívat v tom, že natrénujeme nějaké agenty a oni potom něco dělají. Na začátku jsme na to nešli přes machine learning a jazykové modely, ale měli jsme standardní plánovače, které fungovaly například tak, že když měl agent hlad, naplánoval si, jak se toho hladu zbaví a podobně.

Nebylo to samozřejmě moc flexibilní, s agenty nešlo komunikovat textem a neuměli se příliš učit. Když přišly jazykové modely – a to bylo ještě před ChatGPT – uviděli jsme v nich potenciál. GPT-2 jsem ještě vážně nebral, ale trojka už mi přišla seriózní. V té době se promptovala tak, že člověk zadal prompt a potom chtěl, aby GPT v tom textu pokračoval, prostě měl na základě promptu predikovat další tokeny. A tak jsme nejprve ve hře jistým způsobem popsali příběh a model potom vygeneroval akce agentů, které se potom ve hře odehrávaly.

Když přišel ChatGPT, uvědomili jsme si, že funguje mnohem lépe. Už nešlo jen o predikování textu, ale o to, že dáte modelu instrukce a on se je potom snaží vykonávat. To byla prostě brutální změna. Úplně to změnilo mé vnímání jazykových modelů. A potom ChatGPT ukázal, že dokáže generalizovat na úlohy, na které nebyl trénovaný, a dokáže si představit koncepty, které mu člověk vysvětlí, což bylo určitě víc, než autoři plánovali. Byl to první projev toho, že tento směr vývoje AI má obrovský potenciál. A tak jsme do naší hry začali implementovat nejprve GPT-3, GPT-3.5, potom GPT-4, pak jsme přidali naši Long-Term Memory a stále ji vylepšovali.

Dneska se tedy ta hra jmenuje AI People. Jak to s ní vypadá, máte už třeba nějaké datum jejího spuštění?

Release bude už za pár měsíců. A o čem bude? Má dva herní režimy. V jednom si v jednoduchém in-game editoru vytvořím nějakou scénku, zadám agenty, napíšu, jakou mají osobnost, jakou mají historii a tak dále. A vedle toho mám druhý box, do kterého zadávám příběh. Napíšu background příběhu, například že jde o rodinnou hádku, potom v bodech popíšu, co se má odehrát. A tím to končí. Když hru spustím, AI začne simulovat chování agentů v popsané situaci, aby se příběh vyvíjel na základě toho, co je v popisu a jednotlivých krocích.

Když pak ty úvodní kroky skončí, hra pokračuje dál. Je tam takzvaný plot generator a ten generuje dějovou linku, ve které agenti můžou interagovat s prostředím a s dalšími agenty. Jeden agent se třeba může rozhodnout, že napadne druhého agenta, nebo se můžou obejmout, nebo políbit, nebo když je agent třeba ospalý, jde do postele a tam se vyspí. Když chce jídlo, ví, že si může zasadit třeba slunečnicová semínka, poleje je vodou a vyroste mu z nich slunečnice, kterou pak může vzít a podobně.

Vypadá to jako hra typu Sims, ale založená na jiné technologii.

Ano, je založená na tom, že agenti opravdu přemýšlejí a plánují. Zároveň generují příběh, který je pro hráče zajímavý. Naším cílem nebylo udělat jen simulaci, která bude nakonec nudná, ale chceme, aby ve hře vznikaly dramatické situace, dějové zvraty a tak. A to se celkem daří. Buď můžeme hrát nějaký hotový scénář, ve kterém jste jednou z postav a další jsou AI, nebo si můžete v editoru vytvořit vlastní scénář nebo nějaký jiný scénář upravit a potom ho hrát.

Časem chceme připravit například sdílení scénářů mezi hráči, přes nějaký workshop. Zatím se soustředíme na krátkodobější příběhy, které člověku zaberou třeba 10 minut, ale časem rozhodně chceme prostřednictvím naší dlouhodobé paměti zaručit delší konzistenci a rozvíjení prostředí. Agenti by si měli pamatovat, co komu kdo řekl, co se stalo, že když se třeba pohádali, nebudou spolu nějakou dobu mluvit. Nebo když někdo někoho okrade, tak si to okradený bude pamatovat a už tomu druhému nebude věřit.

Bude možný multiplayer? Budu si moct zahrát s kamarády a nějakými dalšími AI postavami?

Časem určitě. Teď to ale není naše priorita. Soustředíme se na základní funkce, na vytváření příběhu, na dlouhodobou paměť. Chceme, aby agenti opravdu uměli interagovat s prostředím. Od začátku jsme nechtěli, aby to byla jen konverzační hra. Dneska už existuje řada NPC (z anglického non-playable character, tedy herní postava, kterou ovládá hra, a ne hráč – pozn. redakce), které fungují přes ChatGPT a dokáží komunikovat s hráčem – jako třeba mody do hry Skyrim a podobně. Myslím, že tento směr nikdy nebude mainstream, protože je v podstatě o ničem. Proč byste si chtěl povídat s nějakým NPC ve Skyrimu, když ta postava není zasazená do situace v herním světě, neví, co se děje okolo ní, nemá vám jak pomoci, nedokáže interagovat s prostředím a tak dále.

My se soustředíme právě na to, aby hráč viděl interakci s fyzickým prostředím a s dalšími agenty. Dokonce máme „myšlenkové bubliny“, které ukazují, co si agent myslí. Měli jsme například jednu scénku, ve které hrají agenti manžel a manželka a hráč má vyšetřovat, kdo z nich spáchal vraždu. Je tam krásně vidět, co si agenti myslí a jak si připravují nápady před tím, než komunikují s hráčem, který je vyšetřovatelem. Manžel si například začne říkat, že musí spolupracovat, aby se případ co nejrychleji uzavřel. A manželka, protože vražedkyní je ona, si naopak říká, že musí všechno zatajit, a po chvilce přemýšlí o tom, jak všechno hodit na manžela. Vezme ze země papír, přinese jej hráči a říká, že toto je dokument, který dokazuje, že manžel je vrah.

Když vidíte, o čem agent přemýšlí, dává to mně osobně, ale myslím, že to tak budou vnímat i hráči, pocit, že jde o živé bytosti. A to je jedním z našich velkých cílů.

Dalším konceptem, na kterém pracujete, je už několikrát zmíněná dlouhodobá paměť, long-term memory. Jak funguje? Je to nějaká databáze, kam si chatbot ukládá informace a pak z nich čerpá? Je to takhle jednoduché, nebo je za tím něco jiného?

Konkrétní realizace je trošku složitější, ale v principu to opravdu funguje tak, že máte vektorovou databázi, nebo to mohou být lokální soubory, prostě cokoliv, kam si chatbot, nebo LTM systém zapisuje vzpomínky a nějak si je indexuje, aby si je potom, když jsou relevantní, uměl vytáhnout a vložit do promptu. Normálně chatboty fungují vlastně tak, že jazykový model má prompt, který může být dlouhý řekněme 4 tisíce tokenů, 100 tisíc tokenů, nebo i milion tokenů.

Taková nejjednodušší verze chatbota je ta, že konverzační historii, která už se nevejde do kontextového okna, na konci odmažete. V případě, že máte kontext 1 milion tokenů, je to úplně v pohodě, protože byste musel mít v konverzaci hodiny a hodiny a hodiny, abyste se na ten milion dostal. V případě menších kontextových oken ale člověk narazí na limit docela rychle. V případě naší hry ještě rychleji, protože jak se odehrává děj, narůstá počet tokenů docela rychle. Asi 5 minut herního času představuje přibližně 4 tisíce tokenů.

Jazykové modely také nedávají všem tokenům nebo instrukcím stejnou důležitost. Jednoduše umí některé věci ignorovat. A samozřejmě další komplikací je, že pokud informace v kontextovém okně nějakým způsobem navazují jedna na druhou, tak tam sice informace jsou, ale jsou roztroušené a někdo je musí zintegrovat. V tomto jazykové modely také zklamávají, vynechají ze série informací nějakou část. Modely se v tomto směru postupně zlepšují, takže podle mě za rok, nebo za pár roků to bude úplně dokonalé a nic nevynechají.

A vaše dlouhodobá paměť je vlastně způsob, jak informace ukládat třeba rok, dva, nebo do nekonečna. To už je asi pak omezené jenom velikostí databáze.

Ono to vlastně nemusí být vůbec omezené, protože než ten prostor naplním, budou levnější a větší disky a můžeme pokračovat donekonečna. Myslím, že v budoucnosti, tak za rok nebo podobně, budeme mít asistenta, který si pamatuje úplně všechno.

Dokonce jsem přemýšlel o tom, že bych to rád měl ve formě nějakého zařízení, které bude poslouchat všechno, co říkám, a když si potom budu potřebovat na nějakou věc vzpomenout, tak se ho jen prostě zeptám a on ji v tom nekonečném logu najde, zaintegruje ji, udělá souhrn a dá mi ho.

Případně by samozřejmě časem mohlo být nějak napojené na neuralink, takže bych si vzpomněl přes nějaký implantát a ani bych si neuvědomil, že ta vzpomínka nepochází z mé biologické paměti, ale z augmentované. Ale to už je fakt sci-fi.

Celý rozhovor si můžete poslechnout ve formě podcastu na službách Spotify, Apple Podcast a dalších nebo přímo zde:

Vstoupit do diskuse

Líbí

Nelíbí

David Slížek

Šéfredaktor Lupa.cz a externí spolupracovník Českého rozhlasu Plus. Dříve editor IHNED.cz, předtím Aktuálně.cz a Českého rozhlasu. Najdete mě na Twitteru nebo na LinkedIn.