Filip Racek (Barletta AI Studio): Tuzemské televize se zatím AI herců bojí, ale to se změní

Dnes
Doba čtení: 20 minut

Sdílet

Filip Racek, Barletta AI Studio
Autor: Jan Vaca, Internet Info
Filip Racek, kreativní ředitel Barletta AI Studio
Jak hodně mění umělá inteligence oblast filmového průmyslu nebo výrobu reklamy? A čekají nás už brzy AI herci i v tuzemských televizích?

Umělá inteligence mění filmový průmysl rychleji, než si většina z nás uvědomuje. Filip Racek, kreativní ředitel Barletta AI Studia s více než dvaceti lety zkušeností v televizi a reklamě, stojí přímo na rozhraní klasického filmového řemesla a nové éry syntetického obrazu. V rozhovoru pro Lupu se otevřeně zamýšlí nad tím, které profese AI pohltí, které přežijí – a proč dobrá reklama stále nestojí jen pár tisíc korun, i když ji tvoří algoritmy.

„Nemyslím si, že herci přijdou o práci jako takovou, ale možná nebudou muset být tolik na place. Budou scény, u nichž už nebude nutná jejich fyzická přítomnost. Akční scény, které by bylo nebezpečné nebo drahé točit, se budou vytvářet pomocí AI a herci v nich budou jen v datech,“ soudí Racek.

Níže vám nabízíme přepis části podcastového rozhovoru do textu. Podporovatelé Lupa.cz zde mají k dispozici kompletní strojový přepis (využíváme k němu AI služby Whisper a Claude, text je poté redakčně upraven).

Loni v říjnu byl hostem našeho podcastu Ondřej Svoboda, videotvůrce, který při své tvorbě využívá umělou inteligenci. Ptal jsem se ho, zda ještě dokáže poznat, co je výtvorem AI. Tehdy řekl, že to ještě pozná, ale že za pár měsíců to už asi nedokáže. Pár měsíců uběhlo. Jak jste na tom vy?

Zrovna nedávno jsem se nachytal. Kolega mě na internetu upozornil, že šířím falešné video, v němž paní sedí u kávy a pes ji varuje těsně předtím, než ji srazí nákladní auto. Tehdy zrovna frčela Sora, která už zanikla, a která pracovala s velkým množstvím dat. A videa vytvořená na základě velkého množství dat ze sociálních sítí jsou tak dobrá právě proto, že vycházejí z obrovského objemu podobných dat. Čím více dat AI má, tím je lepší. Já už jsem si před půl rokem nebyl jistý, co je reálné. U videí, která nemají jasný záměr a nemusí zobrazovat konkrétní osobu (ta paní nemusí mít přesnou podobu) je AI tak dobrá, že deepfake videa jsou dnes podle mě pro devadesát procent lidí nerozeznatelná.

To není úplně hezké zjištění, ale je to prostě realita. Na začátku jsem vás představil jako člověka, který vede Barletta AI Studio. Vy se ale kolem filmů a médií pohybujete už přes 20 let. Našel jsem, že jste se podílel třeba na brandingu Prima COOL.

Ano, na COOLu jsem byl 16 let, ještě donedávna, než mě smetla AI vlna.

Dokážete zhodnotit vývoj za poslední dvě dekády? Jak moc se obor posunul do doby, než vás podle vašich slov smetla vlna AI?

Vystudoval jsem režii v Písku a dlouho jsem dělal televizní pořady. Vždycky jsem se ale snažil být multioborový, takže jsem se učil i After Effects, postprodukci a Photoshop, protože jsem stále potřeboval vytvářet i vlastní soukromé věci. I kdyby to bylo jen do šuplíku – vlastní fantasy světy, nápady a vizualizace. Režiséři navíc neustále používají prezentace. Pořád někomu ukazujete, jak bude něco vypadat nebo jak by to vypadat mohlo. Dříve to fungovalo tak, že člověk šel na Getty Images, případně zapojil Photoshop a vytvářel vizuály. To řadu režisérů udržovalo v určité technické zdatnosti. Když se pak objevila AI a já viděl první obrázky, říkal jsem si: Co to je? To potřebuji. Pro mě to byl vstup do nového světa.

Další revolucí, která se odehrála ještě před AI, byl nástup digitálních fotoaparátů. Najednou se v reklamním průmyslu, ale i v dramatické tvorbě stalo, že lidé nepotřebovali kamery za statisíce nebo miliony. DSLR video byla velká revoluce. Mladí kluci z FAMU i mimo FAMU najednou začali točit reklamy a fotoaparáty se dostávaly i do velkých seriálů. To byl jeden z milníků. A pak samozřejmě přišly mobilní telefony.

Myslím si, že AI se v něčem podobá právě nástupu mobilních telefonů. Ty také přinesly novou platformu – sociální sítě, které mají všichni v kapse. AI je podle mě něco jako nástup iPhonů nebo chytrých telefonů, ale na steroidech. A stejně jako u telefonů nejde jen o jeden obor. Smartphony byly videokamerou v kapse, telefonem i přístupem k sociálním sítím najednou.

Když jste loni Barletta AI Studio představovali, říkali jste marketingovým jazykem, že bude kombinovat klasické řemeslo s nástroji syntetické tvorby obrazu a zvuku, multimediálních AI modelů a procedurální postprodukce. Zní to dost šroubovaně. Co si pod tím lze představit?

Základní věcí je, že Barletta je úspěšná filmová a seriálová produkce. Jsou to filmaři. Výhoda i nevýhoda AI je, že se k ní může dostat úplně kdokoliv. Čím déle je s námi, tím víc vidíme, že nestačí mít k ní přístup. Pokud člověk nemá filmové uvažování a není zvyklý na určité postupy – jak má vypadat svícení, jak se mají chovat herci, jestli drží charakter – tak výstup nemusí fungovat. Některé věci lidé poznají intuitivně, ale vytváření příběhu a storytelling neumí každý.

Na to, že je AI přístupná skoro každému, je opravdu dobrých videí velmi málo. Nejúspěšnější AI tvůrci jsou často filmaři nebo lidé z médií. Řekl bych třeba z 60 procent, i když přesné číslo se těžko odhaduje. Důvody jsou dva. Zaprvé je to pořád poměrně drahé. Pokud si s tím chcete plnohodnotně hrát, stojí to tisíce měsíčně, a ne každý talentovaný student je ochoten takové peníze dát. Zadruhé tomu musíte rozumět a být součástí oboru, abyste to dokázali někomu nabídnout. Člověku z ulice s nápadem na film nebo reklamu je to bez znalosti systému vlastně také k ničemu.

Proto je tam důraz na filmaře. Na dobrém AI spotu – a dnes už vznikají i miniseriály – nezaniká práce maskérky, kostymérky, kameramana, kamerových úhlů, střihové skladby ani hudby. Pod tím vším je stále skrytý celý filmový štáb. Přidaná hodnota Barletty je v tom, že tohle všechno umíme. Někdy si dokonce zveme lidi z konkrétních profesí, aby k výstupu řekli svůj názor.

Jak hodně bylo rozhodující, že technologie pokročila natolik, že si Barletta řekla: musíme naskočit na tuhle vlnu, aby nám to neujelo…

Myslím, že to byl zásadní moment. Začalo to vypadat zajímavě a použitelně. Barletta předtím dělala hodně reklam, pak se více pustila do seriálů, ale do AI jsme nastoupili v době, kdy bylo jasné, že reklamy mohou být v horizontu měsíců nebo několika málo let v dosavadní podobě mrtvé. A teď to vidíme: objem AI reklamy raketově stoupá a poptávek je čím dál víc.

Sám jste zmínil, že Barletta je primárně produkční firmou. Stojí i za úspěšnými snímky jako je třeba Úsvit nebo za seriálem Dcera národa. Je to prostě klasické filmové řemeslo. Bylo tam nějaké pnutí mezi ním a tím, že přichází někdo, kdo bude dělat umělou inteligenci?

Spolumajitelkou Barletty je Maja (Maja Hamplová je castingová režisérka a filmová producentka, pozn. red.), která má jednu z nejlepších castingových agentur. Právě u castingu a živých herců je obecně ve světě největší tření. Herci, například v Hollywoodu, a jejich odbory se bojí asi nejvíc. Řešíme věci s komerčními televizemi a herci mají velké obavy z AI i z prodeje hlasů.

Barletta ale ví, že k tomu nějakým způsobem dojde, že se tomu nedá vyhnout a že je třeba to řešit a integrovat. Nemyslím si, že herci přijdou o práci jako takovou, ale možná nebudou muset být tolik na place. Budou scény, u nichž už nebude nutná jejich fyzická přítomnost. Akční scény, které by bylo nebezpečné nebo drahé točit, se budou vytvářet pomocí AI a herci v nich budou jen v datech.

Barletta zkrátka viděla, že se tomu nedá vyhnout. I když je to klasická filmová produkce, nechce zaspat ani stát stranou.

Už jste to naznačil, tak pojďme k tomu, které profese může umělá inteligence nahradit a které naopak vzniknou. Zmiňoval jste, že herců se to podle vás až tak nedotkne. Co se tedy v tuto chvíli děje?

Nejprve bych shrnul, v jaké jsme teď fázi. Dnes se s AI dobře dělají reklamy, protože jsou krátké – v řádu sekund nebo desítek sekund. Udržet v nich konzistenci charakteru a prostředí a celé to zabalit, dokončit a odevzdat už je prakticky připravené k použití. Dají se v ní dělat i poměrně slušné VFX, tedy speciální efekty: výbuchy, dronové lety, příšery a podobné věci. Ty už do určité míry adaptoval i Netflix a větší společnosti.

Stále tam ale jsou technická omezení. AI má například malý bitrate, video není ve velkých datech, a když se začne barvit a dál upravovat, začne se trochu rozpadat. Je to ale natolik levnější a zajímavé, že se to řeší a integruje i do velkých filmových produkcí.

VFX operátoři jsou tedy určitým způsobem ohrožení, pokud nezačnou AI sami vytvářet a používat. Podobně matte painteři, tedy lidé, kteří dělali digitální pozadí, například hory v pozadí. Dříve prostředí digitálně retušovali a skládali.

Kromě obrazu se v AI dělá i hudba. Já sám jsem do hudebních archivů už dlouho nesáhl. Do spotu nebo krátkého videa si hudbu složím na míru, buď ze slovního zadání, nebo podle nálady. Podobné je to s voice-overy. Hlasové herce dnes v řadě reklam nahrazujeme nástroji typu ElevenLabs. Myslím, že je v oboru využívá spousta lidí. Hlasy se dají generovat i klonovat, samozřejmě se souhlasem herců.

Dotýká se to i kameramanů a celých filmových štábů. Používám platformu Higgsfield, která se snaží být filmařsky přátelská. Otevřete si její Cinema Studio, vyberete kameru, třeba ARRI, zvolíte objektivy, připravíte rekvizity pod určitými tagy, vložíte digitální casting a máte v zásobě herce, které pak používáte v promptech. Prostředí je už poměrně intuitivní. Filmový štáb je tam zkoncentrovaný. Je tam i AI Director, který radí s pořadím scén, a délka videí se stále prodlužuje.

Teď máme Seedance 2.0, čínský model trénovaný na hollywoodských datech a akčních filmech. Internet proto zaplavily scény, v nichž japonské holčičky bojují s obřími monstry. Proslýchá se, že další generace Seedance bude umět 15 minut. To už budou muset být prompty opravdu propracované, protože to je v podstatě krátký nebo středometrážní film.

Takže už padla hranice, že generátor dokáže vytvořit třeba jen osm až deset sekund trvající záběr?

Teď jsme zhruba na patnácti sekundách, možná i víc. Workflow dnes vypadá tak, že si člověk připraví keyframes, záběry nebo stills – tedy fotky. Má celek, detail a všechno, co by se mělo objevit. V Claude nebo ChatGPT vysvětlí, co z toho chce dostat, a model mu vysype prompt třeba na A4. Ten popíše střihové věci, propojení, VFX, co má vybuchnout, a výstupem je rovnou sestříhané video. Vlastně hotový spot.

Člověk to udělá pětkrát, vezme nejlepší kousky a tím se zrychluje i samotný střih, což ještě donedávna moc nešlo. Od generování obrázků jsme se dostali k tomu, že z modelů padají celé generované sekvence. To je vhodné do reklam, videoklipů i třeba do akčních scén ve filmech. Už nemusíte skládat jednotlivé momenty zvlášť; model vytvoří celou sekvenci.

CF26

A další problém, že AI nedrží kontinuitu a každý obraz je jiný, se také zlepšil?

Ano. Dnes už lze definovat digitální herce. Do systému nasypete data, ideálně nafoceného člověka. Může jít o nafoceného reálného člověka nebo o digitálně, respektive AI vytvořeného člověka. Model má k dispozici třeba 20 až 60 obrázků, do kterých si vždy sáhne. Vy pak napíšete, že v tomto záběru je Soňa, a on už ví, jak Soňa vypadá. Kontinuita charakterů je dnes v podstatě bez problémů.

Celý obsah je dostupný pouze našim podporovatelům

Můžete se jím stát i vy. Získáte tak nejen přístup k přepisům všech našich podcastů, ale také Lupu bez bannerů, newsletter o zákulisí českého internetu a další výhody.

Autor článku

Autor je od ledna 2018 ředitelem médií vydavatelství Internet Info. Předtím 6 let vedl zpravodajskou sekci portálu iDNES.cz, ještě předtím byl několik let reportérem celostátní redakce MF DNES. Občas si rád něco napíše.



Nejnovější články

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).