Byl to ten slavný den, kdy nám byl zaveden – obrazový generátor do chatu. Sice se to nerýmuje, ale je fajn, že OpenAI plní sliby a skutečně v první půli října přibyla do placených verzí ChatGPT možnost interakce obrazovou generativní neuronkou DALL-E v nové verzi 3.

Tu sice o týden dříve bezplatně uvedl i Bing Creator a výsledky jsou opravdu velmi dobré, ale od spojení s GPT4 se čekalo daleko, daleko víc. A jak to bývá – očekávání nebyla překročena, ale stejně tak ani obavy se nenaplnily. Takže – jak dopadlo to „good enough“ v podání OpenAI?

Co to neumí?

Nejprve stručně – co očekávání nepřekročilo. Pak už budu jen chválit a ukážeme si pár triků. Pokud jste viděli úžasné minutové demo o ježkovi Larrym (OpenAI představení), tak vězte, že to je jeden případ ze sta, nikoliv běžná realita. Ano, jde si v rámci chatu vygenerovat obrázky a pohádku a samolepky s ježkem a tak dále, ale tak konzistentní, jako na tom videu, výstupy rozhodně nejsou. A už vůbec ne tak rychlé.

Dalším omezením je fakt, že generování obrázků má teď dvě úrovně autocenzury – něco neprojde přes DALL-E a něco přes GPT4, takže výstupy jsou častěji cenzurované než v samotném Bing Create se stejným modelem.





A poslední chybky na kráse jsou očekávané – ChatGPT po čase „zapomíná“ obrázky v chatu, stejně jako u jiných rozšíření zkrátka neukládá obsah navždy. Obrázky mizí v řádu hodin, do druhého dne už v chatu nebudou, takže si dělejte zálohy (doporučím plugin do prohlížeče na stahování všech obrázků na stránce, například Download All Images, ať to nemusíte stahovat ručně po jednom).

Nelze sdílet chaty s obrázky. A DALL-E není MindJourney, fotorealismu se tady nedočkáte, i při zadání, že chcete fotky, budou výsledkem spíše malby nebo render.

Tak, to jsem pohanil, co se dalo, a teď už jen plno optimismu a wow okamžiků.

Co DALL-E 3 dokáže? Podívejte se na ukázky:

Co to umí?

Psát detailní prompty, to je asi největší výhoda komba GPT+DALL-E. Zatímco u faktických dotazů na GPT (k tomu ten model není, ale stejně to většina z vás zkouší používat místo Wikipedie, že?) je „halucinování“ GPT nežádoucí, tak u generování obrázků je to něco, co ocení každý. DALL-E 3se chlubí schopností rozumět dlouhým promptům a držet se toho zadání, ale kdo se s tím má psát? ChatGPT je v tomhle přeborník a během pár interakcí můžete získat perfektní prompt a obrázek.





Například: zadám, že chci bílého, chlupatého králíčka, co dlabe trávu. Ňuňu, já vím. A GPT vygeneruje 4 variace dlouhých promptů, v angličtině (což dává obecně lepší výsledky), ve stylu: „Hyper-realistic square photo of a fluffy white rabbit nibbling on a patch of green grass. Its large eyes gleam with curiosity, and its ears stand tall and alert“. A lup, máme králíčka jak malovaného. Velice to usnadňuje práci.

Nebo třeba chci monitor, na kterém je nějaký ERP dashboard, realistické foto. Z tohoto zadání GPT rozvine myšlenku na: „Hyper-realistic photo of a room featuring an office desk with a large monitor opened to an ERP system. Some documents and a coffee mug can be seen on the desk's surface“. Samozřejmě, že lze přinutit ChatGPT, aby se striktně držel zadání, pokud je to potřeba: Vytvoř XYZ a drž se přesně zadání, nemodifikuj jej. Například.

Tip: po rozkliknutí vygenerovaného obrázku se zobrazí i celý prompt, který GPT použilo.

Autor: Martin Jurica s využitím DALL-E

Drží úhel, teda styl. V rámci jedné konverzace je lepší si zvolit z prvních nabízených obrázků jeden, který použijete jako referenční, co se týče stylu kresby, a pro další styly si založit nový chat. Sice jde v každém zadání měnit styl (3D, skica, fotografie, malba atd.), ale tím se připravíme o tu velkou výhodu v podobě konzistence stylu pro různá zadání. Já mám takhle nakreslené desítky zvířat ve stylu Brehmova života zvířat například. A díky oddělení do samostatných chatů lze kdykoliv navázat a pokračovat ve stejném stylu. A ani nevadí, pokud ChatGPT zapomene obrázky, prompty a styl zůstávají.

Autor: Martin Jurica s využitím DALL-E

Umí více rozměrů! Zatímco Bing Image Creator umí jen čtverec 1024 × 1024 px, tak v ChatGPT jde požádat i o široký (wide) a vysoký (portrait) formát, což zajistí generování s rozměrem 1024 × 1792, respektive 1792 × 1024. Doporučuji zadávat anglické označení, v češtině to nemusí vyjít dle očekávání – jako „širokoúhlý formát“ to rádo používá rybí oko a tak podobně. Výchozí formát je čtvercový, jako v Bingu. V aktuální verzi je také tento formát jediný, který nezkresluje, zbylé dva rády ze svislic dělají křivky, což je hodně vidět třeba u staveb nebo stromů (v galerii je pár ukázek), ale věřím, že tohle se rychle zlepší.

Dokáže modifikovat konkrétní obrázek. Omezeně. Jak už bylo v demu s ježkem – v rámci konverzace můžete chat požádat o úpravu konkrétního vygenerovaného obrázku, a to i v několika krocích. Bohužel nejde o in-painting, kde by se původní obrázek modifikoval, vždy dojde k vygenerování nového, byť obsah a styl zůstane víceméně shodný. Takže třeba tenhle šavlozubý jezevčík se nejprve přestěhoval na křeslo a v dalším kroku dostal delší zuby. Chat poměrně dobře pracuje s konkrétním určením části obrázku, takže je možné zadat třeba „na pravou stranu přidej auto“ nebo „před dveře přidej květinový záhon“.

Autor: Martin Jurica s využitím DALL-E

Může vyladit styl a inspirovat. Někdy se mi stane, že vím, co chci nechat vygenerovat, ale nevím, jakým stylem. Teď už není nic snazšího než požádat o nějaký jednoduchý objekt (používám geometrické tvary nebo třeba jablko) nakreslený různými styly. Třeba malíři 19. století, kresba tužkou, fotografie z různých přístrojů, zkrátka cokoliv. A z výsledků si vybrat a případně ještě doladit – barevnou paletu, jemnost, detaily – opět zkrátka cokoliv.

Autor: Martin Jurica s využitím DALL-E

Zvládne variace v rámci zadání. A funguje to překvapivě dobře (a často i pobaví). Když je nějaký výsledek „už téměř ono“, stojí za pokus dát GPT volnou ruku a požádat o variace na jeden obrázek. Někdy jen změní úhel, nebo použije trochu odlišnou techniku, či přidá/odebere nějaký prvek. O překvapení není nouze.

Autor: Martin Jurica s využitím DALL-E

Autor: Martin Jurica s využitím DALL-E

Poradí (si). Inu – když něco nevím, tak se zeptám. A jelikož GPT je konverzační model, tak konverzujte. Nechte si poradit, jak vylepšit obrázek nebo co na něj doplnit, jaký styl by byl vhodný atd. Stejně tak je tady k dispozici celá ta ohromná databáze faktických informací (ověřovat! Pořád to halucinuje…), ze které GPT vychází, takže doplní, poradí, ověří, zda se mohl potkat trilobit s barakudou, možnosti jsou zkrátka neomezené. Když dělám kresby pro děti, nebo ilustračku ke článku, nebo cokoliv dalšího, občas mi na obrázku „něco chybí“. A GPT mi poradí a doplní. Nebo můžete nakopírovat celý dlouhý text a požádat o ilustrace k němu (níže jsou ilustrační fota k tomuto článku udělaná touto metodou).

Autor: Martin Jurica s využitím DALL-E

Autor: Martin Jurica s využitím DALL-E

Závěrem

Jak vidno, možnosti jsou prakticky neomezené (a to jsem jen nastínil několik tipů) a asi je každému jasné, že jsem z DALL-E v ChatGPT docela nadšen. Zvlášť, když je to stále jen beta a spíš hračka než seriózní nástroj.

Zamrzí asi nejvíc nemožnost kombinovat DALL-E s dalšími pluginy ChatGPT, takže nemá přístup k internetu a nemůže využít ani jiná rozšíření, která by dávala smysl (prezentace, grafy, data…), ale to možná časem.

Co si necháte nakreslit jako první?