Hlavní navigace

ChatGPT umí obrázky aneb Dorazil DALL-E 3. Co umí, co ne a navrch praktické tipy

17. 10. 2023
Doba čtení: 6 minut

Sdílet

Generování obrázků je zas o něco lepší. DALL-E 3 dokáže využít ChatGPT a textová generativní AI umí pomoci s formulováním zadání (promptů).

Byl to ten slavný den, kdy nám byl zaveden – obrazový generátor do chatu. Sice se to nerýmuje, ale je fajn, že OpenAI plní sliby a skutečně v první půli října přibyla do placených verzí ChatGPT možnost interakce obrazovou generativní neuronkou DALL-E v nové verzi 3. 

Tu sice o týden dříve bezplatně uvedl i Bing Creator a výsledky jsou opravdu velmi dobré, ale od spojení s GPT4 se čekalo daleko, daleko víc. A jak to bývá – očekávání nebyla překročena, ale stejně tak ani obavy se nenaplnily. Takže – jak dopadlo to „good enough“ v podání OpenAI?

Co to neumí?

Nejprve stručně – co očekávání nepřekročilo. Pak už budu jen chválit a ukážeme si pár triků. Pokud jste viděli úžasné minutové demo o ježkovi Larrym (OpenAI představení), tak vězte, že to je jeden případ ze sta, nikoliv běžná realita. Ano, jde si v rámci chatu vygenerovat obrázky a pohádku a samolepky s ježkem a tak dále, ale tak konzistentní, jako na tom videu, výstupy rozhodně nejsou. A už vůbec ne tak rychlé. 

Dalším omezením je fakt, že generování obrázků má teď dvě úrovně autocenzury – něco neprojde přes DALL-E a něco přes GPT4, takže výstupy jsou častěji cenzurované než v samotném Bing Create se stejným modelem. 

A poslední chybky na kráse jsou očekávané – ChatGPT po čase „zapomíná“ obrázky v chatu, stejně jako u jiných rozšíření zkrátka neukládá obsah navždy. Obrázky mizí v řádu hodin, do druhého dne už v chatu nebudou, takže si dělejte zálohy (doporučím plugin do prohlížeče na stahování všech obrázků na stránce, například Download All Images, ať to nemusíte stahovat ručně po jednom). 

Nelze sdílet chaty s obrázky. A DALL-E není MindJourney, fotorealismu se tady nedočkáte, i při zadání, že chcete fotky, budou výsledkem spíše malby nebo render.

Tak, to jsem pohanil, co se dalo, a teď už jen plno optimismu a wow okamžiků.

Co DALL-E 3 dokáže? Podívejte se na ukázky:

Co to umí?

Psát detailní prompty, to je asi největší výhoda komba GPT+DALL-E. Zatímco u faktických dotazů na GPT (k tomu ten model není, ale stejně to většina z vás zkouší používat místo Wikipedie, že?) je „halucinování“ GPT nežádoucí, tak u generování obrázků je to něco, co ocení každý. DALL-E 3se chlubí schopností rozumět dlouhým promptům a držet se toho zadání, ale kdo se s tím má psát? ChatGPT je v tomhle přeborník a během pár interakcí můžete získat perfektní prompt a obrázek. 

Například: zadám, že chci bílého, chlupatého králíčka, co dlabe trávu. Ňuňu, já vím. A GPT vygeneruje 4 variace dlouhých promptů, v angličtině (což dává obecně lepší výsledky), ve stylu: „Hyper-realistic square photo of a fluffy white rabbit nibbling on a patch of green grass. Its large eyes gleam with curiosity, and its ears stand tall and alert“. A lup, máme králíčka jak malovaného. Velice to usnadňuje práci. 

Nebo třeba chci monitor, na kterém je nějaký ERP dashboard, realistické foto. Z tohoto zadání GPT rozvine myšlenku na: „Hyper-realistic photo of a room featuring an office desk with a large monitor opened to an ERP system. Some documents and a coffee mug can be seen on the desk's surface“. Samozřejmě, že lze přinutit ChatGPT, aby se striktně držel zadání, pokud je to potřeba: Vytvoř XYZ a drž se přesně zadání, nemodifikuj jej. Například.

Tip: po rozkliknutí vygenerovaného obrázku se zobrazí i celý prompt, který GPT použilo.

Autor: Martin Jurica s využitím DALL-E

Drží úhel, teda styl. V rámci jedné konverzace je lepší si zvolit z prvních nabízených obrázků jeden, který použijete jako referenční, co se týče stylu kresby, a pro další styly si založit nový chat. Sice jde v každém zadání měnit styl (3D, skica, fotografie, malba atd.), ale tím se připravíme o tu velkou výhodu v podobě konzistence stylu pro různá zadání. Já mám takhle nakreslené desítky zvířat ve stylu Brehmova života zvířat například. A díky oddělení do samostatných chatů lze kdykoliv navázat a pokračovat ve stejném stylu. A ani nevadí, pokud ChatGPT zapomene obrázky, prompty a styl zůstávají.

Autor: Martin Jurica s využitím DALL-E

Umí více rozměrů! Zatímco Bing Image Creator umí jen čtverec 1024 × 1024 px, tak v ChatGPT jde požádat i o široký (wide) a vysoký (portrait) formát, což zajistí generování s rozměrem 1024 × 1792, respektive 1792 × 1024. Doporučuji zadávat anglické označení, v češtině to nemusí vyjít dle očekávání – jako „širokoúhlý formát“ to rádo používá rybí oko a tak podobně. Výchozí formát je čtvercový, jako v Bingu. V aktuální verzi je také tento formát jediný, který nezkresluje, zbylé dva rády ze svislic dělají křivky, což je hodně vidět třeba u staveb nebo stromů (v galerii je pár ukázek), ale věřím, že tohle se rychle zlepší.

Dokáže modifikovat konkrétní obrázek. Omezeně. Jak už bylo v demu s ježkem – v rámci konverzace můžete chat požádat o úpravu konkrétního vygenerovaného obrázku, a to i v několika krocích. Bohužel nejde o in-painting, kde by se původní obrázek modifikoval, vždy dojde k vygenerování nového, byť obsah a styl zůstane víceméně shodný. Takže třeba tenhle šavlozubý jezevčík se nejprve přestěhoval na křeslo a v dalším kroku dostal delší zuby. Chat poměrně dobře pracuje s konkrétním určením části obrázku, takže je možné zadat třeba „na pravou stranu přidej auto“ nebo „před dveře přidej květinový záhon“.

Autor: Martin Jurica s využitím DALL-E

Může vyladit styl a inspirovat. Někdy se mi stane, že vím, co chci nechat vygenerovat, ale nevím, jakým stylem. Teď už není nic snazšího než požádat o nějaký jednoduchý objekt (používám geometrické tvary nebo třeba jablko) nakreslený různými styly. Třeba malíři 19. století, kresba tužkou, fotografie z různých přístrojů, zkrátka cokoliv. A z výsledků si vybrat a případně ještě doladit – barevnou paletu, jemnost, detaily – opět zkrátka cokoliv.

Autor: Martin Jurica s využitím DALL-E

Zvládne variace v rámci zadání. A funguje to překvapivě dobře (a často i pobaví). Když je nějaký výsledek „už téměř ono“, stojí za pokus dát GPT volnou ruku a požádat o variace na jeden obrázek. Někdy jen změní úhel, nebo použije trochu odlišnou techniku, či přidá/odebere nějaký prvek. O překvapení není nouze.

Autor: Martin Jurica s využitím DALL-E
Autor: Martin Jurica s využitím DALL-E

Poradí (si). Inu – když něco nevím, tak se zeptám. A jelikož GPT je konverzační model, tak konverzujte. Nechte si poradit, jak vylepšit obrázek nebo co na něj doplnit, jaký styl by byl vhodný atd. Stejně tak je tady k dispozici celá ta ohromná databáze faktických informací (ověřovat! Pořád to halucinuje…), ze které GPT vychází, takže doplní, poradí, ověří, zda se mohl potkat trilobit s barakudou, možnosti jsou zkrátka neomezené. Když dělám kresby pro děti, nebo ilustračku ke článku, nebo cokoliv dalšího, občas mi na obrázku „něco chybí“. A GPT mi poradí a doplní. Nebo můžete nakopírovat celý dlouhý text a požádat o ilustrace k němu (níže jsou ilustrační fota k tomuto článku udělaná touto metodou).

Autor: Martin Jurica s využitím DALL-E
Autor: Martin Jurica s využitím DALL-E

Závěrem

Jak vidno, možnosti jsou prakticky neomezené (a to jsem jen nastínil několik tipů) a asi je každému jasné, že jsem z DALL-E v ChatGPT docela nadšen. Zvlášť, když je to stále jen beta a spíš hračka než seriózní nástroj. 

ebf - tip - debata

Zamrzí asi nejvíc nemožnost kombinovat DALL-E s dalšími pluginy ChatGPT, takže nemá přístup k internetu a nemůže využít ani jiná rozšíření, která by dávala smysl (prezentace, grafy, data…), ale to možná časem.

Co si necháte nakreslit jako první?

Byl pro vás článek přínosný?

Autor článku

Autor je tester, technical writer a příležitostný blogger, věnuje se novým (i starým) technologiím a ve volném čase cvičí psy a jejich majitele.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).