ChatGPT umí obrázky aneb Dorazil DALL-E 3. Co umí, co ne a navrch praktické tipy

Martin Jurica

17. 10. 2023

Doba čtení: 6 minut

přidejte názor

Všechny fotografie

Generování obrázků je zas o něco lepší. DALL-E 3 dokáže využít ChatGPT a textová generativní AI umí pomoci s formulováním zadání (promptů).

Byl to ten slavný den, kdy nám byl zaveden – obrazový generátor do chatu. Sice se to nerýmuje, ale je fajn, že OpenAI plní sliby a skutečně v první půli října přibyla do placených verzí ChatGPT možnost interakce obrazovou generativní neuronkou DALL-E v nové verzi 3.

Tu sice o týden dříve bezplatně uvedl i Bing Creator a výsledky jsou opravdu velmi dobré, ale od spojení s GPT4 se čekalo daleko, daleko víc. A jak to bývá – očekávání nebyla překročena, ale stejně tak ani obavy se nenaplnily. Takže – jak dopadlo to „good enough“ v podání OpenAI?

Co to neumí?

Nejprve stručně – co očekávání nepřekročilo. Pak už budu jen chválit a ukážeme si pár triků. Pokud jste viděli úžasné minutové demo o ježkovi Larrym (OpenAI představení), tak vězte, že to je jeden případ ze sta, nikoliv běžná realita. Ano, jde si v rámci chatu vygenerovat obrázky a pohádku a samolepky s ježkem a tak dále, ale tak konzistentní, jako na tom videu, výstupy rozhodně nejsou. A už vůbec ne tak rychlé.

Dalším omezením je fakt, že generování obrázků má teď dvě úrovně autocenzury – něco neprojde přes DALL-E a něco přes GPT4, takže výstupy jsou častěji cenzurované než v samotném Bing Create se stejným modelem.

A poslední chybky na kráse jsou očekávané – ChatGPT po čase „zapomíná“ obrázky v chatu, stejně jako u jiných rozšíření zkrátka neukládá obsah navždy. Obrázky mizí v řádu hodin, do druhého dne už v chatu nebudou, takže si dělejte zálohy (doporučím plugin do prohlížeče na stahování všech obrázků na stránce, například Download All Images, ať to nemusíte stahovat ručně po jednom).

Nelze sdílet chaty s obrázky. A DALL-E není MindJourney, fotorealismu se tady nedočkáte, i při zadání, že chcete fotky, budou výsledkem spíše malby nebo render.

Tak, to jsem pohanil, co se dalo, a teď už jen plno optimismu a wow okamžiků.

Co DALL-E 3 dokáže? Podívejte se na ukázky:

Dalších 48 fotografií

Co to umí?

Psát detailní prompty, to je asi největší výhoda komba GPT+DALL-E. Zatímco u faktických dotazů na GPT (k tomu ten model není, ale stejně to většina z vás zkouší používat místo Wikipedie, že?) je „halucinování“ GPT nežádoucí, tak u generování obrázků je to něco, co ocení každý. DALL-E 3se chlubí schopností rozumět dlouhým promptům a držet se toho zadání, ale kdo se s tím má psát? ChatGPT je v tomhle přeborník a během pár interakcí můžete získat perfektní prompt a obrázek.

Například: zadám, že chci bílého, chlupatého králíčka, co dlabe trávu. Ňuňu, já vím. A GPT vygeneruje 4 variace dlouhých promptů, v angličtině (což dává obecně lepší výsledky), ve stylu: „Hyper-realistic square photo of a fluffy white rabbit nibbling on a patch of green grass. Its large eyes gleam with curiosity, and its ears stand tall and alert“. A lup, máme králíčka jak malovaného. Velice to usnadňuje práci.

Nebo třeba chci monitor, na kterém je nějaký ERP dashboard, realistické foto. Z tohoto zadání GPT rozvine myšlenku na: „Hyper-realistic photo of a room featuring an office desk with a large monitor opened to an ERP system. Some documents and a coffee mug can be seen on the desk's surface“. Samozřejmě, že lze přinutit ChatGPT, aby se striktně držel zadání, pokud je to potřeba: Vytvoř XYZ a drž se přesně zadání, nemodifikuj jej. Například.

Tip: po rozkliknutí vygenerovaného obrázku se zobrazí i celý prompt, který GPT použilo.