Jedna z velkých slabin dosavadních AI generátorů obrázků, zdá se, padla. Americká firma OpenAI zpřístupnila nový generátor obrázků začleněný přímo do svého multimodálního modelu GPT‑4o. Dostupný je zatím jen uživatelům s předplatným (ve verzích Plus, Pro a Team).
K hlavním novinkám generátoru patří to, že v rámci vytvořených obrázků umí pracovat s texty výrazně lépe než dosavadní generátory. Ty dosud obvykle text v obrázku zobrazovaly velmi zkresleně nebo nesmyslně.
GPT‑4o si se zobrazováním textů umí poradit mnohem lépe, dokáže například vygenerovat realistické fotografie obsahující dlouhé souvislé texty:
Podle našich prvních testů si GPT-4o dokáže velmi dobře poradit zejména s texty v angličtině. V češtině jsou výsledky výrazně lepší než dříve, ale generátor má stále potíže například se zobrazováním diakritiky a dělá i další chyby:

Ukázka vygenerovaného obrázku. Prompt: vytvoř fotorealistický screenshot technologického serveru Lupa.cz s texty o internetu
AI lépe zvládající generovat v obrázcích texty samozřejmě bude mnohem lepším nástrojem pro různé podvrhy. Tady je například náš pokus o vygenerování screenshotu stránky ve Wikipedii:

Ukázka vygenerovaného obrázku. Prompt: vytvoř fotorealistický screenshot stránky na Wikipedii pojednávající v češtině o deepfake
Generátor obrázků v GPT-4o umí také upravovat existující obrázky, které uživatel do chatu nahraje, nebo dokáže vytvářet jejich různé variace. Podle OpenAI si umí „pamatovat“ kontext zobrazených objektů a přenášet jej do nově vygenerovaných variant. „Pokud například vytváříte různé oblečení pro postavu z videohry, zůstává její vzhled stejný napříč různými iteracemi,“ vysvětluje firma.
GPT-4o také podle OpenAI dokáže na obrázcích pracovat s více objekty než dosavadní generátory. Znamená to, že například umí vytvářet propracovanější infografiky, prezentace a další materiály.

Ukázka vygenerovaného obrázku. Prompt: vytvoř infografiku, která jednoduše vysvětluje co je to IP adres a jak se dá využívat pro sledování lidí na internetu. ifografika je v češtině
Nový generátor obrázků obsahuje také další novinku: podle informací v systémové kartě modelu OpenAI tentokrát neblokuje vytváření fotorealistických obrázků žijících veřejně známých osob. Přiklání se tak k precedentu, který přinesl model Grok od X.ai, který to umožňuje už od svého uvedení.
OpenAI uplatňuje opt-out přístup: pokud by nějaké veřejně známá osobnost chtěla generování svých podobizen blokovat, musí o to projevit zájem. V GPT-4o je nadále blokováno jen vytváření obrázků veřejně známých nezletilých.