AI konečně umí pracovat v obrázcích s textem. OpenAI představila novou verzi svého generátoru

26. 3. 2025

Jedna z velkých slabin dosavadních AI generátorů obrázků, zdá se, padla. Americká firma OpenAI zpřístupnila nový generátor obrázků začleněný přímo do svého multimodálního modelu GPT‑4o. Dostupný je zatím jen uživatelům s předplatným (ve verzích Plus, Pro a Team).

K hlavním novinkám generátoru patří to, že v rámci vytvořených obrázků umí pracovat s texty výrazně lépe než dosavadní generátory. Ty dosud obvykle text v obrázku zobrazovaly velmi zkresleně nebo nesmyslně.

GPT‑4o si se zobrazováním textů umí poradit mnohem lépe, dokáže například vygenerovat realistické fotografie obsahující dlouhé souvislé texty:

Podle našich prvních testů si GPT-4o dokáže velmi dobře poradit zejména s texty v angličtině. V češtině jsou výsledky výrazně lepší než dříve, ale generátor má stále potíže například se zobrazováním diakritiky a dělá i další chyby:

AI lépe zvládající generovat v obrázcích texty samozřejmě bude mnohem lepším nástrojem pro různé podvrhy. Tady je například náš pokus o vygenerování screenshotu stránky ve Wikipedii:

Generátor obrázků v GPT-4o umí také upravovat existující obrázky, které uživatel do chatu nahraje, nebo dokáže vytvářet jejich různé variace. Podle OpenAI si umí „pamatovat“ kontext zobrazených objektů a přenášet jej do nově vygenerovaných variant. „Pokud například vytváříte různé oblečení pro postavu z videohry, zůstává její vzhled stejný napříč různými iteracemi,“ vysvětluje firma.

GPT-4o také podle OpenAI dokáže na obrázcích pracovat s více objekty než dosavadní generátory. Znamená to, že například umí vytvářet propracovanější infografiky, prezentace a další materiály.

Nový generátor obrázků obsahuje také další novinku: podle informací v systémové kartě modelu OpenAI tentokrát neblokuje vytváření fotorealistických obrázků žijících veřejně známých osob. Přiklání se tak k precedentu, který přinesl model Grok od X.ai, který to umožňuje už od svého uvedení.

OpenAI uplatňuje opt-out přístup: pokud by nějaké veřejně známá osobnost chtěla generování svých podobizen blokovat, musí o to projevit zájem. V GPT-4o je nadále blokováno jen vytváření obrázků veřejně známých nezletilých.

Vstoupit do diskuse (2 názory)

Zasílat nově přidané názory e-mailem

Našli jste v článku chybu?

David Slížek

Šéfredaktor Lupa.cz a externí spolupracovník Českého rozhlasu Plus. Dříve editor IHNED.cz, předtím Aktuálně.cz a Českého rozhlasu. Zaměřuje se na telekomunikace, umělou inteligenci i na média. Najdete ho na Twitteru nebo na LinkedIn.

Sdílet

Google uvedl AI model Gemini 2.5 s kontextovým oknem 1 milion tokenů

Autor aktuality

David Slížek

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?