AI konečně umí pracovat v obrázcích s textem. OpenAI představila novou verzi svého generátoru

26. 3. 2025

Sdílet

AI - OpenAI - ChatGPT Autor: David Slížek s využitím GPT-4o

Jedna z velkých slabin dosavadních AI generátorů obrázků, zdá se, padla. Americká firma OpenAI zpřístupnila nový generátor obrázků začleněný přímo do svého multimodálního modelu GPT‑4o. Dostupný je zatím jen uživatelům s předplatným (ve verzích Plus, Pro a Team). 

K hlavním novinkám generátoru patří to, že v rámci vytvořených obrázků umí pracovat s texty výrazně lépe než dosavadní generátory. Ty dosud obvykle text v obrázku zobrazovaly velmi zkresleně nebo nesmyslně.

GPT‑4o si se zobrazováním textů umí poradit mnohem lépe, dokáže například vygenerovat realistické fotografie obsahující dlouhé souvislé texty: 

Ukázka vygenerovaného obrázku s textem od OpenAI 

Autor: OpenAI s pomocí GPT-4o

Podle našich prvních testů si GPT-4o dokáže velmi dobře poradit zejména s texty v angličtině. V češtině jsou výsledky výrazně lepší než dříve, ale generátor má stále potíže například se zobrazováním diakritiky a dělá i další chyby:

Ukázka vygenerovaného obrázku. Prompt: vytvoř fotorealistický screenshot technologického serveru Lupa.cz s texty o internetu 

Autor: David Slížek s pomocí GPT-4o

AI lépe zvládající generovat v obrázcích texty samozřejmě bude mnohem lepším nástrojem pro různé podvrhy. Tady je například náš pokus o vygenerování screenshotu stránky ve Wikipedii:

Ukázka vygenerovaného obrázku. Prompt: vytvoř fotorealistický screenshot stránky na Wikipedii pojednávající v češtině o deepfake  

Autor: David Slížek s využitím GPT-4o

Generátor obrázků v GPT-4o umí také upravovat existující obrázky, které uživatel do chatu nahraje, nebo dokáže vytvářet jejich různé variace. Podle OpenAI si umí „pamatovat“ kontext zobrazených objektů a přenášet jej do nově vygenerovaných variant. „Pokud například vytváříte různé oblečení pro postavu z videohry, zůstává její vzhled stejný napříč různými iteracemi,“ vysvětluje firma. 

GPT-4o také podle OpenAI dokáže na obrázcích pracovat s více objekty než dosavadní generátory. Znamená to, že například umí vytvářet propracovanější infografiky, prezentace a další materiály.

Ukázka vygenerovaného obrázku. Prompt: vytvoř infografiku, která jednoduše vysvětluje co je to IP adres a jak se dá využívat pro sledování lidí na internetu. ifografika je v češtině 

Autor: David Slížek s využitím GPT-4o

Nový generátor obrázků obsahuje také další novinku: podle informací v systémové kartě modelu OpenAI tentokrát neblokuje vytváření fotorealistických obrázků žijících veřejně známých osob. Přiklání se tak k precedentu, který přinesl model Grok od X.ai, který to umožňuje už od svého uvedení. 

Ukázka vygenerovaného obrázku s fotkou reálné veřejně známé osobnosti  – v tomto případě Elona Muska

Autor: David Slížek s využitím GPT-4o

OpenAI uplatňuje opt-out přístup: pokud by nějaké veřejně známá osobnost chtěla generování svých podobizen blokovat, musí o to projevit zájem. V GPT-4o je nadále blokováno jen vytváření obrázků veřejně známých nezletilých. 

Google uvedl AI model Gemini 2.5 s kontextovým oknem 1 milion tokenů Přečtěte si také:

Google uvedl AI model Gemini 2.5 s kontextovým oknem 1 milion tokenů

Našli jste v článku chybu?

Autor aktuality

Šéfredaktor Lupa.cz a externí spolupracovník Českého rozhlasu Plus. Dříve editor IHNED.cz, předtím Aktuálně.cz a Českého rozhlasu. Zaměřuje se na telekomunikace, umělou inteligenci i na média. Najdete ho na Twitteru nebo na LinkedIn

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).