Nová verze jazykového modelu OpenAI nese označení GTP-4o („o“ pochází z výrazu „omni“). Firma ji začíná postupně zpřístupňovat jak uživatelům s předplatným (Plus a Teams, později Enterprise), tak lidem, kteří používají verzi ChatGPT zdarma. Používání bude omezeno limitem, který má být u platících (Plus) uživatelů 5× vyšší než u free verze (u Teams ještě vyšší). Konkrétnější čísla firma neuvedla.

S novým jazykovým modelem přichází pravá multimodalita, slibuje OpenAI. GPT-4o podle firmy dokáže na vstupu pracovat s jakoukoli kombinací textu, zvuku a obrazu a stejně tak umí jakoukoli kombinaci vygenerovat na výstupu. Reakční doba se přitom blíží odezvám při konverzacích lidí, dodává.

Předchozí modely zpracovávaly zvukové povely postupně: nejdřív přepsaly zvuk do textu, pak GPT-3.5 nebo GPT-4 text zpracovaly a vygenerovaly textový výstup, a ten pak bylo nutné znovu „přečíst“ jako audio. Průměrné odezvy modelů se tak pohybovaly v řádu sekund. GPT-4o měří odezvy v milisekundách (průměr je podle OpenAI 320 ms), což hlasovou konverzaci dále přibližuje zážitku z rozhovoru s člověkem.

Podívejte se na ukázku některých schopností GPT-4o, jak je v krátkém demu ukázal spoluzakladatel OpenAI Greg Brockman:

Introducing GPT-4o, our new model which can reason across text, audio, and video in real time.



It's extremely versatile, fun to play with, and is a step towards a much more natural form of human-computer interaction (and even human-computer-computer interaction): pic.twitter.com/VLG7TJ1JQx