![AI - OpenAI - ChatGPT - multimodalita](https://i.iinfo.cz/images/13/ai-openai-chatgpt-multimodalita.webp)
Nová verze jazykového modelu OpenAI nese označení GTP-4o („o“ pochází z výrazu „omni“). Firma ji začíná postupně zpřístupňovat jak uživatelům s předplatným (Plus a Teams, později Enterprise), tak lidem, kteří používají verzi ChatGPT zdarma. Používání bude omezeno limitem, který má být u platících (Plus) uživatelů 5× vyšší než u free verze (u Teams ještě vyšší). Konkrétnější čísla firma neuvedla.
S novým jazykovým modelem přichází pravá multimodalita, slibuje OpenAI. GPT-4o podle firmy dokáže na vstupu pracovat s jakoukoli kombinací textu, zvuku a obrazu a stejně tak umí jakoukoli kombinaci vygenerovat na výstupu. Reakční doba se přitom blíží odezvám při konverzacích lidí, dodává.
Předchozí modely zpracovávaly zvukové povely postupně: nejdřív přepsaly zvuk do textu, pak GPT-3.5 nebo GPT-4 text zpracovaly a vygenerovaly textový výstup, a ten pak bylo nutné znovu „přečíst“ jako audio. Průměrné odezvy modelů se tak pohybovaly v řádu sekund. GPT-4o měří odezvy v milisekundách (průměr je podle OpenAI 320 ms), což hlasovou konverzaci dále přibližuje zážitku z rozhovoru s člověkem.
Podívejte se na ukázku některých schopností GPT-4o, jak je v krátkém demu ukázal spoluzakladatel OpenAI Greg Brockman:
Introducing GPT-4o, our new model which can reason across text, audio, and video in real time.
— Greg Brockman (@gdb) May 13, 2024
It's extremely versatile, fun to play with, and is a step towards a much more natural form of human-computer interaction (and even human-computer-computer interaction): pic.twitter.com/VLG7TJ1JQx
OpenAI také oznámila desktopovou aplikaci ChatGPT, která ale zatím bude k dispozici jen pro systém macOS a vyvolávat se bude klávesovou zkratkou Option + Space. Aplikace bude nejprve dostupná platícím uživatelům, na free verzi se dostane později.
Řešení matematických úloh s novou verzí ChatGPT: