- Nový model GPT-4o od OpenAI otevírá další možnosti využití umělé inteligence
- Zvládá kombinovat hlasové, textové a vizuální vstupy, které umí rychle zpracovávat v reálném čase
- Aktuálně je model GPT-4o k dispozici pro platící uživatele, později bude zdarma pro všechny
- OpenAI také brzy uvolní pro veřejnost nativní aplikaci pro macOS, později dorazí i verze pro Windows
Když přišla společnost OpenAI se svou umělou inteligencí ChatGPT, bez nadsázky způsobila malou technologickou revoluci. Od uvedení na trh se nejedna firma v rámci odvětví předhání v tom, která nabídne více funkcí AI. Mezitím ChatGPT vznikla i konkurence, například Gemini z dílny Googlu. OpenAI nicméně neusíná na vavřínech a stále svou technologii vylepšuje. Nyní přichází se svým doposud nejpokročilejším jazykovým modelem GPT-4o.
Model GPT-4o patří mezi nejpokročilejší výtvory od OpenAI
GPT-4o (o jako omni) je dalším krokem k mnohem přirozenější interakci mezi člověkem a počítačem – jako vstup přijímá libovolnou kombinaci textu, zvuku a obrazu a generuje libovolnou kombinaci textových, zvukových a obrazových výstupů.
Na zvukové vstupy dokáže reagovat už za 232 milisekund, přičemž průměrná doba reakce je 320 milisekund, což se podobá reakční době člověka při běžném rozhovoru. Výkonem se vyrovná modelu GPT-4 Turbo v případě textu v angličtině a kódu a výrazně se zlepšuje v případě textu v neanglických jazycích, přičemž je také mnohem rychlejší a o 50 % úspornější v API.
Před příchodem GPT-4o bylo možné v hlasovém režimu komunikovat s ChatGPT s průměrnou latencí 2,8 sekundy (GPT-3.5), respektive 5,4 sekundy (GPT-4). Hlasový režim je soustavou tří samostatných modelů: jeden model přepisuje zvuk na text, druhý modul GPT-3.5 či GPT-4 přijímá a vytváří text a třetí model převádí text zpět na zvuk.
Tento proces není příliš vhodný, neboť hlavní zdroj AI výpočtů ztrácí mnoho informací. Kupříkladu nemůže přímo rozpoznávat tón, více mluvčích nebo zvuky v pozadí a nemůže ani vyprodukovat smích, zpěv nebo vyjádřit emoce. S GPT-4o přichází jeden vytrénovaný model pro text, zrak a zvuk, což znamená, že všechny vstupy a výstupy jsou zpracovávány stejnou neuronovou sítí.
OpenAI se schopnostmi nového modulu pochlubila v sérii videí, která jsou působivá. Například v jedné ukázce nechal AI vymyslet pohádku a následně ji předčítat různými hlasy s emocemi či ji rovnou zazpívat. Skrze fotoaparát telefonu umí GPT-4o také rozpoznat matematické rovnice napsané na papíru, přičemž problém AI nedělala ani skutečnost, že uživatel v reálném čase prováděl na papíře změny.
„Můžete například vyfotit jídelní lístek v cizím jazyce a požádat AI, aby vám ho nejen přeložila, ale také řekla něco o samotném jídle a jeho historii, nebo rovnou něco z nabídky doporučila. ChatGPT například v budoucnu zvládne analyzovat sportovní utkání, u kterého vám následně vysvětlí pravidla, to vše v přirozené hlasové konverzaci v reálném čase,“ uvedli zástupci společnosti.
Nativní aplikace a GPT-4o zdarma pro všechny
ChatGPT-4o bude během následujících týdnů pro všechny k dispozici zdarma, přičemž svými schopnostmi se má vyrovnat aktuálnímu modelu GPT-4 a pro používání nebude ani potřeba mít registraci. Ti, kteří si přístup k GPT-4 a GPT-4 Turbo platí, mohou už nyní využít až pětkrát více požadavků každý den než ti, kteří budou k GPT-4o přistupovat zdarma.
Jakmile u bezplatného tarifu denní limit překročíte, budete automaticky přepnuti na GPT-3.5. Umělá inteligence ChatGPT bude také během několika dní k dispozici skrze nativní desktopovou aplikaci pro macOS, nicméně jen pro předplatitele ChatGPT Plus, přičemž pro ostatní bude uvolněna v následujících týdnech. Majitelé strojů s Windows se dočkají později tento rok. Internetem už sice koluje oficiální instalační soubor ChatGPT pro macOS, nicméně po spuštění vám aplikace nedovolí se přihlásit. Je to z toho důvodu, že ji tvůrci zatím ještě pro platící zákazníky neaktivovali.