- OpenAI začíná postupně spouštět novou verzi pokročilého hlasového režimu
- Ten mluví v reálném čase, reaguje téměř jako člověk a zvládá i emoce
- Začíná se s malým vzorkem uživatelů, během podzimu se dočkají všichni předplatitelé
Společnost OpenAI konečně začala postupně a velice pomalu spouštět Advanced Voice Mode, tedy onu novou, notně pokročilou schopnost hlasové konverzace s uživatelem.
Umělá inteligence jako živá
Jestliže si platíte ChatGPT Plus, můžete mít to štěstí a třeba už nový pokročilý hlasový režim máte. Tvůrci z OpenAI prozradili, že po odkladu (mimo jiné z bezpečnostních důvodů) začali Advanced Voice Mode spouštět. Zatím jen velmi pozvolna, mezi hrstku platících uživatelů s tím, že očekávají, že všichni předplatitelé služby ChatGPT Plus budou mít k novému hlasovému modelu přístup během podzimu.
Nový hlasový režim představuje významný pokrok oproti současným digitálním asistentům a i oproti tomu předchozímu. U něj jste museli čekat na odpověď nebo jakoukoliv reakci vždy několik vteřin, nešlo ho přerušovat a vůbec to bylo poměrně robotické. Nový hlasový režim nabízí uvěřitelné a opravdu realistické odpovědi v reálném čase.
Nový hlasový režim se umí také přizpůsobit vyrušení, dokáže vyjadřovat emoce, umí pracovat s tónem hlasu, dokáže se smát, a dokonce i odhadovat emocionální stav uživatele pouze na základě tónu jeho hlasu.
We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK
— OpenAI (@OpenAI) July 30, 2024
Pomalu, ale jistě
OpenAI začíná vydávat nový hlasový režim po jednom větším odkladu a několika bezpečnostních opatřeních. Firma spolupracovala s dabéry na vytvoření čtyř přednastavených hlasových možností, čímž zabránila potenciálním problémům s napodobováním hlasu. Systém také obsahuje ochranná opatření proti generování zvukového obsahu chráněného autorskými právy a zachovává stejná omezení obsahu jako textová verze, aby se zabránilo vytváření nelegálního nebo škodlivého materiálu. Tudíž si nebudete moci říct o napodobení hlasu například nějaké celebrity, nebo třeba ani vašeho známého – něco takového by vám mělo ChatGPT rovnou odmítnout.
Postupné spouštění systému následuje po rozsáhlém testování, kterého se zúčastnilo více než 100 osob z 29 různých oblastí, které dohromady hovoří 45 jazyky.
ChatGPT Advanced Voice Mode counting as fast as it can to 10, then to 50 (this blew my mind – it stopped to catch its breath like a human would) pic.twitter.com/oZMCPO5RPh
— Cristiano Giardina (@CrisGiardina) July 31, 2024
Za připomenutí stojí, že hlas, který mnozí při první ukázce v květnu přirovnávali k herečce Scarlett Johansson, zatím stále není a nebude k dispozici. OpenAI na základě stížností používání této hlasové možnosti pozastavil, přestože tvrdila, že hlas neměl napodobovat Johansson a byl vytvořen s jinou dabérkou. Vtipné je, že hlas, který měl být údajně podobný Johansson, byl v ChatGPT přítomen už nějakou dobu předtím a nikdo si toho nevšiml, respektive to nikomu nevadilo, než na něm OpenAI prezentoval nový hlasový režim. Poměrně uvěřitelný (byť samozřejmě podstatně pomalejší a ne tolik reaktivní) byl už ale i předtím.
Další milník překonán
Začátek spouštění nového hlasového režimu je „pouze“ jedním z letošních milníků společnosti OpenAI, která navzdory všemožným žalobám a konkurenci neustává a sype z rukávu jednu novinku za druhou. Není to totiž tak dávno, co jsme dostali výrazně vylepšenou verzi ChatGPT 4 s názvem ChatGPT 4o (Omni, tedy teď už nativně multimodální). Nyní následuje vylepšený hlasový režim a v záloze na letošní rok by měl být ještě působivý generátor videí Sora.
Nemluvě o nevyhnutelném ChatGPT 5, který se dá teoreticky očekávat někdy příští rok, a je otázkou, zda mu bude předcházet ještě nějaká potenciální verze ChatGPT 4,5o. A to ve vzduchu visí ještě taktéž nedávno představený prototyp vyhledávače SearchGPT.
OpenAI tak opět posouvá laťku možností generativní umělé inteligence, nicméně není sám. Aktuálně je na práci s textem či kódem v celé řadě případů lepší Claude od Anthropicu a Google má v záloze také řadu působivých novinek pro svůj model Gemini.