Z hlasu rovnou mimika! Nvidia pouští revoluční Audio2Face do světa jako open source

Obrázek z předváděčky technologie Nvidia Audio2Face

Nvidia uvolnila nástroj Audio2Face jako open source, včetně SDK
Systém převádí akustické rysy řeči na mimiku, přesný lip-sync a emoční výraz v reálném čase i offline
K dispozici jsou pluginy pro Mayu a Unreal Engine 5 i nové modely (regression 2.2, diffusion 3.0; Audio2Emotion 2.2/3.0)

Nvidia zpřístupnila svůj nástroj Audio2Face, který pomocí umělé inteligence převádí zvuk na detailní mimiku 3D postav. Kromě samotných modelů firma zároveň uvolňuje i software development kit (SDK) a kompletní tréninkový rámec, takže vývojáři mohou technologii rovnou nasadit nebo ji upravit pro vlastní potřeby. Cílem je zrychlit vývoj AI postav ve hrách a 3D aplikacích napříč různými odvětvími.

Stačí trocha hlasu

Audio2Face analyzuje akustické rysy řeči (např. fonémy, intonaci či tempo) a generuje proud animačních dat, který mapuje na předdefinované pózy obličeje. Výsledkem je tak poměrně přesná synchronizace rtů a výrazů, kterou lze renderovat i offline pro předskriptovaný obsah nebo streamovat v reálném čase pro interaktivní postavy a živá vysílání. Technologie má podle Nvidie pokrýt jak přirozenou artikulaci, tak emoční odstíny projevu.

Balík otevřeného kódu zahrnuje Audio2Face SDK s dokumentací pro běh na zařízení i v cloudu a referenční pluginy: Autodesk Maya a Unreal Engine 5. Součástí je taky tréninkový rámec a ukázková data, která umožní tvůrcům studovat celou pipeline a rychle spouštět vlastní učení.

Nvidia zároveň zpřístupňuje generativní modely pro lip-sync, tedy pro technologii, díky které mohou pohyby rtů sedět do mluveného slova. A k mání je také nástroj Audio2Emotion, který z audia odhaduje emoční stav.

Velký posun pro hry

Technologie už našla uplatnění v praxi. Studio Survios ji nasadilo v Alien: Rogue Incursion Evolved Edition, kde zefektivnila workflow pro lip-sync a snímání obličejů, a The Farm 51 ji integrovalo do Chernobylite 2: Exclusion Zone s cílem urychlit tvorbu detailních animací. Další využití pak zahrnuje integrace do her a produktů u společností jako Convai, Codemasters, GSC Game World, Inworld AI, NetEase, Reallusion, Perfect World Games, Streamlabs či UneeQ Digital Humans.

Z open source nátury projektu mohou těžit všichni nejen v herním průmyslu. Vývojáři, studenti i výzkumníci mohou přidávat funkce, optimalizovat výkon pro různé platformy a jemně ladit modely na specifické jazyky, žánry i stylizace. V kontextu rychle rostoucího využití generativní AI ve hrách, médiích a zákaznických službách má Audio2Face snížit náklady a čas potřebný k vytvoření věrohodných digitálních postav. Od krátkých cut-scén až po interaktivní, mluvící NPC řízené AI.

Nejde jen o hry

Rozšíření otevřeného Audio2Face může urychlit i nasazení „digitálních pracovníků“ mimo hry. V zákaznické podpoře a samoobslužných kioscích mohou real-time avataři plynule mluvit s klienty, přesně artikulovat v mnoha jazycích a pomocí Audio2Emotion adaptovat výraz i tón komunikace na základě detekované emoční zátěže. Podobně ve vzdělávání a firemním e-learningu lze rychle generovat lokální verze lektorských videí s věrohodným lip-syncem bez nákladného natáčení různých verzí.

Nepřehlédněte

AI vyrábí 3 000 podcastů týdně. Jeden díl vyjde na dolar a vydělává už po 20 přehráních

Nevyhnutelný je i rozjíždějící se svět virtuálních tvůrců a AI influencerů, který teď ještě zrychlí. Značky si totiž snadněji postaví konzistentní digitální tváře napříč kanály, retail a finance nasadí personalizované průvodce v mobilních aplikacích i na pobočkách. S tím ale přichází i povinné mantinely: transparentní označování AI obsahu, souhlasy s využitím podoby a hlasu, vodoznak či jiné formy označení a transparentní komunikace. Otevřenost sice výrazně snižuje bariéry vstupu a podporuje inovace, zároveň ale taky klade vyšší nároky na odpovědné nasazení a bezpečnostní standardy ve firmách.

Vstoupit do diskuze (1)

Zdroj článku

Autor článku

Adam Homola

Nové technologie mě fascinují už od útlého věku. K dlouhodobému zájmu o hry a herní průmysl se mi postupem času přirozeně přidal i hardware, software, internetové služby a od roku 2022 i umělá inteligence.