- Microsoft představil umělou inteligenci, která je tak dobrá, že ji nechce poskytnout veřejnosti
- Stačit vám bude jediná fotka v kombinaci s kouskem audia a máte realistickou „mluvící hlavu“
- Připravme se na totální záplavu obsahu, ale také na potenciální problémy s deepfake videi
Microsoft vyvinul nový model umělé inteligence VASA-1, který dokáže z jediné fotografie a zvukového souboru vytvořit vysoce realistické video.
Nová doba influencerství?
Technologický gigant oznámil, že jeho nový AI model synchronizuje pohyby rtů a výrazy obličeje s mluveným zvukem a tím výrazně zvyšuje přirozenost generovaných videí. Jenže „líným“ influencerům tady pšenka asi moc nepokvete, neboť Microsoft upřesnil, že nemá v plánu uvolnit VASA-1 jako komerční produkt nebo API – místo toho se zaměřuje na využití této technologie pro vytváření virtuálních postav.
To ale nic nemění na tom, že s podobnými technologiemi si „zahrávají“ i ostatní a obecně to k „foto influencerům“ stejně směřuje, bez ohledu na VASA-1.
Opravdu stačí jediná fotka
VASA-1 pracuje s rozlišením 512 x 512 pixelů a dokáže generovat videa rychlostí až 40 snímků za sekundu, přičemž na začátku procesu generování videa byla zaznamenána minimální latence. Model umožňuje uživatelům nastavit různé aspekty videa, včetně směru pohledu hlavních očí, vzdálenosti hlavy a výrazu. Tyto funkce nabízejí uživatelům přesnou kontrolu nad vzhledem a dynamikou videa.
Podle Microsoftu model VASA-1 úspěšně generoval videa s použitím uměleckých fotografií, zpívaných zvukových klipů a řeči, která nebyla v angličtině, což ukazuje schopnost modelu učit se a přizpůsobovat se nad rámec standardního naprogramování. Na řadu ukázkových videí se můžete podívat tady.
Obří potenciál, ještě větší obavy
Navzdory slibnému využití a jakési demokratizaci influencerství vyvolává vývoj takto realistických videí generovaných umělou inteligencí přirozeně i obrovské obavy z možného zneužití, zejména při vytváření klamavého deepfake obsahu. O potenciálu zneužití něčeho takového nemusíme vůbec spekulovat, automaticky se nabízí prakticky cokoliv od politiků přes celebrity až třeba po kyberšikanu.
Microsoft si to naštěstí uvědomuje a tvrdí, že se zaměřuje na odpovědný vývoj a pozitivní dopady, jako je například vylepšení vzdělávacích nástrojů, zlepšení dostupnosti nebo poskytování terapeutické podpory.
Microsoft rovněž naznačil, že tato technologie by mohla přispět k pokroku v oblasti odhalování falešných videí. Ve výsledku si tak možná uděláte svého virtuálního influencera z fotky a špetky audia pomocí technologií někoho jiného, zatímco technologie Microsoftu bude dohlížet na to, abyste toho nezneužívali.