TOPlist

Microsoft má neuvěřitelnou AI: fotky mění na realistická videa a je tak dobrá, že ji nemůže zveřejnit

Dívka s blonďatými vlasy (ilustrační obrázek)
  • Microsoft představil umělou inteligenci, která je tak dobrá, že ji nechce poskytnout veřejnosti
  • Stačit vám bude jediná fotka v kombinaci s kouskem audia a máte realistickou „mluvící hlavu“
  • Připravme se na totální záplavu obsahu, ale také na potenciální problémy s deepfake videi

Microsoft vyvinul nový model umělé inteligence VASA-1, který dokáže z jediné fotografie a zvukového souboru vytvořit vysoce realistické video.

Nová doba influencerství?

Technologický gigant oznámil, že jeho nový AI model synchronizuje pohyby rtů a výrazy obličeje s mluveným zvukem a tím výrazně zvyšuje přirozenost generovaných videí. Jenže „líným“ influencerům tady pšenka asi moc nepokvete, neboť Microsoft upřesnil, že nemá v plánu uvolnit VASA-1 jako komerční produkt nebo API – místo toho se zaměřuje na využití této technologie pro vytváření virtuálních postav.

Microsoft Vasa je neskutečná umělá inteligence, fotku promění v realistické video
Microsoft Vasa je neskutečná umělá inteligence, fotku promění v realistické video

To ale nic nemění na tom, že s podobnými technologiemi si „zahrávají“ i ostatní a obecně to k „foto influencerům“ stejně směřuje, bez ohledu na VASA-1.

Opravdu stačí jediná fotka

VASA-1 pracuje s rozlišením 512 x 512 pixelů a dokáže generovat videa rychlostí až 40 snímků za sekundu, přičemž na začátku procesu generování videa byla zaznamenána minimální latence. Model umožňuje uživatelům nastavit různé aspekty videa, včetně směru pohledu hlavních očí, vzdálenosti hlavy a výrazu. Tyto funkce nabízejí uživatelům přesnou kontrolu nad vzhledem a dynamikou videa.

Podle Microsoftu model VASA-1 úspěšně generoval videa s použitím uměleckých fotografií, zpívaných zvukových klipů a řeči, která nebyla v angličtině, což ukazuje schopnost modelu učit se a přizpůsobovat se nad rámec standardního naprogramování. Na řadu ukázkových videí se můžete podívat tady.

Obří potenciál, ještě větší obavy

Navzdory slibnému využití a jakési demokratizaci influencerství vyvolává vývoj takto realistických videí generovaných umělou inteligencí přirozeně i obrovské obavy z možného zneužití, zejména při vytváření klamavého deepfake obsahu. O potenciálu zneužití něčeho takového nemusíme vůbec spekulovat, automaticky se nabízí prakticky cokoliv od politiků přes celebrity až třeba po kyberšikanu.

Microsoft si to naštěstí uvědomuje a tvrdí, že se zaměřuje na odpovědný vývoj a pozitivní dopady, jako je například vylepšení vzdělávacích nástrojů, zlepšení dostupnosti nebo poskytování terapeutické podpory.

Microsoft rovněž naznačil, že tato technologie by mohla přispět k pokroku v oblasti odhalování falešných videí. Ve výsledku si tak možná uděláte svého virtuálního influencera z fotky a špetky audia pomocí technologií někoho jiného, zatímco technologie Microsoftu bude dohlížet na to, abyste toho nezneužívali.

Autor článku Adam Homola
Adam Homola
Nové technologie mě fascinují už od útlého věku. K dlouhodobému zájmu o hry a herní průmysl se mi postupem času přirozeně přidal i hardware, software, internetové služby a od roku 2022 i umělá inteligence.

Kapitoly článku