Google zase navařil. Multimediální AI umí neuvěřitelným způsobem propojit zvuk a video

Glóbus ve stylu Googlu (ilustrační obrázek)

Google rozšířil Vertex AI o hudební model Lyria, čímž celý Vertex povýšil na komplexní multimediální nástroj pokrývající tvorbu videa, obrazu, řeči i hudby v jednom prostředí
Nové verze a editační funkce pro modely Veo 2 (video), Chirp 3 (zvuk)a Imagen 3 (obraz)
Google pořád klade důraz na bezpečnost pomocí filtrů a vodoznaků SynthID, zaručuje nepoužívání dat zákazníků pro trénink

Google výrazně rozšířil svou platformu umělé inteligence Vertex AI, do které nově zařadil model Lyria schopný generovat hudbu na základě textového popisu. Tímto krokem Vertex AI pokrývá všechny klíčové mediální modality, tedy video, obraz, řeč i hudbu, a stává se tak komplexním nástrojem pro tvorbu multimediálního obsahu.

Veo, Chirp, Lyria a Imagen

Google představil i významná vylepšení a nové editační funkce pro stávající modely určené k tvorbě videa (Veo 2), zvuku (Chirp 3) a obrazu (Imagen 3). Všechny novinky podle něj kladou důraz na bezpečnost, zodpovědné používání AI a nabízí podnikům efektivnější nástroje pro tvorbu obsahu, včetně právní ochrany pro generované výstupy.

Začlenění modelu Lyria, který je nyní dostupný v testovacím režimu Preview pro předem schválené uživatele, představuje dost zásadní krok k unifikaci platformy. Uživatelé tak získávají možnost vytvářet kompletní projekty, od počátečního textového konceptu přes vizuální složku až po finální video s hudebním doprovodem a mluveným slovem, vše v rámci jednoho prostředí Vertex AI. Pro kreativní tvůrce videí tak půjde očividně o dost zásadní kombinaci služeb, které mohou být dohromady docela bezkonkurenční.

Další verze, další možnosti

Vedle hudebního modelu Lyria prošly modernizací i další užitečné nástroje. Pokročilý model pro generování videa Veo 2 získal nové editační možnosti a nástroje pro detailní ovládání kamery. Nové funkce (rovněž v režimu Preview) mají uživatelům, alespoň podle Googlu, poskytnout větší tvůrčí kontrolu, zrychlit pracovní postupy, zlepšit kvalitu videí a snížit náklady na postprodukci.

Konkrétně řečeno umožňují například odstraňování nežádoucích objektů z videa (inpainting), rozšiřování záběru (outpainting) pro adaptaci na různé formáty, aplikaci filmových technik jako jsou specifické pohyby kamery, nebo plynulé propojování dvou existujících videosekvencí (interpolace).

Co se zvuku týče, máme tady nový model Chirp 3 s funkcí Instant Custom Voice, která dokáže vytvořit syntetický hlas na základě pouhých deseti sekund zvukového záznamu. To otevírá možnosti pro personalizaci v zákaznických centrech nebo tvorbu unikátního hlasu značky, nebo si jednoduše můžete naklonovat svůj hlas a například si jím „dabovat“ obsah na sociální sítě.

Další novinkou je vylepšený přepis řeči se schopností rozlišovat jednotlivé mluvčí v nahrávce, což usnadňuje analýzu záznamů schůzek či podcastů. Obě tyto funkce jsou zatím dostupné v Preview po schválení. Ale pokud používáte aplikaci Diktafon na Androidu, víte, že Google tam už například ono rozpoznávání řečníků má docela dlouho.

Nezahálí obrázky ani bezpečnost

Nástroj pro generování obrázků Imagen 3 se dočkal vylepšení kvality generovaných výstupů. Ty by měly být nově podstatně detailnější, s lepším nasvícením a menším počtem vizuálních chyb. Zdokonalené by měly být také editační schopnosti, zejména funkce pro rekonstrukci chybějících částí obrazu (inpainting) a přirozenější odstraňování nežádoucích objektů.

Google při představování novinek také tradičně zdůraznil aspekty bezpečnosti a zodpovědnosti. Všechny zmíněné modely využívají bezpečnostní filtry a technologii SynthID pro vkládání neviditelných digitálních vodoznaků do generovaného obsahu – to má pomoci v boji proti dezinformacím. Google též tvrdí, že data zákazníků nijak nepoužívá pro trénování modelů, a nabízí právní ochranu pro případy nároků třetích stran týkajících se autorských práv k obsahu vytvořenému pomocí těchto nástrojů.

Vstoupit do diskuze

Zdroj článku

Autor článku

Adam Homola

Nové technologie mě fascinují už od útlého věku. K dlouhodobému zájmu o hry a herní průmysl se mi postupem času přirozeně přidal i hardware, software, internetové služby a od roku 2022 i umělá inteligence.