- Model Veo z dílny Googlu chce konkurovat Soře od OpenAI
- Několik prvních ukázek, které sdílel samotný gigant, vypadá poměrně působivě
Generativní umělá inteligence se za poslední měsíce dramaticky zlepšuje. Od představení ChatGPT z dílny OpenAI chce prakticky každá větší technologická firma mít svou vlastní AI, přičemž ostatní společnosti alespoň vylepšují své produkty a služby natolik, aby se mohly pyšnit oněmi dvěma kouzelnými písmeny.
Sora od OpenAI má novou konkurenci
Největší posun je vidět v oblasti generování videa – zatímco na začátku měla AI problémy s generováním i jednodušších zadání (o lidech pojídajících špagety nemluvě), nyní už modely zvládají produkovat poměrně solidní záběry, které si při letmém pohledu snadno spletete s těmi skutečnými.
Velký pokrok na tomto poli zaznamenala společnost OpenAI, která vydala svůj model s názvem Sora. Výtvory tohoto modelu nejednomu člověku vyrazily dech a obzvláště letecké záběry měst jsou oproti skutečnosti jen obtížně rozeznatelné. Pozadu nechtěl zůstat ani Google, který na své vývojářské konferenci I/O představil konkurenční model s názvem Veo. Ten vytváří vysoce kvalitní videa v rozlišení 1080p, která mohou trvat déle než minutu a mohou být v široké škále filmových a vizuálních stylů.
Veo zachycuje nuance a tón zadání a poskytuje vysokou úroveň tvůrčí kontroly nad generovaným obsahem. Rozumí zadání pro různé druhy filmových efektů, jako jsou časosběrná videa nebo letecké záběry krajiny. Veo staví na jiných generativních modelech videa, včetně Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet a Lumiere, přičemž kombinuje nové techniky pro zlepšení kvality a výstupního rozlišení.
S pomocí Veo Google vylepšil techniky, jak se model učí chápat, co je ve videu, vykresluje obrázky ve vysokém rozlišení, simuluje fyziku našeho světa apod. Tyto poznatky mají za úkol podpořit pokrok v oblasti výzkumu umělé inteligence a umožní lidem vytvářet ještě užitečnější produkty, které jim pomáhají komunikovat novými způsoby.
V nadcházejících týdnech budou některé z těchto funkcí dostupné vybraným tvůrcům prostřednictvím nového experimentálního nástroje VideoFX na labs.google. Na čekací listinu se můžete zapsat již nyní i vy.
Pokud ještě nemáte přístup k modelu Veo od Googlu, či na něj nechcete čekat a raději se podíváte na nějaké výtvory již nyní, gigant z Mountain View nechal vygenerovat několik příkladů, které jsou poměrně působivé. Najdete mezi nimi například kovboje projíždějícího se krajinou na koni, průjezd ulicí na americkém předměstí, grilování špízů, polární záři, letecký záběr na maják, detailní pohled na medúzy, letecké záběry Havajských ostrovů, vysokohorské jezero nebo utíkajícího psa.
Osobně vnímám výsledky vygenerované skrze Veo lehce rozporuplně. Na jednu stranu se v příkladech od Googlu nacházejí poměrně zajímavé záběry, které se dají velmi snadno splést s realitou, na tu druhou ale Google sdílel i videa, na kterých na první pohled poznáte, že se nejedná o skutečnost. Otázkou zůstává, za jak dlouho se Googlu podaří model vytrénovat natolik, aby zvládal různá zadání zpracovat tak dobře, aby je nebylo snadné rozpoznat od skutečných záběrů.
Google nicméně nechce běžného člověka mást a nechat internet zaplavit falešnými záběry, které mohou lidem způsobit problémy. I proto pracují vývojáři z Mountain View na nástrojích, jako je SynthID, který dokáže do obrázků, zvuku, textu a videa generovaných umělou inteligencí vkládat nepostřehnutelné digitální vodoznaky, přičemž všechna videa generovaná Veo na VideoFX jsou opatřena vodoznakem SynthID. Jak to nakonec bude vypadat v praxi a jestli se tyto vodoznaky nebudou dát obejít, ukáže až čas, nicméně se ze strany technologického giganta jedná o zodpovědný přístup.
Jak se vám videa vygenerovaná modelem Veo líbí? Dejte nám vědět do komentářů.