Nový jazykový model Sora od OpenAI umí vytvářet videa na přání

Zvládne generovat velice působivé záběry s délkou až 60 sekund

Zatím není určený široké veřejnosti, ale pouze hrstce akademiků

Loňský rok byl nepochybně rokem generativní umělé inteligence. Široké veřejnosti se dostaly do rukou nástroje, které dokáží nevídané věci – upravovat či vytvářet nové texty, generovat obrázky nebo vkládat lidem do úst slova, která nikdy neřekli. Závody pokročilých jazykových modelů neberou konce, přičemž ten nejnovější od OpenAI doslova bere dech. V článku si můžete prohlédnout celou řadu ukázek, se kterými se tvůrci pochlubili.

Video vygenerované umělou inteligencí

Za poslední rok se podařilo umělou inteligenci naučit vytvářet věrohodně vypadající obrázky, v nichž mnohdy nerozeznáte realitu od fikce – koneckonců můžete sami sebe prověřit v našem nedávném kvízu. Společnost OpenAI tento týden posunula hranice ještě o notný kus dále, její nový jazykový model Sora (v japonštině „nebe“) totiž neumí generovat pouze statické obrázky, ale rovnou celá videa.

Sora podle OpenAI umí vytvářet složité scény, jejichž součástí může být řada postav a předmětů. Sora dokáže porozumět i velmi podrobnému zadání, a protože ví, jak věcí existují v reálném světě, je schopná generovat komplexní scény. OpenAI jako ukázku zveřejnilo několik působivých videí vygenerovaných v rozlišení Full HD.

Zasněžené Tokio plné ruchu – kamera se pohybuje rušnou ulicí a sleduje několik lidí, jak si užívají zasněžené počasí a nakupují v okolních stáncích. Vzduchem létají sněhové vločky a okvětní lístky sakury.

Introducing Sora, our text-to-video model. Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf — OpenAI (@OpenAI) February 15, 2024

Filmový trailer znázorňující dobrodružství třicetiletého kosmonauta v červené pletené motocyklové helmě v solné poušti pod modrou oblohou natočený 35mm filmem s živými barvami a korálový útes vytvořený z papíru plný barevných ryb a mořských živočichů.

Prompt: “A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.” pic.twitter.com/gzEE8SwP81 — OpenAI (@OpenAI) February 15, 2024

Běh mamutů zabraný z nízké výšky znázorňující lehce se vlnící srst ve větru a zasněžené stromy a hory v pozadí.

Prompt: “Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance… pic.twitter.com/Um5CWI18nS — OpenAI (@OpenAI) February 15, 2024

Mimochodem, zcela identický prompt, který použili tvůrci k vytvoření videa s mamuty, jsme zadali do Midjourney a nechali si podle něj vytvořit náhledový obrázek k tomuto článku.

Na veřejnost se Sora dostane později

Sora není úplně prvním jazykovým modelem, který dokáže vytvářet z textových příkazů videa, je však ale nejdál – neskládá totiž dohromady snímek po snímku, ale tvoří rovnou celé až 60sekundové video najednou. Díky tomu zůstávají veškeré objekty ve videu stejné, i když se třeba na krátkou dobu vytratí ze záběru.

Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq — OpenAI (@OpenAI) February 15, 2024

Přestože videa působí na první pohled ohromně, při bližším prozkoumání je z nich patrné, že nebyly natočené v reálném světě. OpenAI také varuje, že Sora může mít problém s porozuměním příčiny a následku – například může vygenerovat video člověka, jak jí sušenku, na ní ale nemusí být vůbec viditelné stopy po kousnutí. To však v tuto chvíli není podstatné, koneckonců první vygenerované obrázky umělou inteligencí rovněž nevypadaly věrohodně.

Tip: další klipy vygenerované pomocí umělé inteligence si můžete prohlédnout přímo na stránkách projektu

Sora navíc není v tuto chvíli určena do rukou veřejnosti, zpřístupněna bude nejprve malé skupině akademiků a výzkumníků, jejichž úkolem bude posoudit, do jaké míry bude tento nástroj zneužitelný.