- Některé virtuální modelky a influencerky vydělávají i tisíce eur měsíčně
- V redakci jsme vyzkoušeli, jak složité je vytvořit si pomocí AI vlastní modelku
- Po počátečních problémech jsme se dostali na správnou cestu!
Zatímco obrázky generovanými pomoci umělé inteligence je internet doslova zaplavený, my dnes posuneme laťku poněkud výše a pokusíme se poprat s největšími výzvami spojenými s populárními obrázkovými AI generátory. Pokusíme se totiž o fotorealistické zachycení zcela smyšlené neexistující osoby.
Možná jste v loňském roce zaznamenali příběh krásné růžovlasé AI influencerky – ostatně i my jsme o ní informovali v tomto článku. Pokud vás ale tato aféra minula, udělám malé shrnutí. Tehdy šlo o modelku vytvořenou pomocí AI, vydělávající 3 000 až 10 000 eur měsíčně. Zatímco většina diskutujících se vyjadřovala k etice takového nápadu, my se dnes podíváme na metody, které by k vytvoření AI dívky mohly vést. A věřte mi, že to není až tak jednoduché…
Příběh Aitany López
Rubeñ Cruz, zakladatel španělské modelingové agentury „Clueless Agency“ v původním článku mluví o tom, že se rozhodl navrhnout AI influencerku poté, co při spolupráci se skutečnými influencery narážel na stále opakující se problémy. Modelku pojmenoval Aitana López a založil jí na Instagramu profil @fit_aitana, který do dnešního dne nasbíral téměř 280 000 sledujících.

Do okamžiku zveřejnění článku (kdy většina firem „hodila zpátečku“) si Aitana běžně účtovala 1 000 eur za zveřejněný reklamní post.
Každý, kdo kdy vytvořil nějaký AI obrázek, ví, že vygenerovat vhodnou grafiku je věc jedna, ale vytvořit další, se stejnou osobou, je opravdu těžký úkol. Pokud budeme chtít vytvořit si vlastní virtuální influencerku, budeme muset přijít na to, jak vytvářet konzistentně tutéž osobu v jiných situacích, jiném oblečení a pózách.
První pokus: Dall·E
Tisíce lidí, kteří dnes v Česku využívají placenou verzi ChatGPT-4, mají zároveň přístup k nástroji Dall·E (aktuálně ve verzi 3). Pojďme tedy zkusit tuto cestu.
Nejprve jsem do systému nahrál obrázek Aitany López. Chtěl jsem zjistit, jak moc se dokážu přiblížit původnímu obrázku. Požádal jsem ChatGPT, aby vložený obrázek detailně popsal. Pak jsem AI opakovaně požádal, aby na základě tohoto popisu vytvořila nový obrázek.

První dojem není špatný, ale při bližším pohledu vypadají obrázky trochu jako karikatura. Potvrzuje se, že Dall·E generuje postavy, které obsahuji velké množství digitálního postprocessingu a nadsázky.
Typický proces vytváření „kopie“ obrázku v Dall·E:
- nahrajte obrázek, který se vám líbí, a nechte jej Dall·E detailně popsat
- na základě vytvořeného popisu vytvořte prompt (příkaz) a vygenerujte podobný obrázek.
Bezplatnou alternativou k placenému ChatGPT-4 je MS Designer využívající stejný engine. Zde přejděte na Image Creator a klikněte na „Generate“. Níže jsem použil následující prompt:
Fotorealisticky ztvárněna slovanská dívka s jemnými rysy. Má jasně hnědé oči a její pleť je hladká a opálená. Vlnité vlasy jsou dlouhé, světle hnědé, s rozjasněnými prameny. Nosí top s tenkými ramínky a vyzařuje zdravý, přirozený atletický vzhled.

I přes svou popularitu se Dall·E k vytváření série fotorealistických záběrů stejné osoby příliš nehodí. OpenAI je společnost, která své vizuální modely osob „ladí“ tak dlouho, že nakonec všechny připomínají Barbie a Keny. Pro ilustrace je to dostačující, jen cesta k virtuálním influencerům tím směrem nevede.
Druhý pokus: Midjourney
Midjourney je umělá inteligence navržená výlučně pro generování obrázků, na rozdíl od textově obrázkových multimodálních modelů. Systém Midjourney navíc neprochází silným cenzurním „obrušováním hran“, jak se to děje u ChatGPT a Dall·E.
Už první obrázky (prompt: Woman running in urban setting, long straight dark hair, wearing black sportswear. Graffiti walls in the background) nám naznačují, že tady jsme správně.

Nevýhodou (ale i výhodou) Midjourney je, že se jedná o placený nástroj. Základní plán je omezen na zhruba 200 obrázků měsíčně a stojí 10 dolarů (cca 230 Kč).
Jak na Midjourney?
Ke komunikaci se systémem Midjourney budete potřebovat účet na Discordu a Discord aplikaci (existuje pro desktop, mobil i ve webové verzi). Po zaplacení předplatného získáte přístup k „Midjourney botovi“. Pak si již můžete vytvořit vlastní privátní Discord server.

V Discord serveru Midjourney (logo s lodičkou) kliknete na Bota Midjourney a zvolíte „Přidat aplikaci“ (po autorizaci dojde k začlenění Midjourney bota na váš server). Od této chvíle budete moci používat příkazy jako /imagine, kterým se zahajuje generování obrázků.
Adamovo žebro
V Bibli stojí, že Bůh stvořil ženu z Adamova žebra, my budeme potřebovat pouze vizuální popis naší AI influencerky. V tomto případě ji vytvoříme jako 25letou dívku se slovanskými rysy s dlouhými, světle hnědými vlasy (young Slavic woman, long straight light brown hair) a pracovně si ji nazvěme Vijana Vucić (toto jméno je zcela smyšlené).
Dobře, nyní zkusme vygenerovat základní model virtuální Vijany – z prvních návrhů vybereme jeden záběr a tento vzor budeme používat jako vzor pro další generované záběry.
V Discordu zadáme příkaz, kterým spustíme generování prvotního seedu. Popis scény v angličtině, tzv. prompt, je v hranatých závorkách:
/imagine [Cinematic scene. Full-body shot. Young Slavic woman running on the road. Long straight light brown hair. Sportswear. Captured by Canon EOS-1D X Mark II –ar 9:16 –style raw –stylize 1000 –v 6]
Co znamenají jednotlivá zadání?
- Canon EOS-1D X Mark II – je typ profesionálního fotoaparátu
- –ar 6:16 – je požadovaný poměr stran výsledného obrázku
- –style raw – umožní dosažení detailnějšího zobrazení
- –stylize 1000 – maximální hodnota stylize popustí systému fantazii
- –V 6.0 – je nejnovější, šestá verze modelu
Super, máme tu pár vhodných snímků! Otevírám je v prohlížeči a dívám se, jestli mě některý z nich zaujme.

S Instagramem je to tak, že nikdy nevíte, který „typ“ modelu se uchytí – namístě by byl důkladný průzkum aktuálních trendů. My to ale děláme jen pro zábavu – můžeme si zvolit cokoliv, co nás ťukne do nosu.
Líbí se mi verze 2 a 3, nakonec vybírám obrázek číslo 3. Zvětšení námi vybraného snímku (upscaling) dosáhneme tak, že stiskneme „U3“.

Ze zvětšeného záběru si uděláme náš vzor/výchozí obrázek. Můžeme ho používat jako součást budoucích promptů – pro dosažení vyrovnaného, konzistentního vzhledu.

Tip: profesionální by bylo vytvořit na začátku celou sadu vzorových „avatarů“ identické AI modelky v různých pózách a stylech – sportovním, denním, formálním, domácím – a používat je adekvátně k požadované situaci.
A jak dostat vzorový obrázek do promptu? Jako odkaz (link). Nejprve vložíte na Discord kanál vybraný vzorový obrázek, přejdete na „kopírovat odkaz“ a tento odkaz vložíte na začátek promptu. Například:
/imagine [https://s.mj.run/lzxKVO9y0ps Realistic picture of young Slavic woman looking to the right. Long light brown hair. Black top. Captured by Canon EOS-1D X Mark II –ar 9:16 –style raw –v 6.0]

Výstup Midjourney počítá jak s vizuální šablonou, tak i s textovým promptem. Konečný výsledek ale závisí vždy na náhodě, někdy jsou osoby prakticky identické, někdy se od sebe liší. Náhodnost je charakteristický rys všech modelů umělé inteligence. Z předložených obrázků je třeba vybrat vždy ten nejlepší, někdy je nutné vše zopakovat znovu.

Jaké obrázky generovat?
Pokud vám docházejí nápady, můžete se zeptat ChatGPT. Zde jsem napsal: „Navrhni mi anglicky 20 nápadů na snímky modelky na Instagramu.“ Ty je pak možné použít ve vašich promptech pro Midjourney.
Jdeme do finále
Možná jste si všimli, že Vijana v této fázi stále nepůsobí dokonale věrohodně. Clueless Agency evidentně použila ještě několik dalších triků.
Prvním je vytvoření několika variant výchozího modelu, jinak se Midjourney snaží křečovitě držet výchozího oblečení. Někdy jen stačí v Malování na původní vzor neuměle dokreslit to, co potřebujete (například černý top), uložit… a použít v promptu. Midjourney si s tím bez problémů poradí.
Závěrem
Aby naše Vijana @vijanavucic na Instagramu udělala díru do světa, je to docela málo. V naší influencerské abecedě jsme řekli pouhé „a“ a do „z“ toho chybí strašně moc. Zkušené oko například odhalí, že na záběrech chybí věrohodné pozadí. Současná AI neumí například vytvořit kvalitní a věrohodný obrázek tak složitého exteriéru, jakým je hala letiště. Virtuální influenceři se proto pracně graficky vkládají do reálných záběrů – například do posilovny, letištní haly, města, parku atd. Dalším účinným trikem je přidávání pih ve Photoshopu, simulace struktury a nedokonalosti pleti a další úpravy, které výsledný snímek více přiblíží realitě.

Na Instagramu platí, že vyhrává ten, kdo vyplní celý kompletní to-do list, včetně každodenního marketingu a optimalizace. Přesto to pro mě byla zajímavá zkušenost a skvělá zábava, přičemž z desetidolarového kreditu mi po těchto několika pokusech stále zůstává 75 % výpočetní kapacity (tj. minimálně 145 fotografií). To mi dává prostor pro další experimenty.