Ovládněte Midjourney! Umělá inteligence vám nakreslí, cokoliv si zamanete

midjourney AI umela inteligence

Slyšeli jste už o službě Midjourney? Jde o další ze stále se rozrůstající řady AI nástrojů, které umožňují běžným lidem zkoušet, co už dnešní umělá inteligence dokáže. Jedněmi z těch nejpopulárnějších jsou právě generátory obrázků, které graficky interpretují textové zadání.

Možná nejznámější projekt této kategorie se jmenuje DALL-E od OpenAI, ovšem podle nás není nejzajímavější. Za ten považujeme relativně méně známý Midjourney, za nimž stojí pouze 11členný tým. Přesto však nedávno rozvířil vášnivé debaty o hranicích AI, když jeho výtvor přihlášený do umělecké soutěže porazil díla lidských tvůrců.

Vstříc fotorealismu

Ve starších článcích srovnávajících Midjourney právě třeba s DALL-E či jinými se lze dočíst, že Midjourney exceluje v tvorbě stylizovaných uměleckých obrázků, zatímco na fotorealistické snímky jsou lepší jiné služby. To však přestalo platit nejpozději v říjnu, kdy byla – zatím stále v testovacím režimu – spuštěna čtvrtá a přepracovaná verze. Ta s sebou prozatím přináší některá omezení, o nichž bude řeč později, avšak výměnou za to nabízí dosud nevídané schopnosti fotorealistického generování.

smutne deti midjourney
Toto není reportážní snímek z válečné oblasti, ale produkt umělé inteligence instruované k vytvoření takto působícího snímku. Napovídají tomu snad jen trochu zvláštní dlaně chlapce. Použité instrukce: sad children in a war torn city, depressive, moody, photojournalism style, dslr style, depth of field, ultra realistic –v 4

Skvělým příkladem budiž série „fotografií“ vytvořených fotografem a umělcem Mariem Cavallim. Ten čistě jen metodou pokus-omyl a vyzkoušením vhodných parametrů dokázal z AI vykřesat soubor velmi realisticky vypadajících portrétů zachycujících lid viktoriánské Anglie. Obrázky nejsou už nijak dále upravovány a pocházejí přímo z generátoru. Jak však jmenovaný uvedl pro web PetaPixel.com, přesto se prý setkal s obviněními, že jde o reálné historické snímky, nebo jiným způsobem podvržená díla.

Na uvěřitelnosti jeho série dodává i zvolení parametrů, jimiž generátor přiměl k jejímu vytvoření. Výsledky působí realisticky nejen po stránce obsahové, ale také z hlediska svého stylu. Lidé ve viktoriánském oblečení by si totiž na moderně vypadající fotografii samozřejmě nikdo s archivním snímkem nespletl. Když však umělá inteligence dokáže imitovat i fotografické techniky používané v té době, je situace jiná.

Jak si Midjourney vyzkoušet

Jak bylo řečeno v samém úvodu, Midjourney si může vyzkoušet každý. Možnosti tohoto AI generátoru jsou tak široké, že není možné je nějak uceleně obsáhnout v rámci článku. Navedeme vás však na to, jak se službou pracovat.

midjourney generovani nahledoveho obrazku
Jak jsme vytvářeli náhledový obrázek k tomuto článku? Zadání bylo až triviálně jednoduché, výsledek překvapivě dobrý. Pro vygenerování jsme použili následující zadání: artificial intelligence in universe –v 4 –ar 3:2. Následně si z 2. obrázku (V2) nechali vytvořit další 4 varianty, ze kterých jsme vybrali tu finální.

V první řadě budete potřebovat účet na Discordu. Ačkoliv to může znít zvláštně, služba samotná nemá žádné grafické rozhraní a její web slouží ke správě uživatelského účtu. Samotné generování probíhá právě na platformě Discord.

midjourney frontpage
Úvodní stránka Midjourney nepůsobí úplně přátelsky (a ještě je animovaná), avšak potřebujete ji jen k jednomu kliknutí

Pokud už máte potřebný účet, přejděte na web Midjourney.com a klikněte na tlačítko Join the Beta. To vás přesměruje na pozvánku do Discord serveru, kterou přijměte. Ocitnete se na úvodní obrazovce, kde si můžete přečíst krátké informace, ze kterých se toho ale zas tolik nedozvíte. Podstatné je hlavně upozornění, že zdarma má každý uživatel k dispozici přibližně 25 výtvorů (reálně jde o procesorový čas). Po jejich vyčerpání si buď budete muset založit nový účet, nebo si zaplatit předplatné, které začíná na 10 dolarech (asi 230 korunách) za měsíc. Za ty dostanete přibližně 200 obrázků. Pro neomezené využití pak nutno platit trojnásobek.

To ale teď nemusíte řešit. Pro vyzkoušení služby stačí přejít do některé z nováčkovských místností. Ty najdete v levém panelu označené ve formátů #newbies-číslo. Je úplně jedno, kterou si vyberete. Pro přehlednost ale asi bude ideální se podívat, která je zrovna méně aktivní. Pokud si aktivujete předplatné, můžete ke generování používat místnosti #general-číslo. Takto generované obrázky vidí všichni uživatelé, kteří jsou na Discordu.

Začínáme s příkazy

Po zvolení nováčkovské místnosti vidíte klasický chat, v němž se objevují výtvory ostatních. Na jednu stranu je to praktické, protože se můžete inspirovat jejich parametry a vidět, jak které fungují. Na druhou to ale může být poněkud matoucí, protože generování chvíli trvá a vaše zpráva, v níž se průběžně obrázek tvoří, může mezitím odjet kamsi do hloubi chatu. Naštěstí nejde o nic tak hrozného, protože bot vás po vytvoření finálního snímku označí, takže svou zprávu snadno najdete. Pokud chcete grafiku generovat privátně, lze příkazy psát do soukromé zprávy botovi s označením Midjourney Bot.

steampunk staromak midjourney
Steampunkový Staromák. Umělá inteligence dokáže dobře vystihnout hlavní aspekty místa, ale v reprodukci konkrétních objektů úplně nevyniká. O to povedenější je ale atmosféra ponurého večerního města.

Každé generování začíná napsáním příkazu /imagine. Ten vám ostatně začne nabízet našeptávač v textovém okně, odkud ho můžete vybrat. Posléze se v textovém poli za /imagine objeví výrazné prompt a jakési subpole, v němž už můžete psát jednotlivé příkazy. Ty lze rozdělit na dvě kategorie – příkazy zadávané víceméně běžnou řečí v prakticky neomezeném rozsahu a konkrétní parametry zadávané na konec textu ve formátu –parametr.

Základní popis

Nejprve je třeba (v angličtině) napsat vaši základní představu o tom, co na obrázku má být. Může jít o zcela jednoduchý popis, jako třeba portrét dívky, i komplexní instrukce ve stylu temný les s hustým porostem a jedovatými houbami, v pozadí jelen a temné nebe. Tuto část můžete ukončit tečkou nebo čárkou, to zřejmě nehraje roli. Pokračuje se potom nepovinně zadáváním dalších parametrů. Napsat můžete prakticky cokoliv. Pokud ale chcete mít určitý přehled o tom, co lze tak zhruba od jakého typu parametru čekat, doporučujeme se podívat na praktickou neoficiální příručku. V ní najdete i grafické příklady jednotlivých parametrů a jejich kombinací, byť je nutno brát v úvahu, že každé generování bude unikátní.

Běžně se tedy zadává třeba studio lighting (tedy styl osvětlení scény), photo realism (tedy že má být snímek fotorealistický) nebo třeba i abstraktnější věci jako moody (náladový). Fantazii se meze nekladou, lze používat i různé tvary (realism/realistic), možné je zadávat víceslovné i jednoslovné parametry (colorful style/colorful). Jak se jednotlivé variace chovají, zjistíte např. ve zmiňované příručce. Z vlastní zkušenosti však můžeme říct, že to stejně není zcela předvídatelné.

Pokud máte v hlavě nějakou úplně konkrétní představu, jako třeba autor viktoriánských pseudosnímků zmiňovaný v úvodu, můžete zkusit i velmi specifické zadání. On použil například 10mm lens (imitace objektivu, jímž by byl snímek pořízen) či wet plate collodion photography (fotografická technika používaná v 19. století). My jsme celkem s úspěchem vyzkoušeli zase třeba photo journalism style (imitaci reportážní fotografie) a dslr style (ze zrcadlovky).

viktoriansky elon musk midjourney
Tímto obrázkem jsme se pokusili imitovat styl vytvořený Cavallim, ovšem s tím rozdílem, že muž na snímku by měl být Elon Musk za mlada. Použité instrukce: portrait of young elon musk in victorian london, wet plate collodion photography, 10mm lens, sharp focus, ultra detailed –v 4

Experimentovat lze v této části příkazu opravdu s ledasčím, od konkrétních technických věcí týkajících se clony, hloubky ostrosti a typu objektivu po abstraktnější pojmy vztahující se k atmosféře výsledného snímku, tedy jeho barevnosti a podobně. Pokud chcete imitovat třeba styl nějakého známého malíře, není problém v této fázi uvést jeho jméno.

Specifické parametry

Až si dostatečně vyhrajete s „volnou“ částí parametrů, lze ještě uvést nějaké specifické předdefinované. Zde se však dostáváme k naznačenému problému, že čtvrtá verze generátoru je zatím v testovacím režimu a není tak zcela kompatibilní se všemi parametry. V závislosti na tom, co od generátoru chcete, budete tedy muset zřejmě zvažovat, jakou verzi použít. Preferujete-li tu čtvrtou, pak každopádně na konec vašich instrukcí připište –v 4.

midjourney portret wednesday addams 01
Takto vypadají portréty Wednesday Addams v třetí generaci Midjourney AI…

Pokud zůstanete u třetí výchozí verze, netřeba ji specifikovat. S ní jsou kompatibilní některé další užitečné parametry, jako třeba poměr stran. Když tedy nakonec přidáte –ar 16:9, bude váš výsledný snímek v širokoúhlém poměru stran. Dalším zajímavým parametrem pro třetí verzi je –testp, což je přepínač, který použije režim fotorealismu. Se čtvrtou verzí kompatibilní není, což však na rozdíl od poměru stran nevadí, neboť čtvrtá verze sama o sobě tíhne k fotorealistickému generování. Co naopak s oběma verzemi kompatibilní je a osvědčilo se nám, je –upbeta. Jde o přepínač pro testovací verzi upscalovacího softwaru, který snímek zvětší do vyššího rozlišení s více detaily.

midjourney portret wednesday addams 02
…a takto ve čtvrté. Jak vidno, v oblasti fotorealistického generování došlo k poměrně zásadnímu pokroku.

Přehled těchto „pevných“ parametrů najdete pro změnu v oficiální dokumentaci Midjourney. Ta bohužel není přizpůsobena čtvrté verzi, a proto s ní ne vše bude fungovat. Nicméně není se čeho bát – Discord bot vás prostě v nejhorším upozorní, že zvolená kombinace parametrů není kompatibilní.

Výběr nejlepší varianty

Jakmile bude váš textový příkaz hotov, odešlete ho jako klasickou zprávu pomocí enteru. Ihned vám bot odpoví zprávou, v níž můžete vidět průběh vzniku vašeho snímku, resp. snímků. Generování náhledu trvá přibližně minutu. Pokud se budeme bavit o čtvrté verzi Midjourney, v dalším kroku vám bot do chatu pošle zprávu s čtveřicí finálních výtvorů. Ty si můžete normálně rozkliknout jako jakýkoliv jiný obrázek a prohlédnout si je.

midjourney discord prubeh 03
Několik variant TGM vedoucího do boje. Takto je nabízí chatbot v Discordu. Pomocí tlačítka si pak stačí vybrat vámi preferovaný ke zvětšení.

Pod mozaikou čtyř obrázků dále vidíte několik tlačítek ve formátu U1-4 a V1-4. Tlačítka U slouží k vygenerování jedné z variant ve vyšším rozlišení (Upscale), zatímco tlačítka V vám na základě dané varianty vygenerují další čtyři jí podobné variace. Snímky jsou číslovány zleva doprava. Pokud byste nepoužívali čtvrtou verzi Midjourney, je možné, že vám bude nabídnuta pouze jedna či dvě varianty. Další postup je nicméně obdobný, pomocí tlačítka lze buď upscalovat, nebo vytvořit jinou variaci.

tgm bitva midjourney
První československý prezident vede do boje. V zadání bylo explicitně napsáno, že má být na pozadí česká vlajka. V jedné variantě byla na pozadí britská a v ostatních jakási neidentifikovatelná bílo-červená, což si možná lze vysvětlit jako historické vlajky českých zemí. Vlajky ale trochu paradoxně služba nezvládla správně replikovat ani v jiných případech.

Po kliknutí na upscale se vám každopádně vygeneruje snímek ve vyšší kvalitě a pošle se do chatu stejným způsobem, jako ve všech předchozích krocích. Snímek si můžete stáhnout buď přímo z Discordu, nebo ho najdete i v galerii ve vašem profilu na webu Midjourney.com, kam se přihlásíte pomocí Discord účtu. Je dobré vědět, že váš profil na Midjourney je veřejný, stejně jako všechny obrázky, které vygenerujete. Dostat se k nim tedy může kdokoliv. A platí to i pro grafiku vygenerovanou skrze soukromé zprávy s Midjourney Botem. V případě, že byste chtěli obrázky generovat, aniž by je někdo veřejně viděl, je potřeba uhradit měsíční Privacy poplatek ve výši 20 dolarů (460 Kč).

Speciální varianty použití s existujícími obrázky

Midjourney umí pracovat i s existujícími snímky, čemuž jsme se v textu zatím elegantně vyhnuli, protože to úplně nezapadá do logiky běžného použití. Možnosti použití se zahrnutím existujícího obrázku jsou dvě. První z nich je, že postupujete úplně stejně jako v procesu popsaném výše, pouze hned za /imagine prompt vložíte přímou URL adresu na konkrétní obrázek. Midjourney jej poté použije jako určitou inspiraci a zkombinuje ho s vašimi textovými parametry.

karluv most midjourney nahledy
Karlův most za bouřky na čtyři podobné způsoby. To proto, že v tomto případě AI brala v úvahu podkladový snímek, který měl podobnou kompozici.

Nejde vyloženě o modifikaci existujícího obrázku, což je záměr daný snahou nedostat se do křížku s legislativou. Tento režim jsme vyzkoušeli se snímkem Karlova mostu v letním dni a textovými instrukcemi žádajícími Karlův most v bouři s temným nebem a obklopený vlnami. Výsledkem byla čtveřice snímků víceméně dodržujících kompozici původní fotky a „bouřkových úprav“. Jak je ale patrné, jde skutečně jen o inspiraci – jednotlivé varianty se více či méně od vzorové fotky odlišují nejen počasím.

babis opice midjourne reflex
Jeden z prezidentských kandidátů po remixu s opicí, dílo z pera redaktorů Reflexu. Uhádnete, o koho jde?

Druhou variantou použití Midjourney s existujícími obrázky je pak režim remix. K němu se dostanete tak, že zadáte /settings. Zde můžete mimochodem „napevno“ přepnout některé věci, třeba verzi generátoru, ale nyní zamiřte do spodního řádku a klikněte na Remix mode. Následně už opět zadáte /imagine a dvě URL adresy zdrojových obrázků. Umělá inteligence se je pak následně pokusí spojit do jednoho tak, že z každého použije polovinu prvků. Časopis Reflex to nedávno vyzkoušel s prezidentskými kandidáty a zvířaty.

Tip: Pokud vás Midjourney oslovilo, doporučujeme na Instagramu sledovat účet @ai.generat3d, kde se každý den objevují velice zajímavé, AI generované obrázky.

Fantazii se meze nekladou

S Midjourney si v redakci hrajeme prakticky každý den a neustále sledujeme, co nového autoři připravili, nebo teprve chystají. Vygenerovali jsme už stovky obrázků a do galerie níže jsme pro vás vybrali ty nejzajímavější. Do komentářů nám můžete dát vědět, co na ně říkáte.

Závěr

Midjourney je ve své poslední verzi bezpochyby jedním z nejpůsobivějších AI generátorů, které jsme měli možnost vidět. Ostatně i my v redakci jej občas používáme pro generování náhledových obrázků pro články (několik ukázek najdete v galerii níže). Oproti jiným se dle našeho názoru dopouští méně zásadních chyb a s vhodnou kombinací parametrů dokáže vytvořit opravdu překvapivě dobré výsledky.

To je však do jisté míry i jeho slabost, neboť možnosti kombinací parametrů jsou natolik široké, že i drobné změny ve formulaci někdy produkují výrazně odlišné výsledky. Narazili jsme pochopitelně i na zjevné chyby, jako jsou třeba neodpovídající relativní velikosti objektů, chybějící nohy u zvířat či zdeformované obličeje či končetiny lidských bytostí, ale ve srovnání se známým DALL-E je jich subjektivně výrazně méně.

divoka zvirata praha midjourney
Na příkladu divokých zvířat v opuštěné covidové Praze, jak znělo zadání, lze vidět, že občas výsledek úplně realisticky nepůsobí

Velmi zajímavý je zejména rychlý progres, který tento generátor prodělává. Rozdíl mezi třetí a čtvrtou verzí je v některých případech propastný, přitom je dělí jen několik měsíců. Můžeme se tak těšit na to (anebo děsit?), o kolik pokročilejší budou podobné služby za pár let. V budoucnu se navíc s využitím umělé inteligence počítá nejen pro generování obrázků, ale i vytváření filmů.

Autor článku
Tomáš Krompolc
Fanoušek Androidu, Googlu a moderních technologií. Rád si poslechne tvrdší hudbu a mezi jeho nejoblíbenější seriály patří ty z produkce Netflixu. V současné době je spokojeným majitelem telefonu OnePlus 6.

Kapitoly článku