OpenAI vrací úder: obrázkový model GPT Image 1.5 jde tvrdě po Nano Banana Pro

Společnost OpenAI vydala model GPT Image 1.5, který generuje a upravuje obrázky čtyřikrát rychleji než jeho předchůdci
Nový nástroj využívá nativní multimodalitu, díky čemuž lze provádět komplexní vizuální změny pouhým zadáním textového příkazu
Aktualizace je přímou reakcí na konkurenční model Nano Banana od Googlu a slibuje firmám i jednotlivcům levnější a efektivnější práci s grafikou

S vydáním nového modelu GPT Image 1.5 a aktualizací rozhraní ChatGPT se proces úpravy fotografií a obrázků výrazně zjednodušil. V rámci možností ChatGPT jde o velký posun kupředu, jenže v rámci celého trhu jde „jen“ o dotahování možností konkurenčního Nano Banana Pro od Googlu.

Nativní multimodalita

Jádrem nového systému je takzvaná „nativní multimodalita“. Na rozdíl od staršího modelu DALL-E 3, který využíval technologii difuze, zpracovává GPT Image 1.5 text i obraz v rámci jedné neuronové sítě. Model vnímá obrázky i slova jako stejný typ dat skrze tokeny. Pokud uživatel nahraje fotografii a zadá příkaz „obleč ho do smokingu na svatbě“, AI nepracuje se dvěma oddělenými procesy, ale upravuje pixely ve stejném prostoru, jako by doplňovala slova do věty. Výsledkem je mnohem vyšší přesnost, kdy model zachovává identitu osob, osvětlení i kompozici, zatímco mění pouze požadované prvky.

Z hlediska výkonu OpenAI tvrdí, že nový model je až čtyřikrát rychlejší než předchozí verze a lépe chápe složité instrukce. Součástí aktualizace je také nová záložka „Obrázky“ přímo v aplikaci a prohlížeči, která slouží jako dedikovaný prostor pro tvorbu a inspiraci. Tam už můžete používat přednastavené filtry a styly, což může běžným uživatelům usnadnit kreativní proces a eliminovat nutnost vymýšlet složité prompty od nuly.

Nano Banana

Uvedení nové verze obrázkového generátoru je zřejmou odpovědí na rostoucí tlak ze strany konkurence. Google v březnu uvedl na trh svůj prototyp, který později zdokonalil do populárního modelu Nano Banana (a nedávné verze Pro). Úspěch a hlavně skokové pokroky Googlu donutily OpenAI k rychlejší reakci.

Nová a předchozí verze modelu GPT Image — Nová (1.5) a předchozí verze modelu GPT Images

Po nedávném vydání GPT-5.2, které následovalo po spekulacích o vyhlášení stavu „Code Red“ kvůli Gemini 3, je GPT Image 1.5 dalším tahem v probíhajícím souboji o dominanci v AI sektoru. A i když název „ChatGPT Image 1.5“ není tak chytlavý jako virálnější Nano Banana, OpenAI sází na technickou preciznost a integraci do svého ekosystému. Kvalitou je, alespoň soudě dle oficiálních ukázek a subjektivního testování, téměř stejně tak dobrý jako Nano Banana Pro. Model od Googlu je v leckterých případech pořád trochu přesnější, byť také není dokonalý.

K dokonalosti daleko?

Pro firemní zákazníky a vývojáře přináší novinka i ekonomické výhody. Přístup k modelu skrze API je nově o 20 % levnější, což umožňuje generovat například více variant produktových fotografií nebo marketingových materiálů za stejný rozpočet. Nový model je také optimalizovaný pro zachování brandových prvků, jako jsou loga a specifické vizuály, což jde skvěle na ruku především celému sektoru e-commerce a marketingovým týmům.

Umělá inteligence Gemini 3 Pro od Googlu

Nepřehlédněte

Google vrací úder! Nový model Gemini 3 Pro má být nejchytřejší AI na trhu

I přes veškerý pokrok ale nejde ani zdaleka o dokonalý nástroj, ostatně podobně jako v případě „klasického“ textového ChatGPT. I nový obrázkový model občas změní tvář osoby, nesplní zadání přesně podle promptu nebo si tam domyslí něco, co by tam být vůbec nemělo. Všemožných omezení a nedokonalostí jsou si ale v OpenAI vědomi a je jen otázkou času, než dorazí ChaGPT Image 2.0.

Vstoupit do diskuze (2)

Zdroj článku

Autor článku

Adam Homola

Nové technologie mě fascinují už od útlého věku. K dlouhodobému zájmu o hry a herní průmysl se mi postupem času přirozeně přidal i hardware, software, internetové služby a od roku 2022 i umělá inteligence.