- OpenAI vydala model GPT Image 1.5, který generuje a upravuje obrázky čtyřikrát rychleji než jeho předchůdci
- Nový nástroj využívá nativní multimodalitu, díky čemuž lze provádět komplexní vizuální změny pouhým zadáním textového příkazu
- Aktualizace je přímou reakcí na konkurenční model Nano Banana od Googlu a slibuje firmám i jednotlivcům levnější a efektivnější práci s grafikou
S vydáním nového modelu GPT Image 1.5 a aktualizací rozhraní ChatGPT se proces úpravy fotografií a obrázků výrazně zjednodušil. V rámci možností ChatGPT jde o velký posun kupředu, jenže v rámci celého trhu jde „jen“ o dotahování možností konkurenčního Nano Banana Pro od Googlu.
Nativní multimodalita
Jádrem nového systému je takzvaná „nativní multimodalita“. Na rozdíl od staršího modelu DALL-E 3, který využíval technologii difuze, zpracovává GPT Image 1.5 text i obraz v rámci jedné neuronové sítě. Model vnímá obrázky i slova jako stejný typ dat, skrze tokeny. Pokud uživatel nahraje fotografii a zadá příkaz „obleč ho do smokingu na svatbě“, AI nepracuje se dvěma oddělenými procesy, ale upravuje pixely ve stejném prostoru, jako by doplňovala slova do věty. Výsledkem je mnohem vyšší přesnost, kdy model zachovává identitu osob, osvětlení i kompozici, zatímco mění pouze požadované prvky.
Z hlediska výkonu OpenAI tvrdí, že nový model je až čtyřikrát rychlejší než předchozí verze a lépe chápe složité instrukce. Součástí aktualizace je také nová záložka „Obrázky“ přímo v aplikaci a prohlížeči, která slouží jako dedikovaný prostor pro tvorbu a inspiraci. Tam už můžete používat přednastavené filtry a styly, což může běžným uživatelům usnadnit kreativní proces a eliminovat nutnost vymýšlet složité prompty od nuly.
Nano Banana
Uvedení nové verze obrázkového generátoru je zřejmou odpovědí na rostoucí tlak ze strany konkurence. Google v březnu uvedl na trh svůj prototyp, který později zdokonalil do populárního modelu Nano Banana (a nedávné verze Pro). Úspěch a hlavně skokové pokroky Googlu donutily OpenAI k rychlejší reakci.

Po nedávném vydání GPT-5.2, které následovalo po spekulacích o vyhlášení stavu „Code Red“ kvůli Gemini 3, je GPT Image 1.5 dalším tahem v probíhajícím souboji o dominanci v AI sektoru. A i když název „ChatGPT Images 1.5“ není tak chytlavý jako virálnější Nano Banana, OpenAI sází na technickou preciznost a integraci do svého ekosystému. Kvalitou je, alespoň soudě dle oficiálních ukázek a subjektivního testování, téměř stejně tak dobrý, jako Nano Banana Pro. Model od Googlu je v leckterých případech pořád trochu víc precizní a přesnější, byť také není dokonalý.
K dokonalosti daleko?
Pro firemní zákazníky a vývojáře přináší novinka i ekonomické výhody. Přístup k modelu skrze API je nově o 20 % levnější, což umožňuje generovat například více variant produktových fotografií nebo marketingových materiálů za stejný rozpočet. Nový model je taky optimalizovaný pro zachování brandových prvků, jako jsou loga a specifické vizuály, což jde skvěle na ruku především celému sektoru e-commerce a marketingovým týmům.
I přes veškerý pokrok ale nejde ani zdaleka o dokonalý nástroj, ostatně podobně jako v případě „klasického“ textového ChatGPT. I nový obrázkový model občas změní tvář osoby, nesplní zadání přesně podle promptu, nebo si tam domyslí něco, co by tam být vůbec nemělo. Všemožných omezení a nedokonalostí jsou si ale v OpenAI vědomi a je jen otázkou času, než dorazí ChaGPT Images 2.0.
