Generování obrázků v ChatGPT dostalo pořádný upgrade, zvládá fotorealismus i text

OpenAI spouští novou funkci generování obrázků přímo v aplikaci ChatGPT pomocí modelu GPT-4o
Novinka přináší výrazné zlepšení přesnosti textů a objektů na generovaných obrázcích
Funkce bude dostupná všem uživatelům, ale zdarma jen s omezeným počtem obrázků denně

OpenAI oznámila a rovnou spustila „novou“ funkci zvanou Images in ChatGPT, díky níž mohou uživatelé přímo v prostředí ChatGPT generovat obrázky pomocí pokročilého modelu GPT-4o. Předchozí způsob generování obrázků skrze model DALL-E tak de facto končí.

Velký skok kupředu

Nový způsob generování obrázků je dostupný napříč všemi uživatelskými úrovněmi – Plus, Pro, Team i Free. Uživatelé s bezplatným tarifem budou mít stejně jako u staršího modelu DALL-E výrazně omezený počet obrázků denně, přičemž dříve šlo o tři obrázky denně. Mluvčí OpenAI Taya Christianson ale pro The Verge uvedla, že limity se mohou časem měnit podle aktuálního zájmu a vytížení systému.

Nový obrázkový model v GPT-4o využívá tzv. autoregresivní přístup generování, kdy obraz vzniká postupně, podobně jako když člověk píše text – od levého horního rohu po pravý dolní. Právě díky této technice zvládá GPT-4o podstatně přesnější generování textů v obrázcích, což byl u předchozích modelů poměrně velký problém, a pokud jste to někdy zkoušeli, jistě víte, jaké nesmysly to občas generovalo.

Lepší naslouchání promptům

Zásadní pokrok se projevil také v tzv. bindingu, tedy schopnosti modelu správně přiřadit vlastnosti (barvy, tvary, pozice) k většímu množství objektů v obrazu. Zatímco předchozí generátory zvládaly přesně zobrazit pouze 5 až 8 objektů, GPT-4o dokáže spolehlivě umístit 15–20 různých objektů bez záměny jejich vlastností.

Nové generování obrázků tak výrazně usnadňuje tvorbu přesných vizuálů díky propojení znalostí modelu s uživatelskými instrukcemi. „Pokud chci nakreslit obrázek, omezuje mě má vlastní dovednost, ale GPT-4o v sobě nese znalosti celého světa. Když požádáte o obraz Newtonova experimentu s hranolem, nemusíte vysvětlovat, o co jde – model to už ví,“ vysvětlila vedoucí multimodálního produktu ChatGPT Jackie Shannon.

Během prezentace novinky vědci z OpenAI ukázali, jak GPT-4o zvládá generovat složité vědecké diagramy s přesnými popisky, relativně složité komiksy nebo informační plakáty s kvalitně zobrazenými texty. Praktické využití vidí firma například při tvorbě menu restaurací, log, samolepek s transparentním pozadím nebo při prototypování v herním vývoji.

Bezpečnost především

OpenAI zároveň ujišťuje, že nová technologie obsahuje robustní ochranu proti zneužití. Systém například odmítne generovat sexuální deepfake obrázky, brání odstranění vodoznaků a znemožňuje tvorbu nelegálního obsahu.

Vygenerované obrázky ale nebudou označeny žádným vizuálním vodoznakem. „Všechny naše obrázky budou obsahovat standardní metadata C2PA, která označují původ obrázku,“ dodala Shannon tím, že společnost má interní nástroje pro identifikaci obsahu generovaného vlastními modely.

Všichni uživatelé mají plné právo s vygenerovanými obrázky volně nakládat, samozřejmě v mezích pravidel používání služeb OpenAI. Přestože je generování obrázků nyní o něco pomalejší než dříve, OpenAI věří, že se delší čekání vyplatí kvůli znatelně vyšší kvalitě výsledků. Podstatně pomalejší generování přiznal v oficiálním streamu i šéf OpenAI Sam Altman, ale přislíbil, že rychlost se bude časem zlepšovat.

Vstoupit do diskuze (1)

2. zdroj Zdroj článku

Autor článku

Adam Homola

Nové technologie mě fascinují už od útlého věku. K dlouhodobému zájmu o hry a herní průmysl se mi postupem času přirozeně přidal i hardware, software, internetové služby a od roku 2022 i umělá inteligence.