- OpenAI spouští novou funkci generování obrázků přímo v aplikaci ChatGPT pomocí modelu GPT-4o
- Novinka přináší výrazné zlepšení přesnosti textů a objektů na generovaných obrázcích
- Funkce bude dostupná všem uživatelům, ale zdarma jen s omezeným počtem obrázků denně
OpenAI oznámila a rovnou spustila „novou“ funkci zvanou Images in ChatGPT, díky níž mohou uživatelé přímo v prostředí ChatGPT generovat obrázky pomocí pokročilého modelu GPT-4o. Předchozí způsob generování obrázků skrze model DALL-E tak de facto končí.
Velký skok kupředu
Nový způsob generování obrázků je dostupný napříč všemi uživatelskými úrovněmi – Plus, Pro, Team i Free. Uživatelé s bezplatným tarifem budou mít stejně jako u staršího modelu DALL-E výrazně omezený počet obrázků denně, přičemž dříve šlo o tři obrázky denně. Mluvčí OpenAI Taya Christianson ale pro The Verge uvedla, že limity se mohou časem měnit podle aktuálního zájmu a vytížení systému.
Nový obrázkový model v GPT-4o využívá tzv. autoregresivní přístup generování, kdy obraz vzniká postupně, podobně jako když člověk píše text – od levého horního rohu po pravý dolní. Právě díky této technice zvládá GPT-4o podstatně přesnější generování textů v obrázcích, což byl u předchozích modelů poměrně velký problém, a pokud jste to někdy zkoušeli, jistě víte, jaké nesmysly to občas generovalo.
Lepší naslouchání promptům
Zásadní pokrok se projevil také v tzv. bindingu, tedy schopnosti modelu správně přiřadit vlastnosti (barvy, tvary, pozice) k většímu množství objektů v obrazu. Zatímco předchozí generátory zvládaly přesně zobrazit pouze 5 až 8 objektů, GPT-4o dokáže spolehlivě umístit 15–20 různých objektů bez záměny jejich vlastností.
Nové generování obrázků tak výrazně usnadňuje tvorbu přesných vizuálů díky propojení znalostí modelu s uživatelskými instrukcemi. „Pokud chci nakreslit obrázek, omezuje mě má vlastní dovednost, ale GPT-4o v sobě nese znalosti celého světa. Když požádáte o obraz Newtonova experimentu s hranolem, nemusíte vysvětlovat, o co jde – model to už ví,“ vysvětlila vedoucí multimodálního produktu ChatGPT Jackie Shannon.
Během prezentace novinky vědci z OpenAI ukázali, jak GPT-4o zvládá generovat složité vědecké diagramy s přesnými popisky, relativně složité komiksy nebo informační plakáty s kvalitně zobrazenými texty. Praktické využití vidí firma například při tvorbě menu restaurací, log, samolepek s transparentním pozadím nebo při prototypování v herním vývoji.
Bezpečnost především
OpenAI zároveň ujišťuje, že nová technologie obsahuje robustní ochranu proti zneužití. Systém například odmítne generovat sexuální deepfake obrázky, brání odstranění vodoznaků a znemožňuje tvorbu nelegálního obsahu.
Vygenerované obrázky ale nebudou označeny žádným vizuálním vodoznakem. „Všechny naše obrázky budou obsahovat standardní metadata C2PA, která označují původ obrázku,“ dodala Shannon tím, že společnost má interní nástroje pro identifikaci obsahu generovaného vlastními modely.
Všichni uživatelé mají plné právo s vygenerovanými obrázky volně nakládat, samozřejmě v mezích pravidel používání služeb OpenAI. Přestože je generování obrázků nyní o něco pomalejší než dříve, OpenAI věří, že se delší čekání vyplatí kvůli znatelně vyšší kvalitě výsledků. Podstatně pomalejší generování přiznal v oficiálním streamu i šéf OpenAI Sam Altman, ale přislíbil, že rychlost se bude časem zlepšovat.