OpenAI ha annunciato il lancio di ChatGPT Immagini, una nuova funzionalità che permette di generare immagini direttamente all’interno delle conversazioni su ChatGPT. La tecnologia, basata sul modello omnimodale GPT-4o, è accessibile agli abbonati Plus, Pro e Team, sia paganti che gratuiti, con un prossimo rilascio previsto anche per Enterprise ed Edu.
Sul blog ufficiale, OpenAI ha presentato esempi delle capacità avanzate del modello, tra cui una grafica di Karl Marx davanti a un centro commerciale negli Stati Uniti. Rispetto ad altri generatori di immagini IA, ChatGPT Immagini mostra un netto miglioramento nell’associazione corretta di colori, forme e attributi, superando errori comuni nel settore.
Una delle innovazioni più rilevanti riguarda la gestione del testo all’interno delle immagini. Il modello è in grado di trascrivere riferimenti testuali senza errori di battitura, risolvendo una delle principali sfide della generazione visiva con intelligenza artificiale. Gabriel Goh, responsabile della ricerca di OpenAI, ha spiegato a The Verge che il risultato è frutto di mesi di piccoli miglioramenti.
Dal punto di vista tecnico, il modello utilizza un approccio auto regressivo, generando immagini in sequenza, in contrasto con la tecnica di diffusione impiegata da strumenti come DALL-E. Nonostante l’elevata qualità delle immagini, OpenAI ha scelto di non includere filigrane visive, optando invece per metadati standard per certificarne l’origine.
