Le tout nouveau modèle Images 2.0 de ChatGPT est étonnamment performant pour générer du texte

L’industrie de l’IA poursuit sa transformation rapide avec cette nouvelle annonce.

Le tout nouveau modèle Images 2.0 de ChatGPT est étonnamment performant pour générer du texte | TechCrunch

Il était autrefois assez facile de faire la distinction entre les images créées par l’homme et celles générées par l’IA : il y a seulement deux ans, on ne pouvait pas utiliser de modèles d’images pour créer le menu d’un restaurant mexicain sans inventer de nouvelles spécialités culinaires telles que « enchuita », « churiros », « burrto » et « margartas ».

Par ailleurs, aujourd’hui, lorsque je demande au tout tout nouveau modèle d’IA ChatGPT Images 2.0 de me proposer un menu de cuisine mexicaine, il génère un résultat qui pourrait être utilisé tel quel dans un restaurant sans que les clients ne remarquent quoi que ce soit d’anormal. (Cela dit, un ceviche à 13,50 $ pourrait bien m’amener à m’interroger sur la qualité du poisson.)

À titre de comparaison, voici le résultat que j’ai obtenu avec DALL-E 3 il y a deux ans (à l’époque, ChatGPT ne générait pas d’images) :

Les générateurs d’images basés sur l’IA ont toujours eu du mal à produire des images, car ils utilisaient généralement des modèles de diffusion, qui fonctionnent en reconstruisant des images à partir de bruit.

D’un autre côté, « Les modèles de diffusion […] reconstruisent une entrée donnée », a déclaré Asmelash Teka Hadgu, fondateur et PDG de Lesan AI, à TechCrunch en 2024. « On peut considérer que les inscriptions sur une image ne représentent qu’une infime partie de celle-ci ; le générateur d’images apprend donc les motifs qui couvrent la majeure partie de ces pixels. »

Depuis, les chercheurs ont étudié d’autres mécanismes de génération d’images, tels que les modèles autorégressifs, qui émettent des prédictions sur l’aspect qu’une image devrait avoir et fonctionnent davantage comme un système de langage de grande capacité (LLM).

Malheureusement, OpenAI a refusé de répondre, lors d’une conférence de presse cette semaine, à une question concernant le type de modèle d’IA qui alimente ChatGPT Images 2.0.

L’écosystème continuera probablement de s’ajuster dans les semaines à venir.

Dans le même ordre d’idées :

Via TechCrunch AI : TechCrunch AI