Les développements se succèdent à un rythme impressionnant dans l’IA.
Le dernier système d’IA open source de Google, DiffusionGemma, offre un gain de vitesse de 4 fois
L’IA de diffusion est surtout utilisée pour la génération d’images, cependant elle permet également de produire du texte beaucoup plus promptement.
Une nouvelle journée, un inédit modèle d’IA de Google. Cette fois-ci, Google DeepMind a dévoilé un nouveau membre de la famille de modèles ouverts Gemma 4, mais celui-ci est fondamentalement différent du reste de la gamme. DiffusionGemma ne génère pas de résultats de manière linéaire comme la plupart des modèles d’IA. Au contraire, il peut traiter un bloc de texte entier en parallèle. Selon Google, cela le rend plus rapide et plus efficace lorsqu’il est exécuté sur du matériel local, comme un Nvidia DGX ou une simple carte graphique de jeu.
La plupart des modèles d’IA sont conçus pour être autorégressifs : ils génèrent du texte de gauche à droite, un token à la fois. DiffusionGemma s’apparente davantage aux modèles de génération d’images, qui partent d’une image statique puis la débruitent pour créer le contenu souhaité. Ce modèle parcourt plusieurs fois le canevas à l’aide d’un champ de tokens de remplacement afin de générer des tokens plausibles, puis utilise ces derniers pour améliorer l’estimation des autres. À la fin du processus, le modèle finalise ses sorties sous forme de tokens dans un seul grand bloc : le « canevas de texte débruité ».
DiffusionGemma est un modèle relativement volumineux parmi les modèles ouverts de Google. Il s’agit d’un modèle de type « Mixture of Experts » (MoE) comptant au total 26 milliards de paramètres, cependant seuls 3,8 milliards sont activés lors de l’inférence. Cela signifie qu’il devrait tenir dans les 18 Go de RAM alloués à un GPU haut de gamme. Lors de tests réalisés avec une RTX 5090, DiffusionGemma génère environ 700 tokens par seconde. Avec un seul accélérateur IA Nvidia H100, DiffusionGemma peut produire plus de 1 000 tokens par seconde. Cela représente environ quatre fois le débit des modèles autorégressifs Gemma de taille similaire.
De plus, crédit :
GoogleCrédit :
Cette approche de la génération de texte déplace le goulot d’étranglement de la bande passante mémoire vers la puissance de calcul, permettant de générer jusqu’à 256 tokens en parallèle. Selon Google, cela apporte un gain de performance tangible dans des tâches non linéaires telles que l’édition en ligne, le séquençage moléculaire et la représentation graphique de fonctions mathématiques. L’animation ci-dessus montre comment DiffusionGemma a été optimisé pour résoudre des sudokus, une tâche réputée particulièrement difficile pour les modèles d’IA autorégressifs classiques, car chaque token dépend des tokens suivants. La capacité de DiffusionGemma à s’autocorriger en continu sur de grands ensembles de tokens facilite cette tâche.
Les acteurs concernés devront s’adapter à ce nouveau contexte.
À lire également :
- NVIDIA AI lance Nemotron 3 Ultra : un modèle hybride Mamba-Transformer « Mixture-of-Experts » ouvert de 550 milliards de paramètres, destiné aux agents à exécution longue
- Ces grands modèles de langage (LLM) sont les plus efficaces pour contrer la propagande russe
Lire l’article original sur Ars Technica AI : Ars Technica AI