Google AI lance DiffusionGemma, un modèle ouvert de 26 milliards de paramètres utilisant la diffusion de texte pour une génération jusqu'à quatre fois plus rapide

Voici une annonce qui mérite l’attention des observateurs du secteur.

Google AI lance DiffusionGemma, un modèle ouvert de 26 milliards de paramètres utilisant la diffusion de texte pour une génération jusqu’à quatre fois plus rapide

Le nouveau système ouvert expérimental de Google remplace le décodage token par token par une diffusion de texte en parallèle, et est destiné aux charges de travail GPU locales, à faible latence et pour un seul utilisateur.

L’équipe Google AI, qui comprend les chercheurs de Google DeepMind, vient de publier DiffusionGemma, un système expérimental open source dédié à la génération de texte. Il utilise la diffusion de texte à la place du décodage autorégressif standard. Le modèle est distribué sous une licence Apache 2.0 permissive. Google le destine aux développeuses et développeurs et chercheurs qui explorent des flux de travail locaux interactifs où la vitesse est essentielle. Parmi les exemples, on peut citer l’édition en ligne, l’itération rapide et la génération de structures textuelles non linéaires.

Dans le même temps, la plupart des modèles linguistiques utilisés aujourd’hui sont autorégressifs. Ils génèrent un token à la fois, de gauche à droite. Chaque nouveau token dépend du token qui le précède. DiffusionGemma fonctionne différemment. Il génère des blocs de texte entiers simultanément, en parallèle. Sur des GPU dédiés, cela permet une génération jusqu’à quatre fois plus rapide.

Précisons, diffusionGemma est un modèle « Mixture of Experts » (MoE) de 26 milliards de paramètres. Il n’active que 3,8 milliards de paramètres lors de l’inférence. Il repose sur l’architecture de base de Gemma 4, plus précisément sur l’architecture 26B-A4B. Google a intégré une tête de diffusion à cette base.

Précisons, ce modèle est multimodal. Il traite des informations d’entrée entremêlant texte, images et vidéos. Il génère des sorties textuelles à partir de ces données d’entrée. La fenêtre de contexte est de 256 000 tokens, et il prend en charge plus de 140 langues.

Par ailleurs, une fois quantifié, le modèle tient dans 18 Go de mémoire vidéo. Cela le place dans les limites des GPU grand public haut de gamme. Sur une seule carte NVIDIA H100, il atteint plus de 1 000 tokens par seconde. Sur une carte NVIDIA GeForce RTX 5090, il atteint plus de 700 tokens par seconde.

Autre élément, google est très clair quant à ce compromis. DiffusionGemma privilégie la rapidité et la génération parallèle de mises en page. La qualité globale de ses résultats est inférieure à celle de Gemma 4 standard. Pour obtenir des résultats de la meilleure qualité possible, Google continue de recommander la version autorégressive de Gemma 4.

À ce sujet, la diffusion de texte s’inspire des générateurs d’images basés sur l’IA. Ces modèles partent d’un bruit visuel et l’affinent de manière itérative. DiffusionGemma applique le même principe à la génération de texte.

Ce qu’il faut noter :

Une fois quantifié, le modèle tient dans 18 Go de mémoire vidéo.
Google est très clair quant à ce compromis.
La diffusion de texte s’inspire des générateurs d’images basés sur l’IA.

Les retombées concrètes se feront sentir dans les mois qui viennent.

Dans le même ordre d’idées :

D’après MarkTechPost : MarkTechPost