Le nouveau modèle Gemma 4 12B de Google est conçu pour fonctionner sur n'importe quel ordinateur portable doté de 16 Go de mémoire vive

L’industrie de l’IA poursuit sa transformation rapide avec cette nouvelle annonce.

Le nouveau modèle Gemma 4 12B de Google est conçu pour fonctionner sur n’importe quel ordinateur portable doté de 16 Go de mémoire vive

Gemma 4 12B utilise un nouveau schéma de codage et la prédiction de tokens pour se montrer à la hauteur de ses capacités.

L’essor de l’IA générative a fait grimper en flèche le coût de la mémoire, et Google joue un rôle clé dans cette tendance. Il est donc tout à fait logique que Google propose des modèles d’IA locaux moins gourmands en RAM. L’entreprise a annoncé la sortie d’un tout nouveau modèle Gemma 4 qui vient combler une lacune dans la gamme lancée plus tôt cette année. Ce inédit modèle est suffisamment performant pour que vous puissiez le faire tourner sur un ordinateur portable grand public tout à fait standard.

En avril, Google a lancé quatre modèles de la gamme Gemma 4, marquant de ce fait le passage à une licence Apache 2.0 plus ouverte. Les modèles initiaux comprenaient deux options optimisées pour les appareils mobiles (E2B et E4B) ainsi que deux modèles destinés à des tâches plus complexes (26B Mixture of Experts et 31B Dense). Il restait ainsi un espace assez important non couvert au milieu, et c’est précisément là que s’inscrit le nouveau modèle d’IA.

Gemma 4 12B est nettement plus performant que les versions mobiles, mais il ne nécessite pas d’accélérateur IA à 20 000 dollars pour fonctionner en local. Selon Google, Gemma 4 12B se distingue par sa capacité à fonctionner sur de nombreux ordinateurs portables grand public sans perte de qualité. À condition de disposer d’un ordinateur doté de 16 Go de mémoire vive (RAM) ou de mémoire vidéo (VRAM), le modèle à 12 milliards de paramètres fonctionnera. Cela représente environ la moitié de l’empreinte mémoire totale de Gemma 4 26B MoE, et Google affirme que ce inédit modèle d’IA est presque aussi performant, du moins d’après les tests de performance.

Selon Google, ce nouveau système est capable d’effectuer des raisonnements complexes en plusieurs étapes et de gérer des flux de travail autonomes qui nécessitaient auparavant les variantes plus puissantes de Gemma. Malgré un nombre de paramètres réduit, Gemma 4 12B intègre les générateurs de texte « Multi-Token Prediction » (MTP) nouvellement développés, qui exploitent les cycles de traitement inutilisés pour calculer les tokens potentiels à venir. Il en résulte une vitesse et une efficacité accrues. Google a commercialisé des versions MTP en option pour les autres modèles Gemma 4, mais c’est le premier à intégrer la technologie MTP d’origine.

Gemma 4 12B est par ailleurs plus efficace grâce à une nouvelle approche de la multimodalité. La famille Gemma 4 est multimodale de manière native, acceptant du texte, de l’audio ou des images en entrée. La plupart des modèles d’IA générative — y compris les autres variantes de Gemma 4 — utilisent des encodeurs dédiés pour traiter les entrées non textuelles et transmettre ces éléments au LLM. Cela fonctionne assez bien, mais cela augmente la latence et l’utilisation de la mémoire.

Avec ce récent modèle de taille moyenne, Google a mis en place un module d’intégration optimisé pour la vision, intégrant la multiplication matricielle simple et l’intégration positionnelle, ce qui offre la possibilité aux données d’être transmises au LLM avec une perception spatiale adéquate. Cela évite de recourir à un encodeur intermédiaire encombrant. Pour l’audio, il n’y a tout simplement pas d’encodage. Les développeurs ont mis au point une méthode permettant de transposer le signal audio brut dans les mêmes vecteurs que ceux utilisés pour les tokens de texte.

Si vous souhaitez découvrir le nouveau système Gemma 4, il est accessible sans téléchargement via des outils tels que LM Studio, Google AI Edge Gallery et bien d’autres. Mais l’intérêt de Gemma 4 12B réside dans le fait que vous pouvez l’exécuter localement et selon vos propres conditions. Si vous disposez de la mémoire vive nécessaire, les poids du modèle sont disponibles en téléchargement immédiat sur Kaggle et Hugging Face. Ils pèsent un peu moins de 18 Go.

Les analystes auront matière à débattre dans les prochaines semaines.

Pour aller plus loin :

Via Ars Technica AI : Ars Technica AI