Google dévoile deux nouveaux TPU conçus pour « l'ère des agents »

Le secteur de l’IA vient d’être le théâtre d’un développement notable.

Google dévoile deux nouveaux TPU conçus pour « l’ère des agents »

La nouvelle génération de puces d’IA Tensor de Google se compose en réalité de deux puces : l’une dédiée à l’inférence et l’autre à l’entraînement.

La plupart des sociétés qui se sont pleinement engagées dans le avancée de modèles d’IA s’arrachent tous les accélérateurs IA de Nvidia disponibles, mais Google a adopté une approche différente. La majeure partie de son infrastructure IA dans le cloud repose sur sa gamme d’unités de traitement Tensor (TPU) personnalisées. Après avoir annoncé la TPU Ironwood de septième génération en 2025, l’entreprise est passée à la version de huitième génération, mais il ne s’agit pas simplement d’une version plus rapide de la même puce.

Les nouveaux TPU se déclinent en deux versions, offrant de cette manière à Google et à ses clients une plateforme d’IA plus rapide et plus efficient, selon la société. Google met en avant l’idée que « l’ère des agents » se distingue fondamentalement des systèmes d’IA précédents, ce qui nécessite une récente approche en matière de matériel. Les ingénieurs ont donc mis au point le TPU 8t (destiné à l’entraînement) et le TPU 8i (destiné à l’inférence).

Autre élément, avant que les modèles d’IA ne puissent servir à analyser des données ou à créer des mèmes amusants, ils doivent être entraînés. Le TPU 8t a été spécialement conçu pour cette étape du cycle de vie de l’IA afin de réduire le temps d’entraînement des modèles d’IA de pointe, le faisant passer de plusieurs mois à quelques semaines.

Les clusters de serveurs Tensor 8t mis à jour, que Google appelle « pods », abritent désormais 9 600 puces dotées de deux pétaoctets de mémoire partagée à haut débit. Google affirme que le TPU 8t peut même évoluer de manière linéaire, pouvant accueillir jusqu’à un million de puces dans un seul cluster logique. Ce sont des innovations comme celle-ci qui accélèrent considérablement les modèles d’IA de très grande envergure, tout en faisant grimper les prix de la mémoire vive pour tout le monde. Cependant si vous participez à la création de ces modèles d’IA géants, tout ce matériel vous fait gagner du temps, avec une puissance de calcul impressionnante de 121 FP4 EFlops par pod. C’est près de trois fois plus que la capacité de calcul maximale d’Ironwood pour l’entraînement.

Ces nouvelles puces permettent donc un apprentissage plus rapide, cependant Google affirme également que chaque volt fourni à un TPU 8t offre un meilleur rendement. L’entreprise annonce un taux de « goodpute » de 97 %, ce qui se traduit par moins d’attente et moins d’énergie gaspillée. Grâce à une meilleure gestion des accès mémoire irréguliers, à la gestion automatique des défaillances matérielles et à la télémétrie en temps réel sur l’ensemble des puces connectées, le TPU 8t consacre davantage de temps à faire progresser activement l’entraînement des modèles.

Autre élément, une fois l’entraînement terminé, les modèles d’IA fonctionnent en mode d’inférence pour générer des tokens : c’est le processus qui se déroule en arrière-plan lorsque vous demandez à un modèle d’effectuer une tâche. Cela ne nécessite pas autant de puissance de calcul ; il est donc peu performante d’utiliser le même matériel pour les deux phases du cycle de vie de l’IA. C’est pourquoi l’inférence relève du domaine de compétence du TPU 8i, conçu pour être plus efficace lors de l’exécution de plusieurs agents spécialisés, avec un temps d’attente réduit. Les puces TPU 8i fonctionnent par ailleurs au sein de pods plus importants, comptant 1 152 puces, contre seulement 256 pour les clusters d’inférence Ironwood de dernière génération. Cela représente 11,6 EFlops par pod, un chiffre bien inférieur à celui des pods TPU 8t.

À noter également, google a triplé la capacité de la mémoire SRAM intégrée à chaque TPU 8i, la portant à 384 Mo. Cela rend possible aux nouvelles puces de l’entreprise de conserver un cache de valeurs-clés plus significatif sur la puce, ce qui accélère l’exécution des modèles utilisant des fenêtres de contexte plus longues. Ces accélérateurs IA de huitième génération sont par ailleurs les premiers de Google à s’appuyer exclusivement sur le processeur hôte ARM Axion personnalisé de Google, avec un processeur pour deux TPU. Dans Ironwood, chaque processeur x86 desservait quatre puces TPU. Google affirme que cette approche « full-stack » basée sur ARM permet une efficacité bien supérieure.

Les aspects saillants :

L’entreprise annonce un taux de « goodpute » de 97 %, ce qui se traduit par moins d’attente et moins d’énergie gaspillée.
Cela représente 11,6 EFlops par pod, un chiffre bien inférieur à celui des pods TPU 8t.
Google affirme que cette approche « full-stack » basée sur ARM permet une efficacité bien supérieure.

À suivre donc, dans un domaine qui n’a pas fini de nous surprendre.

À lire également :

Lire l’article complet sur Ars Technica AI : Ars Technica AI