Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE formé sur du matériel AMD qui surpasse largement ses concurrents

L’industrie de l’IA poursuit sa transformation rapide avec cette nouvelle annonce.

Zyphra lance ZAYA1-8B : un modèle de raisonnement MoE formé sur du matériel AMD qui surpasse largement ses concurrents

Zyphra AI a lancé ZAYA1-8B, un petit modèle d’IA linguistique de type « Mixture of Experts » (MoE) comptant 760 millions de paramètres actifs et 8,4 milliards de paramètres au total. Entraîné de bout en bout sur du matériel AMD, ce modèle surpasse des modèles à poids libre divers fois plus volumineux lors de tests de performance en mathématiques et en programmation. Il est désormais disponible sous licence Apache 2.0 sur Hugging Face et sous forme de point de terminaison sans serveur sur Zyphra Cloud.

Précisons, avec moins d’un milliard de paramètres actifs, ZAYA1-8B obtient des scores comparables à ceux des modèles de raisonnement de pointe de première génération, tels que DeepSeek-R1-0528, Gemini-2.5-Pro et Claude 4.5 Sonnet, sur des tâches complexes de raisonnement mathématique. Grâce à sa nouvelle méthodologie de calcul en temps de test appelée Markovian RSA, il surpasse Claude 4.5 Sonnet et GPT-5-High sur HMMT’25 (89,6 contre 88,3) et se rapproche des modèles de pointe à poids ouvert tels que DeepSeek-V3.2 sur les benchmarks mathématiques.

Le ZAYA1-8B repose sur l’architecture MoE++ de Zyphra, qui apporte trois modifications spécifiques par rapport aux conceptions MoE standard.

De plus, la distinction entre les paramètres « actifs » et « totaux » revêt une grande importance. Dans un modèle d’IA dense standard, tous les paramètres sont activés pour chaque token d’entrée. Dans un modèle d’IA de type « Mixture of Experts », seul un sous-ensemble des paramètres du réseau — les « experts » — est activé au moment de l’inférence. ZAYA1-8B compte 8,4 milliards de paramètres au total, cependant seuls 760 millions sont actifs à chaque passage en avant. Cela réduit considérablement les besoins en puissance de calcul et en bande passante mémoire pour l’inférence, tout en conservant la capacité de représentation d’un modèle bien plus volumineux.

Le modèle ZAYA1-8B peut être déployé directement sur l’appareil pour des applications LLM locales, fonctionner efficacement dans des environnements de calcul en phase de test et traiter les requêtes avec une latence réduite par rapport à des modèles denses présentant des performances de référence similaires.

Le ZAYA1-8B repose sur l’architecture MoE++ de Zyphra, qui apporte trois modifications spécifiques par rapport aux conceptions MoE standard. Ensemble, ces modifications constituent le fondement de l’efficacité de l’intelligence du ZAYA1-8B, objectif de conception que Zyphra définit comme la maximisation de l’intelligence extraite par paramètre et par FLOP.

ZAYA1-8B est un système MoE pré-entraîné, ayant fait l’objet d’un entraînement intermédiaire et d’un affinement supervisé sur une pile AMD Instinct MI300. L’ensemble du pipeline d’entraînement a été exécuté sur un cluster de 1 024 nœuds AMD Instinct MI300x reliés via l’interconnexion AMD Pensando Pollara, au sein d’un cluster d’entraînement sur mesure développé en collaboration avec IBM.

Les performances du ZAYA1-8B reflètent les innovations mises en œuvre à tous les niveaux : l’architecture MoE++ de Zyphra, le pré-entraînement axé sur le raisonnement, une méthodologie de cascade d’apprentissage par renforcement axée sur le raisonnement, ainsi que la inédite méthode de calcul markovien RSA en phase d’évaluation.

Les implications concrètes de cette annonce se dessineront progressivement.

À découvrir aussi :


Article original publié par MarkTechPost : MarkTechPost