MiniMax lance MiniMax M3 avec une architecture MSA prenant en charge le contexte 1M-Token, la multimodalité native et le codage agentique

Voici une information qui pourrait bien avoir un impact durable sur le secteur.

MiniMax lance MiniMax M3 avec une architecture MSA prenant en charge le contexte 1M-Token, la multimodalité native et le codage agentique

MiniMax a officiellement lancé MiniMaxM3 le 1er juin 2026. Le modèle introduit MSA (MiniMax Sparse Attention), une récente architecture d’attention clairsemée qui donne à M3 une fenêtre contextuelle de 1 million de jetons. M3 prend par ailleurs en charge de manière native l’entrée d’image et de vidéo et le fonctionnement d’un ordinateur de bureau. L’API est désormais en ligne.

MiniMax M3 est proposé aujourd’hui via le code MiniMax, le plan de jetons MiniMax et l’API MiniMax. Il s’agit du prochain modèle de la gamme M après le M2.7. MiniMax positionne M3 comme un système ouvert combinant des performances de codage de niveau frontière, une fenêtre contextuelle de 1 million de jetons et une entrée multimodale native dans une seule architecture – la première à le faire, selon MiniMax. Les poids des modèles correspondants et le rapport technique devraient être publiés dans les 10 jours suivant le lancement.

Le changement architectural central de MiniMax M3 est MSA (MiniMax Sparse Attention). L’attention totale standard a une complexité de calcul quadratique : à mesure que la longueur du contexte augmente, le coût de calcul augmente comme le carré de la longueur de la séquence. MSA est conçu pour résoudre ce problème.

Les mécanismes d’attention clairsemée ajoutent généralement une étape de pré-filtrage avant de calculer l’attention, évitant ainsi un coût quadratique complet. L’équipe MiniMax déclare que par rapport aux approches telles que DSA et MoBA, MSA partitionne le cache KV en blocs plus précisément, obtenant par conséquent une couverture contextuelle plus efficace.

Au niveau de l’opérateur, MSA utilise une approche « KV external rassembler Q ». Les blocs KV servent de boucle externe pour regrouper les requêtes qui les frappent. Chaque bloc n’est lu qu’une seule fois et les accès mémoire sont contigus. L’équipe MiniMax rapporte que c’est plus de 4 fois plus rapide que les implémentations open source telles que Flash-Sparse-Attention et flash-moba sous la configuration principale du MiniMax M3.

Le résultat : avec une longueur de contexte de 1 million de jetons, le calcul par jeton du MiniMax M3 est 1/20ème de celui des modèles M2 de la génération précédente. L’équipe MiniMax rapporte une accélération de plus de 9 fois dans l’étape de pré-remplissage et de plus de 15 fois dans l’étape de décodage dans un contexte de 1 million de jetons. Dans le cadre de plusieurs études sur l’ablation, MSA a accordé toute son attention à la majorité des capacités.

Les compétences de codage et d’agent sont des champs d’application clés d’amélioration pour M3. Les résultats de référence ci-dessous sont rapportés par l’équipe MiniMax. Différents évaluations ont été effectuées sur l’infrastructure interne de MiniMax, tandis que certains scores de comparaison ont été tirés de classements officiels ou de sources de référence externes, comme indiqué dans la méthodologie de MiniMax. SWE-Bench Verified a été testé sur l’infrastructure interne à l’aide de l’échafaudage Claude Code et calculé en moyenne sur 4 exécutions. SWE-Bench Pro a également été testé sur l’infrastructure interne à l’aide de l’échafaudage Claude Code, avec une logique de test alignée sur l’évaluation officielle.

SurOmniDocBench, une référence de compréhension de documents multimodaux, M3 obtient des scores supérieurs à Gemini 3.1 Pro. SurOSWorld-Verified (361 échantillons), M3 atteint un taux d’achèvement des tâches de 70,06 % pour l’utilisation d’un ordinateur (étapes maximales = 200).

Difficile à ce stade de prédire tous les impacts de cette annonce.

Dans le même ordre d’idées :

Article original : MarkTechPost : MarkTechPost