IBM lance deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non autorégressive pour une inférence rapide

Un développement récent dans le monde de l’IA attire l’attention.

IBM lance deux modèles Granite Speech 4.1 2B : ASR autorégressif avec traduction et édition non autorégressive pour une inférence rapide

IBM a publié deux nouveaux modèles ouverts de reconnaissance vocale (Granite Speech 4.1 2BandGranite Speech 4.1 2B-NAR) et ils démontrent de manière convaincante ce qu’un modèle vocal à paramètres ~ 2B peut faire. Les deux sont disponibles sur Hugging Face sous la licence Apache 2.0.

La paire cible un problème spécifique que les équipes d’IA d’entreprise connaissent bien : la plupart des systèmes de reconnaissance vocale automatique (ASR) de production exigent des calculs massifs ou sacrifient la précision pour respecter le budget. Le pari d’IBM est que des décisions architecturales prudentes peuvent vous permettre de gagner sur deux tableaux.

Notons par ailleurs, granite Speech 4.1 2Bi est un modèle de langage vocal compact et efficace conçu pour la reconnaissance vocale automatique (ASR) multilingue et la traduction vocale automatique bidirectionnelle (AST) couvrant l’anglais, le français, l’allemand, l’espagnol, le portugais et le japonais. Son homologue non autorégressif, Granite Speech 4.1 2B-NAR, se concentre exclusivement sur l’ASR – ciblant spécifiquement les déploiements sensibles à la latence – et prend en charge l’anglais, le français, l’allemand, l’espagnol et le portugais, mais pas le japonais. C’est une distinction significative : les équipes qui ont besoin d’une transcription japonaise ou de toute capacité de traduction vocale devraient opter pour le modèle autorégressif standard.

IBM a également discrètement publié une troisième variante aux côtés de ces deux-là. Granite Speech 4.1 2B-Plus ajoute un ASR attribué au locuteur et des horodatages au niveau des mots pour les applications où savoir qui a dit quoi – et exactement quand – est une exigence.

Le taux d’erreur sur les mots (WER) est la principale mesure permettant de mesurer la qualité de la transcription. Plus bas, c’est mieux. Un WER de 5 % signifie qu’environ 5 mots sur 100 sont faux. Dans le classement Open ASR (en avril 2026), Granite Speech 4.1 2B obtient un WER moyen de 5,33. Exploration des détails du benchmark : sur LibriSpeech clean, le système atteint un WER de 1,33 et de 2,5 sur LibriSpeech autre.

Les deux modèles partagent la même conception à trois composants à un niveau élevé – un encodeur vocal, un adaptateur de modalité et un modèle de langage – bien que le mécanisme de décodage diverge considérablement.

Vue d’ensemble rapide :

IBM a également discrètement publié une troisième variante aux côtés de ces deux-là.
Exploration des détails du benchmark : sur LibriSpeech clean, le système atteint un WER de 1,33 et de 2,5 sur LibriSpeech autre.

Les implications concrètes de cette annonce se dessineront progressivement.

Sur le même sujet :

Reportage initial : MarkTechPost : MarkTechPost