Microsoft AI présente MAI-Transcribe-1.5 : un taux d'erreurs de reconnaissance (WER) de 2,4 % sur les éléments d'analyse artificielle, la meilleure précision FLEURS de sa catégorie et une transcription d'enregistrements audio longs jusqu'à cinq fois plus rapide

Le paysage de l’intelligence artificielle s’enrichit d’une nouveauté significative.

Microsoft AI présente MAI-Transcribe-1.5 : un taux d’erreurs de reconnaissance (WER) de 2,4 % sur les éléments d’analyse artificielle, la meilleure précision FLEURS de sa catégorie et une transcription d’enregistrements audio longs jusqu’à cinq fois plus rapide

L’équipe Superintelligence de Microsoft a lancé MAI-Transcribe-1.5, un modèle d’IA de reconnaissance vocale destiné à la production qui offre une couverture linguistique élargie, un filtrage des mots-clés adapté au domaine et une inférence plus rapide pour les textes longs.

Il faut souligner, la semaine dernière, Microsoft AI a annoncé la sortie de MAI-Transcribe-1.5. Il s’agit de la deuxième version de la gamme interne de modèles de reconnaissance vocale de l’entreprise. Ce modèle vise à offrir une grande précision dans 43 langues, avec différents accents et dans des environnements bruyants. L’équipe de Microsoft le destine aux tâches de transcription en production.

MAI-Transcribe-1.5 est un modèle de reconnaissance vocale automatique (ASR). Il prend en entrée un flux audio et génère du texte en sortie. Microsoft l’a développé en interne, sans s’appuyer sur une base tierce. Ce modèle prend en charge 43 langues au sein d’un même système. Il est optimisé pour divers accents, dialectes et conditions acoustiques réelles.

Fait intéressant, microsoft l’intègre à Copilot, Teams, GitHub et Dynamics 365 Contact Center. Il est aussi proposée dans Foundry, la plateforme de modèles de Microsoft.

La précision est ici mesurée par le taux d’erreurs par mot (WER). Un WER faible indique moins d’erreurs par mot transcrit. Microsoft annonce le meilleur WER de sa catégorie pour 43 langues sur FLEURS. FLEURS est un benchmark standard de transcription multilingue.

Dans le classement d’Artificial Analysis, le modèle affiche un taux d’erreurs de mots (WER) de 2,4 %. Cela le place en troisième position dans un benchmark ouvert très disputé. Le bilan est donc mitigé. L’équipe de Microsoft occupe la première place sur FLEURS et la troisième sur Artificial Analysis.

L’élargissement de la gamme de langues est un autre aspect qui témoigne de la précision du système. La couverture est passée de 25 à 43 langues. Ces 18 nouvelles langues ont été ajoutées sans compromettre la précision. Dix d’entre elles sont des langues d’Asie du Sud, notamment le bengali, le tamoul et le télougou. Huit sont des langues européennes, telles que l’ukrainien, le grec et le catalan.

Cette nouvelle étape pose plusieurs questions qui restent ouvertes.

À lire également :

Selon l’information initialement publiée par MarkTechPost : MarkTechPost