L'équipe Qwen d'Alibaba présente Qwen3.5-LiveTranslate-Flash : une interprétation multimodale en temps réel dans 60 langues avec un temps de latence de 2,8 secondes

Le secteur technologique continue de livrer des avancées remarquables.

L’équipe Qwen d’Alibaba présente Qwen3.5-LiveTranslate-Flash : une interprétation multimodale en temps réel dans 60 langues avec un temps de latence de 2,8 secondes

L’interprétation simultanée est l’un des problèmes les plus complexes de l’IA appliquée. On demande en effet à un modèle de traduire un discours avant même que l’orateur n’ait terminé sa phrase. Chaque seconde de retard supplémentaire brise l’illusion d’une communication en temps réel. L’équipe Qwen d’Alibaba s’efforce de résoudre ce problème à chaque nouvelle version. Leur dernier modèle, Qwen3.5-LiveTranslate-Flash, réduit ce temps de latence à 2,8 secondes et étend la couverture des langues sources à 60 langues.

Qwen3-LiveTranslate-Flash prenait en charge 18 langues d’entrée avec un temps de latence d’environ trois secondes. Qwen3.5-LiveTranslate-Flash réduit ce temps à 2,8 secondes, étend la couverture des langues d’entrée à 60 langues et ajoute la synthèse vocale dans 29 langues. Cela représente plus d’un triplement de la couverture linguistique du côté de l’entrée. Pour les développeuses et développeurs qui créent des produits multilingues, cela réduit la nécessité de changer de modèle pour chaque langue dans la plupart des scénarios d’entreprises internationales.

L’amélioration de la latence résulte d’une technique de traitement de ce que l’équipe appelle les « unités de lecture ». Plutôt que d’attendre qu’une phrase complète soit reçue avant de générer une sortie, le modèle détermine à quel moment un segment contient suffisamment d’informations pour produire une traduction. Il génère ainsi une sortie en continu pendant que l’orateur parle encore. Il s’agit de la même logique sous-jacente que la prédiction par unités sémantiques, mais avec une implémentation plus optimisée qui permet de gagner ces 200 millisecondes supplémentaires.

La plupart des systèmes de traduction considèrent le signal audio comme la seule source d’entrée. Cela fonctionne très bien dans les conditions idéales d’un studio. Mais ce système ne tient pas la route dans une salle de conférence bondée, un hall d’exposition bruyant ou tout autre endroit où les voix se chevauchent et où l’acoustique est mauvaise.

Point notable, qwen3.5-LiveTranslate-Flash adopte une approche différente. Il analyse les informations visuelles en parallèle avec le texte audio à l’écran, les objets physiquement visibles, les mouvements des lèvres et les gestes. Lorsqu’un mot présente une ambiguïté phonétique ou que la qualité du flux audio se dégrade, le contexte visuel comble cette lacune et affine la décision de traduction. Il ne s’agit pas là d’une fonctionnalité mineure. Dans la pratique, la qualité audio est rarement garantie. Le fait de disposer d’un canal vidéo permet au modèle de gérer plus efficacement les aléas de l’interprétation en direct que les systèmes exclusivement audio.

C’est l’élément qui se démarque le plus dans la version Qwen3.5. Les systèmes de traduction classiques remplacent la voix de l’orateur par une voix de synthèse générique. Qwen3.5-LiveTranslate-Flash, quant à lui, reproduit les caractéristiques vocales propres à l’orateur d’origine pendant la traduction elle-même. Une seule phrase prononcée suffit pour que le modèle procède à cette adaptation acoustique.

Pour les auditeurs, le résultat traduit donne l’impression que c’est la même personne qui s’exprime dans la langue cible, et non un substitut robotique. Que ce soit dans le cadre de l’interprétation de conférence en direct, de diffusions multilingues en direct ou d’appels clients internationaux, cet aspect est essentiel. L’expérience semble nettement plus humaine que ce qu’offrent les systèmes actuels.

À noter également, les noms propres et le vocabulaire spécialisé constituent un problème récurrent pour les modèles de traduction dans les contextes professionnels. Un modèle chargé de traduire un compte rendu médical peut systématiquement mal traduire le nom d’un médicament. Une séance d’interprétation juridique peut se heurter à un terme technique issu de la législation.

Les acteurs concernés devront s’adapter à ce nouveau contexte.

Sur le même sujet :

Lire l’article complet sur MarkTechPost : MarkTechPost