Inworld AI lance Realtime TTS-2 : un système vocal en boucle fermée qui s'adapte à votre façon de parler

Nouvelle information marquante dans l’actualité IA.

Inworld AI lance Realtime TTS-2 : un système vocal en boucle fermée qui s’adapte à votre façon de parler

L’IA vocale cache un secret inavouable : la plupart de ces systèmes n’ont jamais été conçus pour la conversation. Le modèle dominant — on entre du texte, on obtient un fichier audio — trouve ses origines dans la narration de livres audio et la production de voix off, où le modèle n’entend jamais la personne à l’autre bout. Cela convient parfaitement lorsqu’il s’agit de générer l’intro d’un podcast. Cependant ce n’est pas le cas lorsqu’un utilisateur exaspéré tente d’obtenir de l’aide auprès d’un agent IA à 23 heures.

Point notable, inworld AI met directement l’accent sur ce point avec le lancement de Realtime TTS-2, un nouveau modèle vocal proposé en avant-première à des fins de travaux de recherche via ses interfaces Inworld API et Inworld Realtime API. Le modèle analyse l’intégralité de l’enregistrement audio de l’échange, détecte le ton, le rythme et l’état émotionnel de l’utilisateur, puis suit des instructions vocales formulées en anglais courant, à l’instar de la manière dont les développeurs interpellent un modèle de langage de grande capacité (LLM).

La principale différence architecturale du TTS-2 réside dans le fait qu’il fonctionne comme un système en boucle fermée. Le modèle utilise comme entrée l’enregistrement audio réel des échanges précédents, et pas seulement une transcription : il perçoit la façon dont l’utilisateur s’est réellement exprimé. C’est une différence non négligeable. Une transcription de « d’accord, fortement bien » ne vous donne que les mots. L’enregistrement audio de « d’accord, particulièrement bien » vous autorise de savoir si la personne est soulagée, résignée ou sarcastique. Le TTS-2 est conçu pour exploiter ce signal.

Sur ce point, une même réplique est perçue différemment selon qu’elle suit une blague ou une mauvaise nouvelle, et le modèle sait faire la différence car il a entendu le tour de parole précédent. Le ton, le rythme et l’état émotionnel sont automatiquement pris en compte. Concrètement, le contexte audio se transmet d’un tour de parole à l’autre au sein d’une session en temps réel, sans que les développeurs aient besoin de transmettre explicitement des champs audio antérieurs ni de mettre en place une infrastructure supplémentaire.

Notons par ailleurs, l’équipe d’Inworld commercialise le TTS-2 en mettant en avant quatre fonctionnalités clés, en positionnant l’ensemble du produit, et non pas un élément en particulier, comme argument de différenciation.

Au-delà de ces quatre caractéristiques principales, il met en évidence un ensemble de comportements qui font évoluer le discours vers ce qu’il qualifie de « mode d’écoute attentive ». Le plus intéressant d’un point de vue technique concerne les disfluences : le modèle génère des hésitations naturelles, des autocorrections, des pauses au milieu d’une expression nominale et des digressions qui traduisent la chaleur humaine et le souvenir plutôt qu’un dysfonctionnement. Il est notable de noter que les différents profils de locuteurs regroupent les interjections de manière différente, et que le modèle suit le rythme : une interjection utilisée pour donner de l’énergie ne sonne pas de la même manière qu’une interjection utilisée pour marquer une hésitation. Le clonage de voix est également pris en charge via une API en deux étapes : téléchargez un échantillon de référence (5 à 15 secondes, sans bruit de fond, un seul locuteur) vers /voices/v1/voices:clone, obtenez un identifiant de voix, puis utilisez-le comme n’importe quelle autre voix.

TTS-2 constitue l’une des composantes du pipeline d’API en temps réel d’Inworld. L’ensemble de la pile comprend la technologie STT en temps réel, qui transcrit et établit le profil de l’orateur en une seule étape, en capturant l’âge, l’accent, la hauteur de voix, le style vocal, la tonalité émotionnelle et le rythme sous forme de signaux structurés sur la même connexion. Un routeur en temps réel qui achemine les requêtes à travers plus de 200 modèles, en sélectionnant le modèle et les outils appropriés en fonction de l’état de l’utilisateur et du contexte de la conversation. Et TTS-2 au niveau de la couche de sortie. Le pipeline fonctionne via une seule connexion WebSocket persistante, avec un temps médian de moins de 200 ms avant la première sortie audio pour la couche TTS.

L’écosystème continuera probablement de s’ajuster dans les semaines à venir.

Sur le même sujet :

Tel que rapporté par MarkTechPost : MarkTechPost