Sakana AI présente KAME : une architecture de synthèse vocale en tandem qui injecte des connaissances LLM en temps réel

L’actualité tech du jour met en lumière un développement significatif.

Sakana AI présente KAME : une architecture de synthèse vocale en tandem qui injecte des connaissances LLM en temps réel

La tension fondamentale dans l’IA conversationnelle a toujours été un choix binaire : réagir en peu de temps ou réagir intelligemment. Les modèles de synthèse vocale en temps réel (S2S) – ceux qui alimentent les assistants vocaux à sensation naturelle – commencent à parler presque instantanément, cependant leurs réponses ont tendance à être superficielles. Les systèmes en cascade qui acheminent la parole via un grand modèle de langage (LLM) sont beaucoup plus compétents, mais le délai de pipeline est suffisamment long pour donner l’impression que la conversation est guinchée et robotique. Les scientifiques de Sakana AI, le laboratoire d’IA basé à Tokyo, présentent KAME (Knowledge-Access Model Extension), une architecture hybride qui maintient la latence de réponse proche de zéro d’un système S2S direct tout en injectant les connaissances plus riches d’un LLM back-end en temps réel.

Pour comprendre pourquoi KAME est important, il est utile de comprendre les deux conceptions dominantes qu’il relie.

En complément, un modèle S2S direct comme Moshi (développé par KyutAI) est un transformateur monolithique qui prend en charge les jetons audio et produit des jetons audio en boucle continue. Comme il n’a pas besoin de se synchroniser avec des systèmes externes, sa latence de réponse est exceptionnellement faible : pour de nombreuses requêtes, le modèle commence à parler avant même que l’utilisateur ait terminé sa question. Mais comme les signaux acoustiques sont beaucoup plus denses en informations que le texte, le modèle doit consacrer une capacité importante à modéliser des caractéristiques paralinguistiques telles que le ton, l’émotion et le rythme. Cela laisse moins de place à la connaissance factuelle et à un raisonnement approfondi.

Un dispositif en cascade, en revanche, achemine la parole de l’utilisateur via un modèle de reconnaissance automatique de la parole (ASR), alimente le texte résultant dans un puissant LLM, puis reconvertit la réponse du LLM en parole via un moteur de synthèse vocale (TTS). La qualité des connaissances est excellente — vous pouvez brancher n’importe quel LLM frontière — mais le mécanisme doit attendre que l’utilisateur ait fini de parler avant même que le traitement ASR et LLM puisse commencer. Le résultat est une latence médiane d’environ 2,1 secondes, ce qui est suffisamment long pour interrompre sensiblement le flux naturel d’une conversation.

KAME fonctionne comme un dispositif tandem avec deux composants asynchrones fonctionnant en parallèle.

Fait intéressant, le module frontal S2S est basé sur l’architecture Moshi et traite l’audio en temps réel selon le cycle de jetons audio discrets (environ toutes les 80 millisecondes). Il commence immédiatement à générer une réponse vocale. En interne, la conception originale à trois flux de Moshi – audio d’entrée, monologue interne (texte) et audio de sortie – est étendue dans KAME avec un quatrième flux : le flux théoracle. C’est le point clé de l’innovation.

L’évolution de ce dossier sera à suivre avec attention.

À découvrir aussi :

Reportage initial : MarkTechPost : MarkTechPost