StepFun lance StepAudio 2.5 Realtime : un modèle vocal de bout en bout doté d'un RLHF (apprentissage par renforcement) adapté aux jeux de rôle et d'une compréhension paralinguistique

L’actualité du jour apporte un éclairage intéressant sur l’évolution du domaine.

StepFun lance StepAudio 2.5 Realtime : un modèle vocal de bout en bout doté d’un RLHF (apprentissage par renforcement) adapté aux jeux de rôle et d’une compréhension paralinguistique

StepFun, le laboratoire d’IA basé à Shanghai, a lancé StepAudio 2.5 Realtime. Il s’agit d’un modèle linguistique de grande envergure de traitement de la parole en temps réel de bout en bout, doté de aptitudes de personnalisation entièrement modulables.

De plus, stepAudio 2.5 Realtime est un modèle d’IA vocal fonctionnant en temps réel. Contrairement aux systèmes en pipeline qui séparent la reconnaissance vocale, le raisonnement et la synthèse en étapes séquentielles, il s’agit ici d’un modèle de bout en bout. Le signal audio entre et sort par un mécanisme unique et unifié. Le modèle prend en charge le chinois et l’anglais.

Celle-ci a été combinée à des millions d’exemples de conversations réelles pour l’entraînement.

La connexion s’effectue via une API WebSocket. Le point de terminaison est wss://api.stepfun.com/v1/realtime, en utilisant le système « step-2.5-realtime ».

L’équipe de recherche de StepFun décrit trois innovations architecturales fondamentales qui sous-tendent ce modèle :

À partir de plus de 10 000 personas de haute qualité créés en interne, StepFun a utilisé des techniques d’augmentation algorithmique pour construire une matrice de caractéristiques de personas à l’échelle du million. Celle-ci a été combinée à des millions d’exemples de conversations réelles pour l’entraînement. L’objectif est la généralisation — plus précisément, des performances stables sur des sujets de conversation complexes et de niche.

À relever, au lieu d’étiqueter manuellement des millions d’échantillons de personas, l’équipe de StepFun a eu recours à une expansion algorithmique à partir d’un ensemble de données de départ soigneusement sélectionnées.

L’un des problèmes courants de l’IA conversationnelle est le comportement « hors personnage » (OOC), c’est-à-dire lorsque, au cours d’une conversation, un modèle s’écarte de la personnalité qui lui a été attribuée. L’équipe StepFun a mené un projet d’optimisation spécifique par apprentissage par renforcement à partir du retour d’information humain (RLHF), visant précisément à garantir la cohérence de la personnalité dans des scénarios de jeu de rôle. La RLHF est une technique d’apprentissage qui consiste à utiliser les signaux de préférence humaine pour entraîner un modèle de récompense, lequel guide ensuite le comportement du modèle d’IA linguistique. Son application spécifique à la stabilité des jeux de rôle relève d’un choix de conception délibéré.

Les retombées concrètes se feront sentir dans les mois qui viennent.

Dans le même ordre d’idées :

Selon l’information initialement publiée par MarkTechPost : MarkTechPost