OpenAI lance trois modèles audio en temps réel : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper dans l'API Realtime

L’actualité tech du jour met en lumière un développement significatif.

OpenAI lance trois modèles audio en temps réel : GPT-Realtime-2, GPT-Realtime-Translate et GPT-Realtime-Whisper dans l’API Realtime

OpenAI a publié trois nouveaux modèles audio via son API Realtime, chacun étant destiné à une fonctionnalité spécifique dans le domaine des applications vocales en direct : GPT-Realtime-2 pour les assistants vocaux dotés de aptitudes de raisonnement, GPT-Realtime-Translate pour la traduction vocale en direct et GPT-Realtime-Whisper pour la transcription en continu. Parallèlement à la publication des modèles, l’API Realtime sort officiellement de sa phase bêta et est désormais accessible à tous — un signal fort pour les développeurs qui avaient jusqu’à présent hésité à s’en servir pour créer des systèmes de production. Les trois modèles sont disponibles dès maintenant via l’API OpenAI et peuvent être testés dans le Playground.

Ensemble, ils font évoluer les applications vocales au-delà du simple cycle de questions-réponses, pour aboutir à des systèmes capables d’écouter, de raisonner, de traduire, de transcrire et d’agir au cours d’une même conversation.

Il faut souligner, le produit phare de cette sortie est GPT-Realtime-2, que l’équipe d’OpenAI décrit comme son premier système vocal doté d’une capacité de raisonnement comparable à celle de GPT-5. GPT-Realtime-2 est capable de traiter des requêtes plus complexes, de gérer les interruptions et de poursuivre les conversations de manière naturelle. OpenAI a étendu la fenêtre contextuelle du modèle de 32 000 à 128 000 tokens, ce qui permet des conversations plus longues et des tâches plus complexes sans perte de contexte.

Les modèles vocaux précédents avaient souvent tendance à se bloquer face à des demandes comportant de multiples étapes ou à perdre le fil du contexte lors de sessions prolongées. GPT-Realtime-2 est spécialement conçu pour maintenir le fil de la conversation tout en analysant une demande.

Autre élément, les développeurs peuvent activer de courtes phrases d’introduction — telles que « Je vais vérifier ça » ou « Un instant, je vais me renseigner » — afin que les usagers sachent que l’agent traite leur demande. Le modèle peut également faire appel à plusieurs outils simultanément et décrire ce qu’il fait au fur et à mesure ; ainsi, au lieu d’un silence gênant lors d’une tâche en plusieurs étapes, l’utilisateur bénéficie d’un commentaire en direct. Ces fonctionnalités remédient directement à l’un des problèmes les plus courants rencontrés avec les agents vocaux déployés : ce silence gênant qui donne l’impression que le mécanisme ne fonctionne pas.

Une fonctionnalité particulièrement utile pour les programmeurs en production est le réglage de l’effort de raisonnement. Les développeurs peuvent ajuster l’intensité du raisonnement sur cinq niveaux : minimal, faible, moyen, élevé et très élevé. La valeur par défaut est « faible » afin de limiter la latence pour les requêtes simples, tandis que les tâches plus complexes peuvent mobiliser davantage de ressources de calcul. Cela signifie que les équipes peuvent ajuster le compromis entre performances techniques et latence au niveau de la session en fonction du cas d’utilisation : une recherche rapide de client ne nécessite pas le même niveau de complexité de raisonnement qu’un processus de réservation de voyage en plusieurs étapes.

Une affaire qui méritera assurément d’être suivie de près.

À lire également :

Source originale : MarkTechPost : MarkTechPost