Faire progresser l'intelligence vocale grâce à de nouveaux modèles dans l'API

Une évolution notable vient d’être rendue publique dans le domaine.

Faire progresser l’intelligence vocale grâce à de nouveaux modèles dans l’API

Une nouvelle génération de modèles vocaux en temps réel capables de raisonner, de traduire et de transcrire pendant que les gens parlent.

Nous lançons trois modèles audio dans l’API qui ouvrent la voie à une nouvelle génération d’applications vocales pour les développeuses et développeurs. Grâce à ces modèles, les développeurs peuvent créer des expériences vocales plus naturelles, plus réactives et capables d’agir en temps réel :

À ce sujet, une fois la séance commencée, essayez de dire l’une de ces phrases :

À noter également, la commande vocale est en train de devenir l’un des moyens les plus naturels d’utiliser un logiciel. Elle permet de demander de l’aide au volant, de modifier un itinéraire en traversant un aéroport, d’obtenir de l’aide dans sa langue préférée ou d’effectuer une tâche sans avoir à s’arrêter pour taper du texte.

Mais pour créer des produits vocaux utiles, il ne suffit pas d’assurer un échange fluide ou d’offrir une voix au son naturel. Un assistant vocal doit comprendre le sens des propos, garder le fil du contexte, s’adapter lorsque la demande évolue, utiliser des outils tout en poursuivant la conversation et répondre d’une manière qui semble appropriée au contexte.

Ensemble, les modèles que nous lançons font évoluer l’audio en temps réel, passant d’un simple système de questions-réponses à des interfaces vocales capables d’accomplir de véritables tâches : écouter, raisonner, traduire, transcrire et agir au fur et à mesure que la conversation se déroule.

À mesure que la commande vocale s’impose comme un moyen plus naturel d’exploiter les logiciels, nous constatons que les développeuses et développeurs s’appuient sur trois nouvelles tendances en matière d’IA vocale :

Ces modèles peuvent par ailleurs être combinés. Priceline œuvre à la mise en place d’un avenir où les voyageurs pourront gérer l’intégralité de leur voyage à l’aide de la commande vocale : rechercher des vols et des hôtels de manière conversationnelle, gérer les modifications (comme ajuster une réservation d’hôtel suite à un retard de vol) ou obtenir des informations en temps réel sur les temps d’attente aux contrôles de sécurité, et traduire les conversations une fois sur place.

Le contexte technologique évolue, et ce type d’annonce en témoigne.

À lire également :

Reportage initial : OpenAI : OpenAI