Découvrez OmniVoice Studio : une alternative locale et open source à ElevenLabs

L’intelligence artificielle reste au cœur de toutes les attentions.

Découvrez OmniVoice Studio : une alternative locale et open source à ElevenLabs

ElevenLabs facture entre 5 et 330 dollars par mois pour ses services d’IA vocale. Chaque fichier audio que vous traitez passe par leurs serveurs cloud. Pour ceux qui recherchent une alternative open source à ElevenLabs, OmniVoice Studio constitue un bon choix : il s’agit d’une application de bureau open source qui effectue localement les mêmes types de tâches. Il s’agit d’un projet individuel très intéressant qui traite du clonage vocal, du doublage vidéo, de la dictée en temps réel, de l’isolation vocale et de la diarisation des locuteurs — sans envoyer de données vers un serveur externe.

À ce sujet, l’application regroupe six fonctionnalités distinctes. En comprendre chacune permet de mieux saisir le fonctionnement interne du système.

De plus, le clonage vocal fonctionne à partir d’un extrait audio de 3 secondes. Le système utilise l’apprentissage « zero-shot », ce qui signifie qu’il clone une voix sur laquelle il n’a jamais été entraîné auparavant. Pour ce faire, il conditionne un modèle de synthèse vocale basé sur la diffusion à partir de ce court extrait audio de référence. Le modèle sous-jacent, OmniVoice de k2-fsa, prend en charge plus de 600 langues.

À relever, la conception vocale vous autorise de créer une nouvelle voix à partir de paramètres tels que le sexe, l’âge, l’accent, la hauteur de voix, la vitesse, l’émotion et le dialecte, sans cloner aucune voix existante.

La fonctionnalité de doublage vidéo prend en charge une URL YouTube ou un fichier vidéo local. Elle effectue une transcription à l’aide de WhisperX, traduit la transcription, synthétise un récent fichier audio à l’aide du moteur TTS, puis exporte un fichier MP4. L’ensemble du processus s’exécute en local.

Le widget de dictée est une fenêtre flottante accessible depuis n’importe quelle application du système. Sous macOS, il s’active à l’aide de la combinaison de touches ⌘+⇧+Espace depuis n’importe quelle application. Il transmet la transcription via WebSocket et insère automatiquement le résultat dans l’application active.

À noter également, la file d’attente par lots vous permet d’ajouter jusqu’à 50 vidéos et de passer à autre chose, grâce à des barres de progression spécifiques à chaque tâche qui vous permettent de suivre le déroulement de chacune d’entre elles tout au long du processus.

Le serveur MCP met les fonctionnalités d’OmniVoice Studio à la disposition de n’importe quel client MCP, qu’il s’agisse de Claude, de Cursor ou de vos propres outils.

Cette nouvelle étape pose plusieurs questions qui restent ouvertes.

Sur le même sujet :

Mettre en place un pipeline complet d’observabilité et d’évaluation Langfuse pour le traçage, la gestion des invites, l’évaluation et les expériences

Information rapportée par MarkTechPost : MarkTechPost