Moins coûteuse, plus rapide et adaptée au contexte culturel, l'IA vidéo d'Avataar est conçue pour répondre aux besoins d'un marché de l'envergure de l'Inde

Le secteur technologique continue de livrer des avancées remarquables.

Moins coûteuse, plus rapide et adaptée au contexte culturel, l’IA vidéo d’Avataar est conçue pour répondre aux besoins d’un marché de l’envergure de l’Inde | TechCrunch

Le développement de modèles d’IA en Inde a été plus lent que celui des États-Unis, de l’Europe et de la Chine. Seules quelques start-ups lancent des modèles, et la plupart d’entre eux sont des modèles linguistiques de grande envergure ou des modèles vocaux. Afin de stimuler le avancée, le gouvernement a lancé l’« India AI Mission », une initiative d’environ 1,2 milliard de dollars qui, entre autres, permet à certaines start-ups sélectionnées d’accéder à des ressources de calcul GPU subventionnées en échange de la mise à disposition publique de leurs modèles. L’une des 12 start-ups sélectionnées pour le programme, Avataar AI, a lancé un nouveau modèle d’IA vidéo baptisé Varya, conçu pour comprendre le contexte local — notamment en identifiant les différentes fêtes, les spécialités culinaires et les vêtements.

Cette start-up soutenue par Peak XV, spécialisée dans la création d’outils vidéo pour le commerce électronique, n’a pas développé Varya à partir de zéro. Elle est partie de Wan 2.2, un modèle de génération vidéo accessible au public publié par Alibaba, et a utilisé une technique appelée « distillation » — qui consiste essentiellement à condenser les capacités du modèle en une version plus légère et plus rapide, optimisée pour les cas d’utilisation spécifiques d’Avataar. Le résultat est un modèle qui s’exécute en quatre étapes au lieu des 50 de Wan 2.2, ce qui permet de générer des vidéos dix fois plus rapidement et à un coût bien moindre.

Concrètement, cela signifie qu’avec un GPU NVIDIA H200, Varya peut générer un clip de 5 secondes en 720p en 45 secondes, contre 1 230 secondes pour Wan 2.2.

À ce sujet, ce qui frappe le plus chez Varya, c’est sans doute son prix. La société prévoit de facturer 0,48 roupie (0,005 dollar) par seconde de vidéo sur son service hébergé — un prix bien inférieur à celui de modèles tels que Veo, Kling, Luma et Runway, qui facturent généralement 0,10 dollar ou plus par seconde. Cela représente une différence de prix d’environ 20 fois.

« L’Inde est un marché où la vidéo occupe une place prépondérante. On le constate dans tous les grands produits Internet grand public en Inde : la vidéo l’emporte sur le texte. Les modèles d’IA vidéo actuels sont trop coûteux pour être utilisés à l’échelle de la population indienne. Si l’IA vidéo doit toucher les étudiants, les enseignants, les micro, petites et moyennes entreprises, les créateurs, les grandes entreprises et les services publics, les coûts doivent baisser considérablement. » « Le coût est le principal obstacle à l’adoption de l’IA en Inde », a déclaré Rajan Anandan, directeur général de Peak XV, à TechCrunch.

Les modèles de génération d’images et de vidéos passent souvent à côté des nuances culturelles et produisent des résultats stéréotypés ou génériques — un problème sur lequel TechCrunch s’est déjà penché. Avataar AI affirme avoir utilisé des données soigneusement sélectionnées pour former Varya à reconnaître ces nuances culturelles, notamment en matière de cuisine, de vêtements, d’architecture et de fêtes.

Varya sera mise à disposition en tant que modèle d’IA open-source sur le portail AI Kosh de l’Inde — le référentiel centralisé du gouvernement indien pour les modèles d’IA et les ensembles de éléments accessibles au public —, accompagnée de ses données d’entraînement. Les développeurs pourront ainsi l’héberger eux-mêmes ou la modifier en fonction de leurs propres besoins. Avataar prévoit en outre de mettre ce modèle à la disposition de ses clients professionnels et se dit ouvert à des partenariats avec des outils vidéo tels que Higgsfield et Adobe Firefly. Tout le monde peut dès à présent l’essayer sur son site web en utilisant des instructions textuelles ou des images de référence.

Les retombées concrètes se feront sentir dans les mois qui viennent.

Sur le même sujet :

Google AI lance DiffusionGemma, un modèle ouvert de 26 milliards de paramètres utilisant la diffusion de texte pour une génération jusqu’à quatre fois plus rapide

D’après TechCrunch AI : TechCrunch AI