Découvrez OpenJarvis : un framework axé sur le local pour les agents IA personnels embarqués, doté d'outils, d'une mémoire et de capacités d'apprentissage

Un nouveau jalon vient d’être franchi dans l’univers de l’intelligence artificielle.

Découvrez OpenJarvis : un framework axé sur le local pour les agents IA personnels embarqués, doté d’outils, d’une mémoire et de capacités d’apprentissage

Des chercheurs de l’université de Stanford et de Lambda Labs ont publié un article de recherche consacré à OpenJarvis, un framework open source qui exécute l’inférence, les agents, la gestion de la mémoire et l’apprentissage entièrement sur l’appareil.

Les modèles à poids libre configurés via OpenJarvis se situent en moyenne à moins de 3,2 points de pourcentage du meilleur modèle cloud, avec un coût marginal par requête environ 800 fois inférieur et une latence environ 4 fois plus faible selon le protocole de référence utilisé dans le cadre de cette étude. Ce travail de recherche s’appuie sur l’étude précédente de l’équipe de recherche intitulée « Intelligence Per Watt », qui indiquait que les modèles locaux traitent déjà 88,7 % des requêtes de conversation et de raisonnement en un seul tour avec une latence interactive, l’efficacité de l’intelligence devant être multipliée par 5,3 entre 2023 et 2025.

Le « teacher » n’est utilisé qu’au moment de la recherche ; à raison de 100 requêtes par jour, le coût amorti du « teacher » passe sous la barre des 0,001 $ par requête en moins de six mois.

OpenJarvis n’est pas un modèle unique. Il s’agit d’un cadre permettant d’associer n’importe quel modèle pris en charge à une pile d’agents configurable, qui a été évalué sur 11 modèles locaux issus de quatre familles.

OpenJarvis décompose un dispositif d’IA personnel en cinq primitives typées, assemblées à l’aide d’un seul objet de configuration déclaratif appelé « aspec ».

Chaque élément de base peut être remplacé indépendamment, et une spécification permet de sérialiser les cinq éléments dans un fichier TOML. Deux spécifications peuvent partager la même configuration d’agent et d’outil et ne différer que par le modèle et le moteur ; de ce fait, le même comportement s’exécute aussi bien sur un Mac Mini que sur une station de travail sans qu’il soit nécessaire de réécrire les invites.

La exploration de spécifications guidée par un LLM constitue la deuxième contribution. Il s’agit d’une collaboration entre le niveau local et le cloud : un modèle de cloud de pointe joue le rôle de « tuteur » au moment de la recherche, en analysant les traces, en identifiant les sources d’échec et en proposant des modifications au niveau de l’intelligence, du moteur, des agents, ainsi que des outils et de la mémoire. Une modification n’est acceptée que si elle améliore le cluster de défaillance cible sans entraîner de régressions significatives ailleurs — l’équipe de exploration appelle cela le « gate » (tolérance par défaut de 1 %). La spécification optimisée s’exécute alors entièrement sur l’appareil au moment de l’inférence, sans aucun appel vers le cloud. Le « teacher » n’est utilisé qu’au moment de la recherche ; à raison de 100 requêtes par jour, le coût amorti du « teacher » passe sous la barre des 0,001 $ par requête en moins de six mois.

Les travaux antérieurs (GEPA, DSPy, LoRA) optimisent une primitive à la fois, et les optimiseurs de prompts, à eux seuls, ne permettent de réduire l’écart entre le cloud et le local que d’environ 5 pp. La recherche de spécifications guidée par LLM rend possible de combler 13 à 32 points de performance, car elle modifie conjointement toutes les primitives, avec un coût d’optimisation 7 à 11 fois inférieur à celui des modèles de référence à primitive unique. L’espace de recherche à quatre primitives apporte un gain de 5,5 à 16,5 points de pourcentage, et l’algorithme LLM ajoute en moyenne environ 10 points de pourcentage lors d’une exploration évolutive sur le même espace de recherche.

Pour faire simple :

Chaque élément de base peut être remplacé indépendamment, et une spécification permet de sérialiser les cinq éléments dans un fichier TOML.
La spécification optimisée s’exécute alors entièrement sur l’appareil au moment de l’inférence, sans aucun appel vers le cloud.

À suivre donc, dans un domaine qui n’a pas fini de nous surprendre.

À découvrir aussi :

Le nouveau modèle Gemma 4 12B de Google est conçu pour fonctionner sur n’importe quel ordinateur portable doté de 16 Go de mémoire vive

Lire l’article complet sur MarkTechPost : MarkTechPost