NVIDIA lance Polar, un cadre de déploiement fidèle aux jetons pour la formation GRPO sur le Codex, Claude Code et Qwen Code

Nouvelle étape franchie dans l’univers des technologies d’intelligence artificielle.

NVIDIA lance Polar, un cadre de déploiement fidèle aux jetons pour la formation GRPO sur le Codex, Claude Code et Qwen Code

L’apprentissage par renforcement pour les agents linguistiques devient de plus en plus complexe. Les agents gèrent désormais l’utilisation d’outils multi-tours, les contextes de longue durée et l’orchestration multi-agents. Le principal défi d’ingénierie consiste à connecter les logiciels d’agent existants aux pipelines de formation sans perturber le fonctionnement de ces outils.

À ce sujet, l’équipe de recherche de NVIDIA a présenté Polar, un framework de déploiement qui offre la possibilité aux chercheurs d’exécuter un apprentissage par renforcement sur n’importe quel harnais d’agent sans modifier ce harnais.

Cette intégration peut également perdre des détails d’exécution spécifiques au chemin de harnais natif.

À ce sujet, un « harnais d’agent » est un outil comme Codex CLI, Claude Code, Qwen Code ou Pi. Ces harnais gèrent les invites du système, le formatage des outils, l’ingénierie du contexte et la manière dont l’agent soumet les correctifs. Ces détails affectent directement le comportement de l’agent au moment de l’évaluation.

À noter également, l’infrastructure RL traditionnelle nécessite que la logique du harnais soit réécrite derrière une API d’environnement appartenant au framework – généralement env.init(),env.step(),env.reset() dans le style OpenAI Gym. Chaque nouveau harnais nécessite un nouveau code d’intégration. Cette intégration peut également perdre des détails d’exécution spécifiques au chemin de harnais natif.

L’observation clé de Polar est que chaque agent basé sur LLM doit appeler un modèle. Cette limite d’API de système est une interface commune en dehors de l’agent lui-même. Au lieu de s’intégrer à l’intérieur du harnais, Polar place un proxy à cette limite.

Pour chaque demande de système entrante, le proxy de passerelle effectue quatre étapes :

Pour les demandes de streaming, Polar obtient une réponse en amont sans streaming et émet un flux synthétique en forme de fournisseur. Cela préserve la compatibilité avec les harnais qui attendent des événements envoyés par le serveur tout en garantissant une capture complète des jetons.

Ce qu’il faut noter :

Au lieu de s’intégrer à l’intérieur du harnais, Polar place un proxy à cette limite.
Pour chaque demande de système entrante, le proxy de passerelle effectue quatre étapes :
Pour les demandes de streaming, Polar obtient une réponse en amont sans streaming et émet un flux synthétique en forme de fournisseur.

L’avenir dira si cette annonce tient toutes ses promesses.

Sur le même sujet :

Source : MarkTechPost : MarkTechPost