Découvrez Harness-1 : un sous-agent de récupération de 20 milliards de mots formé par apprentissage par renforcement au sein d'un harnais de recherche à état sur gpt-oss-20b

Le secteur de l’IA vient d’être le théâtre d’un développement notable.

Découvrez Harness-1 : un sous-agent de récupération de 20 milliards de mots formé par apprentissage par renforcement au sein d’un harnais de recherche à état sur gpt-oss-20b

Harness-1 atteint un taux de rappel moyen de 0,730 sur huit tests de référence, se classant juste derrière Opus-4.6 parmi les moteurs de travaux de recherche testés.

La plupart des agents de recherche sont entraînés sous forme de politiques à partir d’un historique croissant. Le modèle décide de la manière de mener la recherche. Il doit en outre se souvenir de ce qu’il a vu, des indices pertinents et des hypothèses qu’il a vérifiées. Une équipe de chercheurs de l’université de l’Illinois à Urbana-Champaign, de l’université de Californie à Berkeley et de Chroma estime que cela représente une charge trop importante. L’apprentissage par renforcement finit par optimiser à la fois les décisions de recherche et la gestion courante des données.

Sur ce point, leur réponse est Harness-1, un sous-agent de recherche de 20 milliards de mots basé sur gpt-oss-20b. Il a été formé par apprentissage par renforcement au sein d’un harnais de recherche à état. Le harnais se charge de la gestion des données. La politique prend les décisions sémantiques. Les poids et le code du harnais sont mis à la disposition du public.

Notons par ailleurs, harness-1 génère un ensemble classé de documents destinés à un modèle de réponse en aval. Il ne répond pas lui-même aux questions. Il s’exécute au sein d’un harnais de machine à états articulé autour d’une mémoire de travail (WORKINGMEMORY) propre à chaque épisode.

À ce sujet, chaque itération fonctionne comme une boucle. Le harnais génère un état de exploration compact ainsi que les actions récentes. Le modèle émet une action structurée. Le harnais l’exécute, met à jour l’état et génère l’observation suivante.

L’équipe de exploration appelle ce principe « déchargement cognitif avec gestion de l’état ». La politique détermine ce qu’il faut rechercher, sélectionner et vérifier, de ce fait que le moment où il faut s’arrêter. Le harnais conserve l’état récupérable lié à ces décisions.

À suivre donc, dans un domaine qui n’a pas fini de nous surprendre.

Dans le même ordre d’idées :

Lire l’article original sur MarkTechPost : MarkTechPost