Découvrez Talkie-1930 : un grand modèle de langage (LLM) de type 13B à poids ouvert, formé sur des textes anglais antérieurs à 1931 pour la travaux de recherche en raisonnement historique et en généralisation

Le domaine de l’IA connaît encore aujourd’hui une évolution intéressante.

Découvrez Talkie-1930 : un grand modèle de langage (LLM) de type 13B à poids ouvert, formé sur des textes anglais antérieurs à 1931 pour la travaux de recherche en raisonnement historique et en généralisation

Et si un modèle d’IA linguistique n’avait jamais entendu parler d’Internet, des smartphones, ni même de la Seconde Guerre mondiale ? Ce n’est pas une hypothèse : c’est exactement ce qu’a mis au point une équipe de chercheurs dirigée par Nick Levine, David Duvenaud et Alec Radford. On l’appelle « Itmaybe », et il s’agit peut-être du modèle linguistique de grande envergure le plus rigoureusement formé sur le plan historique jamais mis à la disposition du public.

Talkie est un modèle linguistique à poids libre comptant 13 milliards de paramètres, formé exclusivement à partir de textes anglais antérieurs à 1931. Ce projet, développé par une équipe à but non lucratif, présente ce que les équipes de recherche appellent un « modèle d’IA linguistique vintage » : un modèle linguistique dont la limite de connaissances n’est pas liée à la date de son apprentissage, mais à un moment précis de l’histoire.

Pour comprendre Talkie, il faut d’abord en saisir le principe. La plupart des modèles de langage de grande échelle (LLM) modernes, tels que GPT-4, LLaMA, Mistral, etc., sont entraînés à partir d’énormes quantités de données issues du Web contemporain. Leurs connaissances reflètent le monde tel qu’il existe aujourd’hui, ou tel qu’il était à la date butoir de leur entraînement. Un modèle de langage vintage renverse complètement cette logique : il est délibérément entraîné uniquement sur des données historiques, de sorte que sa « vision du monde » est figée à un moment précis du passé.

Pour Talkie, cette date butoir est le 31 décembre 1930 — choisie précisément parce que c’est à cette date que les œuvres tombent dans le domaine public aux États-Unis, ce qui rend les textes antérieurs à 1931 légalement utilisables à des fins de formation.

Ce modèle — officiellement baptisé « talkie-1930-13b-base » — a été entraîné sur 260 milliards de tokens issus de textes anglais antérieurs à 1931, notamment des livres, des journaux, des revues, des revues scientifiques, des brevets et de la jurisprudence. Un système conversationnel distinct, « talkie-1930-13b-it », ayant fait l’objet d’un entraînement complémentaire, est aussi disponible pour une utilisation interactive. L’équipe a mis en place une démonstration en direct accessible 24 heures sur 24 et 7 jours sur 7 à l’adresse talkie-lm.com/chat, où Claude Sonnet 4.6 interroge en continu le modèle optimisé par des instructions, permettant ainsi aux visiteurs d’observer en temps réel la voix et les connaissances de Talkie.

Il ne s’agit pas d’un projet nostalgique. L’équipe de recherche a identifié plusieurs cas d’utilisation concrets et pertinents sur le plan technique qui rendent Talkie intéressant pour la communauté des équipes de recherche en IA.

Fait intéressant, 1. Expériences de généralisation sans contamination : la contamination des données de référence, qui se produit lorsque des éléments de test se retrouvent par inadvertance dans les données d’entraînement, est l’un des problèmes les plus persistants et les plus sous-estimés dans l’évaluation moderne des grands modèles de langage (LLM). Comme Talkie a été entraîné uniquement sur des textes antérieurs à 1931, il est, par définition, exempt de contamination par rapport à n’importe quel modèle de référence moderne. Cela offre un cadre expérimental vierge permettant de tester la capacité d’un modèle de langage à généraliser au-delà de ses éléments de pré-entraînement. Par exemple, l’équipe a vérifié si Talkie pouvait apprendre le Python — un langage qui n’existait pas en 1930 — en lui fournissant quelques exemples de démonstration en contexte. En utilisant le benchmark HumanEval, ils ont constaté que, même si les modèles traditionnels affichent des performances nettement inférieures à celles des modèles entraînés sur le Web, ils « s’améliorent lentement toutefois sûrement dans cette tâche à mesure que l’échelle augmente ».

À relever, 2. Évaluation des prévisions et de la surprise temporelle : s’inspirant des travaux de Calcifer Computing sur les modèles linguistiques temporels, l’équipe de travaux de recherche a utilisé Talkie pour mesurer le degré de surprise (exprimé en bits par octet) des descriptions d’événements historiques issues de la rubrique « On This Day » du New York Times. Les événements postérieurs à 1930 — date à laquelle le modèle cesse de disposer d’informations — sont systématiquement plus surprenants pour le modèle, cet effet étant particulièrement marqué pour les événements des années 1950 et 1960, avant de se stabiliser. Cela permet de mettre en place un cadre méthodologique pour étudier comment la capacité de prévision évolue en fonction de la taille du modèle et comment les performances diminuent à mesure que l’horizon temporel s’allonge.

L’avenir dira si cette annonce tient toutes ses promesses.

Pour aller plus loin :

Article original publié par MarkTechPost : MarkTechPost