TinyFish lance BigSet : un système multi-agent open source qui crée des ensembles de données structurés en direct à partir de descriptions en anglais simple

Les dernières heures ont apporté leur lot d’informations dans l’écosystème IA.

TinyFish lance BigSet : un système multi-agent open source qui crée des ensembles de données structurés en direct à partir de descriptions en anglais simple

Construire un ensemble de données structurées à partir du Web reste un problème de pipeline. Vous identifiez une source de données, écrivez ou configurez un scraper, concevez un schéma, gérez la déduplication, planifiez les actualisations et corrigez les pannes lorsque les sites en amont changent. Ce processus reste à peu près le même, que vous le fassiez une ou cent fois.

Parallèlement, tinyFish publie directement BigSetto pour ce flux de travail. Bigset est un dispositif multi-agent open source sous licence AGPL-3.0. Il prend une description en langage naturel en entrée et renvoie un ensemble de données structuré et exportable construit à partir de données Web en direct. La base de code complète est disponible sur GitHub.

Une fonctionnalité d’actualisation programmée permet aux ensembles de données de se mettre à jour automatiquement.

Point notable, bigset se positionne comme la couche entre une exigence de données et une table utilisable. Vous décrivez ce que vous voulez dans une phrase. Le système déduit le schéma, envoie des agents pour collecter les données, déduplique les résultats et produit un fichier CSV ou XLSX téléchargeable.

Un exemple pratique : vous tapez « Entreprises YC qui recrutent actuellement des ingénieurs, avec leur niveau de financement, leur emplacement et le nombre de postes ouverts ». Bigset déduit les colonnes que cela implique, trouve les entités pertinentes sur le Web et remplit les lignes. Vous ne spécifiez pas d’URL. Vous ne configurez pas les sélecteurs. Vous décrivez les données.

Une fonctionnalité d’actualisation programmée permet aux ensembles de données de se mettre à jour automatiquement. Vous définissez une cadence – 30 minutes, 6 heures, 12 heures, quotidienne, hebdomadaire – et les agents réexécutent selon ce planning. Le tableau reste à jour sans réexécuter la tâche manuellement.

Précisons, une remarque pratique : la génération d’un ensemble de informations prend 2 à 5 minutes. Les agents effectuent de véritables recherches sur le Web : ils recherchent, récupèrent des pages et vérifient les informations. Ce n’est pas un résultat instantané.

De plus, l’architecture ici mérite d’être comprise concrètement. BigSet n’est pas un seul appel LLM avec un outil de recherche Web attaché. Il gère un mécanisme d’agents structuré à deux niveaux.

Cette actualité s’inscrit dans une dynamique plus large qui mérite d’être suivie.

À lire également :


Article original publié par MarkTechPost : MarkTechPost