Sakana AI propose DiffusionBlocks : un cadre de formation par blocs qui convertit les réseaux résiduels en modules de débruitage pouvant être entraînés indépendamment

L’intelligence artificielle reste au cœur de toutes les attentions.

Sakana AI propose DiffusionBlocks : un cadre de formation par blocs qui convertit les réseaux résiduels en modules de débruitage pouvant être entraînés indépendamment

Des équipes de recherche de Sakana AI et de l’Université de Tokyo proposent des DiffusionBlocks. Il entraîne les réseaux basés sur des transformateurs un bloc à la fois. La mémoire d’entraînement est réduite d’un facteur B, où B est le nombre de blocs. Les performances sont maintenues sur diverses architectures.

La rétropropagation de bout en bout nécessite de stocker des activations intermédiaires sur chaque couche. La consommation de mémoire augmente de manière linéaire avec la profondeur du réseau. À mesure que les modèles s’approfondissent, cela devient un goulot d’étranglement important en matière de formation.

Les réseaux résiduels mettent à jour chaque entrée de couche via zℓ=zℓ−1+fθℓ(zℓ−1)zℓ = zℓ−1 + fθℓ (zℓ−1).

Une technique existante, le point de contrôle d’activation, réduit la mémoire d’activation en recalculant les activations à la demande. Toutefois, cela ne réduit pas la mémoire pour les paramètres, les gradients ou les états de l’optimiseur. Avec l’optimiseur Adam, chaque couche nécessite de la mémoire pour les paramètres, les gradients et deux états de l’optimiseur (impulsion et variance). Cela représente 4 fois la taille des paramètres par couche, inchangée par les points de contrôle d’activation.

La formation par blocs propose une approche différente. Le partitionnement d’un réseau en blocs B et l’entraînement de chacun indépendamment réduisent la mémoire à environ 1/B. La réduction est proportionnelle au nombre de blocs. Le défi consiste à définir un objectif local de principe pour chaque bloc, tout en produisant un modèle globalement cohérent.

Les approches antérieures telles que l’algorithme Forward-Forward de Hinton et la formation gourmande par couches reposent sur des objectifs locaux ad hoc. Ils sont systématiquement sous-performants en matière de formation de bout en bout et se limitent largement aux tâches de classification.

DiffusionBlocks comble à la fois le vide théorique et l’applicabilité limitée des méthodes antérieures.

Parallèlement, l’idée clé s’appuie sur un lien établi dans la littérature. Les réseaux résiduels mettent à jour chaque entrée de couche via zℓ=zℓ−1+fθℓ(zℓ−1)zℓ = zℓ−1 + fθℓ (zℓ−1). Cela correspond à la discrétisation d’Euler des équations différentielles ordinaires.

À suivre donc, dans un domaine qui n’a pas fini de nous surprendre.

À découvrir aussi :

D’après MarkTechPost : MarkTechPost