Récemment, je lisais une étude d'a16z, et il y avait une métaphore assez intéressante — les LLM vivent en fait dans l'éternel présent, comme le protagoniste amnésique du film « Memento ». Une fois entraînés, ils sont figés, les nouvelles informations ne peuvent pas y entrer, ils ne peuvent compter que sur des plugins comme les historiques de chat ou les systèmes de recherche pour faire face à l'urgence. Mais est-ce vraiment suffisant ?



De plus en plus de chercheurs pensent que ce n’est pas le cas. L’apprentissage contextuel est effectivement utile, mais il s’agit essentiellement d’une recherche d’informations, pas d’un apprentissage. Imaginez un tiroir infini où tout peut être trouvé, mais qui n’a jamais été forcé à comprendre, à compresser ou à internaliser réellement de nouvelles connaissances. Pour les problèmes qui nécessitent une véritable découverte — comme de nouvelles démonstrations mathématiques, des scénarios adverses, ou des connaissances trop implicites et inexpressibles par le langage — la simple recherche ne suffit sûrement pas.

C’est pourquoi la recherche sur l’apprentissage continu devient de plus en plus importante. La question centrale est simple : **où se produit la compression ?** Les systèmes actuels externalisent la compression à l’ingénierie des prompts, aux pipelines RAG, ou à des enveloppes intelligentes. Mais le mécanisme qui rendait le LLM puissant lors de l’entraînement — la compression avec perte, l’apprentissage au niveau des paramètres — est désactivé au moment du déploiement.

La communauté de recherche semble se diviser en trois voies. D’un côté, l’apprentissage contextuel, où les équipes optimisent les pipelines de recherche, la gestion du contexte, et les architectures multi-agents. C’est la voie la plus mature, avec des infrastructures déjà prouvées, mais le plafond est la longueur du contexte. De l’autre côté, l’apprentissage basé sur les poids, qui implique une mise à jour réelle des paramètres — couches de mémoire sparse, boucle d’apprentissage par renforcement, entraînement en test. Et au milieu, il y a la voie modulaire, qui utilise des modules de connaissances plug-and-play pour spécialiser sans toucher aux poids centraux.

L’approche basée sur les poids est particulièrement riche en recherches. Il y a des méthodes de régularisation (comme EWC), l’entraînement en test (descente de gradient lors de l’inférence), l’apprentissage par méta-apprentissage (faire apprendre au modèle comment apprendre), ainsi que l’auto-distillation et l’auto-amélioration récursive. Ces directions convergent, et la prochaine génération de systèmes pourrait probablement combiner plusieurs stratégies.

Mais il y a une question cruciale : la mise à jour naïve des poids pose de nombreux problèmes en production. L’oubli catastrophique, la désynchronisation temporelle, l’échec de l’intégration logique, sans parler du fait que l’opération d’oubli est fondamentalement difficile. Plus problématique encore, les enjeux de sécurité et de gouvernance — une fois que l’on ouvre la frontière entre entraînement et déploiement, l’alignement peut s’effondrer, les attaques par injection de données deviennent plus faciles, la traçabilité disparaît, et les risques pour la vie privée s’accroissent. Ce sont des questions ouvertes, mais elles figurent aussi dans le programme de recherche.

Ce qui est intéressant, c’est que l’écosystème entrepreneurial commence déjà à s’attaquer à ces niveaux. Sur le plan contextuel, des startups comme Letta, mem0, gèrent la stratégie de contexte ; du côté des poids, des équipes expérimentent la compression partielle, la boucle RL, les méthodes centrées sur les données, ou même la refonte architecturale radicale. Aucune approche n’a encore triomphé, et compte tenu de la diversité des cas d’usage, il ne faudrait probablement pas qu’un seul gagnant émerge.

D’un certain point de vue, nous sommes à un tournant. Les systèmes de recherche sont puissants, mais la recherche ne remplace jamais l’apprentissage. Un modèle capable de continuer à compresser l’expérience et à internaliser de nouvelles connaissances après déploiement, produirait une valeur composée de manière inédite par rapport aux systèmes actuels. Cela implique des avancées dans l’architecture sparse, l’auto-apprentissage, et la boucle d’auto-amélioration, mais cela pourrait aussi nous obliger à redéfinir le « modèle » lui-même — non pas comme un ensemble de poids fixes, mais comme un système en évolution.

L’avenir de l’apprentissage continu est ici. Un tiroir infini reste un tiroir, la percée réside dans la capacité du modèle à faire lors de son déploiement ce qui le rendrait puissant : compresser, abstraire, apprendre réellement. Sinon, nous risquons de rester enfermés dans notre éternel présent.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler