Context Engineering : la Mémoire des Agents IA Change Tout

Un agent IA peut résoudre un bug en 30 secondes. Mais demande-lui demain de continuer le même projet — il a tout oublié. 50 000 développeurs viennent de mettre une étoile sur claude-mem, un plugin qui donne une mémoire persistante à Claude Code. Au même moment, le fichier CLAUDE.md d’Andrej Karpathy dépasse les 13 000 stars sur GitHub. Et un paper accepté à ICML 2025, HippoRAG 2, prouve qu’on peut donner aux LLMs une mémoire qui rivalise avec la nôtre.

Le message est clair : le goulot d’étranglement des agents IA n’est plus l’intelligence. C’est la mémoire.

Bienvenue dans l’ère du context engineering — le skill qui va séparer ceux qui utilisent l’IA de ceux qui la maîtrisent vraiment.

Qu’est-ce que le context engineering (et pourquoi ça remplace le prompt engineering) ?

Le terme a été popularisé par Tobi Lutke, CEO de Shopify, puis amplifié par Andrej Karpathy en juin 2025 : le context engineering, c’est l’art de fournir au LLM exactement le bon contexte pour accomplir sa tâche. Pas un prompt magique — un ensemble complet d’informations.

La nuance est importante. Le prompt engineering, c’est écrire une bonne instruction. Le context engineering, c’est orchestrer tout ce qui entre dans la fenêtre de contexte : l’instruction, oui, mais aussi les données pertinentes, l’historique des sessions précédentes, les outils disponibles, les exemples, et la mémoire du projet.

« Les gens associent le prompt engineering à taper des choses dans un chatbot. Le context engineering décrit mieux le vrai skill : l’art de fournir tout le contexte nécessaire pour que la tâche soit plausiblement résoluble par le LLM. » — Tobi Lutke, CEO de Shopify

Pourquoi ça devient critique en 2026 ? Parce que les agents IA ne sont plus des chatbots. Claude Code, Codex, Hermes Agent — ces outils enchaînent des dizaines d’actions sur ton code, tes fichiers, tes API. Chaque action consomme du contexte. Et quand la fenêtre se remplit, les performances se dégradent : l’agent oublie les premières instructions, fait des erreurs, tourne en rond.

Selon la documentation officielle d’Anthropic sur les bonnes pratiques de Claude Code : « La fenêtre de contexte est la ressource la plus importante à gérer. Les performances du LLM se dégradent à mesure qu’elle se remplit. »

Le context engineering n’est donc pas un concept théorique. C’est un problème d’ingénierie concret. Et en 2026, trois niveaux de solutions émergent.

Niveau 1 — Le contexte statique : CLAUDE.md, le fichier qui rend les agents plus malins

Le premier niveau de context engineering est le plus simple : donner à l’agent les bonnes informations dès le départ.

C’est exactement le rôle du fichier CLAUDE.md. Placé à la racine d’un projet, ce fichier Markdown est lu automatiquement par Claude Code à chaque début de session. Il contient les conventions du projet, l’architecture, les pièges à éviter, les patterns à suivre.

Andrej Karpathy a identifié quatre problèmes récurrents des LLMs quand ils codent :

Problème	Principe CLAUDE.md
Hypothèses silencieuses — l’agent devine au lieu de demander	Think Before Coding — expliciter ses hypothèses
Sur-ingénierie — 1000 lignes quand 100 suffisent	Simplicity First — le minimum qui résout le problème
Modifications collatérales — toucher du code sans rapport	Surgical Changes — ne modifier que le nécessaire
Pas de vérification — coder sans critère de succès	Goal-Driven — définir des tests avant de coder

Son repo andrej-karpathy-skills (13 300 stars en avril 2026) prouve que la qualité du contexte initial change radicalement le comportement de l’agent. Un même modèle, avec les mêmes capacités, produit du code significativement meilleur quand il a les bonnes instructions.

Comment l’utiliser concrètement

Crée un fichier CLAUDE.md à la racine de ton projet :

# Conventions projet
- Framework : Next.js 15 + TypeScript strict
- Style : Tailwind CSS, pas de CSS custom
- Tests : Vitest, toute nouvelle fonction doit avoir un test
- Ne jamais modifier les fichiers dans /lib/core sans demander

# Architecture
- /src/app — pages et routes
- /src/components — composants réutilisables
- /src/lib — logique métier

# Pièges connus
- L'API payments utilise des webhooks async — toujours vérifier le statut
- Le build échoue si les types ne sont pas stricts

C’est du contexte statique : il ne change pas entre les sessions. Mais l’impact est immédiat. C’est la fondation sur laquelle les niveaux suivants s’appuient.

Niveau 2 — Le contexte dynamique : claude-mem donne une mémoire persistante aux agents

Le contexte statique a une limite : il décrit le projet tel qu’il a été conçu, pas tel qu’il a évolué. Ce que l’agent a fait hier — les bugs corrigés, les décisions prises, les fichiers modifiés — disparaît quand la session se ferme.

C’est le problème que résout claude-mem, le plugin qui a explosé à 50 000 stars sur GitHub cette semaine. Son principe : capturer automatiquement ce que Claude fait pendant une session, compresser ces observations avec l’IA, et les réinjecter dans la session suivante.

Comment ça marche sous le capot

Le système repose sur 5 hooks de cycle de vie qui s’activent à des moments clés :

SessionStart — injecte le contexte des sessions précédentes
UserPromptSubmit — capture chaque requête de l’utilisateur
PostToolUse — enregistre chaque outil utilisé et son résultat
Stop — marque les pauses
SessionEnd — compresse et stocke le résumé de la session

Les observations sont stockées dans une base SQLite avec recherche full-text (FTS5) et, en option, une base vectorielle ChromaDB pour la recherche sémantique.

La clé : la progressive disclosure

La vraie innovation de claude-mem n’est pas de stocker la mémoire — c’est de ne pas tout charger d’un coup. Le concept s’appelle progressive disclosure (divulgation progressive), et il s’inspire de la façon dont les humains fonctionnent : on scanne les titres avant de lire un article.

L’approche classique du RAG (Retrieval-Augmented Generation) chargerait 35 000 tokens de contexte au démarrage. Problème : seulement 6 % seraient pertinents. Le reste pollue la fenêtre de contexte et dégrade les performances.

Claude-mem fait l’inverse :

Approche	Tokens chargés	Pertinents
RAG classique	~35 000	~6 %
Progressive disclosure	~800 (index) + chargement à la demande	~100 %

L’agent voit d’abord un index compact (titres, dates, types, coût en tokens). Il décide ensuite quoi charger en fonction de sa tâche actuelle. Résultat : chaque token dans la fenêtre a une raison d’être là.

Installation en une commande

npx claude-mem install

C’est tout. Au redémarrage de Claude Code, le contexte des sessions précédentes apparaît automatiquement. Le plugin fonctionne aussi avec Gemini CLI (npx claude-mem install --ide gemini-cli).

Niveau 3 — Le contexte appris : quand la recherche rattrape le besoin

Les niveaux 1 et 2 résolvent la mémoire au niveau de l’outil. Mais la recherche académique travaille sur un problème plus profond : donner aux LLMs eux-mêmes une mémoire long-terme qui fonctionne comme la nôtre.

HippoRAG 2, publié par l’équipe NLP de l’Ohio State University et accepté à ICML 2025, propose exactement ça. Le paper s’intitule « From RAG to Memory: Non-Parametric Continual Learning for Large Language Models » — et le titre résume bien l’ambition.

Le problème du RAG standard

Le RAG classique fonctionne par similarité vectorielle : tu poses une question, le système cherche les passages les plus proches dans une base d’embeddings. C’est efficace pour les questions factuelles simples, mais ça échoue sur deux types de tâches :

Le sense-making — connecter des informations dispersées pour en tirer un sens global
L’association — retrouver un souvenir par un chemin indirect, comme les humains le font naturellement

La solution : s’inspirer de l’hippocampe

HippoRAG 2 s’inspire de la façon dont notre hippocampe organise la mémoire. Au lieu de simples vecteurs, il construit un graphe de connaissances où les passages sont profondément intégrés et interconnectés via un algorithme de Personalized PageRank amélioré.

Les résultats sont parlants : +7 % de performance sur les tâches de mémoire associative par rapport au meilleur modèle d’embedding, tout en maintenant une supériorité sur les tâches factuelles et de sense-making.

Ce n’est pas encore un plugin que tu installes en une commande. Mais c’est la direction : des systèmes de mémoire qui ne se contentent pas de stocker et retrouver, mais qui organisent et connectent les connaissances comme le fait un cerveau humain.

Des agents amnésiques aux coéquipiers : comment le context engineering change la donne

Mettons tout ça en perspective. En combinant ces trois niveaux, on passe d’un agent qui oublie tout entre chaque session à un véritable coéquipier :

Niveau	Ce que l’agent sait	Outil	Effort d’installation
0 — Aucun contexte	Rien. Il découvre le projet à chaque session	—	—
1 — Statique	Les conventions, l’architecture, les pièges	CLAUDE.md	10 min (écrire le fichier)
2 — Dynamique	Ce qu’il a fait dans les sessions précédentes	claude-mem	1 min (`npx claude-mem install`)
3 — Appris	Connexions profondes entre les connaissances	HippoRAG 2 (recherche)	En cours

L’impact concret ? Anthropic le documente dans ses best practices : « Claude performe radicalement mieux quand il peut vérifier son propre travail » — et avoir le contexte des sessions précédentes, c’est exactement ça. L’agent sait ce qui a été essayé, ce qui a échoué, quelles décisions ont été prises.

Pour les développeurs, c’est la fin du fameux « re-briefing » : ce moment où tu dois réexpliquer le projet à Claude parce qu’il a oublié les 4 dernières sessions. Avec un CLAUDE.md bien écrit et claude-mem installé, tu tapes claude dans ton terminal et l’agent sait déjà où il en est.

Pour les équipes, des plateformes comme Multica (10 000 stars, en forte croissance) vont plus loin : elles orchestrent plusieurs agents comme des coéquipiers sur un board Kanban. Chaque agent a un profil, prend des tâches, reporte des blocages — et ses compétences se cumulent au fil du temps grâce à un système de skills réutilisables.

L’écosystème cette semaine sur GitHub Trending le confirme : Hermes Agent de Nous Research (71 000 stars) intègre un learning loop natif, Archon de Coleam00 (17 000 stars) rend le coding IA déterministe et reproductible. La mémoire des agents n’est plus un nice-to-have — c’est le standard.

Comment commencer en 5 minutes

Tu veux passer du niveau 0 au niveau 2 immédiatement ? Voici la marche à suivre :

Étape 1 — Créer ton CLAUDE.md (2 minutes)

À la racine de ton projet, crée un fichier CLAUDE.md avec :

Le stack technique (framework, langage, versions)
Les conventions de code (naming, structure, tests)
Les pièges connus (bugs récurrents, API capricieuses)
L’architecture du projet (dossiers clés, responsabilités)

Étape 2 — Installer claude-mem (1 minute)

npx claude-mem install

Redémarre Claude Code. C’est fait.

Étape 3 — Vérifier que ça marche (2 minutes)

Lance une session Claude Code, travaille normalement, ferme la session. Rouvre une nouvelle session — tu devrais voir un index de tes observations précédentes apparaître automatiquement.

Le MCP (Model Context Protocol) qu’on couvrait la semaine dernière joue aussi un rôle ici : il standardise la façon dont les agents accèdent aux outils et aux données externes. Context engineering et MCP sont les deux faces d’une même pièce.

Questions fréquentes sur le context engineering

Le context engineering remplace-t-il le prompt engineering ?

Pas exactement — il l’englobe. Le prompt engineering reste important pour écrire de bonnes instructions. Le context engineering ajoute tout ce qui entoure le prompt : la mémoire, les données, les outils, l’historique. Comme le dit Simon Willison : « la définition intuitive de context engineering est probablement bien plus proche du sens voulu que celle de prompt engineering. »

Claude-mem fonctionne-t-il avec d’autres modèles que Claude ?

Oui. Depuis ses dernières versions, claude-mem supporte aussi Gemini CLI. Le principe de mémoire persistante est agnostique au modèle — c’est une couche d’infrastructure au-dessus de l’agent, pas une fonctionnalité du modèle lui-même.

HippoRAG 2 est-il utilisable en production ?

Pas encore directement. C’est un framework de recherche avec du code open source disponible sur GitHub. Mais ses principes (graphe de connaissances + PageRank personnalisé pour la recherche en mémoire) influencent déjà les outils de production. Attends-toi à voir ces techniques intégrées dans les plugins de mémoire d’ici fin 2026.

Ce qu’il faut retenir :

Le context engineering est le skill IA critique de 2026 — pas juste écrire un bon prompt, mais orchestrer tout le contexte dont l’agent a besoin pour réussir
Trois niveaux existent déjà — statique (CLAUDE.md), dynamique (claude-mem), appris (HippoRAG 2) — et les deux premiers sont installables en 5 minutes
Les agents amnésiques, c’est fini — l’écosystème (50k stars claude-mem, 71k stars Hermes Agent, 10k stars Multica) prouve que la mémoire persistante est devenue le standard attendu
Commence maintenant — un CLAUDE.md + npx claude-mem install = ton agent se souvient de tout, dès demain matin