Hermes Agent : l'IA open source qui apprend de ses erreurs

Hermes Agent de Nous Research explose sur GitHub avec 97k stars. Comment un agent IA apprend de ses erreurs et s'améliore tout seul ? Deep dive et comparatif.

Écouter le podcast
Hermes Agent : l'IA open source qui apprend de ses erreurs

Un agent IA qui échoue à une tâche, analyse pourquoi il a échoué, corrige sa stratégie, et réussit la prochaine fois — sans intervention humaine. Ce n’est plus de la science-fiction. C’est ce que fait Hermes Agent, le projet open source de Nous Research qui vient de franchir les 97 000 stars sur GitHub en moins de trois mois.

Pendant que la plupart des outils IA oublient tout entre deux sessions, Hermes construit une mémoire persistante et génère ses propres compétences réutilisables. Le résultat : un agent qui devient littéralement meilleur à chaque utilisation.

Dans un contexte où, selon le Stanford AI Index 2026, les agents IA sont passés de 12 % à 66 % de taux de réussite sur des tâches informatiques réelles (benchmark OSWorld), la question n’est plus “est-ce que les agents IA marchent ?” — c’est “lequel choisir et pourquoi ?”.


Qu’est-ce qu’un agent IA qui apprend tout seul ?

Pour comprendre ce qui rend Hermes Agent différent, il faut d’abord distinguer trois générations d’outils IA.

Génération 1 : le chatbot. Tu poses une question, tu obtiens une réponse. Aucune mémoire, aucune action. ChatGPT à ses débuts.

Génération 2 : l’assistant augmenté. L’IA accède à des outils — elle peut chercher sur le web, exécuter du code, modifier des fichiers. Claude Code, GitHub Copilot, Cursor. C’est déjà puissant, mais l’agent ne retient rien entre les sessions. Chaque conversation repart de zéro.

Génération 3 : l’agent auto-améliorant. L’IA ne se contente plus d’exécuter — elle apprend de ses actions. Après chaque tâche complexe, elle analyse ce qui a fonctionné, extrait un skill réutilisable, et le stocke pour la prochaine fois. C’est la catégorie dans laquelle se place Hermes Agent.

La différence est fondamentale. Un assistant augmenté résout le même problème avec la même efficacité, qu’il l’ait vu une fois ou cent fois. Un agent auto-améliorant converge vers des stratégies optimales au fil du temps — exactement comme un développeur junior qui accumule de l’expérience.

Selon Gartner, 40 % des applications d’entreprise intégreront des agents IA d’ici fin 2026, contre moins de 5 % en 2025. L’adoption explose — mais la maturité varie énormément d’un outil à l’autre.

Comment Hermes Agent apprend de ses erreurs, concrètement

Hermes Agent est un agent IA autonome, open source (licence MIT), développé par Nous Research. Il tourne sur ton propre serveur — pas de cloud propriétaire, pas de données qui partent chez un tiers. Voici comment fonctionne sa boucle d’apprentissage.

Le système de skills auto-générés

Le mécanisme central d’Hermes est son système de skills. Quand l’agent termine une tâche complexe (typiquement plus de 5 appels d’outils), il se passe quelque chose d’intéressant :

  1. L’agent analyse rétrospectivement ce qu’il vient de faire — quelles étapes ont fonctionné, lesquelles ont échoué
  2. Il génère un fichier Skill en Markdown — un document structuré qui capture la procédure, les points de décision, les pièges connus et les étapes de vérification
  3. Le skill est stocké dans sa mémoire persistante et sera automatiquement rechargé lors de tâches similaires
  4. Si une meilleure approche émerge lors d’une exécution ultérieure, le skill est mis à jour

Concrètement, c’est l’agent lui-même qui décide quoi retenir. À intervalles réguliers pendant une session, il reçoit un “nudge” — une instruction système interne qui lui demande d’évaluer si quelque chose mérite d’être persisté en mémoire. Pas de log exhaustif qui noie le signal dans le bruit. Pas d’absence totale de mémoire non plus. Un juste milieu piloté par l’IA elle-même.

Trois couches de mémoire

La mémoire d’Hermes s’organise en trois niveaux :

CoucheContenuQuand c’est chargé
Mémoire systèmeInstructions de base, personnalitéÀ chaque session, toujours
Skills (mémoire épisodique)Fichiers Markdown créés par l’agentSur demande — Niveau 0 : noms et descriptions (~3K tokens pour 40+ skills), Niveau 1 : contenu complet, Niveau 2 : fichiers de référence
Recherche dans les sessionsIndex SQLite FTS5 de toutes les conversationsPar requête — l’agent fouille dans son historique

Ce système est compatible avec agentskills.io, un standard ouvert pour le partage de skills entre agents. Tu peux importer des skills créés par d’autres utilisateurs ou partager les tiens via le Skills Hub.

L’infrastructure sous le capot

Hermes supporte six backends d’exécution : local, Docker, SSH, Daytona, Singularity et Modal. En pratique, ça veut dire qu’il peut tourner sur ton laptop comme sur un cluster cloud — avec isolation par conteneur et namespace pour la sécurité.

Côté communication, il se connecte à Telegram, Discord, Slack, WhatsApp, Signal, Email et CLI. Tu peux commencer une conversation sur Telegram le matin et la continuer en CLI l’après-midi — l’agent garde le contexte grâce à sa mémoire persistante.

Le projet compte aujourd’hui 494 contributeurs et en est à la version v0.10.0 (16 avril 2026). L’écosystème est vivant : 200+ modèles supportés via OpenRouter, plus les intégrations Nous Portal et NVIDIA NIM.

Hermes vs Claude Code vs Devin : trois philosophies, trois usages

Le paysage des agents IA en 2026 s’est fracturé en trois camps distincts. Comprendre leurs différences est essentiel pour choisir le bon outil.

Claude Code : le spécialiste du code

Claude Code d’Anthropic est l’agent de référence pour le développement logiciel. Sa force : la compréhension profonde du codebase. Il lit ton projet entier, comprend les relations entre fichiers, suit les chaînes d’import, et fait des modifications qui respectent les patterns existants.

  • SWE-bench Verified : 80,8 % (le plus haut score parmi les outils de développement grand public)
  • Spécialité : refactoring, debugging, implémentation de features dans des codebases existants
  • Limite : pas de mémoire persistante native entre sessions (sauf via des fichiers comme CLAUDE.md)

Devin : le développeur autonome

Devin de Cognition se positionne comme un développeur IA autonome qui peut travailler seul sur des tâches bien définies.

  • SWE-bench Verified : 51,5 %
  • PR merge rate : 67 % sur des tâches bien définies (migrations, mises à jour de frameworks, dette technique)
  • Pricing : 20 $/mois + 2,25 $ par ACU (Agent Compute Unit, ~15 min de travail actif)
  • Limite : les tâches ambiguës ou exploratoires échouent 85 % du temps sans intervention humaine

Hermes Agent : l’agent qui grandit avec toi

Hermes ne se positionne pas comme un coding copilot. Sa promesse est différente : c’est un agent généraliste qui apprend et s’améliore.

  • Pas de score SWE-bench publié — ce n’est pas son terrain de jeu
  • Spécialité : automatisation de workflows récurrents, recherche, orchestration multi-tâches
  • Différenciateur : la boucle d’auto-amélioration et la mémoire persistante
  • Pricing : gratuit (open source MIT) — tu paies uniquement l’API du modèle que tu utilises

Le pattern qui émerge en 2026 : les utilisateurs avancés ne choisissent plus un seul agent. Ils en empilent plusieurs. Hermes sert d’orchestrateur always-on, et quand une tâche nécessite du code sérieux, il délègue à Claude Code comme sous-agent. C’est la stack, pas l’outil unique, qui fait la différence.

Ce que personne ne te dit : les risques des agents auto-améliorants

L’auto-amélioration est séduisante sur le papier. En pratique, elle ouvre des failles que l’écosystème commence à peine à mesurer.

Le problème des skills malveillants

Si un agent peut créer ses propres compétences, que se passe-t-il quand quelqu’un injecte un skill malveillant ? Ce n’est pas théorique. Selon un rapport de Gravitee.io, des chercheurs ont identifié 824 capacités non autorisées ou nuisibles dans un marketplace open source de skills pour agents IA. Ces fragments de code ouvraient discrètement des backdoors donnant accès à tout ce avec quoi l’agent pouvait interagir.

92 % des professionnels de la cybersécurité se disent préoccupés par l’utilisation d’agents IA au sein des organisations, selon la Cloud Security Alliance. Et seulement 14,4 % des équipes techniques déclarent que tous leurs agents IA passent par une validation sécurité complète avant mise en production.

La dérive silencieuse

Un agent qui modifie ses propres stratégies peut dériver lentement. Si le skill se met à jour automatiquement à chaque exécution, comment garantir qu’il ne s’éloigne pas progressivement de ce que tu veux ? C’est le problème classique de l’alignement — mais appliqué à l’échelle d’un outil que tu utilises au quotidien.

Hermes atténue ce risque grâce à son mécanisme de nudge (c’est l’agent qui décide quoi retenir, pas un processus automatique aveugle) et au fait que les skills sont des fichiers Markdown lisibles — tu peux les auditer à tout moment. Mais ça demande de la vigilance.

La question de la confiance dans l’infrastructure

Hermes tourne en local, sur ton infrastructure. C’est un avantage pour la vie privée — mais ça signifie aussi que tu es responsable de la sécurité. Pas de SOC 2, pas d’équipe sécurité derrière. Si ton serveur est compromis, l’agent l’est aussi — avec toute sa mémoire et tous ses accès.

Le CERT-FR a publié une alerte spécifiquement sur les risques cyber liés aux agents IA autonomes. Le message est clair : l’autonomie sans gouvernance, c’est une bombe à retardement.

Quel agent IA choisir selon ton profil ?

Voici un cadre de décision concret, parce que la bonne réponse dépend de ce que tu fais et de ce que tu cherches.

ProfilAgent recommandéPourquoi
Développeur solo / freelanceClaude CodeLa compréhension de codebase est imbattable. Tu codes plus vite, pas besoin de mémoire cross-session
Équipe produit (5-20 devs)Claude Code + DevinClaude pour les features complexes, Devin pour la dette technique et les migrations répétitives
Entrepreneur tech / side projectHermes AgentGratuit, auto-améliorant, gère bien les workflows récurrents (veille, emails, automatisation)
Power user / infrastructure persoHermes + Claude CodeHermes comme orchestrateur always-on, Claude Code comme sous-agent pour le code
Entreprise (compliance stricte)Claude Code (Anthropic API)Support enterprise, SOC 2, pas de données qui transitent par un tiers non vérifié

Les questions à se poser avant de choisir

  • Ton besoin principal est le code ? → Claude Code. Pas de débat sur les benchmarks.
  • Tu veux un agent qui gère ta vie numérique ? → Hermes. Multi-plateforme, mémoire persistante, gratuit.
  • Tu as des tâches répétitives bien définies à déléguer ? → Devin. Son taux de merge de 67 % sur les tâches structurées en fait un bon “stagiaire IA”.
  • Tu veux le maximum de contrôle sur tes données ? → Hermes. Open source, auto-hébergé, MIT License.
  • Tu veux payer le moins possible ? → Hermes (gratuit) > Claude Code (abonnement Max) > Devin (20 $/mois + ACU).

Ce qu’il faut retenir :

  • Hermes Agent est le premier agent IA grand public qui apprend vraiment de ses erreurs — pas du marketing, un mécanisme concret de skills auto-générés et de mémoire persistante à trois couches.
  • Le choix d’agent IA en 2026 n’est plus “le meilleur” mais “le bon stack” — Claude Code pour le code, Hermes pour l’orchestration, Devin pour les tâches répétitives. Les power users empilent.
  • L’auto-amélioration ouvre des risques réels — 824 skills malveillants détectés dans un marketplace, seulement 14 % des déploiements avec validation sécurité complète. La vigilance n’est pas optionnelle.
  • L’adoption des agents IA explose — de 5 % à 40 % des apps enterprise d’ici fin 2026 selon Gartner, mais la maturité réelle reste en chantier.

Questions fréquentes

Hermes Agent est-il vraiment gratuit ?

Oui. Le logiciel est open source sous licence MIT — tu le télécharges, l’installes et l’utilises sans frais. Le seul coût est l’API du modèle de langage que tu choisis (OpenRouter, Nous Portal, etc.). Pour un usage modéré, compte entre 5 et 30 $ par mois d’API.

Hermes Agent peut-il remplacer Claude Code pour coder ?

Non. Hermes est un agent généraliste, pas un spécialiste du code. Claude Code score 80,8 % sur SWE-bench Verified — c’est un autre niveau pour le développement logiciel. La bonne approche est de les combiner : Hermes comme orchestrateur, Claude Code comme sous-agent quand une tâche demande du code sérieux.

Est-ce que l’auto-amélioration fonctionne vraiment ?

Le mécanisme est réel et vérifiable : les skills sont des fichiers Markdown que tu peux lire, auditer et modifier. Est-ce que ça rend l’agent significativement meilleur au fil du temps ? Les retours de la communauté (87k+ stars, 494 contributeurs) suggèrent que oui — mais les benchmarks formels sur l’amélioration cumulative manquent encore. C’est un outil jeune (trois mois d’existence), et la promesse devra être mesurée sur le long terme.