Hermes Agent + DeepSeek V4 gratuit : mon test complet

Le moment où j'ai su que cette configuration allait poser un problème à ma facture Opus, c'était vers 02h14 un mercredi. J'avais une instance de Hermes Agent qui tournait sur un VPS à $14 par mois, pointée vers DeepSeek V4 via le niveau gratuit de News Portal, et elle en était à mi-chemin d'une tâche de recherche que je lui avais confiée avant de me coucher. Douze sources scrapées. Notes structurées. Un rapport markdown en cours d'assemblage dans /output. Un second skill — un que Hermes avait écrit lui-même la veille — était en file d'attente pour prendre le markdown et rédiger une version HTML du même rapport pour mon blog.

J'ai vérifié mon tableau de bord. Dépense totale pour la nuit jusqu'ici : 0,00 $.

Pas « négligeable ». Pas « arrondi à zéro ». Réellement zéro. La même charge de travail passée par Claude Opus 4.7 aurait brûlé environ 9 $ de crédit API à ce stade. Sur GPT-5.5 Pro, ça aurait été plus proche de 30 $. Ce qui m'a sidéré, c'est que le travail n'était pas moins bon. Ce n'était pas du niveau jouet. La recherche était réelle, les citations étaient intactes, le markdown était propre. Le brouillon HTML avait besoin de polissage — j'y viendrai — mais le travail structurel était fait, exécuté par un agent tournant sur un modèle gratuit sur un VPS qui me coûte moins qu'un sandwich.

Voilà le titre. L'intégration Hermes Agent + DeepSeek V4 gratuit via News Portal n'est pas un jouet. C'est la première fois que je vois un stack d'agent entièrement open-source, sous licence MIT, avec mémoire persistante, tourner sur un modèle gratuit de niveau frontier et produire un travail que j'utiliserais réellement. Les bugs sont réels. Les aspérités sont réelles. Le fait que le niveau gratuit puisse redevenir payant est réel. Mais le moment est arrivé, et j'ai passé une semaine à tester pour que tu n'aies pas à découvrir à tes dépens quelles parties tiennent le coup.

Ceci est le compte-rendu détaillé. Ce qu'est réellement Hermes Agent. Ce que DeepSeek V4 obtient vraiment comme scores. Comment la pièce News Portal s'intègre. Le flux de configuration qui m'a pris environ neuf minutes depuis une machine vierge. Les cinq cas d'usage que j'ai fait passer à travers le stack — dont les deux qui m'ont sincèrement surpris — et les endroits où j'ai dû rappeler Opus pour nettoyer. À la fin de cet article, tu sauras si cette combinaison vaut ton week-end et exactement à quoi t'attendre quand tu t'installeras pour la configurer.

Pourquoi cette combinaison compte maintenant

L'histoire de l'infrastructure d'agents en 2026 a été une histoire de compromis. Tu pouvais avoir de la mémoire persistante, mais seulement dans le cloud de quelqu'un d'autre (la voie ChatGPT Memory, la voie Claude Projects). Tu pouvais avoir le contrôle local, mais tu étais coincé à tout assembler toi-même avec LangGraph et une instance Postgres dont tu avais oublié de faire la sauvegarde. Tu pouvais avoir de l'inférence bon marché, mais la boucle d'agent par-dessus était bricolée et fragile. Tu pouvais avoir un agent soigné, mais la facture du modèle détruisait l'économie pour tout sauf un produit payant orienté client.

Ce qui a changé dans les soixante derniers jours, c'est que trois pièces du puzzle se sont mises en place simultanément.

Premièrement, Nous Research a lancé Hermes Agent — un runtime d'agent entièrement open-source, sous licence MIT, avec mémoire persistante à long terme, un système de skills réutilisable, une intégration navigateur native et une conception d'infrastructure locale 24/7 qui ne dépend pas du cloud de qui que ce soit. Selon les notes de version de Nous et le README GitHub, le projet a atteint 60 000 étoiles en deux mois après son lancement, ce qui en fait le projet d'agent IA open-source à la croissance la plus rapide de l'année.

Deuxièmement, DeepSeek a sorti V4 — et pas le V4 poli et incrémental. La gamme complète, y compris V4 Flash avec raisonnement. Selon les benchmarks d'Artificial Analysis, DeepSeek V4 Flash (effort de raisonnement maximal) fonctionne à environ 121 tokens par seconde et obtient 47 sur l'Artificial Analysis Intelligence Index, tandis que V4 Pro (raisonnement maximal) obtient 52. La fenêtre de contexte de 1M de tokens est la spécification phare, et contrairement à certaines revendications de contexte 1M que j'ai testées par le passé, celle-ci tient largement au-delà de 128K — plus de détails ci-dessous.

Troisièmement — et c'est la pièce dont personne en dehors de la communauté Nous ne parle encore — News Portal a ouvert un niveau gratuit qui fait proxy de DeepSeek V4 via le même endpoint compatible OpenAI qu'Hermes attend. Pas de carte bancaire. Pas de filtre email professionnel. Tu t'inscris, tu sélectionnes le niveau gratuit, et Hermes route son inférence à travers.

Empile ces trois éléments et tu obtiens quelque chose qui n'existait pas il y a soixante jours : un agent autonome 24/7 avec mémoire persistante, tournant sur un modèle de niveau frontier, avec 0 $ de coûts d'inférence mensuels. Le piège — et il y en a un, je vais être honnête à ce sujet — c'est que « niveau frontier » signifie encore « DeepSeek V4 Flash via un proxy gratuit », pas Opus 4.7. Cet écart compte à des endroits spécifiques que je vais te montrer. Mais il compte à moins d'endroits qu'on ne le penserait, et les endroits où il ne compte pas sont exactement les charges de travail d'agents qu'on voudrait le plus faire tourner sans surveillance à 2 heures du matin.

Avant d'entrer dans la configuration, tu dois comprendre chaque composant. Saute les deux sections suivantes si tu es déjà immergé dans le Discord d'Hermes — mais je dirais que la plupart des lecteurs les voudront, parce que la documentation officielle présuppose plus de contexte qu'elle ne le devrait.

Ce qu'est réellement Hermes Agent (et ce qu'il n'est pas)

Je vais être direct : je suis entré dans Hermes Agent en m'attendant à un autre clone d'AutoGPT. Cette impression a duré environ dix minutes après avoir lu le README. C'est une catégorie différente.

Le schéma traditionnel de runtime d'agent fonctionne ainsi : tu écris un script Python, tu le connectes à un modèle, tu lui donnes des outils, tu l'exécutes, il fait quelque chose, il se termine, tu retournes dans ton IDE. L'état vit dans ta tête. La « mémoire », c'est ce que tu fourres dans le prochain prompt. Si l'agent fait une découverte utile le mardi, il n'en a aucune idée le mercredi.

Hermes inverse ça. Hermes est un daemon. Tu l'installes, il tourne et il continue de tourner. Il a sa propre base de données SQLite avec indexation plein texte FTS5 pour la mémoire inter-sessions. Il a une arborescence sous ~/.hermes où il stocke de façon persistante les skills qu'il a écrits. Il propose une CLI (hermes chat, hermes model, hermes setup) et un tableau de bord web. Il se connecte à des passerelles de messagerie (Telegram, Discord, Slack) pour que tu puisses lui parler depuis ton téléphone pendant qu'il tourne sur un serveur quelque part. Selon la documentation officielle de Nous Research, la commande d'installation récupère tout en une seule fois :

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

Cette seule ligne, sur une machine Linux ou macOS vierge, met en place l'agent, son stockage mémoire, son gateway d'outils, le tableau de bord et la configuration de démarrage automatique. Sur Windows c'est légèrement différent — le support natif Windows est en bêta précoce selon les notes de version, et l'installeur récupère un environnement portable Git Bash avec Python 3.11, Node.js 22, ripgrep et ffmpeg. Le tableau de bord basé navigateur fonctionne nativement. La CLI fonctionne nativement. Les passerelles de messagerie tournent comme des processus PowerShell en arrière-plan. Ce n'est pas encore aussi fluide que le flux Linux, mais ça fonctionne.

La partie qui m'a le plus surpris, c'est le système de skills. Hermes n'a pas juste des outils — il a une mémoire procédurale. Quand tu lui demandes quelque chose de complexe et qu'il trouve une chaîne d'appels d'outils qui fonctionne, il peut persister cette chaîne comme un skill réutilisable, le nommer et le rappeler plus tard. Selon le dépôt communautaire awesome-hermes-agent, il existe déjà plusieurs centaines de skills contribués par les utilisateurs couvrant des modèles de web scraping, des workflows d'organisation de fichiers, des brouillons de contenu, des routines d'analyse de code et des dizaines de cas d'usage verticaux.

La surface d'outils intégrée, selon la documentation officielle, comprend :

Recherche web via l'intégration Firecrawl
Génération d'images via FAL (texte vers image)
Synthèse vocale via l'endpoint TTS d'OpenAI
Navigateur cloud via Browser Use — sessions persistantes, cookies, gestion de profils
Navigateur local piloté directement via l'outil terminal
Opérations sur fichiers — lire, écrire, organiser, renommer en lot
Planification — style cron en langage naturel (« chaque lundi à 9h »)
Gestion d'objectifs — objectifs multi-étapes avec suivi de progression
Modules de skills — le système de mémoire procédurale ci-dessus
Pont inter-agents — plusieurs instances Hermes communiquant entre elles
Sélection de modèle — basculement en temps réel entre fournisseurs
Contrôle des coûts — plafonds budgétaires par skill

Je compte 19+ outils/surfaces de skills de première partie, selon la façon dont on découpe les catégories, et c'est avant de toucher aux plugins communautaires. Le choix de conception intéressant est que tous ces outils passent par ce que Nous appelle le Tool Gateway — une couche de routage unifiée qui gère l'authentification, les limites de débit et l'abstraction des fournisseurs. Tu n'as pas à câbler chaque outil à chaque fournisseur toi-même. Le gateway s'en charge.

Ce qu'Hermes n'est pas, et je veux être honnête là-dessus avant que quelqu'un se fasse une mauvaise impression : ce n'est pas un produit grand public abouti. La documentation suppose que tu es à l'aise en ligne de commande. Le tableau de bord est fonctionnel plutôt que beau. Certains skills cassent de manières subtiles et tu ne t'en rends compte que quand l'agent produit silencieusement un rapport à moitié fini. Il y a un Discord où l'équipe principale est réactive, et le suivi de tickets GitHub avance vite, mais tu es un adopteur précoce. Si ça ne te convient pas d'être dans cette situation, accorde-lui six mois de plus.

Si ça te convient, la combinaison mémoire persistante + système de skills est ce qui se rapproche le plus d'une « couche d'infrastructure IA personnelle » que tu possèdes réellement que j'aie jamais vu. Et c'est avant de regarder ce que le branchement sur DeepSeek V4 gratuit fait à l'équation des coûts.

DeepSeek V4 et la question de vitesse que personne n'a posée

Les gros titres des benchmarks sur DeepSeek V4 sont corrects mais légèrement trompeurs, et je veux rectifier ça avant de continuer.

Selon Artificial Analysis au moment du lancement de V4, voici où se situent les variantes :

DeepSeek V4 Pro (raisonnement, effort maximal) : 52 sur l'AA Intelligence Index, ~40 tokens/s
DeepSeek V4 Flash (raisonnement, effort maximal) : 47 sur l'AA Intelligence Index, ~121 tokens/s
DeepSeek V4 Pro (sans raisonnement) : 39 sur l'AA Intelligence Index, ~32 tokens/s
DeepSeek V4 Flash (Max) : 97,6 tokens/s sur les requêtes générales

Pour comparaison, là où ça compte : V4 Pro se classe environ 10ᵉ en intelligence brute parmi les 87 modèles frontier suivis par Artificial Analysis, et V4 Flash environ 8ᵉ en vitesse. C'est le cadrage que tu verras sur la plupart des pages marketing. La réalité pour une charge de travail d'agent est plus intéressante que ces deux classements.

Pour le travail d'agent autonome, la variante que tu veux est V4 Flash avec raisonnement, et la raison est que les tâches d'agents sont intensives en tokens. Un workflow de recherche qui touche douze URLs et produit un rapport structuré peut traiter entre 200K et 400K tokens en une seule exécution. À 30 tokens/s sur V4 Pro (raisonnement), c'est quatre heures de fonctionnement. À 121 tokens/s sur V4 Flash (raisonnement), c'est moins d'une heure pour la même charge. L'écart d'intelligence entre Pro et Flash pour ce type de tâche de sortie structurée est réel mais faible — peut-être 5 à 8 % de qualité de sortie mesurablèment inférieure dans mes tests — et l'écart de temps rend la différence de productivité énorme quand l'agent tourne sans surveillance.

La fenêtre de contexte de 1M de tokens est la spécification sur laquelle tout le monde se fixe. En pratique, le plafond a tenu proprement jusqu'à environ 128K tokens — les résumés de recherche sur douze à quinze sources longues sont restés cohérents, sans dégradation de la précision des citations. Entre 128K et environ 300K, j'ai commencé à voir des cas limites : l'agent perdait occasionnellement le fil de quelle source correspondait à quelle affirmation spécifique. Au-delà de 300K-400K, ça se dégrade visiblement, et quelque part autour de 700K, la dégradation de qualité est suffisamment sévère pour ne pas faire confiance à la sortie sans vérification manuelle.

Donc quand la page d'accueil dit « 1M de contexte », lis-le comme « fenêtre de contexte de 1M, avec une utilité réelle jusqu'à ~128K et une falaise douce après 300K ». C'est toujours excellent. C'est juste que ce n'est pas le modèle d'attention illimitée que le marketing laisse entendre.

Voici la partie qui compte vraiment pour l'intégration Hermes : la surface API de DeepSeek V4 est compatible OpenAI. Hermes peut router vers elle via n'importe quel fournisseur qui enveloppe cette surface. Ce qui nous amène à News Portal.

News Portal : la couche gratuite qui boucle la boucle

News Portal est la couche de routage qui transforme la combinaison théorique « Hermes + DeepSeek gratuit » en une réalité en un clic. C'est une passerelle API multi-modèles avec un niveau gratuit généreux qui inclut DeepSeek V4 Flash et Pro d'emblée. Tu t'inscris avec un email, pas besoin de carte bancaire, tu sélectionnes le niveau gratuit et tu obtiens une clé API que la commande hermes model de Hermes peut cibler directement.

L'avertissement honnête : c'est le composant sur lequel je suis le moins certain à long terme. L'accès API gratuit a un historique de fonctionner très bien pendant six à neuf mois puis de se resserrer discrètement ou de passer derrière un mur payant une fois que l'usage monte en échelle. L'équipe Hermes a été transparente sur le fait que le niveau gratuit pourrait éventuellement nécessiter un abonnement payant, et je planifierais en conséquence. Mais au moment de l'écriture, c'est ouvert, ça fonctionne, et les limites de débit sont assez élevées pour que j'aie fait tourner mon agent pendant une semaine complète avec plusieurs heures d'utilisation quotidienne sans buter contre un mur.

Si le niveau gratuit ferme, tu as trois chemins de repli et Hermes les supporte tous : pointer directement vers l'API officielle de DeepSeek (variable d'environnement DEEPSEEK_API_KEY, 0,27 $/M en entrée / 0,42 $/M en sortie pour V4 Pro aux tarifs actuels, toujours dramatiquement moins cher qu'Opus) ; router via OpenRouter où les variantes V4 sont disponibles en formule à la consommation ; ou auto-héberger DeepSeek V4 si tu as le budget GPU (ce que tu n'as presque certainement pas pour la variante Pro à 1,6T paramètres, mais la variante Flash plus petite est plus raisonnable sur un seul H100).

Voilà le panorama. Passons maintenant à la partie qui m'importait — l'installation réelle, la configuration et la semaine que j'ai passée à exécuter du vrai travail.

Le flux de configuration qui m'a pris neuf minutes

J'ai chronométré. VPS Ubuntu 22.04 vierge, formule à 14 $/mois chez un hébergeur économique, rien d'installé sauf un utilisateur non-root avec sudo.

Étape un : installer Hermes. Une seule commande curl, tirée du dépôt officiel Nous Research :

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

L'installeur a tourné environ trois minutes. Il a récupéré Python 3.11, configuré un virtualenv, installé Node.js 22 pour le tableau de bord, cloné le dépôt Hermes vers ~/.hermes/hermes-agent, initialisé le stockage mémoire SQLite et créé des unités systemd pour le démarrage automatique. La sortie est verbeuse mais lisible — si quelque chose échoue, tu peux voir exactement quelle étape. Chez moi, rien n'a échoué.

Étape deux : créer un compte News Portal. Navigateur ouvert, news-portal.ai (vérifie l'URL actuelle dans la documentation Hermes avant de t'inscrire), email + mot de passe, pas de demande de carte bancaire. La création de compte a pris environ quatre-vingt-dix secondes, vérification email incluse.

Étape trois : sélectionner le niveau gratuit. Un clic dans le tableau de bord. Le niveau gratuit affiche DeepSeek V4 Flash et V4 Pro comme modèles disponibles. J'ai copié ma clé API.

Étape quatre : configurer Hermes pour l'utiliser. Retour dans le terminal du VPS :

hermes model

Ceci t'amène à un sélecteur de modèles interactif. La première option de la liste — option 1 dans le menu — est l'intégration gratuite News Portal avec DeepSeek V4. Je l'ai sélectionnée, collé ma clé API quand demandé, et la CLI a confirmé que le modèle était actif avec un message de succès d'une ligne.

Étape cinq : lancer l'agent. Une seule commande :

hermes chat

L'agent a démarré, l'URL du tableau de bord s'est affichée dans le terminal, et je parlais à un agent persistant tournant sur un modèle frontier avec 0 $ de coût d'inférence. Neuf minutes écoulées de la commande curl à la première réponse.

Si tu es sur macOS, le flux est identique. Si tu es sur Windows natif, attends-toi à une installation légèrement plus longue (plutôt sept ou huit minutes pour l'étape d'installation elle-même) car l'installeur récupère une distribution portable Git Bash avec les autres dépendances. Les étapes de configuration ensuite sont les mêmes.

Deux conseils de configuration qui ne sont pas évidents dans la documentation et qui m'ont fait gagner du temps réel :

Premièrement, configure la passerelle de messagerie tôt. Hermes a une commande hermes gateway qui connecte l'agent à Telegram ou Discord. Une fois connecté, tu peux donner des tâches à l'agent depuis ton téléphone pendant que tu es loin de ton bureau et il les exécutera sur le VPS en arrière-plan. C'est la fonctionnalité qui a transformé Hermes de « jouet intéressant » à « réellement utile au quotidien ». J'envoie une tâche de recherche à 23h, elle tourne la nuit sur DeepSeek V4 gratuit, et le rapport markdown est dans mon dossier de sortie au matin.

Deuxièmement, configure des plafonds de coûts même si tu es sur le niveau gratuit. Le plugin de contrôle des coûts de hermes te permet de définir des limites budgétaires par skill. La raison de les définir maintenant : si tu passes un jour à un modèle payant (Opus pour le travail de finition, par exemple), les limites que tu as définies sur le niveau gratuit seront reprises. Tu ne veux pas qu'un agent brûle accidentellement ton budget Anthropic à 3 heures du matin parce que tu as oublié d'ajouter une limite.

Voilà pour l'installation. Parlons maintenant de ce que le stack fait réellement.

Cinq charges de travail que j'ai fait passer (et où chacune a cassé)

J'ai choisi cinq cas d'usage représentatifs du travail que je voudrais réellement confier à un agent sans surveillance. J'ai exécuté chacun via le stack Hermes + DeepSeek V4 gratuit, noté ce qu'il a produit et relevé les endroits où j'ai dû rappeler un modèle payant.

Charge de travail 1 : recherche autonome et rapport markdown

La tâche : « Recherche l'état des implémentations de serveurs MCP en mai 2026, trouve les cinq les plus largement adoptées et produis un rapport markdown avec les étapes d'installation, les avantages/inconvénients et les liens vers les dépôts sources. »

L'agent a fait ça magnifiquement. Douze URLs visitées, correctement citées, structurées dans un rapport markdown de 2 400 mots avec hiérarchie H2/H3, blocs de code pour les commandes d'installation et un tableau comparatif en bas. Temps d'exécution total : 47 minutes. Coût total : 0 $.

Le seul endroit où il a trébuché : il a tiré des statistiques de quelques sources qui étaient en fait des pages marketing déguisées en articles techniques. J'ai dû vérifier manuellement deux des chiffres d'adoption avant de leur faire confiance. Ce n'est pas un problème Hermes ni un problème DeepSeek — c'est un problème de LLM-qui-tire-du-web qui affecte tous les systèmes d'agents de la même façon. La solution est d'utiliser le plugin de gestion d'objectifs pour exiger explicitement une vérification à double source sur les affirmations numériques. Je l'ai fait à l'exécution suivante et le problème a disparu.

Charge de travail 2 : agrégation de recherche web et briefing quotidien

La tâche : chaque matin à 8h, scanner cinq URLs de publications spécifiques pour les nouvelles IA, dédupliquer les articles qui apparaissent dans plusieurs sources et produire un briefing matinal de 400 mots.

C'est exactement la charge de travail pour laquelle Hermes a été construit. Je l'ai écrit comme un skill, programmé via le plugin de planification et laissé tourner toute la semaine. Les briefings étaient systématiquement solides — typiquement à 90 % du chemin vers la qualité de publication. Le matin du jour quatre, il a récupéré un article qui s'est avéré être une republication d'un article plus ancien qu'une des sources avait remonté en première page. Hermes n'a pas détecté l'obsolescence. Facile à corriger de mon côté (ajouter une étape de filtre par date au skill), mais à signaler si tu construis quelque chose de similaire.

Coût sur la semaine : 0 $. Temps économisé par rapport à la lecture manuelle des sources chaque matin : environ quarante minutes par jour.

Charge de travail 3 : génération de brouillon de blog HTML

La tâche : prendre le rapport markdown de la charge de travail 1 et produire une version HTML prête à être insérée dans un CMS.

C'est ici que les limites du niveau gratuit DeepSeek V4 deviennent visibles. La structure HTML était techniquement correcte — balisage valide, balises sémantiques, la bonne hiérarchie. Mais le goût de la sortie n'y était pas. Imbrication maladroite de <div> à des endroits qui n'en avaient pas besoin. Styles inline au lieu de hooks de classe. Une section hero qui ressemblait à du balisage de 2022. L'agent a produit quelque chose que je pourrais livrer, mais que je ne livrerais pas réellement sans le réviser.

C'est le moment où la réponse honnête est : couple Hermes + DeepSeek pour le gros du travail, puis fais passer la dernière passe par Claude Opus 4.7 pour le polissage. L'économie fonctionne toujours — la majeure partie du coût en tokens (recherche + rédaction structurée) passe par le niveau gratuit, et seuls les derniers 10 % (le HTML sensible au design) passent par le modèle payant. Mon analyse complète d'Opus 4.7 explique pourquoi ce modèle mérite encore sa place au sommet du pipeline de polissage malgré le coût.

Charge de travail 4 : organisation de fichiers et analyse de tableur

La tâche : nettoyer un dossier Téléchargements contenant 312 fichiers, les catégoriser par type et finalité déduite, les déplacer dans des sous-dossiers organisés et produire un inventaire CSV.

Hermes a géré ça parfaitement. L'outil d'opérations sur fichiers plus DeepSeek V4 Flash pour la logique de classification est une combinaison puissante. L'agent a identifié les types de fichiers, déduit les finalités à partir des noms et contenus de fichiers quand c'était pertinent, les a organisés dans une structure propre et a produit un CSV avec le chemin d'origine, le nouveau chemin, la catégorie déduite et le score de confiance. Vingt-trois fichiers ont été marqués comme « pas clairs » pour ma révision manuelle. De ces vingt-trois, quatre étaient sincèrement ambigus et les dix-neuf autres, je les ai triés en environ quatre-vingt-dix secondes.

Coût : 0 $. Temps passé sur une tâche que je repoussais depuis deux mois : environ huit minutes de mon temps, principalement pendant l'étape de révision manuelle. La conclusion honnête est que c'est le type de travail qu'un agent sans surveillance devrait faire pour tout le monde, et le fait que ça ne coûte maintenant littéralement rien à exécuter est le point sur lequel je reviens sans cesse.

Charge de travail 5 : automatisation navigateur multi-outils

La tâche : se connecter à un tableau de bord spécifique, récupérer les analytics des 30 derniers jours, formater les chiffres dans un rapport d'état hebdomadaire et l'envoyer par email à une partie prenante.

C'est la charge de travail où je ne savais sincèrement pas à quoi m'attendre. L'automatisation de navigateur est difficile. Les connexions persistantes sont plus difficiles. L'orchestration multi-outils avec des points de contrôle entre les étapes — encore plus difficile.

Hermes l'a fait. L'intégration browser-use a géré la connexion via un profil enregistré. La récupération des analytics a fonctionné du premier coup. L'étape de formatage a utilisé un skill que j'avais précédemment écrit pour les rapports d'état, l'agent le récupérant correctement depuis la mémoire procédurale. L'étape email a été routée via la passerelle de messagerie. Temps d'exécution de bout en bout : environ onze minutes. Coût : 0 $.

La réserve honnête : l'agent s'est bloqué une fois pendant la semaine sur la même charge de travail, quand le tableau de bord avait poussé une mise à jour d'interface qui avait déplacé le bouton d'export d'analytics. Hermes a passé huit minutes à essayer de cliquer à l'ancienne position avant de faire un timeout proprement et de me dire ce qui s'était passé. Ce comportement de récupération — échouer honnêtement et informer l'utilisateur — est significativement meilleur que la moitié des outils d'automatisation commerciaux que j'ai utilisés.

Où ce stack gagne (et où Opus justifie encore son coût)

Après une semaine à faire tourner cette combinaison sur les cinq charges de travail ci-dessus plus quelques expériences plus petites, voici la carte honnête de là où chaque couche du stack gagne sa place.

Hermes + DeepSeek V4 gratuit gagne sur : l'agrégation de recherche, la rédaction structurée, les opérations sur fichiers, l'analyse de tableurs, l'automatisation de navigateur pour les interfaces prévisibles, les workflows planifiés en arrière-plan, la poursuite d'objectifs multi-étapes, tout ce où la sortie se juge plus sur la correction et la structure que sur le goût esthétique.

Hermes + DeepSeek V4 gratuit perd sur : la sortie front-end qui nécessite du goût en design, le texte qui a besoin d'une voix (la voix de DeepSeek sur du long format en anglais est compétente mais reconnaissablement « IA » d'une manière qui ne me plaît pas), le raisonnement nuancé sur des contextes extrêmement longs au-delà de 300K tokens, tout ce qui nécessite que le modèle refuse avec confiance plutôt que de produire une réponse plausible-mais-fausse.

Pour la colonne des pertes, Claude Opus 4.7 reste mon modèle de prédilection. Le workflow intéressant qui émerge — et que j'utilise maintenant quotidiennement — est le schéma de transfert. Hermes tourne sans surveillance sur DeepSeek gratuit pour la majeure partie d'une charge de travail d'agent. Quand il atteint une étape qui nécessite du goût, de la voix ou un jugement soigné, il route cette étape spécifique vers Opus via une clé API payante, capture le résultat et continue. Le coût total d'un pipeline complet passe de « 30-50 $ si tout tournait sur Opus » à « 1-3 $ parce que seule l'étape de finition a tourné sur Opus ». Mon guide d'optimisation des coûts d'agents IA approfondit ce schéma hybride si tu veux concevoir le tien. Et si tu as suivi l'histoire plus large de DeepSeek, mon analyse approfondie de DeepSeek V4 Pro couvre l'architecture du modèle en plus de détail que nécessaire dans cet article.

Les limites honnêtes que personne n'a citées sur Twitter

Je les ai dispersées dans tout l'article mais elles méritent leur propre section parce qu'elles te feront gagner du temps réel.

Hermes a des bugs. C'est open source, c'est jeune, ça bouge vite. J'ai rencontré deux problèmes pendant ma semaine de tests : une requête du stockage mémoire qui a fait un timeout sur un fil de conversation particulièrement long (résolu en vidant le cache FTS5, mais le correctif n'est pas encore documenté), et une condition de concurrence dans le plugin de planification où deux skills programmés se déclenchant simultanément ont causé la perte de la sortie de l'un d'eux. Aucun n'était rédhibitoire. Les deux ont nécessité que je plonge dans le code source pour comprendre ce qui s'était passé. Si tu n'es pas à l'aise pour lire du Python et des schémas SQLite quand quelque chose va de travers, attends six mois.

Le niveau gratuit de News Portal pourrait ne pas durer. Je vais continuer à le dire parce que c'est le risque unique le plus important pour toute cette configuration. Conçois ton architecture pour que le changement de fournisseur d'inférence soit une seule modification de configuration. Hermes rend ça facile — la commande hermes model supporte tous les grands fournisseurs — mais c'est à toi de tester effectivement le changement avant le jour où tu en auras besoin.

La voix de DeepSeek V4 sur la sortie créative n'est pas celle d'Opus. C'est un écart réel. Pour la recherche, les brouillons structurés, le code et toute sortie évaluée sur la correction, V4 tient la route. Pour du texte évalué sur le goût, tu sentiras la différence. Couple les modèles pour les charges de travail où ça compte.

Windows natif est en bêta. Les flux d'installation Linux et macOS sont fluides. Le flux Windows natif fonctionne mais a des aspérités. Si tu es sous Windows et que ton travail dépend de la fiabilité de cet outil, envisage de faire tourner Hermes dans WSL2 — la documentation officielle recommande encore ça comme le chemin Windows le plus stable.

L'agent va occasionnellement halluciner des capacités d'outils. Une fois pendant ma semaine de tests, Hermes a essayé d'utiliser un skill qui n'existait pas (il avait référencé un nom de skill issu d'une documentation qu'il avait lue, pas un qu'il avait réellement écrit). Le mode d'échec était propre — il m'a dit que le skill n'avait pas été trouvé et m'a demandé si je voulais qu'il en écrive un — mais c'est un rappel que même les agents avec mémoire procédurale peuvent confondre « j'ai lu à ce sujet » avec « je possède ça ». Vérifie avant de faire confiance.

Aucune de ces limites n'est une raison de ne pas utiliser le stack. Ce sont des raisons de l'utiliser les yeux ouverts.

Ce qui va se passer dans les six prochains mois

Je veux conclure avec une prédiction, parce que je pense que cette combinaison est sincèrement un signal de la direction que prend l'infrastructure d'agents.

Tout au long de 2025, la conversation sur les runtimes d'agents était dominée par des frameworks (LangGraph, AutoGen, CrewAI) qui aidaient à construire des agents mais supposaient que tu les ferais tourner toi-même, sur ta propre infrastructure, avec ta propre facture de modèle. La couche de mémoire persistante était du DIY. Le système de skills était quelque chose que tu écrivais de zéro à chaque fois. Le coût était ce que disait ta facture API.

Ce que Hermes + DeepSeek V4 gratuit démontre, c'est que tout le stack peut se comprimer. Mémoire persistante, incluse. Système de skills, inclus. Orchestration multi-outils, incluse. Passerelles de messagerie, incluses. Inférence de modèle de niveau frontier, gratuite. Le tout tourne sur un VPS à 14 $.

Les six prochains mois vont voir beaucoup plus de cela. D'autres runtimes d'agents open-source (et il y en a déjà plusieurs en développement que je suis) vont copier le schéma mémoire persistante + système de skills. D'autres fournisseurs de modèles vont copier le schéma « niveau gratuit compatible OpenAI comme produit d'appel ». D'autres couches de routage vont concurrencer News Portal sur la générosité du niveau gratuit. Et le coût moyen de faire tourner un agent autonome pour une petite entreprise va s'effondrer de « quelques centaines de dollars par mois » à « le prix d'un VPS ».

Si tu es développeur ou fondateur solo, le bon mouvement maintenant est de commencer à développer de l'expérience sur ce stack. Installe-le. Fais passer de vraies charges de travail. Construis quelques skills. Apprends où ça casse. Quand l'infrastructure sera assez mature pour les charges de travail critiques en production, tu auras un an d'expérience opérationnelle pendant que tous les autres ouvrent à peine la documentation.

Le monde où chaque petite équipe a un assistant de recherche autonome 24/7 tournant sur une infrastructure gratuite n'est plus une prédiction pour 2027. C'est un projet de week-end 2026. Le mien tournait en neuf minutes. La question qui mérite réflexion ce soir : qu'assignerais-tu à un agent qui coûte 0 $ à faire tourner et ne dort jamais ?

Questions fréquentes

Hermes Agent est-il vraiment gratuit avec DeepSeek V4 ?

Oui — l'inférence du modèle elle-même est gratuite quand tu routes Hermes via le niveau gratuit de News Portal avec DeepSeek V4. Tu paies toujours pour le VPS ou la machine locale sur laquelle tu fais tourner Hermes (typiquement 5-15 $/mois pour un VPS utilisable, ou 0 $ si tu auto-héberges sur du matériel existant). Le niveau gratuit pourrait éventuellement devenir payant, donc planifie pour cette éventualité. Pour le guide de configuration complet, voir « Le flux de configuration qui m'a pris neuf minutes » ci-dessus.

Comment Hermes Agent se compare-t-il à AutoGPT ou CrewAI ?

Hermes est un daemon persistant avec mémoire inter-sessions intégrée (SQLite indexé FTS5), un système de skills procédural, des passerelles de messagerie natives et un gateway d'outils unifié. AutoGPT et CrewAI sont des frameworks pour construire des agents — c'est toi qui fournis la persistance, la mémoire et le déploiement. Hermes est plus proche d'un système d'exploitation pour agents que d'une bibliothèque. Pour l'analyse architecturale complète, voir « Ce qu'est réellement Hermes Agent » ci-dessus.

DeepSeek V4 a-t-il vraiment une fenêtre de contexte de 1 million de tokens ?

La fenêtre de contexte annoncée de 1M de tokens tient proprement en pratique jusqu'à environ 128K tokens, avec une qualité utilisable jusqu'à environ 300K. Au-delà de 300K-400K, tu verras une dégradation de la précision des citations et de la fiabilité des références croisées. Considère le chiffre 1M comme la limite supérieure, pas comme le plafond de travail.

Puis-je faire tourner Hermes Agent sur Windows ?

Oui — Windows natif est en bêta précoce et fonctionne pour la CLI, le tableau de bord et les passerelles de messagerie. L'installeur récupère une distribution portable Git Bash avec les autres dépendances. Si tu veux une stabilité maximale, la documentation Nous Research recommande encore WSL2 comme le chemin Windows le plus fiable.

Que se passe-t-il si le niveau gratuit de News Portal ferme ?

Hermes supporte plusieurs chemins d'inférence de repli : l'API officielle de DeepSeek directement (actuellement 0,27 $/0,42 $ par M entrée/sortie pour V4 Pro), OpenRouter en formule à la consommation, ou DeepSeek V4 auto-hébergé si tu as le budget GPU. Changer de fournisseur est une modification de configuration d'une ligne via la commande hermes model, donc conçois tes workflows pour que le changement soit trivial.

Travaillons ensemble

Tu cherches à construire des systèmes IA, automatiser des workflows ou développer ton infrastructure technologique ? Ce serait un plaisir de t'aider.

Fiverr (builds et intégrations sur mesure) : fiverr.com/s/EgxYmWD
Portfolio : mejba.me
Ramlit Limited (solutions enterprise) : ramlit.com
ColorPark (design et branding) : colorpark.io
xCyberSecurity (services de sécurité) : xcybersecurity.io