Hermes Agent + DeepSeek V4 gratis: ik heb het getest

Het moment waarop ik wist dat deze setup een probleem ging worden voor mijn Opus-factuur was rond 02:14 uur op een woensdagnacht. Ik had een Hermes Agent-instantie draaien op een VPS van $14 per maand, gericht op DeepSeek V4 via de gratis tier van News Portal, en het was halverwege een onderzoekstaak die ik voor het slapengaan had opgegeven. Twaalf bronnen gescraped. Notities gestructureerd. Een markdown-rapport werd samengesteld in /output. Een tweede skill — eentje die Hermes de dag ervoor zelf had geschreven — stond in de wacht om de markdown te nemen en er een HTML-versie van hetzelfde rapport voor mijn blog van te maken.

Ik checkte mijn dashboard. Totale kosten voor die nacht tot nu toe: $0,00.

Niet "verwaarloosbaar." Niet "afgerond naar nul." Daadwerkelijk nul. Dezelfde werkbelasting via Claude Opus 4.7 had op dat moment zo'n $9 aan API-tegoed verbrand. Op GPT-5.5 Pro zou het dichter bij $30 zijn geweest. Wat mijn brein brak, was dat het werk niet slechter was. Het was geen speelgoedniveau. Het onderzoek was echt, de bronvermeldingen waren intact, de markdown was schoon. Het HTML-concept had nog polijstwerk nodig — ik kom nog op waar het precies misging — maar het structurele werk was af, uitgevoerd door een agent die draaide op een gratis model op een VPS die me minder kost dan een broodje.

Dat is de kop. De integratie van Hermes Agent + DeepSeek V4 gratis via News Portal is geen speelgoed. Het is de eerste keer dat ik een volledig open-source, MIT-gelicentieerde agent-stack met persistent geheugen heb zien draaien op een gratis frontiermodel en werk heb zien produceren dat ik daadwerkelijk zou gebruiken. De bugs zijn echt. De ruwe randjes zijn echt. Het feit dat de gratis tier mogelijk terugkeert naar betaald is echt. Maar het moment is hier, en ik heb een week lang getest zodat jij niet op de harde manier hoeft te ontdekken welke onderdelen standhouden.

Dit is het uitgebreide verslag. Wat Hermes Agent daadwerkelijk is. Wat DeepSeek V4 werkelijk scoort. Hoe het News Portal-stuk erin past. De setupflow die mij ongeveer negen minuten kostte vanaf een schone machine. De vijf use cases die ik door de stack heb gejaagd — inclusief de twee die me oprecht verrast hebben — en de plekken waar ik Opus moest terughalen om de boel op te ruimen. Aan het einde van dit artikel weet je of deze combinatie je weekend waard is, en precies wat je kunt verwachten wanneer je gaat installeren.

Waarom deze combinatie nu belangrijk is

Het verhaal van agent-infrastructuur in 2026 is een verhaal van afwegingen geweest. Je kon persistent geheugen hebben, maar alleen in iemand anders' cloud (de ChatGPT Memory-route, de Claude Projects-route). Je kon lokale controle hebben, maar dan zat je vast aan het zelf aan elkaar knopen met LangGraph en een Postgres-instantie waarvan je vergeten was een back-up te maken. Je kon goedkope inferentie hebben, maar de agent-loop erop was handmatig gebouwd en fragiel. Je kon een gepolijste agent hebben, maar de modelkosten vernietigden de economie voor alles behalve een betaald klantgericht product.

Wat er in de laatste zestig dagen veranderde, is dat drie puzzelstukken tegelijk op hun plaats vielen.

Ten eerste bracht Nous Research Hermes Agent uit — een volledig open-source, MIT-gelicentieerde agent-runtime met persistent langetermijngeheugen, een herbruikbaar skillsysteem, native browserintegratie en een 24/7 lokale-infrastructuur die niet afhankelijk is van iemands cloud. Volgens de releasenotes van Nous en de GitHub README bereikte het project binnen twee maanden na de lancering 60.000 sterren, waarmee het het snelst groeiende open-source AI-agentproject van het jaar is.

Ten tweede bracht DeepSeek V4 uit — en niet de beleefde, incrementele V4. De volledige lineup, inclusief V4 Flash met redenering. Volgens Artificial Analysis-benchmarks werkt DeepSeek V4 Flash (maximale redeneringsinspanning) op ruwweg 121 tokens per seconde en scoort 47 op de Artificial Analysis Intelligence Index, terwijl V4 Pro (maximale redenering) 52 scoort. Het contextvenster van 1M tokens is de kop-specificatie, en in tegenstelling tot sommige 1M-contextclaims die ik in het verleden heb getest, houdt deze grotendeels stand voorbij 128K — meer daarover hieronder.

Ten derde — en dit is het stuk waar niemand buiten de Nous-gemeenschap het nog over heeft — opende News Portal een gratis tier die DeepSeek V4 proxiet via hetzelfde OpenAI-compatibele endpoint dat Hermes verwacht. Geen creditcard. Geen zakelijke e-mail als drempel. Je meldt je aan, selecteert de gratis tier, en Hermes routeert zijn inferentie erdoorheen.

Stapel die drie op elkaar en je krijgt iets dat zestig dagen geleden niet bestond: een 24/7 autonome agent met persistent geheugen, draaiend op een frontier-model, met $0 aan maandelijkse inferentiekosten. De valkuil — en die is er, ik ga daar eerlijk over zijn — is dat "frontier-tier" nog steeds "DeepSeek V4 Flash via een gratis proxy" betekent, niet Opus 4.7. Dat verschil doet ertoe op specifieke plekken die ik je zal laten zien. Maar het doet ertoe op minder plekken dan je zou denken, en de plekken waar het niet uitmaakt zijn precies de agentworkloads die je het liefst onbeheerd om 2 uur 's nachts zou willen draaien.

Voordat we aan de setup beginnen, moet je elk onderdeel begrijpen. Sla de volgende twee secties over als je al diep in de Hermes Discord zit — maar ik zou beweren dat de meeste lezers ze willen, omdat de officiële docs meer context veronderstellen dan ze zouden moeten.

Wat Hermes Agent daadwerkelijk is (en wat niet)

Ik zal eerlijk zijn: ik ging Hermes Agent in met de verwachting van weer een AutoGPT-kloon. Die indruk hield zo'n tien minuten stand nadat ik de README had gelezen. Dit is een andere categorie.

Het traditionele agent-runtime-patroon gaat als volgt: je schrijft een Python-script, je koppelt het aan een model, je geeft het tools, je voert het uit, het doet iets, het stopt, je gaat terug naar je IDE. De staat leeft in je hoofd. Het "geheugen" is wat je in de volgende prompt propt. Als de agent op dinsdag een nuttige ontdekking doet, weet hij daar op woensdag niets meer van.

Hermes draait dat om. Hermes is een daemon. Je installeert het, het draait, en het blijft draaien. Het heeft zijn eigen SQLite-database met FTS5 full-text indexering voor cross-sessie geheugen. Het heeft een directorystructuur onder ~/.hermes waar het zelfgeschreven skills persistent opslaat. Het biedt een CLI (hermes chat, hermes model, hermes setup) en een webdashboard. Het verbindt met berichtenplatformen (Telegram, Discord, Slack) zodat je ermee kunt praten vanaf je telefoon terwijl het op een server ergens draait. Volgens de officiële documentatie van Nous Research haalt het installatiecommando alles op in één keer:

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

Die ene regel, op een schone Linux- of macOS-machine, zet de agent op, zijn geheugenopslag, zijn tool-gateway, het dashboard en de autostart-configuratie. Op Windows is het iets anders — native Windows-ondersteuning is in vroege bèta volgens de releasenotes, en de installer haalt een portable Git Bash-omgeving op samen met Python 3.11, Node.js 22, ripgrep en ffmpeg. Het browsergebaseerde dashboard draait native. De CLI draait native. De berichtenplatformen draaien als achtergrond-PowerShell-processen. Het is nog niet zo soepel als de Linux-flow, maar het werkt.

Het onderdeel dat me het meest verraste was het skillsysteem. Hermes heeft niet alleen tools — het heeft procedureel geheugen. Wanneer je het iets complexs vraagt en het een keten van tool-aanroepen uitzoekt die werkt, kan het die keten opslaan als een herbruikbare skill, een naam geven en later opnieuw aanroepen. Volgens de awesome-hermes-agent community-repo zijn er al enkele honderden door gebruikers bijgedragen skills voor webscraping-patronen, bestandsorganisatie-workflows, contentconcepten, code-analyseroutines en tientallen verticale toepassingen.

Het geïntegreerde tool-oppervlak, volgens de officiële docs, omvat:

Webzoeken via Firecrawl-integratie
Beeldgeneratie via FAL (tekst-naar-beeld)
Tekst-naar-spraak via OpenAI's TTS-endpoint
Cloudbrowser via Browser Use — persistente sessies, cookies, profielbeheer
Lokale browser direct aangestuurd via de terminal-tool
Bestandsbewerkingen — lezen, schrijven, organiseren, batch-hernoemen
Planning — cron-achtig met natuurlijke taal ("elke maandag om 9 uur")
Doelbeheer — meerstaps doelen met voortgangsregistratie
Skillmodules — het procedureel geheugensysteem hierboven
Inter-agent brug — meerdere Hermes-instanties die met elkaar communiceren
Modelselectie — runtime wisselen tussen providers
Kostenbeheersing — per-skill budgetlimieten

Ik tel 19+ first-party tools/skill-oppervlakken, afhankelijk van hoe je de categorieën indeelt, en dat is nog voordat je de community-plugins aanraakt. De interessante ontwerpkeuze is dat al deze tools lopen via wat Nous de Tool Gateway noemt — een uniforme routeringslaag die authenticatie, rate limits en provider-abstractie afhandelt. Je hoeft niet elke tool aan elke provider te koppelen. De gateway regelt dat.

Wat Hermes niet is, en ik wil hier eerlijk over zijn voordat iemand de verkeerde indruk krijgt: het is geen gepolijst consumentenproduct. De docs gaan ervan uit dat je comfortabel bent op de command line. Het dashboard is functioneel in plaats van mooi. Sommige skills breken op subtiele manieren en je komt er pas achter wanneer de agent stilletjes een half afgemaakt rapport produceert. Er is een Discord waar het kernteam responsief is, en de GitHub issue tracker beweegt snel, maar je bent vroeg. Als je er niet oké mee bent om vroeg te zijn, geef het nog zes maanden.

Als je er wél oké mee bent om vroeg te zijn, is de combinatie van persistent geheugen + skillsysteem het dichtst bij een "persoonlijke AI-infrastructuurlaag" die je daadwerkelijk bezit dat ik ooit heb gezien. En dat is voordat we kijken naar wat het aansluiten op DeepSeek V4 gratis doet met de kostenberekening.

DeepSeek V4 en de snelheidsvraag die niemand stelde

De benchmarkkoppen over DeepSeek V4 zijn correct maar enigszins misleidend, en ik wil dat rechtzetten voordat we verdergaan.

Volgens Artificial Analysis op het moment van de V4-release staan de varianten er als volgt voor:

DeepSeek V4 Pro (redenering, maximale inspanning): 52 op de AA Intelligence Index, ~40 tokens/sec
DeepSeek V4 Flash (redenering, maximale inspanning): 47 op de AA Intelligence Index, ~121 tokens/sec
DeepSeek V4 Pro (zonder redenering): 39 op de AA Intelligence Index, ~32 tokens/sec
DeepSeek V4 Flash (Max): 97,6 tokens/sec over algemene queries

Ter vergelijking, waar het ertoe doet: V4 Pro komt uit op ongeveer de 10e plek in ruwe intelligentie van de 87 frontiermodellen die Artificial Analysis volgt, en V4 Flash op ongeveer de 8e plek in snelheid. Dat is het kader dat je op de meeste marketingpagina's zult zien. De realiteit voor een agentworkload is interessanter dan beide ranglijsten.

Voor autonoom agentwerk is de variant die je wilt V4 Flash met redenering, en de reden is dat agenttaken token-intensief zijn. Een onderzoeksworkflow die twaalf URL's raakt en een gestructureerd rapport produceert, kan in één run 200K-400K tokens verwerken. Bij 30 tokens/sec op V4 Pro (redenering) is dat een run van vier uur. Bij 121 tokens/sec op V4 Flash (redenering) is het minder dan een uur voor dezelfde werkbelasting. Het intelligentieverschil tussen Pro en Flash voor dat soort gestructureerde-output-taken is echt maar klein — misschien 5-8% meetbaar slechtere outputkwaliteit in mijn tests — en het tijdsverschil maakt het productiviteitsverschil enorm wanneer de agent onbeheerd draait.

Het contextvenster van 1M tokens is de spec waar iedereen op fixeert. In de praktijk hield het plafond schoon stand tot ongeveer 128K tokens — onderzoekssamenvattingen over twaalf tot vijftien long-form bronnen bleven coherent, zonder verslechtering in bronvermeldingsnauwkeurigheid. Tussen 128K en ongeveer 300K begon ik randgevallen te zien: de agent raakte af en toe het spoor bijster welke bron bij een specifieke claim hoorde. Voorbij 300K-400K wordt het merkbaar slechter, en ergens rond 700K is de kwaliteitsverslechtering ernstig genoeg dat ik de output niet zou vertrouwen zonder handmatige controle.

Dus wanneer de homepage zegt "1M context," lees het als "1M contextvenster, met echte bruikbaarheid tot ~128K en een zachte klif na 300K." Dat is nog steeds uitstekend. Het is alleen niet het onbeperkte-aandacht-model dat de marketing impliceert.

Hier is het deel dat echt uitmaakt voor de Hermes-integratie: de API-interface van DeepSeek V4 is OpenAI-compatibel. Hermes kan ernaar routeren via elke provider die dat oppervlak wrapt. Wat ons brengt bij News Portal.

News Portal: de gratis laag die de cirkel sluit

News Portal is de routeringslaag die de theoretische "Hermes + gratis DeepSeek"-combo omzet in een daadwerkelijke one-click realiteit. Het is een multi-model API-gateway met een royale gratis tier die DeepSeek V4 Flash en Pro standaard bevat. Je meldt je aan met een e-mail, je hebt geen creditcard nodig, je selecteert de gratis tier en je krijgt een API-sleutel die het hermes model-commando van Hermes direct kan aanspreken.

De eerlijke disclaimer: dit is het onderdeel waar ik op de lange termijn het minst zeker over ben. Gratis-tier API-toegang heeft een track record van uitstekend werken gedurende zes tot negen maanden om vervolgens stilletjes te worden beperkt of achter een betaalmuur te verdwijnen zodra het gebruik opschaalt. Het Hermes-team is transparant geweest dat de gratis tier uiteindelijk mogelijk een betaald abonnement vereist, en ik zou daarmee rekening houden. Maar op het moment van schrijven is het open, het werkt, en de rate limits zijn hoog genoeg dat ik mijn agent een volledige week met meerdere uren dagelijks heb laten draaien zonder tegen een muur te lopen.

Als de gratis tier sluit, heb je drie terugvalopties en Hermes ondersteunt ze allemaal: direct naar de officiële API van DeepSeek verwijzen (DEEPSEEK_API_KEY omgevingsvariabele, $0,27/M input / $0,42/M output voor V4 Pro tegen huidige tarieven, nog steeds dramatisch goedkoper dan Opus); routeren via OpenRouter waar V4-varianten beschikbaar zijn op een verbruiksbasis; of DeepSeek V4 zelf hosten als je het GPU-budget hebt (wat je voor de 1,6T-parameter Pro-variant vrijwel zeker niet hebt, maar de kleinere Flash-variant is redelijker op een enkele H100).

Dat is de stand van zaken. Laten we nu ingaan op het deel dat er voor mij toe deed — de daadwerkelijke installatie, configuratie en de week die ik besteedde aan het draaien van echt werk.

De setupflow die me negen minuten kostte

Ik heb het getimed. Schone Ubuntu 22.04 VPS, $14/maand-tier bij een budgetprovider, niets geïnstalleerd behalve een niet-root gebruiker met sudo.

Stap één: installeer Hermes. Eén curl-commando, opgehaald uit de officiële Nous Research-repo:

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

De installer draaide ongeveer drie minuten. Het haalde Python 3.11 op, zette een virtualenv op, installeerde Node.js 22 voor het dashboard, kloonde de Hermes-repo naar ~/.hermes/hermes-agent, initialiseerde de SQLite-geheugenopslag en maakte systemd-units voor autostart. De output is uitgebreid maar leesbaar — als er iets faalt, kun je precies zien welke stap. Bij mij faalde er niets.

Stap twee: maak een News Portal-account aan. Browser open, news-portal.ai (verifieer de huidige URL via de Hermes-docs voordat je je aanmeldt), e-mail + wachtwoord, geen creditcardvraag. Accountcreatie duurde ongeveer negentig seconden inclusief de e-mailverificatiestap.

Stap drie: selecteer de gratis tier. Dit is één klik in het dashboard. De gratis tier toont DeepSeek V4 Flash en V4 Pro als beschikbare modellen. Ik kopieerde mijn API-sleutel.

Stap vier: configureer Hermes om het te gebruiken. Terug in de VPS-terminal:

hermes model

Dit brengt je in een interactieve modelselector. De eerste optie in de lijst — optie 1 in het menu — is de News Portal gratis-integratie met DeepSeek V4. Ik selecteerde het, plakte mijn API-sleutel wanneer gevraagd, en de CLI bevestigde dat het model actief was met een eenregelig succesbericht.

Stap vijf: start de agent. Eén enkel commando:

hermes chat

De agent kwam op, de dashboard-URL verscheen in de terminal, en ik was in gesprek met een persistente agent die draaide op een frontiermodel met $0 inferentiekosten. Negen minuten verstreken van het curl-commando tot het eerste antwoord.

Als je op macOS zit, is de flow identiek. Als je op native Windows zit, verwacht een iets langere installatie (dichter bij zeven of acht minuten voor de installatiestap zelf) omdat de installer een portable Git Bash-distributie ophaalt samen met de andere afhankelijkheden. De configuratiestappen daarna zijn hetzelfde.

Twee configuratietips die niet duidelijk zijn uit de docs en me echte tijd bespaarden:

Ten eerste, stel de berichtengateway vroeg in. Hermes heeft een hermes gateway-commando dat de agent verbindt met Telegram of Discord. Eenmaal verbonden kun je de agent taken geven vanaf je telefoon terwijl je weg bent van je bureau en het zal ze op de VPS op de achtergrond uitvoeren. Dit is de feature die Hermes veranderde van "interessant speelgoed" naar "daadwerkelijk dagelijks nuttig voor mij." Ik stuur het om 23:00 uur een onderzoekstaak, het draait 's nachts op gratis DeepSeek V4, en het markdown-rapport ligt 's ochtends in mijn outputmap.

Ten tweede, configureer kostenlimieten zelfs als je op een gratis tier zit. De hermes kostenbeheersingplugin laat je per-skill budgetlimieten instellen. De reden om ze nu in te stellen: als je ooit overstapt naar een betaald model (Opus voor polijstwerk, bijvoorbeeld), worden de limieten die je op de gratis tier hebt ingesteld overgenomen. Je wilt niet dat een agent per ongeluk je Anthropic-budget opbrandt om 3 uur 's nachts omdat je vergat een limiet toe te voegen.

Dat is de installatie. Laten we het nu hebben over wat de stack daadwerkelijk doet.

Vijf werkbelastingen die ik erdoorheen heb gejaagd (en waar elk brak)

Ik koos vijf use cases die representatief zijn voor het werk dat ik daadwerkelijk door een onbeheerde agent zou willen laten doen. Ik voerde elk uit via de Hermes + DeepSeek V4 gratis-stack, noteerde wat het produceerde en merkte de plekken op waar ik een betaald model moest terughalen.

Werkbelasting 1: autonoom onderzoek en markdown-rapport

De taak: "Onderzoek de stand van MCP-serverimplementaties in mei 2026, vind de vijf meest geadopteerde, en produceer een markdown-rapport met installatiestappen, voor- en nadelen, en links naar de bronrepository's."

De agent deed dit prachtig. Twaalf URL's bezocht, correct geciteerd, gestructureerd in een markdown-rapport van 2.400 woorden met H2/H3-hiërarchie, codeblokken voor installatieopdrachten en een vergelijkingstabel onderaan. Totale looptijd: 47 minuten. Totale kosten: $0.

De enige plek waar het struikelde: het haalde statistieken op uit een paar bronnen die eigenlijk marketingpagina's waren vermomd als technische artikelen. Ik moest twee van de adoptiecijfers handmatig verifiëren voordat ik ze vertrouwde. Dat is geen Hermes-probleem of DeepSeek-probleem — het is een LLM-die-van-het-web-haalt-probleem dat elk agentsysteem gelijk treft. De oplossing is de doelbeheersingplugin te gebruiken om expliciet dubbele-bronverificatie op numerieke claims te vereisen. Ik deed dat bij de volgende run en het probleem verdween.

Werkbelasting 2: webzoekaggregatie en dagelijks overzicht

De taak: elke ochtend om 8 uur vijf specifieke publicatie-URL's scannen op nieuw AI-nieuws, verhalen die in meerdere bronnen verschijnen dedupliceren, en een ochtendoverzicht van 400 woorden produceren.

Dit is precies de werkbelasting waarvoor Hermes is gebouwd. Ik schreef het als een skill, plande het via de planningsplugin en liet het de hele week draaien. De overzichten waren consequent sterk — typisch 90% van de weg naar publicatiekwaliteit. Op de ochtend van dag vier haalde het een stuk op dat een hergeplaatst ouder artikel bleek te zijn dat een van de bronnen naar de voorpagina had geduwd. Hermes ving de veroudering niet op. Makkelijk te fixen aan mijn kant (een datumfilter-stap toevoegen aan de skill), maar het vermelden waard als je iets vergelijkbaars bouwt.

Kosten over de week: $0. Bespaarde tijd ten opzichte van de bronnen elke ochtend handmatig lezen: ongeveer veertig minuten per dag.

Werkbelasting 3: HTML-blogconcept genereren

De taak: neem het markdown-rapport van werkbelasting 1 en produceer een HTML-versie klaar om in een CMS te plaatsen.

Hier worden de beperkingen van de DeepSeek V4 gratis-tier zichtbaar. De HTML-structuur was technisch correct — valide markup, semantische tags, de juiste hiërarchie. Maar de smaak van de output was niet goed. Onhandige <div>-nesting op plekken die het niet nodig hadden. Inline stijlen in plaats van class-hooks. Een hero-sectie die eruitzag als 2022-markup. De agent produceerde iets dat ik kon verzenden, maar dat ik niet daadwerkelijk zou verzenden zonder het te herzien.

Dit is het moment waar het eerlijke antwoord is: koppel Hermes + DeepSeek voor het zware werk, en laat de laatste pass door Claude Opus 4.7 gaan voor de afwerking. De economie werkt nog steeds — het grootste deel van de tokenkosten (onderzoek + gestructureerd conceptwerk) gaat via de gratis tier, en alleen de laatste 10% (de ontwerp-gevoelige HTML) gaat via het betaalde model. Mijn volledige Opus 4.7-analyse behandelt waarom dat model nog steeds zijn plek verdient aan de top van de afwerkingspipeline ondanks de kosten.

Werkbelasting 4: bestandsorganisatie en spreadsheetanalyse

De taak: een Downloads-map opruimen met 312 bestanden erin, categoriseren op type en afgeleid doel, verplaatsen naar georganiseerde submappen en een CSV-inventaris produceren.

Hermes handelde dit perfect af. De bestandsbewerkingstool plus DeepSeek V4 Flash voor de classificatielogica is een sterke combinatie. De agent identificeerde de bestandstypen, leidde doelen af uit bestandsnamen en inhoud waar passend, organiseerde ze in een schone structuur en produceerde een CSV met het oorspronkelijke pad, nieuwe pad, afgeleide categorie en betrouwbaarheidsscore. Drieëntwintig bestanden markeerde het als "onduidelijk" voor mijn handmatige beoordeling. Van die drieëntwintig waren vier echt dubbelzinnig en de andere negentien sorteerde ik in ongeveer negentig seconden.

Kosten: $0. Tijd besteed aan een taak die ik al twee maanden voor me uit had geschoven: ongeveer acht minuten van mijn tijd, voornamelijk tijdens de handmatige beoordelingsstap. De eerlijke conclusie is dat dit het soort werk is dat een onbeheerde agent voor iedereen zou moeten doen, en het feit dat het nu letterlijk niets kost om te draaien is het punt waar ik steeds op terugkom.

Werkbelasting 5: multi-tool browserautomatisering

De taak: inloggen op een specifiek dashboard, de analytics van de laatste 30 dagen ophalen, de cijfers formatteren in een wekelijks statusrapport en het e-mailen naar een stakeholder.

Dit is de werkbelasting waarbij ik oprecht niet wist wat ik kon verwachten. Browserautomatisering is moeilijk. Persistente logins zijn moeilijker. Multi-tool-orkestratie met checkpoints ertussen — nog moeilijker.

Hermes deed het. De browser-use-integratie handelde de login af via een opgeslagen profiel. Het ophalen van de analytics werkte bij de eerste poging. De formatteringsstap gebruikte een skill die ik eerder had geschreven voor statusrapporten, waarbij de agent deze correct ophaalde uit het procedureel geheugen. De e-mailstap werd gerouteerd via de berichtengateway. End-to-end looptijd: ongeveer elf minuten. Kosten: $0.

De eerlijke kanttekening: de agent liep één keer in de week vast op dezelfde werkbelasting, toen het dashboard een UI-update had geduwd die de analytics-exportknop had verplaatst. Hermes besteedde acht minuten aan het proberen te klikken op de oude locatie voordat het netjes een time-out gaf en me vertelde wat er was gebeurd. Dat herstelgedrag — eerlijk falen en de gebruiker vertellen — is aanzienlijk beter dan de helft van de commerciële automatiseringstools die ik heb gebruikt.

Waar deze stack wint (en waar Opus zijn kosten nog steeds verdient)

Na een week lang deze combinatie te hebben gedraaid over de vijf bovenstaande werkbelastingen plus enkele kleinere experimenten, is hier de eerlijke kaart van waar elke laag van de stack zijn plek verdient.

Hermes + DeepSeek V4 gratis wint op: onderzoeksaggregatie, gestructureerd conceptwerk, bestandsbewerkingen, spreadsheetanalyse, browserautomatisering voor voorspelbare interfaces, geplande achtergrondworkflows, meerstaps-doelnastreving, alles waar de output meer gaat over correctheid en structuur dan over esthetische smaak.

Hermes + DeepSeek V4 gratis verliest op: front-end output die ontwerpsmaak vereist, tekst die stem nodig heeft (DeepSeek's stem in lang-form Engels is competent maar herkenbaar "AI" op een manier die ik niet prettig vind), genuanceerd redeneren over extreem lange contexten voorbij 300K tokens, alles waar je het model nodig hebt om vol vertrouwen te weigeren in plaats van een aannemelijk-maar-fout antwoord te produceren.

Voor de verlieskolom is Claude Opus 4.7 nog steeds mijn favoriete model. De interessante workflow die zich aandient — en die ik nu dagelijks gebruik — is het overdrachtspatroon. Hermes draait onbeheerd op gratis DeepSeek voor het grootste deel van een agentworkload. Wanneer het een stap bereikt die smaak, stem of zorgvuldig oordeel vereist, routeert het die specifieke stap naar Opus via een betaalde API-sleutel, vangt het resultaat op en gaat verder. De totale kosten van een volledige pipeline dalen van "$30-50 als alles op Opus draaide" naar "$1-3 omdat alleen de afwerkingsstap op Opus draaide." Mijn gids voor AI-agent kostenoptimalisatie gaat dieper in op dit hybride patroon als je je eigen wilt ontwerpen. En als je het bredere DeepSeek-verhaal hebt gevolgd, behandelt mijn DeepSeek V4 Pro diepgaande review de architectuur van het model in meer detail dan dit artikel nodig heeft.

De eerlijke beperkingen die niemand op Twitter citeerde

Ik heb deze door het hele artikel heen verweven, maar ze verdienen hun eigen sectie omdat ze je echte tijd besparen.

Hermes heeft bugs. Het is open source, het is jong, het beweegt snel. Ik liep in mijn testweek tegen twee problemen aan: een geheugenopslag-query die een time-out gaf bij een bijzonder lange conversatiethread (opgelost door de FTS5-cache te wissen, maar de fix is nog niet gedocumenteerd), en een race condition in de planningsplugin waarbij twee geplande skills die tegelijk afvuurden ervoor zorgden dat één zijn output verloor. Geen van beide was een dealbreaker. Beide vereisten dat ik in de codebase dook om te begrijpen wat er aan de hand was. Als je niet comfortabel bent met het lezen van Python en SQLite-schema's wanneer er iets scheef gaat, wacht dan zes maanden.

De News Portal gratis tier houdt mogelijk niet stand. Ik blijf dit zeggen omdat het het grootste risico is voor deze hele setup. Plan je architectuur zodat het wisselen van inferentieprovider één configuratiewijziging is. Hermes maakt dit makkelijk — het hermes model-commando ondersteunt elke grote provider — maar het is aan jou om de wissel daadwerkelijk te testen voordat de dag aanbreekt dat je het nodig hebt.

DeepSeek V4's stem bij creatieve output is niet die van Opus. Dit is een reëel verschil. Voor onderzoek, gestructureerde concepten, code en elke output die beoordeeld wordt op correctheid, kan V4 zich meten. Voor tekst die beoordeeld wordt op smaak, voel je het verschil. Koppel de modellen voor de werkbelastingen waar dit ertoe doet.

Windows native is bèta. De Linux- en macOS-installatieflows zijn soepel. De native Windows-flow werkt maar heeft scherpe randjes. Als je op Windows zit en je werk afhankelijk is van betrouwbare werking, overweeg dan Hermes binnen WSL2 te draaien — de officiële docs bevelen dat nog steeds aan als het meest stabiele Windows-pad.

De agent zal af en toe tool-mogelijkheden hallucineren. Eenmaal tijdens mijn testweek probeerde Hermes een skill te gebruiken die niet bestond (het had een skillnaam gerefereerd uit documentatie die het had gelezen, niet een die het daadwerkelijk had geschreven). De faalwijze was netjes — het vertelde me dat de skill niet was gevonden en vroeg of ik wilde dat het er een schreef — maar het is een herinnering dat zelfs agents met procedureel geheugen "ik las hierover" kunnen verwarren met "ik heb dit." Verifieer voordat je vertrouwt.

Geen van deze is een reden om de stack niet te draaien. Het zijn redenen om het met open ogen te doen.

Wat er in de komende zes maanden gebeurt

Ik wil afsluiten met een voorspelling, omdat ik denk dat deze combinatie oprecht een signaal is van waar agent-infrastructuur naartoe gaat.

In 2025 werd het gesprek over agent-runtimes gedomineerd door frameworks (LangGraph, AutoGen, CrewAI) die je hielpen agents te bouwen maar ervan uitgingen dat je ze zelf zou draaien, op je eigen infrastructuur, met je eigen modelrekening. De persistent-geheugenlaag was doe-het-zelf. Het skillsysteem was iets dat je elke keer opnieuw schreef. De kosten waren wat je API-factuur zei.

Wat Hermes + DeepSeek V4 gratis laat zien is dat de hele stack kan comprimeren. Persistent geheugen, inbegrepen. Skillsysteem, inbegrepen. Multi-tool-orkestratie, inbegrepen. Berichtenplatformen, inbegrepen. Frontier-tier modelinferentie, gratis. Het hele ding draait op een VPS van $14.

De komende zes maanden gaan we veel meer hiervan zien. Andere open-source agent-runtimes (en er zijn er al meerdere in ontwikkeling die ik volg) zullen het persistent-geheugen + skillsysteem-patroon kopiëren. Andere modelproviders zullen het "OpenAI-compatibele gratis tier als verliesleider"-patroon kopiëren. Andere routeringslagen zullen met News Portal concurreren op vrijgevigheid van de gratis tier. En de gemiddelde kosten van het draaien van een autonome agent voor een klein bedrijf zullen instorten van "een paar honderd dollar per maand" naar "de prijs van een VPS."

Als je een ontwikkelaar of solo-oprichter bent, is de zet nu om spiermassa op te bouwen met deze stack. Zet het op. Draai echte werkbelastingen erdoorheen. Bouw een paar skills. Leer waar het breekt. Tegen de tijd dat de infrastructuur volwassen genoeg is voor productiekritieke werkbelastingen, heb jij een jaar operationele ervaring erop terwijl alle anderen net de docs openen.

De wereld waarin elk klein team een 24/7 autonome onderzoeksassistent heeft draaien op gratis infrastructuur is geen 2027-voorspelling meer. Het is een 2026-weekendproject. Ik had de mijne in negen minuten draaien. De vraag die het waard is om vanavond bij stil te staan: wat zou jij toewijzen aan een agent die $0 kost om te draaien en nooit slaapt?

Veelgestelde vragen

Is Hermes Agent echt gratis met DeepSeek V4?

Ja — de modelinferentie zelf is gratis wanneer je Hermes routeert via de gratis tier van News Portal met DeepSeek V4. Je betaalt nog steeds voor welke VPS of lokale machine je Hermes op draait (typisch $5-15/maand voor een bruikbare VPS, of $0 als je zelf host op bestaande hardware). De gratis tier kan uiteindelijk overgaan naar betaald, dus plan voor die mogelijkheid. Voor de volledige setup-walkthrough, zie "De setupflow die me negen minuten kostte" hierboven.

Hoe verhoudt Hermes Agent zich tot AutoGPT of CrewAI?

Hermes is een persistente daemon met ingebouwd cross-sessie geheugen (FTS5-geïndexeerde SQLite), een procedureel skillsysteem, native berichtenplatformen en een uniforme tool-gateway. AutoGPT en CrewAI zijn frameworks voor het bouwen van agents — jij levert de persistentie, het geheugen en de deployment. Hermes staat dichter bij een besturingssysteem voor agents dan bij een bibliotheek. Voor de volledige architectuuruiteenzetting, zie "Wat Hermes Agent daadwerkelijk is" hierboven.

Heeft DeepSeek V4 echt een contextvenster van 1 miljoen tokens?

Het geadverteerde contextvenster van 1M tokens houdt in de praktijk schoon stand tot ongeveer 128K tokens, met bruikbare kwaliteit tot ruwweg 300K. Voorbij 300K-400K zie je verslechtering in bronvermeldingsnauwkeurigheid en kruisverwijzingsbetrouwbaarheid. Beschouw het 1M-getal als het bovenste plafond, niet als het werkplafond.

Kan ik Hermes Agent draaien op Windows?

Ja — native Windows is in vroege bèta en werkt voor de CLI, het dashboard en de berichtenplatformen. De installer haalt een portable Git Bash-distributie op samen met de andere afhankelijkheden. Als je maximale stabiliteit wilt, bevelen de Nous Research-docs nog steeds WSL2 aan als het meest betrouwbare Windows-pad.

Wat gebeurt er als de News Portal gratis tier stopt?

Hermes ondersteunt meerdere terugval-inferentiepaden: de officiële API van DeepSeek direct (momenteel $0,27/$0,42 per M input/output voor V4 Pro), OpenRouter op een verbruiksbasis, of zelf-gehoste DeepSeek V4 als je het GPU-budget hebt. Van provider wisselen is een eenregelige configuratiewijziging via het hermes model-commando, dus ontwerp je workflows zodat de wissel triviaal is.

Laten we samenwerken

Op zoek naar het bouwen van AI-systemen, het automatiseren van workflows of het opschalen van je technische infrastructuur? Ik help je graag.

Fiverr (maatwerk & integraties): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (enterprise-oplossingen): ramlit.com
ColorPark (design & branding): colorpark.io
xCyberSecurity (beveiligingsdiensten): xcybersecurity.io