Hermes Agent + DeepSeek V4 kostenlos: Mein Praxistest
Der Moment, in dem ich wusste, dass dieses Setup ein Problem für meine Opus-Rechnung werden würde, war gegen 02:14 Uhr an einem Mittwoch. Ich hatte eine Hermes Agent-Instanz auf einem VPS für $14 im Monat laufen, auf DeepSeek V4 über die kostenlose Stufe von News Portal gerichtet, und sie war mitten in einer Rechercheaufgabe, die ich ihr vor dem Schlafengehen gegeben hatte. Zwölf Quellen gescraped. Notizen strukturiert. Ein Markdown-Bericht wurde in /output zusammengestellt. Ein zweiter Skill — einer, den Hermes am Vortag selbst geschrieben hatte — wartete darauf, das Markdown zu nehmen und eine HTML-Version desselben Berichts für meinen Blog zu erstellen.
Ich überprüfte mein Dashboard. Gesamtausgaben für die Nacht bisher: $0,00.
Nicht „vernachlässigbar." Nicht „auf null gerundet." Tatsächlich null. Dieselbe Arbeitslast über Claude Opus 4.7 hätte zu diesem Zeitpunkt etwa $9 an API-Guthaben verbrannt. Auf GPT-5.5 Pro wäre es näher an $30 gewesen. Was mein Hirn sprengte, war, dass die Arbeit nicht schlechter war. Es war kein Spielzeugniveau. Die Recherche war echt, die Quellenangaben waren intakt, das Markdown war sauber. Der HTML-Entwurf brauchte noch Feinschliff — wo genau er scheiterte, komme ich noch dazu — aber die strukturelle Arbeit war erledigt, ausgeführt von einem Agenten, der auf einem kostenlosen Modell auf einem VPS lief, der mich weniger kostet als ein belegtes Brötchen.
Das ist die Schlagzeile. Die Integration von Hermes Agent + DeepSeek V4 kostenlos über News Portal ist kein Spielzeug. Es ist das erste Mal, dass ich einen vollständig quelloffenen, MIT-lizenzierten, Agent-Stack mit persistentem Speicher auf einem kostenlosen Frontier-Modell habe laufen sehen, der Arbeit produziert, die ich tatsächlich verwenden würde. Die Bugs sind echt. Die rauen Kanten sind echt. Die Tatsache, dass die kostenlose Stufe möglicherweise kostenpflichtig wird, ist echt. Aber der Moment ist da, und ich habe eine Woche lang getestet, damit du nicht auf die harte Tour herausfinden musst, welche Teile standhalten.
Dies ist der ausführliche Bericht. Was Hermes Agent wirklich ist. Was DeepSeek V4 tatsächlich leistet. Wie das News Portal-Stück hineinpasst. Der Setup-Ablauf, der mich von einer sauberen Maschine aus etwa neun Minuten gekostet hat. Die fünf Anwendungsfälle, die ich durch den Stack gejagt habe — darunter die zwei, die mich wirklich überrascht haben — und die Stellen, an denen ich Opus zurückholen musste, um aufzuräumen. Am Ende dieses Artikels weißt du, ob diese Kombination dein Wochenende wert ist und was genau dich erwartet, wenn du dich hinsetzt, um sie zu installieren.
Warum diese Kombination gerade jetzt wichtig ist
Die Geschichte der Agent-Infrastruktur im Jahr 2026 war eine Geschichte von Kompromissen. Man konnte persistenten Speicher haben, aber nur in der Cloud eines anderen (der ChatGPT-Memory-Weg, der Claude-Projects-Weg). Man konnte lokale Kontrolle haben, war aber damit beschäftigt, alles selbst mit LangGraph und einer Postgres-Instanz zusammenzubasteln, die man vergessen hatte zu sichern. Man konnte günstige Inferenz haben, aber die Agent-Schleife darauf war handgebaut und fragil. Man konnte einen polierten Agenten haben, aber die Modellkosten zerstörten die Wirtschaftlichkeit für alles außer einem bezahlten, kundenorientierten Produkt.
Was sich in den letzten sechzig Tagen geändert hat, ist, dass drei Puzzleteile gleichzeitig an ihren Platz gefallen sind.
Erstens hat Nous Research Hermes Agent veröffentlicht — eine vollständig quelloffene, MIT-lizenzierte Agent-Runtime mit persistentem Langzeitgedächtnis, einem wiederverwendbaren Skill-System, nativer Browser-Integration und einem 24/7-Design für lokale Infrastruktur, das nicht davon abhängt, ob jemandes Cloud läuft. Laut den Release-Notes von Nous und der GitHub-README erreichte das Projekt innerhalb von zwei Monaten nach dem Launch 60.000 Sterne, was es zum am schnellsten wachsenden Open-Source-KI-Agenten-Projekt des Jahres macht.
Zweitens hat DeepSeek V4 veröffentlicht — und nicht das höfliche, inkrementelle V4. Das komplette Lineup, einschließlich V4 Flash mit Reasoning. Laut Artificial Analysis-Benchmarks arbeitet DeepSeek V4 Flash (maximale Reasoning-Leistung) mit etwa 121 Tokens pro Sekunde und erzielt 47 auf dem Artificial Analysis Intelligence Index, während V4 Pro (maximales Reasoning) 52 erzielt. Das Kontextfenster von 1M Tokens ist die Headline-Spezifikation, und im Gegensatz zu einigen 1M-Kontext-Behauptungen, die ich in der Vergangenheit getestet habe, hält diese größtenteils über 128K hinaus stand — mehr dazu weiter unten.
Drittens — und das ist der Teil, über den noch niemand außerhalb der Nous-Community spricht — hat News Portal eine kostenlose Stufe eröffnet, die DeepSeek V4 über denselben OpenAI-kompatiblen Endpunkt proxyt, den Hermes erwartet. Keine Kreditkarte. Kein Business-E-Mail-Gate. Man meldet sich an, wählt die kostenlose Stufe, und Hermes routet seine Inferenz darüber.
Staple diese drei aufeinander und du bekommst etwas, das vor sechzig Tagen nicht existierte: einen 24/7 autonomen Agenten mit persistentem Speicher, der auf einem Frontier-Modell läuft, mit $0 monatlichen Inferenzkosten. Der Haken — und es gibt einen Haken, ich werde durchgehend ehrlich darüber sein — ist, dass „Frontier-Tier" immer noch „DeepSeek V4 Flash über einen kostenlosen Proxy" bedeutet, nicht Opus 4.7. Diese Lücke ist an bestimmten Stellen relevant, die ich dir zeigen werde. Aber sie ist an weniger Stellen relevant, als man denken würde, und die Stellen, an denen sie keine Rolle spielt, sind genau die Agent-Workloads, die man am liebsten unbeaufsichtigt um 2 Uhr nachts laufen lassen würde.
Bevor wir zum Setup kommen, musst du jede Komponente verstehen. Überspringe die nächsten beiden Abschnitte, wenn du bereits tief im Hermes Discord steckst — aber ich würde behaupten, dass die meisten Leser sie wollen, weil die offizielle Doku mehr Kontext voraussetzt, als sie sollte.
Was Hermes Agent wirklich ist (und was nicht)
Ich sage es direkt: Ich ging an Hermes Agent heran und erwartete einen weiteren AutoGPT-Klon. Dieser Eindruck hielt etwa zehn Minuten, nachdem ich die README gelesen hatte. Das hier ist eine andere Kategorie.
Das traditionelle Agent-Runtime-Muster geht so: Du schreibst ein Python-Skript, verdrahtest es mit einem Modell, gibst ihm Tools, führst es aus, es macht etwas, es terminiert, du gehst zurück in deine IDE. Der Zustand lebt in deinem Kopf. Das „Gedächtnis" ist das, was du in den nächsten Prompt stopfst. Wenn der Agent am Dienstag eine nützliche Entdeckung macht, weiß er am Mittwoch nichts mehr davon.
Hermes kehrt das um. Hermes ist ein Daemon. Du installierst es, es läuft, und es läuft weiter. Es hat seine eigene SQLite-Datenbank mit FTS5-Volltextindexierung für sitzungsübergreifendes Gedächtnis. Es hat eine Verzeichnisstruktur unter ~/.hermes, in der es selbst geschriebene Skills persistent speichert. Es bietet eine CLI (hermes chat, hermes model, hermes setup) und ein Web-Dashboard. Es verbindet sich mit Messaging-Gateways (Telegram, Discord, Slack), sodass man vom Handy aus damit sprechen kann, während es auf einem Server irgendwo läuft. Laut der offiziellen Nous Research-Dokumentation holt der Installationsbefehl alles auf einmal:
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
Diese eine Zeile, auf einer sauberen Linux- oder macOS-Maschine, richtet den Agenten ein, seinen Speicher, sein Tool-Gateway, das Dashboard und die Autostart-Konfiguration. Unter Windows ist es etwas anders — native Windows-Unterstützung ist laut Release-Notes in der frühen Beta, und der Installer zieht eine portable Git Bash-Umgebung zusammen mit Python 3.11, Node.js 22, ripgrep und ffmpeg. Das browserbasierte Dashboard läuft nativ. Die CLI läuft nativ. Die Messaging-Gateways laufen als Hintergrund-PowerShell-Prozesse. Es ist noch nicht so geschmeidig wie der Linux-Ablauf, aber es funktioniert.
Der Teil, der mich am meisten überrascht hat, war das Skill-System. Hermes hat nicht nur Tools — es hat prozedurales Gedächtnis. Wenn du es nach etwas Komplexem fragst und es eine Kette von Tool-Aufrufen herausfindet, die funktioniert, kann es diese Kette als wiederverwendbaren Skill speichern, benennen und später wieder aufrufen. Laut dem awesome-hermes-agent Community-Repo gibt es bereits mehrere hundert von Nutzern beigesteuerte Skills für Web-Scraping-Muster, Dateiorganisations-Workflows, Content-Entwürfe, Code-Analyse-Routinen und dutzende vertikale Anwendungsfälle.
Die integrierte Tool-Oberfläche umfasst laut offizieller Dokumentation:
- Websuche über Firecrawl-Integration
- Bildgenerierung über FAL (Text-zu-Bild)
- Text-zu-Sprache über OpenAIs TTS-Endpunkt
- Cloud-Browser über Browser Use — persistente Sitzungen, Cookies, Profilverwaltung
- Lokaler Browser direkt über das Terminal-Tool gesteuert
- Dateioperationen — lesen, schreiben, organisieren, Batch-Umbenennung
- Planung — Cron-artig mit natürlicher Sprache („jeden Montag um 9 Uhr")
- Zielmanagement — mehrstufige Ziele mit Fortschrittsverfolgung
- Skill-Module — das prozedurale Gedächtnissystem oben
- Inter-Agent-Brücke — mehrere Hermes-Instanzen kommunizieren miteinander
- Modellauswahl — Laufzeitwechsel zwischen Anbietern
- Kostenkontrolle — Budget-Limits pro Skill
Ich zähle 19+ First-Party-Tools/Skill-Oberflächen, je nachdem wie man die Kategorien aufteilt, und das ist noch bevor man die Community-Plugins anfasst. Die interessante Design-Entscheidung ist, dass alle diese Tools über das laufen, was Nous das Tool Gateway nennt — eine einheitliche Routing-Schicht, die Authentifizierung, Rate Limits und Provider-Abstraktion handhabt. Man muss nicht jedes Tool einzeln mit jedem Anbieter verdrahten. Das Gateway erledigt das.
Was Hermes nicht ist, und ich möchte ehrlich darüber sein, bevor jemand den falschen Eindruck bekommt: Es ist kein poliertes Verbraucherprodukt. Die Doku setzt voraus, dass man auf der Kommandozeile zu Hause ist. Das Dashboard ist funktional statt schön. Manche Skills brechen auf subtile Weise und man merkt es erst, wenn der Agent stillschweigend einen halb fertigen Bericht produziert. Es gibt einen Discord, wo das Kernteam responsive ist, und der GitHub Issue Tracker bewegt sich schnell, aber man ist ein Early Adopter. Wenn man damit nicht einverstanden ist, sollte man sechs Monate warten.
Wenn man damit einverstanden ist, ist die Kombination aus persistentem Speicher + Skill-System das Nächste, was ich an einer „persönlichen KI-Infrastrukturschicht", die einem tatsächlich gehört, je gesehen habe. Und das ist, bevor wir darauf schauen, was der Anschluss an DeepSeek V4 kostenlos mit der Kostenrechnung macht.
DeepSeek V4 und die Geschwindigkeitsfrage, die niemand gestellt hat
Die Benchmark-Schlagzeilen zu DeepSeek V4 sind korrekt, aber leicht irreführend, und ich möchte das richtigstellen, bevor wir weitermachen.
Laut Artificial Analysis zum Zeitpunkt des V4-Releases stehen die Varianten folgendermaßen da:
- DeepSeek V4 Pro (Reasoning, maximale Leistung): 52 auf dem AA Intelligence Index, ~40 Tokens/Sek.
- DeepSeek V4 Flash (Reasoning, maximale Leistung): 47 auf dem AA Intelligence Index, ~121 Tokens/Sek.
- DeepSeek V4 Pro (ohne Reasoning): 39 auf dem AA Intelligence Index, ~32 Tokens/Sek.
- DeepSeek V4 Flash (Max): 97,6 Tokens/Sek. über allgemeine Anfragen
Zum Vergleich, wo es zählt: V4 Pro landet auf etwa Platz 10 in Sachen rohe Intelligenz unter den 87 Frontier-Modellen, die Artificial Analysis verfolgt, und V4 Flash landet auf etwa Platz 8 bei der Geschwindigkeit. Das ist der Rahmen, den man auf den meisten Marketingseiten sieht. Die Realität für eine Agent-Arbeitslast ist interessanter als beide Ranglisten.
Für autonome Agent-Arbeit ist die Variante, die man möchte, V4 Flash mit Reasoning, und der Grund ist, dass Agent-Aufgaben token-intensiv sind. Ein Recherche-Workflow, der zwölf URLs abarbeitet und einen strukturierten Bericht produziert, kann in einem einzigen Durchlauf 200K-400K Tokens verarbeiten. Bei 30 Tokens/Sek. auf V4 Pro (Reasoning) ist das ein vierstündiger Durchlauf. Bei 121 Tokens/Sek. auf V4 Flash (Reasoning) ist es unter einer Stunde für dieselbe Arbeitslast. Der Intelligenzunterschied zwischen Pro und Flash für diese Art von strukturierter Output-Aufgabe ist real, aber klein — vielleicht 5-8% messbar schlechtere Output-Qualität in meinen Tests — und der Zeitunterschied macht den Produktivitätsunterschied enorm, wenn der Agent unbeaufsichtigt läuft.
Das Kontextfenster von 1M Tokens ist die Spezifikation, auf die sich alle fixieren. In der Praxis hielt die Obergrenze sauber bis etwa 128K Tokens — Recherchezusammenfassungen über zwölf bis fünfzehn Langform-Quellen blieben kohärent, ohne Verschlechterung der Zitiergenauigkeit. Zwischen 128K und etwa 300K sah ich Grenzfälle: Der Agent verlor gelegentlich den Überblick, welche Quelle zu welcher spezifischen Behauptung gehörte. Jenseits von 300K-400K wird es merklich schlechter, und irgendwo bei 700K ist die Qualitätsverschlechterung schwerwiegend genug, dass ich dem Output ohne manuelle Überprüfung nicht vertrauen würde.
Wenn also die Homepage „1M Kontext" sagt, lies es als „1M-Kontextfenster, mit echter Nutzbarkeit bis ~128K und einer weichen Klippe nach 300K." Das ist immer noch ausgezeichnet. Es ist nur nicht das unbegrenzte-Aufmerksamkeit-Modell, das das Marketing impliziert.
Hier ist der Teil, der für die Hermes-Integration wirklich zählt: Die API-Oberfläche von DeepSeek V4 ist OpenAI-kompatibel. Hermes kann darüber über jeden Anbieter routen, der diese Oberfläche abdeckt. Was uns zu News Portal bringt.
News Portal: Die kostenlose Schicht, die den Kreis schließt
News Portal ist die Routing-Schicht, die die theoretische „Hermes + kostenloses DeepSeek"-Kombination in eine tatsächliche One-Click-Realität verwandelt. Es ist ein Multi-Modell-API-Gateway mit einer großzügigen kostenlosen Stufe, die DeepSeek V4 Flash und Pro standardmäßig enthält. Man meldet sich mit einer E-Mail an, braucht keine Kreditkarte, wählt die kostenlose Stufe und bekommt einen API-Schlüssel, den der hermes model-Befehl von Hermes direkt ansprechen kann.
Der ehrliche Hinweis: Das ist die Komponente, bei der ich mir langfristig am wenigsten sicher bin. Kostenlose API-Zugänge haben eine Erfolgsbilanz davon, sechs bis neun Monate großartig zu funktionieren und dann leise verschärft oder hinter eine Bezahlschranke geschoben zu werden, sobald die Nutzung skaliert. Das Hermes-Team war transparent darüber, dass die kostenlose Stufe letztendlich ein bezahltes Abonnement erfordern könnte, und ich würde dafür planen. Aber zum Zeitpunkt des Schreibens ist sie offen, sie funktioniert, und die Rate Limits sind hoch genug, dass ich meinen Agenten eine volle Woche mit mehreren Stunden täglicher Nutzung habe laufen lassen, ohne an eine Wand zu stoßen.
Falls die kostenlose Stufe schließt, hat man drei Fallback-Pfade, und Hermes unterstützt alle: direkt auf die offizielle API von DeepSeek verweisen (DEEPSEEK_API_KEY-Umgebungsvariable, $0,27/M Input / $0,42/M Output für V4 Pro zu aktuellen Preisen, immer noch dramatisch günstiger als Opus); über OpenRouter routen, wo V4-Varianten auf Verbrauchsbasis verfügbar sind; oder DeepSeek V4 selbst hosten, wenn man das GPU-Budget hat (was man für die 1,6T-Parameter-Pro-Variante fast sicher nicht hat, aber die kleinere Flash-Variante ist auf einer einzelnen H100 machbarer).
Das ist die Ausgangslage. Kommen wir nun zu dem Teil, der mich wirklich interessiert hat — die tatsächliche Installation, Konfiguration und die Woche, die ich mit echten Aufgaben verbracht habe.
Der Setup-Ablauf, der mich neun Minuten gekostet hat
Ich habe die Zeit gestoppt. Sauberer Ubuntu 22.04 VPS, $14/Monat-Stufe bei einem Budget-Anbieter, nichts installiert außer einem Non-Root-Benutzer mit sudo.
Schritt eins: Hermes installieren. Ein curl-Befehl, aus dem offiziellen Nous Research-Repo:
curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
Der Installer lief etwa drei Minuten. Er zog Python 3.11, richtete ein virtualenv ein, installierte Node.js 22 für das Dashboard, klonte das Hermes-Repo nach ~/.hermes/hermes-agent, initialisierte den SQLite-Speicher und erstellte systemd-Units für den Autostart. Die Ausgabe ist ausführlich, aber lesbar — wenn etwas fehlschlägt, sieht man genau welchen Schritt. Bei mir schlug nichts fehl.
Schritt zwei: News Portal-Konto erstellen. Browser öffnen, news-portal.ai (aktuelle URL über die Hermes-Docs verifizieren, bevor man sich anmeldet), E-Mail + Passwort, keine Kreditkartenabfrage. Die Kontoerstellung dauerte etwa neunzig Sekunden einschließlich der E-Mail-Verifizierung.
Schritt drei: Kostenlose Stufe auswählen. Ein Klick im Dashboard. Die kostenlose Stufe zeigt DeepSeek V4 Flash und V4 Pro als verfügbare Modelle. Ich kopierte meinen API-Schlüssel.
Schritt vier: Hermes konfigurieren. Zurück im VPS-Terminal:
hermes model
Dies bringt einen in einen interaktiven Modellwähler. Die erste Option in der Liste — Option 1 im Menü — ist die News Portal-Gratisintegration mit DeepSeek V4. Ich wählte sie aus, fügte meinen API-Schlüssel ein, als danach gefragt wurde, und die CLI bestätigte mit einer einzeiligen Erfolgsmeldung, dass das Modell aktiv war.
Schritt fünf: Agenten starten. Ein einziger Befehl:
hermes chat
Der Agent fuhr hoch, die Dashboard-URL wurde im Terminal angezeigt, und ich sprach mit einem persistenten Agenten, der auf einem Frontier-Modell mit $0 Inferenzkosten lief. Neun Minuten vom curl-Befehl bis zur ersten Antwort.
Auf macOS ist der Ablauf identisch. Auf nativem Windows sollte man mit einer etwas längeren Installation rechnen (näher an sieben oder acht Minuten für den Installationsschritt selbst), weil der Installer eine portable Git Bash-Distribution zusammen mit den anderen Abhängigkeiten zieht. Die Konfigurationsschritte danach sind dieselben.
Zwei Konfigurationstipps, die nicht offensichtlich aus der Doku hervorgehen und mir echte Zeit gespart haben:
Erstens, das Messaging-Gateway frühzeitig einrichten. Hermes hat einen hermes gateway-Befehl, der den Agenten mit Telegram oder Discord verbindet. Einmal verbunden, kann man dem Agenten Aufgaben vom Handy geben, während man nicht am Schreibtisch ist, und er wird sie auf dem VPS im Hintergrund ausführen. Das ist die Funktion, die Hermes für mich von „interessantem Spielzeug" zu „tatsächlich täglich nützlich" verwandelt hat. Ich schicke ihm um 23 Uhr eine Rechercheaufgabe, es läuft über Nacht auf kostenlosem DeepSeek V4, und der Markdown-Bericht liegt morgens in meinem Output-Ordner.
Zweitens, Kostenlimits konfigurieren, selbst wenn man auf der kostenlosen Stufe ist. Das hermes Kostenkontroll-Plugin erlaubt es, Budget-Limits pro Skill festzulegen. Der Grund, sie jetzt zu setzen: Wenn man jemals zu einem bezahlten Modell wechselt (Opus für Feinschliff, zum Beispiel), werden die auf der kostenlosen Stufe definierten Limits übernommen. Man will nicht, dass ein Agent versehentlich das Anthropic-Budget um 3 Uhr nachts verbrennt, weil man vergessen hat, ein Limit hinzuzufügen.
Das ist die Installation. Sprechen wir jetzt darüber, was der Stack tatsächlich leistet.
Fünf Arbeitslasten, die ich durchgejagt habe (und wo jede brach)
Ich wählte fünf Anwendungsfälle, die repräsentativ für die Arbeit sind, die ich tatsächlich von einem unbeaufsichtigten Agenten erledigen lassen möchte. Ich führte jeden durch den Hermes + DeepSeek V4 Gratis-Stack, protokollierte was er produzierte und notierte die Stellen, an denen ich ein bezahltes Modell zurückholen musste.
Arbeitslast 1: Autonome Recherche und Markdown-Bericht
Die Aufgabe: „Recherchiere den aktuellen Stand der MCP-Server-Implementierungen im Mai 2026, finde die fünf am weitesten verbreiteten und erstelle einen Markdown-Bericht mit Installationsschritten, Vor- und Nachteilen sowie Links zu den Quell-Repos."
Der Agent erledigte das hervorragend. Zwölf URLs besucht, korrekt zitiert, strukturiert in einem 2.400-Wörter-Markdown-Bericht mit H2/H3-Hierarchie, Codeblöcken für Installationsbefehle und einer Vergleichstabelle am Ende. Gesamtlaufzeit: 47 Minuten. Gesamtkosten: $0.
Die einzige Schwachstelle: Er zog Statistiken aus ein paar Quellen, die eigentlich Marketingseiten waren, getarnt als technische Artikel. Ich musste zwei der Adoptionszahlen manuell verifizieren, bevor ich ihnen vertraute. Das ist kein Hermes-Problem und kein DeepSeek-Problem — es ist ein LLM-zieht-aus-dem-Web-Problem, das jedes Agent-System gleichermaßen betrifft. Die Lösung ist, das Zielmanagement-Plugin zu verwenden, um explizit Dual-Source-Verifikation für numerische Behauptungen zu verlangen. Das tat ich beim nächsten Durchlauf und das Problem verschwand.
Arbeitslast 2: Websuch-Aggregation und tägliches Briefing
Die Aufgabe: Jeden Morgen um 8 Uhr fünf spezifische Publikations-URLs nach neuen KI-Nachrichten scannen, Geschichten deduplizieren, die in mehreren Quellen erscheinen, und ein 400-Wörter-Morgenbriefing erstellen.
Das ist genau die Arbeitslast, für die Hermes gebaut wurde. Ich schrieb es als Skill, plante es über das Planungs-Plugin und ließ es die ganze Woche laufen. Die Briefings waren durchweg stark — typischerweise 90% des Weges zur Veröffentlichungsqualität. Am Morgen von Tag vier zog er einen Artikel, der sich als wiederveröffentlichter älterer Beitrag herausstellte, den eine der Quellen auf die Titelseite geschoben hatte. Hermes erkannte die Veralterung nicht. Einfacher Fix auf meiner Seite (einen Datumsfilter-Schritt zum Skill hinzufügen), aber erwähnenswert, falls man etwas Ähnliches baut.
Kosten über die Woche: $0. Eingesparte Zeit gegenüber dem täglichen manuellen Lesen der Quellen: etwa vierzig Minuten pro Tag.
Arbeitslast 3: HTML-Blog-Entwurf generieren
Die Aufgabe: Den Markdown-Bericht aus Arbeitslast 1 nehmen und eine HTML-Version erstellen, die direkt in ein CMS eingefügt werden kann.
Hier werden die Einschränkungen der kostenlosen DeepSeek V4-Stufe sichtbar. Die HTML-Struktur war technisch korrekt — valides Markup, semantische Tags, die richtige Hierarchie. Aber der Geschmack der Ausgabe stimmte nicht. Umständliche <div>-Verschachtelung an Stellen, die sie nicht brauchten. Inline-Styles statt Class-Hooks. Eine Hero-Section, die wie 2022-Markup aussah. Der Agent produzierte etwas, das ich ausliefern könnte, aber nicht tatsächlich ausliefern würde, ohne es zu überarbeiten.
Das ist der Moment, wo die ehrliche Antwort lautet: Koppele Hermes + DeepSeek für die schwere Arbeit, und lasse den letzten Durchgang durch Claude Opus 4.7 für den Feinschliff laufen. Die Wirtschaftlichkeit funktioniert weiterhin — der Großteil der Token-Kosten (Recherche + strukturiertes Entwerfen) geht über die kostenlose Stufe, und nur die letzten 10% (das designsensitive HTML) gehen über das bezahlte Modell. Meine vollständige Opus 4.7-Analyse erklärt, warum dieses Modell trotz der Kosten seinen Platz an der Spitze der Feinschliff-Pipeline verdient.
Arbeitslast 4: Dateiorganisation und Tabellenanalyse
Die Aufgabe: Einen Downloads-Ordner mit 312 Dateien aufräumen, nach Typ und erschlossenem Zweck kategorisieren, in organisierte Unterordner verschieben und eine CSV-Inventarliste erstellen.
Hermes erledigte das perfekt. Das Dateioperations-Tool plus DeepSeek V4 Flash für die Klassifikationslogik ist eine starke Kombination. Der Agent identifizierte die Dateitypen, erschloss Zwecke aus Dateinamen und Inhalten wo angemessen, organisierte sie in eine saubere Struktur und produzierte eine CSV mit dem ursprünglichen Pfad, dem neuen Pfad, der erschlossenen Kategorie und einem Konfidenzwert. Dreiundzwanzig Dateien markierte er als „unklar" für meine manuelle Überprüfung. Von diesen dreiundzwanzig waren vier wirklich mehrdeutig und die anderen neunzehn sortierte ich in etwa neunzig Sekunden.
Kosten: $0. Zeitaufwand für eine Aufgabe, die ich seit zwei Monaten vor mir hergeschoben hatte: etwa acht Minuten meiner Zeit, hauptsächlich während des manuellen Überprüfungsschritts. Die ehrliche Erkenntnis ist, dass dies die Art von Arbeit ist, die ein unbeaufsichtigter Agent für jeden erledigen sollte, und die Tatsache, dass es jetzt buchstäblich nichts kostet, sie auszuführen, ist der Punkt, zu dem ich immer wieder zurückkomme.
Arbeitslast 5: Multi-Tool Browser-Automatisierung
Die Aufgabe: In ein bestimmtes Dashboard einloggen, die Analytics der letzten 30 Tage abrufen, die Zahlen in einen wöchentlichen Statusbericht formatieren und ihn einem Stakeholder per E-Mail schicken.
Das ist die Arbeitslast, bei der ich wirklich nicht wusste, was mich erwartet. Browser-Automatisierung ist schwierig. Persistente Logins sind schwieriger. Multi-Tool-Orchestrierung mit Checkpoints dazwischen — noch schwieriger.
Hermes schaffte es. Die Browser-Use-Integration handhabte den Login über ein gespeichertes Profil. Der Analytics-Abruf funktionierte beim ersten Versuch. Der Formatierungsschritt verwendete einen Skill, den ich zuvor für Statusberichte geschrieben hatte, wobei der Agent ihn korrekt aus dem prozeduralen Gedächtnis abrief. Der E-Mail-Schritt wurde über das Messaging-Gateway geroutet. End-to-End-Laufzeit: etwa elf Minuten. Kosten: $0.
Die ehrliche Einschränkung: Der Agent blieb einmal während der Woche bei derselben Arbeitslast stecken, als das Dashboard ein UI-Update ausgerollt hatte, das den Analytics-Export-Button verschoben hatte. Hermes verbrachte acht Minuten damit, auf die alte Stelle zu klicken, bevor es sauber in ein Timeout ging und mir mitteilte, was passiert war. Dieses Fehlerverhalten — ehrlich scheitern und den Benutzer informieren — ist deutlich besser als die Hälfte der kommerziellen Automatisierungstools, die ich verwendet habe.
Wo dieser Stack gewinnt (und wo Opus seine Kosten noch verdient)
Nach einer Woche, in der ich diese Kombination über die fünf oben genannten Arbeitslasten plus einige kleinere Experimente laufen ließ, hier die ehrliche Karte, wo jede Schicht des Stacks ihren Platz verdient.
Hermes + DeepSeek V4 kostenlos gewinnt bei: Recherche-Aggregation, strukturiertem Entwurf, Dateioperationen, Tabellenanalyse, Browser-Automatisierung für vorhersagbare Oberflächen, geplante Hintergrund-Workflows, mehrstufige Zielverfolgung, alles, wo die Ausgabe mehr auf Korrektheit und Struktur als auf ästhetischen Geschmack ausgerichtet ist.
Hermes + DeepSeek V4 kostenlos verliert bei: Frontend-Output, der Designgeschmack erfordert, Texte, die eine Stimme brauchen (DeepSeeks Stimme bei langen englischen Texten ist kompetent, aber erkennbar „KI" auf eine Art, die mir nicht gefällt), nuanciertes Reasoning über extrem lange Kontexte jenseits von 300K Tokens, alles, wo man das Modell braucht, das selbstbewusst ablehnt, anstatt eine plausible-aber-falsche Antwort zu produzieren.
Für die Verlustseite ist Claude Opus 4.7 immer noch mein bevorzugtes Modell. Der interessante Workflow, der sich entwickelt — und den ich jetzt täglich verwende — ist das Übergabemuster. Hermes läuft unbeaufsichtigt auf kostenlosem DeepSeek für den Großteil einer Agent-Arbeitslast. Wenn es einen Schritt erreicht, der Geschmack, Stimme oder sorgfältiges Urteil erfordert, routet es diesen spezifischen Schritt über einen bezahlten API-Schlüssel zu Opus, erfasst das Ergebnis und macht weiter. Die Gesamtkosten einer vollständigen Pipeline sinken von „$30-50, wenn alles auf Opus liefe" auf „$1-3, weil nur der Feinschliffschritt auf Opus lief." Mein Leitfaden zur KI-Agent-Kostenoptimierung geht tiefer auf dieses Hybridmuster ein, falls du dein eigenes entwerfen möchtest. Und wenn du die breitere DeepSeek-Geschichte verfolgt hast, behandelt mein DeepSeek V4 Pro Tiefenreview die Architektur des Modells ausführlicher, als es dieser Beitrag erfordert.
Die ehrlichen Einschränkungen, die niemand auf Twitter zitiert hat
Ich habe diese durch den ganzen Artikel verteilt, aber sie verdienen ihren eigenen Abschnitt, weil sie dir echte Zeit sparen.
Hermes hat Bugs. Es ist Open Source, es ist jung, es bewegt sich schnell. Ich stieß in meiner Testwoche auf zwei Probleme: eine Speicher-Abfrage, die bei einem besonders langen Konversations-Thread in ein Timeout lief (behoben durch Leeren des FTS5-Caches, aber der Fix ist noch nicht dokumentiert), und eine Race Condition im Planungs-Plugin, bei der zwei gleichzeitig startende geplante Skills dazu führten, dass einer seine Ausgabe verlor. Keines war ein Dealbreaker. Beide erforderten, dass ich in die Codebasis eintauchte, um zu verstehen, was passiert war. Wenn man sich nicht wohlfühlt dabei, Python- und SQLite-Schemas zu lesen, wenn etwas schiefläuft, sollte man sechs Monate warten.
Die kostenlose News Portal-Stufe hält möglicherweise nicht. Ich sage das immer wieder, weil es das größte Einzelrisiko für dieses gesamte Setup ist. Plane deine Architektur so, dass der Wechsel des Inferenzanbieters eine einzelne Konfigurationsänderung ist. Hermes macht das einfach — der hermes model-Befehl unterstützt jeden großen Anbieter — aber es liegt an dir, den Wechsel tatsächlich zu testen, bevor der Tag kommt, an dem du ihn brauchst.
DeepSeeks V4-Stimme bei kreativer Ausgabe ist nicht die von Opus. Das ist eine echte Lücke. Für Recherche, strukturierte Entwürfe, Code und jede Ausgabe, die nach Korrektheit bewertet wird, kann V4 mithalten. Für Texte, die nach Geschmack bewertet werden, spürt man den Unterschied. Koppele die Modelle für die Arbeitslasten, bei denen das zählt.
Windows nativ ist Beta. Die Linux- und macOS-Installationsabläufe sind geschmeidig. Der native Windows-Ablauf funktioniert, hat aber Kanten. Wenn man auf Windows ist und der Job davon abhängt, dass es zuverlässig funktioniert, sollte man erwägen, Hermes in WSL2 zu betreiben — die offizielle Doku empfiehlt das immer noch als den stabilsten Windows-Pfad.
Der Agent wird gelegentlich Tool-Fähigkeiten halluzinieren. Einmal während meiner Testwoche versuchte Hermes, einen Skill zu verwenden, der nicht existierte (er hatte einen Skill-Namen aus einer Dokumentation referenziert, die er gelesen hatte, nicht einen, den er tatsächlich geschrieben hatte). Das Fehlerverhalten war sauber — er teilte mir mit, dass der Skill nicht gefunden wurde, und fragte, ob ich wollte, dass er einen schreibt — aber es ist eine Erinnerung daran, dass selbst Agenten mit prozeduralem Gedächtnis „ich habe darüber gelesen" mit „ich habe das" verwechseln können. Verifizieren vor Vertrauen.
Nichts davon ist ein Grund, den Stack nicht zu verwenden. Es sind Gründe, ihn mit offenen Augen zu verwenden.
Was in den nächsten sechs Monaten passiert
Ich möchte mit einer Vorhersage abschließen, weil ich denke, dass diese Kombination wirklich ein Signal dafür ist, wohin sich die Agent-Infrastruktur entwickelt.
In 2025 wurde die Diskussion über Agent-Runtimes von Frameworks dominiert (LangGraph, AutoGen, CrewAI), die beim Bauen von Agenten halfen, aber davon ausgingen, dass man sie selbst betreibt, auf der eigenen Infrastruktur, mit der eigenen Modellrechnung. Die persistente Speicherschicht war Eigenarbeit. Das Skill-System war etwas, das man jedes Mal von Grund auf schrieb. Die Kosten waren das, was die API-Rechnung auswies.
Was Hermes + DeepSeek V4 kostenlos zeigt, ist, dass der gesamte Stack komprimiert werden kann. Persistenter Speicher, inklusive. Skill-System, inklusive. Multi-Tool-Orchestrierung, inklusive. Messaging-Gateways, inklusive. Frontier-Tier-Modellinferenz, kostenlos. Das Ganze läuft auf einem VPS für $14.
In den nächsten sechs Monaten werden wir viel mehr davon sehen. Andere Open-Source-Agent-Runtimes (und es gibt bereits mehrere in Entwicklung, die ich beobachte) werden das persistente-Speicher + Skill-System-Muster kopieren. Andere Modellanbieter werden das „OpenAI-kompatible kostenlose Stufe als Verlustbringer"-Muster kopieren. Andere Routing-Schichten werden mit News Portal bei der Großzügigkeit der kostenlosen Stufe konkurrieren. Und die durchschnittlichen Kosten für den Betrieb eines autonomen Agenten für ein kleines Unternehmen werden von „einigen hundert Dollar pro Monat" auf „den Preis eines VPS" zusammenbrechen.
Wenn du Entwickler oder Solo-Gründer bist, ist der richtige Zug jetzt, Erfahrung mit diesem Stack aufzubauen. Richte ihn ein. Lass echte Arbeitslasten durchlaufen. Baue ein paar Skills. Lerne, wo er bricht. Wenn die Infrastruktur reif genug für produktionskritische Arbeitslasten ist, hast du ein Jahr Betriebserfahrung, während alle anderen gerade erst die Doku öffnen.
Die Welt, in der jedes kleine Team einen 24/7 autonomen Forschungsassistenten auf kostenloser Infrastruktur laufen hat, ist keine 2027-Vorhersage mehr. Es ist ein 2026-Wochenendprojekt. Ich hatte meinen in neun Minuten am Laufen. Die Frage, die es wert ist, heute Abend darüber nachzudenken: Was würdest du einem Agenten zuweisen, der $0 kostet und nie schläft?
Häufig gestellte Fragen
Ist Hermes Agent mit DeepSeek V4 wirklich kostenlos?
Ja — die Modellinferenz selbst ist kostenlos, wenn du Hermes über die kostenlose Stufe von News Portal mit DeepSeek V4 routest. Du zahlst weiterhin für den VPS oder die lokale Maschine, auf der Hermes läuft (typischerweise $5-15/Monat für einen nutzbaren VPS, oder $0, wenn du auf vorhandener Hardware selbst hostest). Die kostenlose Stufe könnte irgendwann kostenpflichtig werden, also plane für diesen Fall. Für die vollständige Setup-Anleitung siehe „Der Setup-Ablauf, der mich neun Minuten gekostet hat" oben.
Wie schneidet Hermes Agent im Vergleich zu AutoGPT oder CrewAI ab?
Hermes ist ein persistenter Daemon mit eingebautem sitzungsübergreifendem Gedächtnis (FTS5-indiziertes SQLite), einem prozeduralen Skill-System, nativen Messaging-Gateways und einem einheitlichen Tool-Gateway. AutoGPT und CrewAI sind Frameworks zum Bauen von Agenten — du lieferst die Persistenz, das Gedächtnis und das Deployment. Hermes kommt einem Betriebssystem für Agenten näher als einer Bibliothek. Für die vollständige architektonische Aufschlüsselung siehe „Was Hermes Agent wirklich ist" oben.
Hat DeepSeek V4 wirklich ein Kontextfenster von 1 Million Tokens?
Das beworbene 1M-Kontextfenster hält in der Praxis sauber bis etwa 128K Tokens, mit nutzbarer Qualität bis etwa 300K. Jenseits von 300K-400K sieht man Verschlechterung bei der Zitiergenauigkeit und Querverweis-Zuverlässigkeit. Betrachte die 1M-Zahl als die Obergrenze, nicht als das Arbeitsmaximum.
Kann ich Hermes Agent auf Windows ausführen?
Ja — natives Windows ist in der frühen Beta und funktioniert für CLI, Dashboard und Messaging-Gateways. Der Installer zieht eine portable Git Bash-Distribution zusammen mit den anderen Abhängigkeiten. Für maximale Stabilität empfiehlt die Nous Research-Doku weiterhin WSL2 als den zuverlässigsten Windows-Pfad.
Was passiert, wenn die kostenlose News Portal-Stufe schließt?
Hermes unterstützt mehrere Fallback-Inferenzpfade: DeepSeeks offizielle API direkt (derzeit $0,27/$0,42 pro M Input/Output für V4 Pro), OpenRouter auf Verbrauchsbasis, oder selbst gehostetes DeepSeek V4, wenn du das GPU-Budget hast. Der Anbieterwechsel ist eine einzeilige Konfigurationsänderung über den hermes model-Befehl, also gestalte deine Workflows so, dass der Wechsel trivial ist.
Lass uns zusammenarbeiten
Du möchtest KI-Systeme bauen, Workflows automatisieren oder deine technische Infrastruktur skalieren? Ich helfe dir gerne.
- Fiverr (individuelle Builds & Integrationen): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (Enterprise-Lösungen): ramlit.com
- ColorPark (Design & Branding): colorpark.io
- xCyberSecurity (Sicherheitsdienste): xcybersecurity.io