Agentic OS auf Claude Code: Der dreischichtige Aufbau

Die meisten Leute benutzen Claude Code wie einen Spielautomaten.

Öffnen Sie das Terminal. Geben Sie eine Eingabeaufforderung ein. Ziehen Sie den Hebel. Manchmal erhält man einen funktionierenden Refactor. Manchmal gibt es eine Abschlagsmauer voller Vorbehalte. Manchmal bekommt man die Hälfte von dem, worum man gebeten hat, und eine höfliche Erklärung, warum die andere Hälfte „derzeit nicht ratsam“ ist. Also wiederholen Sie die Eingabeaufforderung. Nochmals ziehen. Vielleicht ein Wort anpassen. Nochmals ziehen.

Ich habe dies in den ersten acht Monaten getan, in denen ich Claude Code verwendet habe. Ich sagte mir, dass es sich um eine prompte Technik handelte. Das war es nicht. Es war Glücksspiel.

Die Sache, die den Kreis schließlich durchbrach, war eine Methodik, die ich aus einer Videozusammenfassung über den Aufbau eines „agentischen Betriebssystems“ auf Claude Code übernommen und dann an meine eigene chaotische Realität angepasst habe, in der ich dieses Jahr vier Marken leite und etwa 250 lange Beiträge durch das System schicke. Die Methodik besteht aus drei Ebenen: Architektur, Gedächtnis und Beobachtbarkeit. Langweilige Worte. Massive Auszahlung.

Dieser Beitrag ist die Version dieser Methodik, die ich tatsächlich verwende, geschrieben aus der Praxis, mit den spezifischen Claude Code-Primitiven, die ich ausführe, und den Dingen, die ich ausprobiert habe, die den Kontakt mit der realen Arbeit nicht überstanden haben. Wenn Sie sich im Spielautomaten-Stadium befinden und den Verdacht hegen, dass es einen besseren Weg gibt, haben Sie Recht. Hier ist es.

Das Spielautomatenproblem hat seinen Preis

Bevor die Methodik Sinn ergibt, muss der Schmerz spezifisch sein. Lassen Sie mich also konkret werden.

Ein Spielautomaten-Workflow sieht produktiv aus. Sie sind am Terminal. Es passieren Dinge. Code wird generiert. Aber die Arbeit hinter der Arbeit – der Teil, in dem Sie Ihre Markenstimme zum elften Mal neu erklären, dieselbe Ordnerstruktur in eine neue Sitzung einfügen, eine Ausgabe debuggen, die abweicht, weil Sie vergessen haben, die Einschränkung zu erwähnen, die für Sie offensichtlich, aber für das Modell unsichtbar war – dieser Teil ist unsichtbar, bis Sie ihn messen.

Ich habe meine im März gemessen. In einer Woche Claude Code-Sitzungen habe ich etwa 35 % meiner Prompt-Tokens für den Kontext ausgegeben, den ich dem Modell bereits in einer früheren Sitzung gegeben hatte. Nicht das Werk selbst. Das Setup für die Arbeit. Markenregeln, die ich an drei Stellen aufgeschrieben hatte. Ordnerpfade Ich hatte es am Dienstag gezeigt und am Freitag erneut angezeigt. Spracheinschränkungen, die irgendwo in CLAUDE.md vergraben sind, auf die ich nie hingewiesen habe.

Schlimmer noch: die Varianz. Bitten Sie Claude Code, am Montag einen mejba.me-Beitrag zu schreiben, und Sie erhalten eine Form. Wenn Sie am Freitag auf die gleiche Weise fragen, erhalten Sie etwas, das sich liest, als wäre es von einer verwandten, aber unbekannten Person geschrieben worden. Das ist nicht das Fehlverhalten des Models. Das bedeutet, dass ich eine unstrukturierte Eingabeaufforderung für eine zustandslose Engine ausführe und überrascht bin, dass die Ausgabe nicht stabil ist.

Die Methode des Agenten-Betriebssystems behebt beide Probleme, indem sie das Spielen stoppt und die Architektur startet. Drei Ebenen, in der Reihenfolge ihrer Wirkung: organisieren Sie, was Sie tun (Architektur), erinnern Sie sich an das, was Sie getan haben (Gedächtnis), sehen Sie, was passiert (Beobachtbarkeit).

Selbst wenn Sie nur die erste Ebene übernehmen, erhalten Sie den größten Nutzen. Ich möchte das ganz ehrlich sagen, denn wenn man von einem dreischichtigen System liest, besteht die Versuchung darin, zu versuchen, alle drei an einem Samstag aufzubauen. Nicht. Bauen Sie Schicht eins auf. Lebe darin. Dann fügen Sie das nächste hinzu.

Lasst uns darauf eingehen.

Ebene eins: Architektur – Von zufälligen Eingabeaufforderungen zu einem echten Organigramm

Die erste Schicht ist diejenige, die mir die Spielautomaten-Gewohnheit abgewöhnt hat. Es ist auch das, was ich fast übersprungen hätte, weil es am wenigsten technisch klingt.

Die Idee ist einfach. Hören Sie auf, sich Claude Code als einen Ort vorzustellen, an dem Sie Eingabeaufforderungen eingeben. Betrachten Sie es als eine Organisation mit Abteilungen, Stellenbeschreibungen und Standardarbeitsanweisungen. Konkret bedeutet das, dass Sie Ihre Arbeit in vier verschachtelte Konzepte gliedern:

Domänen – die großen Bereiche, in denen Sie tatsächlich tätig sind (Erstellung von Inhalten, Forschung, Produktivität, Community, Sicherheit)
Aufgaben – die wiederkehrende Arbeit, die jede Domain produziert (ein Blog-Beitrag, ein Mitbewerber-Scan, eine Codeüberprüfung, ein Markenaudit)
Fähigkeiten – kodifizierte, wiederholbare Anweisungen, wie man eine bestimmte Aufgabe gut erledigt
Automatisierungen – Fähigkeiten, die auf einen Auslöser hin ausgeführt werden, anstatt darauf zu warten, dass Sie sie aufrufen

Das ist nicht abstrakt. In Claude Code wird jedes dieser Konzepte auf ein echtes Grundelement abgebildet. Fertigkeiten liegen als SKILL.md-Dateien mit YAML-Frontmatter vor. Subagenten leben als Markdown-Dateien in .claude/agents/. Slash-Befehle leben als Dateien in .claude/commands/. Automatisierungen sind Fertigkeiten, die in einen Hook (SessionStart, PostToolUse) oder einen geplanten Auslöser über das Claude Agent SDK eingebunden sind. Die Plattform ist dafür bereits ausgelegt. Sie müssen nur die Form verwenden.

Wie eine Domain in meinem Setup tatsächlich aussieht

Ich betreibe vier Marken – mejba.me, ramlit.com, colorpark.io, xcybersecurity.io – sowie eine interne „Ops“-Domain für alles, was markenübergreifend ist. Ich habe also fünf Domains. Jede Domäne hat zwischen drei und sieben Aufgaben, die ich tatsächlich wiederkehrend erledige, und mit jeder Aufgabe ist höchstens eine Fähigkeit verbunden.

Hier ist die verkürzte Struktur auf der Festplatte:

~/projects/agentic-os/
├── CLAUDE.md                          # root config (more on this below)
├── .claude/
│   ├── settings.json                  # permissions + hooks
│   ├── agents/                        # subagents (one per role)
│   │   ├── aria.md                    # content engineer
│   │   ├── auditor.md                 # SEO + voice auditor
│   │   └── researcher.md              # WebSearch + summary specialist
│   ├── commands/                      # slash commands
│   │   ├── morning-scan.md
│   │   ├── post-from-video.md
│   │   └── brand-audit.md
│   └── skills/                        # repeatable instructions
│       ├── write-blog-post/SKILL.md
│       ├── extract-video-summary/SKILL.md
│       └── seo-pass/SKILL.md
└── vault/                             # memory layer (Obsidian)
    ├── raw/
    ├── wiki/
    └── output/

Das ist die gesamte Architektur in einem Baum. Keine cleveren Werkzeuge. Keine proprietäre Plattform. Just folders that Claude Code already understands natively.

The thing that makes this an org chart and not just a folder is the relationships between the pieces. The aria.md subagent reads the write-blog-post skill. The morning-scan slash command invokes the researcher subagent, which reads the extract-video-summary skill. Jedes Stück macht eine Sache. Keines von ihnen dupliziert sich gegenseitig. Wenn ich ändern möchte, wie mejba.me-Beiträge geschrieben werden, bearbeite ich eine Datei – den write-blog-post/SKILL.md – und jeder Aufruf in jeder Domain erbt die Änderung.

Das ist die langweilige Supermacht. Eine Quelle der Wahrheit für jede Fähigkeit.

Eine echte Fähigkeit, kein Spielzeug

Lassen Sie mich Ihnen zeigen, wie eine Fähigkeit tatsächlich aussieht. Hier ist eine abgespeckte Version dessen, mit dem ich strukturierte Zusammenfassungen aus Videotranskripten extrahiere, bevor sie zu Blogbeiträgen werden:

---
name: extract-video-summary
description: Extract a structured summary from a video transcript or YouTube URL. Use when the user provides a video, transcript, or asks to "summarize this video" before writing a post.
---

You are extracting a structured summary that another agent will use as
source material for a blog post. The output must be:

1. **TLDR** — three sentences. The single most important takeaway.
2. **Key claims** — bullet list. One claim per bullet. No editorializing.
3. **Specific examples** — bullet list. Names, numbers, dates, tools.
4. **Quotes worth pulling** — direct quotes that would land in a blog.
5. **What the video gets wrong or oversimplifies** — be honest.

Rules:
- Do not soften claims. If the speaker said it, write it as they said it.
- If a claim is unverified, mark it `[unverified]` and move on.
- Save the result to `vault/raw/video-summaries/[slug].md` using
  the video title as the slug.

Das ist es. Vierzig Zeilen, wenn man die Formatierung mitzählt. Über das Skill-Tool in Claude Code geladen, wandelt es eine unzuverlässige „Fasse dies für mich zusammen“-Eingabeaufforderung in einen deterministischen Prozess um. Jedes Mal die gleiche Form. Immer derselbe Dateispeicherort. Dieselben Downstream-Agenten können es lesen, ohne zu prüfen, welches Format heute angezeigt wurde.

Das Entscheidende an einer guten Fertigkeit ist, was sie entfernt, und nicht, was sie hinzufügt. Eine Fertigkeit nimmt eine Fuzzy-Anfrage und entfernt die Varianz. Wenn Sie eine lange, clevere Fertigkeit schreiben, haben Sie sich wahrscheinlich noch nicht entschieden, was die eigentliche Aufgabe ist.

Automatisierungen: Fähigkeiten mit einem Auslöser

Eine Automatisierung ist eine Fähigkeit, die ohne Sie ausgeführt wird. Bei Claude Code erfolgt die Verkabelung am günstigsten über einen Haken bei settings.json. Ein SessionStart-Hook wird ausgelöst, wenn eine Claude Code-Sitzung beginnt. Ein PostToolUse-Hook wird ausgelöst, nachdem ein Werkzeug beendet wurde. Beide sind in settings.json konfiguriert und in der offiziellen Claude Code-Hooks-Referenz dokumentiert.

Hier ist der morgendliche Trendscan, den ich durchführe. Es ist als Slash-Befehl (/morning-scan) verkabelt, den ich an den meisten Tagen manuell auslöse, aber an den Tagen, an denen ich es automatisieren möchte, wird derselbe Befehl von einem Cron-Job ausgeführt, der einfach an claude -p "/morning-scan" gesendet wird:

---
name: morning-scan
description: Aggregate AI news, competitor moves, and trending topics into a single daily brief. Save to vault/raw/scans/YYYY-MM-DD.md.
---

# Morning Scan

Run this every weekday morning before I open the terminal.

1. Use WebSearch to pull the top 5 stories from each of:
   - Anthropic, OpenAI, Google AI launches in the last 24h
   - HackerNews top 10 (filter to AI/dev/agent topics)
   - r/ClaudeAI top posts of the day
2. For each story, write a 2-sentence summary. No fluff.
3. Flag anything that affects my multi-brand workflow:
   - Claude Code changelog → tag #claude-code-update
   - New AI tool launches → tag #stack-candidate
   - Security/CVE news → tag #xcyber-relevant
4. Save the brief to vault/raw/scans/YYYY-MM-DD.md.
5. If anything in the brief is post-worthy for mejba.me, add a
   line at the top: `POST CANDIDATE: [topic]`.

Die Fähigkeit ist das Was. Der Cron-Job ist der Auslöser. Zusammen sind sie eine Automatisierung.

Für die sauberere Version würden Sie das Claude Agent SDK verwenden, um die Ausführung programmgesteuert zu planen und das Ergebnis in einem Slack-Kanal oder Ihrem eigenen Dashboard zu veröffentlichen. Ich habe diese Version schließlich gebaut. Mit der Slash-Command-plus-Cron-Version habe ich in 30 Minuten 80 % des Wertes erreicht.

Wenn Automatisierung zur Falle wird

Ehrlicher Abschnitt. Ich habe Anfang 2026 zwei Monate lang übermäßig automatisiert. Ich habe vierzehn Automatisierungen für die vier Marken erstellt. Hooks, die bei jedem Edit ausgelöst werden, geplante Scans alle zwei Stunden, ein Hook, der jede von Claude Code berührte Datei automatisch festschreibt. Es war wunderschön auf einem Whiteboard. In der Praxis war es eine Katastrophe.

Drei Dinge sind kaputt gegangen. Zuerst kämpften die Haken gegeneinander. Ein PostToolUse-Formatierer formatierte Dateien während der Bearbeitung ständig neu und übertrug sich auf den nächsten Tool-Aufruf. Zweitens stiegen die Kosten in die Höhe – jeder geplante Scan war eine vollständige Claude-Sitzung ohne Obergrenze, und die Rechnung im März war fast doppelt so hoch wie im Februar. Drittens der Lärm. Vierzehn Automatisierungen bedeuteten vierzehn Slack-Benachrichtigungen pro Tag, von denen ich die meisten stummgeschaltet habe, was den gesamten Punkt zunichte machte.

Ich habe es auf vier Automatisierungen reduziert. Morgenscan. Tresorreinigung am Ende des Tages. Wöchentliches Brand-Voice-Audit. Monatliche Stapelüberprüfung. Alles andere wurde zu einem Slash-Befehl, den ich ausführe, wenn ich ihn tatsächlich möchte. Die Lektion: Automatisierung ist für Dinge gedacht, die Sie sowieso ausführen würden, nicht für Dinge, von denen Sie sich wünschen, dass sie jemand ausführen würde.

Wenn Sie bei Null anfangen, erstellen Sie eine Fertigkeit, einen Schrägstrichbefehl und keine Automatisierungen. Benutze sie eine Woche lang. Fügen Sie den nächsten Schritt erst hinzu, wenn Sie die Abwesenheit gespürt haben.

Ich habe die breitere Skill-Design-Philosophie in der ausführliche Einblick in Claude Code Skills, für die Unternehmen im Jahr 2026 bezahlen und die taktischen Muster, um Skills billig zu halten, in dem Beitrag zum Sparen von Caveman-Skill-Tokens behandelt – beides ist lesenswert, bevor Sie mit der Kodifizierung Ihrer eigenen beginnen.

Das ist Schicht eins. Domänen, Aufgaben, Fähigkeiten, Automatisierungen. Wenn Sie hier aufhören zu lesen und dies einfach erstellen, sind Sie bereits 95 % der Claude Code-Benutzer voraus. Die nächsten beiden Schichten verstärken das Ganze.

Schicht Zwei: Speicher – Der Obsidian-Tresor und die CLAUDE.md, die ihn ausführt

Ebene eins organisiert, was Sie tun. Schicht zwei gibt Claude Code einen Ort, an dem er sich daran erinnern kann, was es getan hat.

Ich möchte hier vorsichtig sein, da „Speicher“ derzeit das am meisten überentwickelte Konzept im Agenten-Ökosystem ist. Alle zwei Wochen liefert ein anderes Startup eine „Speicherschicht für Claude“ aus, also bei näherer Betrachtung eine Vektordatenbank mit einem Marketingbudget. Für 90 % der persönlichen Arbeitsabläufe und Arbeitsabläufe in kleinen Teams benötigen Sie das nicht. Sie benötigen einen Ordner mit Markdown-Dateien und eine Konfigurationsdatei, die Claude Code mitteilt, was darin enthalten ist.

Das Muster, das bei mir letztendlich Klick gemacht hat, ist der Karpathy LLM Wiki-Ansatz – Andrej Karpathy hat seine Version am 3. April 2026 gepostet, und ich habe ein Wochenende damit verbracht, meine Version so umzubauen, dass sie dazu passt. Die Form besteht aus drei Ordnern in einem Obsidian-Tresor: raw/, wiki/, output/. Jeder Ordner hat eine klare Aufgabe. Der LLM ist der Bibliothekar und der Autor. Es gibt keine Vektordatenbank, keine Einbettungen, keine Chunking-Strategie.

Ich habe ausführlich über diesen Ansatz im Karpathy Obsidian RAG-Beitrag geschrieben - dieser Beitrag ist der Deep Dive dazu, warum es funktioniert. In diesem Abschnitt geht es darum, wie es als Speicherschicht in das Agentic OS integriert wird.

Die drei Ordner und wozu sie dienen

Der Tresor ist kinderleicht:

vault/
├── raw/                              # ingestion, no organization required
│   ├── video-summaries/
│   ├── scans/                        # morning-scan output lands here
│   ├── transcripts/
│   ├── research-clippings/           # Obsidian Web Clipper drops here
│   └── inbox/                        # everything else, sorted later
│
├── wiki/                             # codified knowledge, LLM-maintained
│   ├── index.md                      # master index, LLM-written
│   ├── claude-code/
│   │   ├── index.md
│   │   ├── skills.md
│   │   ├── hooks.md
│   │   └── agents.md
│   ├── brands/
│   │   ├── mejba-me-voice.md
│   │   ├── ramlit-positioning.md
│   │   └── colorpark-design-rules.md
│   └── ops/
│       ├── seo-rules.md
│       └── publishing-checklist.md
│
└── output/                           # final deliverables
    ├── posts/
    ├── briefs/
    └── decks/

raw/ ist der Abladeplatz. Alles, was Claude Code irgendwann über die Grundstücke hier wissen soll, unsortiert. Videotranskripte. Webausschnitte (ein Klick über den Obsidian Web Clipper). Tägliche Scanergebnisse. Zufällige Sprachnotizen, die ich beim Gehen diktiere. Die Aufnahmereibung liegt absichtlich nahe bei Null, denn sobald ich darüber nachdenken muss, wo ich etwas ablegen soll, höre ich auf, Dinge abzulegen.

wiki/ ist der Ort, an dem sich das LLM seinen Lebensunterhalt verdient. In einem wiederkehrenden Zeitplan (oder bei Bedarf über einen Schrägstrichbefehl) liest Claude Code raw/, identifiziert neues Material, das nicht integriert wurde, und aktualisiert das Wiki. Es schreibt Artikel im Enzyklopädiestil. Es verwaltet den Master index.md. Es vernetzt verwandte Konzepte mithilfe von [[wiki-style links]], das Obsidian nativ rendert. Das Wiki ist das zusammengestellte Verständnis des LLM über alles im Tresor, geschrieben in einem Format, das die nächste Sitzung effizient lesen kann.

output/ ist die Ziellinie. Die letzten Blogbeiträge finden Sie hier. Kundenbriefings finden Sie hier. Decks für kommende Workshops finden Sie hier. Alles, was geliefert wurde. Der Grund dafür, dass dies einen eigenen Ordner erhält, besteht darin, dass Claude Code schnell antworten kann: „Was habe ich versendet?“ ohne den Rest des Tresors zu durchkriechen.

Das ist die gesamte Speicherschicht. Drei Ordner. Abschlag. Frei. Tragbar.

Die CLAUDE.md auf Tresorebene, die alles miteinander verbindet

Die einzige Datei, die diese Ebene funktionsfähig macht, ist CLAUDE.md im Stammverzeichnis des Tresors. Es ist die Konfiguration, die Claude Code mitteilt, was sich in den Ordnern befindet und wie sie behandelt werden sollen. Ohne sie muss Claude jede Sitzung erraten. Damit reduzieren Sie Ihre Kontexteinstellungstoken um etwa 70 %.

Hier ist die tatsächliche Struktur von mir, leicht redigiert:

„Abschlag

CLAUDE.md – Agentic OS Vault-Konfiguration

Zweck

Dieser Tresor ist die persistente Speicherschicht für das Agenten-Betriebssystem. Es ist gemeinsam von mir und Claude Code gepflegt. Der Tresor hat drei oberste Ebenen Ordner mit jeweils einer bestimmten Rolle.

Ordnerrollen

roh/

Unbearbeitetes Ausgangsmaterial. Behandeln Sie dies als reine Einnahme.

Ändern Sie KEINE Dateien in raw/, außer um neue hinzuzufügen.
Verwenden Sie bei der Beantwortung von Fragen NICHT raw/ als Primärquelle – Überprüfen Sie immer zuerst wiki/ und greifen Sie dann auf raw/ zurück, wenn das Wiki vorhanden ist hat eine Lücke.
Neues Material von Obsidian Web Clipper, Videozusammenfassungen und Hier landet die Morgenscan-Automatisierung.

Wiki/

Kodifiziertes Wissen, verwaltet von Claude Code. Behandeln Sie dies als primäre Wahrheitsquelle für alles, was verarbeitet wurde.

Beginnen Sie immer hier, wenn Sie eine Frage beantworten.
Aktualisieren Sie wiki/index.md immer, wenn Sie einen neuen Wiki-Artikel erstellen.
Verwenden Sie [[Links im Wiki-Stil]], um verwandte Konzepte mit Querverweisen zu versehen.
Wenn Sie bei der Beantwortung einer Frage eine Lücke im Wiki entdecken, beachten Sie dies es am Ende der relevanten index.md als TODO.

Ausgabe/

Endgültige Ergebnisse. Behandeln Sie dies als überwiegend lesbar.

Schreiben Sie hier nur, wenn Sie ausdrücklich dazu aufgefordert werden, eine Leistung zu erbringen.
Wenn Sie einen neuen Beitrag erstellen, überprüfen Sie zur Sicherheit die Ausgabe/posts/ Die Schnecke ist noch nicht vergeben.

Workflow-Regeln

Wenn ich nach einem Blog-Beitrag frage, lesen Sie den entsprechenden Wiki-Abschnitt zuerst, dann raw/ für jedes neue Material seit dem Wiki zuletzt aktualisiert, dann schreiben Sie den Entwurf in die Ausgabe/posts/[slug].md.
Wenn ich neues Material zu raw/ hinzufüge, verarbeite es nicht automatisch. Warten Sie, bis ich /update-wiki. ausführe
Brand Voice-Regeln live in Wiki/brands/. Laden Sie immer die Bevor Sie mit der Stimme dieser Marke schreiben, sollten Sie sich ein relevantes Bild anschauen.
SEO-Regeln leben in Wiki/ops/seo-rules.md. Auf jeden Beitrag anwenden.

Aktive Marken

mejba.me (persönlich, First-Person, leidenschaftlich)
ramlit.com (Unternehmen, Dritte, ergebnisorientiert)
colorpark.io (Design, eigensinnig, visuell)
xcybersecurity.io (Sicherheit, maßgeblich, dringend) „

Diese Datei ist vielleicht 60 Zeilen lang. Es trägt mehr zur Konsistenz meiner Ergebnisse bei als jede einzelne Fähigkeit, die ich geschrieben habe. Der Grund ist einfach: Es macht das Raten überflüssig. Claude Code muss nicht herausfinden, wo sich die Dinge befinden, wozu die einzelnen Ordner dienen oder wie mit mehrdeutigen Anfragen umgegangen wird. Die Regeln befinden sich in der Datei, die Datei wird bei jeder Sitzung geladen und jeder Subagent erbt den Kontext.

Wenn Sie eine Konfigurationsdatei für Ihr gesamtes Setup schreiben möchten, schreiben Sie diese.

Was ich zuerst versucht und aufgegeben habe

Zwei Gedächtnisexperimente, die den Kontakt mit der realen Arbeit nicht überstanden haben.

Erstens: Ich habe versucht, Speicher in einer Supabase-Vektordatenbank mit einem benutzerdefinierten MCP-Server zu speichern. Supabase als Vektorspeicher, OpenAI-Einbettungen, semantischer Abruf über meine Notizen. Es hat funktioniert. Außerdem war es völlig überdimensioniert für das, was ich eigentlich brauchte, nämlich „Denken Sie daran, was wir letzten Dienstag beschlossen haben“. Die Abrufqualität war tatsächlich schlechter, als Claude Code den Markdown einfach direkt lesen zu lassen, da die Blöcke die Mitte des Satzes zerschneiden würden und Ähnlichkeitswerte nahezu Duplikate anstelle der nützlichsten Notiz aufdecken würden. Nach zwei Tuning-Wochenenden habe ich das Ganze gelöscht.

Zweitens: Ich habe versucht, dass Claude Code jede neue Rohdatei automatisch verarbeitet, sobald sie hinzugefügt wurde – ein PostToolUse-Hook, der bei jedem Schreibvorgang in raw/ ein Wiki-Update auslöste. Die Kosten waren brutal. Jedes Mal, wenn ich einen langen Artikel ausgeschnitten habe, wurde eine Sitzung gestartet, die den Artikel las, entschied, wo er in das Wiki passte, manchmal einen neuen Artikel schrieb und manchmal einen vorhandenen aktualisierte. Einige dieser Sitzungen umfassten mehr als 30.000 Token. Wenn Sie dies Dutzende Male am Tag tun, werden Credits verbraucht, ohne einen entsprechenden Wert zu liefern, da die meisten Ausschnitte nicht am selben Tag, an dem sie gespeichert werden, verarbeitet werden müssen.

Der Fix war der explizite Befehl /update-wiki in CLAUDE.md oben. Ich führe es einmal pro Woche sonntags durch. Es bündelt das gesamte unverarbeitete Rohmaterial in einer Sitzung und das Kosten-pro-Insight-Verhältnis sinkt um etwa das Zehnfache.

Die Lektion: Speicherschichten scheitern entweder an übermäßiger Architektur (Vektor-DBs) oder an übermäßigem Eifer (automatische Verarbeitung aller Eingaben). Die Karpathy-Ordnerstruktur plus ein übersichtlicher CLAUDE.md plus ein manueller Update-Befehl ist der langweilige Mittelweg, der tatsächlich funktioniert.

Das ist Schicht zwei. Drei Ordner, eine Konfigurationsdatei, eine wöchentliche Gewohnheit. Jetzt hat das System Kontinuität.

Schicht Drei: Beobachtbarkeit – Ein Dashboard, das das Betriebssystem für Menschen zugänglich macht

Ebene eins organisiert, was Sie tun. Schicht zwei merkt sich, was Sie getan haben. Schicht drei ist der Teil, der zählt, wenn Sie nicht mehr der einzige Benutzer sind.

Ich bin ehrlich: Ich habe die dritte Schicht zuletzt gebaut und lange Zeit dachte ich nicht, dass ich sie brauche. Ich war der einzige Operator. Ich wohnte im Terminal. Das Terminal war in Ordnung. Dann habe ich versucht, die morgendliche Scan-Automatisierung einer Teamkollegin zu übergeben, damit ich eine Woche in den Urlaub fahren konnte, und das gesamte System stürzte ab, nicht weil die Technologie versagte, sondern weil sie drei CLI-Befehle, eine Tresorstruktur und den Unterschied zwischen einem Slash-Befehl und einem Subagenten lernen musste, bevor sie einen Job ausführen konnte.

Das Terminal ist ein Wassergraben. Für mich ist es ein Feature. Für alle anderen ist es eine Mauer.

Ein Dashboard ist die dritte Schicht eines Agenten-Betriebssystems, da es die Schicht ist, die es dem System ermöglicht, Menschen zu bedienen, die ihren Lebensunterhalt nicht mit der Eingabe von claude -p "..." verdienen möchten. Dazu gehören technisch nicht versierte Teamkollegen, Kunden, zukünftige Sie an einem Sonntagmorgen, wenn sich das Tippen wie Arbeit anfühlt, und jeder, der sehen möchte, was das System tut, ohne die Protokolldateien zu durchsuchen.

Was das Dashboard eigentlich macht

Es gibt noch kein einziges offizielles Claude Code-Dashboard. Ab Mai 2026 liefert Anthropic den Claude Code-Überwachungsstapel über OpenTelemetry aus – acht Metriken, darunter Sitzungsanzahl, Token-Nutzung, geschätzte Kosten und aktive Zeit – und ein gesundes Ökosystem aus von der Community erstellten Observability-Layern (das claude-code-otel-Projekt ist das, das ich am häufigsten verwendet habe). Das, was niemand sofort ausliefert, ist die Bedienoberfläche – der Teil, der Ihre Fähigkeiten und Automatisierungen als Schaltflächen darstellt.

Sie bauen diesen Teil also selbst. Die Form, die für mich am besten funktioniert hat, ist eine kleine Next.js-App – vielleicht insgesamt 600 Zeilen – die vier Dinge tut:

Stellt jeden Skill und jede Automatisierung als anklickbare Schaltfläche bereit. Klicken Sie auf „Morning Scan“ und das Dashboard sendet an claude -p "/morning-scan" (oder greift programmgesteuert auf das Claude Agent SDK zu). Die Ausgabe wird zurück in den UI gestreamt. 2. Verfolgt die Nutzung. Wann wurde jeder Skill zuletzt ausgeführt? Wie lange hat es gedauert? Wie viele Token hat es gekostet? Welche Automatisierungen haben planmäßig funktioniert und welche sind stillschweigend ausgefallen? 3. Zeigt aktuelle Änderungen im Tresor an. Was wurde in den letzten 24 Stunden zu raw/ hinzugefügt? Was hat der letzte /update-wiki in wiki/ geändert? Was wurde diese Woche auf output/posts/ veröffentlicht? 4. Verknüpft jede Ausgabe zurück mit Obsidian. Jedes im Dashboard angezeigte Ergebnis verfügt über einen Link „Quelle anzeigen“, der die entsprechende Markdown-Datei in Obsidian öffnet.

Vollständige Rückverfolgbarkeit – jeder Anspruch, den das System anzeigt, verweist auf die Datei, aus der der Anspruch stammt.

Letzteres ist das Wichtigste. Ohne sie wird das Dashboard zu einer weiteren Zauberbox, in der AI Dinge erledigt und Sie ihm vertrauen. Damit ist jede Ausgabe mit einem Klick überprüfbar. Sie sehen das Ergebnis, klicken auf die Quelle und lesen den Abschlag, den der Agent gelesen hat. Keine Halluzination kann sich verstecken.

Was das Dashboard NICHT tun muss

Ich möchte das melden, weil ich einen Monat damit verbracht habe. Das Dashboard muss nicht sein:

Ein umfassendes Projektmanagement-Tool. Es ist nicht linear. Es ist kein Ersatz für Ihren Task-Tracker. Es ist eine Steueroberfläche für Ihr Agenten-Betriebssystem, Punkt.
Eine Analyseplattform. Die Verfolgung der Token-Ausgaben ist nützlich. Ein benutzerdefiniertes Analytics-Warehouse ist dies nicht.
Ein mandantenfähiges SaaS. Wenn Sie eines erstellen, verbringen Sie drei Monate für die Authentifizierung und null Monate für tatsächliche Workflow-Verbesserungen.
Ein Echtzeit-Tool für die Zusammenarbeit mehrerer Benutzer. Sie sind der Betreiber. Das Dashboard ist für Sie und möglicherweise ein oder zwei vertrauenswürdige Mitarbeiter bestimmt.

Das Dashboard, das ich erstellt habe, ist eine einseitige Next.js-App mit einer Route, ohne Authentifizierung (nur localhost) und einer Postgres-Instanz für Nutzungsprotokolle. Gesamtbauzeit: ca. 14 Stunden, verteilt auf zwei Wochenenden. Es bewirkt die vier oben genannten Dinge. Sonst nichts.

Die Kennzahlen, die wirklich wichtig sind

Von den acht Metriken, die Claude Code nativ exportiert, werden vier auf dem Startbildschirm meines Dashboards angezeigt:

Pro Fertigkeit und Woche ausgegebene Token. Dies ist die Kennzahl, die fehlerhafte Automatisierungen erkennt. In der Woche, in der ich den Auto-Wiki-Hook ausgelöst habe, stieg diese Grafik um das Dreifache an und ich konnte genau erkennen, welche Fähigkeit dafür verantwortlich war.
Anzahl der Ausführungen pro Automatisierung. Welche Automatisierungen tatsächlich ausgeführt werden und welche ich stillschweigend nicht mehr verwende. Wenn eine wöchentliche Automatisierung drei Wochen lang nicht ausgelöst wurde, ist sie tot und ich lösche sie.
Vault-Delta. Wie viele Dateien wurden diese Woche in raw/, wiki/, output/ geändert? Das kommt der Frage „Ist das System tatsächlich seine Arbeit?“ am nächsten, die ich gefunden habe.
Zeitstempel der letzten Ausführung pro Fertigkeit. Wann habe ich dies zuletzt aufgerufen? Fertigkeiten, die ich 60 Tage lang nicht ausgeführt habe, werden archiviert. Das System sollte ein lebender Organismus sein, kein Museum.

Die anderen vier Metriken (PR-Anzahl, Codezeilen, Codebearbeitungsentscheidungen, aktive Zeit) sind für Entwicklungsteams nützlich, für einen Inhaltsvorgang jedoch weniger nützlich. Ihr Meilenwert hängt davon ab, um welche Domain es sich handelt.

Was ich bauen würde, wenn ich heute anfangen würde

Wenn ich das Dashboard im Mai 2026 von Grund auf neu erstellen würde, würde ich mit einem der Open-Source-Observability-Stacks Claude Code beginnen – Cole Murrays claude-code-otel plus Grafana ist eine solide Basis – und die Bedienoberfläche darauf festschrauben. Der Beobachtbarkeitsteil wird durch Gemeinschaftsarbeit gelöst. Die Bedienoberfläche ist der Teil, den Sie selbst schreiben müssen, da sie spezifisch für Ihre Fähigkeiten und Automatisierungen ist.

Versuchen Sie nicht, das Ganze in der ersten Woche aufzubauen. Das Dashboard sollte das sein, wonach Sie greifen, wenn sich die Ausführung des Betriebssystems im Terminal nicht mehr schnell anfühlt. Wenn Sie im Terminal noch glücklich sind, brauchen Sie es noch nicht.

Das ist Schicht drei. Eine Bedienoberfläche, die das Betriebssystem Menschen zugänglich macht, mit Rückverfolgbarkeit bis in den Tresor. Bauen Sie es zuletzt, bauen Sie es klein, bauen Sie es für einen Benutzer.

Wenn sich so viel Struktur tatsächlich auszahlt

Ich habe so geschrieben, als ob jeder alle drei Schichten aufbauen sollte. Das sollten sie nicht. Das Agenten-Betriebssystem macht sich in bestimmten Situationen bezahlt, in anderen ist es übertrieben. Ehrliche Einschätzung:

Erstellen Sie alle drei Ebenen, wenn Sie:

Führen Sie mehr als eine Marke oder ein großes Projekt durch (die Struktur ist bei jedem einzelnen größer)
Übergeben Sie die Arbeit an Teamkollegen, Kunden oder Auftragnehmer, die nicht in einem Terminal wohnen
Erstellen Sie wiederkehrende Ergebnisse nach einem Zeitplan (Blogbeiträge, Briefings, Audits, Scans)
Haben Sie sich dabei ertappt, dass Sie Claude Code mehr als dreimal dasselbe erklärt haben?

Erstellen Sie nur die erste Ebene, wenn Sie:

Sie sind ein Einzelunternehmer mit einem Hauptprojekt
Verwenden Sie Claude Code hauptsächlich für einmalige Codierungsaufgaben
Sie sind im ersten Monat, in dem Sie Claude Code ernsthaft nutzen (lassen Sie ihm Zeit, bevor Sie Architektur hinzufügen)

Überspringen Sie das Ganze, wenn Sie:

Verwenden Sie Claude Code gelegentlich für persönliche Projekte ohne wiederkehrende Ausgaben
Finden Sie immer noch heraus, was Ihre Domänen und Aufgaben überhaupt sind
Möchten Sie zuerst die Plattform erlernen? Eine Überstrukturierung, bevor Sie die Grundelemente verstanden haben, ist der zweitschnellste Weg, die Plattform aufzugeben

Der Grund, warum sich das Betriebssystem für mich besonders auszahlt, liegt darin, dass ich vier Marken betreibe und etwa 250 Langformbeiträge pro Jahr versende. Ohne die Struktur bringt mich die Varianz um. Mit der Struktur hat jede Marke eine stabile Stimme, jeder Beitrag beginnt mit demselben Gerüst und die Zeit pro Beitrag sinkt von „einem ganzen Nachmittag“ auf „neunzig Minuten inklusive Recherche“. Das ist die Rechnung, die dafür sorgt, dass sich der architektonische Aufwand lohnt.

Wenn Ihre Mathematik anders ist, ist die Antwort anders. Ich möchte sicherstellen, dass ich nichts verkaufe, was niemand braucht.

Was ich am ersten Tag überspringen würde

Ich werde immer wieder gefragt: „Wo fange ich an?“ und ich gebe immer die gleiche Antwort, also lassen Sie es mich deutlich machen. Wenn Sie diesen Beitrag lesen und sich entscheiden, ein Agenten-Betriebssystem zu erstellen, sollten Sie diese Woche Folgendes tun:

Nur am ersten Tag dieser Woche. Wählen Sie eine Domain aus. Nur einer. Das, was Sie derzeit am häufigsten in Claude Code tun. Für mich war das die Erstellung von Inhalten. Für Sie könnte es sich um Codeüberprüfung, Recherche oder Designarbeit handeln. Wählen Sie eine aus.

Identifizieren Sie innerhalb dieser Domäne drei Aufgaben. Die drei Dinge, die Sie in dieser Domäne tatsächlich immer wieder tun. Keine theoretischen Aufgaben. Dinge, die Sie im letzten Monat mindestens viermal getan haben.

Schreiben Sie eine Fertigkeit pro Aufgabe. Verwenden Sie das oben stehende Format. Maximal vierzig Zeilen. Das Ziel besteht darin, Varianz zu beseitigen, nicht darin, klug zu sein. Speichern Sie sie in .claude/skills/.

Schreiben Sie eine einzelne CLAUDE.md. Ein Absatz pro Aufgabe, der erklärt, was Sie wollen und wohin die Ausgabe gehen soll. Kein Buch. A page.

Halten Sie dort an.

Bauen Sie den Tresor noch nicht. Erstellen Sie das Dashboard noch nicht. Erstellen Sie keine Automatisierungen. Nutzen Sie die Architektur zwei Wochen lang. Achten Sie darauf, wo es bricht und wo es singt. Passen Sie die Fertigkeiten basierend auf dem an, was Sie aus der tatsächlichen Anwendung lernen.

Wenn die Architektur nach zwei Wochen gehalten hat, werden Sie das Fehlen von Erinnerungen spüren. Dann bauen Sie den Tresor. Wenn Sie nach zwei weiteren Wochen mit jemand anderem zusammenarbeiten, werden Sie das Fehlen des Dashboards spüren. Dann erstellen Sie das Dashboard.

Der Vorteil dieses Ansatzes besteht darin, dass jede Ebene ein Problem löst, das Sie bereits gespürt haben. Sie bauen keine spekulative Infrastruktur auf. Sie schließen Lücken, die Sie benennen können.

Was sich dadurch an der Art und Weise ändert, wie Sie Claude Code verwenden

Der tiefgreifendste Wandel, den das Agenten-Betriebssystem hervorruft, ist nicht taktisch. Es ist psychologisch.

Bevor ich diese Struktur hatte, hatte jede Claude Code-Sitzung das Gefühl, sie könnte in jede Richtung gehen. Ich würde das Terminal mit einer vagen Absicht öffnen, etwas eingeben und das Modell tun lassen, was es tun würde. Die Varianz fühlte sich wie Kreativität an. Das war es nicht. Es war Zufall mit guter PR.

Nach der Struktur hat jede Sitzung eine Form. Ich öffne Claude Code und weiß, welcher Skill ausgeführt wird, welcher Subagent ihn verarbeiten wird, in welchem Ordner die Ausgabe landen wird und welcher Downstream-Agent sie als Nächstes abholen wird. Die Sitzung fühlt sich weniger wie eine Aufforderung an, sondern eher wie eine Abfertigung. Ich arbeite nicht mehr mit einem Spielautomaten zusammen. Ich führe ein Organigramm.

Dieser Wandel hat für mich mehr als jedes einzelne Tool oder jeden einzelnen Trick dazu geführt, dass Claude Code vom „interessanten Tool“ zum „Betriebssystem“ wurde. Die Methodik hat mich dorthin gebracht. Die drei Schichten halten es an Ort und Stelle.

Wenn Sie sich gerade in der Spielautomaten-Phase befinden, möchte ich Ihnen Folgendes aus diesem Beitrag mitnehmen: Der Ausweg ist kein besserer Hinweis. Es ist eine bessere Architektur. Wählen Sie diese Woche eine Domain aus. Schreiben Sie drei Fähigkeiten auf. Schreiben Sie eine CLAUDE.md. Hören Sie auf, den Hebel zu ziehen, und beginnen Sie mit der Ausführung des Vorgangs.

Ich werde im Terminal sein, aber ich spiele nicht mehr.

Häufig gestellte Fragen

Was ist ein Agenten-Betriebssystem in Claude Code?

Ein Agenten-Betriebssystem ist ein strukturiertes Framework, das Claude Code von Ad-hoc-Eingabeaufforderungen in ein mehrschichtiges System mit drei Schichten umwandelt: Architektur (Domänen, Aufgaben, Fähigkeiten, Automatisierungen), Speicher (ein Obsidian-Tresor mit Roh-, Wiki- und Ausgabeordnern sowie CLAUDE.md auf Tresorebene) und Beobachtbarkeit (ein Dashboard, das Fähigkeiten und Automatisierungen als anklickbare Schaltflächen mit Nutzungsmetriken bereitstellt). Es verwendet die nativen Grundelemente von Claude Code wie Fähigkeiten, Subagenten, Hooks und Slash-Befehle anstelle benutzerdefinierter Tools. Die vollständige Implementierungsanleitung finden Sie oben in der dreistufigen Aufschlüsselung.

Benötige ich einen Obsidian-Tresor, um Claude Code effektiv nutzen zu können?

Nein – Obsidian ist eine gute Option für die Speicherschicht, keine Voraussetzung. Die Tresorschicht ist nur ein Ordner mit Markdown-Dateien mit einer CLAUDE.md auf Tresorebene, die Claude Code angibt, wozu jeder Ordner dient. Sie können dieselbe Struktur in jedem einfachen Ordner implementieren. Obsidian bietet kostenlose benutzerfreundliche Anzeige, Links im Wiki-Stil und den Web Clipper zur Aufnahme.

Wie unterscheidet sich ein Claude Code-Skill von einem Slash-Befehl?

Ein Skill ist eine SKILL.md-Datei mit YAML-Frontmatter, die eine wiederholbare Aufgabe beschreibt und bei Bedarf automatisch geladen wird. Ein Slash-Befehl ist eine Markdown-Datei in .claude/commands/, die Sie explizit mit /command-name aufrufen. Bei Fähigkeiten geht es um Fähigkeiten; Bei Slash-Befehlen geht es um Aufruf. Die meisten gut aufgebauten Systeme verfügen über Fähigkeiten, die durch Slash-Befehle ausgelöst werden.

Was ist eine Claude Code-Automatisierung und wie erstelle ich eine?

Eine Automatisierung ist ein Skill, der auf einen Auslöser hin ausgeführt wird, anstatt darauf zu warten, dass Sie ihn aufrufen. Der günstigste Weg, einen zu verbinden, ist über einen Hook in .claude/settings.json – einen SessionStart- oder PostToolUse-Hook, der den entsprechenden Slash-Befehl auslöst. Für geplante Automatisierungen funktioniert ein Cron-Job, der an claude -p "/your-command" sendet, einwandfrei. Das Claude Agent SDK bietet eine programmgesteuerte Version, wenn Sie damit nicht mehr Schritt halten.

Wie viel kostet die Ausführung eines Agenten-Betriebssystems auf Claude Code?

Schicht eins (Architektur) kostet nichts extra – Sie zahlen trotzdem für Claude Code. Schicht zwei (Tresor) ist kostenlos, wenn Sie Obsidian verwenden. Bei der dritten Ebene (Dashboard) handelt es sich lediglich um Ihre Hosting-Kosten – typischerweise unter 10 $/month für ein Ein-Betreiber-Setup. Die variablen Kosten entstehen durch Automatisierungen: Eine schlecht abgestimmte Automatisierung kann Ihre Token-Ausgaben verdoppeln, weshalb ich die Automatisierungen auf vier begrenze und wöchentlich die Token-pro-Skill-Metriken überprüfe.

Kann ich ein Agenten-Betriebssystem an einen technisch nicht versierten Teamkollegen übergeben?

Genau dafür ist Schicht drei (das Dashboard) konzipiert. Das Terminal ist ein Graben für technische Bediener und eine Mauer für alle anderen. Ein Dashboard, das Fähigkeiten und Automatisierungen als Schaltflächen darstellt, wobei die Ausgabe in den UI gestreamt wird und Quelllinks zurück in den Obsidian gelangen, ermöglicht es einem technisch nicht versierten Teamkollegen, das System zu bedienen, ohne jemals den CLI zu berühren. Ohne das Dashboard ist die Übergabe schmerzhaft.

Lasst uns zusammenarbeiten

Möchten Sie AI-Systeme aufbauen, Arbeitsabläufe automatisieren oder Ihre technische Infrastruktur skalieren? Ich würde gerne helfen.

Fiverr (benutzerdefinierte Builds und Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Unternehmenslösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io