Skip to main content
📝 Claude Code

Das Retainer-Modell für AI-Agenturen 2026: Warum $40K-Projekte Vergangenheit sind

Wie Claude Code das 40.000-$-KI-Projekt beendete und das 2.500-$-Monatsmodell zum Agentur-Standard 2026 machte. Praxisnaher Einblick.

21 min

Lesezeit

4,129

Wörter

Apr 23, 2026

Veröffentlicht

Engr Mejba Ahmed

Geschrieben von

Engr Mejba Ahmed

Artikel teilen

Das Retainer-Modell für AI-Agenturen 2026: Warum $40K-Projekte Vergangenheit sind

Das Retainer-Modell für AI-Agenturen 2026: Warum K-Projekte Vergangenheit sind

Ende 2023 habe ich einem Kunden $38.000 angeboten. Eine maßgeschneiderte GPT-4-Automatisierungspipeline – Dokumenteneingang, Klassifizierung, Routing ins CRM, ein Slack-Bot obendrauf. Acht Wochen Entwicklungszeit. Danach ein Retainer? Vielleicht. Eher nicht. Die Marge steckte in der Projektgebühr, und diese musste abdecken, dass jeder API-Call, jeder Edge-Case, jede Prompt-Iteration nach wie vor wirklich anspruchsvoll war. Ich habe geliefert. Der Kunde war zufrieden. Elf Monate später kalkulierte ich für einen anderen Kunden ein deutlich umfangreicheres System – für $11.000, plus einen Retainer von $3.200 pro Monat. Gleiche Aufgabenstellung. Weniger als ein Drittel der ursprünglichen Projektkosten. Mehr Jahresumsatz.

Zwischen diesen beiden Aufträgen ist etwas zerbrochen – und es ist exakt dasselbe, was das alte AI-Agenturmodell 2026 für alle anderen, die dieses Spiel spielen, zum Einsturz bringt.

Kurz gesagt: Claude Code und die Welle von AI-Operations-Layern drumherum haben die Kosten für den Bau der Lösung drastisch gesenkt. Was bleibt – und was sich wirklich exponentiell auszahlt – ist das Management, die Optimierung und die laufende Erweiterung dieser Lösung, Monat für Monat, für Kunden, die Claude Code weder selbst nutzen wollen noch sollten. Das ist das AI-Agentur-Retainer-Modell 2026 aus der Praxis. Keine Preisstrategie. Eine strukturelle Verschiebung dessen, wo der Wert tatsächlich entsteht.

Ich verwalte Content- und Automatisierungsinfrastruktur für vier Marken – mejba.me, Ramlit, ColorPark, xCyberSecurity – und für mich ist dieser Wandel alles andere als theoretisch. Genau damit baue ich seit Q4 letzten Jahres meine eigenen Umsätze neu auf. Manches funktioniert. Manches ist peinlich. Ich werde Ihnen beides zeigen.

Was sich tatsächlich zwischen 2023 und heute verändert hat

Lassen Sie mich das Thema anhand eines konkreten Beispiels verankern, bevor wir über Geld sprechen.

2023 habe ich noch Klebearbeiten im Code gemacht. Im wahrsten Sinne des Wortes – ich habe OpenAIs Chat Completions API, eine chaotisch fragile LangChain-Chain, einen Pinecone-Vektorspeicher, einen Redis-Cache, einen maßgeschneiderten Retry-Handler und etwa 400 Zeilen individuelles Prompt-Scaffolding zusammengebastelt, um eine einzige Dokumentenklassifizierungsaufgabe überhaupt zuverlässig und verkaufbar zu machen. Der Aufbau hat Wochen gedauert. Das Debuggen hat noch länger gebraucht. Wenn der Kunde gefragt hat: „Kannst du dringende Vorgänge auch auf mein Handy routen?“, standen sofort mindestens zwei weitere Arbeitstage an.

Deshalb musste das Preismodell pro Projekt bei 20.000–40.000 US-Dollar liegen. Diese Beträge waren kein Ausdruck von Gier. Es war schlicht die einzige Möglichkeit, dass die Rechnung aufgeht. Bei geringeren Preisen hätte das Verhältnis von eingesetzten Stunden zu erreichbarer Zuverlässigkeit die Marge völlig aufgefressen.

Und jetzt schauen Sie sich an, was mich derselbe Workflow im Jahr 2026 kostet. Ich öffne Claude Code. Ich beschreibe das System in einer CLAUDE.md-Datei – Intake-Quellen, Klassifizierungsschema, Routing-Regeln, Eskalationsbedingungen. Ich lasse den Agenten den Code generieren. Ich teste ihn an echten Dokumenten. Ich binde ihn in den Stack des Kunden ein. Der Build, der 2023 noch acht Wochen gedauert hat, dauert jetzt inklusive aller Integrationsaufwände zwischen zwei und vier Arbeitstage von Anfang bis Ende.

Die Zahlen dahinter sind keine Einbildung. Adventure PPCs Analyse 2026 dokumentiert Agentur-Teams, die einen Produktivitätssprung von 45 % bei technischer Arbeit berichten, und eine 12-Personen-Agentur, die durch Automatisierung der Reporting- und Audit-Ebene über 80 Kunden mit hohen Budgets parallel betreuen kann. Anthropic’s Claude Code erreichte bis Mitte 2026 eine annualisierte Run Rate von 2,5 Milliarden Dollar. Was auch immer Sie von diesen Werten halten: Die beschriebenen Delivery-Economics entsprechen genau dem, was ich in meiner eigenen BWA sehe.

Den wichtigsten Punkt übersehen aber die meisten – und genau darum dreht sich die gesamte Retainer-These.

Der Kostenkollaps fand nicht beim Management statt. Er geschah beim Initial-Build. Das sind zwei grundverschiedene Dinge. Und genau darin liegt das Geld.

Der Teil, den niemand bei Claude Code zugeben will

Unternehmer werden Claude Code nicht selbst benutzen. Sie werden es nicht tun.

Ich kenne den Thread auf Tech-Twitter, der widerspricht. Ich habe ihn gelesen. Ich glaube ihn nicht, und ich sage Ihnen warum — ich habe in den letzten sechs Monaten versucht, drei Kunden Claude Code beizubringen. Alle drei sind kluge Menschen, die profitable KMUs führen. Einer ist ein Ex-Ingenieur. Der Ex-Ingenieur konnte es benutzen. Die anderen beiden kamen bis zur CLI, starrten auf das Terminal, fragten mich, was eine CLAUDE.md-Datei sei, und sagten höflich: "Kannst du das bitte einfach für uns machen?"

Das ist kein Versagen ihrerseits. Das ist ein Merkmal, wie das Tool gebaut ist. Claude Code ist eine Entwickleroberfläche. Es erwartet, dass man in Git-Branches, Commit-Messages, Hooks und Permission-Scopes denkt. Die Abstraktionen, die es bereitstellt, sind die eines Menschen, der Software entwickelt, nicht die eines Menschen, der Software-Ergebnisse kauft. Selbst der Pro-Plan für $20 im Monat und der Max-Plan für $100–$200 sind auf ein Entwickler-Mindset ausgelegt — nutzungsbasiert, mit Berücksichtigung des Context-Windows, prompt-engineering-bewusst. Ein Waschsalonbesitzer mit sechs Standorten denkt nicht in Tokens pro Minute.

Was passiert also in der Praxis? Die Tools sind inzwischen so gut, dass ein einziger Engineer mit Claude Code heute liefern kann, wofür früher ein Fünf-Personen-Team nötig war. Aber die Nachfrage nach dieser Arbeit ist nicht eingebrochen — sie ist explodiert. Die Einführung von KI in kleinen Unternehmen ist von 40% auf 58% im Jahr 2025 gestiegen, und 76% der KMUs nutzen oder evaluieren jetzt aktiv KI. Die Investitionen sind in zwei Jahren um 58% gestiegen. Der Markt ist erheblich gewachsen – und die Lücke zwischen „Unternehmen, die KI-Automatisierung wollen“ und „Unternehmen, die KI-Automatisierung selbst aufbauen können“ wurde größer, nicht kleiner.

In genau dieser Lücke lebt die Agentur. Und die Struktur dieser Lücke – kontinuierlich, taktisch, voller Einzelanfragen und kleiner Optimierungen – entspricht genau der Form eines Retainers, nicht eines Projekts.

Und damit komme ich zu dem Teil, den ich auf den Punkt bringen möchte.

Warum das $40K-Projektmodell jetzt aktiv schlechter ist

Ich möchte das Projektmodell zunächst von seiner besten Seite darstellen, denn es ist nicht über Nacht falsch geworden und manche Agenturen setzen es noch erfolgreich ein.

Ein $40K-Projekt macht Sinn, wenn: der Umfang tatsächlich klar abgegrenzt ist, die Entwicklungskosten hoch sind, das System einmalig gebaut und anschließend weitgehend unbeaufsichtigt betrieben wird, und der Kunde ein Investitionsbudget hat, das eher zu einer Einmalzahlung als zu wiederkehrenden Ausgaben passt. Legal Tech, bestimmte Compliance-Arbeiten, manche Lösungen für regulierte Branchen – diese rechtfertigen auch 2026 noch eine Projektpreisgestaltung. Ich will da nichts schönreden.

Aber für 80 % der KI-Projekte im KMU-Umfeld, die ich heute sehe, verliert das Projektmodell inzwischen gleich auf drei Ebenen aktiv an Boden.

Es ist bepreist auf eine Kostenstruktur, die nicht mehr existiert. Sie berechnen dem Kunden vierzig Ingenieursstunden, obwohl die neuen Tools denselben Aufwand in einem Bruchteil der Zeit erledigen. Sie können so tun, als dauere die Arbeit nach wie vor so lange – aber Ihr Wettbewerber um die Ecke nutzt dieselben Tools und unterbietet Ihren Preis in sechs Monaten. Das Rennen nach unten bei den Entwicklungspreisen ist längst in vollem Gange – mehrere Preisumfragen 2026 zeigen, dass KI-Automatisierungen aktuell zwischen $2.500 und $15.000 kosten, was vor zwei Jahren noch $20K–$40K gewesen wäre.

Es bepreist die eigentliche Leistung falsch. Was Kunden bei einem KI-System wirklich brauchen, ist nicht der Erstbau – sondern die zehnte Iteration. Der Prompt, der nach einem Model-Update Feintuning braucht. Der Workflow, der einen neuen Pfad benötigt, weil sich der Geschäftsprozess ändert. Die Integration zum neuen CRM, das im zweiten Quartal eingeführt wurde. Eine Projektpauschale deckt das nicht ab. Der Kunde zahlt erneut (Reibung, gestörte Beziehung) – oder er zahlt nicht (das System verkommt und die Schuld dafür landet bei Ihnen).

Es verschenkt Ihre wichtigste Ressource. Jeder Auftrag führt zu wiederverwendbaren Assets – einer Prompt-Bibliothek, einem Workflow-Pattern, einem Integrations-Template. Im Projektmodell liefern Sie dieses IP ab und sind raus. Im Retainermodell behalten Sie es, verbessern es von Kunde zu Kunde weiter und schaffen Monat für Monat Mehrwert. Das eine baut eine Beratung. Das andere eine Maschine.

Ich habe beide Modelle letztes Jahr etwa vier Monate parallel laufen lassen und den Unterschied in den Zahlen beobachtet. Die Projektkunden: Ein Auftrag, dann vorbei. Die Retainerkunden: Stetig steigende Monatszahlungen, Upsells, Fallstudien, Empfehlungen. Der Customer Lifetime Value der Retainergruppe lag nach sechs Monaten ungefähr beim 4- bis 5-fachen der Projektgruppe. Nicht, weil die Retainerkunden monatlich mehr ausgaben als Projektkunden insgesamt gezahlt hätten – taten sie nicht. Sie zahlten konstant, und genau diese Beständigkeit sorgt für Wachstum.

Das ist der Wandel. Projektpreise honorieren die einst knappe Fähigkeit des Bauens. Retainerpreise vergüten die heute wertvolleren Kompetenzen: Pflege, Iteration und ein Unternehmen so gut zu verstehen, dass man immer wieder neue Automatisierungen findet. Claude Code hat das erste billig gemacht. Das zweite hingegen wertvoller denn je.

Was ein $2.500–$5.000-Retainer tatsächlich abdeckt

Lassen Sie mich die Zahlen aufschlüsseln, denn ich habe das Gefühl, dass der Begriff „Retainer“ oft zu unspezifisch verwendet wird.

Ein sinnvoller Retainer im Jahr 2026 liegt für KMU im Bereich von $2.500 bis $5.000 pro Monat, mit Zusatzoptionen für Wartung und Optimierung, die on top gebucht werden können. Die veröffentlichten Preisbereiche stimmen mit dem überein, was ich sehe: Arsums Preisübersicht für 2026 setzt KI-Automationsprojekte bei $2.500–$15.000 an, mit laufenden Monitoring-Retainern zwischen $500 und $5.000 monatlich. Die Stufe „AI System Support Retainer“ landet typischerweise bei $2.000–$8.000 im Monat. Der Sweet Spot für zugängliche KMU-Arbeit — nicht Enterprise-Level, nicht Solo-Gründer — liegt zwischen $2.500 und $5.000.

Das steckt tatsächlich in so einem Retainer:

Das Fundament im ersten Monat (Monat 1). Ein Onsite- oder Remote-Audit des Tech-Stacks des Kunden — Wo sind die repetitiven Tasks? Wo stecken die Daten fest? Wo geht menschliche Bandbreite verloren? Anschließend ein erstes Automatisierungs-Build, das in Kalenderwoche 2 ausgeliefert wird, gezielt so gewählt, dass es im ersten Retainer-Zyklus direkt Wert aufzeigt. Das Ziel ist greifbar — bis spätestens Tag 20 soll jemand aus dem Team sagen: „Warte mal, ich habe durch das Ding heute zwei Stunden zurückgewonnen.“ Dieser Moment sorgt dafür, dass im zweiten Monat nicht gekündigt wird.

Fortlaufende Automatisierungen (Monat 2+). Ein Backlog von Automatisierungsanfragen, gesteuert über eine schlanke Pipeline — meistens ein geteiltes Notion- oder Linear-Board, auf dem der Kunde Wünsche einträgt, ich priorisiere gemeinsam wöchentlich und liefere über Claude Code aus, immer mit Human-in-the-Loop-Review. Durchschnittliche Geschwindigkeit: 1–3 kleine Automatisierungen pro Monat plus ein mittleres Build pro Quartal. Die Wirtschaftlichkeit funktioniert, weil jede dieser Umsetzungen jetzt Tage dauert, nicht mehr Wochen.

Die Optimierungsebene (Add-on: $300–$500/Monat). Modell-Upgrades, Prompt-Tuning, Monitoring von Workflow-Drift, Optimierung der LLM-Kosten. Dieser Posten existiert, weil sich Modelle ständig ändern. Jedes Update von Anthropic oder OpenAI kann Dinge leise kaputtmachen. Das ist die Gebühr, durch die der Kunde sich nicht mehr fragt, auf welchem Model-Release er eigentlich läuft — meine Aufgabe ist, dass das System immer das passende Modell nutzt.

Die Management-Ebene (Add-on: $300–$500/Monat). Monitoring, Verfügbarkeitsprüfungen, Error Handling, monatliches Reporting inkl. Nutzungsdaten, Kostenaufschlüsselungen, Zeiteinsparungs-Schätzungen. Klingt nach Verwaltungskram. Genau dieser Posten sorgt aber dafür, dass sich der Retainer für den Kunden wie Infrastruktur anfühlt — und das ist die Kategorie, die Sie anstreben, weil Infrastruktur nicht beim Q4-Budget-Review gestrichen wird.

Große Einzelprojekte (Projektbasis, $5.000+). Wenn der Kunde wirklich etwas Neues will — einen völlig neuen Agenten, eine neuartige Integration, alles außerhalb des monatlichen Turnus — mache ich dafür ein separates Angebot. Diese Leistungen laufen nicht über die Retainer-Stunden. Damit bleibe ich ehrlich beim Retainer und halte den Projektscope sauber.

Die Rechnung für einen einzelnen Kunden sieht in etwa so aus: $3.500 Retainer-Basis + $400 Optimierung + $400 Management = $4.300 monatlich wiederkehrend. Plus im Schnitt ein $6.000-Großprojekt pro Quartal, umgelegt sind das zusätzlich $2.000/Monat. Macht $6.300/Monat pro Kunde, wenn Sie den Stack sauber managen. Zehn solche Kunden ergeben ein $63.000/Monat-Business, geführt von einem Engineer mit Teilzeit-VA. Das sind die Zahlen. Das ist keine Hypothese — es ist nah genug an dem, was ich tatsächlich beobachte und worauf ich mein eigenes Jahr gesetzt habe.

Bevor wir zum Aufbau und der praktischen Umsetzung durchstarten, stellt sich eine unbequemere Frage: Was für eine Agentur sollten Sie sein?

Breit versus Tief — und warum ich mich beim ersten Mal falsch entschieden habe

Für das Retainer-Agenturmodell im Jahr 2026 gibt es zwei verteidigbare Ausrichtungen, und du musst dich für eine entscheiden.

Breit: Viele Kunden, jeweils niedriger Retainer, generalistische Positionierung. Dreißig Kunden à 2.500 $ bedeuten 75.000 $ pro Monat. Die Verteidigungsfähigkeit ergibt sich hier aus operativer Effizienz – wie stark du die Auslieferung standardisiert hast, wie wiederverwendbar deine Automatisierungen über verschiedene Branchen hinweg sind, wie automatisiert dein Kunden-Onboarding abläuft. Diese Form belohnt systemisches Denken.

Tief: Wenige Kunden, jeweils höherer Retainer, Nischenpositionierung. Acht Kunden à 8.500 $ bedeuten 68.000 $ pro Monat, und du bist die erste Adresse für „KI-Automatisierung für Shopify-Brands mit 5–20 Mio. $ Umsatz“ oder „KI-Operations für Kanzleien im Klägerbereich“ oder einen ähnlich klaren Marktkeil. Hier entsteht Verteidigungsfähigkeit durch Branchenexpertise – du verstehst das Geschäft deiner Kunden, sprichst ihre Sprache, hast Case Studies, die exakt zu ihrem Tech Stack passen. Diese Form belohnt das Pflegen von Beziehungen.

Ich habe mit einer breiten Ausrichtung angefangen. Ich dachte, das wäre clever. Ich habe alles angenommen, was reinkam – eine Restaurantgruppe, ein B2B-SaaS, eine Immobilienfirma, eine Non-Profit-Organisation, einen Landschaftsbauer. Jeder Auftrag war ein Kaltstart. Die Daten jedes Kunden lagen in einem anderen System. Jede Integration war ein Unikat. Meine Bibliothek wiederverwendbarer Assets wuchs nur langsam, weil ich die Arbeit des letzten Monats nicht auf den nächsten Kunden umlegen konnte – sie hatten einfach nichts gemeinsam. Im Grunde habe ich zehn Einzelunternehmungen parallel betrieben und mich gefragt, warum ich erschöpft war.

Nach sechs Monaten habe ich mir einen Keil gesucht. Ich nenne ihn hier nicht öffentlich, weil ich mir keine eigene Konkurrenz machen will, aber diese Branche hat drei Eigenschaften: Die Unternehmen haben ähnliche Workflows, kaufen bei denselben Anbietern und stehen im Austausch miteinander. Sobald ich drei Kunden im selben Bereich hatte, erforderte das Onboarding des vierten nur noch halb so viel Aufwand. Beim fünften nur noch ein Drittel. Beim sechsten ein Viertel. Genau das ist das Flywheel, von dem immer alle sprechen, und es beginnt erst zu rotieren, wenn du dich auf eine Nische festlegst und dich verpflichtest.

Wenn ich die Zeit zurückdrehen könnte, würde ich schon im ersten Monat meinen Bereich wählen und für sechs Monate weniger Kunden nehmen, um Tiefe in der Branche aufzubauen. Der breite Ansatz ist nicht falsch – er wächst nur langsamer exponentiell, und genau darauf basiert das gesamte Modell.

Einiges davon beschreibe ich im Build-in-Public Flywheel Framework, das ich zuvor geschrieben habe — über die Mechanik, wie Content und Case Studies die Positionierung einer Agentur verstärken — aber die Kurzversion ist: erst spezialisieren, dann systematisieren, dann skalieren. In dieser Reihenfolge. Bringst du sie durcheinander, dreht sich das Flywheel nicht.

Die Infrastruktur, die das Retainer-Modell wirklich profitabel macht

Das ist der Teil, den niemand in seinen Twitter-Threads erwähnt, weil er unsexy ist – aber genau das trennt die Retainer-Agenturen, die stetig wachsen, von denen, die ausbrennen.

Die Auftragsannahme muss asynchron und automatisiert sein. Die Kund:innen schicken Anfragen über einen einzigen Kanal – bei mir ist es ein gemeinsames Linear-Board mit individuellem Formular. Kein Slack. Keine E-Mails. Keine Textnachrichten um 22:47 Uhr. Die Ein-Kanal-Regel ist der Unterschied zwischen einem skalierenden Retainer und einem Retainer, der dein ganzes Leben vereinnahmt. Ich mache das schon beim Onboarding klar: „Wenn’s nicht in Linear ist, sehe ich es nicht – und nur so bleiben wir beide handlungsfähig.“

Der Build-Pipeline-Prozess läuft über ein standardisiertes CLAUDE.md-Template. Jeder Kunde erhält eine eigene Konfigurationsdatei – Tech-Stack, Markenstimme, API-Keys, Business-Regeln, eine „Finger-weg-Liste“. Kommt eine neue Anfrage rein, gehe ich ins Kunden-Repo, Claude Code liest den Kontext, und die erste Version des Builds wird direkt im Session-Workflow vorgefertigt. Das CLAUDE.md-File ist das geistige Eigentum. Genau dadurch brauchen die nächsten Builds für diesen Kunden Stunden statt Tage. Schütze es wie einen Vermögenswert.

Wiederverwendbare Automatisierungsbibliothek liegt oberhalb der Kundenebene. Ich pflege ein zentrales Repository mit Patterns – Dokumentklassifizierung, E-Mail-Triage, CRM-Anreicherung, Content-Produktionspipelines, Marken-Monitoring-Scraper, Rechnungsparser – alles parameterisiert. Wenn ein Kunde etwa ein „AI-E-Mail-Triage“-System braucht, fange ich nicht bei Null an. Ich forke das Pattern, passe es auf dessen CLAUDE.md an und rolle es aus. Die Pattern-Bibliothek ist der Hauptgrund, warum das Retainer-Modell wächst. Jeder neue Kunde vergrößert die Bibliothek. Jede größere Bibliothek beschleunigt den nächsten Kunden.

Human-in-the-Loop ist nicht verhandelbar. Das klingt wie ein Werkzeug-Kompromiss. Ist es aber nicht – es ist das Produkt. Kund:innen zahlen den Retainer nicht für „ein KI-System“. Sie zahlen für „eine Person, die KI versteht, für mich managed und haftet, wenn etwas schief läuft“. Jede Automatisierung, die ich deploye, beinhaltet einen menschlichen Checkpoint. Bei kritischen Ergebnissen prüfe ich selbst, bei geringeren Risiken jemand aus meinem VA-Team. Diese menschliche Komponente schafft das Vertrauen ins Retainer-Modell. Ohne sie bist du Software-Anbieter, nicht Agentur – und Software-Anbieter können keine Retainer durchsetzen.

Das Monatsreporting kostet 90 Minuten, nicht neun Stunden. Ich habe ein standardisiertes Report-Template, das Nutzung, geschätzte Zeitersparnis, Fehlerraten und offene Tickets aus einem internen Dashboard zieht. Claude generiert den narrativen Teil daraus automatisch. Der komplette Report dauert pro Kunde monatlich weniger als zwei Stunden und ist der Grund, warum sie verlängern. Kund:innen kündigen Retainer, wenn sie vergessen, warum sie zahlen. Ein monatliches Artefakt, das sie wirklich lesen, verhindert genau das.

Diese Infrastruktur ist der Unterschied zwischen $3.500/Monat und Überarbeitung – und $3.500/Monat und Ruhe. Ich habe die Überarbeitungs-Variante fünf Monate ausprobiert. Sie skaliert nicht. Die ruhige Version tut es – und der Unterschied ist die Automatisierung in den eigenen Abläufen. Genau das beschreibe ich im AI Automations, die Unternehmen wirklich bezahlen-Artikel.

Was ich ehrlich falsch gemacht habe

Drei Dinge, die ich einer früheren Version von mir selbst sagen würde.

Ich habe die ersten sechs Retainer zu niedrig gepreist. Ich hatte solche Angst davor, die ersten Abschlüsse nicht zu machen, dass ich den Preis zu niedrig angesetzt habe. Drei dieser Kunden sind achtzehn Monate später immer noch zu diesem ursprünglichen Tarif dabei, und eine Preiserhöhung ist jetzt unangenehm. Lektion: Dein erster Retainer-Preis bleibt für immer dein Anker. Wenn dir die Zahl nicht ein wenig unangenehm ist, ist sie zu niedrig.

Ich habe zu viel unter "laufend" verstanden. Die ersten Retainer-Verträge, die ich aufgesetzt habe, enthielten vage Formulierungen wie „fortlaufende Automatisierungsentwicklung“, was die Kunden nachvollziehbar als „unbegrenzt“ interpretierten. Ich hatte einen Kunden, der im dritten Monat innerhalb einer Woche 14 Anfragen gestellt hat. Lektion: Schreibe eine weiche Obergrenze schriftlich fest. „2 kleine Automatisierungen + 1 mittlere pro Monat, zusätzliche Aufgaben werden separat angeboten.“ Kunden akzeptieren das, weil es eindeutig ist. Unklarheit kostet dich Energie, nicht sie.

Ich dachte, beim Retainer geht es um die Technik. Tut es nicht. Die Technik ist die Mindestanforderung. Der Retainer basiert auf Vertrauen — der Kunde glaubt, dass du ans Telefon gehst, die seltsame Sache am Dienstagmorgen löst und nicht verschwindest, sobald ein größerer Kunde auftaucht. Einen Retainer habe ich verloren, nicht weil meine Automatisierung versagt hat, sondern weil ich während einer stressigen Phase drei Tage lang auf eine E-Mail nicht geantwortet habe. Lektion: Reaktionsfähigkeit ist das eigentliche Produkt. Die Technik ist nur der Beleg.

Das klingt banal. Es ist banal. Ich musste es trotzdem auf die harte Tour lernen, und ich vermute, dass es den meisten, die auf dieses Modell zusteuern, genauso gehen wird.

Wohin die Reise in den nächsten zwölf Monaten geht

Ich werde mich mit Prognosen für 2027 zurückhalten. Aber das behalte ich bis Ende 2026 im Blick.

Retainer-Sätze für Agenturen in bestimmten Branchen werden steigen, nicht fallen, trotz des Einbruchs bei den Entwicklungskosten. Der Grund dafür ist, dass die Entwicklung nicht mehr der wertvolle Teil ist und vertikales Fachwissen jetzt die knappe Ressource darstellt. Generische AI-Automatisierungsagenturen werden von beiden Seiten unter Druck geraten — die Unternehmensriesen über ihnen haben ihre eigenen spezialisierten Anbieter, und Einzelunternehmer und kleine Firmen darunter werden zunehmend mit Tools wie Zapiers AI-Schicht oder Notions Agents selbstständig agieren. Die Mitte — spezialisierte Agenturen mit tiefem Branchenverständnis — wird sich verbreitern.

Die Verwaltung und Optimierung als Zusatzleistung wird zur Haupteinnahmequelle für etablierte Agenturen. Der Basisretainer wird sich im aktuellen Bereich stabilisieren. Die Add-ons werden wachsen. Kunden zahlen bereitwillig 800 $ pro Monat für „haltet unser AI-System up-to-date, wenn sich die Modelle ändern“, weil die Kosten eines lautlos versagenden Systems höher sind als die laufende Gebühr.

Human-in-the-loop wird zum Verkaufsargument und nicht zum Makel. 2023 haben Agenturen die menschliche Beteiligung noch versteckt, weil „vollautomatisiert“ sich besser verkaufen ließ. 2026 schlägt das Pendel bereits zurück. Ich nehme jetzt „menschliche Prüfung jeder Ausgabe“ in meine Angebote auf, und das führt zum Abschluss, denn Kunden wurden von autonomen Systemen oft genug verbrannt, sodass sie jetzt eine namentlich verantwortliche Person für das Ergebnis wollen.

Lean ist die Gewinnerstrategie. Ein-Personen-Agenturen und kleine Teams mit 2–5 Beschäftigten haben in diesem Modell strukturelle Vorteile, die große Agenturen nicht erreichen — geringere Fixkosten, schnellere Entscheidungsfindung, direkte Inhaberbeziehungen zu den Kunden und Claude Code als Delivery-Multiplier, der die klassische Notwendigkeit für zusätzliche Anstellungen eliminiert. Ich glaube nicht, dass die 50-köpfige AI-Agentur die Zukunft dieses Marktes ist. Es steuert eher auf viele Dreier-Teams zu, die jeweils sechs bis zehn Kunden betreuen, auf automatisierten Pipelines arbeiten und immer spezifischeres Know-how aufbauen.

Das ist das Spiel, das ich spiele. Wenn ich mich irre, schreibe ich auch dazu einen Beitrag. Aber die Zahlen, auf die ich schaue, sagen mir das Gegenteil.

Eine ganz konkrete Aufgabe bis Freitag

Wenn du gerade noch auf projektbasierter AI-Arbeit sitzt und bis hierhin gelesen hast, gibt es einen ganz konkreten Schritt, den du in den nächsten 72 Stunden machen solltest.

Nimm deinen letzten Projektkunden. Denjenigen, für den du etwas gebaut hast und dann weggegangen bist. Öffne deine E-Mail, verfasse eine kurze Nachricht und frage Folgendes: „Wenn ich eine Option für 2.500 $ pro Monat anbieten würde, um das, was ich für Sie gebaut habe, laufend zu erweitern und zu optimieren – mit neuen Automatisierungen jeden Monat –, wäre das mehr oder weniger nützlich als das, was wir gemacht haben?“

Kein Pitch. Nur fragen. Sechs von zehn Mal – das ist meine echte Umwandlungsrate, keine ausgedachte Zahl – antwortet der Kunde irgendetwas in der Art von „Eigentlich ja, erzählen Sie mir mehr“. Sie hätten dich nie zuerst angerufen. Aber sie würden ja sagen, wenn du sie anrufst.

Das ist das Retainer-Modell. Es ist keine Preisstrategie. Es ist ein Anruf, den du noch nicht gemacht hast.

Vor zwei Jahren ging die Rechnung nicht auf. Jetzt schon. Und das Zeitfenster, in dem du diese Retainer-Beziehung mit einem konkreten Kunden etablieren kannst – bevor zehn andere Agenturen ihnen dasselbe anbieten – ist enger, als es aussieht.

Mach den Anruf.

Häufig gestellte Fragen

Was beinhaltet ein AI-Agency-Retainer im Jahr 2026 tatsächlich?

Ein Standard-Retainer für eine AI-Agentur im Jahr 2026 umfasst die fortlaufende Entwicklung von Automatisierungen, eine Human-in-the-Loop-Prüfungsebene, monatliches Reporting sowie verwalteten Zugriff auf die Prompt- und Workflow-Bibliothek der Agentur. Basis-Retainer liegen bei $2.500–$5.000 pro Monat, mit optionalen Add-ons für Management ($300–$500) und Optimierung ($300–$500). Die vollständige Aufschlüsselung des Leistungspakets finden Sie im Abschnitt zur Retainer-Struktur oben.

Warum hat Claude Code die Preisgestaltung für AI-Agenturen so drastisch verändert?

Claude Code hat die Kosten und den Zeitaufwand für die Entwicklung von AI-Automatisierungen von Wochen auf Tage reduziert – womit die Rechtfertigung für $20K–$40K-Projektgebühren entfiel. Was sich jedoch nicht verändert hat, sind die Kosten für das laufende Management, die Optimierung und die Erweiterung dieser Systeme – genau das wird über einen monatlichen Retainer abgedeckt. Siehe dazu den Abschnitt, was sich zwischen 2023 und heute tatsächlich geändert hat.

Kann eine Einzelperson eine AI-Retainer-Agentur profitabel betreiben?

Ja, und 2026 ist dieses schlanke Modell vermutlich das optimale. Ein einzelner Engineer, der Claude Code nutzt, kann gemeinsam mit einem Teilzeit-VA nachhaltig 6–10 Kunden im Bereich $3.000–$5.000 pro Monat betreuen und so vor Add-ons etwa $30K–$50K monatlich wiederkehrenden Umsatz erzielen. Entscheidend sind dabei die vertikale Spezialisierung und eine wiederverwendbare Automatisierungsbibliothek – nicht das Hochskalieren des Teams.

Ist das Retainer-Modell besser als projektbasiertes Pricing für AI-Arbeiten?

Für 80% der AI-Arbeiten im SMB-Segment im Jahr 2026 gilt: Ja – Retainer generieren signifikant höheren Lifetime Value, bündeln wiederverwendbare Assets über verschiedene Kunden und orientieren sich am tatsächlichen Nutzungsverhalten der Kunden bei AI-Dienstleistungen. Projektbasiertes Pricing ist weiterhin sinnvoll bei echten Einmal-, Hochumfangs- oder Investitionsprojekten, insbesondere in regulierten Branchen.

Wie wähle ich zwischen einer breiten und einer tiefen Agentur-Positionierung?

Wählen Sie „tief“, wenn Sie ein Marktsegment finden, in dem Unternehmen ähnliche Workflows haben, von vergleichbaren Anbietern kaufen und sich untereinander austauschen – hier beschleunigt sich der Flywheel-Effekt etwa doppelt so schnell wie bei einer breiten Positionierung. „Breit“ empfiehlt sich, wenn operative Effizienz oder standardisierte Auslieferung über verschiedene Branchen Priorität hat. Versuchen Sie keinesfalls beides zugleich – das halbiert Ihre Skalierungsgeschwindigkeit in jede Richtung.

Lassen Sie uns zusammenarbeiten

Sie möchten KI-Systeme entwickeln, Workflows automatisieren oder Ihre technische Infrastruktur skalieren? Ich helfe Ihnen gerne dabei.

Coffee cup

Hat Ihnen dieser Artikel gefallen?

Ihre Unterstützung hilft mir, mehr tiefgehende technische Inhalte, Open-Source-Tools und kostenlose Ressourcen für die Entwickler-Community zu erstellen.

Verwandte Themen

Engr Mejba Ahmed

Über den Autor

Engr Mejba Ahmed

Engr. Mejba Ahmed builds AI-powered applications and secure cloud systems for businesses worldwide. With 10+ years shipping production software in Laravel, Python, and AWS, he's helped companies automate workflows, reduce infrastructure costs, and scale without security headaches. He writes about practical AI integration, cloud architecture, and developer productivity.

Discussion

Comments

0

No comments yet

Be the first to share your thoughts

Leave a Comment

Your email won't be published

6  +  3  =  ?

Weiter lernen

Verwandte Artikel

Alle anzeigen

Comments

Leave a Comment

Comments are moderated before appearing.

Learning Resources

Expand Your Knowledge

Accelerate your growth with structured courses, verified certificates, interactive flashcards, and production-ready AI agent skills.

Sample Certificate of Completion

Sample certificate — complete any course to earn yours

Engr Mejba Ahmed

Engr Mejba Ahmed

Claude Code Expert · Online

👋

Hey there!

Quick Actions

WhatsApp Instant reply

Chat on WhatsApp

+880 1723 741224 · Instant reply

Popular Questions

Engr Mejba Ahmed is connected
Engr Mejba Ahmed is typing...
Engr Mejba Ahmed avatar

✉ Want me to follow up? Drop your email

Engr Mejba Ahmed avatar

📞 Connect Directly

Choose how you'd like to reach me

WhatsApp

+880 1723 741224

Email

[email protected]

✓ Details sent! I'll get back to you shortly.

Powered by OpenAI

335+

Blog Posts

25

AI Courses

63

Projects

Services & Expertise

Pricing & Process

Learning & Resources

Connect & Support