Warum KI-Abos bald zur Massenware werden

Ich saß an einem Dienstag an meinem Schreibtisch und betrachtete vier verschiedene AI-Abrechnungs-Dashboards, die in vier verschiedenen Registerkarten geöffnet waren, und mir wurde klar, dass ich genau der Kunde geworden war, für dessen Monetarisierung die AI-Branche geschaffen wurde.

Claude Max, 100 $. Codex Plus, 20 $. Ein DeepSeek API-Schlüssel mit einem Guthaben von etwa 20 $. Ein OpenRouter-Konto mit weiteren 15 $. Eine über OpenCode laufende Kimi K2.6-Testversion, die ich vergessen hatte, war noch aktiv. Ich habe es zusammengerechnet, und die Zahl bereitete mir ein Unbehagen auf eine Weise, die ich noch nicht ganz verstand – nicht weil es viel Geld war, sondern weil ich Ihnen zum ersten Mal seit zwei Jahren wirklich nicht sagen konnte, welches dieser Abonnements ich brauchte.

Das ist die Sache mit der Kommerzialisierung von AI-Abonnements. Es meldet sich nicht. Es stellt sich kein Preiskampf oder ein dramatisches Launch-Event dar. Es zeigt sich als langsamer, schleichender Verdacht, dass das, wofür Sie oben auf dem Stapel bezahlt haben, nicht wirklich das ist, was am unteren Ende des Stapels den Wert schafft. Und wenn das wahr ist – wenn das Modell selbst zur Ware wird, während die Anwendungsschicht die gesamte Marge verschlingt – dann löst der Abonnementstapel, den ich zwei Jahre lang aufgebaut habe, möglicherweise ein Problem, das bald nicht mehr existiert.

Ich werde Ihnen erklären, wofür ich tatsächlich bezahle, was ich tatsächlich bekomme, warum ich denke, dass die Open-Weight-Modelle die Lücke schnell genug geschlossen haben, um das Preismodell zu durchbrechen, das die Frontier Labs finanziert, und wo sich meiner Meinung nach die wahren Gräben bewegen. Einiges davon wird sich wie Ketzerei lesen, wenn Sie tief im Claude- oder OpenAI-Ökosystem tätig sind. Ich auch. Deshalb schreibe ich es.

Der Stack, für den ich tatsächlich bezahle

Lassen Sie es mich darlegen, damit wir von den gleichen Zahlen ausgehen.

Ich zahle 100 US-Dollar pro Monat für Claude Max 5x, wodurch ich bei Sonnet 4.7 alle fünf Stunden etwa 225 Nachrichten und bei Opus 4.7 einen viel kleineren Umschlag erhalte. Das ist der Plan, den ich für designorientierte Arbeit, langes Schreiben und die Projekte verwende, bei denen ich das spezifische Geschmacksprofil von Opus im Ergebnis haben möchte. Es gibt eine maximale 20-fache Stufe bei 200 US-Dollar, die ich zweimal aktiviert und beide Male wieder deaktiviert habe, weil ich die Ausgaben auf Dauerbasis nicht rechtfertigen konnte.

Ich zahle 20 US-Dollar pro Monat für ChatGPT Plus. Damit bekomme ich Codex mit dem GPT-5.5-Modell und – bis zum 31. Mai 2026 – eine vorübergehende 25-fache Erhöhung der 5-Stunden-Codex-Limits, die nach Ende der Aktion wieder auf das 5-fache zurückfällt. Das ist der Plan, den ich für Backend-Code, Datenpipelines, ML-Gerüste und die Art von Routinearbeit nutze, bei der die Effizienz von GPT-5.5 wirklich messbar ist. Den direkten Vergleich habe ich ausführlich in meinem Beitrag über Codex versus Claude Code behandelt, und die Lücke, die ich dort beschrieben habe, ist seitdem nur größer geworden.

Dann gibt es noch die rotierende Besetzung von API-Schlüsseln. DeepSeek läuft derzeit bis zum 31. Mai auf V4 Pro zu stark reduzierten Aktionspreisen. Kimi K2.6 bis OpenRouter für 0,60 $ pro Million Input-Tokens und 2,50 $ pro Million Output. Eine Handvoll kostenloser Modelle auf OpenRouter, deren Rate auf zwanzig Anfragen pro Minute begrenzt ist, die aber gut für Batch-Jobs funktionieren, die nicht zeitkritisch sind. Ich behalte diese zum Teil als Ausweichlösung für den Fall, dass Anthropic oder

Der Gesamtschaden vor Token-Ausgaben liegt irgendwo zwischen 135 und 160 US-Dollar pro Monat, je nachdem, was ich getestet habe. Wenn man die API-Nutzung hinzurechnet, liegt ein typischer Monat im Bereich von 200 bis 280 US-Dollar. Das ist die Zahl in der Tabelle, die ich mir am Dienstag angesehen habe.

Folgendes ist mir aufgefallen, als ich mir die Aufschlüsselung genauer angesehen habe: Die proprietären Abonnements machten etwa 78 % der Kosten und etwa 60 % der tatsächlichen Reasoning-Tokens aus, die ich in diesem Monat verwendet habe. Nicht 60 % des Wertes – 60 % der Token. Das billige Zeug trug mehr Last, als ich angenommen hatte.

Das ist der Moment, in dem die Frage nicht mehr lautete: „Wie optimiere ich meinen AI-Stack?“ und begann sich zu fragen: „Wofür bezahle ich eigentlich diese erstklassigen Abonnements?“

Das Aufholproblem

Um zu verstehen, warum diese Frage wichtig ist, muss man sich ansehen, wo die Modelle mit offenem Gewicht jetzt stehen und wo sie vor einem Jahr waren.

Im Mai 2025 war das Gespräch einfach. Claude und GPT waren die Grenze. Open-Weight-Modelle wie Mistral und die frühen Versionen von Qwen und 100 US-Dollar pro Monat für Claude zu zahlen, war eine Selbstverständlichkeit, da die nächstbeste Alternative keine wirkliche Alternative war.

Diese Lücke hat sich im Jahr 2026 nicht nur verringert, sie hat sich bei mehreren spezifischen Benchmarks sogar vollständig geschlossen.

Artificial Analysis rangiert Das ist eine 4,5-fache Kostenlücke im direkten Vergleich der Intelligenz. Bei SWE-Bench Verified, der am häufigsten zitierten Coding-Bewertung der Bestenliste, erreicht DeepSeek V4 Pro Max 80,6 %, Kimi K2.6 erreicht 80,2 % und MiniMax M2.5 landet bei 80,2 % – alles innerhalb eines Prozentpunkts der 80,8 % von Claude Opus 4.6. HumanEval ist zu diesem Zeitpunkt effektiv gesättigt. Kimi K2.5 lag mit 99,0 % an der Spitze, bevor der Benchmark keine nennenswerte Unterscheidung zwischen Topmodellen mehr machte.

Lesen Sie diese Zahlen sorgfältig durch. Die Modelle mit offenem Gewicht sind den proprietären Modellen nicht überlegen. Sie erreichen die Benchmarks, für deren Sieg die proprietären Modelle speziell entwickelt wurden, und das zu einem Bruchteil der Kosten. Und die Kostengeschichte ist der Teil, der tatsächlich destabilisiert.

DeepSeek V3.2 halbierte den Preis für API Ende 2025 auf 0,028 US-Dollar pro Million Cache-Hit-Input-Tokens und 0,42 US-Dollar pro Million Output. V4 Pro ist derzeit bis zum 31. Mai 2026 mit einem Aktionsrabatt von 75 % erhältlich. Kimi K2.6 kostet 0,60 $ Input und 2,50 $ Output. Zum Vergleich: Claude Opus 4.7 ist bei Ausgabe-Tokens etwa 8-10x teurer als Kimi und etwa 30x teurer als DeepSeek V4 bei Eingaben. Ein SaaS-Workload, der 100 Millionen Token pro Monat verarbeitet – was für eine Agentenanwendung nicht ungewöhnlich ist – kostet bei Kimi etwa 310 US-Dollar gegenüber 4.000 US-Dollar und mehr bei GPT-5.4 oder Opus 4.7.

Das ist der Henne-Ei-Kreislauf, über den niemand an der Spitze reden möchte. Die Grenzlabore trainieren ein teures neues Modell. Sie verlangen dafür eine Prämie, weil sie die Ausbildungskosten amortisieren und die nächste Generation finanzieren müssen. Die offenen Labore entwickeln die Techniken zurück, liefern ein zu 90-95 % leistungsfähigeres Modell zum 1/10th Preis und der Markt richtet sich entsprechend aus. Als das proprietäre Labor die Version N+1 ankündigt, sind die Preise für das Open-Weight-Modell bereits so hoch, dass die meisten Umsatzchancen der vorherigen Generation verschwinden.

Das ist kein Fünf-Jahres-Trend. Das ist der Kreislauf, in dem wir uns bereits befinden.

Die Android-iOS-Analogie und warum sie kaputt geht

Die klarste Analogie, die ich für das, was passiert, gehört habe, ist die Android-versus-iOS-Dynamik aus den 2010er Jahren. Der proprietäre AI ist iOS – kontrolliert, ausgefeilt, vertikal integriert, teuer. Open-Weight AI ist Android – flexibel, modifizierbar, fragmentiert, günstig. iOS hatte ein Jahrzehnt lang einen Spitzenplatz inne, weil die Hardware-Software-Integration von Apple dazu führte, dass die Offenheit von Android nicht mit der gleichen Qualitätsstufe reproduziert werden konnte.

Die Analogie funktioniert, bis Sie den Teil bemerken, an dem sie völlig zusammenbricht.

Apples iOS-Schutzgraben war Hardware. Sie konnten iOS nicht auf einem Samsung-Telefon ausführen. Die vertikale Integration, die das iPhone Premium machte, wurde durch die buchstäblichen physischen Chips im Gerät geschützt. Apple kontrollierte die Photonic Engine, die Neural Engine und die Secure Enclave – und dieser Hardware-Lock-in war es, der die Preismacht der Plattform fünfzehn Jahre lang aufrechterhielt.

Es gibt keinen entsprechenden Burggraben in der AI-Inferenz.

Ein Kimi K2.6-Modell, das auf einem Nvidia H200 in einem Rechenzentrum in Singapur läuft, erzeugt Token, die funktional identisch sind mit einem Kimi K2.6-Modell, das auf einem Huawei Ascend 950PR in Shenzhen läuft, und die funktional identisch sind mit einem Kimi K2.6-Modell, das auf dem Cluster OpenRouter läuft, der die Anfrage an diesen Tag weiterleitet. Die „Hardware“ ist fungibel. Das „Betriebssystem“ – die Modellgewichte – ist herunterladbar. Der „App Store“ – das API-Gateway – wird von Diensten wie OpenRouter kommerzialisiert, die Dutzende von Anbietern hinter einem einzigen Schlüssel bündeln.

Wenn Apple gezwungen gewesen wäre, iOS als herunterladbare ISO-Datei auszuliefern, die auf jedem Mobiltelefon mit den richtigen Spezifikationen lief, hätte iOS bis 2015 ganz anders ausgesehen. Das ist die Position, in der sich die proprietären AI-Labore heute befinden. Das, wofür sie einen Aufschlag verlangen wollen, kann von einem Konkurrenten mit 5,6 Millionen US-Dollar Rechenleistung nachgebildet werden, und das resultierende Modell kann von jedem mit einer GPU und einem API-Endpunkt bereitgestellt werden.

Aus diesem Grund ist die Analogie, die ich jetzt tatsächlich verwende, nicht iOS versus Android. Auf dem Laptop-Markt der späten 2000er Jahre steht Apple gegen alle anderen. Apple stellte immer noch schöne Maschinen her. Apple verlangte immer noch eine Prämie. Doch in dem Moment, als die zugrunde liegenden Komponenten – die Chips, die Displays, die Betriebssysteme – für andere Hersteller allgemein verfügbar wurden, sank Apples Marktanteil auf einstellige Werte und blieb dort ein Jahrzehnt lang. Apple überlebte nicht aufgrund der Hardware, sondern aufgrund des Anwendungsökosystems, der Entwicklertools, der Designsprache und der Markengeschichte. Die Hardware wurde zu Tischpfählen.

In diese Richtung gehen die AI-Labors. Das Modell wird zum Maßstab. Die Frage ist, was danach übrig bleibt.

Wo meiner Meinung nach die wahren Wassergräben sind

Hier ist der Teil, über den ich seit Wochen nachdenke, denn er bestimmt, was den Übergang überlebt.

Ich sehe, wie sich vier echte Wassergräben bilden, und nur für einen davon bezahle ich derzeit.

Der erste Graben ist die Anwendungsschicht. Dies ist Claude Code. Das ist Codex. Dabei handelt es sich um die Integration des Modells in einen spezifischen Arbeitsablauf mit spezifischen Tools, spezifischen UX-Entscheidungen und spezifischen Entwurfsentscheidungen darüber, wann um Bestätigung gebeten werden soll und wann autonom gehandelt werden soll. Wenn ich 100 US-Dollar pro Monat für Claude Max bezahle, ist der Teil, den ich mit einem DeepSeek API-Schlüssel eigentlich nicht replizieren kann, nicht das Modell – es sind die acht Monate Claude Code Workflow-Verfeinerungen, die Anthropic iteriert hat, der Agent Fähigkeiten-Ökosystem, die Slash-Befehle, die Art und Weise, wie der Agent-Harness lang laufende Aufgaben verarbeitet. Anthropic verkauft keine Token. Sie verkaufen eine Codierungsumgebung, die zufällig Token verwendet.

Diese Unterscheidung wird in den nächsten zwei Jahren von Monat zu Monat wichtiger werden.

Der zweite Graben ist die Compliance-Infrastruktur. Gesundheits-, Finanz-, Rechts- und Regierungsarbeitskräfte kümmern sich um Dinge, die DeepSeek und Kimi nicht ohne weiteres bieten können – Datenresidenzgarantien, Audit-Trails, SOC 2-Bescheinigung, verfassungsmäßige AI-Sicherheitsrichtlinien, die Art von Papierkram, mit dem ein Fortune-500-Beschaffungsteam ein Kästchen ankreuzen kann. Anthropic hat angeblich 70 % der direkten Unternehmenskämpfe gewonnen gegen Dies ist der Burggraben, der mit der regulatorischen Komplexität wächst, und es ist derjenige, den Open-Weight-Labors am schwersten reproduzieren können, da die regulatorische Arbeit grundsätzlich orthogonal zur Modellarbeit ist.

Der dritte Graben ist das Ökosystem. Dies ist das Model Context Protocol. Dies sind die Integrationen mit Slack, Notion, Figma, Canva, GitHub und jeder Datenbank, die zählt. Dabei handelt es sich um die Entwicklerdokumentation, die SDK-Qualität, die Konferenzpräsenz und die Art und Weise, wie Tools von Drittanbietern auf einer Plattform zum Einsatz kommen. Apple hat den Laptop-Krieg gegen das Ökosystem gewonnen, nicht gegen die Hardware. Die AI-Labore, die im nächsten Jahrzehnt gewinnen, werden aufgrund der Ökosystem- und nicht der Modellintelligenz gewinnen. Und der Aufbau von Ökosystemen dauert Jahre, was bedeutet, dass die proprietären Labore einen echten, aber zeitlich begrenzten Vorsprung haben.

Der vierte Burggraben ist Marke und Vertrauen. Wenn ich etwas für einen zahlenden Kunden aufbaue, verwende ich standardmäßig Claude oder GPT, nicht weil sie bei der spezifischen Aufgabe messbar besser sind, sondern weil ich die Wahl verteidigen kann, wenn etwas schief geht. „Ich habe Claude verwendet“ ist eine vertretbare Antwort in einem Kundengespräch. „Ich habe DeepSeek verwendet“ erfordert eine fünfzehnminütige Erklärung, warum ein chinesisches Modell mit offenem Gewicht für ihren HIPAA-Workflow geeignet ist. Diese Verteidigungsfähigkeit ist echtes Geld wert, und es ist ein Burggraben, in den die firmeneigenen Labore zu wenig investieren, weil sie ihn für selbstverständlich halten.

Wenn ich ehrlich bin, zahle ich 100 Dollar im Monat für die Gräben eins und drei. Das Modell ist nicht mehr das Produkt. Der Kabelbaum ist das Produkt, die Integrationen sind das Produkt, das Ökosystem ist das Produkt. Alles andere kann durch ein Modell mit offenem Gewicht zum 1/10th Preis nachgebildet werden.

Das ist ein grundlegend anderes Geschäft als das, das Anthropic und OpenAI im Jahr 2024 aufgebaut haben.

Was dies für Anthropic und OpenAI bedeutet

Die Grenzlabore wissen das. Wenn Sie aufmerksam sind, können Sie es an ihrer Produktstrategie erkennen.

Anthropic erzielte im März 2026 einen Jahresumsatz von 30 Milliarden US-Dollar, was einem Anstieg von etwa 1.400 % gegenüber dem Vorjahr entspricht. OpenAI liegt bei etwa 25 Milliarden US-Dollar ARR. Das sind außergewöhnliche Zahlen, aber auf die Zusammensetzung kommt es an. Ein wachsender Anteil des Umsatzes beider Unternehmen stammt aus Unternehmensverträgen und Plattformintegrationen – der Anwendungsschicht und der Compliance-Schicht – und nicht aus einzelnen API-Token-Verkäufen. Anthropic und OpenAI haben beide Anfang Mai Joint Ventures für AI-Unternehmensdienste gegründet. Bei keinem dieser Unternehmungen geht es um den Verkauf von Token. Es geht darum, Implementierungen zu verkaufen.

Der strategische Wandel liegt klar auf der Hand: Hören Sie auf, auf roher Modellintelligenz zu konkurrieren, wo die offenen Labore Sie für 1/10th des Preises vergleichen können, und beginnen Sie mit dem Wettbewerb auf der Ebene über dem Modell, wo Sie Ergebnisse statt Schlussfolgerungen in Rechnung stellen können. Claude Code ist nicht preislich wie ein Modell API. Der Preis entspricht dem eines Entwicklertools. Der Preis für Codex ist nicht mit dem des Modells API vergleichbar. Der Preis entspricht dem eines Coding-Abonnements. Was zur Ware wird, ist der Teil, der zunehmend gebündelt statt als Einzelartikel verkauft wird.

Deshalb ist auch die Bündelung wichtig. Wenn ich mit meinen 100 US-Dollar im Monat Sonnet 4.7- und Opus 4.7-Zugriff plus Claude Code plus den Agent Skills Marketplace plus MCP-Integrationen plus die Desktop-App plus Sprachmodus plus ein Dutzend anderer Dinge erwerbe, berechnet mir Anthropic keine Gebühren für das Modell. Anthropic berechnet mir das Paket, und das Modell ist der Teil des Pakets, der am wenigsten vertretbar ist. Wenn man das Paket auseinandernimmt, ist das Modell allein bei aktuellen Benchmarks mit offenem Gewicht etwa 20 US-Dollar pro Monat wert. Zerlegen Sie das Paket, und die Anwendungsschicht allein ist problemlos 80 bis 120 US-Dollar pro Monat wert. Die Bündelung ist kein Zufall. Es ist die Überlebensstrategie.

Das Risiko besteht darin, dass ein Dritter eine ausreichend gute Anwendungsschicht auf einem Open-Weight-Modell aufbaut. Das ist nicht mehr hypothetisch. OpenCode ist ein glaubwürdiger Konkurrent zu Claude Code, der auf mehreren Modell-Backends läuft. Mit dem OpenCode Go-Abonnement erhalten Sie vier parallele Agenten und Zugriff auf V4 Pro, V4 Flash und mehrere andere Open-Weight-Modelle für 5 US-Dollar im ersten Monat und 10 US-Dollar pro Monat danach. Das sind 90 % Rabatt auf einen Stack, der die meisten Funktionen von Claude Code erfüllt. Der Graben der Anwendungsschicht ist real, aber nicht unendlich. Das Open-Source-Ökosystem wird daran genauso rütteln wie an der Modellebene.

Hier wird es für die existentielle Frage interessant. Wenn Adobe – um das Beispiel zu verwenden, auf das ich immer wieder zurückkomme – einen fein abgestimmten DeepSeek V4 Pro in Photoshop verpackt und ihn als „Adobe Intelligence“ mit vollständiger Design-System-Integration und einem polierten UX ausliefert, was genau verkauft Anthropic, was ich von Adobe nicht bekommen kann? Was verkauft OpenAI, was ich von einem ähnlich motivierten Konkurrenten mit tiefem Vertrieb nicht bekommen kann? Das Modell wird unsichtbar. Für die Anwendungsschicht zahlt der Kunde. Und jedes Anwendungsunternehmen auf der Welt hat mittlerweile die Möglichkeit, seine eigene Lösung aufzubauen.

Was ich mit meinem Abonnementstapel mache

Lassen Sie mich näher darauf eingehen, was sich in meinem eigenen Umfeld ändert, denn das strategische Bild ist nur dann wichtig, wenn es tatsächlich zu einer Verhaltensänderung führt.

Ich behalte vorerst Claude Max. Der Wert der Anwendungsschicht ist real, der Designgeschmack in der Ausgabe von Opus 4.7 ist immer noch wirklich besser als alles, was ich von Open-Weight-Modellen bekommen kann, und das Agentenkompetenzsystem von Claude Code macht Dinge, die ich anderswo nicht reproduzieren kann. Aber ich beobachte die Preise genau. Wenn Anthropic die Max-Stufe erhöht oder den Wert abschwächt, führe ich ein Downgrade auf Pro durch und leite die schwere Arbeit über OpenRouter weiter.

Aus dem gleichen Grund behalte ich Codex Plus. Das 25-fache Aktionslimit bis zum 31. Mai macht den 20-Dollar-Plan derzeit zu einem absurd guten Preis-Leistungs-Verhältnis, und die Effizienz von GPT-5.5 in der Agenten-Codierungsschleife ist die beste ihrer Klasse für die Art von Backend-Arbeit, die ich mache. Nach dem 31. Mai sinken die Limits wieder auf das 5-fache und ich werde es noch einmal bewerten.

Ich erhöhe bewusst meine Ausgaben für OpenRouter und DeepSeek. Ich möchte mit dem Open-Weight-Stack so viel Betriebssicherheit haben, dass ich, wenn die proprietären Abonnements keinen Sinn mehr ergeben, den Großteil meiner Arbeitslast mit einem Wochenendaufwand umstellen kann, statt einem Viertel des Migrationsaufwands. Dabei handelt es sich um eine strategische Absicherung, nicht um eine unmittelbare Kostenoptimierung. Die Kostenoptimierung ist ein Nebeneffekt. Ich habe den kostenlosen Claude Code-Proxy-Ansatz ausführlich behandelt, wenn Sie dieselbe Fallback-Infrastruktur einrichten möchten.

Ich verwende OpenCode parallel für mindestens ein Projekt pro Monat. Nicht, weil ich Claude Code abschalte – das tue ich nicht –, sondern weil sich die Lücke zwischen den Open-Source-Coding-Agenten und den proprietären Agenten schneller schließt, als die meisten Menschen glauben, und der Tag, an dem ein Drittanbieter-Agent auf 95 % des Claude Code von Claude Code kommt, ist der Tag, an dem ein bedeutender Teil des Umsatzes von Anthropic gefährdet ist. Ich möchte wissen, wann dieser Tag ist, und ich möchte es lieber früh als spät wissen.

Ich füge keine neuen proprietären Abonnements hinzu, bis ich einen Burggraben sehe, der dies rechtfertigt. Gemini Advanced, Cursor Pro, die verschiedenen AI-Unternehmenstools – keines davon hat mir eine Anwendungsschicht gezeigt, die sich ausreichend von dem unterscheidet, was ich bereits habe. Bis sich das ändert, wird der Open-Weight-Stack jede neue Arbeitslast absorbieren, für die es keinen konkreten Grund gibt, auf einer proprietären Plattform zu leben.

Das ist die Disziplin, die ich in meinen eigenen Gebrauch einbaue. Abonnieren Sie dort, wo die Anwendungsschicht einen Wert schafft, den Sie anderswo nicht bekommen können. Zahlen Sie Token, bei denen das Modell das Einzige ist, was zählt. Führen Sie Modelle mit offenem Gewicht überall aus, wo ich kann, ohne Einbußen bei der Ausgabequalität. Und bewerten Sie den gesamten Stapel vierteljährlich neu, denn die Preis-Leistungs-Kurve bewegt sich schnell genug, dass die optimale Allokation im letzten Quartal den Mehrausgaben dieses Quartals entspricht.

Was das für Einzelentwickler und kleine Teams bedeutet

Wenn Sie Einzelentwickler sind oder ein kleines Team leiten, finden Sie hier die praktische Version.

Beginnen Sie mit einem proprietären Abonnement, nicht mit drei. Wählen Sie die Anwendungsschicht aus, in der Sie leben möchten. Für die meisten Bauherren ist das derzeit entweder Claude Code beim 20-Dollar-Pro-Plan oder Codex beim 20-Dollar-Plus-Plan. Sie brauchen nicht beides. Wählen Sie denjenigen aus, dessen UX zu Ihrer Arbeitsweise passt, verpflichten Sie sich mindestens einen Monat lang dazu und hören Sie auf, jede Woche Vergleichsshops zu betreiben.

Fügen Sie als Fallback einen einzelnen Open-Weight-Zugangspunkt hinzu. OpenRouter ist der sauberste Eintrag – ein Konto, ein API-Schlüssel, Dutzende Modelle, kostenlose Modelle für Arbeiten mit geringem Einsatz. Geben Sie 20 US-Dollar aus, um Credits aufzuladen und jede Arbeitslast, die nicht latenz- oder qualitätskritisch ist, über Kimi K2.6 oder DeepSeek V4 weiterzuleiten. Sie werden überrascht sein, wie viel von Ihrer täglichen Arbeit diesem Profil entspricht.

Nutzen Sie die Ersparnisse, um Werkzeuge zu bezahlen, die die Verbindung herstellen. Der Burggraben liegt auf der Anwendungsschicht, und dazu gehören auch Tools, die keine AI-Abonnements sind. Eine gute Observability-Plattform. Ein echter Testaufbau. Eine Vektordatenbank mit geeigneter Hybridsuche. Die Hebelwirkung, die Sie durch diese Verbindungen mit jedem Modell erzielen, das Sie verwenden, und sie verlieren nicht an Wert, wenn sich die Modellebene unter Ihnen bewegt.

Achten Sie auf die Konsolidierung. Die aktuelle Preisgestaltung ist instabil. Ich gehe davon aus, dass innerhalb von zwölf Monaten mindestens ein großes proprietäres Labor aggressiv bündelt, mindestens ein großes Anwendungsunternehmen ein glaubwürdiges vertikales AI-Produkt auf einer Open-Weight-Infrastruktur ausliefert und mindestens ein Open-Weight-Labor ein Modell veröffentlicht, das die verbleibende Lücke bei der Arbeit mit Langkontext-Agenten schließt. Wenn eines dieser Dinge passiert, verschiebt sich der optimale Abonnementstapel, und der einzige Weg, dies herauszufinden, besteht darin, genau genug aufzupassen, um neu bewerten zu können, wenn die Signale eingehen.

Wenn Sie ein Team von drei bis zehn Leuten leiten, gehen Sie anders vor. Zentralisieren Sie Ihren Modellzugriff über ein einziges Gateway – OpenRouter oder Ihre eigene Routing-Schicht –, sodass Sie Anbieter wechseln können, ohne den Anwendungscode zu berühren. Verhandeln Sie die Unternehmenspreise mit dem Labor, das Ihnen den besten Nutzen auf Anwendungsebene bietet, da die Mengenrabatte auf der proprietären Seite immer noch sinnvoll sind. Halten Sie mindestens ein Modell mit offenem Gewicht in der Produktion warm, auch wenn es nur 10 % des Datenverkehrs abwickelt. An dem Tag, an dem Sie sich darauf einlassen müssen, möchten Sie die Integrationsarbeit nicht zum ersten Mal durchführen.

Für größere Teams lautet die Antwort zunehmend, dass es sich bei dem Modell um eine Beschaffungsentscheidung und nicht um eine technische Entscheidung handelt. Die Engineering-Arbeit liegt in der Anwendungsschicht. Das ist der Teil, der Differenzierung schafft. Wer auch immer Ihre AI-Abonnemententscheidungen im Jahr 2026 trifft, sollte dieselbe Person sein, die auch Ihre Entwicklertool-Entscheidungen trifft, da die Grenze zwischen beiden praktisch verschwunden ist.

Das größere Bild

Ich glaube nicht, dass Anthropic oder OpenAI verschwinden werden. Die Unternehmen sind zu gut positioniert, die Schutzgräben auf der Anwendungsebene sind zu real und die Markenprämie ist zu wertvoll, als dass sie schnell verschwinden könnte. Aber ich denke, dass das Geschäft, das sie im Jahr 2027 betreiben, anders aussehen wird als das Geschäft, das sie heute betreiben.

Das traditionelle AI-Abonnementmodell – zahlen Sie uns eine feste monatliche Gebühr für den Zugriff auf unser Modell, und das Modell ist das Produkt – steht stark unter Druck. Im Moment funktioniert es, weil die Anwendungsschicht im Abonnement gebündelt ist und die meisten Benutzer die beiden nicht einfach trennen können. Da Open-Weight-Modelle weiterhin die Leistungslücke schließen, wird das Paket von beiden Seiten unter Druck geraten: Dritte, die konkurrierende Anwendungsschichten auf billigen Open-Weight-Modellen aufbauen, und versierte Benutzer, die Arbeitslasten an den Anbieter weiterleiten, der für eine bestimmte Aufgabe das beste Preis-Leistungs-Verhältnis bietet.

Ich denke, die Zukunft, auf die wir zusteuern, besteht aus Hunderten von Gewinnern, nicht aus zwei oder drei. Unterschiedliche Anwendungsebenen für unterschiedliche Branchen. Verschiedene Modelle mit offenem Gewicht für unterschiedliche Kostensensitivitätsprofile. Verschiedene Orchestrierungstools, die je nach Aufgabe zwischen ihnen weiterleiten. Die Grenzlabore werden weiterhin wichtig sein – sie werden weiterhin die Modelle trainieren, die die offenen Labore rekonstruieren, sie werden weiterhin die ausgefeiltesten Anwendungsschichten verkaufen, sie werden weiterhin Prämien in regulierten Branchen erzielen. Aber sie werden ein Segment eines viel größeren Marktes sein, nicht den gesamten Markt.

Das ist meiner Meinung nach eine gesündere Branche. Es ist eine wettbewerbsintensivere Branche. Es ist eine Branche, in der es darauf ankommt, was Sie auf dem Modell aufbauen, und nicht darauf, ob Sie das Modell zufällig besitzen. Und es ist eine Branche, in der der Abonnementstapel, den ich heute verwende – drei proprietäre Pläne, drei API-Schlüssel, ein halbes Dutzend Tools – innerhalb von achtzehn Monaten wie ein Artefakt einer früheren Ära aussehen wird.

Ich bezahle heute für proprietäre Abonnements, weil der Wert immer noch auf der Anwendungsschicht liegt und die proprietären Labore immer noch die besten Anwendungsschichten entwickeln. Solange das stimmt, zahle ich weiter. Aber ich baue die Kraft auf, um in dem Moment zu wechseln, in dem dies nicht der Fall ist, denn die Alternative – einen Abonnementstapel in die Obsoleszenz zu treiben, weil es sich als zu viel Arbeit anfühlte, ihn zu ändern – ist der teuerste Fehler, den ich in einem Markt machen kann, der sich so schnell bewegt.

Schauen Sie sich also Ihren eigenen Stapel an. Addieren Sie, was Sie bezahlen. Fragen Sie sich, mit welchen Abonnements Sie ein Modell und mit welchen eine Anwendungsschicht kaufen. Stornieren Sie diejenigen, die Ihnen nur ein Modell kaufen. Nutzen Sie die Ersparnisse, um diejenigen zu bezahlen, die Ihnen einen Workflow kaufen, den Sie wirklich nicht selbst aufbauen könnten. Und führen Sie parallel ein offenes Gewichtungsmodell durch, selbst wenn es nur für eine Arbeitsbelastung ist, selbst wenn es nur für einen Nachmittag in der Woche ist – denn an dem Tag, an dem die Mathematik umschlägt, möchten Sie bereits wissen, wie man in dieser Welt lebt.

Das ist die Wette, die ich mache. Das Modell wird zur Ware. Die Anwendungsschicht ist das Produkt. Und der Abonnement-Stack, den Sie am 6. Mai 2026 ausführen, ist mit ziemlicher Sicherheit nicht der Abonnement-Stack, den Sie am 6. Mai 2027 ausführen sollten.

Häufig gestellte Fragen

Lohnen sich AI-Abonnements im Jahr 2026 noch?

Ja, aber aus einem engeren Grund als noch vor zwei Jahren. Das Modell selbst ist jetzt ein Massenprodukt – Open-Weight-Optionen wie Wofür Sie bei 100 $/month tatsächlich bezahlen, ist die Anwendungsschicht: Claude Code, Wenn die Anwendungsschicht einen Wert schafft, den Sie nicht reproduzieren können, lohnt sich das Abonnement. Wenn dies nicht der Fall ist, leiten Sie stattdessen über OpenRouter weiter.

Was ist die Anwendungsschicht in AI?

Bei der Anwendungsschicht handelt es sich um alles, was sich um ein Basis-AI-Modell dreht, das daraus ein nützliches Produkt macht – die Codierungsagentennutzung, die Workflow-Integrationen, die UX-Entscheidungen, die Sicherheitsrichtlinien, die Entwicklertools, das Ökosystem von Drittanbieter-Plugins. Claude Code und Codex sind Anwendungsschichten, die auf den Modellen Claude und GPT basieren. Mit der zunehmenden Kommerzialisierung der Modellintelligenz befindet sich der dauerhafte Schutzgraben auf der Anwendungsschicht.

Wie viel spare ich wirklich bei Modellen mit offenem Gewicht?

Die Roh-Token-Kosten betragen je nach Modell und Arbeitslast etwa das 4- bis 30-fache. Claude Opus 4.7 kostet etwa 4.811 US-Dollar für die Ausführung der Artificial Analysis Intelligence Index-Suite im Vergleich zu 1.071 US-Dollar für DeepSeek V4 Pro. Eine Arbeitslast von 100 Millionen Token pro Monat beläuft sich auf Kimi K2.6 auf etwa 310 US-Dollar, im Vergleich zu über 4.000 US-Dollar auf GPT-5.4. Der Haken daran ist, dass Sie für Rohtokens bezahlen – Sie erhalten die Anwendungsschicht (Claude Code, Codex) nicht, ohne sie selbst zu erstellen oder etwas wie OpenCode zu verwenden.

Soll ich Claude Max oder Codex Plus kündigen?

Stornieren Sie nicht beides, aber wahrscheinlich brauchen Sie nicht beides. Wählen Sie die Anwendungsschicht aus, die zu Ihrer Arbeitsweise passt – Claude Max, wenn Sie Design-Forward- und Long-Form-Arbeiten erledigen, Codex Plus, wenn Sie Backend-, ML- und Datenpipeline-Arbeiten erledigen – und leiten Sie alles andere über ein Open-Weight-Modell auf OpenRouter. Die aktuelle 25-fache Codex-Aktion bis zum 31. Mai 2026 macht den 20-Dollar-Plus-Plan zu einem außergewöhnlichen Wert, wenn Codex zu Ihrem Workflow passt.

Was ist OpenRouter und wie passt es hinein?

OpenRouter ist ein einzelner API-Endpunkt, der Ihnen Zugriff auf über 300 AI-Modelle – proprietär und offen – ohne monatliche Gebühr bietet. Sie fügen Credits hinzu und zahlen pro Token zu nahezu den Rohpreisen des Anbieters. Dies ist die sauberste Möglichkeit, auf Open-Weight-Modelle zurückzugreifen, ohne mehrere API-Schlüssel verwalten zu müssen, und die kostenlose Stufe (begrenzt auf 20 Anfragen pro Minute, 200 pro Tag) reicht für Batch-Arbeiten mit geringem Einsatz aus. Ich verwende es als Routing-Ebene hinter jedem Workload, der nicht auf einer proprietären Plattform laufen muss.

Lasst uns zusammenarbeiten

Möchten Sie AI-Systeme aufbauen, Arbeitsabläufe automatisieren oder Ihre technische Infrastruktur skalieren? Ich würde gerne helfen.

Fiverr (benutzerdefinierte Builds und Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Unternehmenslösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io

Warum KI-Abos bald zur Massenware werden