Codex vs. Claude Code: Warum ich 80 % meiner Arbeit verschoben habe

Ich wollte gerade mein Claude Max-Abonnement an einem Dienstagmorgen verlängern, als die OpenAI-Ankündigung auf meiner Timeline landete. 9. April 2026. Eine neue Codex-Stufe für 100 US-Dollar pro Monat mit der fünffachen Nutzung des 20-Dollar-Plans, Zugriff auf das ChatGPT Pro-Modell und einem Startfenster-Bonus, der die Nutzung bis zum 31. Mai auf das Zehnfache erhöht. Ich starrte etwa vierzehn Sekunden lang auf die Verlängerungsseite, schloss die Registerkarte und öffnete stattdessen meine Codex-Einstellungen.

Das war vor zwei Tagen. Seitdem führe ich beide Abonnements parallel für dieselben Projekte aus – einen Laravel-Refactor, ein Next.js-Dashboard für einen Kunden und eine Python-ML-Pipeline, die mir seit Wochen Kummer bereitet. Gleiche Aufforderungen. Gleiche Codebasen. Gleiche Fristen. Ich wollte anhand tatsächlicher Belege wissen, ob sich das Gespräch zwischen Codex und Claude Code wirklich verschoben hat oder ob dies ein weiterer Preistrick war.

Es hat sich wirklich verändert. Und zwar nicht im Kleinen.

Ich werde Ihnen die fünf spezifischen Gründe erläutern, warum ich jetzt etwa 80 % meiner Codierungsarbeit Codex widme. Einiges davon wird Claude Code gegenüber hart klingen, über den ich ausführlich geschrieben habe und den ich immer noch enorm respektiere. Aber meine Aufgabe hier ist es nicht, diplomatisch zu sein – es geht darum, Ihnen zu erzählen, was tatsächlich passiert ist, als ich diese beiden Abonnements gegeneinander antrat, wobei echtes Geld und echte Fristen auf dem Spiel standen. Wenn Sie nur über ein Budget für ein AI-Coding-Abonnement im April 2026 verfügen, wäre dies der Beitrag, von dem ich wünschte, dass jemand ihn am Tag der Einführung des Pro-Plans veröffentlicht hätte.

Der 100-Dollar-Plan, der die Mathematik veränderte

Beginnen wir mit den Nachrichten, die die Pattsituation beendeten. Am 9. April 2026 führte OpenAI eine neue ChatGPT Pro-Stufe für 100 US-Dollar pro Monat ein – eine Zwischenstufe zwischen dem 20-Dollar-Plus-Plan und der 200-Dollar-Ultra-Stufe, die die meisten von uns nie berührt haben. Alle glaubwürdigen Anbieter von TechCrunch bis CNBC formulierten es auf die gleiche Weise: Dies ist OpenAI, das direkt darauf abzielt Anthropics 100-Dollar-Claude-Max-Stufe.

Folgendes beinhaltet der neue Codex-100-Dollar-Plan:

5-fache Codex-Nutzung des 20-Dollar-Plus-Plans – die tatsächliche Sitzungskapazität, die die meisten Power-User benötigen
Zugriff auf das ChatGPT Pro-Modell (zuvor hinter der 200-Dollar-Stufe beschränkt)
Unbegrenzte Nutzung des Instant- und Thinking-Modells
Bis zum 31. Mai 2026: eine vorübergehende 10-fache Steigerung der Codex-Nutzung gegenüber der Plus-Stufe – wodurch der Standardvorteil während des Startfensters effektiv verdoppelt wird

Lesen Sie den letzten Punkt noch einmal. In den nächsten sechs Wochen erhält jeder, der den neuen 100-Dollar-Plan nutzt, das Zehnfache der Codex-Nutzung im Vergleich zum 20-Dollar-Plan. Das ist kein Marketing-Rundungsfehler – das bedeutet, dass OpenAI Early Adopters eine echte Startbahn bietet, um ihre Arbeitsabläufe umzustellen, bevor die Stützräder abfallen.

Was ist derzeit das 100-Dollar-Angebot von Claude Code? Das ist der Teil, der mich dazu veranlasst hat, meinen Verlängerungs-Tab zu schließen.

Grund 1: Die Lücke in der Modellqualität ist real – und sie liegt nicht dort, wo Sie denken

Jede Benchmark-Tabelle, die Sie zum Vergleich von GPT 5.4 und Claude Opus 4.6 gesehen haben, konzentriert sich auf dieselben fünf oder sechs Tests. SWE-Bank. HumanEval. Terminalbank. Ich habe diese Zahlen im Detail behandelt, als ich beide Modelle in realen Projekten einem Stresstest unterzogen habe, und die Kurzfassung lautet: GPT 5.4 gewinnt die meisten Coding-Benchmarks, Opus 4.6 gewinnt die meisten Reasoning-Benchmarks, und das Gesamtbild ist chaotischer, als jede Bestenliste vermuten lässt.

Aber Folgendes wurde mir erst richtig bewusst, als ich diese Abonnements nebeneinander betrieb: Die Benchmark-Lücke verdeutlicht, wie viel besser GPT 5.4 bei den Aufgaben ist, bei denen das meiste echte Geld ausgegeben wird.

Ich spreche von den langweiligen Dingen, bei denen viel auf dem Spiel steht. Die ML-Pipeline-Refaktoren. Die Datenbankmigrationsskripte. Die Stripe-Webhook-Handler, die beim ersten Mal korrekt sein müssen, da ein stiller Fehler Sie tatsächlich Geld kostet. Die serverseitige Arbeit, bei der „meistens richtig“ und „eigentlich richtig“ auf gegenüberliegenden Seiten einer 3-Uhr-Vorfallseite leben.

Ich habe einen speziellen Test für meine Python-ML-Pipeline durchgeführt. Es handelt sich um einen Umschulungsablauf mit etwa 1.400 Zeilen für Datenaufnahme, Feature-Engineering, Modelltraining und eine Berichtsschicht. Ich habe beiden Modellen die gleiche Frage gestellt: „Überprüfen Sie diese Pipeline auf Stellen, an denen ein stiller Fehler den Trainingsdatensatz beschädigen könnte, ohne eine Ausnahme auszulösen.“

Opus 4.6 gab mir in etwa 90 Sekunden eine nachdenkliche Antwort. Fünf mögliche Probleme. Zwei waren echt. Drei waren theoretische Randfälle, bei denen ich überprüfen konnte, dass sie nicht durch meine tatsächliche Datenform ausgelöst wurden. Gute Arbeit. Die Art von Reaktion, die ich schon seit Monaten bekam und mit der ich einigermaßen zufrieden war.

GPT 5.4 dauerte etwa 2 Minuten und 40 Sekunden. Kam mit elf Ausgaben zurück. Acht davon waren echt. Einer davon war ein Pandas-Aufruf „fillna()“, der stillschweigend eine kategoriale Spalte dazu zwang, unter bestimmten Bedingungen zu schweben, auf die ich beim Testen nie gestoßen war, die ich aber definitiv in der Produktion treffen würde. Ich habe diese Pipeline sechs Wochen lang betrieben. Ich hätte diesen Fehler in etwa drei Monaten auf die harte Tour entdeckt, als das Modell anfing, donnerstags Müllvorhersagen zu erstellen.

Mit diesem einen Fang wurde das 100-Dollar-Abonnement für das nächste Jahr bezahlt.

Das Muster wiederholte sich in meinem Laravel-Refaktor. GPT 5.4 war pro Antwort langsamer, aber auf eine wirklich wichtige Weise erschöpfend. Es würde Randfälle prüfen, die ich nicht erwähnt hatte. Es würde auffallen, wenn mein vorgeschlagener Refactor einen Vertrag drei Dateien weiter brach. Es würde die Sache markieren, über die ich nicht nachdenken wollte, weil die ordnungsgemäße Lösung das Berühren von Code erfordern würde, den ich nicht berühren wollte.

Glaubwürdige Praktiker, denen ich meine Aufmerksamkeit schenke – Pete Steinberger und Yacine, der ehemalige Stripe-Ingenieur – haben in den letzten Monaten beide öffentlich die Zuverlässigkeit und Gründlichkeit von Codex bestätigt. Damals habe ich diese Empfehlungen unter „Interessant, aber nicht genug für einen Wechsel“ abgelegt. Nach drei Wochen direkter Tests verstehe ich, was sie sahen.

Hier gewinnt Claude Code immer noch, und ich möchte das klarstellen, weil es wichtig ist: UI-Arbeit, Typografieentscheidungen und langes Schreiben. Wenn ich eine Marketing-Landingpage erstelle, hat die Ausgabe von Opus 4.6 ein Geschmacksniveau, das GPT 5.4 nicht erreicht hat. Wenn ich technische Dokumentation schreibe oder Prosa für einen Blogbeitrag verfasse, liest sich Opus 4.6 menschlicher. Für designorientierte Frontend-Arbeiten greife ich immer noch zuerst zu Claude Code.

Aber das ist ein knapperer Sieg als früher. Und für die 80 % meiner Woche, die Backend-Logik, Datenpipelines und Serverinfrastruktur betreffen? GPT 5.4 ist wirklich messbar besser darin, die Fehler zu erkennen, die echtes Geld kosten.

Kimi K3 Review: Moonshot's 2.8T Open Model, Tested

Kimi K3 Review: Moonshot's 2.8T Open Model, Tested A model I couldn't download beat Claude Fable 5 on a public leaderboa...

GPT-5.6 vs Grok 4.5 vs Fable 5: Der Kreative Test

GPT-5.6 vs Grok 4.5 vs Fable 5: Der Kreativtest Das Modell, das diesen Vergleich angeblich gewonnen hat, existiert nicht...

KI-Modelle und Robotik 2026: Das Rennen Hat Sich Geteilt

KI-Modelle und Robotik 2026: Das Rennen hat sich gerade geteilt Die Zahl, die mich letzte Woche innehalten ließ, war kei...

Codex vs. Claude Code: Warum ich 80 % meiner Arbeit verschoben habe