OpenAI Codex vs Claude Code: Ich habe beide getestet. Hier ist die Wahrheit

Ich hatte am Dienstagmorgen eine Lücke im Kalender und eine Frage, die ich nicht länger ignorieren konnte. Jedes Mal, wenn mich jemand fragte, für welches agentische Coding-Tool man 2026 tatsächlich bezahlen sollte, hatte ich eine vage „kommt auf deinen Workflow an"-Antwort gegeben, von der ich wusste, dass sie faul war. Also räumte ich den Morgen frei, öffnete zwei Terminals, loggte mich sowohl in mein Anthropic Max-Konto als auch in meinen OpenAI ChatGPT Pro-Plan ein und ließ dieselben drei Jobs nacheinander durch beide Stacks laufen.

Drei Aufgaben. Ein Forschungsbericht formatiert als PDF. Eine Marketing-Landingpage für ein fiktives SaaS-Produkt. Ein Analytics-Dashboard für dasselbe Produkt. Nichts Exotisches — das sind die Jobs, die ich in jeder beliebigen Woche für Kunden annehme. Die Art von Arbeit, bei der ein Freelancer mit einem funktionierenden agentischen Stack vor dem Mittagessen liefert und einer ohne erst nächsten Dienstag.

Was ich erwartet hatte: Claude Code würde bei der UI-Politur gewinnen, Codex bei strukturierten Dokumenten, und der Vergleich würde irgendwo bei „nutze beide je nach Job" enden. Was ich tatsächlich bekam, war ein deutlich schärferes Bild — einschließlich eines Moments, etwa bei der 14. Minute des Dashboard-Builds, als ich den Test fast abgebrochen hätte, weil ich nicht glaubte, was der Timer mir zeigte.

Bleib bis zum Dashboard-Abschnitt dran. Dort hat sich das Gesamtbild dieses Vergleichs scharf gestellt.

Was jedes Tool im Mai 2026 tatsächlich ist

Bevor ich zu den Durchläufen komme, musst du verstehen, was tatsächlich in jeder Box steckt, denn beide Produkte wurden im letzten Quartal substanziell aufgerüstet und viele der „ich hab es vor sechs Monaten ausprobiert"-Meinungen, die kursieren, sind jetzt überholt.

Claude Code (Anthropic) ist das agentische Coding-Tool, in dem ich das letzte Jahr gelebt habe. Stand diesen Monat läuft es auf vier Oberflächen: einer Terminal-CLI, einer VS Code-Extension, einer Desktop-App für Mac und Windows und einer Webversion in Research Preview. Unter der Haube schaltet es zwischen drei Modellen — Opus 4.7 für schwere Planung und Codegenerierung, Sonnet für schnelle Iteration, Haiku für günstiges Sub-Agent-Arbeit. Die Anpassungsschicht ist, wo es seinen Wert verdient: 30 Hook-Events, die du in den Lebenszyklus einklinken kannst, auto-delegierende Sub-Agents, die sich abspalten, ohne dass du sie beaufsichtigen musst, Slash-Befehle wie /ultraplan, /ultrareview und /loop für strukturierte Workflows, plus das Claude Agent SDK in Python und TypeScript, wenn du das in deine eigenen Produkte einbetten willst. Auf der Enterprise-Seite ist es über Amazon Bedrock, Google Vertex AI und Microsoft Foundry einsetzbar — was bedeutet, dass ein Fortune-500-Sicherheitsteam es innerhalb ihres bestehenden Cloud-Vertrags platzieren kann, ohne einen Beschaffungskrieg.

OpenAI Codex ist die neu aufgebaute Version. Die Version, die ich vor achtzehn Monaten benutzt habe, ist nicht die Version, die ich heute reviewe. Es wird jetzt auch auf vier Oberflächen ausgeliefert — Terminal, Desktop, VS Code und eine Cloud-Version auf chat.openai.com/codex, die Sandbox-Sessions laufen lässt, denen du Arbeit übergeben und weggehen kannst. Es nutzt die GPT-Familie plus die dedizierten GPT-Codex- und GPT-Codex-Spark-Varianten (Spark ist in Research Preview). Die wichtigsten Neuerungen dieser Generation sind nativer Git-Worktree-Support, damit mehrere Agents parallel auf verschiedenen Branches arbeiten können ohne sich gegenseitig zu stören, ein In-App-Browser mit Inline-Kommentaren für Design-Reviews, robuste Computer-Use-Fähigkeiten für QA-Arbeit und eine GitHub-Integration, bei der du @Codex in einem PR erwähnst und eine Cloud-Sandbox automatisch hochfährt, um ihn zu reviewen. Es gibt einen experimentellen /goal-Befehl für langfristige Multi-Tool-Jobs, und GPT Image 2 ist direkt in den Desktop eingebaut, sodass du Hero-Bilder generieren kannst, ohne das Tool zu verlassen. Die Preise sind mit jedem ChatGPT-Plan gebündelt, einschließlich der kostenlosen Stufe.

Dieser letzte Satz ist wichtig, weil er die Rechnung für viele Leute verändert. Keines der Tools benötigt einen separaten API-Key. Claude Code ist in den Anthropic Pro ($20/Monat), Max 5X ($100/Monat) und Max 20X ($200/Monat)-Plänen enthalten. Codex ist mit ChatGPT Free, Plus ($20/Monat) und Pro ($200/Monat) enthalten — wobei Pro effektiv unbegrenzte Nutzung bedeutet und eine aktuelle Aktion auf der $100-Stufe die Codex-Nutzung bis zum 31. Mai verdoppelt. Wenn du bereits für einen der Consumer-Pläne zahlst, hast du bereits Zugang. Das ist eine andere Gleichung als vor einem Jahr, als beide API-gemessene Spezialwerkzeuge waren.

Hier ist die Gegenüberstellung der Features, bevor wir zu den tatsächlichen Tests kommen.

Feature	Claude Code	Codex
Hook-Events	30	~6
Sub-Agents	Auto-delegierend	Expliziter Aufruf
Workflow-Form	Anpassbar, workflow-fokussiert	Einheitliche End-to-End-Lieferung
Plattformen	Terminal, VS Code, Desktop, Web	Terminal, VS Code, Desktop, Cloud
Modelle	Opus, Sonnet, Haiku	GPT-Familie + GPT-Codex, GPT-Codex-Spark
In-App-Browser	Nein (Claude in Chrome Extension)	Ja, in Desktop eingebaut
Computer-Use QA	Begrenzt First-Party	Ausgereifte Bugerkennung & -Triage
GitHub-Integration	PR-Reviews, keine native Sandbox	@Codex-Erwähnung → Cloud-Sandbox
Langfristiges Ziel	Multi-Tool-Verknüpfung	Experimentelles /goal
Bildgenerierung	Keine (Third-Party)	Eingebautes GPT Image 2
Enterprise-Hosting	Bedrock, Vertex, Foundry	Nicht spezifiziert

Wenn du diese Tabelle liest, würdest du erwarten, dass sich die Produkte sehr unterschiedlich anfühlen. Tun sie auch. Aber nicht auf die Arten, die man allein aus den Aufzählungspunkten vorhersagen würde, weshalb ich die Arbeit tatsächlich durchführen musste.

Der Testaufbau und warum diese drei Jobs

Ich habe die drei Aufgaben bewusst gewählt. Jede beansprucht einen anderen Muskel.

Der Forschungsbericht testet strukturierte Dokumentenerstellung — Langform-Texte mit Zitaten, formatierte Ausgabe und ein finales PDF-Rendering. Das ist der Job, den die meisten Freelancer unterschätzen. Es sieht aus wie „schreib einfach ein Dokument", erfordert aber tatsächlich, dass das Modell eine Struktur plant, dutzende Quellen im Arbeitsgedächtnis hält und etwas produziert, das ein zahlender Kunde ohne Überarbeitung akzeptieren würde. Ich bat beide Tools um einen 20-seitigen Bericht über den Stand agentischer Coding-Tools im Mai 2026, formatiert als PDF mit Deckblatt, Inhaltsverzeichnis, Zitaten und einem Abschnitt über Marktkonsolidierungs-Prognosen.

Die Landingpage testet Frontend-UI-Generierung mit Markenqualität. Das ist der Job, der vor achtzehn Monaten gute Modelle von beeindruckenden trennte und jetzt beeindruckende von produktionsreifen. Ich bat um eine Landingpage für ein fiktives Produkt namens „Throughline" — ein KI-Meeting-Zusammenfassungs-Tool — mit einer Hero-Sektion, drei Feature-Blöcken, einer Social-Proof-Reihe, einem Preisbereich und einem Footer. Kein Design-System vorgegeben. Das Modell musste Geschmacksentscheidungen treffen.

Das Marketing-Analytics-Dashboard testet den schwierigsten Job der drei: ein vollständiges interaktives Frontend mit Charts, Filtern, State-Management und realistisch aussehenden Daten. Ich bat um ein Throughline-Analytics-Dashboard mit wöchentlichem Meeting-Volumen, Zusammenfassungs-Engagement-Raten, einem Suchpanel, einem Leaderboard und einer Einstellungsschublade. Mehrere Komponenten, echte Interaktivität, die Art von Build, für die ich 4-6 Stunden Senior-Frontend-Zeit anbieten würde.

Derselbe Prompt an beide. Derselbe Ausgangszustand. Derselbe Rechner. Ich protokollierte Token-Verbrauch, Wanduhrzeit, Output-Qualität und die Anzahl der Male, die ich eingreifen musste, um den Agent loszueisen.

Aufgabe eins: Der Forschungsbericht

Ich startete beide Durchläufe im selben Moment, indem ich sie in parallelen Terminals auslöste. Claude Code links, Codex rechts.

Codex zog in der Planungsphase sofort davon. Der /goal-Befehl bei Codex nahm den Prompt auf, zerlegte ihn in eine Recherche-Gliederung mit acht Unterthemen, startete Websuchen nach aktuellen Quellen und begann innerhalb der ersten neunzig Sekunden Abschnitte zu füllen. Die Struktur, die er vorab erstellte, war straff — die Art von Gliederung, die ich selbst schreiben würde, wenn ich dreißig Minuten hätte, um über den Bericht nachzudenken.

Claude Code hingegen eröffnete mit einem Planungsgespräch. Es bat mich, die Zielgruppe zu klären (CTO-Käufer vs. Entwickler), den Zitierstil (akademisch vs. Blog-Stil) und ob der Prognosen-Abschnitt konservativ oder spekulativ sein sollte. Nützliche Fragen — und genau das, wofür /ultraplan konzipiert ist — aber sie kosteten mich etwa drei Minuten Input, die ich nicht eingeplant hatte. Einmal abgestimmt, ging Claude bei jeder Sektion tief mit längeren Absätzen, mehr Übergängen und mehr rhetorischer Struktur.

Die fertigen Ergebnisse sahen auf aufschlussreiche Weise unterschiedlich aus. Der Codex-Bericht umfasste 19 Seiten, war zitatlastig mit 34 Quellen und las sich wie ein McKinsey-Briefing — kurze Absätze, klare Überschriften, dichte Aufzählungspunkte, ein Executive Summary am Anfang. Der Claude-Bericht umfasste 26 Seiten, hatte weniger Quellen (22) und las sich wie ein Langform-Essay — fließende Absätze, narrative Bögen, weniger Aufzählungspunkte. Beide waren wirklich gut. Sie waren einfach für verschiedene Lesekontexte optimiert.

Zeit: Codex war in 7 Minuten und 22 Sekunden fertig. Claude Code in 11 Minuten und 4 Sekunden.

Tokens: Codex verbrauchte etwa 1,8M Tokens. Claude verbrauchte etwa 3,1M, wobei das größere Budget vollständig von längeren Output-Abschnitten kam. Dieselbe Aufgabe, sehr unterschiedliches Output-Volumen.

PDF-Rendering: Hier bemerkte ich die erste Abweichung, die ich nicht vorhergesagt hatte. Codex leitete die Ausgabe direkt durch seinen eingebauten PDF-Generierungsfluss und lieferte mir eine fertige Datei. Claude Code schrieb das Markdown, generierte dann einen Pandoc-Befehl und brauchte mich dann, um einen System-Prompt über die Installation fehlender Abhängigkeiten zu bestätigen. Schneller für Codex auf der letzten Meile, um vielleicht 90 Sekunden.

Wenn deine Woche viele kundenorientierte Berichte umfasst — Quartalsübersichten, Marktanalysen, Audit-Zusammenfassungen — dann zählt diese PDF-Pipeline mehr als die zugrundeliegende Schreibqualität. Die Codex-Rundreise von „Ich brauche einen Bericht über X" zu „hier ist die PDF in deinem Download-Ordner" ist heute materiell kürzer. Ich notierte das für mich und machte weiter.

Aufgabe zwei: Die Landingpage für Throughline

Claude Code holte sich hier seinen ersten klaren Sieg, und er war nicht subtil.

Ich gab beiden Tools denselben Prompt: baue eine Marketing-Landingpage für Throughline, ein KI-Meeting-Zusammenfassungs-Tool, mit einer Hero-Sektion, drei Feature-Blöcken, einer Testimonials/Social-Proof-Reihe, einem Preisbereich und einem Footer. Verwende Tailwind. Lass es aussehen wie die Art von Seite, die man von einem Series-A-SaaS-Unternehmen sehen würde.

Codex lieferte eine funktionierende Seite in 4 Minuten und 11 Sekunden. Die Struktur war korrekt, alle Abschnitte vorhanden, der Text passabel. Die visuelle Sprache war — und ich bin hier fair — kompetent. Es sah aus wie ein 2023-SaaS-Template. Zentrierte Hero mit Gradient-Hintergrund, dreispaltige Feature-Reihe mit Icons, eine generische Preistabelle. Nichts falsch daran. Nichts Einprägsames daran.

Claude Code brauchte 6 Minuten und 38 Sekunden. Dann machte es noch 90 Sekunden Feinschliff weiter. Das Ergebnis war eine andere Kategorie von Output. Die Hero-Sektion hatte asymmetrische Typografie mit einem Lowercase-Wordmark, der Gradient war ein Noise-texturierter Radial, den ich tatsächlich behalten würde, die Feature-Abschnitte nutzten abwechselnde Bild-links/Bild-rechts-Layouts mit subtilen Parallax-Andeutungen, die Social-Proof-Reihe nutzte ein Marquee von Logos, das beim Hover scrollte, und der Preisbereich hatte eine „Beliebteste"-Stufe mit einer weichen Schattenerhebung, die aus der tatsächlichen Markenpalette kam statt einer generischen Akzentfarbe.

Ich übertreibe nicht, wenn ich sage, dass ich den Claude Code-Output ohne Überarbeitung an einen Kunden senden würde. Den Codex-Output würde ich vorher eine halbe Stunde überarbeiten.

Das deckt sich mit allem, was ich über die Design-Instinkte von Opus 4.7 geschrieben habe in der Opus 4.7 vs GPT 5.4 vs Gemini 3 Pro-Aufschlüsselung. Wenn die Aufgabe Geschmacksentscheidungen über visuelle Hierarchie, Farbe, Bewegung und Rhythmus beinhaltet — ist Claude Code noch immer der Spitzenreiter in dieser Generation. Es ist nicht einmal ein knappes Rennen beim reinen ästhetischen Output.

Aber hier ist der Punkt, den ich markieren möchte: Claude Code verbrannte fast doppelt so viele Tokens. Etwa 1,4M Tokens versus Codex' 780k. Wenn du kostensensibel bist und der Output-Qualitätsunterschied sich nicht in Kundenerlösen widerspiegelt, ist Codex die rationale Wahl. Wenn du Kunden echtes Geld für Landingpages in Rechnung stellst und der visuelle Unterschied sich in Conversion-Raten zeigt, ist Claude Codes Aufpreis gerechtfertigt.

Aufgabe drei: Das Dashboard, und der Moment, als ich den Test fast abbrach

Ich reihte den Analytics-Dashboard-Build ein und erwartete, dass er die längste Aufgabe der drei sein würde. Ich lag falsch darüber, welches Tool mich überraschen würde.

Claude Code wurde mit dem Dashboard in 2 Minuten und 4 Sekunden fertig.

Ich schaute mir den Timer erneut an, um sicherzugehen, dass ich mich nicht verlesen hatte. Zwei Minuten. Vom Prompt zum funktionierenden interaktiven Dashboard mit wöchentlichem Meeting-Volumen-Chart, Zusammenfassungs-Engagement-Panel, Suchbox, Leaderboard und Einstellungsschublade. Die Daten waren synthetisch aber realistisch. Die Charts renderten beim ersten Laden sauber. Die Filterlogik funktionierte. State persistierte über den Schubladen-Toggle.

Der Token-Verbrauch war der Teil, der mein mentales Modell sprengte. Claude Code verbrauchte etwa 283.000 Tokens für das gesamte Dashboard. Zwei Minuten, 283k Tokens, funktionierendes Dashboard.

Codex brauchte 8 Minuten und 11 Sekunden und verbrauchte etwa 1,64M Tokens für ein wohl gleichwertiges Dashboard. Der Output war gut — voll funktionsfähig, saubere Komponentenstruktur, vernünftiges State-Management. Aber sowohl die Laufzeit- als auch die Token-Lücke bei dieser spezifischen Aufgabe waren größer als alles, was ich zuvor zwischen diesen Tools gesehen habe.

Ich möchte hier vorsichtig sein, denn eine Aufgabe ist noch kein Trend. Aber das Muster, das ich über die drei Jobs hinweg beobachtete, ist es wert, benannt zu werden: Claude Code ist dramatisch schneller bei schweren Frontend-Builds und dramatisch langsamer bei langen strukturierten Dokumenten. Codex kehrt das um. Sie konvergieren nicht zu einem einzigen „besten agentischen Coder" — sie spezialisieren sich in entgegengesetzte Richtungen.

Hier haben auch die /ultraplan- und /ultrareview-Befehle ihren Platz am Tisch verdient. Vor dem Dashboard-Build ließ ich /ultraplan auf dem Prompt laufen. Der Plan, der zurückkam, zerlegte den Build in eine Layout-Hülle, eine Datenschicht mit simulierten Zeitreihen, vier Chart-Komponenten, einen Filter-Store und ein Einstellungspanel — und notierte explizit, welche Teile an Sonnet-Sub-Agents delegiert werden sollten, um Opus auf die Orchestrierung fokussiert zu halten. Diese Auto-Delegation ist der Hauptgrund, warum die Laufzeit einbrach. Fünf Sub-Agents arbeiteten parallel an isolierten Komponenten-Bereichen, wobei Opus das Ergebnis zusammenfügte. Codex' /goal-Befehl macht etwas Ähnliches im Geist, aber die Sub-Agent-Verteilung ist nicht so automatisch — man neigt dazu, mehr zu lenken.

Wenn deine Woche viele Dashboards, interne Tools, Admin-Panels oder jede Art von interaktivem Frontend-Build umfasst, ist dies, wo Claude Codes auto-delegierende Sub-Agent-Architektur sich in buchstäblichen Minuten deines Lebens auszahlt.

Die Gesamtzahlen über alle drei Aufgaben

Nach Abschluss der drei Durchläufe ließ ich den Staub sich setzen und zog die Gesamtwerte.

Metrik	Claude Code (Opus 4.7)	Codex (GPT-5.5)
Kontextfenster	Bis zu 1.000.000 Tokens	~256.000 Tokens
Gesamtlaufzeit (3 Aufgaben)	~15 Min.	~26 Min.
Token-Verbrauch (3 Aufgaben)	~6M	~6M
Dashboard-Build	2 Min., ~283k Tokens	8 Min., ~1,64M Tokens
Bericht + Landing	Langsamer	Schneller
Output-Token-Volumen	2-5x höher	Knapper
Kosteneffizienz	Höhere Kosten (mehr Output)	Kosteneffizienter

Der Gesamt-Token-Verbrauch über die drei Aufgaben landete fast identisch bei rund 6M Tokens jeweils. Aber die Verteilung über die Aufgaben war invertiert. Claude Code gab mehr für Dokumente aus, weniger für UI. Codex gab mehr für UI aus, weniger für Dokumente. Das Aggregat war gleich. Das erlebte Erlebnis war völlig anders je nachdem, welche Aufgabe man gerade bearbeitete.

Bei der Wanduhrzeit machte Claude Code die Suite in etwa 15 Minuten fertig. Codex brauchte etwa 26 Minuten. Das ist eine 11-Minuten-Lücke, was ungefähr dem Unterschied zwischen „ich warte am Schreibtisch" und „ich hole Kaffee und komme zurück" entspricht. Bei jeder einzelnen Aufgabe kann es kippen — Codex gewann den Bericht mit vier Minuten, Claude gewann das Dashboard mit sechs Minuten — aber im Aggregat lieferte Claude Code die Suite schneller.

Bei der Kosteneffizienz ist Codex der diszipliniertere Operator. Er produziert knapperen Output, läuft bei einfacheren Aufgaben weniger in Sackgassen und bringt den Ball mit weniger Tokens pro Werteinheit ins Tor. Claude Codes Output ist im Durchschnitt 2-5x länger — manchmal übersetzt sich das in materielle Qualität (die Landingpage), manchmal ist es einfach wortreich (der Forschungsbericht). Wenn deine Rechnung nach Token-Verbrauch abgerechnet wird und deine Käufer keinen Aufschlag für wortreichen Output zahlen, ist Codex der günstigere Motor pro fertigem Job.

Der Unterschied beim Kontextfenster ist real, aber weniger wirkungsvoll als erwartet. Claude Codes 1M-Token-Fenster ist wichtig, wenn du ein ganzes Monorepo dem Agent vorwirfst und ihn bittest, dateiübergreifend zu refactoren — ich habe es genau dafür genutzt und es ist transformativ. Für die drei Aufgaben in diesem Test traf keines der Tools an eine Kontextmauer. 256k reichte für alles. Wenn du kein Ganzcodebase-Reasoning machst, ist die 1M-Zahl ein Datenblatt-Punkt, kein Workflow-Vorteil.

Wo jedes mein Vertrauen verdient hat (und wo nicht)

Ich schreibe das in Klartext, weil die Aufzählungs-Version wie jeder andere KI-Tool-Vergleich liest und du die schon kennst.

Claude Code hat mein Vertrauen bei schwerem Frontend-Arbeit, tiefer Planung und jedem Job verdient, bei dem Output-Qualität mit Token-Ausgaben skaliert. Die Landingpage war nicht nur hübscher — sie war besser auf eine Weise, die sich in Kundenerlöse übersetzen würde. Das Dashboard war nicht nur schneller — das Auto-Delegations-Muster ist die Art von architektonischem Vorteil, der sich über eine Arbeitswoche vervielfacht. Wenn du irgendeine Art von benutzerdefiniertem Workflow mit Claude Code Hooks schreibst, wenn du Agents über das Agent SDK in deine eigenen Produkte einbettest, wenn du auf Strategieebene brainstormst und zuerst einen Denkpartner und dann einen Codierpartner brauchst, dann ist Claude Code, wo ich anfangen würde.

Es hat mein Vertrauen auf der letzten Meile strukturierter Dokumente nicht verdient. Die PDF-Pipeline erfordert immer noch, dass ich Pandoc-Pfade und Abhängigkeitsinstallationen häufiger bestätige, als mir lieb ist.

Codex hat mein Vertrauen bei forschungsschweren strukturierten Dokumenten, End-to-End-Lieferung und jedem Workflow verdient, der GitHub berührt. Die @Codex GitHub-Integration verdient ihren eigenen Absatz: Ich tagte Codex in einem PR-Review in meinem eigenen Repo während des Testfensters, ging weg und kam zu einem durchdachten Review mit Zeile-für-Zeile-Kommentaren und drei Bearbeitungsvorschlägen zurück. Cloud-Sandbox fuhr automatisch hoch. Kein Setup. Dieser Workflow allein ist das Plus-Abo wert für jeden, der mehr als zwei Repos betreibt. Der native Git-Worktree-Support bedeutet, dass ich mehrere Codex-Sessions auf parallelen Branches laufen lassen kann, ohne Konflikte — ein Workflow, den ich zuvor manuell mit Claude Code Git Worktrees gebaut hatte und den Codex jetzt als First-Class-Primitiv liefert.

Der In-App-Browser mit Inline-Kommentaren ist das Feature, von dem ich dachte, es würde mich nicht interessieren, und auf das ich jetzt nicht mehr verzichten will. Wenn ich ein Design oder eine veröffentlichte Seite reviewe, spart die Möglichkeit, einen Abschnitt im Browser zu markieren und einen Kommentar hinzuzufügen, den der Agent als Kontext aufnimmt, zwanzig Kontextwechsel pro Tag.

Es hat mein Vertrauen bei visueller Politur nicht verdient. Der Landingpage-Output war in Ordnung. In Ordnung ist nicht, was ich verkaufe. Für UI-Arbeit, die nach Ästhetik beurteilt wird, würde ich denselben Prompt durch Claude Code laufen lassen und den Codex-Output als Referenz nutzen.

Die Computer-Use-QA-Fähigkeit ist wirklich stark. Ich bat Codex, Bugs in der Landingpage zu finden, die es gerade gebaut hatte, und es fand einen kaputten Ankerlink und einen CTA-Hover-State, der auf Mobile nicht triggerte. Claude Code kann ähnliche Arbeit über externe Tools leisten, aber es ist nicht so poliert oder so schnell wie Codex' First-Party-Computer-Use-Flow.

Der eingebaute GPT Image 2-Generator ist die Art von Sache, die klein klingt, bis man sie braucht. Ein Hero-Bild für die Throughline-Landingpage zu generieren brauchte einen Prompt und blieb innerhalb der Codex-Session. Mit Claude Code ist das ein separater Ausflug zu einem Third-Party-Bildtool und ein Copy-Paste zurück. Kleine Workflow-Steuer, aber sie addiert sich.

Die Abo-Rechnung und ein Hinweis zu Anthropics Einschränkungen

Die Preisgestaltung ist, wo ich für jeden eine Markierung setzen möchte, der eine Kaufentscheidung trifft.

Claude Code Pro kostet $20/Monat. Max 5X $100/Monat. Max 20X $200/Monat. Die Max-Stufen kaufen dir mehr Nutzungskontingent und Prioritätszugang zu Opus in Spitzenzeiten. Wenn du Claude Code als dein primäres Coding-Tool fünf Tage die Woche nutzt, ist Max 5X das Minimum — du wirst die Pro-Stufen-Limits innerhalb von zwei Tagen intensiver Arbeit erreichen.

Codex ist mit der kostenlosen ChatGPT-Stufe (begrenzte Nutzung), Plus für $20/Monat und Pro für $200/Monat enthalten, wobei die Nutzung bei Pro praktisch unbegrenzt ist. Die aktuelle Aktion auf einer $100-Stufe verdoppelt die Codex-Nutzung bis zum 31. Mai — wenn du bereits auf Plus bist und ein Upgrade erwägst, ist das die Rechnung, die du vor Ablauf der Aktion aufmachen solltest.

Zwei Dinge über Anthropic, die nicht in der Preistabelle stehen. Erstens schränkt Anthropic die Drittanbieter-Nutzung deines Claude-Abonnements ein — du kannst zum Beispiel nicht deinen persönlichen Pro-Plan in ein Produkt einbetten, das du an deine eigenen Kunden lieferst. Das Agent SDK und Bedrock/Vertex/Foundry-Deployments sind der offizielle Weg dafür und werden separat abgerechnet. Zweitens ist OpenAI bei der abo-gebündelten Nutzung freizügiger, was teilweise erklärt, warum man mehr Indie-Hacker sieht, die Codex-betriebene Nebenprojekte auf Consumer-Plänen liefern. Keine der beiden Haltungen ist falsch. Es sind verschiedene Geschäftsmodelle, und sie beeinflussen, was du legal mit den Tools tun kannst, für die du bezahlst. Lies die Bedingungen, bevor du ein Produkt auf einem der beiden aufbaust.

Wie ich beide jetzt tatsächlich nutze

Hier ist der Workflow, bei dem ich nach diesem Test gelandet bin, den ich seit drei Wochen fahre und der meine Kundenarbeit materiell verkürzt hat.

Wenn ein Job mit Strategie beginnt — herausfinden, was zu bauen ist, Architektur planen, UX-Flows brainstormen, über den Tech-Stack entscheiden — öffne ich Claude Code. Der /ultraplan-Befehl ist das Nächste, was ich an einem Senior-Engineering-Partner habe, der tatsächlich aufpasst.

Wenn dieser Plan in UI-Arbeit übergeht — Landingpages, Dashboards, interne Tools, alles wo Geschmacksentscheidungen zählen — bleibe ich in Claude Code. Auto-delegierende Sub-Agents machen den Build schnell, selbst bei Dashboards mit fünf interaktiven Komponenten.

Wenn der Job in strukturierte Dokumentation wechselt — Forschungsberichte, Audit-Zusammenfassungen, Kundenbriefings, alles was am Ende ein sauberes PDF braucht — wechsle ich zu Codex. Der /goal-Befehl auf strukturierten Dokumenten ist schneller als alles, was ich gesehen habe, und die integrierte PDF-Pipeline erspart die Reibung auf der letzten Meile.

Wenn der Job GitHub berührt — PR-Reviews, Multi-Branch-Parallelarbeit, alles wo die Cloud-Sandbox ihren Wert verdient — ist Codex die Standardwahl. Der @Codex-Erwähnungsflow auf PRs ist zu gut, um darauf zu verzichten.

Wenn ich ein Hero-Bild brauche, ein Marketing-Asset oder irgendeine Art von generiertem Visual, das in den Build geht — bleibt Codex offen, weil GPT Image 2 in der Box ist. Ich nutze immer noch Higgsfield für die hochwertigeren Produktfotos, aber für schnelle Inline-Bildarbeit reicht Codex.

Dieser Mixed-Stack-Ansatz ist der Teil, den ich unterstreichen möchte. Die zwei Tools konkurrieren nicht um denselben Stuhl an meinem Schreibtisch. Sie besetzen verschiedene Stühle. Die Frage „Claude Code oder Codex?" ist die falsche Frage. Die richtige Frage ist „welches für diese spezifische Art von Arbeit?" Und wenn du die Antwort für deine eigene Arbeitslast kennst, hörst du auf zu wählen und fängst an zu wechseln.

Wenn du einen schlanken Stack fährst und dir nur eines leisten kannst, hier mein ehrlicher Rat: wenn deine Woche hauptsächlich UI-Arbeit ist und du Kunden für visuelle Qualität in Rechnung stellst, ist Claude Code Max 5X die besseren $100. Wenn deine Woche hauptsächlich Recherche, Dokumentation und GitHub-vermitteltes Teamwork ist, ist Codex Plus für $20 der bessere Deal und liefert 90% des Werts.

Wenn deine Woche beides ist — und die meisten professionellen Entwicklerwochen sind es — bezahle für beide. Plus und Max 5X zusammen sind $120/Monat für das, was im Grunde zwei Senior Engineers auf Retainer bedeutet. Es gibt keinen anderen Posten in meinem Geschäft, der so viel Wert pro Dollar liefert.

Das eine, was ich meinem früheren Ich über diesen Vergleich sagen würde

Vor sechs Monaten hätte ich denselben Post geschrieben und Claude Code zum Gewinner erklärt. Der visuelle Output war messbar besser, die Planung tiefer, die Workflow-Anpassung unerreicht.

Heute kann ich diesen Post nicht ehrlich schreiben. Codex hat die Lücke bei den meisten Workflow-Features geschlossen, die ich früher als entscheidend bezeichnet habe, und hat eine eigene Lücke bei GitHub-Integration, Cloud-Sandbox, Computer-Use-QA und integrierter Bildgenerierung aufgetan. Was ich meinem früheren Ich sagen würde, ist, dass die richtige Frage irgendwann um Q1 2026 aufgehört hat, „welches Tool ist besser" zu sein, und die Leute, die sie noch stellen, kurz davor stehen, von denen überholt zu werden, die gelernt haben zu wechseln.

Es gibt immer noch charakteristische Stärken. Claude Code ist der bessere Denkpartner. Codex ist der bessere Umsetzer. Claude Code gewinnt bei UI-Politur und Anpassungstiefe. Codex gewinnt bei End-to-End-Lieferung und integrierten Workflow-Primitiven.

Wenn du darauf gewartet hast, dass eines der beiden offensichtlich gewinnt, damit du das andere nicht mehr verfolgen musst — das ist nicht die Zeitlinie, auf der wir uns befinden. Die nächsten zwölf Monate werden ein anhaltendes Hin und Her sein, bei dem jedes Release eine Lücke schließt und eine andere öffnet. Die Entwickler, die diese Phase gewinnen, sind diejenigen, die beide Tools offen halten, ihr Muskelgedächtnis auf beiden aktuell halten und aufhören, Toolwahl als Identitätsfrage zu behandeln.

Das Dienstagmorgen-Experiment, das ich begonnen hatte, um diesen Vergleich zu klären, hat nichts geklärt. Es hat mir nur eine schärfere Karte gegeben, wann welchen Motor zu nutzen, was in den drei Wochen seitdem etwa sechs Stunden eingesparter Arbeit wert war. Wenn du dieselbe Karte für deinen eigenen Workflow willst, ist der einzige Weg, sie zu zeichnen, deine eigenen drei Aufgaben durch beide Stacks laufen zu lassen. Wähle die Arbeit, die du tatsächlich für Geld machst. Lass sie zweimal laufen. Beobachte, was jedes Tool gut macht und wo es bricht.

Die ehrliche Antwort auf „Claude Code oder Codex" im Mai 2026 ist: ja. Beide. Und wenn dein Budget dich zwingt, eines zu wählen, wähle das, das zur Arbeit passt, die du die meisten Wochen lieferst — nicht das mit den lauteren Release Notes.

Häufig gestellte Fragen

Was ist besser für Solo-Entwickler in 2026, Claude Code oder Codex?

Für Solo-Entwickler hängt die richtige Wahl von der Arbeitsmischung ab — Claude Code ist stärker für UI-lastige Wochen und tiefe Planung, während Codex stärker für Forschungsdokumente, GitHub-vermittelte Review-Arbeit und End-to-End-Lieferung ist. Wenn du dir nur eines leisten kannst und deine Arbeit visuell tendiert, nimm Claude Code Max 5X für $100/Monat. Wenn deine Arbeit eher strukturierte Dokumentation und Team-Workflows ist, nimm Codex Plus für $20/Monat.

Ist Claude Code schneller als Codex?

Claude Code beendete die Drei-Aufgaben-Suite in etwa 15 Minuten versus Codex mit 26 Minuten in meinem Test, wobei der Unterschied sich auf den Dashboard-Build konzentrierte, wo Claudes auto-delegierende Sub-Agents die Laufzeit auf 2 Minuten zusammenstauchten. Pro Aufgabe kippt die Antwort — Codex war beim Forschungsbericht um etwa 4 Minuten schneller. Schneller hängt davon ab, was du baust. Siehe den Dashboard-Abschnitt oben für die Aufschlüsselung.

Hat Claude Code oder Codex ein größeres Kontextfenster?

Claude Code unterstützt bis zu 1.000.000 Tokens Kontextfenster mit Opus 4.7. Codex mit GPT-5.5 läuft bei etwa 256.000 Tokens. Für Ganzcodebase-Reasoning ist Claude Codes Fenster materiell größer. Für typische aufgabenbezogene Arbeit wie Landingpages oder einzelne Dashboards sind beide Fenster ausreichend.

Kann ich OpenAI Codex ohne separaten API-Key nutzen?

Ja — Codex ist mit jeder ChatGPT-Abonnementstufe gebündelt, einschließlich dem kostenlosen Plan. Plus ($20/Monat) und Pro ($200/Monat) erhöhen die Nutzungslimits. Kein separater API-Key oder Abrechnungssetup ist erforderlich. Dasselbe gilt für Claude Code, das mit Anthropic Pro, Max 5X und Max 20X-Plänen gebündelt ist.

Unterstützt Codex Git Worktrees und parallele Agents?

Ja — Codex hat jetzt nativen Git-Worktree-Support, der es erlaubt, mehrere Agent-Sessions auf parallelen Branches ohne Konflikte zu betreiben. Claude Code unterstützt denselben Workflow, erforderte aber historisch manuelle Worktree-Einrichtung, die ich im Claude Code Git Worktrees-Guide behandelt habe. Codex liefert es als First-Class-Primitiv im Mai 2026-Release.

Lass uns zusammenarbeiten

Du möchtest KI-Systeme bauen, Workflows automatisieren oder deine technische Infrastruktur skalieren? Ich helfe dir gerne.

Fiverr (individuelle Builds & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Enterprise-Lösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io

OpenAI Codex vs Claude Code: Ich habe beide getestet. Hier ist die Wahrheit