Ich habe Codex in Claude Code ausgeführt — Die Ergebnisse waren gespalten

Die Slack-Nachricht kam um 23:40 Uhr an einem Samstag rein. "Telegram-Bot postet doppelt. Nutzer beschweren sich. Kannst du dir das heute Abend anschauen?"

Ich hatte Opus 4.6 in Claude Code offen, bereits tief in einem anderen Projekt. Mein erster Instinkt war, die Codebase des Bots an Opus zu werfen und eine vollständige Überprüfung zu verlangen. Aber ich hatte gerade etwas Neues installiert — OpenAIs Codex-Plugin für Claude Code, veröffentlicht am 30. März 2026 — und ich hatte nach einem echten Anlass gesucht, es zu testen. Keine Spielzeug-Demo. Eine Produktions-Codebase mit echten Nutzern, die echte Bugs melden.

Also tat ich etwas, was ich noch nie zuvor getan hatte. Ich ließ beide Modelle gegen dieselbe Codebase laufen, am selben Abend, mit demselben adversarial Review-Prompt. Codex fand vier Probleme hoher Schwere. Opus fand acht. Nur eines überlappte. Diese Lücke — sieben Probleme, die Codex übersah, drei Probleme, die Opus übersah — sagte mir mehr über die Zukunft KI-gestützter Code-Reviews als jeder Benchmark es je könnte.

Hier ist die vollständige Geschichte dessen, was passierte, wie du denselben Workflow einrichtest, und warum das Ausführen zweier konkurrierender KI-Modelle gegen deinen Code vielleicht die am meisten unterschätzte Qualitätspraxis in 2026 ist.

Warum ein einzelner KI-Reviewer ein Risiko ist

Ich muss kurz zurückgehen und erklären, warum ich mir überhaupt die Mühe machte, zwei Modelle zu nutzen. Vor einem Jahr hätte ich gedacht, das sei übertrieben. Opus ist smart. Codex ist smart. Wähle eines, vertraue den Ergebnissen, ship den Fix. Fertig.

Dann bemerkte ich ein Muster in meinen Projekten. Jedes KI-Modell hat blinde Flecken — keine zufälligen, sondern systematische. Opus tendiert dazu, sich stark auf architektonische Belange und Datenflüsse zu konzentrieren. Es ist phänomenal darin, Probleme zu erkennen, bei denen Komponenten auf unerwartete Weise interagieren. Aber es übersieht manchmal operationale Belange wie Polling-Intervalle, Retry-Logik und graceful Degradation unter Last.

Codex hat den entgegengesetzten Bias. Es ist scharf bei Details auf Ausführungsebene — die Art von Bugs, die sich zur Laufzeit unter spezifischen Bedingungen manifestieren. Aber es verliert gelegentlich den Blick für das große Ganze, markiert einzelne Funktionsprobleme, ohne sie mit breiteren Systemdesign-Problemen zu verbinden.

Ich hatte keine rigorosen Daten für diese Beobachtung bis zum Samstagabend-Vorfall. Was ich hatte, war ein Bauchgefühl, aufgebaut aus Monaten der separaten Nutzung beider Modelle für Code-Reviews. Das adversarial Review-Feature im neuen Codex-Plugin gab mir eine Möglichkeit, diese Intuition tatsächlich zu testen.

Und die Ergebnisse bestätigten etwas, von dem ich denke, dass jeder Entwickler, der mit KI-Tools arbeitet, es verinnerlichen muss: Ein Single-Model-Review erzeugt ein falsches Gefühl der Sicherheit. Du bekommst einen sauberen Bericht, fühlst dich zuversichtlich und shippst — ohne zu erkennen, dass das Modell strukturell nicht in der Lage war, eine ganze Kategorie von Bugs zu sehen. Ich werde dir genau zeigen, wie sich das abspielte. Aber zuerst musst du verstehen, was dieses Plugin eigentlich ist und wie du es zum Laufen bringst.

Was das Codex-Plugin für Claude Code tatsächlich macht

OpenAI veröffentlichte codex-plugin-cc am 30. März 2026 — und der strategische Schritt hier ist es wert, gewürdigt zu werden, bevor wir in die technischen Details einsteigen. Claude Code dominiert derzeit den Bereich der agentic Coding-Workflows. Anstatt zu versuchen, Entwickler davon wegzuziehen, entschied sich OpenAI, Codex in das Tool zu bringen, das Entwickler bereits nutzen. Es ist dieselbe Logik wie das Bereitstellen von Apps für die Plattform eines Konkurrenten: Geh dorthin, wo die Nutzer sind.

Das Plugin fügt eine Reihe von /codex: Slash-Befehlen direkt in deine Claude Code-Session ein. Einmal installiert, erhältst du drei Kernfähigkeiten:

/codex:review — Ein Standard-Code-Review. Richte es auf uncommitted Änderungen, einen Branch-Diff oder einen bestimmten Satz von Dateien, und Codex liefert eine strukturierte, schreibgeschützte Inspektion zurück. Betrachte dies als eine neutrale Zweitmeinung zu welchem Code auch immer dein primärer Agent (oder du) gerade geschrieben hat.

/codex:adversarial-review — Dies ist das Feature, das meine Aufmerksamkeit erregt hat. Es ist kein Standard-Code-Review. Es ist eine Advocatus-Diaboli-Analyse, die annimmt, dass Fehler existieren, und auf Jagd nach ihnen geht. Es hinterfragt Designentscheidungen, testet Annahmen, untersucht Fehlermodi und fragt, ob ein einfacherer oder sichererer Ansatz gewählt werden sollte. Weniger "funktioniert dieser Code?" und mehr "wie könnte dieser Code katastrophal versagen?"

/codex:rescue — Aufgabendelegation. Wenn du bei einer Debugging-Session feststeckst, einem fehlschlagenden Test oder einer Regression, die du nicht zurückverfolgen kannst, kannst du es an Codex übergeben und es das Problem bearbeiten lassen, während du dich auf etwas anderes konzentrierst.

Alle drei Befehle unterstützen Hintergrundausführung — du feuerst sie ab, arbeitest weiter und überprüfst die Ergebnisse, wenn sie fertig sind. /codex:status zeigt den Fortschritt, /codex:result holt die Ausgabe, und /codex:cancel bricht einen laufenden Job ab. Das ist wichtiger als es klingt. Während meiner Samstagabend-Session startete ich den Codex adversarial Review im Hintergrund und führte den Opus-Review gleichzeitig im Vordergrund aus. Zwei Modelle, eine Terminal-Session, null Kontextwechsel.

Das Plugin delegiert an deine lokale Codex CLI-Installation, anstatt eine separate Laufzeit hochzufahren. Das bedeutet, es erbt whatever Authentifizierung, Modellkonfiguration und MCP-Setup du bereits hast. Keine doppelte Konfiguration. Kein Token-Management-Kopfschmerz. Wenn Codex CLI auf deinem Rechner funktioniert, funktioniert das Plugin.

Hier ist der Teil, der mich überrascht hat: Weil Codex über das Plugin als separater Prozess läuft, verbraucht es dein Claude Code Context Window nicht. Opus behält seinen vollen Kontext für das, woran du arbeitest, und Codex operiert unabhängig. Du bekommst echt parallele KI-Analyse, ohne dass die Modelle sich gegenseitig den Kontext streitig machen.

Wie du das Codex-Plugin in unter fünf Minuten installierst

Das Setup ist unkompliziert, aber es gibt zwei Stolperfallen, auf die ich gestoßen bin, die ich markiere, damit du keine Zeit damit verschwendest.

Voraussetzungen

Du brauchst drei Dinge, bevor du anfängst:

Node.js 18.18 oder höher. Das Plugin installiert sich nicht auf älteren Versionen, und die Fehlermeldung ist nicht hilfreich — es scheitert einfach stillschweigend während des Marketplace-Add-Schritts. Überprüfe deine Version mit node -v, bevor du beginnst.
Codex CLI lokal installiert. Wenn du Codex über die App oder API genutzt hast, aber nie die CLI installiert hast, musst du das zuerst tun. Führe npm install -g @openai/codex aus oder folge OpenAIs CLI-Setup-Dokumentation.
Ein ChatGPT-Konto. Kostenlose Stufe funktioniert. Pro funktioniert. Plus funktioniert. Das Plugin authentifiziert sich über dein bestehendes ChatGPT-Abonnement, was bedeutet, dass du keinen separaten API-Schlüssel brauchst, es sei denn, du bevorzugst diesen Weg.

Schritt-für-Schritt-Installation

Schritt 1: Marketplace-Quelle hinzufügen.

/plugin marketplace add openai/codex-plugin-cc

Dies registriert OpenAIs Plugin-Repository bei Claude Codes Plugin-System. Wenn du einen "marketplace not found"-Fehler bekommst, stelle sicher, dass du eine Claude Code-Version von März 2026 oder später nutzt — ältere Versionen unterstützen keine Third-Party-Marketplaces.

Schritt 2: Plugin installieren.

/plugin install codex@openai-codex

Dies zieht das Plugin in deine Claude Code-Umgebung. Die Installation dauert etwa zehn Sekunden bei einer anständigen Verbindung. Du siehst eine Bestätigungsnachricht mit der Liste neuer Slash-Befehle.

Schritt 3: Authentifizierung.

/codex:setup

Dieser Befehl übernimmt die Authentifizierung. Er erkennt entweder deine vorhandenen Codex CLI-Anmeldedaten oder öffnet ein Browserfenster, damit du dich mit deinem ChatGPT-Konto anmelden kannst. Wenn du API-Schlüssel-Authentifizierung bevorzugst, kannst du ihn direkt übergeben — aber der Browser-Login-Flow ist für die meisten Setups schneller.

Schritt 4: Überprüfen, ob alles funktioniert.

/codex:review --check

Dies führt eine Diagnose durch, die bestätigt, dass das Plugin das Codex-Backend erreichen kann, deine Authentifizierung gültig ist und die CLI-Version kompatibel ist. Wenn dies besteht, bist du bereit.

Der Stolperstein, der mich zwanzig Minuten kostete

Hier ist, worüber ich gestolpert bin. Ich hatte Codex CLI installiert, aber es seit ein paar Wochen nicht aktualisiert. Das Plugin benötigt eine minimale CLI-Version, die Ende März 2026 veröffentlicht wurde, und meine ältere Version bestand die Installationsprüfung, scheiterte aber stillschweigend bei tatsächlichen Review-Befehlen. Die Lösung war einfach — npm update -g @openai/codex — aber der Fehler gab mir null Hinweise darauf, dass Versionskonflikt das Problem war. Ich fand es erst heraus, als ich /codex:setup ein zweites Mal ausführte, was das Versionsproblem anzeigte. Wenn deine Reviews keine Ergebnisse liefern, überprüfe zuerst deine CLI-Version.

Das adversarial Review: Was Codex tatsächlich fand

Zurück zum Samstagabend. Ich hatte einen Twitter-Engagement- und Recherche-Bot in Produktion — ein System, das Tweets scannt, Qualitätsfilterung anwendet, sie nach Relevanz bewertet, gegen eine Supabase-Datenbank dedupliziert und ausgewählte Inhalte an einen Telegram-Kanal mit KI-gestützten Antworten weiterleitet. Etwa 2.000 Zeilen Code über acht Dateien verteilt.

Ich richtete Codex' adversarial Review auf die gesamte Codebase mit einem spezifischen Prompt, der auf sieben Angriffsflächen abzielte, die mich am meisten interessierten:

Authentifizierungsschwachstellen
Datenverlust-Szenarien
Rollback-Sicherheit
Race Conditions
Umgang mit degradierten Abhängigkeiten
Versionsversatz zwischen Services
Observability-Lücken

Das adversarial Review war in etwa vier Minuten fertig. Codex lieferte vier Probleme hoher Schwere zurück, jeweils mit spezifischen Dateistandorten, detaillierten Erklärungen und empfohlenen Lösungen.

Problem 1: Dedup-Logik-Versagen

Das Deduplizierungssystem prüfte Tweet-IDs gegen Supabase vor der Verarbeitung, aber die Prüfung und das Insert waren nicht atomar. Unter Last — die dieser Bot regelmäßig bei Trending Topics erreicht — konnten zwei parallele Worker beide die Dedup-Prüfung für denselben Tweet bestehen, ihn unabhängig verarbeiten und doppelte Einträge einfügen. Codex identifizierte das genaue Race Window und empfahl, auf einen Supabase Upsert mit Unique Constraint als primären Dedup-Mechanismus umzusteigen, anstatt das Check-Then-Insert-Muster zu verwenden.

Das war ein echter Bug. Nutzer hatten gelegentlich doppelte Posts im Telegram-Kanal gemeldet, und ich konnte es nicht konsistent reproduzieren. Die Race Condition triggert nur unter spezifischen gleichzeitigen Lastmustern — genau die Art von Bug, die bei Single-Thread-Tests unsichtbar ist.

Problem 2: Fehlerhafte Telegram-Polling-Behandlung

Der Bot nutzte Long Polling, um auf Telegram-Befehle zu lauschen, aber die Fehlerbehandlung bei Poll-Timeouts war falsch. Wenn ein Poll timeout (was natürlicherweise alle 30 Sekunden passiert), behandelte der Fehlerhandler es als Verbindungsfehler und triggerte eine Neuverbindung mit exponentiellem Backoff. Nach mehreren natürlichen Timeouts wuchs die Backoff-Verzögerung so weit, dass der Bot minutenlang nicht reagierte.

Das war der Bug, der die Samstagabend-Slack-Nachricht auslöste. Codex identifizierte ihn nicht nur — es verfolgte den gesamten Lebenszyklus von Timeout über Backoff bis zur Nicht-Reaktivität, etwas, das ich trotz Starrens auf die Logs nicht verbunden hatte.

Problem 3: Schema-Drift zwischen Services

Das Bewertungsmodul des Bots erwartete ein spezifisches JSON-Schema vom Tweet-Scanner, aber es gab keine Validierung an der Schnittstelle. Wenn die Twitter API ihr Antwortformat änderte — was sie periodisch ohne Vorwarnung tut — würde das Bewertungsmodul stillschweigend fehlerhafte Daten verarbeiten, anstatt laut zu scheitern. Codex empfahl, Zod-Schema-Validierung an jeder Service-Schnittstelle hinzuzufügen.

Problem 4: Dashboard-Build-Fehler

Das Monitoring-Dashboard kompilierte zur Build-Zeit mit hartcodierten API-Endpoints, was bedeutete, dass ein Staging-Deploy immer noch auf Produktions-APIs zeigen würde. Codex markierte dies als Deployment-Sicherheitsproblem und empfahl Environment-Variable-Injection zur Laufzeit statt zur Build-Zeit.

Vier Probleme. Alle hoher Schwere. Alle legitim. Zwei davon erklärten Bugs, die Nutzer bereits gemeldet hatten. Nicht schlecht für vier Minuten Rechenzeit.

Aber hier wird die Geschichte interessant — denn als Nächstes ließ ich Opus laufen.

Dieselbe Codebase durch die Augen von Opus 4.6

Ich gab Opus 4.6 den identischen adversarial Review-Prompt, ausgerichtet auf dieselben sieben Angriffsflächen. Opus brauchte etwas länger — näher an sechs Minuten — und kam mit acht Problemen zurück. Eines hoher Schwere, sieben kritisch.

Die Überschneidung? Genau ein Problem. Beide Modelle markierten unabhängig voneinander das Telegram-Polling-Problem als den gefährlichsten Bug in der Codebase. Sie bewerteten es sogar auf ähnlichen Schwerestufen — Codex nannte es hoch, Opus nannte es kritisch. Die Tatsache, dass zwei fundamental verschiedene KI-Architekturen auf denselben Bug konvergierten, gab mir starkes Vertrauen, dass dies wirklich der dringendste Fix war.

Aber die restlichen Ergebnisse wichen völlig ab.

Wo Codex insgesamt vier Probleme fand, fand Opus acht — und sieben davon waren einzigartig für Opus. Das waren keine Kleinigkeiten. Sie umfassten:

Eine Token-Refresh Race Condition in der Twitter API-Authentifizierungsschicht, die den Bot bis zu 15 Minuten mit abgelaufenen Credentials laufen lassen konnte
Ein unbegrenztes Warteschlangen-Wachstumsszenario, bei dem die Bewertungs-Pipeline unverarbeitete Tweets schneller ansammeln konnte, als sie sie während viraler Events auswerten konnte
Eine Logging-Konfiguration, die sensible Nutzerdaten in Plaintext-Logs ohne Redaktion schrieb
Fehlende Circuit-Breaker-Muster auf der Supabase-Verbindung, was bedeutete, dass ein Datenbankausfall ins gesamte System kaskadieren würde, anstatt graceful zu degradieren
Drei weitere Probleme rund um Fehlerpropagation, Retry-Semantik und State-Persistenz über Neustarts hinweg

Das sind architektonische Belange — genau die Art von systemischen Problemen, in denen Opus brilliert. Das Modell verband Abhängigkeiten über Dateien und Services hinweg auf eine Weise, die emergente Fehlermodi offenbarte, nicht nur einzelne Bugs.

Währenddessen waren die drei einzigartigen Probleme von Codex — die Dedup Race Condition, Schema-Drift und das Dashboard-Build-Problem — Runtime- und Deployment-Belange, die Opus nicht markierte. Opus war so auf das architektonische Gesamtbild fokussiert, dass es die operationale Realität übersah, wie der Code tatsächlich ausgeführt und deployed wird.

Was der Vergleich tatsächlich für deinen Workflow bedeutet

Hier ist die unbequeme Wahrheit, die dieses Experiment offenbarte. Hätte ich nur Codex laufen lassen, hätte ich vier echte Bugs gefixt und mich gut bei der Codebase gefühlt. Hätte ich nur Opus laufen lassen, hätte ich acht Probleme gefixt und mich noch besser gefühlt. Aber ich hätte im ersten Fall drei echte Probleme übersehen und im zweiten Fall vier echte Probleme.

Keines der Modelle gab mir ein vollständiges Bild. Zusammen fanden sie elf einzigartige Probleme in jeder Kategorie, die mich interessierte.

Das ist nicht nur eine Anekdote. Es spiegelt einen strukturellen Unterschied wider, wie diese Modelle Code-Analyse angehen. Codex — aufgebaut auf OpenAIs Coding-fokussierter Trainings-Pipeline — brilliert bei Reasoning auf Ausführungsebene. Es denkt darüber nach, was passiert, wenn der Code läuft: Race Conditions, Polling-Verhalten, Schema-Mismatches, Deployment-Konfigurationen. Es ist wie ein Senior SRE, der deinen Code reviewed.

Opus 4.6 — mit seinem gewaltigen 1M Token Context Window und tiefer Reasoning-Architektur — brilliert bei systemischer Analyse. Es denkt darüber nach, was passiert, wenn das System skaliert, degradiert oder unerwarteten State begegnet: unbegrenzte Warteschlangen, kaskadierende Ausfälle, Authentifizierungslebenszyklus-Lücken, Log-Hygiene. Es ist wie ein Principal Architect, der deinen Code reviewed.

Du willst nicht das eine oder das andere. Du willst beides. Und das Codex-Plugin macht es trivial einfach, beides zu nutzen, weil sie in derselben Terminal-Session arbeiten, ohne um Kontext zu konkurrieren.

Wenn du lieber hättest, dass jemand diese Art Multi-Model-Review-Pipeline für dein Team baut, übernehme ich KI-Workflow-Engineering-Aufträge. Du kannst sehen, was ich gebaut habe, unter fiverr.com/s/EgxYmWD.

Der Multi-Model-Review-Workflow, den ich jetzt tatsächlich nutze

Nach dieser Samstagabend-Session formalisierte ich einen Workflow, den ich seitdem bei jedem Projekt nutze. Hier ist der genaue Prozess.

Phase 1: Schreiben mit Opus

Ich nutze Opus 4.6 als meinen primären Coding-Agent in Claude Code. Es übernimmt Planung, Code-Generierung, Refactoring und initiales Testen. Hier beweisen das 1M Context Window und tiefes Reasoning ihren Wert — Opus kann eine gesamte Codebase im Kontext halten und Änderungen vornehmen, die entfernte Abhängigkeiten berücksichtigen.

Phase 2: Standard-Review mit Codex

Nach dem Abschluss eines Features oder Fixes führe ich /codex:review für eine neutrale Zweitmeinung aus. Dies fängt das Offensichtliche — Stilprobleme, potenzielle Null-Referenzen, fehlende Fehlerhandler und alles, was syntaktisch falsch aussieht. Ich betrachte dies als das Äquivalent eines Pull-Request-Reviews von einem kompetenten Kollegen.

Phase 3: Adversarial Review mit Codex

Wenn der Code etwas Produktionskritisches berührt — Authentifizierung, Zahlungen, Datenspeicherung, externe APIs — eskaliere ich zu /codex:adversarial-review mit einem maßgeschneiderten Prompt, der auf die spezifischen Angriffsflächen abzielt, die für dieses Feature wichtig sind. Dies ist der Advocatus-Diaboli-Durchgang.

Phase 4: Adversarial Review mit Opus

Dann führe ich denselben adversarial Prompt direkt durch Opus aus. Da Opus bereits die vollständige Codebase aus der Schreibphase im Kontext hat, kann es eine tiefere systemische Analyse durchführen, ohne alles neu laden zu müssen.

Phase 5: Gegenprüfung und Priorisierung

Die Magie entsteht, wenn du die beiden adversarial Reviews vergleichst. Jedes Problem, das von beiden Modellen markiert wird, wird sofort behoben — wenn zwei unabhängige KI-Architekturen sich einig sind, dass etwas kaputt ist, ist es fast sicher kaputt. Probleme, die nur von einem Modell gefunden werden, werden nach Schwere und Wahrscheinlichkeit bewertet. Das kostet mich normalerweise zehn Minuten menschliches Urteilsvermögen zum Triagieren.

Dieser Fünf-Phasen-Workflow fügt vielleicht 15 Minuten zu einem Entwicklungszyklus hinzu. Die Kosten? Codex läuft auf deinem bestehenden ChatGPT-Abonnement — selbst die kostenlose Stufe — also sind die inkrementellen Kosten vernachlässigbar. Opus ist das, was du bereits für Claude Code bezahlst. Die kombinierten Kosten für das Ausführen beider adversarial Reviews an meinem Samstagabend-Bot-Projekt lagen unter $2 an API-Tokens.

Zum Kontext: Ein menschliches Sicherheitsreview derselben Codebase würde $500-2.000 kosten, abhängig vom Umfang und wen du beauftragst. Ich sage nicht, dass KI-Reviews menschliche Sicherheitsaudits für kritische Systeme ersetzen. Ich sage, dass das Kosten-Abdeckungs-Verhältnis eines Multi-Model-KI-Reviews als erster Durchgang absurd gut ist.

Pro-Tipp: Maßgeschneiderte adversarial Prompts

Der Standard-adversarial-Review ist solide, aber du bekommst dramatisch bessere Ergebnisse mit gezielten Prompts. Hier ist das Template, das ich verwendet habe:

Run an adversarial security and reliability review of this codebase.
Assume flaws exist. Your job is to find them.

Focus on these attack surfaces:
1. [Surface relevant to your project]
2. [Surface relevant to your project]
3. [Surface relevant to your project]

For each issue found:
- Severity: Critical / High / Medium
- File and line number
- Description of the failure mode
- Specific fix recommendation
- What monitoring would detect this issue in production

Das Abstimmen der Angriffsflächen auf deine spezifische Architektur reduziert Rauschen um etwa 60% und erhöht die Relevanz der Ergebnisse dramatisch. Ein generischer "finde Bugs"-Prompt liefert generische Ergebnisse. Ein gezielter "wie könnte der Authentifizierungsflow unter gleichzeitigen Anfragen versagen?"-Prompt liefert umsetzbare Ergebnisse.

Die Kostenrechnung: Warum das finanziell Sinn ergibt

Einer der praktischsten Gründe, Codex in deinen Claude Code-Workflow zu integrieren, ist Geld. Wenn du auf Anthropics Pro-Plan bist, hast du wahrscheinlich Nutzungslimits während intensiver Coding-Sessions erreicht. Diese frustrierende "du hast dein Limit erreicht"-Nachricht mitten im Flow. Das unterbricht deinen Schwung und kostet dich das Teuerste in der Softwareentwicklung: Kontext.

Codex, das über das Plugin läuft, arbeitet auf deinem ChatGPT-Abonnement — einem völlig separaten Nutzungspool. Wenn deine Opus-Tokens zur Neige gehen oder du dich einem Rate Limit näherst, kannst du Code-Reviews, Bug-Untersuchungen und sogar Code-Generierungsaufgaben an Codex auslagern, ohne deine Claude Code-Session zu unterbrechen.

Laut NxCodes Preisanalyse für 2026 ist Codex ungefähr 4x token-effizienter als Claude Code für vergleichbare Aufgaben. Das bedeutet, ein API-Budget von $20 bei Codex leistet ungefähr die gleiche Arbeit wie $80 bei Claude Codes API. Die Per-Token-Kosten erzählen einen Teil der Geschichte — Opus läuft bei $5/$25 pro Million Tokens (Input/Output), während Codex bei $6/$30 liegt — aber Codex neigt dazu, weniger Tokens pro Aufgabe zu verwenden dank seines Coding-optimierten Tokenizers.

Das praktische Fazit: Nutze Opus für das, worin es am besten ist (Planung, komplexes Reasoning, Analyse mit großem Kontext) und delegiere ausführungsintensive Aufgaben (Reviews, Code-Generierung, Debugging) an Codex, wenn du auf dein Budget achtest. Ich fahre diesen Split seit zwei Wochen und meine effektiven Claude Code-Kosten sanken um etwa 35%, ohne merklichen Qualitätsverlust in meinem Output.

Ehrliche Limitierungen — Wo dieses Setup zu kurz kommt

Ich habe das bis jetzt ziemlich positiv klingen lassen. Zeit für den ehrlichen Teil.

Codex-Reviews sind oberflächlicher als Opus-Reviews. Vier Probleme versus acht ist kein Zufall — ich habe dieses Verhältnis konsistent über fünf Projekte gesehen. Codex findet weniger Dinge. Die Dinge, die es findet, sind echt und wichtig, aber wenn du dich darauf als einzigen Review-Mechanismus verlässt, lässt du Bugs liegen.

Das Plugin verliert gelegentlich die Verbindung während eines Reviews. Ich hatte drei von ungefähr zwanzig Reviews, die stillschweigend scheiterten — der /codex:status-Befehl hört einfach auf, Updates zurückzugeben, und du musst abbrechen und neu starten. Kein Dealbreaker, aber nervig unter Zeitdruck.

Hintergrundausführung ist auf langsameren Maschinen nicht wirklich parallel. Auf meinem M3 MacBook Pro laufen beide Modelle problemlos gleichzeitig. Aber ein Kollege testete auf einem älteren Intel-Rechner und berichtete von erheblichen Verlangsamungen beim Ausführen von Codex-Reviews im Hintergrund, während Opus aktiv Code generierte. Die Codex CLI ist ressourcenintensiv, und die gemeinsame CPU-Nutzung mit Claude Code erzeugt Contention.

Der adversarial Review kann bei kleineren Codebases übertrieben markieren. Bei einem 500-Zeilen-Utility-Script markierte Codex' adversarial Modus "fehlende Circuit-Breaker-Muster" und "unzureichende Observability" — technisch korrekt, aber absurd für ein Script, das einmal täglich in einem Cronjob läuft. Der adversarial Modus passt seine Erwartungen nicht an die Größe oder Kritikalität des Projekts an. Du musst deine Prompts entsprechend kalibrieren, oder du ertrinkst in Ergebnissen mit falscher Priorität.

Der Authentifizierungsflow ist fragil. Der browserbasierte Login persistiert manchmal nicht zwischen Claude Code-Sessions. Ich musste mich in zwei Wochen viermal neu authentifizieren. Der API-Schlüssel-Ansatz ist stabiler, wenn es dir nichts ausmacht, Schlüssel zu verwalten.

Nichts davon sind Dealbreaker. Aber wenn du hier mit der Erwartung einer makellosen Erfahrung reingehst, wirst du enttäuscht. Es ist ein v1-Plugin, das vor 48 Stunden veröffentlicht wurde. Raue Kanten sind zu erwarten.

Wohin das meiner Meinung nach führt

Die Tatsache, dass OpenAI ein offizielles Plugin für das Tool eines Konkurrenten gebaut hat, ist bedeutsam — und signalisiert einen breiteren Wandel in der Art, wie KI-Entwicklungstools 2026 und darüber hinaus funktionieren werden. Die Ära, einen KI-Anbieter zu wählen und in deren Walled Garden zu bleiben, geht zu Ende. Die Zukunft sieht mehr nach einem Best-of-Breed-Ansatz aus: ein Modell für Planung, ein anderes für Ausführung, ein drittes für Review, vielleicht ein viertes für Testing.

Das Codex-Plugin ist die erste echte Brücke in Produktionsqualität zwischen den beiden größten KI-Coding-Ökosystemen. Ich vermute, Anthropic wird reagieren — vielleicht mit einem Claude-Plugin für Codex' App-Umgebung, oder vielleicht indem es Claude Codes Plugin-API vertieft, um die Integration von Drittanbietern noch reibungsloser zu machen.

Für Entwickler, die bereits in Claude Code Agent-Workflows investiert haben — mehrere spezialisierte Agents betreiben, Skills und Hooks bauen, komplexe Pipelines verwalten — fügt sich das Codex-Plugin natürlich ein. Es ist ein weiterer Spezial-Agent in deinem Schwarm, einer, der zufällig auf OpenAIs Infrastruktur läuft statt auf Anthropics.

Und für diejenigen, die Codex als Standalone-Tool gegen Claude Code abgewogen haben, ist die Antwort gerade einfacher geworden: Du musst dich nicht entscheiden. Nutze beides. Lass sie die Arbeit des jeweils anderen überprüfen. Dein Code wird besser dadurch.

Die Modelle fanden elf Probleme in der Codebase meines Bots an diesem Samstagabend. Ich fixte zuerst den Telegram-Polling-Bug — den, bei dem sich beide Modelle einig waren — und das doppelte Posten hörte sofort auf. Die anderen zehn Fixes wurden in der folgenden Woche ausgerollt. Nutzer haben seitdem kein einziges Problem mehr gemeldet.

Zwei KI-Modelle, die denselben Code unabhängig reviewten, fingen auf, was kein einzelnes Modell — und ehrlich gesagt, was ich manuell in einer nächtlichen Debugging-Session wahrscheinlich nicht gefangen hätte — alleine finden konnte. Das ist kein theoretischer Vorteil. Das ist ein Produktionssystem, das aufhörte kaputtzugehen, weil ich einen zusätzlichen Befehl ausführte.

Das nächste Mal, wenn du ein Feature abschließt und dich zuversichtlich fühlst bei dem Code, versuche /codex:adversarial-review auszuführen, bevor du mergst. Die vier Minuten, die es dauert, könnten dir einen Samstagabend ersparen.

Häufig gestellte Fragen

Wie installiere ich das Codex-Plugin in Claude Code?

Füge den Marketplace mit /plugin marketplace add openai/codex-plugin-cc hinzu, installiere mit /plugin install codex@openai-codex und authentifiziere dich dann mit /codex:setup. Du brauchst Node.js 18.18+ und ein ChatGPT-Konto (kostenlose Stufe funktioniert). Die vollständige Anleitung findest du im Installationsabschnitt oben.

Funktioniert das Codex-Plugin mit einem kostenlosen ChatGPT-Konto?

Ja. Das Plugin authentifiziert sich über dein bestehendes ChatGPT-Abonnement, und die kostenlose Stufe bietet Zugang zu Codex' Review- und Aufgabendelegationsfunktionen. Bezahlte Stufen bieten höhere Rate Limits und schnellere Antwortzeiten, aber die Kernfunktionalität — einschließlich adversarial Reviews — funktioniert mit dem kostenlosen Plan.

Was ist ein adversarial Code-Review?

Ein adversarial Code-Review nimmt an, dass dein Code Fehler enthält, und sucht aktiv danach. Im Gegensatz zu Standard-Reviews, die auf Korrektheit prüfen, hinterfragen adversarial Reviews Designentscheidungen, untersuchen Fehlermodi und prüfen, ob einfachere oder sicherere Alternativen existieren. Der /codex:adversarial-review-Befehl zielt auf sieben Angriffsflächen ab, darunter Authentifizierung, Race Conditions und degradierte Abhängigkeiten.

Ist Codex besser als Opus 4.6 für Code-Reviews?

Keines der Modelle ist strikt besser — sie finden unterschiedliche Kategorien von Problemen. In meinen Tests brilliert Codex bei Runtime- und Ausführungsebene-Bugs (Race Conditions, Polling-Fehler, Schema-Drift), während Opus systemische und architektonische Probleme erkennt (kaskadierende Ausfälle, unbegrenzte Warteschlangen, Authentifizierungslebenszyklus-Lücken). Beide auszuführen und die Ergebnisse gegenseitig abzugleichen, ergibt die gründlichste Abdeckung.

Was kostet es, Codex in Claude Code auszuführen?

Das Codex-Plugin läuft auf deinem ChatGPT-Abonnement, getrennt von deiner Claude Code-Nutzung. Ein vollständiges adversarial Review einer 2.000-Zeilen-Codebase kostet unter $1 an API-Tokens. Kombiniert mit deinem bestehenden Anthropic-Abonnement sind die Gesamtkosten eines Dual-Model-Review-Workflows minimal im Vergleich zu manuellen Sicherheitsaudits.

Lass uns zusammenarbeiten

Du möchtest KI-Systeme bauen, Workflows automatisieren oder deine technische Infrastruktur skalieren? Ich helfe gerne.

Fiverr (Maßanfertigungen & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Enterprise-Lösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io