Claude Code + Codex: Der Dynamic-Duo-Workflow, der liefert

Ich hätte es fast nicht installiert. Die Codex plugin-Benachrichtigung erreichte Claude Code an einem Freitagnachmittag, und meine unmittelbare Reaktion war die gleiche wie die der meisten Ingenieure, wenn das Tool eines Mitbewerbers in ihrem Haupttool auftaucht: „Das wird eine wackelige Brücke sein, die jede andere Version kaputt macht.“ Ich hatte einen Laravel-Einsatz zum Babysitten und drei Blogbeiträge, die über den agent stack in die Warteschlange gestellt wurden. Plugin-Installationen waren nicht auf der Liste.

Dann sah ich am Samstagmorgen zu, wie Claude Code fröhlich eine Fünf-Tabellen-Schemamigration plante, die Migrationsdatei verschickte und eine Fremdschlüsseleinschränkung übersah, die das Staging am Montag zum Scheitern gebracht hätte. Nicht weil Claude schlecht ist. Weil sich Claude im „Build-Modus“ und nicht im „Skeptic-Modus“ befand. Das ist die Lücke, die mit [Codex plugin for

Ich fahre jetzt seit sechs Wochen beide Modelle im Tandem. Claude Code auf Opus 4.7 als primärer Builder. Codex auf GPT 5.5 als ansässiger Skeptiker. Verschiedene Rollen, dasselbe Terminal, ein Workflow. Die Kostenrechnung funktioniert. Die Ausgabequalität stieg auf eine Weise, die ich nicht erwartet hatte. Und die dummen Model-Tribal-Argumente, mit denen ich meine Energie verschwendete, lösten sich in dem Moment auf, als der erste /codex:review mit drei Ausgaben zurückkam, die ich ohne langes Nachdenken verschickt hätte.

Das ist der Arbeitsablauf. Die tatsächlichen Befehle, die tatsächlichen Übergaben, die tatsächlichen Einstellungen, die ich auf echten Client-Builds und auf meinem eigenen Content-Stack für mehrere Marken ausführe. Bleiben Sie bei Muster drei dabei – dort ändern sich die Kosteneinsparungen von „gut“ zu „Das ändert meine Tarifstufe nächsten Monat.“

Warum die Single-Model-Debatte die falsche Frage ist

Die Twitter-Schleife AI hängt seit zwei Jahren an dem gleichen Argument fest: Welches Codierungsmodell ist das beste? GPT 5.5 vs. Opus 4.7. Codex vs. Claude Code. Cursor gegen Windsurf gegen Zed. Wählen Sie einen Stamm aus, verteidigen Sie ihn auf der Zeitachse und wiederholen Sie den nächsten Veröffentlichungszyklus.

Folgendes ist mir aufgefallen, als ich mit dem Spielen des Spiels aufgehört habe. Die beiden führenden Modelle haben wirklich unterschiedliche Formen. Claude Code, insbesondere auf Opus 4.7, ist ein kreativer Generalist. Es lässt sich gut über Architektur, Text, Design-Tokens und Produktfluss hinweg planen. Es schreibt selbstbewusst. Es halluziniert auch souverän – und das ist der Kompromiss, den Sie eingehen, wenn Sie ein Modell wollen, das sich verschickt, anstatt ins Stocken zu geraten. Ich habe die Unterschiede auf Modellebene in GPT 5.5 vs. Opus 4.7 getestet auf echten Codierungs-Builds und in meinem praktischen Test von GPT 5.5 in Codex behandelt. Die Kurzfassung: Sie sind Ergänzungen, keine Ersatzstoffe.

Codex auf GPT 5.5 ist ein anderes Tier. Es ist symbolisch geizig. Es ist chirurgisch. Es liebt einen fokussierten Diff. Bitten Sie es, eine einzelne Funktion umzugestalten, und es erstellt einen sauberen Patch mit Überlegungen zu Randfällen. Bitten Sie es, ein SaaS-Dashboard von Grund auf zu planen, und es schreibt kürzere, weniger anspruchsvolle Gerüste als Claude. Keines davon ist ein Fehler – es ist eine Persönlichkeit.

Die Idee eines dynamischen Duos ist einfach: Hören Sie auf zu fragen, welches „besser“ ist, und beginnen Sie zu fragen, welches auf welchen Platz gesetzt werden soll. Bauherr vs. Gutachter. Verfasser vs. Herausgeber. Optimist vs. Skeptiker. Der native Codex plugin macht diese Übergabe schnell genug, dass Sie sie tatsächlich tun, anstatt zu schwören, dass Sie es tun und niemals das zweite Tool öffnen.

Es gibt hier einen mentalen Wandel, der ein oder zwei Wochen braucht, um sich zu stabilisieren. Sie hören auf, „den AI“ als eine einzelne Sache zu betrachten, an der Sie Handarbeit leisten. Sie fangen an, an „das Team“ zu denken – zwei Spezialisten, die sich produktiv widersprechen, während Sie das Urteil fällen. Allein dieses Framing hat die Menge an Code verändert, die ich bei der ersten Bereitstellung sauber geliefert habe.

Aber bevor das alles funktioniert, müssen Sie das Plugin installiert und die richtigen Slash-Befehle zur Hand haben. Hier treten die meisten Probleme bei der frühen Adoption auf.

Installation des Codex-Plugins (Die Zwei-Minuten-Version)

Das Plugin wird direkt von OpenAI veröffentlicht. Das ist wichtig, weil es das Supportmodell festlegt – dies ist keine Community-Brücke, die jede andere Claude Code-Version zerstört. Es handelt sich um eine offiziell gepflegte Integration, die an beiden Enden aktualisiert wird.

Die Installation erfolgt im Plugin-Marktplatz-Stil. In Claude Code fügen Sie den OpenAI-Marktplatz hinzu und installieren dann das Codex-Plugin von dort. Das Codex plugin GitHub-Repo hat den aktuellen Befehl, aber der Kern besteht aus zwei Zeilen von /plugin marketplace add und /plugin install. Danach haben Sie einen neuen Satz von Slash-Befehlen unter dem Namensraum codex:.

Als Erstes würde ich /codex:setup ausführen, um zu bestätigen, dass die lokale Codex-CLI erreichbar ist. Das Plugin sendet eine Shell an die Codex-CLI unter der Haube – es ist kein eigenständiger API-Client, sondern ein Wrapper, der den Kontext von Claude Code in Codex-Sitzungen weiterleitet und die Ergebnisse zurückleitet. Wenn Ihre Codex-CLI nicht angemeldet ist oder nicht den richtigen Plan hat, werden Sie vom Plugin darüber informiert und Sie werden das Problem einmal beheben.

Eine Anmerkung zu den Plänen, da hier die meisten Leute einen Fehler machen. Claude Code lebt von dem Anthropic-Plan, für den Sie bereits bezahlen. Codex lebt von seinem eigenen OpenAI-Plan. Die Kombination macht das Duo kosteneffektiv, und ich werde in einigen Abschnitten auf die Preisberechnung eingehen – aber Sie brauchen beide, und zwar auf Stufen, die dazu passen, wie intensiv Sie die einzelnen Geräte nutzen werden.

Der Bereich der Slash-Befehlsoberfläche, den Sie tatsächlich täglich nutzen, ist klein. Die beiden großen sind /codex:review für die Inline-Codeüberprüfung für alles, was sich in Ihrem aktuellen Claude Code-Kontext befindet, und /codex:rescue für vollständige Codebasisprüfungen oder delegierte Aufgaben, die im Hintergrund ausgeführt werden. Um diese herum sitzen /codex:status, /codex:result und /codex:cancel für die Verwaltung asynchroner Läufe. Es gibt auch ein Review-Gate-Flag auf Setup-Ebene – /codex:setup --enable-review-gate – das Codex bei jeder Claude-Runde in einen Stop-Hook-Rezensenten verwandelt. Letzteres ist leistungsstark, teuer und ich sage Ihnen genau, wann Sie es einschalten müssen.

Das ist das Inventar. Nun die eigentlichen Arbeitsabläufe.

Workflow 1: Die kontradiktorische Planungsschleife

Dies ist das Muster, das ich am häufigsten verwende und das im weiteren Verlauf zu den größten Token-Einsparungen führt.

Die Einrichtung ist einfach. Claude Code entwirft zunächst den Implementierungsplan – Schema, Module, Vertragsoberflächen, Reihenfolge der Änderungen. Ich habe es hier lange laufen lassen. Eine 30- bis 90-minütige Planungssitzung mit Claude im Planmodus führt zu einem dichten Markdown-Brief mit spezifischen Dateipfaden, Funktionssignaturen und Migrationsschritten. Dies ist das Heimspiel von Claude. Es ist gut in der Architektur und in der erzählerischen Erklärung, warum die Architektur so geformt ist.

Bevor ich dann eine Implementierungszeile schreibe, löse ich Codex aus. Der native Befehl lautet /codex:review für das Plandokument, aber in der Praxis fordere ich ihn kontrovers auf: „Überprüfen Sie diesen Plan, als wären Sie der Ingenieur, der diesen Code in sechs Monaten erbt und dem ursprünglichen Autor feindlich gesinnt ist.“ Dieser Rahmen ist wichtig. Eine höfliche Bewertung gibt Ihnen kosmetisches Feedback. Ein kontradiktorisches Framing liefert Ihnen die Fehler, die Ihnen wirklich am Herzen liegen.

Was zurückkommt, ist die Art von Feedback, für die Sie einen leitenden Ingenieur bezahlen würden. Bei der Laravel-Migration, die ich oben erwähnt habe, hat Codex die fehlende Fremdschlüsseleinschränkung, eine Soft-Delete-Spalte, die sich in der übergeordneten Tabelle befand, aber in der untergeordneten Tabelle fehlte, und einen eindeutigen Index markiert, der bei gleichzeitigen Schreibvorgängen einen Deadlock ausgelöst hätte. Nichts davon wäre allein aus der Migrationsdatei ersichtlich gewesen – Codex hat sie aus dem umfassenderen Schema und der Controller-Logik abgeleitet, die dieselben Tabellen berührte.

Anschließend läuft die Schleife: Claude aktualisiert den Plan, Codex überprüft erneut, Claude aktualisiert erneut. Normalerweise reichen zwei Runden aus. Drei Runden bedeuten, dass der Plan aus einem anderen Blickwinkel neu geschrieben werden musste und Claude den ursprünglichen Fehler korrigierte. Wenn ich sehe, dass eine dritte Runde nötig ist, verwerfe ich den Plan und beginne mit einer anderen Zerlegung neu.

Hier ist die Kostenerkenntnis, für deren Verinnerlichung ich einen Monat gebraucht habe. Kontroverse Planungssitzungen verbrennen Token, aber sie verbrennen billige Token – die Codex-Überprüfung eines Markdown-Plans umfasst ein paar tausend Input-Tokens und ein paar tausend Output-Tokens. Die Umsetzung hingegen ist die kostspielige Phase. Jeder Fehler, den Sie bei der Planung entdecken, ist ein Fehler, für dessen Schreiben, Debuggen und Beheben Sie nicht bezahlen. Mein grober interner Benchmark für einen typischen Feature-Build: 60 bis 90 Minuten gegnerische Planung sparen etwa 3 bis 5 Stunden Implementierungsiteration. Die Token-Mathematik folgt der gleichen Form.

Die Brücke zum nächsten Muster ist folgende: Planungsschleifen eignen sich hervorragend für Arbeiten auf der grünen Wiese, aber an den meisten Tagen ist man nicht auf der grünen Wiese. Sie befinden sich in einer vorhandenen Codebasis, die bereits eigene Meinungen hat, und benötigen eine andere Form der Hilfe.

Workflow 2: Inkrementeller Build mit Hintergrund-Codex-Audits

Dies ist das Muster, das ich für bestehende Client-Codebasen verwende – Laravel-Apps, Agentur-SaaS-Dashboards, den Content-Stack bei Ramlit, alles davon.

Die Struktur: Claude Code übernimmt den aktiven Aufbau im Vordergrund. Ich bin im Flow. Codex führt /codex:rescue-Prüfungen im Hintergrund auf dem Subsystem aus, das ich gerade berühre.

Der Hintergrundmodus ist hier die Entsperrung. Wenn Sie /codex:rescue mit einem nicht trivialen Bereich auslösen, startet das Plugin die Ausführung als Hintergrundjob und gibt die Kontrolle sofort an Claude Code zurück. Du baust weiter. Einige Minuten später – normalerweise zwischen drei und zwölf, je nach Umfang – ist die Prüfung abgeschlossen. Sie überprüfen /codex:status, um zu sehen, was getan wurde, und dann /codex:result, um die Ergebnisse zu lesen.

Das entscheidende Verhalten: Dies unterbricht Ihren Flow nicht. Der Produktivitätskiller Nummer eins bei der Agentencodierung ist nicht die schlechte Modellausgabe, sondern die Kontextwechselsteuer. Jedes Mal, wenn Sie mit dem Bauen zur Überprüfung aufhören, zahlen Sie auf dem Weg nach draußen eine Wechselgebühr und auf dem Weg zurück eine weitere. Hintergrundprüfungen von Codex eliminieren dies vollständig. Sie sind noch am Bauen, wenn die Überprüfung stattfindet.

Die Form der Audits, die ich am häufigsten durchführe: Sicherheitsüberprüfung für jedes Modul, das die Authentifizierung oder Eingabeanalyse übernimmt, Skalierbarkeitsüberprüfung für jeden Controller, der eine schreibintensive Tabelle berührt, und Überprüfung der Codehygiene für alles, was ich voraussichtlich an einen anderen Entwickler weitergebe. Bei jeder dieser Anfragen handelt es sich um eine parametrisierte Rettungsanforderung. Sie teilen Codex mit, wonach gesucht werden soll, beschränken sie auf das entsprechende Verzeichnis und lassen sie los.

Ein praktischer Hinweis zur Kontextgröße. Das Plugin leitet den relevanten Arbeitssatz an Codex weiter, aber für vollständige Codebasisprüfungen müssen Sie ihm manchmal Bereichshinweise übergeben – welche Verzeichnisse wichtig sind, welche ignoriert werden sollen, welche Pakete angeboten werden. Codex im 1M-Kontextfenster von GPT 5.5 verschluckt mittlere Codebasen als Ganzes, aber bei größeren Monorepos möchten Sie immer noch den Bereich festlegen. Normalerweise verweise ich auf das Verzeichnis, in dem ich aktiv arbeite, sowie auf die direkt angrenzenden Abhängigkeiten (die Modelle, die ein Controller berührt, die Migrationen, die ein Modell berührt) und überspringe alles andere.

Wenn Sie lieber ein Team haben möchten, das dieses gesamte Dual-Agent-Setup als Service für Ihre Codebasis ausführt, ist dies genau die Art von Engagement, die Ramlit für Kunden übernimmt, die Produktions-Laravel und Node-Stacks ausführen – gleiche Muster, unterschiedliche Skalierung.

Das nächste Muster ist dasjenige, das dies von einem schönen Arbeitsablauf in ein echtes Tor in Produktionsqualität verwandelt.

Arbeitsablauf 3: Abschlussprüfung vor der Veröffentlichung

Es gibt einen Grund dafür, dass leitende Ingenieure saubereren Code liefern als Junior-Ingenieure, und das liegt nicht daran, dass sie beim ersten Durchgang weniger Fehler schreiben. Es ist so, dass ihnen die Angewohnheit des letzten Durchgangs eingeprägt ist – der Moment, in dem sie anhalten, zum Anfang des Diffs zurückscrollen und es lesen, als hätten sie es nie geschrieben. Die meisten AI-Codierungsworkflows überspringen diesen Schritt vollständig, da das Modell einfach weiterläuft.

Das Prüfmuster vor der Veröffentlichung stellt es wieder her.

Der Mechanismus: Am Tag vor der Bereitstellung oder in dem Moment, in dem ein Feature-Zweig funktional abgeschlossen ist, wird /codex:rescue gegen das gesamte Diff ausgelöst, wobei der Schwerpunkt auf Sicherheit und Hygiene liegt. Ich formuliere die Bitte so: „Überprüfen Sie diesen Zweig, als wären Sie der Bereitschaftstechniker, der benachrichtigt wird, wenn irgendetwas in dieser PR die Produktion unterbricht.“ Gleiches kontradiktorisches Framing wie in der Planungsschleife, angewendet auf den fertigen Code.

Die Erkenntnisse, die ich aus diesem letzten Durchgang erhalte, fallen in der Regel in vier Bereiche. Erstens: Sicherheitslücken, die Claude nicht melden würde, weil Claude sie geschrieben hat und ein gutes Gefühl dabei hat. Lücken bei der standortübergreifenden Anforderungsfälschung, fehlende Autorisierungsprüfungen auf Routen, die wie Leseendpunkte aussehen, aber tatsächlich den Status ändern, Protokollanweisungen, die stillschweigend vom Benutzer eingegebene Eingaben ausgeben. Zweitens: Datenschutzlücken in Fehlermeldungen. Stacktraces, die Datenbankspaltennamen zurückgeben. Validierungsnachrichten, die bestätigen, ob eine E-Mail im System vorhanden ist. Drittens – leistungsstarke Fußfeuerwaffen. N+1 Abfragen innerhalb einer Blade-Schleife, eine JSON-Spalte, die in einer engen inneren Schleife deserialisiert wird, eine Eloquent-Relation, die auf Lazy-Load eingestellt ist, wenn sie eifrig sein sollte. Viertens – Hygiene. Toter Code, Kommentare, die der Implementierung widersprechen, Funktionsnamen, die darüber lügen, was die Funktion tut.

Keines davon ist für sich genommen katastrophal. Sie alle sind Dinge, die Sie in einem Jahr, wenn Sie versuchen, Ihre eigene Codebasis zu lesen, dazu veranlassen, den Laptop in Brand zu setzen.

Hier kommt es auf die Konfigurationsauswahl an. Sie können das Vorab-Release-Audit als One-Shot-Rettung ausführen oder Sie können das Überprüfungstor mit /codex:setup --enable-review-gate einschalten und Codex bei jeder Claude-Antwort auf dem Zweig einen Stop-Hook veranlassen. Der Stop-Hook-Ansatz ist aggressiver – Codex überprüft jede Claude-Runde, blockiert den Stopp, wenn er Probleme findet, und zwingt Claude, diese zu beheben, bevor Sie fortfahren können. Das ist im Geiste das /codex-auto-review-Endlosschleifenmuster. Es ist auch der Token-teuerste Modus im Plugin. Ich schalte es nur für die letzten 24 Stunden vor einer Produktionsbereitstellung auf sensiblen Codepfaden ein und schalte es wieder aus, sobald die Bereitstellung erfolgt. Die Kosten für die Vollzeitbeschäftigung würden die Grenzen meines Plans innerhalb einer Woche zum Schmelzen bringen.

Dies ist auch das Muster, das gut mit [dem Agenten-Skills-Stack, den ich um Claude Code aufgebaut habe] (https://www.mejba.me/claude-code-skills-stack-bookz-ai-senior-engineer) harmoniert – Pre-Release-Audits, Review-Gates und kompetenzgesteuerte Hooks befinden sich alle auf derselben Architekturebene.

Workflow 4: Delegierte Ausführung, wenn Claude an eine Wand stößt

Meistens besteht das Duo aus Claude-Builds und Codex-Reviews. Aber es gibt Bereiche, in denen Claude auf eine Weise zu kämpfen hat, die es nicht wert ist, bekämpft zu werden. In diesem Fall kehren Sie die Polarität um: Claude wird zum Planer und Codex zum Ausführenden.

Der häufigste Fall ist für mich alles, was Python-lastig ist und eine sorgfältige Typbehandlung erfordert – asynchrone Generatoren, komplexe Datenklassenhierarchien, alles, wo die Eigenheiten des Typsystems eine Rolle spielen. Claude Code auf Opus 4.7 ist hier voll funktionsfähig, aber ich habe festgestellt, dass Codex auf GPT 5.5 bei Aufgaben, bei denen der Fehlermodus subtile Typkonflikte ist, die kompiliert werden, aber zur Laufzeit abbrechen, einen strafferen First-Pass-Code erzeugt. Vielleicht liegt es an der Effizienz des Tokenizers. Vielleicht befindet sich hier nur der Trainingskorpus von GPT 5.5. Ich habe keine klare Erklärung, nur das Muster.

Der Delegationsmechanismus ist /codex:rescue mit einem expliziten Rahmen „Implementieren, nicht nur überprüfen“. Mit dem Plugin können Sie Arbeit delegieren und als Hintergrundjob ausführen – Sie lösen die Anforderung aus, arbeiten in Claude Code weiter an einem anderen Modul und überprüfen erneut, wann Codex die Implementierung zurückgibt. Die Übergabe zurück an die Haupt-Claude Code-Sitzung erfolgt über /codex:result, wodurch das Diff in Ihren Arbeitskontext übertragen wird, wo Claude es aufnehmen, überprüfen und integrieren kann.

Hier kommt es auf Disziplin an. Delegieren Sie keine Arbeit an Codex, die Sie nicht selbst überprüfen können. Der springende Punkt bei der Codierung mit zwei Agenten ist, dass Sie der Entscheider sind – wenn beide Modelle übereinstimmen, versenden Sie; Wenn sie anderer Meinung sind, entscheiden Sie. Wenn Sie etwas delegieren, das so weit außerhalb Ihres Fachwissens liegt, dass Sie nicht sagen können, ob das Ergebnis korrekt ist, kehren Sie zum Einzelmodell-Vertrauen zurück, mit der Ausnahme, dass Sie jetzt dem Modell vertrauen, an das Sie delegiert haben, ohne etwas zu vergleichen. Das ist definitiv schlimmer, als überhaupt nicht zu delegieren.

Die Fälle, in denen die Delegation einwandfrei funktioniert, sind Bereiche, in denen Sie das Problem gut genug verstehen, um eine falsche Antwort zu erkennen, aber die Implementierungsarbeit ist nicht der Bereich, in dem Sie Ihren Morgen verbringen möchten. Das ist eine viel kleinere Oberfläche als „jede Aufgabe, bei der Claude mittelmäßig ist“, und die Disziplin, innerhalb dieser kleineren Oberfläche zu bleiben, sorgt dafür, dass der Arbeitsablauf ehrlich bleibt.

Workflow 5: Die kontinuierliche Schleife für sensible Builds

Dies ist das Muster, nach dem ich für vielleicht einen von zehn Builds greife – die Konfiguration, bei der jeder Teil der vorherigen vier Workflows gleichzeitig im selben Zweig ausgeführt wird.

Das Setup sieht so aus. Planmodus in Claude Code, gepaart mit kontroverser Codex-Überprüfung des Plans. Sobald sich der Plan stabilisiert, beginnt die Umsetzung. Hintergrund-/codex:rescue-Prüfungen werden kontinuierlich für die zu erstellenden Module ausgeführt. Das Überprüfungstor ist aktiviert, sodass Codex jede Claude-Antwort stoppt. Am Ende jedes Arbeitstages wird ein abschließender /codex:rescue gegen das vollständige Diff ausgeführt. Der nächste Morgen beginnt mit der Lektüre der Audit-Ergebnisse über Nacht und der Entscheidung, was vor Beginn des Neubaus repariert werden muss.

Dies ist die Konfiguration mit maximaler Paranoia. Es ist langsam. Es ist teuer. Und bei der richtigen Bauweise lohnt es sich.

Die richtige Art von Build ist alles, wo das Versenden eines Fehlers echte Kosten verursacht, die über „Ich muss einen Hotfix pushen“ hinausgehen. Zahlungsströme. Authentifizierungssysteme. Alles, was mit Kundendaten zu tun hat. Migrationen, die nicht trivial umkehrbar sind. Compliance-relevante Codepfade.

Ich habe diese Konfiguration letzten Monat auf einem HIPAA-angrenzenden Client-Build ausgeführt – einem CRM für das Gesundheitswesen, bei dem das Verhalten des Audit-Protokolls nachweislich korrekt sein musste. Die Endlosschleifenkonfiguration hat zwei Dinge abgefangen, die andernfalls in die Produktion gelangt wären: ein Session-Token-Leck in den Fehlerantworten und eine Berechnung des Aufbewahrungsfensters, die um eine Wochentagsgrenze daneben lag. Beides wäre ein regulatorisches Durcheinander gewesen. Beide stammten aus Codex-Überprüfungsdurchgängen, die Claude nicht einzeln markiert hätte, weil Claude sie geschrieben und als erledigt betrachtet hat.

Außerhalb dieser Fälle, in denen viel auf dem Spiel steht, ist die Endlosschleife übertrieben. Allein die Token-Rechnung macht es für Routinearbeiten unhaltbar. Aber zu wissen, wann man es einschalten muss – und diszipliniert dabei zu sein, es wieder auszuschalten – ist das, was „Ingenieure, die AI verwenden“ von „Ingenieuren, die AI gut verwenden“ unterscheidet.

Eine echte Demo: Der URL-Shortener-Build

Lassen Sie mich es auf ein konkretes Projekt übertragen, damit die Abstraktion ankommt.

Ich habe einen URL-Shortener erstellt – eine Art „kleines SaaS-Projekt“, das tatsächlich voller Randfälle ist. Bitly-Stil. Benutzerdefinierte Slugs, Ablaufdaten, Klickanalyse, Ratenbegrenzung, das funktioniert. Stack: Next.js 15-Frontend, Postgres-Backend, bereitgestellt auf einem VPS für 20 $ pro Monat.

Claude Code hat das erste Gerüst erstellt. Drei Stunden, einzelne Opus 4.7-Sitzung, saubere Ausgabe. Die App wurde bei der ersten Bereitstellung ausgeführt. Die Authentifizierung hat funktioniert. Die Verkürzung hat funktioniert. Das gerenderte Analyse-Dashboard. Nach vernünftigem Ermessen war der Bau abgeschlossen.

Dann habe ich /codex:rescue für die gesamte Codebasis ausgeführt, mit dem Ziel, „die Dinge zu finden, die mir schaden, wenn dies auf echten Datenverkehr trifft“.

Was zurückkam, war unangenehm. Codex hat sechs Probleme gemeldet. Die Slug-Generierung verwendete Math.random() für Shortcodes, was in Ordnung ist, bis es zu Kollisionen in der Shortlink-Tabelle kommt – zu diesem Zeitpunkt war die Wiederholungslogik eine enge Schleife ohne Backoff. Bei der Verarbeitung des Ablaufdatums wurde überall UTC angenommen, aber das Eingabeformular akzeptierte die Ortszeit ohne Konvertierung, was bedeutete, dass jeder Link, der „heute“ abläuft, als bereits abgelaufen aufgelöst werden konnte, je nachdem, auf welcher Seite von Mitternacht der Benutzer lebte. Die Ratenbegrenzung erfolgte pro IP, aber es gab keine Upstream-Proxy-Header-Prüfung, sodass eine einzelne Cloudflare-IP den Bucket für alle dahinter erschöpften Personen erschöpfen konnte. Und so weiter.

Dann habe ich /codex:rescue erneut ausgeführt, dieses Mal speziell auf die Link-Ablauffunktion mit gegnerischem Framing ausgerichtet – „Fordern Sie dieses Design aus der Perspektive von jemandem heraus, der versucht, es zu brechen.“ Codex kam mit Randfällen zurück, die ich mir noch nicht einmal im Kopf vorgestellt hatte: Zeitzonenversätze bei der Ablaufprüfung, Links, die genau um Mitternacht am Grenztag ablaufen, die Frage, was „abgelaufen“ bedeutet, wenn der Klick und die Prüfung während einer Sommerzeitumstellung im Abstand von 30 Sekunden erfolgen.

Keines davon wäre von Claude allein sauber ausgeliefert worden. Auch bei einer einzelnen menschlichen Überprüfung wäre nichts davon aufgetaucht, da menschliche Prüfer dazu neigen, sich auf den Code zu konzentrieren, der vorhanden ist, und nicht auf den Code, der fehlt. Der Adversarial-Review-Modus von

Der Shortener ging in Produktion, wobei alle sechs Probleme behoben waren. Kosten für den Dual-Agent-Lauf: ein paar Dollar in Codex-Tokens gegen den Anthropic-Plan, für den ich bereits bezahlt habe. Kosten, wenn ich den Original-Build nur für Claude ausgeliefert und die Fehler in der Produktion behoben hätte: mindestens ein Wochenende mit Patches, möglicherweise ein Sicherheitsvorfall, mit ziemlicher Sicherheit ein Ausfall beim Kundensupport.

Diese Mathematik ist das A und O.

Die Preis- und Planmathematik

Hier ist die Dual-Agent-Einrichtung tatsächlich finanziell sinnvoll, denn die offensichtliche Sorge besteht darin, dass die Ausführung von zwei kostenpflichtigen AI-Stufen Ihre Rechnung verdoppelt. Das ist nicht der Fall – wenn Sie die Pläne richtig aufstellen.

Mein aktuelles Setup: Claude Code im Anthropic-Plan für 100 US-Dollar pro Monat, wobei Opus 4.7 als Standardmodell festgelegt ist. Das ist das Arbeitstier. Der größte Teil der eigentlichen Codegenerierung, -planung und -konversation findet hier statt, und die höhere Stufe ist gerechtfertigt, da Opus-Ausführungen die kostspieligeren sind.

Codex basiert auf dem OpenAI-Plan für 20 US-Dollar pro Monat. Das Plugin verwendet Codex selektiv – für Überprüfungsdurchgänge, Hintergrundprüfungen und gelegentliche delegierte Ausführung. Der Tokenverbrauch auf der Codex-Seite ist deutlich geringer als auf der Claude-Seite, da Codex nicht die schwere Generierung durchführt. Es geht um Kritik. Kritik ist billiger als Schöpfung. Der 20-Dollar-Plan bewältigt das Volumen bequem für einen Ein-Entwickler-Workflow mit einem gesunden Build-Rhythmus.

Die kombinierten monatlichen Ausgaben betragen 120 $. Verglichen mit dem Claude-only-Setup für 100 US-Dollar, das ich zuvor ausgeführt habe, ist das eine Steigerung der Werkzeugkosten um 20 Prozent. Die Ausgabequalität stieg so weit an, dass sich die Rechnung bei einem einzigen Kundenauftrag mehr als auszahlt – ein Produktionsfehler, der nicht ausgeliefert wird, ist mehr als ein Jahr der Differenz wert.

Es gibt eine Konfiguration, bei der man vorsichtig sein muss: Das Review-Gate kann, wenn es eingeschaltet bleibt, Codex-Token schneller durchkauen, als der 20-Dollar-Plan bequem absorbieren kann. Wenn Sie „Review-Gate-On“ als Standardmodus verwenden, benötigen Sie eine höhere OpenAI-Stufe. Ich lasse das Überprüfungstor standardmäßig ausgeschaltet und schalte es nur für die letzten 24 Stunden vor einer sensiblen Bereitstellung ein. Das hält die Planmathematik ehrlich.

Die konträre Implikation: Sie sollten Codex nicht auf einem höheren Plan als Claude ausführen, es sei denn, Ihr Workflow ist umgekehrt (Codex führt die primäre Generierung durch, Claude führt die Überprüfung durch). Bei den meisten Builds ist Claude der schwere Generator und Codex der chirurgische Prüfer, und die Planebenen sollten diese Asymmetrie widerspiegeln.

Was das für Nicht-Ingenieure bedeutet

Wenn Sie Content-Stacks, Agent-Workflows oder Betriebsautomatisierung anstelle von Produktionscode erstellen, gilt weiterhin das Dual-Agent-Muster – und ich führe es auf meiner eigenen Multi-Marken-Content-Pipeline aus, die das meiste von mejba.me und der Markenfamilie durchläuft.

Die Form ist gleich. Claude entwirft die Agenten-Eingabeaufforderung, die Workflow-Definition und die Inhaltsgenerierungslogik. Codex überprüft die Eingabeaufforderung auf Mehrdeutigkeiten, den Workflow auf Fehlermodi und die Inhaltslogik für Randfälle. Wenn ich einen neuen Inhaltsagenten erstelle, bitte ich normalerweise Claude, die Systemeingabeaufforderung zu schreiben, und bitte dann Codex, alle Möglichkeiten zu finden, wie diese Eingabeaufforderung falsch gelesen werden könnte. Die Anzahl der latenten Fehler, die auftauchen, ist durchweg höher als ich erwartet habe.

Es gibt ein ähnliches Muster bei der Art und Weise, wie ich das Agenten-Team-Gerüst betreibe: Planungsfähigkeiten in Claude Code, Ausführungsfähigkeiten, die an Codex delegiert werden, wenn die Aufgabe chirurgische Präzision erfordert. Ich habe die Ebene der grundlegenden Fähigkeiten in meinem Artikel über die besten Claude Code-Fähigkeiten für Geschäftseffizienz behandelt, und die Dual-Agent-Erweiterung dieses Stapels ist jetzt der Workflow.

Der Grundsatz, der sowohl für die technische als auch für die operative Arbeit gilt: Bitten Sie nicht ein Modell, der Erbauer und Kritiker zu sein. Die Stellenbeschreibungen sind unterschiedlich. Die kognitiven Rahmen sind unterschiedlich. Die Ausgaben, die Sie von einem Modell im „Erstellungsmodus“ erhalten, unterscheiden sich strukturell von den Ausgaben, die Sie von demselben Modell im „Überprüfungsmodus“ erhalten. Die Aufteilung der Rolle auf zwei Spezialisten mit unterschiedlichen Persönlichkeiten führt zu deutlich besseren Ergebnissen, als wenn man einen einzelnen Spezialisten dazu auffordert, beide Rollen zu tragen.

Die Grenzen, über die es sich zu wissen lohnt

Ein so guter Workflow braucht einen ehrlichen Haftungsausschluss.

Erstens ist das Plugin noch jung. Es wurde kürzlich ausgeliefert und die Slash-Befehlsoberfläche wird weiterentwickelt. Die genauen Befehlsnamen und Flags, die ich heute verwende, werden wahrscheinlich in den nächsten Monaten überarbeitet. Behandeln Sie das offizielle Codex plugin-Repo als Ihre Quelle der Wahrheit für die aktuelle Syntax – was ich hier beschrieben habe, ist das Muster, nicht unbedingt die exakte Beschwörung für immer.

Zweitens sind die beiden Modelle manchmal in einer Weise unterschiedlich, die nicht produktiv ist. Es gibt Fälle, in denen Codex ein Problem meldet, das Claude korrekt umgeleitet hat, oder in denen Claude etwas implementiert, das Codex anders erstellt hätte, aber keine der beiden Versionen falsch ist. Der Arbeitsablauf geht davon aus, dass Sie als Mensch der Schiedsrichter sind. Wenn Sie bei einer bestimmten Meinungsverschiedenheit nicht sagen können, welches der beiden Modelle richtig ist, degradiert das Dual-Agenten-Muster zu „zwei AIs streiten, während Sie zuschauen“. Wählen Sie die Meinungsverschiedenheiten aus, die Sie tatsächlich lösen können.

Drittens besteht die reale Gefahr der Entscheidungsmüdigkeit. Das Durchführen kontroverser Rezensionen zu allem macht jedes Feature zu einer Debatte. Das Muster funktioniert, weil die Überprüfungen zeitlich begrenzt sind – kontroverse Planung am Anfang, Audits am Ende, normale Überprüfungen auf Abruf in der Mitte. Wenn Sie „Review-Gate-On“ als Standardmodus aktivieren und nie wieder ausschalten, verschärft sich die Reibung und der Produktivitätsgewinn kehrt sich um. Die Disziplin, wann jedes Muster ausgelöst wird, ist der Unterschied zwischen „Das ist der Arbeitsablauf“ und „Das ist der Grund, warum ich aufgehört habe, AI zu verwenden“.

Viertens können die Kosten steigen. Die von mir beschriebene Planrechnung ist das, was ich bei meiner Arbeitsbelastung beobachte – ein Ingenieur, mehrere Marken, ein paar Dutzend Builds pro Monat. Wenn Sie es in einem Team ausführen oder ständig weiterentwickeln, müssen Sie den Token-Verbrauch direkt verfolgen, anstatt darauf zu vertrauen, dass die Planstufen ihn absorbieren. /codex:status und /codex:result des Plugins sind sowohl Observability-Tools als auch Workflow-Tools. Verwenden Sie sie, um die Rechnung sichtbar zu halten.

Fünftens ist dies kein Ersatz für die Codeüberprüfung durch einen Menschen, der Ihre Domäne tatsächlich versteht. Bei beiden Modellen handelt es sich um Mustervergleicher, die mit Trainingsdaten arbeiten. Sie fangen sich die Art von Käfern ein, die sie schon einmal gesehen haben. Ein neuartiger architektonischer Fehler – etwas, das in einer Weise falsch ist, die noch niemand dokumentiert hat – wird an beiden vorbeigehen. Das Dual-Agent-Muster erhöht Ihren Boden; Es hebt Ihre Decke nicht an. Die Beurteilung durch erfahrene Mitarbeiter ist immer noch wichtig, insbesondere bei Anrufen, die noch nicht im Schulungskorpus enthalten sind.

Das Einzige, was Sie diese Woche ausprobieren sollten

Wenn Sie ein einzelnes konkretes Experiment wünschen, das Ihnen Aufschluss darüber gibt, ob dieser Workflow zu Ihrem Build-Stil passt: Installieren Sie das Plugin heute Abend und führen Sie morgen früh /codex:review auf dem aus, was Sie am Ende des Tages ausliefern.

Das ist es. Strukturieren Sie Ihren Arbeitsablauf nicht neu. Aktivieren Sie das Review-Gate nicht. Führen Sie keine kontroversen Planungsschleifen durch. Nehmen Sie einfach alles, was Claude Code Ihnen morgen beim Aufbau hilft, und fragen Sie Codex direkt vor dem Commit, was es sieht.

Wenn die Überprüfung nichts ergibt – Codex stimmt zu, dass der Code sauber ist, keine Notizen – haben Sie zehn Cent ausgegeben und bestätigt, dass Claude alles richtig gemacht hat. Das allein ist schon etwas wert. Vertrauen ist ein Ergebnis.

Wenn die Überprüfung drei Dinge enthält, die Sie nicht gesehen haben – und das ist bei den meisten Builds der Fall –, haben Sie gerade herausgefunden, welche Art von Fehlern Ihr aktueller Workflow verursacht, und das zum Preis eines Codex-Laufs. Bei beiden Ergebnissen handelt es sich um Informationen, die Sie ohne das zweite Modell in der Schleife nicht hätten erhalten können.

Der Workflow wird von da an umfangreicher. Die Planungsschleifen, die Hintergrundprüfungen, die Pre-Release-Gates, die kontinuierlichen Schleifen für sensiblen Code – all das ergibt sich aus demselben Startschritt. Zwei Modelle, ein Terminal, Builder und Skeptiker im selben Workflow.

Die Modelldebatte war die falsche Debatte. Die eigentliche Frage war immer: Welches ist das richtige Team? Es stellt sich heraus, dass das Team aus zwei Spezialisten besteht, die sich produktiv widersprechen, und Sie sind der Ingenieur, der entscheidet, wer Recht hat. Das ist ein besserer Job, als der Ingenieur zu sein, der ein Modell auswählt und es auf Twitter verteidigt.

Am Samstagmorgen vor sechs Wochen war ich fast der Ingenieur, der das Plugin nicht installiert hat. Ich bin froh, dass ich es nicht bin.

Häufig gestellte Fragen

Was ist der Codex plugin für Claude Code?

Codex plugin ist die offizielle Integration von OpenAI, mit der Sie Codex-Slash-Befehle in Claude Code ausführen können, ohne die Sitzung zu verlassen. Es macht Codex als Codeprüfer, Codebasisprüfer und delegierter Ausführer verfügbar, mit Befehlen wie /codex:review, /codex:rescue, Die vollständigen Workflow-Muster finden Sie in den fünf Workflows oben.

Benötige ich separate Pläne für Claude Code und Codex?

Ja – Claude Code verwendet Ihren Anthropic-Plan und Codex verwendet Ihren OpenAI-Plan. Das Duo ist kostengünstig, da Codex das preisgünstigere Tool in einer Bauherren-/Rezensenten-Aufteilung ist. In meinem aktuellen Setup läuft der Anthropic-Plan für 100 US-Dollar mit Opus 4.7 als Primärversion und der OpenAI-Plan für 20 US-Dollar für Codex-Überprüfungsarbeiten, was für einen Entwickler insgesamt 120 US-Dollar pro Monat ergibt.

Wann sollte ich das Codex-Bewertungsportal aktivieren?

Aktivieren Sie das Review-Gate über /codex:setup --enable-review-gate nur für die letzten 24 Stunden vor einer Produktionsbereitstellung auf sensiblen Codepfaden – Zahlungen, Authentifizierung, alles Compliance-relevante. Wenn Sie es aktiviert lassen, da Ihr Standardmodus Codex-Tokens schneller brennt, als der Standardplan absorbiert, und die Iteration erheblich verlangsamt. Deaktivieren Sie es, sobald die Bereitstellung erfolgt.

Funktioniert das Plugin für nicht-codierende Workflows wie Inhalte oder agent stacks?

Ja – das Dual-Agent-Muster lässt sich direkt auf Content-Pipelines und Agent-Workflows übertragen. Claude entwirft Eingabeaufforderungen, Systemmeldungen und Workflowdefinitionen; Codex überprüft sie auf Mehrdeutigkeit, Fehlermodi und Randfälle. Ich führe dies auf meinem Multi-Marken-Content-Stack aus und es werden latente Fehler sichtbar, die das Einzelmodell-Setup nie entdeckt hat.

Werden sich die Slash-Befehlsnamen ändern, wenn das Plugin aktualisiert wird?

Wahrscheinlich ja – das Plugin ist neu und die Befehlssyntax wird sich in den nächsten Release-Zyklen weiterentwickeln. Behandeln Sie das offizielle Codex plugin GitHub-Repo als Ihre Quelle der Wahrheit für aktuelle Befehle. Die hier beschriebenen Workflow-Muster bleiben auch dann stabil, wenn sich einzelne Befehlsnamen ändern.

Lasst uns zusammenarbeiten

Looking to build AI systems, automate workflows, or scale your tech infrastructure? Ich würde gerne helfen.

Fiverr (benutzerdefinierte Builds und Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Unternehmenslösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io

Claude Code + Codex: Der Dynamic-Duo-Workflow, der liefert