Codeex Review: Ich baute ein KI-System für YouTube-Kommentare

Ich habe Codeex fast ignoriert. Eine weitere Desktop-AI-App, eine weitere Reihe kühner Behauptungen über die „Automatisierung Ihres gesamten Arbeitsablaufs“, ein weiterer GPT-Wrapper, der vorgibt, eine Plattform zu sein. Ich hatte Claude Code ganz gut vor sich hin, Agenten verrichteten echte Arbeit, und ich war mitten in einer Vercel-Bereitstellung, als ein Freund eine einzelne Zeile in Slack einfügte: „Dieses Ding hat mir einfach eine funktionierende App aus einer Tabellenkalkulation erstellt, meinen Browser geöffnet, sie bereitgestellt und einen wöchentlichen Cron geplant – in einem Chat.“

Ich habe die Registerkarte „Bereitstellen“ geschlossen und an diesem Abend die Super-App Codeex AI heruntergeladen.

Elf Tage später hatte ich etwas gebaut, an dem ich sechs Monate lang gearbeitet hatte: ein YouTube Comment Intelligence System, das die letzten 200 Kommentare aus meinem Kanal abruft, sie nach Signal ordnet, eine Excel-Arbeitsmappe mit mehreren Registerkarten mit Diagrammen generiert, ein Localhost-Dashboard versendet, es unter einer öffentlichen Vercel-URL bereitstellt und das Ganze jeden Montagmorgen aktualisiert, während ich noch schlafe. Keine Klebeskripte. Kein Kopieren und Einfügen zwischen fünf Tools. Eine Konversation, ein Projektordner und eine Haustieranimation in der Ecke des Fensters, die mir erzählt, was im Hintergrund läuft.

Ich wünschte, jemand hätte mir diesen Beitrag gegeben, bevor ich angefangen habe. Es ist ein echtes Build-Protokoll, eine ehrliche Rezension und ein Vergleich mit Claude Code – denn die Frage, die ich immer wieder von Lesern in meinem Posteingang bekam, war nicht „Ist Codeex gut?“ Es war „Muss ich Claude Code dafür fallen lassen?“ Die Antwort ist interessanter als entweder Ja oder Nein.

Warum Codeex meine Aufmerksamkeit erregte, als ich nicht hinsah

Die Tonhöhe klingt in jeder AI-Desktop-App gleich. Sie alle versprechen, Ihre Dateien zu lesen, auf Ihre Schaltflächen zu klicken, Ihren Code zu schreiben und im Allgemeinen fünfzehn Ihrer Tools durch ein Chat-Fenster zu ersetzen. Die meisten von ihnen brechen bei Kontakt mit einem echten Arbeitsablauf zusammen.

Was mich zur Super-App Codeex AI hingezogen hat, war eine spezielle Demo, die ein Entwickler, dem ich vertraue, gepostet hat. Er zeigte Codeex auf einen Ordner mit CSVs und forderte ihn auf, „mir ein Dashboard zu erstellen, es bereitzustellen und mir per E-Mail eine wöchentliche Zusammenfassung zu senden“. Das Video war achtzehn Minuten lang und ungeschnitten. In Minute vierzehn war das Dashboard unter einer öffentlichen URL verfügbar und ein Cron-Job war geplant. In den letzten sechs Minuten hat er seine Tastatur nicht berührt – Codeex führte selbstständig Browseraktionen aus und navigierte durch GitHub, Vercel und Gmail wie ein Junior-Entwickler, der seit sechs Monaten im Unternehmen ist.

Eine solche lückenlose Autonomie ist selten. Cursor kann gut programmieren. Claude Code kann hervorragend denken. Die meisten „Agenten“-Apps fallen auseinander, sobald sie die IDE verlassen und einen echten Browser oder eine echte Tabellenkalkulation berühren müssen. Codeex nicht. Also habe ich mir ein Wochenende Zeit genommen und es so getestet, wie ich jedes Tool teste, das ich hier behandele – indem ich etwas gebaut habe, das ich tatsächlich brauchte, von Grund auf, ohne dass ein Ausstieg auf andere Tools möglich war.

Das war das YouTube-Kommentarsystem. Hier ist der Haken, den ich gleich vorweg verraten möchte: In der dritten Stunde habe ich die Regel gebrochen und trotzdem Claude Code geöffnet. Ich werde später erklären, warum – und warum ich jetzt beides nebeneinander laufen lasse, anstatt zu wählen.

Was Codeex eigentlich ist, wenn Sie es öffnen

Codeex ist eine Desktop-Chat-App, die einen OpenAI-basierten Agenten (der derzeit GPT 5.4 und GPT 5.5 in der Modellumschaltung verfügbar macht) mit einer Reihe von Funktionen umschließt, über die die meisten Chat-Apps nicht verfügen: echten lokalen Dateizugriff, Maus- und Tastaturautomatisierung, Browsernavigation, App-Steuerung und ein Rezeptsystem namens Skills, das Sie mit Schrägstrichbefehlen aufrufen können. Die Benutzeroberfläche ist unkompliziert – die linke Seitenleiste enthält Ihre Projekte und Chats, das rechte Feld ist die Konversation und in der oberen Leiste können Sie das Modell umschalten und zwei Schieberegler verwenden.

Diese beiden Schieberegler sind wichtiger, als die meisten Rezensionen erwähnen. Das erste ist Geschwindigkeit, das zweite ist Intelligenz. Es gibt vier benannte Intelligenzstufen: niedrig, mittel, hoch und besonders hoch. Sie zeigen an, wie viel Gedankenkette das Modell verbrennt, bevor es handelt. Low ist schnell und dumm. Bei „Extra High“ sitzen Sie zwei Minuten lang da und denken nach, bevor Sie eine einzelne Datei schreiben. Ich werde in der Build-Komplettlösung darauf zurückkommen, wenn jedes einzelne richtig ist, denn die Auswahl der falschen Ebene ist der Hauptgrund dafür, dass Leute im Discord Beschwerden über „Codeex ist zu langsam“ oder „Codeex hat mein Projekt überentwickelt“ posten.

Was mich am ersten Tag überraschte, war die Breite. Codeex bearbeitet nicht nur Dateien. Es wird:

Öffnen Sie Excel und schreiben Sie in bestimmte Zellen, erstellen Sie Diagramme und verwalten Sie mehrere Registerkarten
Steuern Sie Ihren Browser durchgängig – füllen Sie Formulare aus, klicken Sie auf Schaltflächen, scannen Sie eine Seite, überprüfen Sie eine Bereitstellung
Lesen und schreiben Sie alle Dateien auf Ihrem Computer, auf die Ihr Benutzer Zugriff hat
Rufen Sie externe APIs und Plugins auf (einige erfordern, dass Sie Ihren eigenen API-Schlüssel in den .env.local des Projekts einfügen).
Führen Sie während eines meiner Stresstests echte GUI-Apps aus – komischerweise auch Videospiele
Führen Sie in der Ecke eine Haustierfunktion aus, die animiert wird, während Hintergrundaufgaben ausgeführt werden, sodass Sie tatsächlich wissen, ob sie noch aktiv ist

Letzteres hört sich nach einer Spielerei an, bis Sie neunzig Sekunden lang vor einem Chatfenster gesessen und sich gefragt haben, ob der Agent abgestürzt ist. Das animierte Haustier ist der Indikator für „laufende Aufgaben“, von dem ich nicht wusste, dass ich ihn brauche. Es ist klein, aber es sind die Details, die einem zeigen, dass das Team versteht, wie es sich anfühlt, dieses Tool für echte Arbeit zu verwenden.

Der andere Teil, den man verstehen sollte, bevor wir etwas bauen, ist das Skill-System. Ein Skill in Codeex ist ein Markdown-Rezept – buchstäblich eine .md-Datei, die einen mehrstufigen Workflow beschreibt, welche Tools er braucht und welche Form die Ausgabe haben soll. Sie können Skills global speichern (verfügbar in jedem Projekt) oder lokal (auf ein Projekt beschränkt). Aufgerufen werden sie mit einem Slash-Befehl im Chat. Wenn Sie Agent Skills in Claude Code genutzt haben, kommt Ihnen das bekannt vor – das Muster ist dasselbe, die Umsetzung ist nur OpenAI-geprägt.

Diese Konvergenz ist eines der interessantesten Dinge, die derzeit im Agenten-Tooling passieren: Jeder ernsthafte Spieler landet auf demselben Grundelement, nämlich einem „kleinen Markdown-Rezept, das dem Modell sagt, wie es sich für eine bestimmte Aufgabe verhalten soll“. Es wird zum Standard, unabhängig davon, ob es jemand zugibt.

Codeex vs. Claude Code vs. Cloud Code: Der ehrliche Vergleich

Drei Werkzeuge, drei Philosophien. Bevor ich Ihnen den Bau zeige, hier die Aufschlüsselung, die ich einem Freund beim Kaffee geben würde:

Cloud Code (das gehostete, verwaltete Agentenprodukt von Anthropic) läuft auf Opus und Sonnet, befindet sich in der Cloud und basiert auf lang andauernder, überwachter Arbeit. Man gibt ihm ein Ziel, es geht los und kommt mit einem Ergebnis zurück. Am besten für Aufgaben geeignet, bei denen Sie eine manuelle Ausführung auf einer Remote-Box wünschen.

Claude Code ist die lokale CLI, die die meisten Leser hier bereits kennen – Opus oder Sonnet, terminalgesteuert, in Ihr Repo eingebunden, mit Hooks, Fähigkeiten und dem Agenten-SDK. Es ist die Version, die ich den ganzen Tag für Code-intensive Arbeiten verwende, und die, die ich standardmäßig verwende, wenn das Denken wichtiger ist als das Tun.

Codeex ist eine Desktop-App von GUI auf den Chat-Modellen von Es kommt dem „Betriebssystem-Layer für die Arbeit mit AI“ am nächsten, was ich je verwendet habe – das heißt, es bearbeitet nicht nur Code, sondern betreibt Ihren Computer.

Nach elf Tagen ist hier das Muster, bei dem ich gelandet bin:

Aufgabe	Bestes Tool	Warum
Brainstorming, Architekturentscheidungen, „Was soll ich bauen?“	Claude Code	Die Opus-Argumentation ist bei mehrdeutigen Designfragen weiterhin stärker
Longform-Content, komplexes Prompt-Design, SEO-Texte	Claude Code	Besseres Befolgen subtiler Stimm- und Strukturregeln
Mehrstufige Ausführung über Dateien, Browser, APIs und Deployments hinweg	Codeex	Engere Schleifen, weniger Handholding, Browser-Automatisierung funktioniert wirklich
Debugging einer hängenden Pipeline, „Warum läuft das nicht?“	Codeex	Pragmatisch: probiert Dinge aus und berichtet zurück
Code Review und Refactoring einer bestehenden Codebase	Claude Code	Schärferes Repo-Kontextbewusstsein
Neues Projekt vom leeren Ordner bis zur live bereitgestellten URL	Codeex	Hier glänzt die End-to-End-Orchestrierung

Ration ist dort, wo es glänzt |

Sie ergänzen sich, sie konkurrieren nicht direkt. Ich lasse Claude Code in iTerm offen und Codeex auf dem zweiten Monitor. Claude Code denkt, Codeex führt aus. Als ich versuchte, eines von beiden beide Rollen übernehmen zu lassen, verlor ich in beide Richtungen Zeit. Wenn Sie besser verstehen wollen, wo Claude Code weiterhin dominiert, beschreibt mein Beitrag mit 32 Claude-Code-Power-User-Hacks die Dinge, die Codeex wirklich nicht nachbilden kann.

Jetzt lasst uns bauen.

Der Build: Ein YouTube Kommentar-Intelligence-System, vom leeren Ordner zur Live-URL

Das Ziel: Die letzten ca. 200 Kommentare aus meinem Kanal abrufen, analysieren, einen strukturierten Excel-Bericht mit Diagrammen und Registerkarten ausgeben, ein Localhost-Dashboard für die Live-Erkundung erstellen, dieses Dashboard unter einer öffentlichen Vercel-URL bereitstellen und eine wöchentliche automatische Aktualisierung planen, die die gesamte Pipeline erneut ausführt.

In Claude Code würde ich dies als ungefähr zwölf Unteraufgaben auf vier Agenten planen. In Codeex habe ich es in einem Chat mit acht Eingabeaufforderungen gemacht. Hier erfahren Sie genau, wie.

Schritt 1: Projekt-Setup und die Agents.mmd-Onboarding-Datei

Ich habe auf meinem Desktop einen leeren Ordner namens youtube-comment-intel erstellt und ihn als neues Projekt nach Codeex gezogen. Das erste, wonach Codeex in jedem Projektstammverzeichnis sucht, ist eine Onboarding-Markdown-Datei. Die Konvention ist agents.mmd – eine kleine Datei, die dem Agenten mitteilt, wer es ist, was das Projekt tut, welche Konventionen zu befolgen sind und wo sich die wichtigen Dateien befinden.

Meins begann mit fünf Zeilen:

Goal: pull recent comments from YouTube channel UC..., analyze sentiment
and topics, output Excel report + dashboard, deploy weekly.

API keys live in .env.local
Source code lives in /src
Output reports live in /reports

Codeex Lesen Sie es, bevor Sie etwas anderes tun. Es lohnt sich, darüber nachzudenken – die meisten Desktop-AI-Apps werden mit ihren eigenen Annahmen weitermachen. Codeex sucht aktiv nach der Datei agents.mmd, so wie Claude Code nach CLAUDE.md sucht. Wenn Sie Ihre Projektdateien als das AI-Betriebssystem behandeln – was bedeutet, dass der Markdown, die Env-Dateien und die Ordnerstruktur die Quelle der Wahrheit sind, die jedes AI-Tool lesen kann – wird Ihre Arbeit über mehrere Tools hinweg portierbar, anstatt in einem einzigen Tool gebunden zu sein.

Das ist die am meisten unterschätzte Best Practice, die ich in den letzten sechs Monaten verinnerlicht habe. Der agents.mmd meines YouTube-Projekts konnte von Claude Code ohne Änderung gelesen werden, als ich später denselben Ordner in iTerm öffnete. Die Skill-Dateien, die ich in Codeex geschrieben habe, waren mit geringfügigen Formatänderungen zu 90 % in Claude Code wiederverwendbar. Diese Portabilität ist nur möglich, wenn Sie sich vom ersten Tag an auf Projektdateien als Betriebssystem festlegen.

Schritt 2: Datenerfassung mit YouTube Data API v3

Nächste Eingabeaufforderung: „Richten Sie den YouTube Data API v3-Zugriff ein. Wir müssen die letzten 200 Kommentare aus meinem Kanal abrufen. Führen Sie mich durch die Beschaffung des Schlüssels und schreiben Sie dann das Abrufskript.“

Intelligenzniveau in diesem Fall: mittel. Bei der Planungsarbeit ist kein besonders hoher Aufwand erforderlich – das Modell muss klar und nicht erschöpfend denken.

Codeex hat mich Schritt für Schritt durch den Google Cloud Console-Ablauf geführt – ein Projekt erstellen, YouTube Data API v3 aktivieren, einen API-Schlüssel generieren, ihn auf diesen API beschränken. Mithilfe der Browserautomatisierung wurden die Browser-Registerkarten für mich geöffnet. Ich klickte durch, kopierte den Schlüssel und Codeex schrieb ihn direkt in .env.local, ohne jemals den Rohwert wieder im Chat anzuzeigen (ein kleiner Sicherheitsaspekt, den ich bemerkte und schätzte).

Dann wurde das Abrufskript geschrieben. Node, Axios, paginierte Aufrufe an commentThreads.list mit Beim ersten Durchlauf wurden 197 Kommentare abgegeben. Von „Lass uns den API einrichten“ bis „Wir haben Daten“ in weniger als drei Minuten erledigt.

Hier beginnt Codeex, den reinen Chat-Tools einen Schritt voraus zu sein. Die Browser-Automatisierung ist keine Demo – sie ist lastentragend. Der Agent navigierte durch console.cloud.google.com, klickte durch drei modale Dialoge und überprüfte, ob der Schlüssel aktiv war, indem er einmal auf API drückte, bevor er ihn in .env.local ablegte. Ich habe beobachtet, wie Cursor dies versuchte und scheiterte. Ich habe gesehen, wie Claude Code dies versucht und mich gebeten hat, es manuell zu tun. Codeex hat es einfach geschafft.

Schritt 3: Auswahl des richtigen Intelligenzniveaus für den richtigen Job

Vor dem nächsten Schritt möchte ich die Einstellungen des Schiebereglers verlangsamen, da hier die meisten Codeex-Rezensionen schiefgehen.

Höhere Intelligenz ist nicht immer besser. Bei besonders hohem Wert gibt der Agent mehr Token aus, benötigt mehr Zeit und – das ist der Schlüssel – manchmal zu viel. Ich habe es einmal bei Extra-High darum gebeten, „ein schnelles Skript zu schreiben, um diese Kommentarliste zu deduplizieren“. Es gab mir ein 180-Zeilen-Modul mit benutzerdefinierten Fehlerklassen, einem Logger, Wiederholungslogik und einer CLI-Schnittstelle. Für ein dreißigzeiliges Drehbuch.

Das Muster, das funktioniert:

Niedrig / Mittel für Planung, Brainstorming, einfache Dateibearbeitung, „Wie soll ich diese Spalte nennen?“
Hoch für tatsächliche Builds, bei denen es auf Korrektheit ankommt
Extra hoch zum Debuggen seltsamer Fehler, komplexer Refaktoren und allem, wo das Modell wirklich intensiv nachdenken soll

Ich habe während des Baus ständig zwischen diesen gewechselt. Planen Sie auf mittlerem Niveau, bauen Sie auf hohem Niveau, debuggen Sie auf extra hohem Niveau. Wenn Sie den Schieberegler den ganzen Tag über auf „Extra hoch“ belassen, verbrennen Sie Token, stoßen schneller auf Kontextgrenzen und sehen zu, wie der Agent die Arbeit erledigt, die es nicht brauchte.

Die Token- und Kontextfensterverwaltung ist der andere Teil, den niemand erwähnt. GPT 5.5 verfügt über ein großzügiges Kontextfenster, das jedoch nicht unendlich ist, und sobald Sie in einem einzigen Chat dreitausend Zeilen lang sind, beginnt der Abruf zu schwächeln. Ich habe gelernt, für jede größere Phase des Projekts (Daten, Analyse, Dashboard, Bereitstellung) einen neuen Chat zu starten und dabei den gleichen Projektordner beizubehalten. Codeex behält den Projektkontext – Dateiinhalte, agents.mmd, frühere Fähigkeiten – über Chats hinweg bei. Der Chatverlauf ist nur das Arbeitsgedächtnis für eine Phase, nicht die Quelle der Wahrheit.

Schritt 4: Das Excel-Ergebnis, das mich überzeugt hat

Der lustige Teil. Eingabeaufforderung: „Nehmen Sie die Rohkommentare, führen Sie Sentiment- und Themen-Clustering darauf aus und erstellen Sie mir eine Excel-Arbeitsmappe mit diesen Registerkarten: Ersteller-Einblicke, Häufige Fragen, Inhaltsideen, Rohdaten. Fügen Sie auf der Registerkarte „Einblicke“ ein Kreisdiagramm für die Stimmung und ein Balkendiagramm für die Themenhäufigkeit hinzu.“

Intelligenz: hoch.

Codeex machte sich an die Arbeit. Es wurde ein Python-Skript mit pandas und

Dann tat es etwas, worum ich nicht gebeten hatte und worüber ich mich freute: Es öffnete die Excel-Datei mithilfe der GUI-Automatisierung, überprüfte, ob jede Registerkarte korrekt gerendert wurde, erstellte einen Screenshot des Kreisdiagramms und legte den Screenshot zur Plausibilitätsprüfung im Chat ab. „So sieht die Registerkarte „Einblicke“ aus – bestätigen Sie, dass dies Ihren Erwartungen entspricht, bevor wir fortfahren.“ Dies ist die Art von Selbstverifizierungsschritt, den Claude Code durchführen kann, der jedoch normalerweise dazu aufgefordert werden muss. Codeex hat es standardmäßig verwendet.

Das Arbeitsbuch hatte ein echtes Signal. Auf der Registerkarte „Häufige Fragen“ wurden drei Fragen angezeigt, die mir wiederholt gestellt wurden und die mir nie aufgefallen waren, weil sie in einem Kommentarstrom vergraben waren, den ich selten scrolle. Auf der Registerkarte „Inhaltsideen“ wurden zwölf echte Videothemen aus „Ich wünschte, Sie würden X abdecken“-Kommentare ausgewählt. Der Tab „Creator Insights“ zeigte, dass die Stimmung in den letzten dreißig Tagen im Vergleich zu den vorherigen dreißig Tagen um 14 % gestiegen war.

Dies ist der Moment, in dem ich aufhörte, Codeex als „einen weiteren GPT-Wrapper“ zu betrachten, und begann, es als ein echtes Tool zu betrachten. Es verarbeitete nicht nur Daten – es produzierte etwas, für dessen Erstellung ich einem Freiberufler 300 US-Dollar bezahlt hätte, und das in elf Minuten, und jede Zeile des Codes gehörte mir.

Schritt 5: Den Workflow in eine wiederverwendbare Fähigkeit verwandeln

Sobald die Generierung der Arbeitsmappe funktionierte, wollte ich die gesamte Pipeline in einen wiederverwendbaren Skill umwandeln, damit ich nächsten Monat dieselbe Analyse mit einem Slash-Befehl auslösen konnte.

Eingabeaufforderung: „Konvertieren Sie diesen Workflow – Kommentare abrufen, Analyse ausführen, Excel generieren – in einen Codeex-Skill namens /analyze-channel. Speichern Sie ihn als globalen Skill, damit ich ihn auch auf anderen Kanälen verwenden kann.“

Codeex hat eine Markdown-Skill-Datei generiert, die den gesamten Ablauf erfasst: erforderliche Eingaben (Kanal-ID, API-Schlüsselposition), Tool-Abhängigkeiten (axios, pandas, openpyxl), die Eingabeaufforderungsvorlage, die den Agenten steuert, und die erwartete Ausgabeform. Es wurde im globalen Skills-Verzeichnis gespeichert.

Ich habe es auf einem anderen Kanal getestet – habe /analyze-channel UC... mit der Kanal-ID eines Freundes eingegeben – und die gesamte Pipeline lief in acht Minuten von Grund auf neu. Kein erneutes Auffordern, kein Debuggen, kein Kopieren und Einfügen von Code von einem Chat in einen anderen.

Das Skill-System ist es, das Codeex im Laufe der Zeit zusammenschweißen lässt. Der erste Build ist langsam, da Sie den Workflow noch nicht kennen. Beim zweiten Mal ist es ein Slash-Befehl. Mit dem zehnten Projekt, das Sie erstellt haben, verfügen Sie über ein persönliches Toolkit aus /analyze-channel, /deploy-to-vercel, /refresh-dashboard, /audit-seo, das Sie ohne nachzudenken aufrufen können. Dies ist derselbe zusammengesetzte Effekt, der Claude Codes Fertigkeitssystem letztes Jahr zu einem solchen Produktivitätsvorteil für mich gemacht hat.

Global und lokal sind wichtiger als den Menschen bewusst ist. Global Skills sind universelle Helfer – /deploy-to-vercel, /init-nextjs-project, /clean-csv. Lokale Fähigkeiten sind projektspezifisch – /refresh-youtube-comments lebt nur in diesem Projekt, da die Kanal-ID, der API-Schlüssel und das Ausgabeformat projektförmig sind. Legen Sie keine projektspezifischen Fähigkeiten im globalen Ordner ab. Sie verunreinigen jeden Chat und verleiten den Agenten dazu, sie dort einzusetzen, wo sie nicht anwendbar sind.

Schritt 6: Erstellen des Dashboards mit GPT-Image 2 für die UI-Konzepte

Nächste Eingabeaufforderung: „Erstellen Sie mir ein Dashboard, das diese Daten live visualisiert. Führen Sie es auf localhost aus. Verwenden Sie Next.js. Generieren Sie ein Logo und eine Heldenillustration mit GPT-Bild 2 für den UI.“

Intelligenz: hoch mit einem kurzen Anstieg auf extra hoch, als ein Tailwind-Konfigurationsproblem behoben werden musste.

Codeex startete ein Next.js 15-Projekt, generierte das Layout, erstellte mit seinem GPT Image 2-Plugin ein Logo (eine stilisierte Kommentarblase gekreuzt mit einem Diagrammsymbol – überraschend sauber) und eine Heldenillustration. Habe die Datenlade-Hooks geschrieben, die von demselben /data/comments-raw.json lesen, den das Analyseskript schreibt. Erstellte vier Diagrammkomponenten – Stimmungskreis, Themenleiste, Zeitreihenlinie für Kommentarvolumen, Tabelle mit den häufigsten Fragen – und verkabelte sie.

Dann hat es die Qualitätssicherung mit Browser-Automatisierung bestanden. localhost:3000 geöffnet, gescrollt, auf den Filter jedes Diagramms geklickt, den Hover-Status überprüft, Screenshots gemacht und sie in den Chat eingefügt. „Dashboard wird korrekt gerendert. Ein Fehler: Das Themenfilter-Dropdown läuft bei mobilen Breiten unter 375 Pixel über. Soll ich das beheben?“

Ja, das habe ich. Es hat es behoben. Nochmals überprüft. Erledigt.

Die Browser-Automatisierung ist hier wirklich besser als bei jedem anderen Tool, das ich getestet habe. Ich habe Playwright verwendet. Ich habe die Browser-Nutzung verwendet. Ich habe die Headless-Setups verwendet, die Claude Code über MCP steuern kann. Die Browserebene von Codeex ist schneller, zuverlässiger bei fehlerhaften Seiten und – das ist der Knaller – erholt sich von Fehlern. Wenn eine Seite beim ersten Versuch nicht geladen wurde, stürzte nicht die gesamte Kette ab. Es versuchte es noch einmal, wartete länger und fuhr fort.

Schritt 7: Privates GitHub-Repo zur automatischen Bereitstellung von Vercel

Eingabeaufforderung: „Übertragen Sie dies auf ein neues privates GitHub-Repository und stellen Sie es dann auf Vercel bereit.“

Ich hatte für dieses Projekt nichts in GitHub oder Vercel konfiguriert. Codeex hat den gesamten Ablauf erledigt:

Git initialisiert, das erste Commit mit einer sauberen konventionellen Commits-Nachricht durchgeführt
Ich habe das GitHub-Plugin verwendet (ich musste einmal ein persönliches Zugriffstoken in .env.local einfügen – nur beim ersten Mal), um ein neues privates Repo zu erstellen
Geben Sie den Code ein und richten Sie die Fernbedienung ein
Ich habe das Vercel-Plugin verwendet, um das Repo zu importieren, den Build konfiguriert (Next.js wurde automatisch erkannt) und Umgebungsvariablen von .env.local festgelegt
Die erste Bereitstellung wurde ausgelöst
Überwachte die Bereitstellungsprotokolle in Echtzeit und veröffentlichte nach Abschluss die Live-URL

Gesamtzeit von „Push this to GitHub“ bis „Hier ist Ihre Live-URL“: vier Minuten und zwölf Sekunden. Das Dashboard war live. Das Repo war privat. Die Umgebungsvariablen wurden korrekt eingestellt.

Dies ist der Arbeitsablauf den ich früher für jedes Nebenprojekt manuell durchgeführt habe, und es hat mich jedes Mal 45 Minuten gekostet, mich durch die Registerkarten zu klicken. Jetzt ist es eine Eingabeaufforderung.

Schritt 8: Die wöchentliche Automatisierung, die den Kreis schließt

Der letzte Schritt: Planen Sie eine wöchentliche Aktualisierung, die neue Kommentare abruft, den Excel-Bericht neu generiert, das Dashboard mit neuen Daten erneut bereitstellt und alles an GitHub überträgt.

Eingabeaufforderung: „Planen Sie einen Job, um jeden Montag um 6 Uhr morgens die gesamte Pipeline auszuführen. Ziehen Sie neue Kommentare, aktualisieren Sie Excel, aktualisieren Sie die Dashboard-Daten, übernehmen Sie Änderungen an GitHub, lösen Sie eine erneute Bereitstellung von Vercel aus. Benachrichtigen Sie mich, wenn der Vorgang abgeschlossen ist.“

Intelligenz: In diesem Fall besonders hoch, da bei der Planung ein Fehler dazu führt, dass die Pipeline stillschweigend unterbrochen wird.

Codeex hat einen lokalen Cron-Eintrag eingerichtet, der Codeex selbst um 6 Uhr am Montag aufweckt, das Projekt öffnet, den /analyze-channel-Skill ausführt, sich dann mit einem /refresh-dashboard-Skill verkettet, den er im laufenden Betrieb generiert hat, die Datendateien mit einer zeitgestempelten Nachricht festschreibt und an GitHub sendet (was automatisch einen auslöst). (Vercel wird aufgrund der GitHub-Integration erneut bereitgestellt) und sendet mir nach Abschluss eine Slack-Benachrichtigung.

Außerdem wurde mir eine Frage gestellt, die mir sehr gefiel: „Soll dies im automatischen Überprüfungsmodus laufen – bei dem jeder Schritt für Ihre Genehmigung angehalten wird – oder im Vollzugriffsmodus, bei dem es durchgängig ohne Bestätigung läuft?“ In den ersten drei Wochen habe ich mich für die automatische Überprüfung entschieden, danach für den Vollzugriff.

Dieses Berechtigungsmodell ist einer der Teile von Codeex, denen ich am meisten vertraue. Standardberechtigungen erfordern eine Genehmigung für alles, was destruktiv ist – Dateischreibvorgänge, Netzwerkaufrufe, Git-Commits, Bereitstellungen. Im Vollzugriffsmodus wird diese Prüfung übersprungen. Verwenden Sie den Vollzugriff sorgfältig. Ich aktiviere ihn nur für Workflows, die ich bereits drei oder vier Zyklen lang überwacht habe. Wenn Sie einem Agenten zum ersten Mal uneingeschränkten Zugriff auf Ihren Computer gewähren, merken Sie schnell, ob Sie Ihren Aufforderungen genauso vertrauen, wie Sie denken.

Was Codeex falsch macht

Den ehrlichen Teil dieser Rezension verdanke ich Ihnen.

Codeex überentwickelt, wenn Sie den Intelligenz-Schieberegler nicht verwalten. Ich habe dies bereits erwähnt. Lassen Sie den Wert den ganzen Tag über auf „Extrahoch“, und der Agent schreibt Ihnen einen Microservice, wenn Sie nach einer Funktion gefragt haben. Achten Sie auf den Schieberegler.

Das Chat-Kontextfenster ist großzügig, aber nicht unendlich. Bei langen Sitzungen beginnt der Abruf die 200.000-Token-Marke zu überschreiten. Die Lösung besteht darin, pro Phase neue Chats zu starten und sich auf die Projektdateien als Quelle der Wahrheit zu verlassen. Wenn Sie den Chat als Ihre Erinnerung betrachten, werden Sie gebissen.

Einige Plugins benötigen manuelle API-Schlüssel. Die erste GitHub-Aktion, die erste Vercel-Bereitstellung, die erste OpenAI-Image-Generierung – jedes erforderte, dass ich einen Schlüssel in .env.local ablegte. Das ist korrekte Sicherheitshygiene, aber das Onboarding könnte es deutlicher zum Vorschein bringen. Ich habe beim ersten GitHub-Push zwanzig Minuten verloren, weil ich die Aufforderung zur Eingabe des Tokens verpasst habe.

Die Haustieranimation ist wirklich nützlich, aber ich würde für ein Protokollfenster „Was macht der Agent gerade?“ sterben. Das Haustier sagt mir, dass etwas passiert. Es sagt mir nicht, welcher Schritt in der Kette ist. Für Pipelines mit langer Laufzeit möchte ich einen sichtbaren Aufgabenbaum. Nächstliegende Problemumgehung: Bitten Sie Codeex, den Schritt-für-Schritt-Status für den Chat auszudrucken. Funktioniert, verursacht aber zusätzliches Rauschen.

Der Preis beträgt derzeit OpenAI-economics. Die Kosten für GPT 5.4- und 5.5-Token bei besonders hoher Intelligenz summieren sich, wenn Sie Dutzende Sitzungen pro Tag ausführen. Ein schwerer Tag für mich auf Codeex verbrennt mehr als ein schwerer Tag auf Claude Code im Rahmen meines Anthropic-Plans. Wissenswert, wenn Sie kostensensibel sind.

Es ist kein Claude Code-Ersatz für Code-lastige Argumentationsarbeit. Ich habe es versucht. Ich habe verloren. Die beiden ergänzen sich. Wählen Sie nicht das eine aus und lassen Sie das andere im Stich.

Die Best Practices, mit denen ich gerne angefangen hätte

Elf Tage später ist hier die Bedienungsanleitung, die ich meinem früheren Ich geben würde.

Behandeln Sie Ihre Projektdateien wie das Betriebssystem AI. Der agents.mmd, die Ordnerstruktur, der .env.local, die Skills – diese sind über alle Tools hinweg portierbar. Erstellen Sie sie richtig und Sie können zwischen Codeex, Claude Code und allem, was als nächstes kommt, wechseln, ohne Arbeit zu verlieren.

Planen Sie immer zuerst im Planmodus. Codeex verfügt über einen expliziten Planmodus, in dem der Agent die gesamte Arbeit skizziert, bevor er etwas anfasst. Benutze es. Brainstormen Sie vor der Ausführung. Wenn Sie den Planmodus überspringen, erhalten Sie am Ende ein Deduplizierungsskript mit 180 Zeilen.

Wählen Sie die Intelligenzstufe bewusst aus. Mittel für die Planung, hoch für Builds, extra hoch für das Debuggen. Parken Sie es nicht.

Behalten Sie die Standardberechtigungen bei, bis Sie den Workflow dreimal überwacht haben. Wechseln Sie dann nur für diesen spezifischen Workflow in den Vollzugriffsmodus. Niemals global.

Schreiben Sie Fähigkeiten für alles, was Sie zweimal tun. Die Gesamtauszahlung ist enorm. Wenn Sie zum zweiten Mal einen Workflow benötigen, sollte es ein Slash-Befehl sein.

Führen Sie Codeex und Claude Code auf verschiedenen Monitoren aus. Verwenden Sie Claude Code für Denken und Architektur. Verwenden Sie Codeex zum Ausführen und Orchestrieren. Es handelt sich um unterschiedliche Werkzeuge mit unterschiedlichen Stärken.

Verwenden Sie den AI, um seine eigenen Arbeitsabläufe zu analysieren. Sobald ein Skill reibungslos läuft, bitten Sie Codeex selbst, den Skill-Markdown zu überprüfen und Verbesserungen vorzuschlagen. Es ist überraschend gut darin, redundante Schritte und Randfälle zu finden, die ad-hoc bearbeitet werden mussten.

Häufig gestellte Fragen

Ist Codeex besser als Claude Code?

Keines von beiden ist unbedingt besser – sie sind für unterschiedliche Aufgaben konzipiert. Codeex gewinnt bei der praktischen Ausführung mehrerer Tools (Browser, Bereitstellungen, Dateipipelines). Claude Code überzeugt durch fundiertes Denken, Codeüberprüfung und komplexes Eingabeaufforderungsdesign. Ich laufe beides täglich. Die vollständige Gegenüberstellung finden Sie oben unter „Codeex vs. Claude Code vs. Cloud Code“.

Was ist Agents.mmd in Codeex?

agents.mmd ist die Onboarding-Markdown-Datei, die Codeex aus Ihrem Projektstammverzeichnis liest. Es teilt dem Agenten das Ziel des Projekts, Konventionen, Dateispeicherorte und Einschränkungen mit. Es ist das Codeex-Äquivalent von CLAUDE.md und sollte die erste Datei sein, die Sie in einem neuen Projekt schreiben.

Benötige ich einen OpenAI API-Schlüssel, um Codeex zu verwenden?

Codeex nutzt die GPT 5.4- und 5.5-Modelle von OpenAI über ein eigenes Abonnement, sodass Sie für den Kernchat keinen persönlichen OpenAI-Schlüssel benötigen. Sie benötigen separate API-Schlüssel für Plugins wie GitHub, Vercel oder

Was ist der Unterschied zwischen dem automatischen Überprüfungsmodus und dem Vollzugriffsmodus?

Der automatische Überprüfungsmodus pausiert vor jeder destruktiven Aktion (Schreiben, Bereitstellen, Festschreiben) für Ihre Genehmigung. Im Vollzugriffsmodus wird der gesamte Workflow ohne Bestätigung ausgeführt. Beginnen Sie mit der automatischen Überprüfung für jede neue Automatisierung. Den Vollzugriff erhalten Sie erst, wenn Sie drei erfolgreiche Läufe überwacht haben.

Kann Codeex Browseraufgaben wirklich zuverlässig automatisieren?

Ja – die Browserautomatisierung ist die zuverlässigste, die ich in Agententools getestet habe, einschließlich Playwright-basierter Setups und Browsernutzung. Es stellt die Wiederherstellung nach fehlgeschlagenen Seitenladevorgängen her, versucht es bei fehlerhaften Selektoren erneut und überprüft Aktionen visuell. Details im Abschnitt zum Erstellen des Dashboards oben.

Was ich als nächstes mache

Das YouTube-Kommentarsystem läuft jeden Montag um 6 Uhr. Das Dashboard unter der öffentlichen Vercel-URL aktualisiert sich, bevor ich wach bin. Der Excel-Bericht befindet sich jede Woche mit neuen Registerkarten in meinem Drive. Ich habe seit neun Tagen nichts davon angerührt.

Das ist der Test, den ich bei jedem Tool durchführe, das ich hier behandele: Ist es stabil geblieben? Oder musste ich es immer wieder retten? Codeex bestanden. Die Pipeline läuft immer noch sauber, die Daten sind immer noch aktuell und die Kosten für einen meiner Workflows mit höherer Hebelwirkung sind gerade auf null laufende Wartung gesunken.

Hier ist der Teil, an dem Sie sitzen sollen. Das, was dieses Projekt zum Funktionieren brachte, war nicht Codeex allein. Es war Codeex plus ein Projektordner, den ich als Betriebssystem behandelte, plus Fähigkeiten, die ich absichtlich aufgebaut hatte, plus eine Disziplin rund um Intelligenzstufen und Berechtigungen, für deren Erlernen ich vier gescheiterte Versuche brauchte.

Wenn Sie Codeex diese Woche ausprobieren wollen – und das sollten Sie auch –, wählen Sie einen Workflow aus, den Sie schon seit Monaten aufschieben, weil der Kleber zu mühsam war. Öffnen Sie einen leeren Ordner. Schreiben Sie einen fünfzeiligen agents.mmd. Planen Sie auf mittel, bauen Sie auf hoch, debuggen Sie auf extra hoch. Bleiben Sie in der automatischen Überprüfung, bis Sie ihr vertrauen. Speichern Sie den Workflow als Skill. Dann wählen Sie das nächste aus.

Die Haustieranimation zeigt Ihnen, dass es funktioniert. Die Live-URL informiert Sie darüber, dass der Vorgang abgeschlossen ist.

Lasst uns zusammenarbeiten

Möchten Sie AI-Systeme aufbauen, Arbeitsabläufe automatisieren oder Ihre technische Infrastruktur skalieren? Ich würde gerne helfen.

Fiverr (benutzerdefinierte Builds und Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Unternehmenslösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io