Codex Multimodal: KI, die ihren eigenen Code sieht

Codex Kann Jetzt Seinen Eigenen Code Sehen — Das Ändert Alles

Letzte Woche sah ich einen KI-Coding-Assistenten eine Whiteboard-Skizze betrachten — ein rohes, handgezeichnetes Rechteck mit ein paar krakligen Kreisen und Pfeilen — und daraus einen funktionierenden interaktiven 3D-Globus mit anklickbaren Ziel-Pins, flüssigen Animationen und responsiven mobilen Layouts machen. Dann öffnete er einen Browser, machte einen Screenshot von dem, was er gebaut hatte, bemerkte, dass sich die Pin-Beschriftungen auf kleineren Bildschirmen überlappten, und korrigierte das CSS ohne dass jemand darum gebeten hatte.

Dieser letzte Teil ließ mich innehalten. Nicht die Code-Generierung — ich habe zwei Jahre lang beeindruckende Code-Generierung gesehen. Den Teil, wo die KI auf ihre eigene Ausgabe schaute, ein visuelles Problem identifizierte und es autonom korrigierte. Das ist kein Coding-Assistent. Das ist ein Coding-Assistent mit Augen.

OpenAIs Codex hat bereits seit einiger Zeit multimodale Fähigkeiten, aber die neuesten Demonstrationen zeigen etwas qualitativ Anderes als das, was ich bisher getestet hatte. Das System führt jetzt eine kontinuierliche Schleife aus: Code generieren, das Ergebnis rendern, die Ausgabe screenshotten, den Screenshot auf Probleme analysieren, die Probleme beheben, erneut screenshotten.

Das Problem, das Jeder KI-Coding-Tool Hatte

KI-Coding-Tools generieren Code blind. Sie produzieren Tokens, die HTML und CSS repräsentieren, aber sie haben kein visuelles Modell davon, wie diese Tokens rendern werden.

Codex' multimodale Selbstprüfungsschleife bricht diesen Zyklus vollständig auf. Die KI generiert Code, rendert ihn in einer echten Browser-Umgebung, macht einen Screenshot und verwendet ihr Sehmodell, um die tatsächliche visuelle Ausgabe zu analysieren.

Codex Beim Bauen Beobachten: Ein 3D-Globus aus einer Whiteboard-Skizze

Die Demo, die mich überzeugte, betraf eine Reise-App namens Wonderlust. Das Team skizzierte Ideen auf einem physischen Whiteboard. Jemand fotografierte das Whiteboard und gab es direkt als Prompt an Codex.

Was als Nächstes passierte, dauerte etwa acht Minuten.

Codex analysierte die Skizze. Es identifizierte die beabsichtigten UI-Elemente: einen 3D-Globus zum Entdecken von Reisezielen, anklickbare Pins auf dem Globus, ein Detailpanel, das beim Tippen auf einen Pin einschiebt, und Tastaturnavigation zum Drehen des Globus.

Nach der Erstellung der ersten Implementierung öffnete Codex einen Browser, renderte die App und machte einen Screenshot. Das Detailpanel war auf Tablet-Breite teilweise hinter dem Globus versteckt. Codex sah dies im Screenshot, identifizierte den z-index- und Positionierungskonflikt, passte das CSS an und re-renderte.

Wo Codex Versagt (Und Das Tut Es)

Die Selbstprüfung ist nicht umfassend. Codex macht einen Screenshot zu einem Zeitpunkt, bei einer Viewport-Breite. Es testet keine Hover-States, Animationen in Übergängen oder Formularvalidierungs-Feedback.

Visuelle Analyse hat eine Auflösungsgrenze. Codex kann ein offensichtlich abgeschnittenes Diagramm-Label erfassen. Es kämpft mit subtileren Problemen: einem Schriftgewicht, das 400 ist, wenn es 500 sein sollte.

Code-Qualität tritt hinter visuelle Korrektheit zurück. Codex optimiert für "sieht es im Screenshot richtig aus?" Das bedeutet manchmal CSS-Hacks.

Komplexes Zustandsmanagement ist noch schwach. Die Selbstprüfungsschleife funktioniert für statische visuelle Verifizierung. Sie behandelt noch nicht das volle Spektrum interaktiver Zustandstests.

Was Das Wirklich für Frontend-Entwicklung Bedeutet

Ich schreibe keinen ersten Entwurf von Frontend-Code mehr manuell für neue Features. Skizziere das UI (iPad, dreißig Sekunden), gib es an Codex mit einer Textbeschreibung der Funktionalität, lass es die erste Implementierung generieren und selbst prüfen. Dann verbringe ich meine Zeit dort, wo es wirklich zählt: das generierte CSS für Wartbarkeit refactorn, richtiges Zustandsmanagement hinzufügen, interaktive Abläufe testen und die Leistung optimieren.

Meine Rolle verschob sich von "schreibe den Code" zu "entwirf den Code und verfeinere die Ausgabe."

Lass uns zusammenarbeiten

Möchtest du KI-Systeme aufbauen, Workflows automatisieren oder deine Tech-Infrastruktur skalieren? Ich helfe gerne.

Fiverr (individuelle Lösungen & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Enterprise-Lösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienstleistungen): xcybersecurity.io

AionUi + OpenCode: Die kostenlose Alternative zu Claude Cowork

AionUi + OpenCode: Die kostenlose Alternative zu Claude Cowork Ich zahle seit dem Erscheinungstag $100 pro Monat für Cla...

Mein AI-Stack 2026: Wie ich im Tool-Sturm den Überblick behalte

Mein AI Stack 2026: Wie ich im Werkzeugsturm gesund bleibe Ich rechnete mit einem Dienstagmorgen Anfang Mai. Dreiundvier...

GitHub Developer Exodus 2026: Solltest du wirklich gehen?

GitHub Developer Exodus 2026: Solltest du wirklich gehen? Ich war gerade dabei, einen Pull-Request zu überprüfen, als di...

Codex Kann Jetzt Seinen Eigenen Code Sehen — Das Ändert Alles

Codex Kann Jetzt Seinen Eigenen Code Sehen — Das Ändert Alles

Das Problem, das Jeder KI-Coding-Tool Hatte

Codex Beim Bauen Beobachten: Ein 3D-Globus aus einer Whiteboard-Skizze

Wo Codex Versagt (Und Das Tut Es)

Was Das Wirklich für Frontend-Entwicklung Bedeutet

Lass uns zusammenarbeiten

Hat Ihnen dieser Artikel gefallen?

Verwandte Themen

Engr Mejba Ahmed

Comments

Leave a Comment

Verwandte Artikel

AionUi + OpenCode: Die kostenlose Alternative zu Claude Cowork

Mein AI-Stack 2026: Wie ich im Tool-Sturm den Überblick behalte

GitHub Developer Exodus 2026: Solltest du wirklich gehen?

Comments

Leave a Comment

Expand Your Knowledge

AI School

Certificates

Learning Flashcards

AI Agent Skills

Bereit, Ihre Ideen zu Verwandeln?

Engr Mejba Ahmed

Hey there!