"OpenAI Codex como agente de flujo de trabajo: La opinión de un usuario de Claude Code"

"## OpenAI Codex como agente de flujo de trabajo: Lo que encontró un usuario de Claude Code\n\nEstaba en plena sesión de Claude Code cuando llegó la actualización de Codex. Opus 4.6 estaba reescribiendo un middleware de autenticación, un segundo agente ejecutaba pruebas en otro panel de tmux, y no tenía planes de salir de ese ciclo. Entonces un amigo me compartió una captura de pantalla en Slack. Codex había tomado el control de su cursor en macOS, abrió un navegador dentro de su propia ventana, generó un prototipo, lo insertó en un componente de React y programó una tarea de seguimiento para la mañana siguiente. "Míralo trabajar mientras te sirves un café", escribió.\n\nParé lo que estaba haciendo.\n\nEl 16 de abril de 2026, OpenAI publicó la mayor actualización de Codex desde que lanzó la aplicación de escritorio. Computer use en Mac con su propio cursor. Un navegador integrado que puedes anotar como si fuera una revisión de diseño. Generación de imágenes integrada con gpt-image-1.5. Memory que persiste durante días. SSH a devboxes remotos. Más de 90 nuevos plugins. Un programador de tareas que despierta al agente para continuar el trabajo que iniciaste el martes. El mensaje era claro: "Codex para (casi) todo". No era una actualización de asistente de código. Era un reposicionamiento de lo que la herramienta es.\n\nLlevo meses usando Claude Code como mi entorno de desarrollo principal. Escribí un análisis completo de por qué migré el 80% de mi trabajo a Codex cuando llegó el plan ChatGPT Pro de $100, pero Claude Code sigue siendo mi opción para escritura de largo aliento, trabajo de diseño UI y el trabajo creativo de frontend más exigente. La actualización de abril me hizo plantearme una pregunta más difícil: ¿Codex realmente funciona como un agente de flujo de trabajo completo, o la demo está mucho más pulida que la realidad diaria?\n\nPasé doce días probándolo con trabajo real. Esto es lo que resistió, lo que no, y qué significa si eres fiel a Claude Code y estás evaluando si vale la pena prestarle atención.\n\n## Lo que OpenAI realmente publicó — La versión real\n\nDéjame aclarar algunas cosas que se enredaron en la cobertura del lanzamiento. No fue una sola publicación sorpresa. Fue la punta visible de un despliegue que venía construyéndose desde marzo. OpenAI publicó GPT-5.4 para Codex el 5 de marzo. Introdujeron el sistema de plugins empresariales en marzo. Activaron los precios de pago por uso para los niveles Business y Enterprise el 7 de abril, con Thibault Sottiaux (Director de Codex de OpenAI) anunciando que Codex había superado los 3 millones de usuarios semanales el 8 de abril, sumando aproximadamente un millón de nuevos usuarios por mes. La actualización del 16 de abril es donde todo convergió en una historia que OpenAI podía señalar y llamar "agente de flujo de trabajo".\n\nLas funcionalidades principales, con las versiones que verifiqué en el anuncio de OpenAI y la primera oleada de cobertura:\n\n- Computer use en segundo plano en macOS — Codex obtiene su propio cursor, hace clic, escribe, toma capturas de pantalla y las lee. Múltiples agentes pueden ejecutarse en paralelo sin disputarse el mouse. No disponible en la UE ni en el Reino Unido. Windows y Linux: todavía no.\n- Navegador integrado con instrucciones mediante comentarios en la página — posicionado hoy para trabajo de frontend, desarrollo de juegos e iteración en localhost. OpenAI indicó explícitamente que planea expandirlo más allá de localhost "con el tiempo".\n- Generación de imágenes integrada — gpt-image-1.5 para prototipos, íconos, arte conceptual y marcos de producto. Vive en el mismo hilo que tu código.\n- Memory (preview) — almacena preferencias, correcciones y contexto de proyectos. Se está desplegando ahora, con UE, Reino Unido y Enterprise recibiéndolo más tarde.\n- Tareas programadas y de larga duración reanudables — el agente puede activarse más tarde y continuar. Días o semanas después, si lo deseas.\n- SSH a devboxes remotos (alpha) — incipiente y en estado preliminar, pero está disponible.\n- 90+ nuevos plugins — Atlassian Rovo, CircleCI, CodeRabbit, GitLab Issues, Microsoft Suite, Neon, Render, Remotion, Superpowers y una larga lista de integraciones respaldadas por MCP.\n- Flujos de trabajo para comentarios de revisión de PR, pestañas multi-terminal, vistas previas de archivos para PDFs, hojas de cálculo, presentaciones y documentos, más un panel de resumen que rastrea planes, fuentes y artefactos.\n\nLos precios es donde se pone interesante. Codex está incluido en ChatGPT Plus ($20), el nuevo nivel Pro de $100/mes lanzado el 9 de abril, el nivel de $200/mes, Business ($25/usuario), Edu y Enterprise. Business y Enterprise ahora pueden asignar asientos Codex estándar o de uso variable bajo un esquema de pago por uso, que OpenAI implementó específicamente porque el uso de Codex en ChatGPT Business y Enterprise había crecido 6x desde enero. Ese número 6x es real y está citado del propio anuncio de precios de OpenAI en abril. El "acceso gratuito limitado al nivel Go" en algunas coberturas se refiere a créditos promocionales en el nuevo nivel Go: conviene verificar la elegibilidad en tu región en lugar de darlo por hecho.\n\nTodo lo que voy a decir a continuación se basa en ese conjunto de funcionalidades. No probé cosas a las que no pude acceder — computer use en Windows, por ejemplo, todavía está escalonado, así que no está en esta reseña.\n\nAntes de entrar en lo que funciona, debes saber cuáles son los dos tests que genuinamente me sorprendieron. El primero fue un momento de generación de imágenes donde Codex hizo algo que Claude Code literalmente no puede hacer hoy. El segundo fue un patrón de fallo que me hizo cerrar la aplicación durante una hora y alejarme. Ambos están en el análisis detallado a continuación.\n\n## La prueba del primer día: ¿Puede Codex sostener un flujo de trabajo real?\n\nMe puse una regla para esta reseña: ninguna prueba de juguete. Cada tarea tenía que ser algo que genuinamente haría esa semana para un cliente real o un proyecto real. Nada de "escríbeme una aplicación de lista de tareas". Nada de benchmarks sintéticos. Trabajo real con consecuencias reales.\n\nEl primer día fue un proceso de actualización de marca para un dashboard de SaaS que estaba publicando para un cliente. La tarea implicaba generar tres variantes de ícono, insertarlas en un componente de Next.js, ajustar las clases de Tailwind, ejecutar el componente en una vista previa local, compararlo con el Figma del diseñador y dejar un comentario en el PR del ingeniero revisor con la decisión que tomé y por qué.\n\nEn Claude Code, eso es un trabajo de cinco superficies: CLI para el código, una herramienta de imágenes separada (generalmente Midjourney o ChatGPT), Figma en un navegador, localhost en otra pestaña, GitHub en otra. Cada superficie es un cambio de contexto. Cada cambio de contexto me cuesta treinta segundos para reconstruir en qué punto estaba.\n\nEn Codex, permanecí en una sola ventana durante toda la tarea.\n\nLe pedí al agente que generara tres variantes de ícono usando gpt-image-1.5 directamente en el hilo. Las produjo. Describí los cambios que quería: "haz el segundo un 20% menos saturado, el tercero más geométrico". Iteró. Cuando elegí la variante dos, le dije a Codex que la insertara en components/Sidebar/NavIcon.tsx y la conectara con las props existentes. Lo hizo. Abrí el navegador integrado, cargué localhost:3000, hice clic en el ícono en la página renderizada y escribí: "el estado hover es demasiado agresivo, suavízalo". Codex leyó el comentario como contexto, editó el CSS, el navegador se actualizó automáticamente y lo confirmé. Luego le pedí a Codex que abriera el PR en la pestaña del navegador, navegara al último comentario del revisor y redactara una respuesta resumiendo las decisiones. También lo hizo.\n\nTiempo total: 34 minutos. Mi referencia anterior para ese flujo en Claude Code + herramientas separadas: aproximadamente 70 minutos, y eso si no se rompía nada.\n\nMe quedé con eso un momento porque el doble de velocidad en una tarea real es el tipo de resultado que normalmente me genera dudas.\n\nAsí que lo repetí a la mañana siguiente con un conjunto diferente de componentes. 38 minutos versus 65 de la manera lenta. El mismo patrón.\n\nEsto es lo que el anuncio no estaba exagerando. La superficie del flujo de trabajo no es un extra agradable — es el producto en sí. Cuando tu IA deja de obligarte a unir cinco herramientas manualmente, la aceleración aparece en el trabajo real, no solo en benchmarks.\n\nPero quiero ser específico sobre dónde esto importa, porque el resto de mis pruebas mostró que no es universal.\n\n## Donde Codex supera a Claude Code ahora mismo\n\nIteración de frontend con retroalimentación visual. Esta es la victoria más clara que encontré. El navegador integrado más el flujo de comentarios en la página más gpt-image-1.5 en el mismo hilo es simplemente una mejor manera de hacer trabajo de UI que cualquier configuración de Claude Code que haya construido. He escrito antes sobre las capacidades de diseño de Claude siendo tomadas en serio, y Opus 4.6 todavía tiene mejor criterio en la generación de diseño puro. Pero el flujo de trabajo alrededor de la iteración visual es ahora de Codex. No es algo cercano.\n\nTareas de múltiples superficies y múltiples herramientas. Todo lo que toca una hoja de cálculo, un PDF, un PR, un navegador, una caja remota y una base de código en la misma sesión. Claude Code puede hacer la mayoría de estas piezas con servidores MCP si los configuras, pero "configurarlos" es la fricción. Codex viene con los plugins preconectados y la UI los hace descubribles. La primera vez que arrastré una hoja de cálculo desordenada de un cliente al panel de resumen y le pedí a Codex que la cruzara con mi esquema, terminé en tres minutos en una tarea que antes me tomaba veinte.\n\nTrabajo asíncrono de larga duración. El programador de tareas es la funcionalidad que pensé que no me importaría hasta que la usé. Inicié una migración de base de código un martes por la noche, le dije a Codex que hiciera una pausa, manejara una sección y reanudara el miércoles a las 9 AM con un resumen de estado esperándome. Lo hizo. Eso no es algo que haya logrado que funcione limpiamente en ningún otro arnés de agente. Hay una razón por la que OpenAI sigue impulsando el encuadre de "operador persistente" — el programador lo hace real.\n\nCiclos de respuesta a comentarios de revisión de PR. Codex ingiriendo comentarios de PR directamente desde GitHub y atendiéndolos en el agente es una de esas funcionalidades de "¿por qué no existía antes?". No hago suficientes revisiones de código para decir que es transformador, pero los ingenieros que conozco que viven en colas de PR lo han estado pidiendo durante un año.\n\nSi tu trabajo se desarrolla principalmente en frontend, trabajo adyacente al diseño o ingeniería operativamente pesada con muchos saltos entre herramientas, esta actualización es una mejora real. No marginal.\n\n## Donde Claude Code todavía gana — y por qué no me cambio del todo\n\nPero aquí es donde las cosas se ponen interesantes.\n\nEscritura de largo aliento y documentación técnica. Opus 4.6 todavía suena más humano. Codex escribe documentación que parece documentación. Claude Code escribe documentación que parece escrita por alguien que genuinamente quería que entendieras el tema. Para este blog, para archivos README que quiero que la gente lea, para prosa en cualquier parte de mi stack, todavía recurro primero a Claude. Esa brecha se ha reducido, pero no se ha cerrado.\n\nFlujos de trabajo nativos de terminal, priorizando la CLI. Si vives en la terminal, la CLI de Claude Code sigue siendo el mejor hogar. La aplicación de escritorio de Codex es excelente, pero es una GUI con una terminal dentro, no una terminal con AI dentro. Esa diferencia importa si tu memoria muscular es vim + tmux + unos cuantos scripts de shell. Tengo todo un análisis detallado de optimización del flujo de trabajo de Claude Code que todavía aplica y todavía funciona mejor en CLI que en cualquier aplicación de escritorio.\n\nLógica de backend creativa y con criterio propio. Cuando necesito que el agente tome una decisión arquitectónica real — ¿debería esto ser una cola o un cron, deberíamos desnormalizar aquí, es este el lugar correcto para agregar un límite de transacción? — Claude Code me da una respuesta más razonada con mayor frecuencia. Codex es rápido y exhaustivo. Claude tiene más probabilidades de decirme que mi plan está equivocado y por qué. Eso es función tanto del comportamiento del modelo como del arnés, y todavía quiero esa voz en la sala en las decisiones de diseño reales.\n\nSesiones de programación en pareja de varias horas. Esto es subjetivo, pero el ciclo de Claude Code todavía se siente más como trabajar con alguien. El ciclo de Codex se siente más como delegar a alguien. Ambos son valiosos. No son lo mismo.\n\nSi actualmente no vives en Claude Code, nada de esto te convencerá de comenzar. Si vives allí, esta actualización no es una razón para irte.\n\nEs una razón para agregar Codex al stack. Esa es una proposición diferente a "cambia".\n\n## El fallo que me costó cuarenta minutos\n\nAquí es donde la parte de reseña honesta cumple con su cometido.\n\nEn el quinto día intenté hacer una prueba de estrés a computer use con un test real. Tenía un panel de administración de terceros por el que necesitaba navegar para exportar un CSV, transformarlo y cargarlo en una base de datos de cliente. El flujo de trabajo es tedioso, manual y exactamente el tipo de cosa que computer use supone manejar.\n\nCodex llegó a completar alrededor del 70% y luego se bloqueó. Malinterpretó el estado de un desplegable, hizo clic en la opción incorrecta, intentó recuperarse, se perdió en un modal de confirmación y se quedó ahí. El panel de resumen mostraba que estaba "esperando confirmación del usuario", pero no había confirmación que dar. Tuve que abortar la sesión, restablecer el panel de administración manualmente y empezar de nuevo. Dos veces.\n\nLa tercera vez le di un conjunto de instrucciones más preciso: "haz clic en el botón Exportar en la parte superior derecha de la tabla de Usuarios, selecciona CSV del desplegable, acepta el rango de fechas predeterminado, descarga" — y funcionó. Pero eso no es la magia de "Codex opera tu computadora". Eso es yo escribiendo un script RPA en inglés.\n\nComputer use es real. Es impresionante. También es frágil exactamente de las maneras que esperarías que una herramienta de automatización de navegadores sea frágil, más algunas maneras nuevas que no anticiparías. Las capturas de pantalla con modales inesperados lo confunden. Las animaciones pueden afectar su sincronización. Las aplicaciones que renderizan texto como imágenes (más común de lo que piensas) le dan problemas.\n\nEsto no es un factor decisivo. Es una calibración. Computer use funciona bien para flujos que has trazado y descrito cuidadosamente. Todavía no funciona bien para "simplemente haz esta tarea que normalmente hago". Eso va a mejorar. No va a mejorar para la próxima semana.\n\nEl anuncio no miente sobre la capacidad. Tampoco menciona voluntariamente los límites. Mi trabajo es contarte sobre los límites.\n\n## La funcionalidad de Memory es más pequeña de lo que suena — por ahora\n\nMemory ocupó el primer lugar en la publicación del lanzamiento y en la mayor parte de la cobertura. Quiero ser específico sobre lo que realmente hace a partir del despliegue al que obtuve acceso.\n\nRecuerda preferencias ("uso Tailwind, no styled-components"). Recuerda correcciones ("cuando digo 'función utilitaria', ponla en lib/, no en utils/"). Recuerda el contexto del proyecto entre sesiones ("este es el dashboard del cliente, el que usa Stripe Connect"). Eso es útil. Reduce significativamente la frecuencia con la que tengo que re-explicar las mismas preferencias de stack cada mañana.\n\nLo que todavía no hace, a pesar de parte del encuadre del lanzamiento: mantener contexto semántico profundo sobre una base de código grande durante semanas. No está indexando tu repositorio en segundo plano. No está construyendo un modelo mental de tu arquitectura. Está almacenando hechos que le has dicho o que ha inferido de correcciones. Si esperabas "Codex ahora entiende tu base de código" — eso no es esto.\n\nPiensa en Memory hoy como un archivo .claude-preferences que se escribe solo en lugar de que tú lo cuides manualmente. Útil. No revolucionario. La versión más grande de esta funcionalidad — la que realmente hace conciencia profunda del proyecto — es claramente hacia donde se dirige OpenAI, pero no es lo que se publicó.\n\nVale la pena seguirlo. No vale la pena cambiar de herramientas por eso.\n\n## ¿Es Codex realmente un "agente de flujo de trabajo" ahora, o solo una mejor herramienta de código?\n\nDéjame responder la pregunta que implica el título de esta publicación.\n\nSí. Funcionalmente, Codex es ahora un agente de flujo de trabajo. No porque alguna funcionalidad individual cruzara algún umbral, sino porque la composición de funcionalidades — computer use, navegador, generación de imágenes, memoria, programación de tareas, plugins, multi-terminal — suma algo que abarca legítimamente el SDLC completo. Puedes planificar una tarea, generar activos, escribir código, previsualizarlo, obtener retroalimentación de revisión, atenderla y programar seguimiento, todo en un entorno.\n\nEsa es la definición de un agente de flujo de trabajo. Codex califica.\n\nPero "agente de flujo de trabajo" es una descripción de categoría, no una afirmación de calidad. Estar en la categoría no significa ser bueno en la categoría. Las preguntas difíciles son:\n\n- ¿Puede mantener el contexto entre superficies de manera confiable? Mayormente sí. Mejor que cualquier otra cosa que haya probado.\n- ¿Falla con gracia cuando algo se rompe? Mayormente sí, excepto computer use, donde falla de maneras que requieren limpieza humana.\n- ¿Agrega más sobrecarga de la que ahorra? No, siempre que pases la primera semana aprendiendo realmente la herramienta en lugar de usarla como un sustituto de Claude Code. Si la usas como Claude Code, la odiarás. Si la usas como Codex, obtendrás apalancamiento real.\n- ¿Está lista para reemplazar todo tu stack de código? No. Está lista para reemplazar una gran parte de él y complementar el resto.\n\nEse último punto es donde la mayoría de las opiniones fuertes sobre esta actualización se equivocan. "Codex mató a Claude Code" no está sucediendo. "Codex está sobrevalorado y sigue siendo solo una herramienta de código" tampoco está sucediendo. La respuesta honesta es que Codex es ahora el mejor entorno de trabajo agéntico de propósito general para desarrolladores, y Claude Code sigue siendo el mejor compañero de código de ciclo cerrado para personas que viven en una terminal.\n\nAmbas cosas pueden ser verdaderas. Ambas lo son.\n\n## Lo que le diría a un usuario de Claude Code hoy\n\nSi estás en Claude Code ahora mismo y tratando de decidir si prestarle atención a esta actualización, aquí está el consejo exacto que daría:\n\n1. No cambies tu entorno principal todavía. Cualquier flujo de trabajo de Claude Code que te esté funcionando, consérvalo. La memoria muscular vale dinero.\n2. Consigue un asiento de Codex para las tareas donde claramente gana. Para mí, esas son: iteración de frontend con retroalimentación visual, tareas de flujo de trabajo de múltiples superficies, trabajo asíncrono de larga duración y ciclos de respuesta a revisiones de PR. Eso es quizás el 25–30% de mi semana. Vale entre $20–$100/mes para tener ese carril propio.\n3. No intentes usar Codex como una herramienta CLI. Va a pelear contigo. El producto está diseñado alrededor de la aplicación de escritorio. Apóyate en eso.\n4. Prueba computer use primero en flujos de trabajo de bajo riesgo. No lo sueltes en paneles de administración de producción hasta que conozcas sus modos de fallo en tu propia configuración. Es real. Tampoco es magia.\n5. Observa Memory durante los próximos 90 días. Si OpenAI publica la versión de mayor conciencia de base de código de Memory — y todo sobre el despliegue sugiere que lo harán — ese es el punto de inflexión donde la conversación cambia.\n\nLas personas que decían "este es el asesino de Claude Code" lo estaban exagerando. Las personas que dicen "solo una demo llamativa" se están perdiendo cuánto cambia realmente el trabajo la superficie del flujo de trabajo.\n\nAmbas herramientas mejoraron significativamente en 2026. Tu trabajo es descubrir qué carriles quieres que cada una de ellas tenga.\n\n## Preguntas frecuentes\n\n### ¿Qué es el nuevo agente de flujo de trabajo OpenAI Codex?\nEl agente de flujo de trabajo OpenAI Codex es la actualización del 16 de abril de 2026 que expande Codex de un asistente de código a una herramienta que opera tu computadora, navega por aplicaciones, genera imágenes, recuerda contexto entre sesiones y programa tareas de larga duración. Se publica como una aplicación de escritorio de macOS con despliegue escalonado a Windows. Para el desglose completo de funcionalidades, consulta "Lo que OpenAI realmente publicó" arriba.\n\n### ¿Es OpenAI Codex mejor que Claude Code en 2026?\nCodex es mejor para la iteración de frontend, tareas de flujo de trabajo con múltiples herramientas y trabajo asíncrono de larga duración — Claude Code sigue siendo mejor para escritura de largo aliento, desarrollo primero desde terminal y razonamiento arquitectónico profundo. Ninguno es un reemplazo completo del otro. Mi comparación detallada está en Codex vs Claude Code: Por qué moví el 80% de mi trabajo.\n\n### ¿Cuánto cuesta OpenAI Codex en abril de 2026?\nCodex está incluido en ChatGPT Plus ($20/mes), el nuevo plan Pro de $100/mes, el nivel de $200/mes, Business ($25/usuario/mes), Edu y Enterprise. Business y Enterprise ahora soportan asientos Codex de pago por uso además de los estándar. Se pueden comprar créditos de uso adicional cuando se alcanzan los límites del plan.\n\n### ¿Funciona Codex computer use en Windows o Linux?\nTodavía no. Computer use en segundo plano se lanzó primero en macOS el 16 de abril de 2026, con Windows y Linux escalonados. Computer use tampoco está disponible en la UE ni en el Reino Unido en el lanzamiento. La aplicación de escritorio de Codex en sí está disponible en Windows, pero la funcionalidad de computer use específicamente es solo para Mac hoy.\n\n### ¿Es seguro usar Codex Memory en trabajo de clientes?\nMemory está en versión preliminar a partir de abril de 2026 y almacena preferencias, correcciones y contexto de proyectos, no el contenido completo del código. Se está desplegando en la mayoría de las regiones, con UE, Reino Unido y Enterprise obteniendo acceso más tarde. Revisa la documentación de memoria actual de OpenAI y la política de datos de tu cliente antes de habilitarla en proyectos confidenciales.\n\n## Trabajemos juntos\n\n¿Buscas construir sistemas de AI, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudarte.\n\n* Fiverr (builds e integraciones personalizadas): fiverr.com/s/EgxYmWD\n* Portfolio: mejba.me\n* Ramlit Limited (soluciones empresariales): ramlit.com\n* ColorPark (diseño y branding): colorpark.io\n* xCyberSecurity (servicios de seguridad): xcybersecurity.io"

"OpenAI Codex como agente de flujo de trabajo: La opinión de un usuario de Claude Code"

¿Te gustó este artículo?

Temas Relacionados

Engr Mejba Ahmed

Comments

Leave a Comment

Artículos Relacionados

Codex Product Design Plugin: Probé el flujo de trabajo completo

AI Roundup 9 de mayo de 2026: empieza la carrera del chatbot al OS

Review de Codeex: construí un sistema de IA para comentarios de YouTube

Comments

Leave a Comment

Expand Your Knowledge

AI School

Certificates

Learning Flashcards

AI Agent Skills

¿Listo para Transformar

Tus Ideas?

Engr Mejba Ahmed

Hey there!