Ejecuté Codex dentro de Claude Code — Los resultados se dividieron

El mensaje de Slack llegó a las 23:40 un sábado. "El bot de Telegram está publicando doble. Los usuarios se quejan. ¿Puedes revisarlo esta noche?"

Tenía Opus 4.6 abierto en Claude Code, ya metido de lleno en otro proyecto. Mi primer instinto fue lanzarle la codebase del bot a Opus y pedirle una revisión completa. Pero acababa de instalar algo nuevo — el plugin Codex de OpenAI para Claude Code, lanzado el 30 de marzo de 2026 — y llevaba buscando una excusa real para probarlo. No una demo de juguete. Una codebase en producción con usuarios reales reportando bugs reales.

Así que hice algo que no había hecho antes. Ejecuté ambos modelos contra la misma codebase, la misma noche, con el mismo prompt de revisión adversarial. Codex encontró cuatro problemas de alta severidad. Opus encontró ocho. Solo uno coincidía. Esa brecha — siete problemas que Codex no vio, tres problemas que Opus no vio — me dijo más sobre el futuro de la revisión de código asistida por IA que cualquier benchmark.

Aquí está la historia completa de lo que pasó, cómo configurar el mismo flujo de trabajo, y por qué ejecutar dos modelos de IA competidores contra tu código podría ser la práctica de calidad más subestimada de 2026.

Por qué un solo revisor IA es un riesgo

Necesito retroceder y explicar por qué me tomé la molestia de ejecutar dos modelos. Hace un año, habría pensado que era excesivo. Opus es inteligente. Codex es inteligente. Elige uno, confía en los resultados, despliega el fix. Listo.

Entonces empecé a notar un patrón en mis proyectos. Cada modelo de IA tiene puntos ciegos — no aleatorios, sino sistemáticos. Opus tiende a enfocarse mucho en preocupaciones arquitectónicas y flujo de datos. Es fenomenal detectando problemas donde los componentes interactúan de formas inesperadas. Pero a veces pasa por alto preocupaciones operacionales como intervalos de polling, lógica de reintentos y degradación elegante bajo carga.

Codex tiene el sesgo opuesto. Es agudo en detalles a nivel de ejecución — el tipo de bugs que se manifiestan en tiempo de ejecución bajo condiciones específicas. Pero ocasionalmente pierde la visión del conjunto, marcando problemas individuales de funciones sin conectarlos con problemas de diseño de sistema más amplios.

No tenía datos rigurosos para esta observación hasta el incidente del sábado por la noche. Lo que tenía era una intuición construida a partir de meses usando ambos modelos por separado para revisiones de código. La función de revisión adversarial en el nuevo plugin de Codex me dio una manera de probar esa intuición.

Y los resultados confirmaron algo que creo que todo desarrollador que trabaja con herramientas de IA necesita interiorizar: una revisión con un solo modelo crea una falsa sensación de seguridad. Recibes un informe limpio, te sientes confiado y despliegas — sin darte cuenta de que el modelo era estructuralmente incapaz de ver toda una categoría de bugs. Te mostraré exactamente cómo se desarrolló todo esto. Pero primero, necesitas entender qué es realmente este plugin y cómo ponerlo en marcha.

Qué hace realmente el plugin de Codex para Claude Code

OpenAI lanzó codex-plugin-cc el 30 de marzo de 2026 — y el movimiento estratégico aquí vale la pena apreciarlo antes de entrar en los detalles técnicos. Claude Code domina actualmente el espacio de flujos de trabajo de codificación agéntica. En lugar de intentar alejar a los desarrolladores, OpenAI decidió llevar Codex hacia la herramienta que los desarrolladores ya usan. Es la misma lógica detrás de publicar apps para la plataforma de un competidor: ve donde están los usuarios.

El plugin añade un conjunto de comandos slash /codex: directamente en tu sesión de Claude Code. Una vez instalado, obtienes tres capacidades principales:

/codex:review — Una revisión de código estándar. Apúntalo a cambios sin commit, un diff de rama o un conjunto específico de archivos, y Codex devuelve una inspección estructurada de solo lectura. Piensa en esto como una segunda opinión neutral sobre cualquier código que tu agente principal (o tú) acaba de escribir.

/codex:adversarial-review — Esta es la función que captó mi atención. No es una revisión de código estándar. Es un análisis de abogado del diablo que asume que existen fallos y sale a cazarlos. Cuestiona decisiones de diseño, prueba suposiciones, explora modos de fallo y pregunta si debería haberse tomado un enfoque más simple o seguro. Menos "¿funciona este código?" y más "¿cómo podría este código fallar catastróficamente?"

/codex:rescue — Delegación de tareas. Si estás atascado en una sesión de depuración, un test que falla o una regresión que no puedes rastrear, puedes entregárselo a Codex y dejar que trabaje el problema mientras tú te concentras en otra cosa.

Los tres comandos soportan ejecución en segundo plano — los lanzas, sigues trabajando y revisas los resultados cuando estén listos. /codex:status muestra el progreso, /codex:result obtiene la salida y /codex:cancel mata un trabajo en ejecución. Esto importa más de lo que parece. Durante mi sesión del sábado por la noche, lancé la revisión adversarial de Codex en segundo plano y ejecuté la revisión de Opus en primer plano simultáneamente. Dos modelos, una sesión de terminal, cero cambios de contexto.

El plugin delega a tu instalación local de Codex CLI en lugar de levantar un runtime separado. Eso significa que hereda cualquier autenticación, configuración de modelo y configuración MCP que ya tengas. Sin configuración duplicada. Sin dolores de cabeza de gestión de tokens. Si Codex CLI funciona en tu máquina, el plugin funciona.

Aquí está la parte que me sorprendió: como Codex se ejecuta a través del plugin como un proceso separado, no consume tu ventana de contexto de Claude Code. Opus mantiene su contexto completo para lo que estés trabajando, y Codex opera independientemente. Obtienes un análisis de IA genuinamente paralelo sin que los modelos interfieran con el contexto del otro.

Cómo instalar el plugin de Codex en menos de cinco minutos

La configuración es sencilla, pero hay dos trampas que me encontré y que señalaré para que no pierdas tiempo con ellas.

Requisitos previos

Necesitas tres cosas antes de empezar:

Node.js 18.18 o superior. El plugin no se instala en versiones antiguas, y el mensaje de error no es útil — simplemente falla silenciosamente durante el paso de añadir marketplace. Verifica tu versión con node -v antes de empezar.
Codex CLI instalado localmente. Si has estado usando Codex a través de la app o API pero nunca instalaste la CLI, necesitarás hacerlo primero. Ejecuta npm install -g @openai/codex o sigue la documentación de configuración de CLI de OpenAI.
Una cuenta de ChatGPT. El nivel gratuito funciona. Pro funciona. Plus funciona. El plugin se autentica a través de tu suscripción existente de ChatGPT, lo que significa que no necesitas una clave API separada a menos que prefieras esa ruta.

Instalación paso a paso

Paso 1: Añadir la fuente del marketplace.

/plugin marketplace add openai/codex-plugin-cc

Esto registra el repositorio del plugin de OpenAI con el sistema de plugins de Claude Code. Si obtienes un error "marketplace not found", asegúrate de estar ejecutando una versión de Claude Code de marzo de 2026 o posterior — las versiones antiguas no soportan marketplaces de terceros.

Paso 2: Instalar el plugin.

/plugin install codex@openai-codex

Esto trae el plugin a tu entorno de Claude Code. La instalación tarda unos diez segundos con una conexión decente. Verás un mensaje de confirmación con la lista de nuevos comandos slash.

Paso 3: Autenticarse.

/codex:setup

Este comando maneja la autenticación. Detectará tus credenciales existentes de Codex CLI o abrirá una ventana del navegador para que inicies sesión con tu cuenta de ChatGPT. Si prefieres autenticación por clave API, puedes pasarla directamente — pero el flujo de inicio de sesión por navegador es más rápido para la mayoría de configuraciones.

Paso 4: Verificar que todo funciona.

/codex:review --check

Esto ejecuta un diagnóstico que confirma que el plugin puede alcanzar el backend de Codex, tu autenticación es válida y la versión de CLI es compatible. Si pasa, estás listo.

La trampa que me costó veinte minutos

Esto es lo que me hizo tropezar. Tenía Codex CLI instalado pero no lo había actualizado en unas semanas. El plugin requiere una versión mínima de CLI que se distribuyó a finales de marzo de 2026, y mi versión antigua pasó la verificación de instalación pero falló silenciosamente en los comandos de revisión reales. La solución fue simple — npm update -g @openai/codex — pero el error no me dio ninguna indicación de que la incompatibilidad de versiones fuera el problema. Solo lo descubrí ejecutando /codex:setup una segunda vez, que señaló el problema de versión. Si tus revisiones no devuelven resultados, verifica primero tu versión de CLI.

La revisión adversarial: qué encontró realmente Codex

Volviendo al sábado por la noche. Tenía un bot de engagement e investigación de Twitter en producción — un sistema que escanea tweets, aplica filtrado de calidad, los puntúa por relevancia, deduplica contra una base de datos Supabase y enruta contenido seleccionado a un canal de Telegram con respuestas asistidas por IA. Unas 2.000 líneas de código en ocho archivos.

Apunté la revisión adversarial de Codex a toda la codebase con un prompt específico dirigido a siete superficies de ataque que más me importaban:

Vulnerabilidades de autenticación
Escenarios de pérdida de datos
Seguridad de rollback
Condiciones de carrera
Manejo de dependencias degradadas
Desfase de versiones entre servicios
Brechas de observabilidad

La revisión adversarial terminó en unos cuatro minutos. Codex devolvió cuatro problemas de alta severidad, cada uno con ubicaciones específicas de archivos, explicaciones detalladas y correcciones recomendadas.

Problema 1: Fallo en la lógica de deduplicación

El sistema de deduplicación verificaba IDs de tweets contra Supabase antes del procesamiento, pero la verificación y la inserción no eran atómicas. Bajo carga — que este bot alcanza regularmente durante trending topics — dos workers paralelos podían pasar ambos la verificación de dedup para el mismo tweet, procesarlo independientemente e insertar entradas duplicadas. Codex identificó la ventana exacta de carrera y recomendó cambiar a un upsert de Supabase con restricción única como mecanismo principal de dedup en lugar del patrón verificar-luego-insertar.

Este era un bug real. Los usuarios habían reportado publicaciones duplicadas ocasionales en el canal de Telegram, y yo no había podido reproducirlo consistentemente. La condición de carrera solo se dispara bajo patrones de carga concurrente específicos — exactamente el tipo de bug que es invisible en pruebas de un solo hilo.

Problema 2: Mal manejo del polling de Telegram

El bot usaba long polling para escuchar comandos de Telegram, pero el manejo de errores en timeouts de poll era incorrecto. Cuando un poll expiraba (lo que sucede naturalmente cada 30 segundos), el manejador de errores lo trataba como un fallo de conexión y activaba una reconexión con backoff exponencial. Después de varios timeouts naturales, el retraso de backoff crecía lo suficiente como para que el bot quedara sin responder durante minutos.

Este era el bug que provocó el mensaje de Slack del sábado por la noche. Codex no solo lo identificó — rastreó el ciclo de vida completo desde timeout hasta backoff hasta falta de respuesta, algo que yo no había conectado a pesar de estar mirando los logs.

Problema 3: Deriva de esquema entre servicios

El módulo de puntuación del bot esperaba un esquema JSON específico del escáner de tweets, pero no había validación en la frontera. Si la API de Twitter cambiaba su formato de respuesta — lo cual hace periódicamente sin previo aviso — el módulo de puntuación procesaría silenciosamente datos malformados en lugar de fallar ruidosamente. Codex recomendó agregar validación de esquema Zod en cada frontera de servicio.

Problema 4: Fallos en el build del dashboard

El dashboard de monitoreo compilaba en tiempo de build con endpoints de API hardcodeados, lo que significaba que un despliegue a staging seguiría apuntando a APIs de producción. Codex marcó esto como un problema de seguridad de despliegue y recomendó inyección de variables de entorno en tiempo de ejecución en lugar de tiempo de build.

Cuatro problemas. Todos de alta severidad. Todos legítimos. Dos de ellos explicaban bugs que los usuarios ya habían reportado. Nada mal para cuatro minutos de tiempo de cómputo.

Pero aquí es donde la historia se pone interesante — porque después ejecuté Opus.

La misma codebase a través de los ojos de Opus 4.6

Le di a Opus 4.6 el prompt de revisión adversarial idéntico, apuntando a las mismas siete superficies de ataque. Opus tardó un poco más — cerca de seis minutos — y regresó con ocho problemas. Uno de alta severidad, siete críticos.

¿La coincidencia? Exactamente un problema. Ambos modelos marcaron independientemente el problema de polling de Telegram como el bug más peligroso en la codebase. Incluso lo calificaron con niveles de severidad similares — Codex lo llamó alto, Opus lo llamó crítico. El hecho de que dos arquitecturas de IA fundamentalmente diferentes convergieran en el mismo bug me dio una fuerte confianza de que este era genuinamente el fix más urgente.

Pero los hallazgos restantes divergieron completamente.

Donde Codex encontró cuatro problemas en total, Opus encontró ocho — y siete de ellos eran únicos de Opus. No eran observaciones menores. Incluían:

Una condición de carrera en el refresh de tokens en la capa de autenticación de la API de Twitter que podía dejar al bot funcionando con credenciales expiradas hasta por 15 minutos
Un escenario de crecimiento de cola sin límite donde el pipeline de puntuación podía acumular tweets sin procesar más rápido de lo que podía evaluarlos durante eventos virales
Una configuración de logging que escribía datos sensibles de usuarios en logs de texto plano sin redacción
Patrones de circuit breaker ausentes en la conexión a Supabase, lo que significaba que una caída de la base de datos se propagaría en cascada a todo el sistema en lugar de degradar elegantemente
Tres problemas adicionales relacionados con propagación de errores, semántica de reintentos y persistencia de estado entre reinicios

Estas son preocupaciones arquitectónicas — exactamente el tipo de problemas sistémicos en los que Opus destaca. El modelo conectó dependencias entre archivos y servicios de maneras que revelaron modos de fallo emergentes, no solo bugs individuales.

Mientras tanto, los tres problemas únicos de Codex — la condición de carrera de dedup, la deriva de esquema y el problema de build del dashboard — eran preocupaciones de runtime y despliegue que Opus no marcó. Opus estaba tan enfocado en la imagen arquitectónica que pasó por alto la realidad operacional de cómo el código realmente se ejecuta y despliega.

Lo que la comparación realmente significa para tu flujo de trabajo

Aquí está la verdad incómoda que este experimento reveló. Si solo hubiera ejecutado Codex, habría arreglado cuatro bugs reales y me habría sentido bien con la codebase. Si solo hubiera ejecutado Opus, habría arreglado ocho problemas y me habría sentido aún mejor. Pero habría pasado por alto tres problemas reales en el primer caso y cuatro problemas reales en el segundo.

Ningún modelo me dio una imagen completa. Juntos, encontraron once problemas únicos en cada categoría que me importaba.

Esto no es solo una anécdota. Refleja una diferencia estructural en cómo estos modelos abordan el análisis de código. Codex — construido desde el pipeline de entrenamiento enfocado en codificación de OpenAI — destaca en razonamiento a nivel de ejecución. Piensa en lo que sucede cuando el código se ejecuta: condiciones de carrera, comportamiento de polling, desajustes de esquema, configuraciones de despliegue. Es como un SRE senior revisando tu código.

Opus 4.6 — con su enorme ventana de contexto de 1M tokens y arquitectura de razonamiento profundo — destaca en análisis sistémico. Piensa en lo que sucede cuando el sistema escala, se degrada o encuentra estado inesperado: colas sin límite, fallos en cascada, brechas en el ciclo de vida de autenticación, higiene de logs. Es como un arquitecto principal revisando tu código.

No quieres uno u otro. Quieres ambos. Y el plugin de Codex hace que ejecutar ambos sea trivialmente fácil porque operan en la misma sesión de terminal sin competir por contexto.

Si prefieres que alguien construya este tipo de pipeline de revisión multi-modelo para tu equipo, acepto encargos de ingeniería de flujos de trabajo con IA. Puedes ver lo que he construido en fiverr.com/s/EgxYmWD.

El flujo de trabajo de revisión multi-modelo que realmente uso ahora

Después de esa sesión del sábado por la noche, formalicé un flujo de trabajo que he estado usando en cada proyecto desde entonces. Aquí está el proceso exacto.

Fase 1: Escribir con Opus

Uso Opus 4.6 como mi agente de codificación principal en Claude Code. Maneja planificación, generación de código, refactorización y pruebas iniciales. Aquí es donde la ventana de contexto de 1M tokens y el razonamiento profundo demuestran su valor — Opus puede mantener toda una codebase en contexto y hacer cambios que tienen en cuenta dependencias distantes.

Fase 2: Revisión estándar con Codex

Después de terminar una función o corrección, ejecuto /codex:review para una segunda opinión neutral. Esto atrapa lo obvio — problemas de estilo, posibles referencias nulas, manejadores de errores faltantes y cualquier cosa que parezca sintácticamente incorrecta. Lo veo como el equivalente de una revisión de pull request de un colega competente.

Fase 3: Revisión adversarial con Codex

Si el código toca algo crítico para producción — autenticación, pagos, almacenamiento de datos, APIs externas — escalo a /codex:adversarial-review con un prompt personalizado dirigido a las superficies de ataque específicas que importan para esa función. Esta es la pasada de abogado del diablo.

Fase 4: Revisión adversarial con Opus

Luego ejecuto el mismo prompt adversarial directamente a través de Opus. Como Opus ya tiene toda la codebase en contexto desde la fase de escritura, puede realizar un análisis sistémico más profundo sin necesidad de recargar todo.

Fase 5: Referencia cruzada y priorización

La magia ocurre cuando comparas las dos revisiones adversariales. Cualquier problema marcado por ambos modelos se corrige inmediatamente — si dos arquitecturas de IA independientes coinciden en que algo está roto, casi con certeza está roto. Los problemas únicos de un modelo se evalúan según severidad y probabilidad. Esto me toma generalmente diez minutos de juicio humano para triaje.

Este flujo de trabajo de cinco fases añade quizás 15 minutos a un ciclo de desarrollo. ¿El costo? Codex funciona con tu suscripción existente de ChatGPT — incluso el nivel gratuito — así que el gasto incremental es despreciable. Opus es lo que ya pagas por Claude Code. El costo combinado de ejecutar ambas revisiones adversariales en mi proyecto del bot del sábado por la noche fue menos de $2 en tokens de API.

Para contexto, una revisión de seguridad humana de la misma codebase costaría entre $500 y $2,000 dependiendo del alcance y a quién contrates. No estoy diciendo que las revisiones de IA reemplacen las auditorías de seguridad humanas para sistemas críticos. Estoy diciendo que la relación costo-cobertura de una revisión de IA multi-modelo es absurdamente buena como primera pasada.

Consejo profesional: Prompts adversariales personalizados

La revisión adversarial por defecto es sólida, pero obtienes resultados dramáticamente mejores con prompts dirigidos. Aquí está la plantilla que he estado usando:

Run an adversarial security and reliability review of this codebase.
Assume flaws exist. Your job is to find them.

Focus on these attack surfaces:
1. [Surface relevant to your project]
2. [Surface relevant to your project]
3. [Surface relevant to your project]

For each issue found:
- Severity: Critical / High / Medium
- File and line number
- Description of the failure mode
- Specific fix recommendation
- What monitoring would detect this issue in production

Adaptar las superficies de ataque a tu arquitectura específica reduce el ruido en aproximadamente un 60% y aumenta dramáticamente la relevancia de los hallazgos. Un prompt genérico de "encuentra bugs" devuelve resultados genéricos. Un prompt dirigido como "¿cómo podría fallar el flujo de autenticación bajo peticiones concurrentes?" devuelve hallazgos accionables.

La ecuación de costos: por qué esto tiene sentido financiero

Una de las razones más prácticas para integrar Codex en tu flujo de trabajo de Claude Code se reduce al dinero. Si estás en el plan Pro de Anthropic, probablemente has alcanzado límites de uso durante sesiones intensivas de codificación. Ese frustrante mensaje de "has alcanzado tu límite" a mitad de flujo. Rompe tu impulso y te cuesta lo más caro en desarrollo de software: contexto.

Codex ejecutándose a través del plugin opera con tu suscripción de ChatGPT — un pool de uso completamente separado. Cuando tus tokens de Opus se están agotando o te acercas a un límite de tasa, puedes descargar revisiones de código, investigaciones de bugs e incluso tareas de generación de código a Codex sin interrumpir tu sesión de Claude Code.

Según el análisis de precios de 2026 de NxCode, Codex es aproximadamente 4 veces más eficiente en tokens que Claude Code para tareas equivalentes. Eso significa que un presupuesto de API de $20 en Codex logra aproximadamente el mismo trabajo que $80 en la API de Claude Code. Los costos por token cuentan parte de la historia — Opus funciona a $5/$25 por millón de tokens (entrada/salida) mientras que Codex funciona a $6/$30 — pero Codex tiende a usar menos tokens por tarea debido a su tokenizador optimizado para codificación.

La conclusión práctica: usa Opus para lo que hace mejor (planificación, razonamiento complejo, análisis de contexto grande) y delega tareas intensivas en ejecución (revisiones, generación de código, depuración) a Codex cuando cuides tu presupuesto. He estado ejecutando esta división durante dos semanas y mis costos efectivos de Claude Code bajaron aproximadamente un 35% sin ninguna reducción notable de calidad en mi output.

Limitaciones honestas — dónde este setup se queda corto

He estado haciendo que esto suene bastante bien. Hora de la parte honesta.

Las revisiones de Codex son más superficiales que las de Opus. Cuatro problemas versus ocho no es casualidad — he visto esta proporción consistentemente en cinco proyectos. Codex encuentra menos cosas. Las cosas que encuentra son reales e importantes, pero si cuentas con él como tu único mecanismo de revisión, estás dejando bugs sobre la mesa.

El plugin ocasionalmente pierde conexión durante una revisión. He tenido tres revisiones de aproximadamente veinte que fallaron silenciosamente — el comando /codex:status simplemente deja de devolver actualizaciones, y necesitas cancelar y volver a ejecutar. No es un impedimento, pero es molesto cuando estás bajo presión de tiempo.

La ejecución en segundo plano no es verdaderamente paralela en máquinas más lentas. En mi MacBook Pro M3, ambos modelos se ejecutan concurrentemente sin problemas. Pero un colega probó en una máquina Intel más antigua y reportó ralentizaciones significativas al ejecutar revisiones de Codex en segundo plano mientras Opus estaba generando código activamente. La CLI de Codex es intensiva en recursos, y compartir CPU con Claude Code crea contención.

La revisión adversarial puede marcar de más en codebases más pequeñas. En un script utilitario de 500 líneas, el modo adversarial de Codex marcó "patrones de circuit breaker faltantes" e "observabilidad insuficiente" — técnicamente cierto, pero absurdo para un script que se ejecuta una vez al día en un cron job. El modo adversarial no ajusta sus expectativas según la escala o criticidad del proyecto. Necesitas calibrar tus prompts en consecuencia o te ahogarás en hallazgos de falsa prioridad.

El flujo de autenticación es frágil. El inicio de sesión basado en navegador a veces no persiste entre sesiones de Claude Code. He tenido que re-autenticarme cuatro veces en dos semanas. El enfoque de clave API es más estable si no te importa gestionar claves.

Ninguna de estas son impedimentos. Pero si entras esperando una experiencia perfecta, te decepcionarás. Es un plugin v1 lanzado hace 48 horas. Las asperezas son esperables.

Hacia dónde veo que esto se dirige

El hecho de que OpenAI construyó un plugin oficial para la herramienta de un competidor es significativo — y señala un cambio más amplio en cómo funcionarán las herramientas de desarrollo de IA en 2026 y más allá. La era de elegir un proveedor de IA y quedarse en su jardín amurallado está terminando. El futuro se parece más a un enfoque de lo mejor de cada uno: un modelo para planificación, otro para ejecución, un tercero para revisión, quizás un cuarto para testing.

El plugin de Codex es el primer puente real de calidad de producción entre los dos ecosistemas más grandes de codificación con IA. Sospecho que Anthropic responderá — quizás con un plugin de Claude para el entorno de aplicaciones de Codex, o quizás profundizando la API de plugins de Claude Code para hacer la integración de terceros aún más fluida.

Para desarrolladores que ya han invertido en flujos de trabajo de agentes de Claude Code — ejecutando múltiples agentes especializados, construyendo skills y hooks, gestionando pipelines complejos — el plugin de Codex encaja naturalmente. Es otro agente especialista en tu enjambre, uno que resulta ejecutarse en la infraestructura de OpenAI en lugar de la de Anthropic.

Y para aquellos que han estado sopesando Codex como herramienta independiente contra Claude Code, la respuesta acaba de simplificarse: no tienes que elegir. Ejecuta ambos. Deja que revisen el trabajo del otro. Tu código será mejor por ello.

Los modelos encontraron once problemas en la codebase de mi bot ese sábado por la noche. Arreglé primero el bug de polling de Telegram — el que ambos modelos coincidieron — y la publicación doble se detuvo inmediatamente. Las otras diez correcciones se desplegaron durante la semana siguiente. Los usuarios no han reportado un solo problema desde entonces.

Dos modelos de IA revisando el mismo código independientemente detectaron lo que ningún modelo individual — y honestamente, lo que yo probablemente no habría detectado manualmente en una sesión de depuración nocturna — podía encontrar solo. Eso no es un beneficio teórico. Es un sistema en producción que dejó de romperse porque ejecuté un comando extra.

La próxima vez que termines una función y te sientas confiado con el código, intenta ejecutar /codex:adversarial-review antes de hacer merge. Los cuatro minutos que toma podrían salvarte un sábado por la noche.

Preguntas frecuentes

¿Cómo instalo el plugin de Codex en Claude Code?

Añade el marketplace con /plugin marketplace add openai/codex-plugin-cc, instala con /plugin install codex@openai-codex, luego autentícate con /codex:setup. Necesitas Node.js 18.18+ y una cuenta de ChatGPT (el nivel gratuito funciona). Para el tutorial completo, consulta la sección de instalación arriba.

¿Funciona el plugin de Codex con una cuenta gratuita de ChatGPT?

Sí. El plugin se autentica a través de tu suscripción existente de ChatGPT, y el nivel gratuito proporciona acceso a las funciones de revisión y delegación de tareas de Codex. Los niveles de pago ofrecen mayores límites de tasa y tiempos de respuesta más rápidos, pero la funcionalidad principal — incluyendo revisiones adversariales — funciona con el plan gratuito.

¿Qué es una revisión de código adversarial?

Una revisión de código adversarial asume que tu código contiene fallos y los busca activamente. A diferencia de las revisiones estándar que verifican la corrección, las revisiones adversariales cuestionan decisiones de diseño, exploran modos de fallo y prueban si existen alternativas más simples o seguras. El comando /codex:adversarial-review apunta a siete superficies de ataque incluyendo autenticación, condiciones de carrera y dependencias degradadas.

¿Es Codex mejor que Opus 4.6 para revisión de código?

Ningún modelo es estrictamente mejor — encuentran diferentes categorías de problemas. En mis pruebas, Codex destaca en bugs de runtime y nivel de ejecución (condiciones de carrera, errores de polling, deriva de esquema) mientras que Opus detecta problemas sistémicos y arquitectónicos (fallos en cascada, colas sin límite, brechas en el ciclo de vida de autenticación). Ejecutar ambos y cruzar referencias de resultados da la cobertura más exhaustiva.

¿Cuánto cuesta ejecutar Codex dentro de Claude Code?

El plugin de Codex funciona con tu suscripción de ChatGPT, separada de tu uso de Claude Code. Una revisión adversarial completa de una codebase de 2,000 líneas cuesta menos de $1 en tokens de API. Combinado con tu suscripción existente de Anthropic, el costo total de un flujo de trabajo de revisión de doble modelo es mínimo comparado con auditorías de seguridad manuales.

Trabajemos juntos

¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudar.

Fiverr (desarrollos personalizados e integraciones): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io