Claude Code Ultra Review: lo vi cazar bugs en un PR de 11.000 líneas
Estaba revisando un pull request — una funcionalidad de voice calling, unas 11.000 líneas de código modificado — cuando noté algo raro en la interfaz de Claude Code. Una opción nueva que no había visto antes. No era el comando estándar /review que llevaba meses usando. Algo llamado Ultra Review, escondido detrás de lo que parecía un feature flag que no habían terminado de ocultar.
Naturalmente, le hice clic.
Lo que ocurrió en los siguientes diecisiete minutos cambió por completo mi forma de pensar sobre el code review automatizado. No porque encontrara bugs — cualquier linter decente encuentra bugs. Sino porque encontró bugs y después demostró que eran reales antes de contármelos. Y esa segunda parte es la que nadie más está haciendo.
El /review estándar de Claude Code ya es sólido por sí solo. Despacha múltiples agents para escanear tu diff, y en PRs grandes — cualquier cosa por encima de 1.000 líneas — los propios datos de Anthropic muestran que el 84% de las reviews arrojan hallazgos, con un promedio de 7,5 issues por review. Son números fuertes. Pero hay un problema horneado en cualquier sistema que encuentra bugs sin verificarlos: los false positives. Cada false positive erosiona la confianza. Después de la tercera vez que investigas una alerta y descubres que no es un problema real, empiezas a ignorar la herramienta. Es la naturaleza humana, y es la razón por la que la mayoría de las herramientas de review automatizado terminan apagadas.
Ultra Review existe para resolver exactamente ese modo de fallo. Y tras verlo trabajar en un PR real, desordenado y a escala de producción, estoy convencido de que el paso de verificación no es solo un añadido agradable — es la intuición arquitectónica que hace que el multi-agent review sea realmente confiable.
Aquí tienes todo lo que aprendí probándolo, desglosándolo y haciendo ingeniería inversa para entender cómo funciona por dentro.
Qué es realmente Ultra Review — y por qué existe
Ultra Review es un sistema de code review multietapa impulsado por la nube que va significativamente más allá de lo que hace el comando estándar /review. A abril de 2026, no está disponible ampliamente — se descubrió mediante ingeniería inversa del source de Claude Code, en particular tras el ya famoso leak de source map del 31 de marzo de 2026, donde un archivo de source map de 59,8 MB se envió por accidente en el npm package @anthropic-ai/claude-code v2.1.88, exponiendo 1.884 archivos fuente de TypeScript y un catálogo completo de features sin lanzar.
Ultra Review era una de esas features. Y a diferencia de algunos de los descubrimientos más experimentales de ese leak — como BUDDY la mascota de AI o Undercover Mode — Ultra Review resuelve un problema de ingeniería real y urgente.
La intuición central es simple pero poderosa: encontrar bugs y confirmar bugs son dos tareas fundamentalmente distintas. El review estándar las mezcla. Ultra Review las separa en etapas diferenciadas, con agents independientes ocupándose de cada una. Esa separación es lo que marca la diferencia entre una herramienta que genera una lista de "posibles issues" y una herramienta que te entrega una lista de "bugs confirmados con evidencia".
Antes de recorrer la arquitectura, necesitas entender la escala de lo que esta cosa procesa. El PR en el que lo probé — esa funcionalidad de voice calling — no era una adición limpia y aislada. Tocaba authentication flows, configuración de WebRTC, componentes de UI, state management y error handling distribuidos en múltiples servicios. Once mil líneas de código repartidas en decenas de archivos. El tipo de PR que hace gruñir a los senior engineers cuando aterriza en su cola de review un viernes por la tarde.
Ultra Review no gruñó. Encendió sus agents y se puso a trabajar.
Las cuatro etapas: cómo Ultra Review caza bugs
Todo el proceso corre sobre la infraestructura en la nube de Anthropic — no en tu máquina local. Esto importa porque el costo computacional de correr múltiples agents simultáneamente demolería tu presupuesto local de tokens. Al descargarlo a la nube, Ultra Review puede levantar flotas de agents sin que te preocupes por el consumo de tu ventana de uso rotativa.
Así se desglosan las cuatro etapas.
Stage 1: Setup
La sesión de review se inicializa y aprovisiona recursos en la nube. Ultra Review levanta su fleet de sub-agents — por defecto 5 agents, aunque el sistema soporta hasta 20 (probablemente reservado para clientes del tier Enterprise, según las configuration flags que encontré). Cada agent obtiene su propio context window y su propia perspectiva sobre el codebase.
Esta fase de setup es rápida. En mi PR de 11.000 líneas tomó unos 90 segundos antes de que los agents estuvieran desplegados y trabajando. Ves un indicador de progreso en la interfaz de Claude Code mostrando cómo se levanta la fleet, lo cual es un detalle agradable — te da la confianza de que algo significativo está pasando, y no solo un spinner de carga disfrazando tiempo muerto.
Stage 2: Find
Aquí es donde la cosa se pone interesante. La fleet de sub-agents explora de forma independiente distintos caminos a través del codebase para detectar bugs potenciales. "Independiente" es la palabra clave. Cada agent no está solo escaneando archivos distintos — están explorando distintos execution paths, distintos órdenes, distintos ángulos del mismo código.
¿Por qué importa el orden? Porque ciertos bugs solo se revelan cuando lees el código en una secuencia específica. Si empiezas por el módulo de authentication y avanzas hacia el WebRTC handler, una race condition puede ser obvia. Pero si empiezas por los componentes de UI y avanzas hacia atrás, esa misma race condition es invisible porque no has construido el modelo mental necesario del auth state.
Al tener cinco agents abordando el código desde distintas direcciones — potencialmente con distintas "personas" enfocadas en distintos dominios de preocupación como billing, security o data integrity — Ultra Review captura bugs que cualquier review de una sola pasada pasaría por alto.
En mi PR de prueba, la etapa Find identificó 64 bugs candidatos. Sesenta y cuatro. Ese número inicialmente me hizo escéptico. Imposible que un solo PR tenga 64 bugs reales, ni siquiera con 11.000 líneas. Y tenía razón en ser escéptico — pero eso es exactamente lo que aborda la siguiente etapa.
Stage 3: Verify
Esta es el arma secreta de Ultra Review. Un conjunto separado de sub-agents — distintos a los que encontraron los candidatos — verifica de forma independiente la validez de cada bug. Cada verification agent recibe una descripción del bug candidato junto con el contexto completo necesario para evaluarlo: el título del PR, la descripción del PR, las secciones de código relevantes y el issue reclamado.
El trabajo del verification agent es directo pero crítico: determinar con alta confianza si se trata de un bug real o un false positive. Es esencialmente un sistema adversario — los Find agents están optimizados para ser sensibles (atrapar todo, incluso si algunos están mal), mientras que los Verify agents están optimizados para ser específicos (confirmar solo lo que realmente está roto).
Según la documentación de Anthropic sobre su sistema de review, usan sub-agents de clase Opus para bugs y cuestiones de lógica, y agents de clase Sonnet para cosas como violaciones de CLAUDE.md y preocupaciones de estilo. Este model-matching tiene sentido — quieres tu capacidad de reasoning más pesada apuntando a los problemas de verificación más difíciles.
En mi PR, la etapa Verify tomó esos 64 candidatos y confirmó un subconjunto como issues genuinos. El resto eran o false positives, preocupaciones estilísticas que no alcanzaban el nivel de bugs, o edge cases que en realidad ya se manejaban en otro lugar del codebase. Ese filtrado es toda la propuesta de valor. Sin él, yo estaría mirando una lista de 64 ítems, haciendo triage manual de cada uno. Con él, obtuve una lista curada y de alta confianza de cosas que realmente necesitaban arreglarse.
Stage 4: Dedup
La etapa final fusiona los hallazgos duplicados. Cuando cinco agents exploran de forma independiente el mismo codebase, inevitablemente descubrirán el mismo bug desde ángulos distintos. El agent 1 puede marcar un null pointer issue desde la perspectiva del caller. El agent 3 puede marcar el mismo issue desde la perspectiva del callee. Es el mismo bug, reportado dos veces con distinto encuadre.
La deduplicación los combina en un único hallazgo enriquecido que incluye contexto de múltiples rutas de descubrimiento. Esto en realidad hace que el bug report final sea más útil — en lugar de una única perspectiva sobre el issue, obtienes una vista multi-ángulo que a menudo hace que la root cause sea más evidente.
Todo el proceso — de Setup a Dedup — tomó 17 minutos en mi PR de 11.000 líneas. Compáralo con el /review estándar, que habría terminado en 3 o 4 minutos pero sin la capa de verificación. Me tomo esos 13 minutos extra todas las veces para un PR de este tamaño.
Cómo se compara con el /review estándar
He estado usando el comando /review estándar de Claude Code desde su lanzamiento en marzo de 2026. Es bueno. En PRs pequeños de menos de 50 líneas, es rápido y captura lo obvio — Anthropic reporta una tasa de hallazgos del 31% en PRs pequeños, con un promedio de 0,5 issues, lo cual se siente correcto según mi uso. Para adiciones rápidas de features o cambios de config, es la herramienta adecuada.
Pero el review estándar tiene un problema de confianza a escala.
En PRs más grandes marca más issues — esa tasa de hallazgos del 84% que mencioné antes. El problema es que cuando estás mirando 7 u 8 issues marcados en un PR grande, necesitas verificar cada uno manualmente. Algunos son reales. Algunos son el agent malinterpretando el contexto. Algunos son técnicamente correctos pero prácticamente irrelevantes porque otra parte del sistema maneja el edge case. Ese triage manual toma tiempo. A menudo más tiempo del que el propio review ahorró.
Aquí es donde los dos enfoques divergen marcadamente:
Tradeoff de velocidad vs. precisión. El review estándar prioriza la velocidad — 3 o 4 minutos y tienes resultados. Ultra Review prioriza la precisión — 10 a 20 minutos, pero los resultados que obtienes han sido verificados de forma independiente. ¿Para un PR rápido en una feature branch? Review estándar. ¿Para un PR de 2.000 líneas que toca payment processing? Ultra Review. Siempre.
Manejo de false positives. El review estándar te deja a ti el filtrado de false positives. Ultra Review lo integra en el pipeline. Según las propias estadísticas de Anthropic, menos del 1% de los hallazgos del sistema de review completo son marcados como incorrectos por los engineers. Esa es una tasa de precisión notable, y la etapa de verificación es la razón.
Uso de recursos. El review estándar corre sobre los recursos de tu sesión existente de Claude Code. Ultra Review corre completamente sobre la infraestructura en la nube de Anthropic con compute dedicado. No pagas por sesión desde tu ventana rotativa — aunque el modelo de precios actual para code review ronda los $15 a $25 por review según la complejidad del código.
Profundidad del análisis. El review estándar escanea el diff y el contexto inmediato. La fleet multi-agent de Ultra Review realiza lo que yo llamaría "análisis de ciclo de vida" — los agents trazan el flujo de datos a través de las fronteras entre módulos, siguen function calls a través de múltiples capas de abstracción y evalúan las implicaciones de state management que abarcan varios archivos. Esa profundidad es lo que captura los bugs sutiles que un escaneo superficial pasa por alto.
Si estás pensando "entonces corro primero el review estándar y luego Ultra Review para los PRs grandes" — ese es exactamente el workflow que recomendaría. Review rápido para feedback rápido, review profundo para cambios críticos. Son complementarios, no competidores.
Lo que la arquitectura de sub-agents revela sobre el futuro del code review
Lo más interesante de Ultra Review no es el feature en sí. Es el patrón arquitectónico que establece.
La idea de usar múltiples agents independientes con perspectivas distintas, seguidos de una capa de verificación separada, es transferible a casi cualquier tarea de análisis. Bug detection es solo la primera aplicación. El mismo patrón podría funcionar para security audits, análisis de performance, reviews de accessibility, chequeos de completitud de documentación — cualquier dominio donde encontrar issues y confirmar issues sean preocupaciones separables.
Encontré este patrón lo suficientemente convincente como para empezar a experimentar con mi propia versión. Construí un skill personalizado de fleet review que combina agents de distintos proveedores — Claude Code agents junto a OpenAI's Codex — con una etapa de verificación que exige consenso entre modelos antes de marcar un issue. El consenso cross-model es una señal poderosa. Si Claude y Codex coinciden de forma independiente en que algo es un bug, el nivel de confianza se dispara comparado con la evaluación de un único modelo.
La flexibilidad en el tamaño de la fleet también vale la pena mencionarla. Ultra Review por defecto usa 5 sub-agents, pero la configuración soporta hasta 20. Para un PR estándar, 5 agents proporcionan buena cobertura. Pero imagina correr 20 agents contra un cambio crítico de infraestructura — una database migration, un refactor de sistema de pagos o una reescritura de authentication sensible a la seguridad. La minuciosidad escala con el riesgo.
Los equipos enterprise probablemente obtendrán acceso primero a esos tamaños de fleet mayores. Si tu organización corre en el plan Team o Enterprise — actualmente los únicos tiers donde Code Review está disponible como research preview — ya estás posicionado para usarlo cuando se abra más ampliamente.
Este patrón de verificación multi-agent también tiene implicaciones para cómo pensamos sobre la orquestación de AI agents de forma más amplia. La agent swarm architecture sobre la que escribí antes se enfoca en paralelización de tareas — múltiples agents trabajando en distintos subtasks simultáneamente. Ultra Review añade una nueva dimensión: agents trabajando en la misma tarea de forma independiente, luego verificando cruzadamente el trabajo de los otros. Es la diferencia entre división del trabajo y peer review. Ambos son valiosos. Combinar ambos es donde las cosas se ponen poderosas.
Setup práctico: correr Ultra Review hoy
Déjame ser directo sobre la disponibilidad. A abril de 2026, Ultra Review no es un feature públicamente documentado con un gran botón "Enable". Se descubrió mediante análisis de source code y es accesible a un número limitado de usuarios. El feature de Code Review más amplio — que comparte gran parte de la misma arquitectura multi-agent — está disponible en research preview para clientes Team y Enterprise de Claude Code.
Esto es lo que necesitas saber si quieres usar las capacidades de review que están disponibles ahora mismo.
Paso 1: asegúrate de estar en un plan que califique. Code Review requiere Team o Enterprise. El plan Max 20x a $200/mes te da acceso prioritario a nuevos features, lo cual es relevante aquí. Si estás en Pro ($20/mes) o Max 5x ($100/mes), vas a necesitar hacer upgrade o esperar a una disponibilidad más amplia.
Paso 2: pídele a un admin que habilite Code Review para tu organización. Esto no es un toggle por usuario — es una configuración a nivel de organización. Una vez habilitado, las reviews pueden dispararse automáticamente al abrir un PR, en cada push o por solicitud manual, dependiendo del comportamiento configurado de tu repository.
Paso 3: usa el comando /review en Claude Code. Para el review estándar, es directo — córrelo contra tu branch actual o un PR específico. El sistema maneja el aprovisionamiento de agents, el análisis y el reporte automáticamente.
Paso 4: para PRs grandes, reserva tiempo. Las reviews estándar terminan en 3 o 4 minutos. El review multi-agent más profundo con verificación toma 10 a 20 minutos. No lo empieces cinco minutos antes de una reunión. Iníícialo, ve por un café, vuelve a resultados verificados.
Pro tip: si estás corriendo reviews en PRs que tocan sistemas críticos — cualquier cosa que involucre payments, authentication, data access controls o configuración de infraestructura — la espera de 10 a 20 minutos por resultados verificados no es opcional. Es el mínimo responsable. Prefiero gastar 20 minutos obteniendo hallazgos verificados que 3 horas debuggeando un issue en producción que un review superficial pasó por alto.
Si prefieres que alguien te configure un workflow completo de code review con verificación multi-agent adaptado al codebase de tu equipo, yo tomo exactamente este tipo de encargos de automatización. Puedes ver lo que he construido en fiverr.com/s/EgxYmWD.
La evaluación honesta: dónde se queda corto Ultra Review
Te haría un flaco favor si pretendiera que esto es impecable. No lo es. Esto es lo que noté durante las pruebas.
El costo en tiempo es real. Diecisiete minutos por un solo review está bien cuando estás haciendo chequeos finales en un PR importante. No está bien cuando estás iterando rápido en una feature branch y pusheando cinco commits en una hora. Para ese workflow, el review estándar — o incluso el análisis incorporado de tu IDE — es la herramienta correcta. Ultra Review es un bisturí, no un martillo.
La disponibilidad limitada mata la propuesta de valor para la mayoría de los desarrolladores. Si eres un desarrollador solo en el plan Pro, aún no puedes usar esto. Los requisitos de Team y Enterprise tienen sentido desde la perspectiva de Anthropic — el compute multi-agent del lado de la nube no es barato — pero significa que los desarrolladores que más se beneficiarían del review automatizado (devs solos sin un equipo que les revise el código) son los que tienen menos probabilidades de acceder.
El tamaño por defecto de la fleet puede ser conservador. Cinco sub-agents funcionaron bien en mi PR de 11.000 líneas, pero sospecho que ciertas categorías de bugs — particularmente issues de sistemas distribuidos, problemas sutiles de concurrencia o bugs de consistencia de datos entre servicios — se beneficiarían de más agents explorando más caminos. La configuración soporta hasta 20, pero no he podido probar fleets más grandes para confirmar la mejora.
No reemplaza el review humano para decisiones arquitectónicas. Ultra Review es excelente encontrando bugs — errores de lógica, riesgos de null pointer, edge cases sin manejar, vulnerabilidades de seguridad. Lo que no evalúa es si el enfoque general es el correcto. ¿Esta feature debería usar WebRTC siquiera, o bastarían los WebSockets? ¿Este state debería manejarse client-side o server-side? Esas son decisiones de juicio que requieren entender la product roadmap, las capacidades del equipo y las restricciones del negocio. Un reviewer humano sigue teniendo que tomar esas decisiones.
Los costos se acumulan. A $15 a $25 por review, correr Ultra Review en cada PR se vuelve caro rápido. Un equipo que empuja 10 PRs al día está mirando entre $150 y $250 diarios — aproximadamente $3.000 a $5.000 mensuales solo en code review. Vale la pena si captura aunque sea un bug de producción al mes que habría costado más arreglar post-deployment. Pero requiere una decisión consciente de costo-beneficio, no una política general de "revisar todo".
Qué significa esto para tu workflow de review
Este es el marco al que he llegado después de probar esto durante una semana.
Tier 1 — cada PR: corre el comando /review estándar. Tres a cuatro minutos, captura lo obvio, construye el hábito del review automatizado como parte de tu workflow. Piensa en él como tu detector de humo — siempre encendido, captura los incendios comunes.
Tier 2 — PRs grandes o críticos: corre Ultra Review (o el review multi-agent completo cuando esté disponible en tu plan). Cualquier PR de más de 500 líneas, cualquier PR que toque authentication o payments, cualquier PR que te ponga nervioso. La inversión de 10 a 20 minutos es un seguro barato contra el tipo de bugs que te despiertan a las 3 de la mañana.
Tier 3 — cambios de infraestructura: corre el review más profundo disponible con la fleet de agents más grande a la que puedas acceder. Database migrations, cambios de API versioning, actualizaciones de security policy. Estos cambios tienen radios de explosión que justifican el máximo escrutinio.
Este enfoque por tiers también se alinea con las estrategias de token optimization sobre las que he escrito antes. Estás gastando tus recursos más costosos (cloud compute, fleets de agents más grandes, tiempos de review más largos) en los cambios con mayor riesgo. Los cambios estándar reciben review estándar. Los cambios críticos reciben el tratamiento completo.
El patrón de verificación que introduce Ultra Review, creo yo, se convertirá en práctica estándar en el desarrollo asistido por AI dentro de los próximos 12 meses. No solo en las herramientas de Anthropic — en toda la industria. Una vez que los desarrolladores experimenten la diferencia entre "aquí hay posibles bugs" y "aquí hay bugs confirmados con evidencia", no hay vuelta atrás al enfoque sin verificación.
El patrón que lo cambia todo no es el feature — es la verificación
Quiero dejarte con la intuición que más me quedó después de probar Ultra Review.
El pipeline find-verify-dedup no es solo una técnica de code review. Es un patrón de propósito general para hacer que los sistemas de AI sean confiables. Cada vez que tienes una AI generando afirmaciones — ya sea que esas afirmaciones sean "este código tiene un bug" o "esta copia de marketing está fuera de marca" o "este modelo financiero tiene un error" — correr una AI separada e independiente para verificar esas afirmaciones antes de presentárselas a un humano cambia dramáticamente la fiabilidad del output.
El enfoque estándar de las herramientas de AI es: la AI genera output, el humano evalúa el output. Ultra Review añade un paso intermedio: la AI genera output, otra AI verifica el output, el humano evalúa el output verificado. Ese paso intermedio filtra el ruido que hace que los humanos dejen de confiar en las herramientas de AI.
Cuando disparé Ultra Review en ese PR de voice calling de 11.000 líneas, esperaba una versión mejorada del review que ya conocía. Lo que obtuve fue una relación fundamentalmente distinta con la herramienta. Confié en los resultados de una forma en la que nunca había confiado en un review automatizado. No porque la AI fuera más inteligente. Sino porque el sistema estaba diseñado para probar sus propios hallazgos antes de mostrármelos.
Ese es el giro. No modelos más inteligentes — sistemas más inteligentes construidos a partir de múltiples modelos que se chequean entre sí el trabajo. Y si te llevas una sola cosa de todo este desglose, que sea esta: la próxima vez que construyas cualquier cosa con AI agents, añade una etapa de verificación. No solo dejes que los agents encuentren cosas. Haz que prueben lo que encontraron. La diferencia en la calidad del output te va a sorprender.
Preguntas frecuentes
¿Qué es Claude Code Ultra Review y en qué se diferencia de /review?
Ultra Review es un sistema de code review multietapa impulsado por la nube que añade verificación independiente de bugs y deduplicación sobre la detección multi-agent del /review estándar. La diferencia clave es la etapa de verificación — agents separados confirman cada bug candidato antes de reportarlo, reduciendo los false positives a menos del 1%. El /review estándar toma 3-4 minutos; Ultra Review toma 10-20 minutos pero entrega resultados verificados.
¿Cuántos sub-agents usa Ultra Review?
Ultra Review por defecto usa una fleet de 5 sub-agents para la etapa Find, con el sistema soportando hasta 20 agents. Cada agent explora de forma independiente distintos execution paths a través del codebase. Los tamaños de fleet mayores parecen reservados para clientes del tier Enterprise, según las configuration flags descubiertas en el source code.
¿Está Claude Code Ultra Review disponible en el plan Pro?
Actualmente no. El feature más amplio de Code Review requiere un plan Team o Enterprise y está disponible como research preview a abril de 2026. El plan Max 20x ($200/mes) proporciona acceso prioritario a nuevos features. El propio Ultra Review fue descubierto mediante ingeniería inversa y sigue limitado a un pequeño número de usuarios.
¿Cuánto cuesta un review de Claude Code?
Anthropic cobra los code reviews por tokens, con costos que varían según la complejidad del código. El rango estimado es de $15 a $25 por review en promedio. Las reviews en PRs pequeños de menos de 50 líneas cuestan menos, mientras que los PRs grandes con miles de líneas de cambios se sitúan en la parte alta de ese rango.
¿Debería correr Ultra Review en cada pull request?
No. Usa un enfoque por tiers: /review estándar para cada PR (3-4 minutos, captura issues comunes), Ultra Review para PRs grandes o críticos de más de 500 líneas (10-20 minutos, resultados verificados), y reviews con fleet máxima para cambios de infraestructura como database migrations o actualizaciones de seguridad. Ajusta la profundidad del review al riesgo del cambio.
Trabajemos juntos
¿Buscas construir sistemas de AI, automatizar workflows o escalar tu infraestructura tecnológica? Me encantaría ayudar.
- Fiverr (builds personalizados e integraciones): fiverr.com/s/EgxYmWD
- Portafolio: mejba.me
- Ramlit Limited (soluciones enterprise): ramlit.com
- ColorPark (diseño y branding): colorpark.io
- xCyberSecurity (servicios de seguridad): xcybersecurity.io