Claude Code Ultra Review: eu vi ele caçando bugs em um PR de 11.000 linhas
Eu estava revisando um pull request — uma feature de voice calling, mais ou menos 11.000 linhas de código alterado — quando notei algo estranho na interface do Claude Code. Uma opção nova que eu nunca tinha visto. Não era o comando /review padrão que eu vinha usando havia meses. Algo chamado Ultra Review, escondido atrás do que parecia ser um feature flag que não tinha sido totalmente ocultado.
Naturalmente, cliquei.
O que aconteceu nos dezessete minutos seguintes mudou por completo a forma como eu penso sobre code review automatizado. Não porque encontrou bugs — qualquer linter decente encontra bugs. Mas porque encontrou bugs e depois provou que eram reais antes de me contar sobre eles. E essa segunda parte? Essa é a parte que mais ninguém faz.
O /review padrão do Claude Code já é sólido por si só. Ele despacha vários agents para escanear o seu diff, e em PRs grandes — qualquer coisa acima de 1.000 linhas — os próprios dados da Anthropic mostram que 84% das reviews trazem findings, com uma média de 7,5 issues por review. São números fortes. Mas há um problema embutido em qualquer sistema que encontra bugs sem verificá-los: os false positives. Cada false positive corrói a confiança. Depois da terceira vez que você investiga um alerta só para descobrir que não é um problema real, você começa a ignorar a ferramenta. É a natureza humana, e é a razão pela qual a maioria das ferramentas de review automatizado acaba sendo desligada.
O Ultra Review existe justamente para resolver esse modo de falha. E depois de vê-lo trabalhar em um PR real, bagunçado, em escala de produção, estou convencido de que a etapa de verificação não é só um acréscimo bonitinho — é o insight arquitetural que faz o multi-agent review ser realmente confiável.
Aqui está tudo que aprendi testando, dissecando e fazendo engenharia reversa de como isso funciona por baixo dos panos.
O que o Ultra Review realmente é — e por que ele existe
O Ultra Review é um sistema de code review multi-etapa rodando na nuvem que vai significativamente além do que o comando /review padrão faz. Em abril de 2026 ele não está amplamente disponível — foi descoberto via engenharia reversa do source do Claude Code, em especial depois do agora famoso vazamento do source map em 31 de março de 2026, quando um arquivo de source map de 59,8 MB foi enviado por acidente dentro do npm package @anthropic-ai/claude-code v2.1.88, expondo 1.884 arquivos fonte TypeScript e todo um catálogo de features ainda não lançadas.
O Ultra Review era uma dessas features. E ao contrário de algumas das descobertas mais experimentais daquele vazamento — como o BUDDY, o bicho de estimação de AI, ou o Undercover Mode — o Ultra Review resolve um problema de engenharia real e urgente.
O insight central é simples, mas poderoso: encontrar bugs e confirmar bugs são duas tarefas fundamentalmente diferentes. O review padrão junta as duas. O Ultra Review as separa em etapas distintas, com agents independentes cuidando de cada uma. Essa separação é o que faz a diferença entre uma ferramenta que gera uma lista de "possíveis issues" e uma ferramenta que te entrega uma lista de "bugs confirmados com evidência".
Antes de passar pela arquitetura, você precisa entender a escala do que essa coisa processa. O PR em que testei — aquela feature de voice calling — não era uma adição limpa e isolada. Ele tocava em authentication flows, configuração de WebRTC, componentes de UI, state management e error handling espalhados por vários serviços. Onze mil linhas de código em dezenas de arquivos. O tipo de PR que faz senior engineers resmungarem quando cai na fila de review deles numa sexta à tarde.
O Ultra Review não resmungou. Ele subiu seus agents e foi trabalhar.
As quatro etapas: como o Ultra Review caça bugs
O processo inteiro roda na infraestrutura de nuvem da Anthropic — não na sua máquina local. Isso importa porque o custo computacional de rodar vários agents simultaneamente demoliria o seu orçamento local de tokens. Ao descarregar para a nuvem, o Ultra Review consegue subir frotas de agents sem você se preocupar com consumo vindo da sua janela de uso rotativa.
É assim que as quatro etapas se dividem.
Stage 1: Setup
A sessão de review se inicializa e provisiona recursos na nuvem. O Ultra Review sobe sua fleet de sub-agents — por padrão 5 agents, embora o sistema suporte até 20 (provavelmente reservado para clientes do tier Enterprise, a julgar pelas configuration flags que encontrei). Cada agent recebe seu próprio context window e sua própria perspectiva sobre o codebase.
Essa fase de setup é rápida. No meu PR de 11.000 linhas levou cerca de 90 segundos até os agents estarem despachados e trabalhando. Você vê um indicador de progresso na interface do Claude Code mostrando a fleet subindo, o que é um toque legal — te dá confiança de que algo significativo está acontecendo, e não só um spinner de loading escondendo tempo morto.
Stage 2: Find
É aqui que a coisa fica interessante. A fleet de sub-agents explora de forma independente diferentes caminhos pelo codebase para detectar bugs em potencial. "Independente" é a palavra-chave aqui. Cada agent não está só escaneando arquivos diferentes — eles estão explorando execution paths diferentes, ordens diferentes, ângulos diferentes do mesmo código.
Por que a ordem importa? Porque certos bugs só se revelam quando você lê o código numa sequência específica. Se você começar pelo módulo de authentication e for até o WebRTC handler, uma race condition pode ficar óbvia. Mas se você começar pelos componentes de UI e andar para trás, essa mesma race condition fica invisível porque você não construiu o modelo mental necessário do auth state.
Ao ter cinco agents abordando o código por direções diferentes — potencialmente com "personas" diferentes focadas em domínios de preocupação distintos como billing, security ou data integrity — o Ultra Review captura bugs que qualquer review de uma única passada deixaria passar.
No meu PR de teste, a etapa Find identificou 64 bugs candidatos. Sessenta e quatro. Esse número inicialmente me deixou cético. Não tem como um único PR ter 64 bugs reais, nem com 11.000 linhas. E eu tinha razão em duvidar — mas é exatamente disso que a próxima etapa cuida.
Stage 3: Verify
Essa é a arma secreta do Ultra Review. Um conjunto separado de sub-agents — distinto daqueles que acharam os candidatos — verifica de forma independente a validade de cada bug. Cada verification agent recebe uma descrição do bug candidato junto com todo o contexto necessário para avaliá-lo: o título do PR, a descrição do PR, as seções de código relevantes e o issue alegado.
O trabalho do verification agent é direto, mas crítico: determinar com alta confiança se é um bug real ou um false positive. É essencialmente um sistema adversário — os Find agents são otimizados para serem sensíveis (pegar tudo, mesmo que alguns estejam errados), enquanto os Verify agents são otimizados para serem específicos (confirmar só o que está realmente quebrado).
De acordo com a documentação da Anthropic sobre o sistema de review, eles usam sub-agents da classe Opus para bugs e questões de lógica, e agents da classe Sonnet para coisas como violações de CLAUDE.md e preocupações de estilo. Esse model-matching faz sentido — você quer a sua capacidade de reasoning mais pesada mirada nos problemas de verificação mais difíceis.
No meu PR, a etapa Verify pegou esses 64 candidatos e confirmou um subconjunto como issues genuínos. O resto eram ou false positives, preocupações estilísticas que não chegavam ao nível de bugs, ou edge cases que já eram tratados em outra parte do codebase. Essa filtragem é toda a proposta de valor. Sem ela, eu estaria encarando uma lista de 64 itens, fazendo triagem manual de cada um. Com ela, recebi uma lista curada, de alta confiança, de coisas que realmente precisavam ser corrigidas.
Stage 4: Dedup
A etapa final funde findings duplicados. Quando cinco agents exploram o mesmo codebase de forma independente, eles inevitavelmente descobrem o mesmo bug por ângulos diferentes. O agent 1 pode sinalizar um null pointer issue pela perspectiva do caller. O agent 3 pode sinalizar o mesmo issue pela perspectiva do callee. É o mesmo bug, reportado duas vezes com enquadramentos diferentes.
A deduplicação combina esses relatos em um único finding enriquecido que inclui contexto de múltiplos caminhos de descoberta. Isso na verdade torna o bug report final mais útil — em vez de uma única perspectiva sobre o issue, você recebe uma visão multi-ângulo que muitas vezes deixa a root cause mais óbvia.
O processo inteiro — do Setup ao Dedup — levou 17 minutos no meu PR de 11.000 linhas. Compare isso com o /review padrão, que teria terminado em 3 a 4 minutos, mas sem a camada de verificação. Eu pego esses 13 minutos extras toda vez para um PR desse tamanho.
Como ele se compara ao /review padrão
Eu venho usando o comando /review padrão do Claude Code desde que foi lançado em março de 2026. É bom. Em PRs pequenos, abaixo de 50 linhas, é rápido e pega o óbvio — a Anthropic reporta uma finding rate de 31% em PRs pequenos, com média de 0,5 issues, o que bate mais ou menos com o meu uso. Para adições rápidas de feature ou mudanças de config, é a ferramenta certa.
Mas o review padrão tem um problema de confiança em escala.
Em PRs maiores ele sinaliza mais issues — aquela finding rate de 84% que mencionei antes. O problema é que quando você está olhando para 7 ou 8 issues sinalizados em um PR grande, você precisa verificar cada um manualmente. Alguns são reais. Alguns são o agent entendendo o contexto errado. Alguns são tecnicamente corretos, mas praticamente irrelevantes porque outra parte do sistema já trata o edge case. Essa triagem manual leva tempo. Muitas vezes mais tempo do que o próprio review economizou.
É aqui que as duas abordagens se separam drasticamente:
Tradeoff entre velocidade e precisão. O review padrão prioriza velocidade — 3 a 4 minutos e você tem resultados. O Ultra Review prioriza precisão — 10 a 20 minutos, mas os resultados que você recebe foram verificados de forma independente. Para um PR rápido numa feature branch? Review padrão. Para um PR de 2.000 linhas que toca em payment processing? Ultra Review. Toda vez.
Tratamento de false positives. O review padrão deixa a filtragem de false positives por sua conta. O Ultra Review embute isso no pipeline. Segundo as próprias estatísticas da Anthropic, menos de 1% dos findings do sistema de review completo são marcados como incorretos pelos engineers. Essa é uma taxa de precisão notável, e a etapa de verificação é o motivo.
Uso de recursos. O review padrão roda nos recursos da sua sessão já existente do Claude Code. O Ultra Review roda inteiramente na infraestrutura de nuvem da Anthropic com compute dedicado. Você não paga por sessão a partir da sua janela rotativa — embora o modelo de preços atual para code review gire em torno de $15 a $25 por review, dependendo da complexidade do código.
Profundidade de análise. O review padrão escaneia o diff e o contexto imediato. A fleet multi-agent do Ultra Review executa o que eu chamaria de "análise de ciclo de vida" — os agents traçam o fluxo de dados atravessando fronteiras de módulos, seguem function calls por várias camadas de abstração e avaliam implicações de state management que atravessam arquivos. Essa profundidade é o que captura os bugs sutis que um escaneamento superficial deixa escapar.
Se você está pensando "eu rodo o review padrão primeiro e depois o Ultra Review para os PRs grandes" — esse é exatamente o workflow que eu recomendaria. Review rápido para feedback rápido, review profundo para mudanças críticas. Eles são complementares, não concorrentes.
O que a arquitetura de sub-agents revela sobre o futuro do code review
O mais interessante do Ultra Review não é a feature em si. É o padrão arquitetural que ele estabelece.
A ideia de usar vários agents independentes com perspectivas diferentes, seguida por uma camada de verificação separada, é transferível para quase qualquer tarefa de análise. Bug detection é só a primeira aplicação. O mesmo padrão poderia funcionar para security audits, análise de performance, reviews de accessibility, checagens de completude de documentação — qualquer domínio em que encontrar issues e confirmar issues sejam preocupações separáveis.
Eu achei esse padrão convincente o suficiente para começar a experimentar com a minha própria versão. Construí um skill personalizado de fleet review que combina agents de provedores diferentes — agents do Claude Code junto com o Codex da OpenAI — com uma etapa de verificação que exige consenso entre modelos antes de sinalizar um issue. Consenso cross-model é um sinal poderoso. Se Claude e Codex concordam de forma independente que algo é um bug, o nível de confiança vai lá em cima comparado à avaliação de um modelo só.
A flexibilidade do tamanho da fleet também vale mencionar. O Ultra Review tem como padrão 5 sub-agents, mas a configuração suporta até 20. Para um PR padrão, 5 agents oferecem boa cobertura. Mas imagine rodar 20 agents contra uma mudança crítica de infraestrutura — uma database migration, um refactor de sistema de pagamentos ou uma reescrita de authentication sensível a segurança. A minúcia escala com o risco.
Os times enterprise provavelmente vão ser os primeiros a ter acesso a esses tamanhos maiores de fleet. Se a sua organização roda no plano Team ou Enterprise — atualmente os únicos tiers em que o Code Review está disponível como research preview — você já está posicionado para usar isso quando a liberação for mais ampla.
Esse padrão de verificação multi-agent também tem implicações para como pensamos em orquestração de AI agents de forma mais ampla. A agent swarm architecture sobre a qual escrevi antes foca em paralelização de tarefas — vários agents trabalhando em subtasks diferentes simultaneamente. O Ultra Review adiciona uma nova dimensão: agents trabalhando na mesma tarefa de forma independente e depois verificando cruzadamente o trabalho uns dos outros. É a diferença entre divisão do trabalho e peer review. Ambos são valiosos. Combinar os dois é onde a coisa fica poderosa.
Setup prático: rodando o Ultra Review hoje
Deixa eu ser direto sobre a disponibilidade. Em abril de 2026, o Ultra Review não é uma feature publicamente documentada com um botão grande de "Enable". Ele foi descoberto por análise de source code e está acessível para um número limitado de usuários. A feature mais ampla de Code Review — que compartilha boa parte da mesma arquitetura multi-agent — está disponível em research preview para clientes Team e Enterprise do Claude Code.
Aqui vai o que você precisa saber se quer usar as capacidades de review que já estão disponíveis agora.
Passo 1: garanta que você esteja em um plano que se qualifique. O Code Review exige Team ou Enterprise. O plano Max 20x a $200/mês te dá priority access para features novas, o que é relevante aqui. Se você está no Pro ($20/mês) ou no Max 5x ($100/mês), vai precisar fazer upgrade ou esperar uma liberação mais ampla.
Passo 2: peça para um admin habilitar o Code Review para a sua organização. Isso não é um toggle por usuário — é uma configuração no nível da organização. Uma vez habilitado, as reviews podem disparar automaticamente ao abrir um PR, em todo push ou sob solicitação manual, dependendo do comportamento configurado do seu repository.
Passo 3: use o comando /review dentro do Claude Code. Para o review padrão, é direto — rode contra a sua branch atual ou um PR específico. O sistema cuida do provisionamento de agents, da análise e do reporting automaticamente.
Passo 4: para PRs maiores, reserve tempo. Reviews padrão terminam em 3 a 4 minutos. O review multi-agent mais profundo com verificação leva de 10 a 20 minutos. Não comece cinco minutos antes de uma reunião. Começa, vai pegar um café, volta com resultados verificados.
Dica pro: se você estiver rodando reviews em PRs que tocam em sistemas críticos — qualquer coisa envolvendo payments, authentication, data access controls ou configuração de infraestrutura — a espera de 10 a 20 minutos por resultados verificados não é opcional. É o mínimo responsável. Prefiro gastar 20 minutos recebendo findings verificados a 3 horas debugando um issue de produção que um review superficial deixou passar.
Se você prefere que alguém monte um workflow completo de code review com verificação multi-agent adaptado ao codebase do seu time, eu pego exatamente esse tipo de trabalho de automação. Dá para ver o que já construí em fiverr.com/s/EgxYmWD.
A avaliação honesta: onde o Ultra Review deixa a desejar
Eu estaria te fazendo um desserviço se fingisse que isso é impecável. Não é. Aqui está o que notei durante os testes.
O custo de tempo é real. Dezessete minutos para uma única review está ótimo quando você está fazendo checagens finais em um PR grande. Não está ótimo quando você está iterando rápido numa feature branch e empurrando cinco commits em uma hora. Para esse workflow, o review padrão — ou até a análise embutida da sua IDE — é a ferramenta certa. O Ultra Review é um bisturi, não um martelo.
A disponibilidade limitada mata a proposta de valor para a maior parte dos desenvolvedores. Se você é um desenvolvedor solo no plano Pro, ainda não dá para usar isso. Os requisitos de Team e Enterprise fazem sentido da perspectiva da Anthropic — multi-agent compute no lado da nuvem não é barato — mas isso significa que os desenvolvedores que mais se beneficiariam de review automatizado (devs solo sem um time para revisar o código deles) são os que têm menos chance de acessar.
O tamanho padrão da fleet talvez seja conservador. Cinco sub-agents funcionaram bem no meu PR de 11.000 linhas, mas suspeito que certas categorias de bugs — em especial issues de sistemas distribuídos, problemas sutis de concorrência ou bugs de consistência de dados entre serviços — se beneficiariam de mais agents explorando mais caminhos. A configuração suporta até 20, mas não consegui testar fleets maiores para confirmar a melhoria.
Ele não substitui o review humano para decisões arquiteturais. O Ultra Review é excelente em achar bugs — erros de lógica, riscos de null pointer, edge cases não tratados, vulnerabilidades de segurança. O que ele não avalia é se a abordagem geral está certa. Essa feature deveria usar WebRTC mesmo, ou WebSockets seriam suficientes? Esse state deveria ser gerenciado client-side ou server-side? Essas são decisões de julgamento que exigem entender a product roadmap, as capacidades do time e as restrições de negócio. Um reviewer humano ainda precisa tomar essas decisões.
O custo vai somando. A $15 a $25 por review, rodar o Ultra Review em cada PR fica caro rápido. Um time que empurra 10 PRs por dia está olhando para $150 a $250 diários — mais ou menos $3.000 a $5.000 por mês só em code review. Isso vale a pena se capturar nem que seja um bug de produção por mês que teria custado mais para corrigir depois do deploy. Mas exige uma decisão consciente de custo-benefício, não uma política geral de "revisa tudo".
O que isso significa para o seu workflow de review
Esse é o framework no qual cheguei depois de uma semana testando.
Tier 1 — todo PR: rode o comando /review padrão. Três a quatro minutos, pega o óbvio, constrói o hábito de review automatizado como parte do seu workflow. Pense nele como o seu detector de fumaça — sempre ligado, pegando os incêndios comuns.
Tier 2 — PRs grandes ou críticos: rode o Ultra Review (ou o review multi-agent completo quando estiver disponível no seu plano). Qualquer PR acima de 500 linhas, qualquer PR que toque em authentication ou payments, qualquer PR que te deixe nervoso. O investimento de 10 a 20 minutos é um seguro barato contra o tipo de bug que te acorda às 3 da manhã.
Tier 3 — mudanças de infraestrutura: rode o review mais profundo disponível, com a maior fleet de agents a que você tiver acesso. Database migrations, mudanças de API versioning, atualizações de security policy. Essas mudanças têm raio de explosão que justifica o máximo de escrutínio.
Essa abordagem em tiers também se alinha com as estratégias de otimização de tokens sobre as quais já escrevi. Você está gastando seus recursos mais caros (cloud compute, fleets maiores de agents, tempos de review mais longos) nas mudanças de maior risco. Mudanças padrão recebem review padrão. Mudanças críticas recebem o tratamento completo.
O padrão de verificação que o Ultra Review introduz vai, eu acredito, virar prática padrão em desenvolvimento assistido por AI nos próximos 12 meses. Não só nas ferramentas da Anthropic — em toda a indústria. Uma vez que os desenvolvedores sentem a diferença entre "aqui estão possíveis bugs" e "aqui estão bugs confirmados com evidência", não tem como voltar para a abordagem sem verificação.
O padrão que muda tudo não é a feature — é a verificação
Quero te deixar com o insight que mais ficou comigo depois de testar o Ultra Review.
O pipeline find-verify-dedup não é só uma técnica de code review. É um padrão de propósito geral para deixar sistemas de AI confiáveis. Toda vez que você tem uma AI gerando afirmações — sejam elas "esse código tem um bug" ou "essa copy de marketing está fora da marca" ou "esse modelo financeiro tem um erro" — rodar uma AI separada e independente para verificar essas afirmações antes de apresentá-las a um humano muda dramaticamente a confiabilidade da saída.
A abordagem padrão para ferramentas de AI é: a AI gera output, o humano avalia o output. O Ultra Review adiciona um passo do meio: a AI gera output, outra AI verifica o output, o humano avalia o output verificado. Esse passo do meio filtra o ruído que faz os humanos pararem de confiar nas ferramentas de AI.
Quando disparei o Ultra Review naquele PR de voice calling de 11.000 linhas, estava esperando uma versão melhor do review que eu já conhecia. O que recebi foi uma relação fundamentalmente diferente com a ferramenta. Confiei nos resultados de um jeito que nunca tinha confiado em review automatizado antes. Não porque a AI era mais inteligente. E sim porque o sistema foi projetado para provar seus próprios findings antes de me mostrar.
É essa a virada. Não modelos mais inteligentes — sistemas mais inteligentes construídos a partir de vários modelos verificando o trabalho uns dos outros. E se você tirar uma única coisa desta análise inteira, que seja esta: da próxima vez que você construir qualquer coisa com AI agents, adicione uma etapa de verificação. Não deixe os agents só encontrarem coisas. Faça com que eles provem o que encontraram. A diferença na qualidade do output vai te surpreender.
Perguntas frequentes
O que é o Claude Code Ultra Review e como ele difere do /review?
O Ultra Review é um sistema de code review multi-etapa rodando na nuvem que adiciona verificação independente de bugs e deduplicação em cima da detecção multi-agent do /review padrão. A diferença principal é a etapa de verificação — agents separados confirmam cada bug candidato antes de reportá-lo, reduzindo os false positives para menos de 1%. O /review padrão leva de 3 a 4 minutos; o Ultra Review leva de 10 a 20 minutos, mas entrega resultados verificados.
Quantos sub-agents o Ultra Review usa?
O Ultra Review tem como padrão uma fleet de 5 sub-agents para a etapa Find, com o sistema suportando até 20 agents. Cada agent explora de forma independente diferentes execution paths pelo codebase. Tamanhos maiores de fleet parecem reservados para clientes do tier Enterprise, a julgar pelas configuration flags descobertas no source code.
O Claude Code Ultra Review está disponível no plano Pro?
No momento, não. A feature mais ampla de Code Review exige um plano Team ou Enterprise e está disponível como research preview em abril de 2026. O plano Max 20x ($200/mês) oferece priority access a features novas. O próprio Ultra Review foi descoberto por engenharia reversa e continua limitado a um pequeno número de usuários.
Quanto custa uma review do Claude Code?
A Anthropic cobra code reviews por tokens, com custos variando conforme a complexidade do código. A faixa estimada é de $15 a $25 por review em média. Reviews em PRs pequenos abaixo de 50 linhas custam menos, enquanto PRs grandes com milhares de linhas de mudanças ficam na parte alta dessa faixa.
Eu deveria rodar o Ultra Review em todo pull request?
Não. Use uma abordagem em tiers: /review padrão em todo PR (3-4 minutos, pega issues comuns), Ultra Review para PRs grandes ou críticos acima de 500 linhas (10-20 minutos, resultados verificados) e reviews com fleet máxima para mudanças de infraestrutura como database migrations ou atualizações de segurança. Ajuste a profundidade do review ao risco da mudança.
Vamos trabalhar juntos
Quer construir sistemas de AI, automatizar workflows ou escalar a sua infraestrutura de tecnologia? Vou adorar ajudar.
- Fiverr (builds personalizados e integrações): fiverr.com/s/EgxYmWD
- Portfólio: mejba.me
- Ramlit Limited (soluções enterprise): ramlit.com
- ColorPark (design e branding): colorpark.io
- xCyberSecurity (serviços de segurança): xcybersecurity.io