GPT 5.5 Codex na Prática: O Salto Agente Colocado à Prova

O anúncio da OpenAI veio às 9h04 do dia 23 de abril de 2026. Eu tinha acabado de abrir um terminal para enviar uma migration do Laravel. Vinte minutos depois, a migration ainda estava parada no meu branch de staging, intocada, porque eu estava vidrado na página de apresentação do GPT 5.5 tentando decidir se esse era o lançamento que realmente fazia jus ao hype ou só mais um salto incremental de seis semanas disfarçado de revolução.

O número que me fez parar foi este: 82,7% no Terminal-Bench 2.0. Isso é o estado da arte no benchmark que avalia se um modelo consegue, de fato, planejar, iterar e coordenar ferramentas em um shell — exatamente o ponto onde o coding agente ou acerta ou falha de forma constrangedora. O Opus 4.7 cravou 69,4% no mesmo benchmark segundo a comparação digitalapplied. Uma diferença de 13 pontos. Treze pontos é a distância entre “promissor” e “por favor, use isso em produção”.

Mas benchmarks enganam. Não de propósito — só medem o que se propõem a medir, que raramente é o que realmente importa para você. O que importa para mim é se o GPT 5.5 dentro do Codex de fato vai encurtar minha quarta-feira. Então passei os dois dias seguintes colocando-o à prova em três builds que eu pagaria para um engenheiro sênior executar: um SVG absurdamente detalhado, um game de arcade retrô nativo para macOS com sprites gerados por IA, e uma arena de dungeon 3D em primeira pessoa renderizada em um quarto de viewport. Trabalho real. Execuções reais. Custos reais.

Fique comigo até o teste da dungeon. Foi ali que a minha suposição de “GPT 5.5 é só um 5.4 mais rápido” desmoronou ao vivo, e precisei reescrever toda a abordagem deste post.

Por que Este Lançamento Realmente Importa (E Por Que o Codex Mudou)

O ritmo de lançamentos nesta indústria ficou completamente desenfreado. O GPT 5.4 foi lançado em fevereiro. O Opus 4.7 chegou em meados de abril. O GPT 5.5 apareceu uma semana depois. Agora, um novo modelo de fronteira para codificação surge a cada seis a oito semanas, e cada um deles supostamente é “aquele que vai mudar tudo”.

Na maioria das vezes, isso é puro marketing. Desta vez, porém, a abordagem parece diferente — e não porque a OpenAI diz que é. Mas sim por conta de três mudanças muito específicas.

Primeiro, o GPT 5.5 é o primeiro modelo base totalmente re-treinado desde o GPT-4.5. Tudo entre o 4.5 e o 5.4 foi apenas iteração sobre a mesma fundação subjacente. O GPT 5.5 é uma nova base. Isso não é um detalhe menor — significa que o corpus de pré-treinamento, as escolhas de arquitetura e os objetivos orientados a agentes foram redesenhados do zero, tendo como meta o trabalho autônomo, e não apenas a qualidade de resposta em conversação.

Segundo, a janela de contexto saltou para 1M de tokens na API. A API do GPT 5.4 tinha limite de 512K. Não se trata apenas de um buffer maior — é outra categoria de trabalho. Uma janela de contexto de 1M permite que um agente trabalhe com uma base de código de médio porte completa, sua suíte de testes e a documentação relevante, tudo em uma única sessão, sem precisar truncar informações. No benchmark de recuperação MRCR v2 8-needle da OpenAI na faixa de 512K-1M, o GPT 5.5 atinge 74,0%, enquanto o Opus 4.7 marca 32,2%. Isso não é uma diferença — são duas capacidades fundamentalmente distintas.

Terceiro, a integração com o Codex recebeu uma verdadeira atualização. Agora é possível escolher entre esforço de raciocínio médio, alto e extra-alto por tarefa. O médio é o padrão. O alto serve para refatorações não triviais. O extra-alto é para quando a tarefa realmente exige raciocínio estendido — grandes migrações, auditorias de segurança, decisões de arquitetura. Segundo a Artificial Analysis, o GPT 5.5 (xhigh) lidera atualmente o índice de inteligência deles com 60, enquanto o GPT 5.5 (high) fica em 59. Esse ajuste faz diferença porque, agora, é possível calibrar o gasto computacional conforme a dificuldade da tarefa — coisa que antes era impossível.

Antes de partir para os testes, um ponto importante sobre preços e posicionamento, pois isso muda o contexto para tudo o que vem a seguir.

A Matemática dos Preços e o Que Ela Revela Sobre a Estratégia

O GPT 5.5 chega por $5 por milhão de tokens de entrada e $30 por milhão de tokens de saída. O GPT 5.4 custava $2,50 e $15, respectivamente. Um aumento direto de 100%. Se você roda um stack agentico de alto volume, esse aumento duplo impacta sua planilha de custos imediatamente.

Eis o argumento para equilibrar essa conta: o GPT 5.5 utiliza significativamente menos tokens para completar as mesmas tarefas de Codex. Segundo a própria comunicação da OpenAI, a latência por token é equivalente à do GPT 5.4, enquanto o nível de inteligência aumenta de forma material. Em outras palavras — o modelo é mais eficiente, então o preço bruto por tarefa deve ficar aproximadamente estável ou até melhor, mesmo com o custo unitário dobrado.

Compare isso ao Opus 4.7, que custa $5 por milhão de tokens de entrada e $25 por milhão de tokens de saída. No papel, o Opus 4.7 é 17% mais barato nos tokens de saída. Na prática, o Opus 4.7 foi lançado com uma alteração no tokenizador que aumenta o consumo de tokens em cerca de 35% em algumas cargas de trabalho, de acordo com esta matéria da Axios. Ou seja, o argumento de “mais barato por token” se dissolve assim que seu tokenizador consome mais tokens para tarefas idênticas.

Esse é o embate econômico real entre GPT 5.5 e Opus 4.7: de quem os tokens realmente custam o que prometem? E, neste momento, ninguém operando cargas reais tem todos os dados. Comecei a registrar cada execução de Codex lado a lado com sua equivalente no Claude Code justamente porque ninguém em quem confio publicou ainda a economia unitária real. (Se quiser ver o comparativo direto que fiz em quatro builds de produção, detalhei tudo neste artigo: GPT 5.5 vs Opus 4.7 testados em builds reais de código.)

Agora — vamos aos testes. Começando pelo mais simples, porque até o teste fácil me surpreendeu.

Teste Um: O Absurdo Unicórnio em SVG

Este é o teste popularizado por Simon Willison — pedir a um modelo que produza um SVG de algo específico, sem ferramentas externas, apenas geração de texto bruto para os caminhos vetoriais. É um teste implacável porque SVG exige que o modelo faça uma renderização mental de coordenadas e curvas antes de emití-las. Não há DOM para consultar, nem modelo de imagem para transferir a tarefa. Só geometria, na cabeça, direto para a saída.

Dei ao GPT 5.5 um único prompt no Codex: "Produza um SVG detalhado de um unicórnio empinado sobre as patas traseiras, com crina esvoaçante e musculatura visível. SVG puro, sem referências externas."

Esforço de inferência: médio.

A resposta levou 38 segundos. Foram 1.847 linhas de SVG. Quando inseri no navegador, o que foi renderizado era... de fato um unicórnio. Empinado. Com a crina esvoaçante. A musculatura não estava anatomicamente correta — a dobradiça da pata dianteira estava um pouco fora do lugar e a garupa parecia mais de bode que de cavalo — mas a composição transmitia corretamente à primeira vista. Fui capaz de identificar o sujeito sem precisar de explicações.

Rodei o mesmo prompt no GPT 5.4 para comparação. Levou 52 segundos, produziu 2.340 linhas, e o resultado parecia um unicórnio desenhado por alguém que um dia viu um cavalo em um livro. A crina terminava em ângulos estranhos. O chifre ficava desconectado do crânio em certos níveis de zoom.

Mesmo prompt, saída pior, mais tokens, tempo de execução mais lento. Esse é o argumento de eficiência se provando no teste mais simples possível.

Mas ainda não acreditei. A geração de SVG é um daqueles casos em que o corpus de treinamento faz enorme diferença, e se o GPT 5.5 teve mais exemplos de SVG no pré-treinamento, esse resultado fala mais sobre os dados — não sobre raciocínio. Então passei para o teste que realmente coloca à prova a decomposição autônoma.

Teste Dois: Jogo Retrô de Arcade Nativo para macOS com Sprites Gerados por IA

O prompt: "Construa um app nativo para macOS — em Swift e SpriteKit — implementando um jogo de biblioteca no estilo arcade retrô. O jogador controla um bibliotecário repondo as estantes enquanto evita livros caindo. Use o GPT Image 2.0 para gerar todos os sprites dinamicamente. Empacote como um projeto Xcode executável."

Esse foi um teste de estresse real. Exigiu que o Codex:

Estruturasse corretamente um projeto nativo Xcode para macOS
Projetasse um loop de jogo baseado em sprites com detecção de colisão
Chamasse o GPT Image 2.0 pela API para geração dos sprites
Gerenciasse o carregamento assíncrono das imagens nas texturas do SpriteKit
Empacotasse tudo para compilar e rodar já na primeira execução

Defini o esforço de inferência como alto, porque deixar no médio seria um otimismo irresponsável.

O Codex rodou autonomamente por cerca de 11 minutos. O primeiro detalhe que notei — e esse foi um comportamento realmente novo — é que o Codex executou seus próprios ciclos de teste. Ele construiu o projeto, tentou lançar o jogo, encontrou um erro de inicialização do SpriteKit, diagnosticou o erro inspecionando o próprio output da build, modificou o código de inicialização, compilou novamente e reexecutou. Fez isso três vezes sem intervenção alguma. No GPT 5.4, essa mesma tarefa exigiria que eu ficasse no vai-e-vem de mensagens de erro pelo menos duas vezes. No GPT 5.5, fiquei apenas vendo o terminal rolar e tomando café.

A build final rodou. O sprite do bibliotecário se movia com as setas do teclado. Livros caíam do topo da tela. A detecção de colisão funcionava. O loop de jogo rodava a cerca de 30 frames por segundo — não porque esse fosse o alvo, mas porque o carregamento dos sprites via GPT Image 2.0 estava limitando a vazão de toda a pipeline.

E aí apareceu a primeira limitação real. Cada chamada para geração dos sprites acionava a API de imagens, que levava entre 8 e 14 segundos por sprite. Quando o jogo finalmente carregava todos os assets, eu já tinha esperado mais por texturas do que por código. Os sprites gerados pareciam escuros e um tanto caóticos — o rosto do bibliotecário variava a cada execução, já que a geração ocorria em tempo real, sem seed definida. Funcionou. Não era entregável. Ficou entre tech demo e protótipo.

O ponto interessante aqui não é que o jogo ficou cru. É que o Codex assumiu o ciclo inteiro — do scaffold à implementação, integração de API, rodadas autônomas de debug — sem eu precisar dividir a tarefa em etapas. É isso que as release notes querem dizer com "agentic coding". Não é que o modelo escreva códigos melhores. Ele realmente executa o próprio trabalho.

Dica de especialista: se você quiser testar a capacidade agente de qualquer modelo, proponha uma tarefa que exija autonomia de uso de ferramentas num ambiente que o modelo possa observar. Uma tarefa puramente de geração de código não mede comportamento de agente — mede tradução. Dê erros de build que ele precise ler e corrigir, aí você verá se a autonomia é genuína ou só performática.

Agora — o teste em que tive minhas suposições publicamente humilhadas.

Teste Três: Arena de Dungeon 3D em Primeira Pessoa

O prompt: "Construa um protótipo de arena de dungeon 3D em primeira pessoa. Three.js, TypeScript. Renderize a cena 3D apenas no quarto superior esquerdo da viewport. Os três quadrantes restantes exibem um HUD: minimapa, vida, inventário. Combate contra inimigos básicos. Entregue como um protótipo web executável."

A renderização em um quarto da viewport é proposital. A maioria dos tutoriais de jogos 3D assume renderização em tela cheia. Restringir o render a um quadrante força o modelo a entender as APIs de câmera, viewport e scissor do Three.js — ele não pode simplesmente copiar e colar a estrutura de um tutorial e seguir em frente.

Esforço de inferência: extra alto. Eu queria ver o teto.

O Codex rodou por 23 minutos. Durante esse período ele:

Estruturou corretamente um projeto Vite + TypeScript + Three.js
Implementou controles de pointer-lock para movimentação em primeira pessoa
Configurou a lógica de scissor/viewport para renderização em um quarto da tela
Construíu meshes de inimigos e um loop básico de pathfinding
Conectou um minimapa que renderiza via canvas a posição do jogador
Implementou um sistema de combate com raycasting para detecção de acertos
Corrigiu, de forma autônoma, três erros distintos de TypeScript

Quando terminou, abri o localhost. A cena 3D estava renderizada no quadrante superior esquerdo. Eu podia me mover com WASD. O minimapa funcionava. Inimigos existiam e reagiam quando eu me aproximava. O raycasting de combate registrava os acertos. O HUD estava... simples. A barra de vida era um retângulo cinza. O painel de inventário era apenas texto de espaço reservado. Os meshes dos inimigos eram cubos com texturas de rosto que não encaixavam bem.

Funcionou. Era jogável no sentido literal da palavra. Não era “entregável” sob nenhum critério real. O abismo entre “protótipo jogável” e “jogo de verdade” é exatamente o espaço que humanos levam semanas para fechar.

Aqui está a parte que mudou minha perspectiva. No meio do processo, o Codex resolveu por conta própria adicionar uma sobreposição de debug mostrando os retângulos de scissor. Eu não pedi isso. Ele adicionou a sobreposição, usou para verificar se sua renderização estava correta e depois deixou no resultado final. Isso não é apenas geração de código. É uma decisão de uso de ferramenta que sugere que o modelo possui um modelo interno de seu próprio fluxo de trabalho — ele inseriu um diagnóstico porque precisava verificar se estava certo.

Se você considera isso relevante ou só linguagem de marketing depende de quanto tempo já gastou com stacks de agentes. Para mim, isso é o sinal. Os modelos que parecem genuinamente agentes não são os que escrevem mais código. São os que inserem seus próprios passos de diagnóstico no loop sem serem mandados.

Se você prefere que alguém construa esse tipo de fluxo autônomo com Codex do zero na pipeline de dev do seu time, aceito projetos exatamente assim — veja o que já entreguei em fiverr.com/s/EgxYmWD.

O Que o GPT 5.5 Realmente Acerta

Três pontos, após dois dias de trabalho real.

O ciclo autônomo de depuração é real. Este é o maior salto observado. O GPT 5.4 no Codex gerava código, falhava e me entregava o erro. O GPT 5.5 no Codex gera código, falha, interpreta o erro, corrige e continua. Para trabalhos que exigem muita iteração — qualquer coisa envolvendo builds, testes ou erros em tempo de execução — isso gera um efeito acumulativo brutal. Uma tarefa que antes exigia "cinco rodadas de prompt/erro/novo prompt" agora vira uma execução contínua sem interrupções.

A eficiência de tokens não é só discurso de marketing. Acompanhei a contagem de tokens gerados pelos dois modelos em quatro tarefas equivalentes. O GPT 5.5 registrou, em média, 34% menos tokens de saída para um resultado funcional equivalente. O código não ficou mais curto — ficou menos explicativo. Menos comentários no meio do código. Espaçamento mais compacto. Menos introdução do tipo "aqui está o que vou fazer agora". Se isso é positivo ou negativo em termos de estilo depende se você vai ler o código ou apenas entregá-lo em produção.

A janela de contexto de 1 milhão muda o que você pode pedir. Inseri o código-fonte completo de uma aplicação Laravel — 240 arquivos, aproximadamente 680 mil tokens — no Codex e pedi uma auditoria do fluxo de autenticação. O modelo leu tudo e produziu um relatório citando assinaturas de métodos específicos em 14 arquivos diferentes. O Opus 4.7, na mesma tarefa, atingiu o limite de contexto e gerou uma análise mais vaga, baseada apenas em parte do projeto. Não se trata de pura capacidade — é uma mudança em quais tarefas podem ser feitas sem pré-processamento.

O Que o GPT 5.5 Ainda Erra

Três limitações reais.

Tarefas criativas complexas ainda exigem supervisão. O protótipo de dungeon funcionou no sentido de rodar corretamente. Não funcionou no sentido de ser jogável por uma pessoa. O abismo entre "execução técnica" e "pronto para lançamento" continua completamente humano em tudo que exige bom gosto ou sensibilidade de jogabilidade.

Inferência extra-alta é cara e lenta. A tarefa da dungeon em xhigh consumiu muito processamento e levou 23 minutos. Se você precisa de um ciclo de feedback ágil, xhigh não é o caminho do dia a dia. O nível medium é o padrão por um motivo. Eu recorreria ao xhigh para migrações, auditorias de segurança e decisões de arquitetura — não para desenvolvimento de funcionalidades.

A integração com geração de imagens tem problemas de latência. O teste do jogo no macOS ficou limitado pelo tempo de geração do GPT Image 2.0, que variou de 8 a 14 segundos por sprite. Se o seu fluxo depende de geração de imagens em tempo de execução, você está à mercê da API de imagens, não do modelo de linguagem. Não é um problema do GPT 5.5 — mas é um problema do fluxo Codex que você vai enfrentar imediatamente.

O Que Isso Significa para a Anthropic, Claude e o Jogo Mais Amplo

Quero ser cauteloso aqui porque especular sobre alocação de computação em laboratórios de fronteira é, na maioria das vezes, bobagem, e a interpretação mais caridosa costuma estar correta. Mas é difícil ignorar o padrão.

O Opus 4.7 foi lançado com regressões relatadas imediatamente por uma parcela vocal de usuários avançados — uma alteração no tokenizador que aumenta o uso, profundidade de raciocínio padrão reduzida e mudanças no comportamento de seguimento de instruções. O Mythos, modelo mais avançado e ainda não lançado da Anthropic, está restrito a acesso limitado — pilotos com bancos e governos. A Anthropic negou publicamente que realocações de compute estejam por trás dessas decisões. Não tenho motivos para duvidar disso.

Mas aqui está o que é observável. O GPT 5.5 foi lançado amplamente para usuários pagantes com uma janela de contexto de 1M e um stack de inferência agressivo, apoiado pela NVIDIA, rodando em sistemas GB200 NVL72 capazes de oferecer até 50x mais throughput de tokens por megawatt que as gerações anteriores. Isso é uma demonstração séria de poder computacional. Se você está numa corrida de capacidade e seu concorrente acabou de lançar um modelo amplamente disponível, mais barato por token gerado (depois dos efeitos do tokenizador) e mais rápido em tarefas equivalentes — a pressão é real, queira-se ou não admitir publicamente.

Para mim, como builder, o aprendizado prático é: aposte no modelo que já está sendo entregue em produção para usuários reais hoje, não no modelo com capacidade hipotética mais forte. Esse modelo, para a maioria dos trabalhos com agentes de código, hoje é o GPT 5.5. O Opus 4.7 ainda é minha escolha para textos longos, revisão sutil de código e conversas arquitetônicas. O Mythos é irrelevante para meu workflow, porque simplesmente não posso usá-lo. O modelo que não posso rodar não pode me ajudar a entregar.

Vale a Pena Assinar o GPT 5.5 Codex?

Depende do seu volume de trabalho. Se você utiliza o Codex diariamente, a eficiência de tokens somada aos loops autônomos de depuração justifica o valor da assinatura — dobrando o investimento já na primeira semana. Para usuários ocasionais, o salto do 5.4 para o 5.5 não vai parecer tão marcante em prompts simples; o diferencial aparece mesmo em fluxos autônomos de múltiplas etapas. Se você opera uma stack de agentes em escala, o contexto de 1M e a configuração de raciocínio xhigh abrem categorias de tarefas que antes eram impossíveis — e geralmente são tarefas de alto valor.

A questão sobre assinatura que realmente importa: qual é o custo marginal da tarefa que você está pedindo para o modelo executar agora? Se a resposta for “tempo de engenheiro sênior a $150/hora”, a assinatura é irrelevante. Se for “estou aprendendo no plano gratuito”, a lógica muda. No meu caso, a assinatura do Codex se pagou na primeira semana, só nas builds que eu teria terceirizado.

Perguntas Frequentes

Quando o GPT 5.5 foi lançado e quem pode usá-lo?

O GPT 5.5 foi lançado em 23 de abril de 2026 para usuários pagantes do ChatGPT nos planos Plus, Pro, Business e Enterprise, com disponibilidade via API a $5 por milhão de tokens de entrada e $30 por milhão de tokens de saída. Ele vem integrado ao Codex, o ambiente de codificação agencial da OpenAI. Consulte a seção de visão geral do lançamento acima para obter detalhes sobre a janela de contexto completa e a estrutura de preços.

Qual a diferença entre as inferências medium, high e extra high do GPT 5.5?

Medium é o padrão do Codex, adequado para a maioria das tarefas. High ativa cadeias de raciocínio mais profundas para refatorações complexas e trabalho com múltiplos arquivos. Extra-high (xhigh) gera a saída de maior qualidade em problemas que realmente exigem raciocínio prolongado — grandes migrações, análise de segurança, decisões de arquitetura — com latência e custo significativamente maiores. De acordo com a Artificial Analysis, o GPT 5.5 xhigh lidera o índice de inteligência com 60 pontos, contra 59 do high. Veja o teste da dungeon arena acima para exemplos práticos do desempenho do xhigh.

Como o GPT 5.5 se compara ao Claude Opus 4.7 para programação?

O GPT 5.5 lidera nos benchmarks de codificação agencial (82,7% no Terminal-Bench 2.0 contra 69,4% do Opus 4.7) e em recuperação de contexto longo. O Opus 4.7 se destaca no SWE-Bench Pro (64,3% contra 58,6%) e no MCP-Atlas. Na prática: GPT 5.5 para execução autônoma de fluxos de trabalho, Opus 4.7 para refatoração cuidadosa de bases de código e revisão de código. Realizei uma comparação direta em quatro builds reais no comparativo GPT 5.5 vs Opus 4.7.

Vale a pena assinar o GPT 5.5 Codex?

Para usuários frequentes do Codex, sim — a eficiência de tokens e os loops autônomos de depuração compensam o investimento já na primeira semana em trabalhos não triviais. Para uso casual, o upgrade é menos impactante. O modelo realmente se destaca em tarefas agenciais de múltiplas etapas, nas quais consegue executar seus próprios ciclos de build/test/fix sem a sua intervenção. Consulte a seção worth-it acima para uma análise completa de custo-benefício.

O GPT 5.5 realmente constrói jogos ou apenas protótipos?

Com base em testes práticos, o GPT 5.5 cria protótipos jogáveis que rodam sem erros, mas o abismo entre “executar tecnicamente” e entregar algo “pronto para lançamento” ainda exige o toque humano em tarefas criativas que demandam sensibilidade ou julgamento de experiência do jogo. No teste da dungeon arena, foi produzido um protótipo 3D funcional em 23 minutos usando raciocínio xhigh — mas o HUD, as texturas e o refinamento geral exigiram aquele tipo de iteração que só um designer de jogos humano pode guiar.

A Única Coisa Que Você Pode Fazer Hoje

Esqueça os benchmarks por um instante. Este é o teste que eu realmente faria se você está tentando decidir se o GPT 5.5 Codex merece um lugar na sua stack.

Escolha uma tarefa que você vem adiando. Algo com múltiplas etapas. Algo que normalmente tomaria uma tarde inteira de concentração. Uma migração, um refactor, uma feature que afeta três módulos. Abra o Codex. Defina o raciocínio para alto. Escreva a tarefa como um único prompt. Afaste-se por quinze minutos.

Quando você voltar, vai saber exatamente o que eu sei: se o loop autônomo é real para o seu fluxo de trabalho ou se é só hype. Isso não é uma questão de benchmark. É uma questão de terça à tarde. E são às terças à tarde que as carreiras são construídas.

O SVG do unicórnio empinando que eu gerei no primeiro dia ainda está numa pasta do meu laptop. Eu o mantenho lá como lembrete. Seis semanas atrás, esse nível de output one-shot teria viralizado no Twitter. Hoje, é o chão. O teto está em algum lugar que eu ainda não atingi — e a única forma de descobrir onde é continuar pressionando o loop com prompts cada vez mais exigentes até algo quebrar.

Então vá quebrar alguma coisa. E depois me conte o que você descobriu.

Vamos Trabalhar Juntos

Quer construir sistemas de IA, automatizar fluxos de trabalho ou escalar sua infraestrutura tecnológica? Adoraria ajudar.

Fiverr (projetos personalizados e integrações): fiverr.com/s/EgxYmWD
Portfólio: mejba.me
Ramlit Limited (soluções corporativas): ramlit.com
ColorPark (design e branding): colorpark.io
xCyberSecurity (serviços de segurança): xcybersecurity.io

GPT 5.5 Codex na Prática: O Salto Agente Colocado à Prova