Limites do Claude Code dobraram: o que o compute da SpaceX significa
Eu estava prestes a começar a escrever este post quando percebi algo estranho na minha sessão Claude Code. Eram 9h47 de uma quarta-feira – o horário exato do dia em que meu pipeline de agente normalmente funciona. Horário de pico. A janela em que há muito tempo aceitei que meu orçamento de cinco horas seria esticado para algo mais como três e meia. Eu dividiria preventivamente minha sessão em dois terminais, um executando refatoração de contexto longo em Opus, outro executando tarefas de agente menores em Sonnet, ambos limitados a um rastreamento.
Desta vez, nada foi estrangulado. As tarefas que coloquei na fila para serem executadas na pista lenta terminaram a toda velocidade. Às 10h30, eu tinha feito o que normalmente me levaria até a hora do almoço. Voltei ao terminal, fiz minha verificação de uso e vi o novo teto ali. Quase o dobro do que comi na terça-feira.
Aqui está o que mudou: em 6 de maio de 2026, no primeiro dia da primeira conferência de desenvolvedores "Code with Claude" do Claude em São Francisco, a empresa anunciou uma parceria estratégica de computação com SpaceX - e em poucas horas colocou ao vivo a expansão de capacidade mais generosa que os usuários do Claude já viram em uma única atualização. Os limites de taxa de cinco horas dobraram no Pro, Max, Team e Enterprise com base em assentos. Limitação na hora de pico eliminada para Pro e Max. E os limites de taxa Opus API aumentaram no que o anúncio descreveu como quantias “consideráveis” – relatórios independentes registraram que o teto de entrada do Nível 1 aumentou em até 1.500% e a produção em até 900%.
Se você passou algum tempo lutando contra a barreira dos limites de taxas Claude no ano passado, já sabe o que esses números significam. Se ainda não, fique comigo. Porque o título não é realmente o negócio SpaceX e não são realmente os limites de taxa. A manchete é o que se torna possível na manhã de segunda-feira e que não era possível na tarde de sexta-feira.
O que realmente foi anunciado (e o que é real)
Deixe-me esclarecer os fatos antes de chegar às implicações, porque os relatórios sobre isso têm sido um pouco desiguais.
O acordo: Anthropic assinou um contrato com SpaceX para assumir toda a capacidade computacional do Colossus 1, o data center originalmente construído para xAI. São cerca de 300 megawatts de potência e mais de 220.000 GPUs Nvidia – uma mistura de aceleradores H100, H200 e GB200 de próxima geração. A capacidade estará online “dentro do mês”, de acordo com o anúncio do próprio Anthropic, ou seja, no início de junho de 2026.
A peça de ficção científica – a parte que as manchetes têm perseguido – é o acordo de longo prazo para desenvolver “múltiplos gigawatts de capacidade computacional orbital AI”. São clusters de GPU no espaço. O Real, no comunicado de imprensa, assinou. Voltarei a perguntar se isso ainda importa, porque a resposta é mais interessante do que os crentes ou os céticos estão dizendo.
As alterações voltadas para o usuário são enviadas imediatamente:
- Claude Code limites de taxa de cinco horas duplicados para planos Pro, Max, Team e Enterprise baseados em assentos. Este é o limite que é redefinido a cada cinco horas durante uma sessão. 2. Aceleração no horário de pico removida para Pro e Max em Claude Code. Anteriormente, as manhãs dos dias de semana eram atingidas por limites reduzidos. Isso acabou para essas duas camadas. 3. Claude Opus API limites de taxa aumentados significativamente. Os tokens de entrada de nível 1 por minuto supostamente aumentaram de cerca de 30.000 para cerca de 350.000+ dependendo do nível – um salto de cerca de 16x. A produção passou de 8.000 TPM para 80.000 TPM, um número limpo de 10x. (O multiplicador de entrada é maior porque a produção custa mais computação por token; a assimetria é estrutural.)
Agentes gerenciados ganhando mais espaço — o equipamento de agente de produção Anthropic lançado em abril de 2026 agora também é executado no novo piso de computação, o que é mais importante do que as pessoas imaginam.
A conferência em si - Code with Claude - esgotou tanto que Anthropic adicionou um segundo dia em São Francisco e edições confirmadas em Londres e Tóquio. Um dia antes do início, Anthropic também anunciou uma joint venture de US$ 1,5 bilhão com Blackstone, Hellman & Friedman e Goldman Sachs para lançar uma empresa de serviços empresariais AI visando centenas de empresas de médio porte.
Essa é a novidade. Agora vamos falar sobre por que isso é mais importante do que parece.
Por que isso foi tão difícil para quem já está construindo
Se você usa Claude casualmente – abrindo-o uma vez por dia, fazendo uma pergunta, fechando a guia – a maior parte desta atualização é invisível. Você não estava batendo na parede. A parede estava atingindo pessoas como eu.
Eu executo um pipeline de conteúdo multimarcas por meio de uma pilha de agentes Claude Code. O sistema que você está lendo agora? Essa é a @aria, um agente voltado para pesquisas que faz pesquisas na web, verifica postagens existentes e gera artigos com mais de 3.000 palavras. Atrás dele está um cluster de agentes de suporte – um para solicitações de imagens, um para verificações de SEO e um para geração de pacotes de distribuição. Em uma quarta-feira normal, apenas esse pipeline queima tokens Opus a uma taxa que atingiu os limites de taxa pelo menos duas vezes por semana nos últimos seis meses.
A dor tem sido real e específica. Três padrões contra os quais tenho lutado:
O penhasco das 9h. Terças de manhã, quartas de manhã, quintas de manhã – no momento em que a Costa Leste dos EUA e a Europa se sobrepõem, minhas sessões Claude Code ficariam mais lentas. Não pare. Lento. Tarefas que demoravam 90 segundos às 6h levariam 4 minutos às 10h. Multiplique isso por uma pilha de agentes fazendo dezenas de chamadas e uma sessão que deveria terminar em vinte minutos se arrasta para noventa. Eu compensei colocando trabalho pesado na fila à noite e nos fins de semana. Essa é uma solução alternativa, não um fluxo de trabalho.
O limite máximo de cinco horas no Max. Estou no plano Max porque minha pilha de agentes realmente precisa dele: pura economia de assinatura em um plano de 20x ou 100x é melhor do que API por token para o tipo de volume que executo. Mas o limite de cinco horas significa que planejo isso. Eu lote. Eu aglomero o trabalho. Dividi meu dia em "janelas Claude" e "janelas não Claude". Essa estrutura era adequada para codificação solo. Foi doloroso para pipelines de agentes autônomos que funcionavam de acordo com sua própria programação.
Opus API limita o paralelismo sufocante. Quando eu precisava me espalhar - digamos, gerar dez contornos de variantes em paralelo antes de escolher um - os limites de taxa por minuto do API no Opus me estrangulariam fortemente. Eu serializaria o que deveria ser paralelo. A pilha de agentes faria cinco chamadas consecutivas, quando deveria estar fazendo cinco chamadas ao mesmo tempo.
A duplicação corrige os dois primeiros quase completamente. O aumento do limite de taxa Opus API – assumindo que os números relatados por 9to5Google e outros sejam precisos para meu nível – torna o terceiro um não problema. Essa é uma mudança estrutural na forma como posso arquitetar agentes.
Se você ainda não está construindo nessa escala, pode estar lendo isto pensando que os limites não são tão ruins. Eles não eram, para a maioria dos usuários. Mas eles eram o teto para a próxima camada do que era possível. Esse teto acabou de se mover.
A escassez de computação sempre foi a verdadeira história
Afaste-se dos números de limite de taxa por um segundo e faça a pergunta maior: por que Anthropic precisava fazer isso?
A resposta é a parte que a maior parte da cobertura encobre. Anthropic sofreu falta de computação pelo menos no ano passado. As interrupções têm sido frequentes o suficiente para que a página de status do Anthropic seja uma guia que mantenho aberta. As atualizações do plano foram restritas em um ponto - Claude Code foi apenas do plano Max por um período porque o sistema não conseguia lidar com uma implementação mais ampla. As sessões pareciam mais lentas nos horários de pico, não porque o modelo ficou mais burro, mas porque os servidores de inferência estavam saturados.
A demanda tem ultrapassado a capacidade computacional. Cada lançamento de modelo tornou tudo pior. Cada implementação do Claude Code tornou tudo pior. Sonnet 4.6 atingiu 1 milhão de janelas de contexto em março; Opus 4.6 seguido; Opus 4.7 foi lançado no início de 2026. Cada geração atraiu mais usuários para fluxos de trabalho mais intensivos e cada geração criou mais pressão na mesma base de hardware restrita.
A estratégia de computação do Anthropic sempre foi de vários fornecedores. AWS Trainium, Google TPUs, silício personalizado Broadcom-Anthropic, Microsoft Azure, Nvidia-direct, Fluid Stack ao lado. SpaceX é a mais nova camada dessa diversificação e é de longe a maior adição individual. O Colossus 1 foi originalmente construído para os modelos Grok do xAI – quando essa capacidade se tornou contratualmente disponível, o Anthropic pegou toda ela.
Este é o movimento que rompe o gargalo. Não "estamos recebendo mais GPUs". Mais como "estamos triplicando o piso em uma única sessão de autógrafos".
A razão que importa para os construtores não é a generosidade. É confiabilidade. Os limites de taxa que dobraram hoje não estão dobrando porque Anthropic de repente ficou entusiasmado. Estão a duplicar porque a capacidade subjacente finalmente alcançou a procura, com margem de sobra. A mesma dinâmica que nos deu esses limites máximos mais elevados é também o que os torna sustentáveis. Já passei por ciclos suficientes de “oferta de nível gratuito, remoção de nível gratuito” em tecnologia para saber que as expansões apoiadas pela capacidade funcionam muito melhor do que as promocionais.
O ângulo da computação orbital: realismo cético
Agora a parte que todos querem perguntar. GPUs no espaço. Real ou marketing?
Aqui está minha opinião honesta: é real, mas não da maneira que as manchetes sugerem. Anthropic e SpaceX se comprometeram a desenvolver capacidade de computação orbital de vários gigawatts. Essa é uma declaração de capacidade, não uma data de entrega. Ninguém enviará H200s para a órbita baixa da Terra no próximo trimestre. A física ainda não chegou lá – proteção contra radiação, gerenciamento térmico, resfriamento sem atmosfera, latência para usuários terrestres, economia de lançamento para hardware que tem uma vida útil de talvez quatro anos. Cada problema por si só é uma linha de pesquisa multibilionária.
Mas – e é aqui que penso que as atitudes desdenhosas estão erradas – o constrangimento que está a impulsionar isto é real e está a piorar. A computação terrestre do AI tem gargalos em três coisas: geração de energia, água para resfriamento e terreno próximo à rede. Os EUA estão enfrentando os três simultaneamente. Novos projetos de data centers têm sido bloqueados em nível local devido ao consumo de água. As redes elétricas na Virgínia e no Texas estão no limite. O próximo gigawatt de capacidade computacional em 2027 será mais difícil de adicionar do que o anterior. Os próximos dez gigawatts em 2030, ainda mais difíceis.
Orbit não tem essas restrições. A energia solar é ininterrupta. O resfriamento é apenas dissipação radiativa no espaço. A terra não é uma coisa. O problema não é “você poderia colocar uma GPU em órbita” – é “você poderia fazer isso economicamente”. Com a Starship potencialmente elevando os custos de lançamento para US$ 10 por quilograma até o final da década, a matemática começa a indicar algumas cargas de trabalho. Especialmente cargas de trabalho de treinamento em lote que não precisam de latência de milissegundos para um usuário.
Então, a computação orbital irá alimentar sua sessão Claude Code em 2027? Não. Haverá uma parcela significativa da computação de treinamento de modelo de fronteira até 2030? Talvez. Provavelmente. As empresas que apostam contra essa trajetória são as que me preocupam. A parte que realmente importa hoje, porém, são os 300 megawatts que entrarão em operação em Memphis este mês – e não os gigawatts que eventualmente entrarão em órbita.
O que mudará no meu fluxo de trabalho amanhã
Esta é a parte que realmente me interessa: o que posso construir de diferente agora?
Sentei-me com minha própria configuração no dia seguinte ao anúncio e analisei os projetos em minha pasta “arquivados por causa dos limites de taxa”. Eram seis. Três deles estou trazendo de volta. Dois agora são interessantes de uma forma que não eram ontem.
1. A janela de contexto de 1M finalmente se torna um driver diário
Eu escrevi uma postagem completa sobre o contexto de token de 1 milhão do Opus 4.6 quando ele foi lançado, e o veredicto honesto foi que funcionou tecnicamente, mas custou tempo real e tokens para uso em escala. Alimentar 800 mil tokens em uma sessão era algo que eu faria para uma auditoria específica de grande base de código, não para um fluxo de trabalho recorrente.
Com os limites de taxa Opus API aumentados pelos multiplicadores relatados, esse cálculo muda. Enviar um milhão de tokens através de um agente em um circuito fechado torna-se viável sem ver o medidor por minuto ficar vermelho. Para meu pipeline, isso significa que um agente de pesquisa pode manter todo o contexto das postagens de uma marca (mais de 200 artigos somente para mejba.me) em uma única sessão e raciocinar sobre tudo isso sem precisar se dividir em chamadas menores. Essa é uma mudança estrutural na aparência da autoridade no meu fluxo de trabalho.
2. Orquestração multiagente com subagentes paralelos
Este é o maior desbloqueio para mim. Meu pipeline existente executa agentes sequencialmente na maioria dos casos - o agente de pesquisa termina, depois o agente de escrita começa, depois o agente de verificação de SEO e depois o agente de distribuição. A razão não é que sequencial seja melhor. É que executá-los em paralelo significava distribuir chamadas Opus API suficientes por minuto para sufocar o limite de taxa.
Com o TPM de saída em aproximadamente 80.000 em vez de 8.000, posso executar esses agentes em paralelo sem limitação. O tempo estimado para gerar uma postagem finalizada cai de cerca de 18 minutos para cerca de 6 minutos no verso do envelope. Mais importante ainda, posso executar vários pipelines completos simultaneamente – cinco postagens, dez postagens de uma vez, cada um com sua própria pilha de agentes. O tipo de arquitetura de enxame de agentes sobre a qual escrevi em março de repente se torna um fluxo de trabalho diário, não um experimento de fim de semana.
3. Fluxos de trabalho de produção em Claude Code, não apenas protótipos
Há uma versão real de como a maioria de nós tem usado o Claude Code: como parceiro de codificação durante o desenvolvimento, com a suposição de que os pipelines de produção pertenciam ao API. Os motivos foram os limites de taxa e o modelo baseado em sessão – o orçamento de cinco horas do Claude Code não se encaixava perfeitamente em “essa coisa funciona a cada quinze minutos para sempre”.
Limites de taxa duplicados + limitação de pico removida alteram o custo-benefício. Uma sessão Claude Code sem penalidade de pico e com o dobro do headroom é orçamento suficiente para muitos trabalhos de produção recorrentes. Estou de olho especificamente na minha rotina de verificação de integridade de SEO - atualmente ela é executada no API e custa ~$11/day.. No plano Max, a mesma carga de trabalho provavelmente cabe dentro do novo teto de cinco horas sem estouro. Essa é uma mudança de custo mensal mensurável.
O anúncio dos Agentes Gerenciados também é importante aqui. Anthropic lançou Agentes Gerenciados em abril com gatilhos de webhook, estado persistente e coordenação multiagente como primitivos principais. O produto era real, mas com capacidade limitada no lançamento – a maioria dos usuários atingiu os limites de taxa antes de atingir casos de uso interessantes. Com o novo piso de computação, os Agentes Gerenciados deixam de ser um produto beta e passam a ser algo para o qual eu realmente implantaria um pipeline.
4. As soluções alternativas hacky que posso parar de fazer
Esta lista é satisfatória. Coisas que fiz no ano passado apenas para evitar limites de taxas:
- Divisão de sessões Claude Code em dois terminais para dobrar o orçamento
- Roteamento de algumas tarefas do agente para OpenRouter ou outros provedores quando Anthropic estava estrangulando
- Pré-carregar o contexto agressivamente no início de uma sessão porque eu sabia que o modelo ficaria mais lento mais tarde
- Usando um proxy LLM local para manter algum trabalho de protótipo fora do pipeline principal
- Agendar execuções de geração de conteúdo para noites e fins de semana para evitar picos
A maioria deles vai embora. Nem todos – ainda quero diversidade de provedores para resiliência, e LLMs locais ainda são úteis para pré-processamento não crítico. Mas as soluções alternativas diárias que eu estava fazendo apenas para ficar abaixo do limite? Principalmente aposentado.
A pegadinha sobre a qual ninguém está falando
I want to be honest about something the announcement glossed over.
Limites de taxas duplicados não significam limites de taxas ilimitados. Eles significam um teto mais alto. Se o seu uso já estava fixado em 95% do teto antigo, você terá espaço agora. Se o seu uso for linearmente proporcional ao limite máximo – e isso acontece para usuários avançados – você encontrará o novo limite máximo em um quarto. O padrão com todas as expansões de capacidade anteriores do Claude tem sido que a demanda absorve o novo espaço mais rápido do que qualquer um projeta.
Segundo problema: o anúncio especifica Pro, Max, Team e Enterprise baseado em assento. Se você estiver em um contrato empresarial personalizado ou em uma camada API específica de pagamento por token que não estava na lista nomeada, verifique seu painel antes de assumir os limites movidos para você. O aumento do limite de taxa Opus API é mais amplo, mas eu verificaria os novos limites de TPM em sua conta específica antes de projetar em torno deles.
Terceiro – e este é estrutural – o cálculo SpaceX está “dentro do mês”. Essa linguagem é precisa. A capacidade está aumentando, não totalmente. Se você testar os novos limites máximos na primeira semana e descobrir que eles são um pouco mais rígidos do que o anúncio indicava, a resposta pode ser que seu tráfego está atingindo uma infraestrutura que ainda não foi totalmente desenvolvida. Planeje o estado estacionário, não o estado do dia do lançamento.
Quarto: a limitação no horário de pico foi removida para Pro e Max especificamente em Claude Code. Não para o API. Não para Sonnet. Não para os níveis Team ou Enterprise (embora tenham mecânicas diferentes). Se sua carga de trabalho for orientada por API em um plano não Pro/Max, você não recebeu este presente específico. Você obteve aumentos no limite de taxa, mas não a remoção nos horários de pico.
Nada disso está em letras miúdas destinadas a decepcionar. É apenas a diferença entre um título de marketing e uma especificação de configuração. Leia os limites reais do seu nível. Faça seu próprio teste na quarta-feira, às 10h, antes de redesenhar sua pilha em torno dos novos números.
O que estou assistindo a seguir
Três coisas que estou monitorando nos próximos 30 dias:
A capacidade se mantém sob carga? O motivo pelo qual todas as expansões anteriores do Claude eventualmente pareceram restritas é que a demanda absorveu a oferta. O código com Claude impulsionará uma onda de novos construtores. A adoção de Agentes Gerenciados será acelerada. O empreendimento empresarial Goldman/Blackstone colocará o Claude em centenas de novas implantações no mercado intermediário. Tudo isso atingirá o novo patamar de computação. Em julho, saberemos se as GPUs de 300 MW + 220K eram uma “margem confortável” ou “quase o suficiente”.
O Anthropic fornece a próxima camada de primitivos de orquestração? Os Agentes Gerenciados em abril foram uma base. A conferência Code with Claude confirmou que Anthropic deseja que os desenvolvedores passem das “chamadas API individuais” e entrem em “pipelines de agentes autônomos e duráveis”. Com as restrições de limite de taxa removidas, espero que a próxima rodada de recursos da plataforma – melhores gatilhos de webhook, agentes de execução mais longa, coordenação nativa de multiagentes – caia nos próximos dois trimestres. É aí que residem os verdadeiros multiplicadores de produtividade para construtores como eu.
Como isso remodela o cenário competitivo? OpenAI anunciou sua própria joint venture de serviços empresariais na mesma semana. xAI está agora na posição incômoda de ter vendido capacidade para seu maior rival. Microsoft, Google e Meta estão observando de perto a dinâmica da capacidade computacional. As empresas que garantirem os próximos 10 GW de computação de inferência até 2027 definirão quais modelos se tornarão padrões de produção para cargas de trabalho empresariais. SpaceX-Anthropic acabou de colocar uma bandeira séria no chão.
Então, sobre aquela manhã de quarta-feira
De volta ao início deste post. Percebi que o acelerador havia sumido, fiz minha verificação de uso e encontrei o teto dobrado. Na quinta-feira, eu havia iniciado três projetos da minha pasta na estante. Na sexta-feira, eu refatorei uma parte do pipeline @aria para distribuir chamadas paralelas de subagentes de uma forma que teria sido impossível uma semana antes.
O interessante não é que nada disso fosse tecnicamente impossível antes. As capacidades do modelo não mudaram. Opus 4.7 ontem é Opus 4.7 hoje. A janela de contexto 1M funcionou em abril. A orquestração multiagente já era um padrão.
O que mudou foi o piso operacional subjacente a tudo isso. Crie algo em Claude que dependa de inferência paralela consistente, de alto volume, e você não precisará mais projetar em torno da restrição. A restrição acabou de ser eliminada por algo próximo de uma ordem de grandeza completa na direção mais vinculativa.
Isso é o que as parcerias de computação realmente compram para você – não “mais recursos”, mas “menos coisas que você precisa planejar”. A mentalidade de limites como arquitetura com a qual venho operando há um ano acabou de envelhecer um ciclo.
Se você está adiando um projeto porque os limites de taxas o tornaram inviável, esta é a semana para retirá-lo da prateleira e fazer as contas novamente. A parede pode não estar onde você se lembra de tê-la deixado.
Perguntas frequentes
Quando os limites de taxa Claude Code foram duplicados?
Os limites de taxa Claude Code dobraram em 6 de maio de 2026, anunciado no primeiro dia da conferência de desenvolvedores Code with Claude de Anthropic em São Francisco. A mudança se aplica aos planos Pro, Max, Team e Enterprise com base em licenças e entrou em vigor imediatamente. A capacidade por trás disso vem de uma nova parceria computacional com SpaceX no data center Colossus 1.
O que a parceria Anthropic SpaceX realmente inclui?
Anthropic foi contratado para usar toda a capacidade de computação do data center Colossus 1 do SpaceX, obtendo acesso a mais de 300 megawatts de energia e cerca de 220.000 GPUs Nvidia (uma mistura de aceleradores H100, H200 e GB200). O acordo também inclui um compromisso de longo prazo para desenvolver capacidade de computação orbital AI de vários gigawatts, embora essa peça esteja a anos de qualquer implantação.
Os limites de taxa Claude Opus API também mudaram?
Sim. Claude Opus API limites de token de entrada por minuto foram aumentados significativamente entre os níveis – relatórios independentes indicaram um salto de até 1.500% para tokens de entrada de nível 1 e cerca de 900% para tokens de saída. Verifique os novos limites no painel de sua conta específico antes de projetá-los, pois os multiplicadores exatos variam de acordo com o nível.
Isso afeta a limitação nos horários de pico?
A aceleração no horário de pico foi removida especificamente para usuários Pro e Max em Claude Code. As sessões Claude Code durante as horas da manhã dos dias úteis não recebem mais o tratamento de limite reduzido que aquelas camadas costumavam ver. Os níveis Team e Enterprise operam em mecanismos diferentes. A alteração nos horários de pico não se aplica ao API independente.
Devo redesenhar meu pipeline de agentes de acordo com os novos limites?
Se o seu pipeline existente fosse limitado por limite de taxa – sequencial onde deveria ser paralelo, limitado nos horários de pico ou atingindo o teto Claude Code de cinco horas regularmente – sim. As mudanças estruturais são grandes o suficiente para justificar a revisão das decisões arquitetônicas tomadas sob as antigas restrições. Teste os novos limites em relação à sua carga de trabalho real antes de recompilar, uma vez que a capacidade está sendo implementada "dentro do mês", em vez de totalmente ativa no primeiro dia.
Vamos trabalhar juntos
Procurando construir sistemas AI, automatizar fluxos de trabalho ou dimensionar sua infraestrutura tecnológica? Eu adoraria ajudar.
- Fiverr (compilações e integrações personalizadas): fiverr.com/s/EgxYmWD
- Portfólio: mejba.me
- Ramlit Limited (soluções empresariais): ramlit.com
- ColorPark (design e marca): colorpark.io
- xCyberSecurity (serviços de segurança): xcybersecurity.io