Resumo Semanal de IA: A Semana em Que Tudo Mudou

Acordei na segunda-feira de manhã com uma notificação de um pesquisador de segurança que sigo no X. Ele havia encontrado algo no sistema de gerenciamento de conteúdo da Anthropic — quase 3.000 assets não publicados expostos abertamente, incluindo rascunhos de posts de blog descrevendo um modelo que a Anthropic chamou de "de longe o modelo de IA mais poderoso que já desenvolvemos." Na terça, a Fortune já tinha a história. Na quarta, todo newsletter de IA do planeta estava repercutindo o assunto.

E essa nem foi a maior notícia da semana.

Esta foi uma daquelas semanas em que cada manhã trazia mais um anúncio que, sozinho, teria dominado um ciclo inteiro de notícias. A Anthropic vazou acidentalmente detalhes de dois modelos não lançados. A OpenAI matou o Sora e apostou tudo em um modelo misterioso chamado Spud. O Google lançou agentes de voz multimodais em tempo real. Um modelo open-source da China ficou a 5% do Opus 4.6 em benchmarks de programação. Um novo benchmark de inteligência fez todos os modelos de fronteira parecerem que estavam rodando em conexão discada. E o Claude Code ganhou funcionalidades que mudaram fundamentalmente como eu trabalho com PRs.

Acompanho desenvolvimentos de IA diariamente há dois anos, e este pode ter sido o período de sete dias mais denso que já vi. Não por causa de hype — por causa de lançamentos reais, testáveis e que alteram fluxos de trabalho, sendo entregues ao lado de movimentos estratégicos que redesenham o mapa competitivo para o restante de 2026.

Aqui está o que aconteceu, o que realmente significa, e o que estou mudando no meu próprio fluxo de trabalho por causa disso.

O Vazamento da Anthropic: Claude Mythos e Capybara São Reais

Vamos começar pela história que quebrou a internet — e a quebrou da forma mais irônica possível.

Os pesquisadores de segurança Roy Paz, da LayerX Security, e Alexandre Pauwels, da Universidade de Cambridge, descobriram dados expostos no sistema de gerenciamento de conteúdo da Anthropic. Um erro de configuração — "erro humano", segundo a Anthropic — deixou quase 3.000 assets de blog não publicados acessíveis publicamente. Entre eles: rascunhos de posts descrevendo dois modelos não lançados.

Claude Mythos é o modelo topo de linha. Os rascunhos vazados o descrevem como uma "mudança de patamar" em capacidades, com pontuações dramaticamente superiores a qualquer coisa que a Anthropic já lançou em testes de programação de software, raciocínio acadêmico e cibersegurança. A Anthropic confirmou que o modelo existe e que está sendo testado com um pequeno grupo de clientes com acesso antecipado.

Capybara fica entre o Mythos e o atual modelo flagship Opus — uma nova camada de modelo que é mais capaz que o Opus 4.6, mas menos custosa de rodar que o Mythos.

Aqui está o que torna isso genuinamente significativo e não apenas fofoca interessante. Os documentos internos vazados alertam especificamente que o Mythos poderia "aumentar significativamente os riscos de cibersegurança" ao encontrar e explorar rapidamente vulnerabilidades de software. A própria equipe de segurança da Anthropic sinalizou o potencial de acelerar uma corrida armamentista cibernética. Isso não é linguagem de marketing — é uma avaliação de risco interna que nunca deveria ter se tornado pública.

A estratégia de lançamento planejada diz tudo sobre onde está a cabeça da Anthropic. Eles podem lançar versões intermediárias — um Opus 5 ou Sonnet 5 — antes de colocar o Mythos nas mãos de qualquer pessoa. O modelo é caro de rodar e "ainda não está pronto para lançamento geral", segundo os rascunhos.

Minha análise? Duas coisas se destacam. Primeiro, as preocupações com segurança são reais e específicas — não se trata de acenos vagos sobre "riscos potenciais." A própria equipe da Anthropic está preocupada com o que este modelo pode fazer com análise de vulnerabilidades em nível de código. Segundo, o fato de estarem construindo uma camada entre o Opus e o Mythos (Capybara) sugere que a diferença de capacidade é grande o suficiente para precisar de um degrau intermediário. Isso é incomum. Quando o salto é incremental, você simplesmente lança a atualização.

Se você está construindo qualquer coisa que depende do teto de capacidade atual do Claude — workflows agênticos, auditoria de segurança automatizada, geração autônoma de código — o vazamento desta semana é o seu sinal para começar a planejar um salto significativo de capacidade nos próximos meses. Eu já comecei a projetar minhas arquiteturas de agentes com margem para modelos que são significativamente mais inteligentes que o Opus 4.6.

A ironia de uma empresa de IA focada em segurança vazar acidentalmente os detalhes do seu modelo mais perigoso através de uma configuração incorreta de CMS não passou despercebida por ninguém. Mas vamos em frente, porque a OpenAI também soltou sua própria bomba esta semana.

O "Spud" da OpenAI — E Por Que Eles Mataram o Sora Para Construí-lo

Enquanto todo mundo estava decifrando o vazamento da Anthropic, a OpenAI estava fazendo movimentos que revelam exatamente para onde suas prioridades estão migrando.

O CEO Sam Altman enviou um memorando interno — posteriormente reportado pelo The Information — confirmando que o pré-treinamento de um novo modelo com o codinome "Spud" foi concluído. Altman disse aos funcionários que esperassem um "modelo muito forte" em "algumas semanas" que pode "realmente acelerar a economia." Se o Spud se tornará GPT-5.5 ou GPT-6 ainda não está claro.

Mas aqui está a parte que me fez prestar atenção de verdade. Para liberar capacidade computacional para o Spud e outras prioridades, a OpenAI está encerrando o Sora. A versão web e app será desligada em 26 de abril de 2026, com a API seguindo em 24 de setembro.

Sora — a ferramenta de geração de vídeo por IA que foi lançada com um hype massivo — atingiu o pico de aproximadamente 3,3 milhões de downloads em novembro de 2025 antes de cair para 1,1 milhão em fevereiro de 2026. A Disney retirou seu investimento planejado de US$ 1 bilhão na OpenAI junto com o anúncio. Isso não é um pivô. É uma retirada completa da geração de vídeo para investir tudo em capacidade de modelo de linguagem.

O sinal estratégico é inconfundível. A OpenAI está apostando que a inteligência bruta do modelo — do tipo que pode "acelerar a economia" — importa mais do que ferramentas criativas chamativas. Eles estão consolidando em torno do que acreditam ser um vencedor, e estão dispostos a matar um produto com mais de um milhão de usuários ativos para que isso aconteça.

Altman também abriu mão da supervisão direta das equipes de segurança da OpenAI para focar em "construir datacenters em escala sem precedentes." Tire suas próprias conclusões.

Para aqueles de nós no espaço de ferramentas para desenvolvedores, o Spud importa por uma razão prática: ele pode servir como base para o "superapp" desktop planejado pela OpenAI, combinando ChatGPT, Codex e o navegador Atlas em um único ambiente. Se isso for lançado, muda a dinâmica competitiva de todo o mercado de programação assistida por IA.

Por falar em Codex — ele também recebeu uma grande atualização esta semana.

Codex Ganha Plugins: De Ferramenta de Código a Plataforma de Execução

A OpenAI introduziu um sistema de plugins para o Codex em 27 de março, e este merece mais atenção do que está recebendo.

Plugins no Codex não são simples complementos. São pacotes instaláveis que agrupam habilidades, integrações com aplicativos e configurações de servidores MCP (Model Context Protocol) em workflows reutilizáveis. O diretório curado inclui integrações com Slack, Notion, Figma, Gmail e Google Drive — mais de uma dúzia de opções pré-empacotadas no lançamento.

O que isso significa na prática: o Codex não é mais apenas um agente de programação. Está se tornando um ambiente de execução onde você pode iniciar workflows de IA pré-construídos e prontos para rodar — desenvolvimento de apps iOS, análise de dados, geração de relatórios — com configuração mínima.

Os números comprovam o momento. O Codex atingiu 1,6 milhão de usuários ativos semanais no início de março de 2026 — mais que triplicando desde o lançamento do Codex com GPT-5.3 em fevereiro. Clientes enterprise incluindo Cisco, NVIDIA, Ramp, Rakuten e Harvey estão implantando em suas equipes.

Isso é um tiro direto no ecossistema de plugins e skills do Claude Code. Eu escrevi sobre o sistema de plugins do Claude Code algumas semanas atrás, e o timing da jogada da OpenAI parece deliberado. A guerra dos plugins está oficialmente declarada.

Minha avaliação honesta? A abordagem de plugins do Codex é mais polida para usuários não técnicos que querem workflows prontos para usar. A abordagem do Claude Code dá mais controle a desenvolvedores que querem construir pipelines de agentes personalizados. Ambas são estratégias viáveis, e o vencedor provavelmente depende de qual base de usuários crescer mais rápido.

GLM 5.1: O Modelo Open-Source Que Alcança 94,6% do Opus

A Z.ai (anteriormente Zhipu AI) disponibilizou o GLM 5.1 para todos os usuários do Coding Plan em 27 de março, e os números de benchmark são impressionantes.

Usando o Claude Code como ferramenta de teste — o que é um ambiente de comparação bem controlado — o GLM 5.1 marcou 45,3 pontos em benchmarks de programação. O Opus 4.6 marcou 47,9. Isso é 94,6% do desempenho do Opus. Uma melhoria de 28% em relação à pontuação de 35,4 do GLM 5.

Modelo	Pontuação em Código	Diferença para o Opus 4.6	Arquitetura
Claude Opus 4.6	47,9	—	Proprietário
GLM 5.1	45,3	-2,6 pontos (5,4%)	744B MoE, 40B ativos
GLM 5.0	35,4	-12,5 pontos	745B MoE, 44B ativos

Eu testei o GLM 5 anterior (Pony Alpha) quando ele apareceu pela primeira vez como um lançamento silencioso no Open Router, e mesmo naquela época eu disse que a diferença estava diminuindo mais rápido do que a maioria dos desenvolvedores ocidentais percebia. GLM 5.1 comprova o ponto.

A diferença entre modelos de IA open-source e proprietários não é mais medida em gerações. É medida em pontos percentuais de um dígito. Essa mudança aconteceu mais rápido do que a maioria esperava, e altera a economia de todo produto dependente de IA.

ARC AGI 3: O Benchmark Que Fez Toda IA Parecer Burra

O ARC AGI 3 foi lançado em 25 de março de 2026, e pode ser o lançamento de benchmark mais importante do ano. Não porque a IA foi bem — porque a IA foi catastroficamente mal.

Os resultados são preocupantes:

Google Gemini 3.1 Pro: 0,37%
OpenAI GPT 5.4: 0,26%
Anthropic Opus 4.6: 0,25%
Humanos: 100%

A premiação é de US$ 850.000 só para a categoria ARC AGI 3, com um grande prêmio de US$ 700.000 para o primeiro agente a atingir 100%.

Essa é a diferença entre "IA que automatiza tarefas conhecidas" e "IA que consegue lidar com situações genuinamente novas." Para profissionais, esta é uma verificação de realidade útil. Construir sua estratégia de IA em torno dessa distinção — aproveitando a IA no que ela é excelente enquanto mantém humanos no loop para problemas genuinamente inéditos — continua sendo a decisão certa para 2026.

Gemini 3.1 Flash Live: Voz e Visão em Tempo Real Entram em Produção

O Google DeepMind lançou o Gemini 3.1 Flash Live em 26 de março, e este é o tipo de lançamento de infraestrutura que não gera manchetes mas silenciosamente muda o que é possível construir.

O Flash Live é um modelo multimodal de voz e visão em tempo real. Ele processa áudio nativamente — não por transcrição, mas compreendendo nuances acústicas diretamente. Ele lida com frames de vídeo junto com áudio via conexões WebSocket com comunicação full-duplex.

A implicação prática: agora você pode construir agentes de IA conversacionais que veem e ouvem em tempo real, com latência de nível de produção projetada para aplicações em produção. O modelo suporta uma janela de contexto de 128K tokens.

Claude Code: Três Atualizações Que Mudaram Meu Fluxo de Trabalho Diário

Auto-Fix na Nuvem

O Claude Code agora pode monitorar seus PRs remotamente — corrigindo falhas de CI, respondendo comentários de revisão e fazendo push de correções enquanto você está longe do teclado.

Auto Mode

Lançado em 24 de março, o auto mode introduz um classificador de IA integrado que analisa cada chamada de ferramenta antes da execução. Ações seguras prosseguem automaticamente. Ações arriscadas são bloqueadas.

Limites de Sessão em Horário de Pico

A Anthropic ajustou os limites de sessão durante horários de pico (5:00-11:00 AM PT em dias úteis).

Se você preferir que alguém configure um workflow de Claude Code com auto-fix, auto mode e gerenciamento otimizado de sessões do zero, veja fiverr.com/s/EgxYmWD.

Coadjuvantes: Cinco Histórias Que Merecem Acompanhamento

Voxtral TTS da Mistral — Voz Open-Weight Que Rivaliza com a ElevenLabs

A Mistral lançou o Voxtral TTS em 26 de março, um modelo open-weight de text-to-speech com 4 bilhões de parâmetros.

Operon da Anthropic — Claude Ganha um Laboratório de Biologia

Projetado especificamente para pesquisa em biologia e saúde.

CLI da ElevenLabs Adota Abordagem Agent-First

ElevenLabs lançou atualizações abrangentes em sua CLI. Já estou pensando em como integrar isso com meus workflows de áudio alimentados por Claude Code.

O Escândalo do Cursor Composer 2

Um desenvolvedor chamado Fynn descobriu que o Composer 2 é na verdade o Kimi K2.5 da Moonshot AI.

A Morte Silenciosa do Sora

O app será desligado em 26 de abril de 2026. A API segue em 24 de setembro. Se você tem trabalho no Sora, exporte agora.

O Que Esta Semana Realmente Significa — Minha Leitura

Padrão 1: O teto de capacidade está subindo rápido, mas de forma desigual. Padrão 2: A diferença do open-source praticamente fechou. Padrão 3: O mercado de IA está se consolidando em torno de modelos de linguagem.

Para meu próprio fluxo de trabalho:

Migrei para auto mode no Claude Code dentro de containers Docker
Habilitei PR auto-fix em três repositórios ativos
Comecei a testar o GLM 5.1 via Coding Plan
Salvei nos favoritos o leaderboard do ARC AGI 3

Uma semana. Oito grandes desenvolvimentos. E estamos apenas três meses dentro de 2026.

Perguntas Frequentes

O que é o Claude Mythos e quando será lançado?

Claude Mythos é o modelo de IA de próxima geração da Anthropic, revelado acidentalmente através de um erro de configuração de CMS em março de 2026. Nenhuma data de lançamento foi anunciada.

Como o ARC AGI 3 difere de benchmarks de IA anteriores?

O ARC AGI 3 é o primeiro benchmark de raciocínio interativo. O melhor modelo de IA marcou 0,37% enquanto humanos alcançaram 100%.

O GLM 5.1 é open-source?

Ainda não é open-source, mas a Z.ai sinalizou um lançamento em breve. O GLM 4.7 está disponível no Hugging Face sob a Licença MIT.

O que aconteceu com o app Sora da OpenAI?

A OpenAI está encerrando o Sora. O app fecha em 26 de abril de 2026, com a API seguindo em 24 de setembro.

O que é o auto mode do Claude Code?

Usa um classificador de segurança de IA integrado para aprovar automaticamente ações de baixo risco enquanto bloqueia operações destrutivas. Disponível em planos Team.

Vamos Trabalhar Juntos

Fiverr (builds personalizados e integrações): fiverr.com/s/EgxYmWD
Portfólio: mejba.me
Ramlit Limited (soluções enterprise): ramlit.com
ColorPark (design e branding): colorpark.io
xCyberSecurity (serviços de segurança): xcybersecurity.io