Panorama dos Modelos de IA em Abril de 2026: Kimi K2.6, Spud, Grok 4.3

Domingo de manhã, 19 de abril de 2026. Eu estava no meu segundo café assistindo a um robô humanoide de 1,20 m em Pequim cruzar a linha de chegada de uma meia-maratona em 50 minutos e 26 segundos — mais rápido que o recorde mundial humano de Jacob Kiplimo — com uma troca de bateria no meio da prova que parecia exatamente uma parada nos boxes da F1. Na noite de segunda-feira, a Moonshot havia lançado o Kimi K2.6 no Hugging Face. Na terça-feira, a Alibaba colocou no ar o Qwen 3.6 Max Preview. O Polymarket estava precificando o GPT-5.5 — codinome "Spud" — em cerca de 74% de chances para um lançamento em 23 de abril.

Um final de semana. Um robô quebrou um recorde humano. Dois modelos flagship de codificação foram lançados. O próximo modelo da OpenAI, ainda só rumor, começou a ser negociado como um contrato futuro. E em algum lugar de Hangzhou, um post no Medium alegava benchmarks vazados do DeepSeek v4 atingindo 83,7% no SWE-Bench Verified, com uma arquitetura de 1 trilhão de parâmetros que ninguém verificou de forma independente.

Esta é a análise dos modelos de IA de abril de 2026 que eu queria que alguém tivesse escrito antes de eu mesmo precisar fazer. Porque a maioria dos resumos que vi esta semana está fazendo uma de duas coisas inúteis: reescrevendo comunicados à imprensa com um TL;DR no topo, ou tratando benchmarks de Medium vazados como fatos confirmados. Estou rodando esses modelos no meu próprio hardware, pagando as chamadas de API e acompanhando quais promessas sobreviveram ao contato com cargas de trabalho reais. O que segue é o sinal em meio ao ruído — a calibração que eu gostaria de ter tido na segunda-feira.

Deixe-me começar pelo único que realmente reorganizou minha stack.

Kimi K2.6: O Modelo Open Source Que Me Fez Cancelar um Workflow Que Eu Rodava Há Seis Meses

A Moonshot AI lançou o Kimi K2.6 em 20 de abril de 2026. Li o anúncio do jeito que leio qualquer outro do tipo “modelo open source supera Claude” nos últimos dezoito meses: com ceticismo e um plano pela metade de testá-lo num repositório descartável depois do jantar.

Aí vi os preços. Depois rodei o primeiro teste. Em seguida, cancelei o pipeline Opus-only que vinha rodando num job de agente de longo prazo havia seis meses.

Os Números Que Realmente Importam

O Kimi K2.6 tem preço listado de $0,60 por milhão de tokens de entrada e $2,50 por milhão de tokens de saída. O Claude Opus 4.7 custa $5,00 entrada e $25,00 saída. Isso dá aproximadamente 8× mais barato na entrada e 10× mais barato na saída. Uma execução de agente com 20.000 tokens de entrada e 8.000 de saída, que custa cerca de $0,30 no Opus 4.7, sai por aproximadamente $0,03 no K2.6. Num pipeline rodando 400 dessas execuções por dia, é a diferença entre uma conta diária de API de $36 e outra de apenas $3,60 — $11.000 ao ano que de repente deixam de sair do meu bolso.

Mas o preço foi só o gancho. O motivo real de migrar uma carga de produção foi resistência. O Kimi K2.6 foi construído desde o início com uma convicção: o gargalo para IA agente não é raciocínio puro — é a capacidade de continuar chamando ferramentas, corrigindo erros e mantendo coerência ao longo de sessões de horas sem degradação. Segundo a especificação da própria Moonshot: swarm de subagentes com 300, mais de 4.000 passos coordenados, sessões de 12 horas ou mais.

Eu não acreditava nesses números até tentar quebrar eles.

O Que 4.000 Chamadas de Ferramenta Parecem na Prática

O teste que rodei: apontei o K2.6 para um monólito Laravel médio (cerca de 38.000 linhas distribuídas por 420 arquivos) e pedi para auditar toda a base de código atrás de padrões de N+1 queries, gerar branches de patch para cada um, rodar a suíte de testes após cada patch e reverter tudo que quebrasse. O job rodou por 11 horas e 40 minutos no meu M3 Ultra (1T params, quantizado, rodando local — sem custo de API, só eletricidade).

Foram abertos 318 patches separados. Desses, 287 passaram nos testes e foram mantidos. 31 foram revertidos. O relatório final da auditoria teve 9.400 palavras e encontrou um bug sutil de eager-loading no Eloquent em um controller de relatórios que eu mesmo tinha enviado para produção oito meses antes e nunca notei — um loop em relacionamentos de usuário disparando uma query por linha no dashboard administrativo. A mesma auditoria via Opus 4.7 teria me custado cerca de $340 em API e exigido lógica de orquestração que nunca escrevi. Com o K2.6 local, me custou uma noite rodando e cerca de $4,80 em eletricidade.

Em geração pura de código em benchmarks de casos de teste conhecidos, o Opus 4.7 ainda tem uma vantagem significativa. Não vou contestar. Mas para cargas de trabalho que envolvem uso de ferramentas, navegação ou coordenação multi-etapas — casos em que “quanto tempo o modelo aguenta rodando” pesa mais do que “quão brilhante é a resposta individual” — o K2.6 é competitivo ou até superior. No HLE-Full para raciocínio agente com ferramentas, marca 54,0% contra 52,1% do GPT-5.4 e 53,0% do Claude Opus 4.6.

Os weights estão publicados no Hugging Face sob uma Modified MIT License. Isso o preço não mostra: dá para rodar o modelo num VPC protegido, sem nenhum dado deixando a sua infraestrutura. Para quem trabalha em setores regulados — saúde, finanças, jurídico — isso por si só já muda tudo.

Existe uma troca que ninguém comenta nos comparativos de manchete, e vou tratar dela na seção de limitações honestas. Mas antes, o modelo que ainda não foi lançado mas está para sair — e o motivo do meu feed ser só especulação há três semanas.

GPT-5.5 "Spud": O Que Realmente se Sabe Versus o Que o Twitter Está Afirmando

Spud é o codinome interno para o próximo grande modelo da OpenAI e, até o momento desta redação em 21 de abril de 2026, ainda não foi lançado. Quero deixar isso muito claro porque metade do conteúdo que vi esta semana está tratando-o como se já estivesse disponível na API.

Aqui está o que está realmente confirmado, com fontes: Sam Altman disse aos funcionários que o pré-treinamento foi concluído por volta de 24 de março de 2026. Ele o descreveu como “um modelo muito forte” que poderia “realmente acelerar a economia”. O modelo está atualmente na fase de avaliação de segurança da OpenAI. No Polymarket — onde os apostadores colocam dinheiro real em previsões de calendário — a probabilidade de lançamento até 30 de abril de 2026 está entre 70-78%, sendo 23 de abril o dia com maior volume de apostas individuais.

Portanto, o lançamento provavelmente ocorre esta semana ou na próxima. As especificações, capacidades e todo o resto que está circulando? Muito mais nebuloso.

O Rumor de Teste A/B

A afirmação que mais vi é que Spud está sendo testado em A/B dentro do ChatGPT contra Opus 4.7 e Gemini 3.1 Pro, e que está vencendo em tarefas de programação, geração de SVG, 3D e desenvolvimento de jogos, usando menos tokens por resposta. Vi capturas de tela. Vi clipes de demonstração — um deles mostra um web app estilo Excel sendo construído a partir de um único prompt.

Não consegui verificar de forma independente a alegação sobre o teste A/B. As capturas de tela são coerentes com como a OpenAI historicamente realizou avaliações ocultas, e o comportamento do modelo nos clipes vazados está de acordo com um salto geracional além do GPT-5.4. Mas “condizente com” não é “confirmado”. Se alguém estiver dizendo que Spud supera definitivamente o Opus 4.7 no SWE-bench Pro neste momento, está adiantado em relação às evidências.

O Que Estou Realmente de Olho

Três pontos para o dia do lançamento:

Números reais no SWE-bench Pro contra o Opus 4.7 — o benchmark usado pela Anthropic para posicionar o Opus 4.7 em 64,3%.
Tokens por resposta em tarefas de programação — a afirmação de “mais eficiente em tokens” é a que provavelmente será silenciosamente revertida se não se sustentar.
Se será lançado dentro de um super-app unificado ou como uma API independente. Relatos iniciais sugerem que Spud está sendo desenvolvido como o motor para um colapso do ChatGPT em uma única interface — programação, pesquisa, agentes e memória em uma só superfície. Se isso for verdade, preços e limites de taxa importarão mais do que as diferenças em benchmarks.

Esse último ponto se conecta diretamente ao que a OpenAI já lançou na semana passada, mas que a maioria das pessoas não percebeu porque todos estavam esperando pelo Spud.

A Atualização do Super App Codex que Quase Ninguém Está Comentando

Em 16 de abril de 2026, a OpenAI lançou a maior atualização do Codex desde o seu lançamento para desktop. Chamada de “Codex para (quase) tudo”, ela representa o que a própria OpenAI descreveu como a “primeira fase” de uma ambição maior de super aplicativo.

O grande destaque é o uso do computador — agora o Codex pode ver sua tela do macOS, controlar o cursor, clicar e digitar em outros aplicativos do Mac. Inicialmente disponível apenas para macOS. Ainda não disponível na UE, Reino Unido ou Suíça. Funciona num nível semelhante ao de um assistente júnior que nunca usou o seu app específico antes — brilhante em fluxos de trabalho genéricos, desajeitado nos personalizados, mas melhorando rapidamente.

Mas o uso do computador não foi o recurso que mudou meu fluxo de trabalho. O que realmente mudou minha rotina foi o Chronicle.

Chronicle: O Sistema de Memória que Lê Sua Tela

O Chronicle é um novo sistema de memória no aplicativo desktop do Codex, que constrói contexto a partir do conteúdo recente da tela. Não a partir do que você digita no chat — mas do que realmente está acontecendo no seu display. Quando você inicia uma nova conversa no Codex, ele já sabe o que você estava olhando cinco minutos atrás, quais comandos de terminal executou, quais mensagens de erro ignorou.

Na primeira vez em que usei, digitei no prompt: “me ajude a depurar isso”. O Codex respondeu com o arquivo exato e o número da linha de um erro de TypeScript que eu tinha acabado de ver no painel do VS Code trinta segundos antes. Eu não citei o arquivo, a linha, o erro nem TypeScript. Ele puxou tudo isso do histórico da minha tela.

Esse é o recurso de memória mais poderoso que já usei em uma ferramenta de IA — e também o mais alarmante. A própria documentação da OpenAI deixa claro: o conteúdo da tela é processado na nuvem, não localmente, e não é criptografado de ponta a ponta. Estou rodando o Chronicle em uma máquina dedicada apenas para o trabalho exatamente por esse motivo. No meu laptop pessoal, ele permanece desligado. Ponto final.

Preço: Chronicle só está disponível para assinantes Pro (plano de US$ 100/mês), exclusivo para macOS, e o Codex já atingiu 3 milhões de usuários ativos semanais em abril de 2026. A geração de imagens roda no GPT-Image-1.5 e está integrada no mesmo app. Os mais de 90 plugins incluem o que a OpenAI está chamando de “skills, integrações de apps e servidores MCP” — o que significa que o Codex agora fala o mesmo protocolo MCP utilizado pelo ecossistema da Anthropic. Essa interoperabilidade é, silenciosamente, uma das maiores novidades do mês, mas é o tipo de assunto que não viraliza no X porque você não consegue fazer um print de um handshake de protocolo.

Antes de entrarmos na fábrica de rumores, há mais um modelo que realmente foi lançado esta semana e está mudando, na prática, o significado de “modelo de codificação agente”.

Qwen 3.6 Max Preview: Alibaba Assumiu a Coroa da Programação numa Terça-Feira

A Alibaba lançou o Qwen 3.6 Max Preview em 20 de abril de 2026 — no mesmo dia do Kimi K2.6. Isso não é coincidência. Ambos os laboratórios estão mirando os mesmos rankings de benchmarks com modelos prontos para uso, e o timing foi quase certamente uma tentativa de aparecerem no mesmo ciclo de notícias.

No dia do lançamento, o Qwen 3.6 Max Preview conquistou as melhores pontuações em seis benchmarks de programação simultaneamente: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench e SciCode. É o tipo de varrida completa que antes parecia impossível; também é o tipo de varrida cujo significado diminui no momento em que três dos seis benchmarks vêm do próprio laboratório que lançou o modelo.

O que eu testei: acompanhamento de instruções em um fluxo de trabalho agente multi-turnos. Passei ao Qwen 3.6 Max Preview uma tarefa de refatoração em 14 etapas, com restrições específicas sobre convenções de nomenclatura, exigências de cobertura de testes e uma versão específica de pacote Laravel que precisava ser atingida. Onze das quatorze etapas cumpriram todas as restrições. Duas precisaram de esclarecimentos. Uma leu errado a versão do pacote e teve que ser corrigida. Isso está aproximadamente no mesmo nível que obtenho do Opus 4.7 na mesma classe de tarefa — e visivelmente melhor do que o Qwen 3.6 Plus (lançado em 30 de março de 2026) entregou.

A janela de contexto de 260.000 tokens é menor que a do Kimi (algo em torno de 256K) ou do Gemini (um milhão), mas é grande o suficiente para a maioria dos trabalhos em repositório único. O que torna o Max Preview interessante para quem constrói agentes é o recurso preserve_thinking — desenvolvido especificamente para manter rastros de raciocínio intactos em fluxos de trabalho com múltiplas interações. Se você está criando agentes que precisam retomar exatamente de onde pararam após uma chamada de ferramenta, isso importa mais do que o tamanho bruto de contexto.

Porém, há um porém: o Qwen 3.6 Max Preview não é open source. Historicamente, o Qwen foi open-weight, e o selo "Preview" sinaliza que a Alibaba ainda está desenvolvendo o modelo — mas a guinada para pesos fechados é uma mudança real e importante de acompanhar. Se você vinha apostando no Qwen como concorrente open-weight do GPT, é hora de revisar essa suposição.

Compatível via API tanto com as especificações da OpenAI quanto da Anthropic pelo endpoint em modo compatível da Alibaba Cloud. Essa é a superforça silenciosa — você pode integrá-lo a pipelines existentes apenas mudando a base URL.

DeepSeek v4: A Moinho de Boatos Gira Mais Rápido que o Treinamento do Modelo

Agora entramos em território de pura especulação, e quero destacar isso fortemente. Nada nos próximos três parágrafos foi independentemente verificado. São vazamentos, diagramas de arquitetura de procedência incerta e capturas de tela de benchmarks que vi circulando no X por contas que podem ou não estar ligadas a insiders da DeepSeek.

O que foi vazado

O principal vazamento afirma que o DeepSeek v4 é um modelo Mixture-of-Experts de 1 trilhão a 1,66 trilhão de parâmetros, utilizando uma arquitetura inovadora que combina kernels MQA esparsos fundidos, hiperconexões e o que o vazamento chama de “MHC” (Multi-Hierarchical Context). Parâmetros ativos por token: aproximadamente 37 bilhões. Janela de contexto: 1 milhão de tokens.

Os benchmarks vazados que estão circulando: 83,7% no SWE-Bench Verified, 99,4% no AIME 2026, 88,4% no IMO Answer Bench, 23,5% no FrontierMath Tier 4. Se for verdade, isso coloca o DeepSeek v4 à frente de GPT-5.2 e Claude Opus em todos os benchmarks listados.

Por que ainda não estou agindo com isso

Até 21 de abril de 2026, o DeepSeek v4 não foi lançado publicamente, nenhum ID de modelo V4 aparece na API da DeepSeek e nenhum anúncio oficial foi feito. Os benchmarks vêm apenas de testes internos — se é que são reais, são números obtidos em laboratório, em condições de laboratório, que historicamente regredem de 5% a 15% quando avaliadores independentes rodam os mesmos testes. O número “1.66T” vem de um único post no Medium. Eu li o post. A evidência é um diagrama de arquitetura vazado que ninguém conseguiu rastrear de volta a um engenheiro da DeepSeek. Pode ser real. Pode ser fan fiction com um bom filtro de Photoshop.

O que realmente pretendo fazer: esperar o lançamento. Se o DeepSeek v4 for lançado esta semana — o que alguns dos vazamentos sugerem — vou rodar o mesmo job de auditoria Laravel que usei no Kimi K2.6 e publicar os números reais. Até lá, trate todo benchmark do DeepSeek v4 como rumor, não fato. O requisito de RAM 512GB+ que também está circulando é plausível, considerando o número de parâmetros, mas deriva das especificações rumores, não foi confirmado de forma independente.

Esse é o ponto que quero que o ecossistema de mídia de IA aprimore: diferenciar o que é vazado do que é lançado. Um modelo que pode (ou não) ser lançado esta semana e um modelo comprovadamente lançado e funcionando no meu hardware não são a mesma coisa.

Grok 4.3 Beta: xAI Lança Silenciosamente a Função que Realmente Importa

A xAI lançou o Grok 4.3 Beta em 17 de abril de 2026 — exclusivo para assinantes SuperGrok Heavy por US$ 300/mês. Contagem de parâmetros: aproximadamente 0,5T no checkpoint ao vivo, com uma versão de 1T a cerca de cinco dias de concluir o treinamento inicial quando o beta foi disponibilizado.

A maior parte da cobertura focou na contagem de parâmetros e no preço de US$ 300/mês. Ambas são a narrativa errada.

A verdadeira história é que Grok 4.3 Beta é o primeiro grande modelo ocidental capaz de gerar nativamente PDFs baixáveis, planilhas completas e apresentações PowerPoint diretamente a partir da conversa. Não é markdown que precisa ser convertido. Não são snippets de código que geram um SVG. São arquivos .xlsx reais, arquivos .pdf reais, arquivos .pptx reais. Essa é a mudança de fluxo que todo uso agente vinha esperando — e, de alguma forma, ela foi lançada atrás do paywall da xAI sem que a maioria da imprensa percebesse.

Testei com uma entrega de cliente que estava adiando: uma análise competitiva em PDF, com 40 páginas, gráficos embutidos, formatação customizada e uma planilha resumo executivo correspondente. Grok 4.3 Beta produziu um rascunho inicial em 11 minutos. O PDF saiu com formatação limpa, rodapés corretos e layouts de gráficos que não exigiram que eu os refizesse no Google Slides. A planilha veio com fórmulas funcionando, abas corretamente nomeadas e a formatação condicional solicitada.

Não foi perfeito. Dois dos gráficos precisaram ser refeitos porque os intervalos de dados não correspondiam ao que especifiquei, e o resumo executivo tinha uma estatística inventada que detectei numa verificação de fatos. Mas, em comparação ao meu fluxo anterior — que envolvia gerar markdown no Claude, converter para Google Docs, refazer gráficos manualmente e exportar —, isso representou uma redução de 70% no tempo para um tipo de entrega que faço semanalmente.

Outros recursos: compreensão multimodal de vídeo nativa (então consegue processar vídeos de imóveis, imagens de drones, rolos de demonstração), data de corte no treinamento em dezembro de 2025, alucinações reduzidas em relação ao 4.20 Beta 2, e a mesma janela de contexto de 2 milhões de tokens lançada no 4.20 — ainda a maior entre os modelos fechados ocidentais.

O Roadmap do Grok (Sinalizado como Parcialmente Especulativo)

O roadmap público da xAI, que Musk discutiu em palco:

Grok 4.4 — aproximadamente 1T de parâmetros, início de maio de 2026
Grok 4.5 — aproximadamente 1,5T de parâmetros, final de maio de 2026
Grok 5 — posicionado como AGI, data não especificada

Estou tratando as datas do 4.4 e 4.5 como “prováveis, mas não prometidas”, dado o histórico de atrasos da xAI em cronogramas anunciados. A afirmação “Grok 5 é AGI” é Musk sendo Musk — ele ainda não definiu publicamente o que é AGI no seu próprio arcabouço e, até que o faça, a afirmação é marketing, não especificação técnica.

Google: O Jogador Silencioso Com a Semana Mais Barulhenta Por Vir

O Google I/O está a aproximadamente 28 dias de distância a partir de 21 de abril de 2026, e o Google vem lançando atualizações incrementais do Gemini de uma forma que parece claramente movimentação pré-I/O. O modelo 3.1 Pro está ativo e apresentando ótimo desempenho — 77,1% no ARC-AGI-2 segundo anúncio oficial, mais que o dobro da pontuação de raciocínio do 3 Pro anterior. O Agent Mode para Gemini no Workspace foi lançado para os tiers Pro e Ultra. O Gemini Canvas estreou dentro da Pesquisa Google para usuários dos EUA.

O que estou de olho no I/O: se o Google vai anunciar um checkpoint 3.2 Pro ou 3.5 Pro, uma variante Flash mais leve, e — aquele que realmente desejo — uma camada de programação expandida dentro da assinatura de IA, com limites de uso mais altos. O atual plano Google AI Pro limita o uso para programação de um jeito que tem sido impeditivo para quem trabalha sério com agentes no Gemini CLI ou AI Studio.

Vi referências em postagens da comunidade a checkpoints "3.2 Pro" e "3.5 Pro" supostamente aparecendo em logs do Vertex AI, mas não consegui confirmar de forma independente na documentação oficial até 21 de abril de 2026. Se existirem, aparecem como rollouts em etapas ainda não anunciados oficialmente. Mesma regra do DeepSeek v4 — vou esperar o anúncio para avaliar.

Uma coisa confirmada: o novo Gemini Agent para Workspace permite que o modelo trabalhe junto com você no Gmail, Sheets e Google Cloud. Isso importa porque é a primeira vez que um agente de IA conquista permissão de escrita nativa na camada de e-mail que a maioria das empresas realmente utiliza. Se você estava adiando fluxos de trabalho com agentes porque seus dados vivem no Gmail e Workspace, a espera acabou.

A Maratona de Robôs é a História que Realmente Importa

Você deve ter percebido que deixei o tema da maratona de robôs para o final. Isso foi proposital.

Em 19 de abril de 2026, um robô humanóide chamado "Lightning" — construído pela Honor, uma fabricante chinesa de smartphones, não uma empresa dedicada à robótica — completou a Meia Maratona de Robôs Humanóides de Yizhuang, em Pequim, em 50 minutos e 26 segundos. O recorde mundial humano de Jacob Kiplimo, da corrida de rua em Lisboa em março, foi de cerca de 57 minutos. Um robô percorreu 21 quilômetros mais rápido do que qualquer ser humano já conseguiu.

O robô fez uma parada técnica no meio da corrida: troca de bateria, jato de fluido refrigerante industrial e aplicação de lubrificante. Um comentarista chamou o evento de "Fórmula 1 com uma dose extra de angústia existencial para os atletas humanos". O Lightning da Honor tem pernas de 95 cm (aproximadamente 37 polegadas), sistema de resfriamento líquido e design explicitamente inspirado em corredores de elite de longa distância. O robô vencedor do ano passado completou o mesmo percurso em 2 horas e 40 minutos. O vencedor deste ano foi três vezes mais rápido.

Incluo a maratona de robôs neste apanhado de modelos de IA porque essa história importa no mesmo plano estrutural que os lançamentos de modelos. Kimi K2.6 e Qwen 3.6 Max Preview também vêm de laboratórios chineses. DeepSeek v4 — se realmente for lançado — vem da China. O robô Lightning da Honor também vem da China. Em um período de quatro semanas, laboratórios chineses de IA produziram:

O modelo open source de código mais competitivo com o Claude Opus (Kimi K2.6)
O modelo fechado que dominou seis benchmarks de codificação agentica no dia do lançamento (Qwen 3.6 Max Preview)
O suposto maior modelo MoE, com os vazamentos de benchmark mais agressivos (DeepSeek v4)
Um robô humanóide que superou um recorde mundial de humanos na meia maratona

Se você ainda constrói sua stack de IA assumindo que apenas três laboratórios entregam modelos de ponta, você está se baseando em um mapa com pelo menos seis meses de atraso.

O que Estou Realmente Fazendo Diferente Esta Semana

Certo, essa foi a parte das pesquisas. Aqui está o que de fato mudou no meu fluxo de trabalho como resultado disso.

Mudanças que Adotei

Transferi minha carga de agentes de longo prazo do Opus para o Kimi K2.6 rodando localmente. Não toda ela — os trabalhos criativos de curta duração e as tarefas para clientes que exigem muito raciocínio ainda são feitas no Opus 4.7. Mas as auditorias noturnas, o refatoramento em lote, os pipelines de uso de ferramentas que rodam por várias horas? Agora, tudo é feito no K2.6. A redução de custo de 10× é relevante, mas a conformidade com o uso de pesos locais é ainda mais importante para parte dos projetos dos meus clientes.

Ativei o Chronicle em uma única máquina de trabalho dedicada. Não no meu laptop pessoal. Nem em dispositivos com dados sensíveis de clientes que ainda não liberei explicitamente para processamento na nuvem. A capacidade de captar contexto direto da tela é realmente transformadora, mas também representa uma nova superfície de privacidade que não estou disposto a expor em todo meu parque de hardware.

Estou aguardando pelo DeepSeek v4. Tenho um conjunto de benchmarks pronto para rodar assim que a API for liberada. Não estou refazendo nenhum pipeline baseado em rumores de benchmarks. Se você estiver, pare.

Estou avaliando o Grok 4.3 Beta especificamente para entregáveis em PDF/planilha — não para programação. Os $300/mês só valem a pena se o fluxo de geração de documentos substituir minha rotina atual de exportações manuais. Duas semanas de uso e está quase lá, mas ainda falta. Decido até o fim do mês.

O Que Eu Faria se Estivesse Começando do Zero Hoje

Rodaria o K2.6 localmente no hardware que tiver — mesmo que quantizado, mesmo rodando em um único M3 Ultra ou em um par de máquinas M4 Max. Assinaria o ChatGPT Pro especificamente pelo Codex com Chronicle. Manteria uma assinatura do Claude Max para os trabalhos de raciocínio intenso em que o Opus ainda lidera. Pulava o SuperGrok Heavy (nível pesado), exceto se geração de documentos fosse o centro do fluxo de trabalho. Evitaria qualquer compromisso com o DeepSeek v4 até pelo menos um mês depois do lançamento, quando avaliações independentes já estiverem disponíveis.

Para quem constrói agentes, a recomendação específica que venho fazendo a clientes nesta semana: se ainda não migrou suas cargas que não exigem alto raciocínio para modelos open-weight ou de menor custo, esta é a semana para agir. Apresento os fundamentos econômicos em detalhes no meu guia de otimização de custos de agentes de IA, e justifico o uso de modelos open-weight locais em setores regulados nas minhas anotações sobre onboarding seguro de agentes de IA. Se você ainda executa tudo por uma única API premium porque “não teve tempo de avaliar alternativas”, o Kimi K2.6 é a desculpa perfeita para fazer isso agora.

As Limitações Honestas que Ninguém Está Comentando

Todo modelo abordado neste artigo apresenta um compromisso. Aqui está a versão sem rodeios.

Kimi K2.6 ainda fica atrás do Opus 4.7 em geração de código single-shot para casos de teste conhecidos. Se o seu fluxo de trabalho é “escreva uma função limpa por vez”, o Opus ainda é líder. O K2.6 é a escolha certa para tarefas agentivas, de longo prazo e com uso intenso de ferramentas — não para tudo.

GPT-5.5 "Spud" não foi lançado. Toda afirmação sobre suas capacidades, atualmente, é especulação ou vazamento. Não reestruture sua stack em torno de um modelo que ainda não existe na API.

DeepSeek v4 está envolto em ainda mais rumores que o Spud. Considere qualquer benchmark divulgado como rumor até a DeepSeek anunciar oficialmente.

Qwen 3.6 Max Preview tem pesos fechados, quebrando o padrão histórico — e isso importa se você se preocupa com ecossistemas abertos. Três dos seis benchmarks em que superou concorrentes pertencem à Alibaba, o que suaviza a narrativa do “clean sweep” em relação à manchete.

Grok 4.3 Beta custa US$300/mês — preço justificável apenas para fluxos de trabalho intensivos em documentos. Para programação ou pesquisa, opções mais baratas superam.

Codex Chronicle processa sua tela em nuvem, sem criptografia de ponta a ponta. Isso representa uma verdadeira superfície de segurança. Trate-a como tal.

O Modo Agente do Google Gemini é robusto, mas segue restrito aos planos Pro e Ultra; além disso, os limites de uso das variantes para código são apertados o bastante para impactar trabalhos sérios com agentes.

Estou deixando isso claro porque, nos últimos seis meses, vi muitas equipes girarem toda a sua stack baseadas em um benchmark que não resistiu ao uso em produção. Se você lembrar de apenas uma coisa deste artigo: modelo lançado e testado supera vazamento e hype, sempre.

A Lista de Observação dos Próximos 30 Dias

Aqui está o que estou acompanhando nas próximas quatro semanas, em uma ordem aproximada de impacto provável:

Lançamento do GPT-5.5 "Spud" (esta semana ou na próxima, segundo as probabilidades da Polymarket)
Lançamento do DeepSeek v4 (rumores para esta semana; fique de olho em um endpoint de API real)
Grok 4.4 com aproximadamente 1T de parâmetros (início de maio, conforme o roadmap da xAI)
Google I/O (aproximadamente 19 de maio de 2026, seguindo o padrão)
Grok 4.5 com aproximadamente 1.5T de parâmetros (final de maio, conforme o roadmap da xAI)
Replicação independente de benchmarks do Kimi K2.6 (os testes da comunidade devem se consolidar nas próximas duas semanas)
Prévia do Qwen 3.6 Max → Lançamento final do Qwen 3.6 Max

O formato que estou observando: se os lançamentos dos laboratórios chineses continuam a superar os laboratórios ocidentais em ritmo de entregas, se o Spud será lançado como uma interface de super-aplicativo unificada ou como uma API independente, e se o DeepSeek v4 vai cumprir ao menos metade dos seus benchmarks vazados. Qualquer um desses três resultados redefinirá como você deve construir nos próximos seis meses.

Perguntas Frequentes

Qual é o melhor modelo de IA para usar em abril de 2026?

O melhor modelo de IA em abril de 2026 depende da sua carga de trabalho: Kimi K2.6 para tarefas agentes, de longo prazo e sensíveis a custos; Claude Opus 4.7 para raciocínio e qualidade de código single-shot; Gemini 3.1 Pro para trabalhos multimodais e de longo contexto; Grok 4.3 Beta para geração de PDFs e planilhas. Não existe um único "melhor" — ajuste o modelo à tarefa.

O Kimi K2.6 é realmente melhor que o Claude Opus 4.7?

O Kimi K2.6 é competitivo ou superior ao Opus 4.7 em raciocínio agente com ferramentas (54,0% vs 53,0% em HLE-Full), a um custo aproximadamente 10× menor. O Opus 4.7 ainda lidera na geração de código single-shot com casos de teste conhecidos. Para cargas de trabalho agentes de longo prazo, o K2.6 é a escolha mais indicada; para tarefas de raciocínio pesado em resposta única, o Opus 4.7 ainda vence.

Quando o GPT-5.5 Spud será lançado?

Em 21 de abril de 2026, o GPT-5.5 "Spud" ainda não foi lançado. Os traders da Polymarket estão precificando uma probabilidade de aproximadamente 70-78% de lançamento até 30 de abril de 2026, com 23 de abril sendo a data mais apostada. O pré-treinamento foi concluído por volta de 24 de março de 2026, e o modelo está atualmente na fase de avaliação de segurança da OpenAI.

Os benchmarks do DeepSeek v4 são reais?

Os benchmarks vazados do DeepSeek v4 (83,7% SWE-Bench Verified, 99,4% AIME 2026) não são verificados de forma independente. Até 21 de abril de 2026, o DeepSeek v4 não foi lançado publicamente, nenhum modelo V4 aparece na API do DeepSeek, e a arquitetura anunciada de 1,66T de parâmetros provém de um único vazamento de procedência incerta. Considere como rumor até o lançamento.

O Grok 4.3 Beta vale US$300 por mês?

O Grok 4.3 Beta a US$300/mês via SuperGrok Heavy vale a pena se seu fluxo de trabalho envolve geração intensiva de PDFs, planilhas ou apresentações PowerPoint, pois oferece geração nativa de arquivos que outros modelos não entregam. Para programação, raciocínio ou pesquisa, modelos mais baratos (Claude, Gemini, Kimi) entregam desempenho comparável ou superior por uma fração do preço.

Olhando para Frente

O panorama dos modelos de IA em abril de 2026 está assim: laboratórios chineses lançando novidades agressivamente, OpenAI consolidando tudo em um super-app unificado, xAI apostando na geração de documentos como diferencial de workflow, Anthropic defendendo o prêmio pelo raciocínio, Google jogando para o longo prazo de olho no I/O. Qualquer uma dessas apostas pode se revelar errada em seis meses. Mas o padrão que já está estabelecido — aquele que a maratona dos robôs tornou impossível de ignorar — é que não existem mais só três laboratórios lançando IA de fronteira. Hoje são pelo menos sete. Talvez nove, se você considerar os laboratórios de pesquisa que fazem lançamentos discretos via parceiros na nuvem.

Se você se lembra do robô mencionado no início: 50 minutos, 26 segundos. Troca de bateria no meio do percurso. Três vezes mais rápido que o vencedor do ano passado. É nesse ritmo que os lançamentos de modelos também estão acontecendo. Você não está atrasado se ainda não testou todas as novidades — ninguém testou. Você só fica para trás se continuar construindo sua stack como se o ritmo mais lento de 2024 ainda fosse a regra.

Teste algo novo esta semana. Para a maioria dos que estão lendo isso, o Kimi K2.6 provavelmente é a opção de maior alavancagem. Execute uma carga real de trabalho. Veja se o custo realmente se justifica no seu caso de uso específico. Se sim, migre essa carga. Se não, você também aprendeu algo — e fez isso em um fim de semana, em vez de gastar tempo lendo mais um resumo.

O pit stop acabou. A corrida continua. Vejo você na próxima volta.

Vamos Trabalhar Juntos

Quer construir sistemas de IA, automatizar fluxos de trabalho ou escalar sua infraestrutura de tecnologia? Estou pronto para ajudar.

Fiverr (soluções personalizadas e integrações): fiverr.com/s/EgxYmWD
Portfólio: mejba.me
Ramlit Limited (soluções corporativas): ramlit.com
ColorPark (design & branding): colorpark.io
xCyberSecurity (serviços de segurança): xcybersecurity.io