Ponto de inflexão da IA em maio de 2026: em que eu apostaria agora

Eu tinha o artigo escrito pela metade quando aconteceu terça-feira.

Era para ser uma prévia calma. As variantes do teste AB Gemini 3.x vazando através do aplicativo iOS. Alguns rumores sobre um modelo de vídeo Omni. Antecipação pré-apresentação padrão. Tomei meu café, minhas anotações, meu esboço. E então, em 5 de maio de 2026 – a mesma terça-feira – três empresas dispararam três armas carregadas em aproximadamente seis horas.

Uma startup de Miami chamada Subquadratic saiu do sigilo com uma janela de contexto de 12 milhões de tokens e uma alegação de que sua arquitetura usa menos de 5% da computação Claude Opus queima. OpenAI trocou silenciosamente o cérebro padrão do ChatGPT por um novo modelo que alucina 52,5% menos em questões médicas, jurídicas e financeiras. Anthropic enviou dez agentes financeiros Claude prontos para produção e uma integração completa com o Microsoft 365. A Perplexity lançou um agente financeiro concorrente no mesmo dia com 35 fluxos de trabalho pré-construídos e feeds de dados ao vivo da Morningstar, PitchBook, Daloopa e Carbon Arc.

Eu descartei o esboço.

O que você está prestes a ler é como realmente seria maio de 2026 quatorze dias antes de Google I/O - não como um resumo de comunicados à imprensa, mas como um relatório de campo de alguém que estava implantando a produção AI para clientes pagantes reais enquanto tudo isso estava chegando. Alguns desses anúncios irão remodelar a maneira como eu construo nos próximos doze meses. Alguns deles são ruídos disfarçados de notícias. E um deles – aquele sobre o qual ninguém gritou no Twitter – é, na minha leitura, o momento AI mais importante de 2026 até agora. Não é o que você pensa.

Deixe-me explicar em que estou apostando, o que estou evitando e o que todo desenvolvedor que estiver lendo isso deve fazer esta semana antes que I/O embaralhe o baralho novamente.

Por que esta terça-feira em particular é importante

Tenho escrito sobre resumos semanais do AI há dois anos. A maioria das semanas se confunde. Um novo modelo. Uma mudança de preço. Uma queda de recurso. Eles pousam, ganham manchete, você continua trabalhando.

Esta terça-feira foi diferente de uma forma que levei um dia para processar totalmente.

O que aconteceu no dia 5 de maio não foram três lançamentos de produtos. Foram três apostas arquitetônicas convergindo na mesma semana, quatro dias após o encerramento do Google, o Projeto Mariner - seu projeto de pesquisa de agente de navegador de longa duração - e incorporou a tecnologia no assistente pessoal do agente Gemini dentro do aplicativo Gemini. Aquele pôr do sol não foi uma nota de rodapé. Ele sinalizou que Google está se reposicionando à frente de I/O, longe dos “agentes de navegador experimentais” e em direção ao “agente 24/7 que mora onde você mora”. Duas semanas antes da palestra.

Então agora diminua o zoom. Em uma semana:

O piso de computação mudou. A arquitetura de atenção escassa subquadrática do SubQ publicou números de referência que - se persistirem sob revisão independente - derrubam a suposição de que a inteligência de fronteira requer computação de fronteira. - O modelo ChatGPT padrão ficou mais inteligente nas coisas que mais importam. GPT-5.5 A redução de alucinação de 52,5% do Instant em domínios de alto risco é o tipo de nota de lançamento que OpenAI usou para economizar para lançamentos completos. - A guerra AI de serviços financeiros esquentou. Anthropic e Perplexity abandonaram suítes de agentes de analistas financeiros concorrentes no mesmo dia, ambos visando exatamente os fluxos de trabalho de analistas juniores que empregaram exércitos de MBAs por décadas. - Google liberou a pista. Projeto Mariner descontinuado.

Modelo Omni vazou no Gemini UI. Palestra I/O 2026 em 19 de maio com uma revelação de modelo quase universalmente esperada.

Reconstruí meu modelo mental do campo três vezes em quatorze dias. Se você estiver executando o AI de produção agora, você também deveria. Deixe-me começar com o anúncio que considero mais importante – e que quase ninguém trata como manchete.

Subquadrática e a questão dos 12 milhões de tokens

O lançamento do Subquadratic foi enterrado no ciclo de notícias GPT-5.5. Isso é um erro.

Aqui está a versão curta. Uma startup com sede em Miami chamada Subquadratic saiu do sigilo em 5 de maio com US$ 29 milhões em financiamento inicial, um modelo de fronteira chamado SubQ e uma janela de contexto de 12 milhões de tokens construída sobre o que eles chamam de Subquadratic Sparse Attention (SSA). De acordo com seu blog técnico, o SSA atinge uma aceleração de pré-preenchimento de 7,2x em relação à atenção densa em 128.000 tokens, aumentando para 52,2x em 1 milhão de tokens, e no contexto completo de 12 milhões de tokens, o modelo usa menos de 5% da computação de sistemas de fronteira comparáveis — o que eles descrevem como uma redução de quase 1.000x.

Leia esses números lentamente. Então releia-os.

A suposição dominante desde o GPT-3 tem sido que os custos de escala calculam e calculam os custos do dinheiro e o dinheiro controla a inteligência. Cada lançamento de modelo de fronteira dos últimos três anos reforçou esse muro. Opus 4.6 é excelente e caro. Gemini 3 Pro é excelente e caro. GPT-5 é excelente e caro. Os níveis de preços sobre os quais estamos discutindo têm como escopo esse piso de computação.

Se as reivindicações da SSA sobreviverem à verificação de terceiros, esse piso será alterado.

Os benchmarks que postaram não são modestos. Em RULER em 128K, SubQ pontua 97,1 contra 94,8 do Opus 4.6. No SWE-Bench Verified, o SubQ reporta 82,4% versus 81,4% do Opus 4.6 e 80,6% do Gemini 3.1 Pro. Especificamente em avaliações de longo contexto, os tipos de tarefas em que a maioria dos modelos desmorona após 200 mil tokens, SubQ aparentemente se mantém em 12 milhões.

Eu quero ter cuidado. A leitura honesta é mais cautelosa do que a manchete.

O campo do ceticismo não está errado. A Subquadratic ainda não possui um documento técnico público detalhando a arquitetura com profundidade suficiente para reproduzi-la. Os números de referência são auto-relatados. As alegações de complexidade não foram verificadas de forma independente. Todos nós já vimos esse padrão antes: um laboratório publica números mágicos, a comunidade administra o conjunto de avaliações, a magia diminui.

Então, por que estou iniciando o artigo com isso em vez de GPT-5.5 ou dos agentes financeiros? Porque a direção da aposta é mais importante do que a precisão exata dos números de lançamento.

Os observadores do sector financeiro não são os únicos que deveriam prestar atenção aqui. Se a atenção subquadrática funcionar em escala de fronteira – mesmo com metade da eficiência que afirmam – isso muda o que é possível colocar em uma janela de contexto para aplicações normais. Um contexto de 12M não é um contexto de 1M um pouco maior. É toda a base de código de um produto SaaS de médio porte, em um único prompt, com custos de computação que se parecem mais com um modelo Flash atual do que com um modelo Opus atual. Essa é uma categoria diferente de ferramenta.

Estou executando meu primeiro teste de produção do SubQ esta semana. Não me comprometerei com nada até ter meus próprios números em meus próprios dados. Mas também não estou apostando contra a inovação arquitetônica que apresenta resultados tão agressivos em um conjunto de benchmarks tão competitivo. Já estive errado sobre essa aposta muitas vezes antes.

Se você estiver implantando o AI de produção em maio de 2026, aqui está a medida prática: não migre ainda, mas arquiteto para um mundo onde os preços da janela de contexto entram em colapso. Pare de otimizar estratégias de agrupamento de 200 mil tokens que presumem que o limite será mantido. Crie pipelines de recuperação que possam aumentar de forma elástica se os próximos doze meses transformarem a camada de contexto 1M na nova camada Flash. (Para obter o manual prático sobre como gerenciar sessões de 1 milhão de tokens hoje, consulte minhas notas de gerenciamento de contexto de 1 milhão Claude Code - a mesma escala de padrões.) As decisões de ferramentas que você tomar agora parecerão muito diferentes se a aposta SSA compensar.

GPT-5.5 Instant e o switch padrão silencioso

Enquanto SubQ colocava o pesquisador do Twitter em uma briga, OpenAI estava fazendo um tipo diferente de movimento – mais silencioso e mais empresarial.

Em 5 de maio, OpenAI lançou o GPT-5.5 Instant como o novo modelo padrão para ChatGPT, substituindo o GPT-5.3 Instant que era padrão desde o início deste ano. Os números da manchete na postagem de lançamento da empresa:

52,5% menos alucinações em solicitações médicas, jurídicas e financeiras de alto risco em avaliações internas
37,3% menos reivindicações imprecisas em um conjunto separado de avisos que os usuários sinalizaram anteriormente por erros factuais
Pontuação do HealthBench de 51,4 em 100, acima de 49,6 (GPT-5.3 Instant)
HealthBench Professional (clínico) em 38,4, acima de 32,9
AIME 2025 em 81,2, versus 65,4 para GPT-5.3
MMMU-Pro em 76,0, versus 69,2

Se você passar por esses números, perderá a história real.

A história não é que o modelo melhorou. Os modelos ficam melhores. A história é em quais eixos ficou melhor. OpenAI otimizou o GPT-5.5 Instant explicitamente para as coisas que importam legal e financeiramente: médicas, jurídicas, financeiras. O modelo que milhões de pessoas atingirão por padrão ao abrir o ChatGPT agora é significativamente mais confiável nas questões em que estar errado tem consequências reais.

Esta é uma escolha estratégica e não um acidente técnico. E segue o padrão mais amplo de 5 de maio. Tanto OpenAI quanto Anthropic – exatamente na mesma terça-feira – apontaram seus lançamentos de maior alavancagem para domínios profissionais de alto risco.

Aqui está o que isso significa na prática para mim.

Tenho testado o GPT-5.5 Instant nos tipos de tarefas que normalmente encaminho para a Opus por razões de segurança – revisão de contratos legais para trabalho do cliente, análise financeira para auditorias de preços de SaaS, pesquisa médica básica adjacente onde estou explicitamente tentando evitar o modelo inventando algo. O sinal inicial é real. Não é a qualidade do modo Opus-on-research. Mas para respostas rápidas de nível padrão nesses domínios, a queda na taxa de alucinação é perceptível de uma forma que o GPT-5.3 não era.

Os usuários pagos mantêm acesso ao GPT-5.3 Instant pelos próximos três meses, caso o novo padrão se comporte de maneira diferente para seus fluxos de trabalho específicos. Esse detalhe é importante. OpenAI está sinalizando que espera que alguns usuários sintam a mudança como uma regressão – provavelmente porque o GPT-5.5 Instant troca certos comportamentos estilísticos por ganhos de precisão. Se você tiver um andaime imediato ajustado às peculiaridades do GPT-5.3, audite-o antes que a janela de três meses feche.

A implicação pouco discutida: trata-se de OpenAI admitindo silenciosamente que o modelo padrão é mais importante do que o carro-chefe. A maioria dos usuários do ChatGPT nunca optará pelo nível mais caro. O modelo que responde à maioria das perguntas AI do mundo é o padrão. Otimizá-lo para obter precisão de alto risco é uma alavanca de impacto social muito maior do que outro décimo de por cento no AIME.

Mantenho minha assinatura do Opus devido ao raciocínio de longo contexto e às integrações de agentes que construí em torno de Claude Code. Mas para uma parte significativa das minhas perguntas únicas, especialmente aquelas em que eu teria verificado anteriormente a resposta em uma segunda ferramenta, GPT-5.5 Instant é agora a chamada que faço primeiro. Isso não é verdade desde o GPT-4.

A queda do agente financeiro Anthropic - e por que o Microsoft 365 é a verdadeira história

O anúncio de Anthropic de 5 de maio foi o mais denso da semana, e a parte que obteve maior cobertura – os dez modelos de agentes financeiros – não foi a parte mais importante.

Deixe-me abordar primeiro os modelos, porque eles são reais. Anthropic lançou dez modelos de agentes prontos para execução para serviços financeiros, divididos em duas categorias:

Pesquisa e Cobertura de Clientes (5 agentes):

Construtor de campo
Preparador de reuniões
Revisor de ganhos
Construtor de modelo
Pesquisador de mercado

Finanças e Operações (5 agentes):

Revisor de avaliação
Reconciliador de razão geral
Fim do mês mais próximo
Auditor de declaração
Rastreador KYC (Conheça seu Cliente)

Cada agente é o que Anthropic chama de "arquitetura de referência" — uma combinação de habilidades (instruções e conhecimento de domínio para a tarefa), conectores (acesso controlado aos dados nos quais a tarefa é executada) e subagentes (modelos Claude adicionais para subtarefas). Eles podem ser executados como plug-ins dentro do Claude Cowork e Claude Code junto com analistas humanos ou podem ser implantados como agentes gerenciados pelo Anthropic, onde o Anthropic lida com a infraestrutura de produção.

Esse é o tipo de comunicado que merece um parágrafo sério de qualquer pessoa que cobre o AI financeiro. Mas aqui está o que foi enterrado.

Mesmo anúncio. No mesmo dia. Anthropic fornecido integração completa com o Microsoft 365 — Claude funcionando como um agente único no Excel, PowerPoint, Word e Outlook, transmitindo contexto em todos os quatro aplicativos simultaneamente.

Se você não trabalha com finanças, essa frase pode não ser registrada. Se você fizer isso, ele deverá cair como um piano caindo.

O fluxo de trabalho padrão do analista júnior é assim: extrair dados para o Excel, modelá-los, construir uma apresentação no PowerPoint, redigir o memorando de apresentação no Word, enviá-lo pelo Outlook com três e-mails de acompanhamento. Cada quebra de ferramenta costumava significar uma quebra de contexto – um lugar onde as informações tinham que ser transportadas manualmente entre aplicativos, onde erros surgiam, onde analistas juniores passavam as horas nada glamorosas que justificavam seus salários iniciais.

Um único agente que mantém contexto em todos os quatro aplicativos do Microsoft 365 não é uma "ferramenta de produtividade AI". É o desaparecimento estrutural de uma categoria profissional de nível inicial. Combinada com a parceria de dados da Moody's Anthropic anunciada no mesmo dia, a mensagem é inequívoca: Anthropic não está criando companheiros de bate-papo para analistas. Eles estão construindo a força de trabalho digital que costumava ser os analistas.

Para a estratégia paralela, minhas notas de campo sobre a implementação do agente gerenciado do Anthropic cobrem o modelo de "infraestrutura de produção segura" com mais profundidade - esse é o mesmo encanamento que agora alimenta esses modelos financeiros.

É aqui também que entra a história da Perplexidade.

O contra-ataque da perplexidade - e quem realmente vence

Exatamente na mesma terça-feira, a Perplexity lançou Computer for Professional Finance.

A semelhança estrutural não é sutil:

35 fluxos de trabalho financeiros dedicados automatizando o trabalho que os analistas repetem toda semana
Integrações de dados licenciadas com Morningstar, PitchBook, Daloopa e Carbon Arc
Uma integração de servidor PitchBook Essential MCP que dá ao Perplexity acesso nativo à inteligência firmográfica do PitchBook
Formatos de saída que incluem tearsheets, gráficos de ações anotados e comparações de pesquisas de capital com cada valor vinculado à sua fonte

Se o argumento de venda do Anthropic é “uma força de trabalho AI que opera dentro de sua pilha existente do Microsoft 365”, o argumento de venda da Perplexity é “o próprio sistema operacional financeiro” – uma ferramenta de destino, não uma integração. Enquanto o Anthropic pede às empresas que conectem o Claude ao seu conjunto de ferramentas existente, a Perplexity pede que migrem para uma nova superfície de trabalho onde os dados residem nativamente.

Ambas as apostas podem ganhar. Provavelmente os dois não ganharão nas mesmas contas.

Minha leitura honesta: Anthropic está em vantagem agora, por um motivo que não tem nada a ver com a qualidade do modelo. A integração do Microsoft 365 é o fosso. A maioria das grandes empresas de serviços financeiros executa seu trabalho em Excel e PowerPoint. Pedir que eles migrem os fluxos de trabalho dos analistas para uma nova ferramenta de destino é um atrito. Pedir que eles adicionem Claude como uma camada sobre as ferramentas que eles já usam é quase gratuito. Essa é uma vantagem estrutural que não depende de qual modelo escreve um resumo de lucros um pouco melhor.

Mas o Perplexity tem algo que o Anthropic não tem: parcerias de dados nativas integradas na própria superfície do produto. A integração do PitchBook MCP em particular é uma vantagem diferente. Quando a questão é “encontre todos os negócios de SaaS Série B nos últimos 18 meses que fecharam com ARR superior a 12x”, o modelo que tem dados do PitchBook já conectados tem uma vantagem estrutural sobre o modelo que precisa ser informado onde procurar.

A previsão honesta é que será uma divisão de fluxo de trabalho por fluxo de trabalho. A triagem KYC e o fechamento do mês vão para Anthropic devido à integração operacional. A pesquisa de mercado e a obtenção de negócios vão para a Perplexity por causa da camada de dados. A construção do pitchbook e a revisão dos lucros serão disputadas pelos próximos dezoito meses.

Se você estiver implantando o AI em um contexto de serviços financeiros neste trimestre, não escolha um. Execute ambos, com escopo para fluxos de trabalho específicos. A pressão competitiva entre os dois puxará os preços e a capacidade mais rapidamente do que qualquer um deles teria feito sozinho.

Flash Gemini 3.2, testes AB e embaralhamento pré-I/O

Agora vamos à parte que eu originalmente planejava liderar – e que foi rebaixada por tudo acima.

Google está AB testando várias variantes de Gemini 3.x semanas antes de I/O.. Os nomes detectados nos logs de tráfego do aplicativo iOS Gemini incluem Gemini 3.2 Flash, Ajax, Hercules, Hector e Orpheus. As variantes parecem estar alternando – um usuário do Reddit relatou que seu aplicativo iOS Gemini mudou de Gemini 3 Flash para 3.1 para 3.2 em um período de 24 horas.

O preço vazado para Gemini 3.2 Flash, com base nos logs AI Studio API, é US$ 0,25 por 1 milhão de tokens de entrada e US$ 2 por 1 milhão de tokens de saída. Se esses números se mantiverem no lançamento do I/O, o Gemini 3.2 Flash atingirá preços de nível flash com capacidade próxima ao Gemini 3.1 Pro - o que ampliaria a liderança de preço versus qualidade do Google no nível intermediário.

Uma correção importante que vale a pena sinalizar, já que vi isso acontecer nas rodadas esta semana. O limite de conhecimento para modelos Gemini 3 é janeiro de 2025, não janeiro de 2026. Vi o número de 2026 citado em alguns tópicos de resumo. Não é o que diz a documentação do modelo Google. Vale a pena acertar antes de arquitetar a lógica de recuperação em torno de uma suposição que não corresponde.

A maior história do Google é o vazamento do modelo Omni. Uma string UI localizada na interface de geração de vídeo Gemini esta semana mostra a linha "Comece com uma ideia ou experimente um modelo. Desenvolvido por Omni" ao lado de "Toucan" - o nome interno para o caminho de vídeo existente com tecnologia Veo-3.1. A colocação de “Omni” dentro do consumidor UI, não apenas nos logs de código, é o que faz os observadores pensarem que isso é maior do que renomear.

Existem três interpretações plausíveis:

Omni é um nome público para o mesmo caminho Veo. Possível, mas desinteressante.
Omni é um novo modelo de vídeo treinado em Gemini junto com Veo. Possível.
Omni é um modelo omni Gemini unificado que gerencia imagem e vídeo nativamente em um sistema. A possibilidade mais significativa do ponto de vista arquitetônico – e aquela que cairia com mais força em I/O.

Se a interpretação três for mantida, o Google fornece o primeiro modelo omni de primeira linha que lida com vídeo e imagens em um único sistema unificado. Combinado com o encerramento do Projeto Mariner em 4 de maio e dobrado no assistente pessoal do Agente Gemini, a narrativa I/O está sendo encenada cuidadosamente: um modelo principal revelado, um sistema de geração multimodal unificado e um agente 24/7 que vive dentro do aplicativo Gemini e substitui o trabalho experimental do agente navegador que Mariner estava fazendo.

Três modelos plausíveis revelados no I/O 2026 (segunda-feira, 19 de maio – terça-feira, 20 de maio):

Gemini 3.5 Pro / 3.5 Flash — formato mais provável do lançamento do título
Gemini 4.0 — Os traders do Polymarket estão com 94,5% de "não" para o lançamento da versão 4.0 até 30 de junho, mas I/O já surpreendeu antes
Omni como carro-chefe da geração multimodal combinado com qualquer que seja o novo título Gemini

O que estou observando especificamente: preços no novo nível Flash, se o agente dentro do aplicativo Gemini obtém um nome e modelo de preços separados da experiência de chat e se Google anuncia algo que aborda a lacuna de codificação do agente com Codex e Claude Code - porque esse é o lugar onde Google vem perdendo terreno mais rápido.

Para um contexto de corrida mais amplo, cobri a corrida de superagentes AI em maio de 2026 na semana passada - o teste lado a lado de Codex, Cowork e Gemini que terminou com apenas um terminando minha tarefa matinal de forma limpa. Spoiler: não era Gemini. I/O é a chance de Google mudar isso.

Gemma 4 MTP Drafters – O lançamento mais útil sobre o qual ninguém falou

Enquanto SubQ estava nas manchetes, a equipe de código aberto do Google lançou algo com o qual quase todos os desenvolvedores que estão lendo isto deveriam se preocupar mais do que atualmente.

Esclarecimento rápido primeiro, porque isso ficou confuso nas notas originais nas quais eu estava trabalhando. O lançamento do rascunho de previsão de vários tokens foi para Gemma 4 — a família de modelos de código aberto do Google — e não para o Gemini 4. Dois produtos diferentes, duas faixas de lançamento diferentes. Gemma 4 é aquele que você pode realmente executar.

Aqui está o que foi enviado. Redatores de MTP (Multi-Token Prediction) para a família Gemma 4 usando uma arquitetura de decodificação especulativa especializada. O redator emparelha-se com um modelo de destino pesado – digamos, Gemma 4 31B – e usa computação ociosa para prever vários tokens futuros de uma só vez com o redator leve, em menos tempo do que o modelo de destino leva para processar um token. O modelo de destino então verifica todos os tokens de rascunho em paralelo.

O resultado: aceleração de até 3x sem qualquer degradação da qualidade de saída.

Os redatores MTP são lançados sob a mesma licença Apache 2.0 do Gemma 4, com pesos de modelo disponíveis em Hugging Face e Kaggle e suporte para Transformers, MLX, vLLM, SGLang e Ollama prontos para uso.

Para desenvolvedores que executam modelos Gemma 4 locais em GPUs de consumo ou Apple Silicon, esta é uma atualização de latência gratuita e séria. Se você tiver um aplicativo de bate-papo em tempo real, um fluxo de trabalho de agente ou um produto de voz onde a latência percebida pelo usuário é importante, os redatores de MTP são uma integração de uma noite que reduz visivelmente os tempos de resposta sem alterar o modelo em si.

Este é o tipo de lançamento que não gera ciclos de discurso, mas melhora silenciosamente a experiência de produção de todos que executam modelos abertos. Vale dez minutos da sua semana para avaliar.

Catálogo Pomelli e a ferramenta de marketing AI consumindo silenciosamente fluxos de trabalho de pequenas e médias empresas

Mais um lançamento Google que se enquadra no padrão de “navio silencioso, impacto real”.

Pomelli — Google Labs e a ferramenta de marketing AI da DeepMind para pequenas e médias empresas — adicionaram um recurso chamado Catálogo Pomelli. O fluxo é: você carrega seus produtos ou serviços, Pomelli os armazena em seu catálogo e a ferramenta gera campanhas de marketing personalizadas e fotos de produtos criadas por AI sob demanda. Gratuito, disponível globalmente onde o Pomelli é lançado (EUA, Canadá, Austrália, Nova Zelândia, com expansão na Europa).

Pomelli analisa seu site para criar um perfil de DNA empresarial — seu tom de voz, fontes personalizadas, imagens, paleta de cores — e então gera campanhas correspondentes. Com a adição do Catálogo, o ciclo se fecha: os produtos entram, o criativo da campanha da marca sai, podendo ser baixado para Instagram, TikTok, Facebook, YouTube e LinkedIn.

A adição do Pomelli Animate em janeiro de 2026, com tecnologia Veo 3.1, permite que a ferramenta transforme conteúdo de marketing estático em animações de vídeo da marca. Combinado com o recurso Photoshoot do Catalog, que usa Nano Banana 2 para transformar qualquer foto de produto em imagens profissionais com qualidade de estúdio, você tem um fluxo de trabalho de marketing completo para pequenas e médias empresas (foto de marca, vídeo de marca, campanha de marca) em uma ferramenta gratuita.

Para operadores individuais e pequenas e médias empresas que administram comércio eletrônico, esta é a versão da história da automação de marketing AI que continuo contando aos amigos e eles continuam subestimando. Não é tão vistoso como uma armada de agentes financeiros. É mais útil para mais pessoas. Se você administra uma loja Shopify com menos de cinquenta SKUs, deverá ter testado o Catálogo Pomelli até sexta-feira.

A barra lateral do Boston Dynamics que vale a pena arquivar

Uma nota que não se enquadra na história do software AI, mas pertence à imagem de maio de 2026.

O robô humanóide Atlas da Boston Dynamics entrará em produção. Na CES 2026 em janeiro, a empresa revelou a versão pronta para produção. Desde maio de 2026, todas as implantações do Atlas 2026 estão totalmente comprometidas. As frotas estão programadas para serem enviadas para o Robotics Metaplant Application Center da Hyundai e – significativamente – para Google DeepMind, que está integrando seus modelos de base Gemini Robotics AI no sistema Boston Dynamics.

O detalhe relevante não são os vídeos de dança. É a parceria com DeepMind. A mesma empresa que envia variantes Gemini 3.x e um modelo multimodal Omni é aquela que coloca a fronteira AI dentro de robôs humanóides. A convergência de modelos de linguagem, geração multimodal e AI incorporado acontecerá em maio de 2026, no roteiro do Google, com chassis da Boston Dynamics. Arquive isso para a conversa pós-I/O. Estaremos lendo muito mais sobre a robótica Gemini na segunda metade de 2026.

Em que eu realmente apostaria se estivesse implantando a produção AI este mês

Oito mil palavras, aqui está a destilação do relatório de campo. Se você estiver implantando fluxos de trabalho de produção AI em maio de 2026, isso é o que eu realmente faria esta semana.

Arquitete para um colapso da janela de contexto. Não migre para o SubQ ainda — espere pela verificação independente — mas pare de criar estratégias de chunking que assumem que 200K é o limite. Os próximos doze meses provavelmente transformarão o contexto 1M em apostas de mesa e 10M+ numa possibilidade real. Crie pipelines de recuperação que escalam elasticamente.

Use GPT-5.5 Instant como o novo padrão para perguntas factuais únicas em domínios de alto risco. Mantenha sua assinatura Opus para raciocínio de longo contexto e trabalho de agente. Mas para consultas médicas, jurídicas ou financeiras rápidas, o GPT-5.5 Instant é agora a ligação que faço primeiro.

Execute os agentes financeiros Anthropic Claude e o Perplexity Computer lado a lado, com escopo para diferentes fluxos de trabalho. Anthropic para tudo o que existe dentro do Microsoft 365. Perplexity para qualquer coisa que precise de dados PitchBook, Morningstar, Daloopa ou Carbon Arc nativamente. Não escolha um até que a luta dure noventa dias.

Aguarde até I/O antes de se comprometer com uma integração Gemini. O preço do Gemini 3.2 Flash é extremamente competitivo no papel, mas lançar o trabalho de produção em um modelo duas semanas antes do anúncio de seu sucessor é uma receita para uma migração que você não planejou. Assista à palestra em 19 de maio e depois comprometa-se.

Integre os redatores Gemma 4 MTP em qualquer fluxo de trabalho de modelo local que você esteja executando. É uma vitória de latência gratuita.

Se você administra uma pequena e média empresa ou uma empresa de comércio eletrônico com menos de cinquenta SKUs, teste o Catálogo Pomelli esta semana. É a versão da história de automação de marketing AI que entrega consistentemente em excesso em relação à sua publicidade.

Observe a resposta de codificação de agente de Google em I/O. Essa é a lacuna que Google precisa preencher e a que afetará mais diretamente todos os desenvolvedores que estiverem lendo isto. Se eles enviarem algo que concorra com Claude Code ou Codex no tipo de fluxos de trabalho de codificação de agente de longa duração que abordamos em o detalhamento da corrida de superagentes de maio, sua pilha de ferramentas muda.

A única coisa que quase perdi

Tenho escrito resumos do AI há tempo suficiente para saber que os anúncios que parecem maiores na primeira semana geralmente não são os que importam no sexto mês. Olhando para os anúncios que escrevi sem fôlego há cerca de um ano, metade deles são agora notas de rodapé. A mesma cautela se aplicou à reestruturação da indústria em abril de 2026 — metade dessas histórias de pânico normalizaram-se em trinta dias, e o sinal duradouro foi enterrado nos lançamentos mais silenciosos.

Então tenho me obrigado a perguntar, em todas as terças-feiras como esta: de qual destes ainda estarei falando em novembro?

GPT-5.5 Instant é uma versão silenciosa e durável. A queda da alucinação em domínios de alto risco é o tipo de melhoria que importa todas as semanas, para sempre, para bilhões de usuários. Isso é durável.

A luta entre agentes financeiros é duradoura. Quer seja o Anthropic ou o Perplexity que conquista mais fluxos de trabalho, o desaparecimento dos pontos de entrada dos analistas juniores está agora em movimento. Em 2027 falaremos sobre como isso mudou a contratação de serviços financeiros.

Os desenhistas Gemma 4 MTP são duráveis de uma maneira útil e enfadonha. Inferência local mais rápida não é glamorosa, mas representa uma melhoria real para qualquer pessoa que execute modelos abertos localmente. Isso fica na minha pilha.

As variantes do teste AB do Flash Gemini 3.2 – Ajax, Hercules, Hector, Orpheus – não são duráveis. Eles são ruídos de pré-lançamento. Em junho, tudo isso será substituído por tudo o que Google realmente anuncia em I/O.. Se você estiver gastando ciclos mentais nas variantes hoje, redirecione esses ciclos para a palestra I/O em 19 de maio.

E SubQ. SubQ é o curinga. Se as reivindicações arquitetônicas sobreviverem, será o lançamento mais significativo de 2026 – maior do que qualquer coisa que espero que Google anuncie em I/O.. Se não sobreviverem, ele se juntará ao longo cemitério de “números mágicos em postos de lançamento que não foram reproduzidos”. Estou aguardando os threads de replicação de benchmark de terceiros começarem a chegar nas próximas duas semanas. Se estiverem de acordo com as reivindicações da empresa, estaremos num novo regime de computação no outono. Se não o fizerem, continuaremos construindo com base no que temos.

I/O será em duas semanas. O quadro hoje, em 6 de maio de 2026, será diferente em 21 de maio. Mas a direção das apostas — em direção a modelos de contexto mais elevado e de menor custo, precisão de domínio profissional, automação de serviços financeiros e parcerias AI incorporadas — não será revertida. Os próximos doze meses serão definidos por quais dessas apostas serão sacadas e com que rapidez.

O artigo que sentei para escrever teria sido uma prévia tranquila do Google I/O 2026. Não é mais isso. É um instantâneo do momento em que o campo mudou genuinamente sob os pés de todos - e uma teoria prática sobre qual posição tomar primeiro.

Se você fizer apenas uma coisa depois de fechar esta guia: assista à palestra I/O em 19 de maio com a estrutura acima em sua cabeça. Procure quais lacunas o Google fecha, quais eles perfuram e quais anúncios eles fazem e que ninguém previu. A diferença entre o que eles enviam e o que o resto desta semana enviou dirá exatamente para onde irão os próximos doze meses.

Estarei anotando ao vivo a palestra. Vejo você do outro lado.

Perguntas frequentes

O que é atenção escassa subquadrática e por que isso é importante?

Subquadratic Sparse Attention (SSA) é a arquitetura por trás do SubQ, o modelo de fronteira da startup com sede em Miami lançado em 5 de maio de 2026. Ele calcula seletivamente a atenção apenas sobre as posições de token que importam, em vez de comparar cada token com todos os outros tokens. A empresa reivindica uma janela de contexto de 12 milhões de tokens com menos de 5% do custo de computação do Claude Opus. Se verificado de forma independente, destrói a suposição de que a inteligência de fronteira requer computação de fronteira.

Quando o GPT-5.5 Instant foi lançado e o que mudou?

OpenAI lançou o GPT-5.5 Instant como o novo modelo padrão do ChatGPT em 5 de maio de 2026. A mudança do título é uma redução de 52,5% nas alucinações sobre solicitações médicas, jurídicas e financeiras em comparação com o GPT-5.3 Instant, com as pontuações do HealthBench subindo de 49,6 para 51,4 e AIME 2025 de 65,4 a 81,2. Os usuários pagos mantêm acesso instantâneo ao GPT-5.3 por três meses.

Quais são os 10 modelos de agentes financeiros do Anthropic?

Anthropic lançou 10 agentes financeiros Claude prontos para uso em 5 de maio de 2026, divididos em duas categorias: Research/Client Coverage (construtor de pitch, preparador de reunião, revisor de ganhos, construtor de modelo, pesquisador de mercado) e Finance/Operations (revisor de avaliação, reconciliador GL, fechamento de final de mês, auditor de extrato, KYC rastreador). Eles são executados dentro do Claude Cowork e Claude Code ou como agentes gerenciados pelo Anthropic, com integração total do Microsoft 365.

Quando é Google I/O 2026 e o que é esperado?

Google I/O 2026 será executado de 19 a 20 de maio de 2026, com palestra em 19 de maio. Os anúncios esperados incluem uma grande revelação do modelo Gemini (provavelmente Gemini 3.5, possivelmente Gemini 4.0), o suposto modelo de geração multimodal Omni, atualizações de agente após o encerramento do Projeto Mariner em 4 de maio, e provavelmente atualizações do Veo e Nano Banana. A coisa mais importante a observar é se Google preenche a lacuna de codificação de agente com Codex e Claude Code.

Qual é a diferença entre Gemini 4 e Gemma 4?

São linhas de produtos separadas. Gemini é a principal família de modelos de código fechado do Google. Gemma é a família de modelos de código aberto do Google. O lançamento do rascunho de previsão de vários tokens de maio de 2026 que forneceu 3x acelerações de inferência foi para Gemma 4 (código aberto, disponível em Hugging Face e Kaggle no Apache 2.0), não para Gemini 4. Os dois são frequentemente confundidos, mas seguem caminhos diferentes.

Vamos trabalhar juntos

Procurando construir sistemas AI, automatizar fluxos de trabalho ou dimensionar sua infraestrutura tecnológica? Eu adoraria ajudar.

Fiverr (compilações e integrações personalizadas): fiverr.com/s/EgxYmWD
Portfólio: mejba.me
Ramlit Limited (soluções empresariais): ramlit.com
ColorPark (design e marca): colorpark.io
xCyberSecurity (serviços de segurança): xcybersecurity.io

Ponto de inflexão da IA em maio de 2026: em que eu apostaria agora