Skip to main content
📝 Google Gemini

Gemini 3 Flash stealth upgrade: testei no LMArena

Google trocou silenciosamente Gemini 3 Flash por LMArena. Executei meus prompts de benchmark no modelo atualizado – aqui está o que mudou e o que isso

28 min

Tempo de leitura

5,488

Palavras

May 02, 2026

Publicado

Engr Mejba Ahmed

Escrito por

Engr Mejba Ahmed

Compartilhar Artigo

Gemini 3 Flash stealth upgrade: testei no LMArena

Gemini 3 Flash stealth upgrade: testei no LMArena

Quase perdi.

Eu estava sentado em minha mesa em uma manhã de terça-feira, com o café esfriando, fazendo o que faço na maioria das semanas – executando minha bateria padrão de instruções de teste em quaisquer novos modelos que tenham chegado. O modo de batalha de LMArena foi aberto em uma guia. Eu coloquei meu prompt do controlador Three.js PS5, o mesmo que usei para torturar todos os modelos, desde Claude 3.5 Sonnet até GPT-5.4 e Gemini 3.1 Pro. Clique em enviar. Recebi duas respostas, lado a lado, ambas anônimas conforme exige o modo de batalha.

Um deles era claramente um modelo menor. A saída foi grosseira – o controlador parecia uma barra de sabão derretida com dois pontos. Multar. Qualquer que seja. Eu votei. Surgiu a revelação: aquele era um concorrente que não vou nomear (está tendo uma semana difícil).

O outro me fez sentar direito. O controlador tinha proporções adequadas. Os gatilhos tinham profundidade. Os botões giravam ao pairar. Havia até um gradiente sutil no corpo que fazia com que parecesse plástico moldado por injeção em vez de um projeto de argila de jardim de infância. Votei nele instintivamente. Então apareceu o nome do modelo.

Gemini 3 Flash.

Foi aí que meu cérebro parou por um segundo. Porque usei Gemini 3 Flash. Bastante. E a versão que conheço não pode fazer isso. O Gemini 3 Flash lançado em dezembro oferece um controlador funcional – geometria correta, interatividade básica, nada que faça um designer parar. O que eu estava vendo na tela era algo completamente diferente. Algo muito mais próximo do que obtenho quando executo o mesmo prompt em Gemini 3.1 Pro.

A lesma não havia mudado. O nome no menu suspenso dizia gemini-3-flash. Mas o modelo por trás disso claramente foi trocado. E ninguém – nem Google, nem a equipe LMArena, nem os canais de vazamento habituais que sigo – disse uma palavra sobre isso.

Então, passei os próximos dois dias executando todos os prompts de benchmark que possuo no modo de batalha, votando às cegas e procurando aquela variante atualizada. O que descobri é a coisa mais próxima que vi de um modelo da classe Gemini 3.1 Pro usando um emblema da camada Flash. E o momento – três semanas antes de Google I/O 2026, de 19 a 20 de maio – não é uma coincidência.

Deixe-me mostrar o que testei, o que mudou e por que acho que Google está realizando uma implementação muito deliberada.

O que Google fez silenciosamente com Gemini 3 Flash

Esta é a situação, da melhor maneira que consigo entender após uma semana de testes e observação dos canais de vazamento.

O Gemini 3 Flash que você pode chamar diretamente por meio do Gemini API ou Vertex AI agora é o mesmo modelo lançado em dezembro de 2025. Mesmo preço – US$ 0,50 por milhão de tokens de entrada, US$ 3,00 por milhão de tokens de saída. Mesma janela de contexto de 1M. A placa modelo Vertex AI não foi atualizada. O changelog oficial é silencioso.

Mas no LMArena, quando você inicia o modo de batalha e é combinado com o gemini-3-flash, às vezes você obtém aquele modelo original de dezembro e às vezes obtém outra coisa. Algo que tem um desempenho visivelmente melhor no raciocínio, na geração de código e na saída SVG/3D. Os testadores nos fóruns chineses do AI compararam os resultados durante toda a semana e o consenso é o mesmo que o meu - tudo o que o Google está rodando no Arena sob o slug Flash está operando em um nível muito mais próximo do Gemini 3.1 Pro do que do Flash que está realmente sendo enviado.

Ninguém fora do Google sabe o número real da versão. As pessoas o chamam de Gemini 3.1 Flash, Gemini 3.2 Flash e Gemini 3.5 Flash de forma intercambiável, dependendo do fórum em que você está. Geeky-Gadgets publicou um artigo apontando para ele como 3.2 Flash. Linux.do tem como um stealth 3.1 Flash. Há também um sinal separado vindo de dentro da nuvem Google: os clientes corporativos Vertex AI receberam uma notificação sobre uma versão GA para Gemini 3.1 Flash Lite saindo da visualização. Esse é um modelo documentado com cartão próprio no docs.cloud.google.com. Não é a mesma coisa que a variante atualizada do modo de batalha, mas faz parte da mesma cadência de lançamento.

O que sabemos é o seguinte: Google tem múltiplas variantes de nível Flash em diferentes estágios de lançamento, o API voltado ao público ainda atende ao modelo de dezembro de 2025, e a versão no Arena foi silenciosamente atualizada para algo significativamente mais forte. Se o número da versão é 3.1, 3.2 ou 3.5, isso só importará quando Google decidir enviá-lo.

Vou chamá-lo de stealth Flash pelo resto deste artigo, porque é isso que realmente é, e me recuso a fingir que sei seu nome verdadeiro.

Você provavelmente está se perguntando como tenho tanta certeza de que não é apenas o Flash original em um dia bom. Justo. Eu também. Veja como testei.

Como procurei o modelo atualizado em Battle Mode

O modo de batalha do LMArena é a única superfície pública onde você pode interagir com o Flash furtivo, e a maneira como ele funciona adiciona atrito. Ao enviar um prompt, você obtém duas respostas de dois modelos anônimos. Você vota no melhor. Somente após a votação a plataforma revela qual modelo você adquiriu. Você não pode escolher um modelo específico. Você só pode continuar enviando até que o matchmaker combine você com aquele que você está caçando.

Na prática, tive que enviar cada prompt de teste entre quatro e nove vezes antes de desenhar a variante Flash atualizada. Às vezes eu recebia o Flash de dezembro. Às vezes eu conseguia outros modelos Google. Às vezes eu obtinha OpenAI ou Anthropic ou DeepSeek. A taxa de acerto para pousar o Flash furtivo se estabeleceu especificamente em torno de um em cada seis nos dias que testei.

Eu construí uma planilha rápida. Para cada solicitação, registrei o nome do modelo pós-votação, o tempo do relógio até o primeiro token e uma pontuação de 1 a 10 na qualidade da saída com base na mesma rubrica que sempre uso - o código é executado, a saída corresponde à solicitação, tem o tipo de polimento que faz um designer dizer "envie-o".

Para tornar a comparação justa, também paguei pelo acesso direto ao API e executei os mesmos prompts na produção de dezembro Gemini 3 Flash e no Gemini 3.1 Pro. Isso me deu três pontos de dados por prompt: stealth Flash (somente Arena), produção Flash (API) e 3.1 Pro (API).

Aqui está o que resultou disso.

Teste um: um clone macOS baseado em navegador

Este é um dos meus testes de estresse favoritos para modelos com capacidade de frontend. O prompt é aproximadamente: Construa um clone HTML de página única de macOS que seja executado inteiramente no navegador. Inclui pesquisa Spotlight, um Finder funcional, Safari com pelo menos três sites reais carregáveis ​​​​em iframes, um Terminal que responde a comandos básicos, Notas, Calculadora, um painel de configurações e uma pequena demonstração 3D no estilo Minecraft como um aplicativo. Use apenas HTML, CSS e JavaScript simples, sem estruturas.

Este prompt come a maioria dos modelos vivos. Eles ignoram recursos, criam-nos como uma interface de usuário inerte ou geram algo que trava no segundo em que você clica em qualquer coisa.

A produção de dezembro Gemini 3 Flash me deu um shell funcional. Holofote aberto. O Finder mostrou uma lista de arquivos estáticos. O Safari carregou um site, o Terminal imprimiu “comando não encontrado” para tudo que eu digitei e a demonstração do Minecraft era um plano verde plano. Pontuação: 6/10. Funcional, mas obviamente um esboço.

O Flash furtivo no Arena construiu para mim algo que fiz uma captura de tela e enviei para um amigo que ganha a vida criando aplicativos macOS. O Spotlight tinha uma correspondência realmente difusa em toda a lista de aplicativos. O Finder renderizou diretórios aninhados com navegação adequada na barra lateral. O Safari carregou três sites diferentes corretamente em iframes – incluindo a Wikipedia e um pequeno site de notícias. O Terminal suportava ls, pwd, whoami, date, echo e até mesmo um comando ps falso que imprimia uma saída plausível. A Calculadora administrou a ordem das operações corretamente. A demonstração no estilo Minecraft me deu um pedaço de 16x16 com três tipos de blocos que eu poderia colocar e quebrar com cliques do mouse. Pontuação: 9/10.

Para referência, Gemini 3.1 Pro no mesmo prompt obteve 9,5/10 – código um pouco mais limpo, física um pouco melhor na demonstração de quebra de blocos. Mas a diferença entre o stealth Flash e o 3.1 Pro era pequena o suficiente para que, em uma revisão casual, eu tivesse que examinar a estrutura do código para saber qual era qual.

Foi nesse momento que eu soube que não estava imaginando coisas.

Teste dois: Three.js — O benchmark do controlador PS5

Aqui está o problema de pedir aos modelos AI para gerar conteúdo 3D com Three.js. Isso expõe tudo. O modelo deve compreender geometria, materiais, iluminação, posicionamento da câmera, loops de animação e como conectar a interatividade por meio de OrbitControls ou eventos de ponteiro. Cerca de 90% dos modelos que testei neste prompt falham de alguma forma crítica – proporções erradas, materiais quebrados, falta de interatividade, cenas que são renderizadas como um vazio preto porque ninguém configurou uma fonte de luz.

Meu prompt específico: Construa uma cena Three.js apresentando um controlador PS5 como um objeto 3D. O controlador deve ser interativo – rotação ao arrastar, zoom ao rolar. Use materiais realistas. Adicione duas variantes de cores que o usuário pode alternar com os botões: vermelho cósmico e roxo galáctico.

Eu assisti o DeepSeek v4 desmoronar exatamente neste prompt - ele gerou um controlador que parecia mais uma panqueca achatada do que um pad PS5, e o seletor de cores atualizou a malha errada. A maioria dos outros modelos que não citarei têm problemas com a geometria do gatilho e a relação entre os botões e o corpo.

Stealth Flash acertou em cheio. Proporções corporais corretas. Gatilhos no ângulo certo. Polegares centralizados, não flutuando no espaço. O teclado direcional e os botões de ação estavam nas posições corretas. OrbitControls funcionou perfeitamente. Vermelho cósmico renderizado com acabamento metálico que parecia uma foto real do produto. O roxo galáctico teve uma mudança perolada sutil que eu realmente acho que um artista júnior do 3D pode perder na primeira tentativa.

Pontuação: 9/10. Perdeu um ponto porque os botões L1/R1 eram ligeiramente grandes.

Para efeito de comparação, a produção de dezembro Flash me deu um 6/10 – reconhecível como um controlador, mas com sombreamento plano, sem materiais metálicos, e o seletor de cores atualizou apenas o corpo, não os botões.

Executei esse prompt 11 vezes nas três variantes do modelo ao longo de três dias e a lacuna foi consistente. A saída Stealth Flash era confiável no formato PS5 e interativa de maneira confiável.

Esse tipo de consistência - não apenas uma geração de sorte - é o que indica que um modelo foi realmente atualizado em vez de você lançar um resultado quente.

Se você está acompanhando como eu testo a saída do modelo 3D, meu detalhamento das animações de rolagem 3D para ferramentas AI cobre todo o conjunto de prompts que uso e por que os controles interativos são mais importantes do que o polimento visual.

Teste três: um simulador de TV dos anos 1970 com nove canais

Este é o meu teste de caos. Quero ver o que um modelo faz quando lhe forneço um prompt conceitualmente rico que requer vários subsistemas trabalhando juntos.

O prompt: Construa um simulador de televisão dos anos 1970 em HTML/CSS/JS. A TV deve ter nove canais, cada um reproduzindo conteúdo diferente por meio de vídeo HTML5, animações Canvas ou efeitos somente CSS. Inclui um botão liga / desliga, botões de aumento de canal /down, botão de volume e um efeito de ruído estático ao mudar de canal. Aplique um efeito de sombreador de linha de varredura CRT em toda a tela.

O que o stealth Flash produziu foi, sem exagero, a implementação mais limpa desse prompt que já vi em um modelo que não era o 3.1 Pro. Nove canais. Cada um tinha conteúdo distinto - um era um padrão de teste animado em Canvas, um tinha personagens de desenhos animados animados em CSS, um era uma transmissão de notícias falsas com ticker de rolagem, um era um relógio analógico que realmente marcava as horas, um tinha um shader inspirado no pouso na lua. O efeito estático na mudança de canal foi um ruído WebGL real, não um espaço reservado. O shader scanline foi executado em toda a tela por meio de uma sobreposição CSS em estilo de fragmento com uma leve aberração cromática. O botão de volume girou. Os botões dos canais emitiram um suave clique mecânico.

Pontuação: 9/10. Perdeu um ponto porque a animação do Canvas do canal 7 ocasionalmente dessincronizava do áudio.

Esse é o tipo de resultado que, há dois anos, exigiria que um desenvolvedor front-end construísse em um fim de semana. Stealth Flash fez isso em um único prompt, em aproximadamente 32 segundos de geração, com código que eu poderia ler de cima a baixo sem precisar de um depurador.

Essa é a parte que realmente muda a forma como penso sobre qual modelo pertence ao meu pipeline.

Teste quatro: terreno montanhoso – onde as rachaduras apareceram

Eu quero ser honesto. Stealth Flash não é mágico. Ele tem um ponto fraco claro e eu o encontrei no meu terreno.

O prompt: Gere uma cena Three.js com terreno montanhoso processual usando ruído Perlin. Inclui neblina atmosférica, iluminação dinâmica que simula o nascer do sol ao pôr do sol e uma pequena malha de personagem que percorre o terreno com detecção de colisão adequada — o personagem deve seguir a elevação, não atravessar as montanhas.

O visual ficou lindo. Verdadeiros picos cobertos de neve. Névoa convincente. O ciclo de iluminação foi o melhor que já vi em qualquer modelo neste prompt - as sombras realmente se alongavam conforme o sol se punha e a cor do céu mudava em tons quentes realistas. Fiz uma captura de tela do quadro do pôr do sol e parecia algo saído de uma placa de fundo do Studio Ghibli.

Mas a física quebrou. A malha do personagem se moveu em Y constante, ignorando totalmente a elevação do terreno. Ele caminhou pelas montanhas como um fantasma. Quando pedi ao stealth Flash para corrigir a colisão, ele gerou uma solução baseada em raycast que quase funcionou - o personagem agora seguia aproximadamente a elevação, mas tremia violentamente em encostas íngremes porque o modelo não suavizou a interpolação de altura entre vértices adjacentes.

Pontuação: 6/10. Renderizador bonito, simulação quebrada.

Isso corresponde ao que os testadores nos threads LMArena têm dito – a variante furtiva Flash é dramaticamente mais forte na geração visual e no código de front-end, mas seu raciocínio físico e de simulação ainda segue o nível Pro. Essa é uma limitação significativa se você estiver criando jogos ou qualquer coisa com colisão em tempo real.

Se você precisa de uma saída com precisão física, ainda deseja o Pro. Se você precisa de algo visualmente rico e interativo, o stealth Flash é de repente a ferramenta certa.

Teste cinco: SVG — O pelicano em uma bicicleta

Não posso escrever uma revisão de modelo em 2026 sem invocar o benchmark do pelicano em uma bicicleta de Simon Willison. Se você não seguiu o trabalho dele, o prompt é exatamente o que parece — Gere um SVG de um pelicano andando de bicicleta — e Simon o usa como referência informal há mais de um ano porque força o modelo a combinar raciocínio espacial, compreensão anatômica e sintaxe SVG em uma única saída onde você não pode recuperar uma imagem memorizada dos dados de treinamento.

A maioria dos modelos produz algo entre “arte abstrata” e “crime de ódio ativo contra pelicanos”. Claude 3.7 O pelicano de Sonnet parecia um boneco de neve com bico. O pelicano do GPT-5 tinha inconfundivelmente o formato de um pássaro, mas a bicicleta tinha três rodas dispostas em um triângulo. Mesmo o esforço do Gemini 3.1 Pro tinha um pelicano viável, mas o quadro da bicicleta era geometricamente incoerente.

Stealth Flash produziu o que eu chamaria de o pelicano de bicicleta mais limpo que já vi em qualquer modelo. O pelicano tinha proporções corporais adequadas, um bico reconhecível e estava empoleirado no assento da bicicleta numa postura que sugeria que na verdade estava pedalando em vez de levitar sobre um objeto em forma de bicicleta. A bicicleta tinha duas rodas de tamanho correto, quadro triangular com geometria consistente, guidão em ângulo reto e uma corrente que conectava os pedais à roda traseira. As asas do pelicano até se inclinaram ligeiramente para a frente de uma forma que parecia movimento.

Quero ter cuidado para não exagerar nisso. A saída SVG é uma das modalidades mais fáceis de jogar com exposição de dados de treinamento, e o próprio Simon observou que o benchmark se torna menos útil quanto mais explicitamente os modelos treinam em seu prompt. Mas relativamente, lado a lado com todos os outros modelos que testei em 2026, este foi o pelicano mais forte.

Pontuação: 9,5/10.

Também executei meu próprio prompt de borboleta animado - *Gere um SVG animado de uma borboleta com uma trajetória de vôo que traça um oito *. Stealth Flash produziu uma borboleta com animação de asas surpreendentemente coerente, embora a geometria do corpo tivesse uma ligeira assimetria onde o abdômen se conectava ao tórax. A animação da trajetória de voo funcionou perfeitamente. Pontuação: 8,5/10.

O que isso significa para os modelos que você está realmente usando

Deixe-me colocar meu cérebro de produto por um segundo.

Se o stealth Flash tiver um desempenho tão próximo do Gemini 3.1 Pro e estiver usando um emblema de nível Flash, a implicação para o preço será enorme. Gemini 3 Flash custa US$ 0,50 por milhão de tokens de entrada e US$ 3,00 por milhão de tokens de saída. Gemini 3.1 Pro está em uma categoria diferente: a camada Pro da Vertex é executada em múltiplos disso para entrada e saída. Estamos falando de custos de produção que são aproximadamente 5 a 7 vezes maiores no Pro, dependendo da configuração.

Se o Google enviar a variante Flash atualizada com o preço atual do Flash – e ainda não houver nenhum sinal de que eles pretendem aumentá-lo – então o cálculo do cost-per-quality para uma grande fatia das cargas de trabalho de produção do AI será reescrito durante a noite. Cada equipe que está ligando para Pro para tarefas para as quais poderia ter chamado Flash, exceto que Flash não era bom o suficiente, de repente tem uma opção muito mais barata que oferece a maior parte da qualidade.

Essa é uma história muito mais interessante do que “Google lançou um modelo mais rápido”. Isso é o Google comprimindo a lacuna entre seus níveis de uma forma que pressiona todos os outros laboratórios – Anthropic, OpenAI, DeepSeek – para justificar seus preços de nível intermediário.

Estou observando isso de perto porque a mesma mudança aconteceu no início de 2025, quando a Anthropic começou a definir o preço do Sonnet em um nível que tornava difícil justificar o GPT-4 para trabalhos fora da fronteira. Os laboratórios que vencerão a próxima onda de implantação empresarial do AI serão os laboratórios que fornecerão saída de nível Pro com preços de nível Flash. Google parece estar planejando exatamente essa mudança, três semanas antes de sua maior etapa anual.

Se você está construindo com Claude ou GPT para geração de código de produção, minha opinião honesta é que você não deve mudar ainda - mas você deve absolutamente estar executando a variante Flash atualizada em suas cargas de trabalho reais quando ela for lançada publicamente. A aritmética dos custos pode forçar sua mão. Abordei a estrutura cost-per-quality mais ampla que uso ao escolher modelos em minha peça de comparação Codex e Gemini Deep Think - a mesma estrutura se aplica aqui com as variáveis ​​​​mudadas.

A teoria da implementação: o que o Google está realmente fazendo

Esta parte é especulação informada. Quero sinalizar isso claramente. Não tenho uma fonte Google. Estou montando um calendário de lançamento a partir de sinais públicos e o momento do que está aparecendo e onde.

Aqui está a teoria. Acho que Google está executando um cronograma de lançamento em três estágios que se parece com isto:

Estágio um — teste pré-I/O (agora até 18 de maio de 2026): Atualize silenciosamente o Gemini 3 Flash no LMArena para uma variante de classe 3.1. Deixe os testadores descobrirem. Gere buzz orgânico. Mova o Flash Lite 3.1 da versão prévia para o GA no Vertex AI para capturar o segmento empresarial sensível ao custo. Isso aumenta a compreensão do desenvolvedor sem queimar o anúncio I/O.

Estágio dois — Palestra Google I/O 2026 (19 a 20 de maio): Anuncie o lançamento do título. Candidatos mais prováveis ​​​​com base no roteiro público e no que os canais de vazamento estão apontando - um modelo Pro de classe 3,5, uma atualização importante do Veo, recursos expandidos do Project Astra, ferramentas de codificação de agente. O lançamento do Pro é o momento principal porque é o item de linha que impulsiona as manchetes da imprensa.

Estágio três — lançamento pós-I/O Flash (meados de junho até início de julho): Envie publicamente a variante Flash atualizada sob qualquer número de versão final que Google decidir — 3.1, 3.2 ou 3.5 Flash. Neste ponto, o novo Pro é o nível principal e o Flash atualizado se posiciona abaixo dele como o carro-chefe econômico. A lacuna entre o nível público Flash e o nível público Pro permanece significativa o suficiente para que o preço do Pro seja justificado, mas o piso absoluto do que o Flash pode fazer mudou drasticamente para cima.

Por que acho que esse é o plano? Porque a lacuna atualmente enviada entre dezembro de 2025 Flash e 3.1 Pro é muito grande. Google não deseja um ecossistema de desenvolvedores onde Flash seja a escolha óbvia de orçamento e Pro seja a escolha óbvia de qualidade, sem nada intermediário. Eles querem uma escada mais apertada. Eles querem que cada nível seja competitivo em relação a tudo o que os laboratórios estão vendendo nessa faixa de preço. E eles querem que a palestra I/O seja o momento em que revelam uma linha de produtos coerente, não um momento em que anunciam um novo Pro que faz com que seu Flash atual pareça obsoleto em comparação.

O stealth Flash na Arena é a ponte. Ele fecha a lacuna antes do I/O para que, quando o novo Pro chegar, toda a linha de produtos suba junto.

Eu posso estar errado. Talvez o Flash atualizado seja apenas um teste interno do A/B de uma variante experimental que não será enviada. Talvez o momento em torno de I/O seja uma coincidência. Mas dado que temos três sinais independentes apontando para a mesma janela de lançamento – a atualização Arena, a notificação corporativa Vertex em 3.1 Flash Lite GA e o Google I/O 2026 confirmado como palestra principal em 19 a 20 de maio no Shoreline Amphitheatre – eu colocaria meu próprio dinheiro na teoria dos três estágios.

Nota lateral - notei que o blog de desenvolvedores Google já mencionou que a codificação de agente estará na agenda I/O. Isso me diz que a revelação do nível Pro não se trata apenas da capacidade bruta do modelo. Será empacotado com infraestrutura de agente. O que faz com que o aumento da capacidade da camada Flash seja ainda mais importante, porque a maioria das cargas de trabalho dos agentes são sensíveis ao dólar e Flash é onde elas residem.

O que eu faria com essas informações se estivesse construindo agora

Se você estiver enviando recursos AI em código de produção agora, eis como eu pensaria sobre isso.

Não refatore nada com base no Flash furtivo. O modelo não está no API público. Não há SLA. Não há versão documentada. Você não pode colocá-lo em um Dockerfile.

Comece a executar seus prompts de benchmark no modo de batalha LMArena. Você nem sempre desenhará a variante atualizada, mas quando o fizer, terá uma prévia de para onde Google está indo. Essa prévia vale os poucos minutos de votação e rotação necessários para caçar o modelo.

Reserve aproximadamente 20% de seu roteiro de recursos AI como capacidade flexível para a janela de lançamento pós-I/O. Se o Flash atualizado for fornecido com o preço atual do Flash, você desejará um ou dois sprints de folga para migrar as cargas de trabalho corretas do Pro. A economia de custos poderia ser substancial – eu estimaria que as equipes que executam tráfego intenso de produção poderiam ver cortes percentuais significativos em suas contas modelo, mas quero ter cuidado para não inventar números precisos que não medi em cargas de trabalho reais.

Não presuma que o Flash atualizado é igual ao GA 3.1 Flash Lite que está sendo lançado no Vertex. Esses são modelos diferentes para faixas de preço diferentes. Flash Lite é a oferta de custo mínimo de US$ 0,25 por milhão de tokens de entrada e US$ 1,50 por milhão de tokens de saída – mais barato que o atual Flash, mas em um nível diferente. O stealth Flash no Arena está em um nível de capacidade mais alto que o Lite. A nomenclatura será confusa pelo menos nas próximas semanas. Leia os cartões de modelo com atenção.

Comece a pensar sobre quais cargas de trabalho em sua pilha estão usando Pro porque Flash não era bom o suficiente. Esses são seus candidatos à migração. Se o seu padrão de uso for "Pro para geração de código, Flash para classificação" e o Flash atualizado começar a lidar com a geração de código com 90% da qualidade Pro, a matemática favorecerá a migração. Abordei uma estrutura relacionada em meu [aprofundamento Gemini 3.1 Pro] (https://www.mejba.me/gemini-3-1-pro-real-power) - a parte sobre como identificar quais tarefas realmente precisam do raciocínio Pro versus quais tarefas só precisam de um generalista competente.

O que estou assistindo entre agora e I/O

Algumas coisas específicas que estou acompanhando nas próximas três semanas. Se você está acompanhando, esses são os sinais que merecem sua atenção.

As páginas do cartão do modelo Vertex AI em docs.cloud.google.com para quaisquer novas variantes de Gemini. O Google frequentemente os atualiza dias antes de um grande anúncio, e a documentação que aparece antes da palestra é um dos indicadores de vazamento mais confiáveis ​​do setor.

A página de preços Gemini API em ai.google.dev/gemini-api/docs/pricing. Qualquer alteração no preço do nível Flash – para cima ou para baixo – nos dirá como o Google está posicionando o modelo atualizado. Um preço fixo significa que eles estão absorvendo o aumento de capacidade. Um pequeno aumento significa que eles estão subindo de nível. Uma diminuição (menos provável) significaria que eles estão se tornando agressivos na participação empresarial.

O changelog da tabela de classificação LMArena. A equipe arena.ai publica atualizações regulares quando novos modelos entram na tabela de classificação, e o aparecimento de um slug gemini-3.1-flash ou gemini-3.5-flash – separado do slug gemini-3-flash existente – confirmaria que o lançamento está passando de furtivo para público.

E, claro, a própria palestra Google I/O 2026. 19 de maio, 10h, Pacífico. Estarei executando todo o fluxo e testando ao vivo todos os navios. Se você quiser minha leitura em tempo real, siga-me - terei um tópico em uma hora após a palestra e um aprofundamento completo em 48 horas após o lançamento.

Perguntas frequentes

O que é Gemini 3 Flash stealth upgrade em LMArena?

O Gemini 3 Flash stealth upgrade é uma variante de modelo não anunciada que Google trocou silenciosamente por trás do slug gemini-3-flash no modo de batalha de LMArena, com desempenho significativamente mais próximo de Gemini 3.1 Pro do que do disponível publicamente em dezembro de 2025 Flash. Ainda não está disponível por meio do Gemini API ou Vertex AI. Testá-lo requer o modo de batalha LMArena e aceitar uma taxa de correspondência de aproximadamente um em seis.

Quando o Gemini 3 Flash atualizado será lançado publicamente?

A janela de lançamento público mais provável é de meados de junho até o início de julho de 2026, após Google I/O 2026 em 19 a 20 de maio revelar o próximo modelo da camada Pro. O padrão de implementação corresponde à cadência de lançamento anterior, camada por camada, do Google – Pro primeiro, Flash seguindo seis a oito semanas depois.

Gemini 3.1 Flash Lite é o mesmo que o Flash furtivo em LMArena?

Não. Gemini 3.1 Flash Lite é um modelo separado e documentado que passou da visualização para GA no Vertex AI no início de 2026 a US$ 0,25 por milhão de tokens de entrada e US$ 1,50 por milhão de tokens de saída. A variante furtiva Flash no LMArena parece ser um modelo de maior capacidade do que o Flash Lite, mais próximo do nível Pro, e ainda não está disponível como um API público.

Quanto custa Gemini 3 Flash em comparação com Gemini 3.1 Pro?

Gemini 3 Flash custa US$ 0,50 por milhão de tokens de entrada e US$ 3,00 por milhão de tokens de saída. Gemini 3.1 Pro fica em um nível substancialmente mais alto – múltiplos de Flash na entrada e na saída. A matemática de custo-qualidade é exatamente a razão pela qual um Flash atualizado com desempenho próximo ao nível Pro mudaria significativamente a economia da carga de trabalho de produção AI.

O stealth Gemini 3 Flash superou o Gemini 3.1 Pro em todos os benchmarks?

Em meus testes, o Flash furtivo correspondeu a 3.1 Pro no código de front-end, renderização visual de 3D e geração de SVG, mas ficou atrás de Pro em simulação física e raciocínio complexo de várias etapas. Trate-o como um generalista quase Pro para tarefas visuais e de código e opte pelo Pro para simulação, orquestração de agentes e trabalho pesado de raciocínio.

Vamos trabalhar juntos

Procurando construir sistemas AI, automatizar fluxos de trabalho ou dimensionar sua infraestrutura tecnológica? Eu adoraria ajudar.

Coffee cup

Gostou deste artigo?

Seu apoio me ajuda a criar mais conteúdo técnico aprofundado, ferramentas open-source e recursos gratuitos para a comunidade de desenvolvedores.

Tópicos Relacionados

Engr Mejba Ahmed

Sobre o Autor

Engr Mejba Ahmed

Engr. Mejba Ahmed builds AI-powered applications and secure cloud systems for businesses worldwide. With 10+ years shipping production software in Laravel, Python, and AWS, he's helped companies automate workflows, reduce infrastructure costs, and scale without security headaches. He writes about practical AI integration, cloud architecture, and developer productivity.

Discussion

Comments

0

No comments yet

Be the first to share your thoughts

Leave a Comment

Your email won't be published

20  -  9  =  ?

Continue Aprendendo

Artigos Relacionados

Ver Todos

Comments

Leave a Comment

Comments are moderated before appearing.

Learning Resources

Expand Your Knowledge

Accelerate your growth with structured courses, verified certificates, interactive flashcards, and production-ready AI agent skills.

Sample Certificate of Completion

Sample certificate — complete any course to earn yours

Engr Mejba Ahmed

Engr Mejba Ahmed

Claude Code Expert · Online

👋

Hey there!

Quick Actions

WhatsApp Instant reply

Chat on WhatsApp

+880 1723 741224 · Instant reply

Popular Questions

Engr Mejba Ahmed is connected
Engr Mejba Ahmed is typing...
Engr Mejba Ahmed avatar

✉ Want me to follow up? Drop your email

Engr Mejba Ahmed avatar

📞 Connect Directly

Choose how you'd like to reach me

WhatsApp

+880 1723 741224

Email

[email protected]

✓ Details sent! I'll get back to you shortly.

Powered by OpenAI

335+

Blog Posts

25

AI Courses

63

Projects

Services & Expertise

Pricing & Process

Learning & Resources

Connect & Support