Gemini 3 Flash stealth upgrade : testé sur LMArena

J'ai failli le rater.

J'étais assis à mon bureau un mardi matin, le café refroidi, faisant ce que je fais la plupart des semaines : exécuter ma batterie standard d'invites de test sur tous les nouveaux modèles arrivés. LMArena's battle mode was open in one tab. J'ai déposé l'invite de mon contrôleur Three.js PS5, la même que celle que j'ai utilisée pour torturer tous les modèles, de Claude 3.5 Sonnet à GPT-5.4 en passant par Gemini 3.1 Pro. Cliquez sur Soumettre. Got two responses back, side by side, both anonymous as battle mode demands.

L’un d’eux était clairement un modèle plus petit. Le résultat était approximatif – le contrôleur ressemblait à un pain de savon fondu avec deux points dessus. Bien. Peu importe. J'ai voté. La révélation est tombée : celui-là était un concurrent que je ne nommerai pas (la semaine a été difficile).

L’autre m’a fait me redresser. Le contrôleur avait des proportions appropriées. Les déclencheurs avaient de la profondeur. Les manettes tournaient en survol. Il y avait même un subtil dégradé sur le corps qui le faisait ressembler à du plastique moulé par injection au lieu d'un projet en argile de maternelle. J'ai voté pour instinctivement. Puis le nom du modèle est apparu.

Gemini 3 Flash.

C'est là que mon cerveau s'est arrêté pendant une seconde. Parce que j'ai utilisé Gemini 3 Flash. Beaucoup. Et la version que je connais ne peut pas faire ça. Le Gemini 3 Flash expédié en décembre vous offre un contrôleur fonctionnel – géométrie correcte, interactivité de base, rien qui puisse faire réfléchir un concepteur. Ce que je regardais sur mon écran était tout autre chose. Quelque chose de beaucoup plus proche de ce que j'obtiens lorsque j'exécute la même invite sur Gemini 3.1 Pro.

La balle n'avait pas changé. Le nom dans la liste déroulante disait gemini-3-flash. Mais le modèle derrière cela avait clairement été changé. Et personne – ni Google, ni l’équipe LMArena, ni les canaux de fuite habituels que je suis – n’en avait dit un mot.

J'ai donc passé les deux jours suivants à exécuter toutes les invites de référence que je possède en mode combat, à voter à l'aveugle et à rechercher cette variante améliorée. Ce que j'ai trouvé est la chose la plus proche que j'ai vue d'un modèle de classe Gemini 3.1 Pro portant un badge de niveau Flash. Et le moment – trois semaines avant Google I/O 2026 les 19 et 20 mai – n’est pas une coïncidence.

Laissez-moi vous montrer ce que j'ai testé, ce qui a changé et pourquoi je pense que Google organise un déploiement très délibéré.

Ce que Google a fait discrètement à Gemini 3 Flash

Voici la situation, du mieux que je peux reconstituer après une semaine de tests et d’observation des canaux de fuite.

Le Gemini 3 Flash que vous pouvez appeler directement via le Gemini API ou le Vertex AI est actuellement le même modèle que celui lancé en décembre 2025. Même prix : 0,50 $ par million de jetons d'entrée, 3,00 $ par million de jetons de sortie. Même fenêtre contextuelle 1M. La carte modèle Vertex AI n'a pas été mise à jour. Le journal des modifications officiel est silencieux.

Mais sur LMArena, lorsque vous lancez le mode combat et que vous êtes associé à gemini-3-flash, vous obtenez parfois ce modèle original de décembre, et parfois autre chose. Quelque chose qui fonctionne sensiblement mieux en termes de raisonnement, de génération de code et de sortie SVG/3D. Les testeurs des forums chinois AI ont comparé les résultats toute la semaine et le consensus est le même que le mien : tout ce que Google exécute sur Arena sous le slug Flash fonctionne à un niveau beaucoup plus proche de Gemini 3.1 Pro que du Flash qui est réellement expédié.

Personne en dehors de Google ne connaît le véritable numéro de version. Les gens l'appellent Gemini 3.1 Flash, Gemini 3.2 Flash et Gemini 3.5 Flash de manière interchangeable selon le forum sur lequel vous vous trouvez. Geeky-Gadgets a publié un article le désignant comme 3.2 Flash. Linux.do l'a comme furtif 3.1 Flash. Il existe également un signal distinct provenant de Google Cloud : les clients professionnels de Vertex AI ont reçu une notification concernant la sortie d'une version GA pour Gemini 3.1 Flash Lite de la préversion. Il s'agit d'un modèle documenté avec sa propre carte sur docs.cloud.google.com. Ce n'est pas la même chose que la variante améliorée du mode combat, mais elle fait partie de la même cadence de sortie.

Ce que nous savons, c'est que Google propose plusieurs variantes de niveau Flash à différentes étapes de sortie, le API destiné au public sert toujours le modèle de décembre 2025 et la version sur Arena a été mise à niveau silencieusement vers quelque chose de nettement plus puissant. Que le numéro de version soit 3.1, 3.2 ou 3.5 n'aura d'importance que lorsque Google décidera de l'expédier.

Je vais l'appeler le Flash furtif pour le reste de cette pièce, parce que c'est ce que c'est en réalité, et je refuse de prétendre connaître son vrai nom.

Vous vous demandez probablement comment je suis si sûr qu'il ne s'agit pas seulement du Flash original lors d'une bonne journée. Équitable. Moi aussi. Voici comment je l’ai testé.

Comment j'ai recherché le modèle amélioré dans Battle Mode

Le mode combat de LMArena est la seule surface publique sur laquelle vous pouvez interagir avec le Flash furtif, et la façon dont il fonctionne ajoute des frictions. Lorsque vous soumettez une invite, vous obtenez deux réponses de deux modèles anonymes. Vous votez pour le meilleur. Ce n'est qu'après le vote que la plateforme révèle quel modèle vous avez obtenu. Vous ne pouvez pas choisir un modèle spécifique. Vous ne pouvez continuer à soumettre que jusqu'à ce que l'entremetteur vous mette en relation avec celui que vous recherchez.

En pratique, j'ai dû soumettre chaque invite de test entre quatre et neuf fois avant de dessiner la variante Flash mise à niveau. Parfois, je recevais le Flash de décembre. Parfois, j'obtenais d'autres modèles Google. Parfois, j'obtenais OpenAI ou Anthropic ou DeepSeek. Le taux de réussite pour l’atterrissage du furtif Flash s’est spécifiquement établi autour d’un sur six les jours où j’ai testé.

J'ai construit une feuille de calcul rapide. Pour chaque invite, j'ai enregistré le nom du modèle après le vote, le temps d'horloge jusqu'au premier jeton et un score de 1 à 10 sur la qualité de sortie basé sur la même rubrique que j'utilise toujours : le code s'exécute-t-il, la sortie correspond-elle à la demande, a-t-il le genre de finition qui fait dire à un concepteur "expédiez-le".

Pour rendre la comparaison équitable, j'ai également payé pour un accès direct à API et exécuté les mêmes invites sur la production Gemini 3 Flash de décembre et sur Gemini 3.1 Pro. That gave me three data points per prompt: stealth Flash (Arena only), production Flash (API), and 3.1 Pro (API).

Voici ce qui en est ressorti.

Test 1 : un clone macOS basé sur un navigateur

C'est l'un de mes tests de résistance préférés pour les modèles compatibles frontend. L'invite est grossièrement : * Créez un clone HTML d'une seule page de macOS qui s'exécute entièrement dans le navigateur. Incluez la recherche Spotlight, un Finder fonctionnel, Safari avec au moins trois vrais sites chargeables dans des iframes, un terminal qui répond aux commandes de base, des notes, une calculatrice, un panneau Paramètres et une petite démo 3D de style Minecraft en tant qu'application. Utilisez uniquement du HTML, CSS et JavaScript vanille, sans framework.*

Cette invite dévore la plupart des modèles vivants. Soit ils ignorent des fonctionnalités, les construisent sous forme d'interface utilisateur inerte ou génèrent quelque chose qui plante à la seconde où vous cliquez sur quelque chose.

La production de décembre Gemini 3 Flash m'a donné une coque exploitable. Projecteur ouvert. Le Finder a affiché une liste de fichiers statique. Safari a chargé un site, le terminal a affiché « commande introuvable » pour tout ce que j'ai tapé et la démo de Minecraft était un avion vert plat. Score : 6/10. Fonctionnel mais visiblement une esquisse.

Le Flash furtif sur Arena m'a construit quelque chose que j'ai capturé et envoyé à un ami qui crée des applications macOS pour gagner sa vie. Spotlight présentait une véritable correspondance floue dans la liste des applications. Le Finder a rendu les répertoires imbriqués avec une navigation appropriée dans la barre latérale. Safari a chargé correctement trois sites différents dans les iframes, dont Wikipédia et un petit site d'actualités. Le terminal prenait en charge ls, pwd, whoami, date, echo et même une fausse commande ps qui imprimait une sortie plausible. La calculatrice a géré correctement l’ordre des opérations. La démo de style Minecraft m'a donné un morceau 16x16 avec trois types de blocs que je pouvais placer et casser avec des clics de souris. Note : 9/10.

Pour référence, Gemini 3.1 Pro sur la même invite a obtenu un score de 9,5/10 – un code légèrement plus propre, une physique légèrement meilleure sur la démo de rupture de blocs. Mais l'écart entre le Flash furtif et la version 3.1 Pro était suffisamment petit pour que, lors d'un examen informel, j'ai dû examiner la structure du code pour savoir lequel était lequel.

C'est à ce moment-là que j'ai su que je n'imaginais rien.

Test deux : Three.js — La référence du contrôleur PS5

Voici pourquoi il est demandé aux modèles AI de générer du contenu 3D avec Three.js. Cela expose tout. Le modèle doit comprendre la géométrie, les matériaux, l'éclairage, le positionnement de la caméra, les boucles d'animation et comment connecter l'interactivité via OrbitControls ou des événements de pointeur. Environ 90 % des modèles que je teste sur cette invite échouent de manière critique : proportions incorrectes, matériaux cassés, interactivité manquante, scènes qui s'affichent comme un vide noir parce que personne n'a installé de source de lumière.

Mon invite spécifique : Créez une scène Three.js comportant un contrôleur PS5 en tant qu'objet 3D. Le contrôleur doit être interactif : rotation lors du glisser, zoom lors du défilement. Utilisez des matériaux réalistes. Ajoutez deux variantes de couleurs entre lesquelles l'utilisateur peut basculer à l'aide de boutons : rouge cosmique et violet galactique.

J'ai vu DeepSeek v4 s'effondrer à cette invite exacte : il a généré un contrôleur qui ressemblait plus à une crêpe aplatie qu'à un pad PS5, et le sélecteur de couleurs a mis à jour le mauvais maillage. La plupart des autres modèles que je ne nommerai pas ont du mal avec la géométrie de la gâchette et la relation entre les manettes et le corps.

Stealth Flash a réussi. Proportions du corps correctes. Se déclenche à angle droit. Les manettes sont centrées et ne flottent pas dans l'espace. Le pavé directionnel et les boutons d’action étaient dans les bonnes positions. OrbitControls a fonctionné sans problème. Rouge cosmique rendu avec une finition métallique qui ressemble à une vraie photo de produit. Le violet galactique avait un subtil changement nacré que je pense sincèrement qu'un artiste junior 3D pourrait manquer du premier coup.

Score : 9/10. Perdu un point car les boutons L1/R1 étaient légèrement surdimensionnés.

À titre de comparaison, la production Flash de décembre m'a donné un 6/10 - reconnaissable comme un contrôleur mais avec un ombrage plat, pas de matériaux métalliques et le sélecteur de couleurs n'a mis à jour que le corps, pas les boutons.

J'ai exécuté cette invite 11 fois sur les trois variantes de modèle sur trois jours et l'écart était constant. La sortie furtive Flash était de manière fiable en forme de PS5 et interactive de manière fiable.

Ce genre de cohérence - pas seulement une génération chanceuse - est ce qui vous indique qu'un modèle a réellement été mis à niveau plutôt que de lancer une sortie chaude.

Si vous avez suivi la façon dont je teste la sortie du modèle 3D, ma Répartition des animations de défilement 3D pour les outils AI couvre la suite complète d'invites que j'utilise et pourquoi les contrôles interactifs sont plus importants que le polissage visuel.

Troisième test : un simulateur de télévision des années 1970 avec neuf chaînes

C'est mon test du chaos. Je veux voir ce que fait un modèle lorsque je lui donne une invite conceptuellement riche qui nécessite que plusieurs sous-systèmes travaillent ensemble.

L'invite : Créez un simulateur de télévision des années 1970 dans HTML/CSS/JS.. Le téléviseur doit avoir neuf chaînes, chacune diffusant un contenu différent via une vidéo HTML5, des animations Canvas ou des effets CSS uniquement. Inclut un bouton d'alimentation, des boutons de canal haut/down, un bouton de volume et un effet de bruit statique lors du changement de canal. Appliquez un effet de shader de ligne de balayage CRT sur tout l'écran.

Ce que Flash a produit était, sans exagération, l'implémentation la plus propre de cette invite que j'ai jamais vue à partir d'un modèle qui n'était pas 3.1 Pro. Neuf chaînes. Chacun avait un contenu distinct : l'un était un modèle de test animé par Canvas, l'autre avait des personnages de dessins animés animés par CSS, l'autre était une fausse émission de nouvelles avec un téléscripteur défilant, l'autre était une horloge analogique qui indiquait réellement l'heure, l'autre avait un shader inspiré de l'alunissage. L'effet statique sur le changement de canal était un véritable bruit WebGL, et non un espace réservé. Le shader scanline fonctionnait sur tout l'écran via une superposition CSS de style fragment avec une légère aberration chromatique. Le bouton de volume a tourné. Les boutons des canaux émettaient un léger clic mécanique.

Score : 9/10. J'ai perdu un point car l'animation Canvas du canal 7 était parfois désynchronisée de l'audio.

C'est le genre de résultat qui, il y a deux ans, aurait nécessité qu'un développeur front-end le construise en un week-end. Stealth Flash l'a fait en une seule invite, en environ 32 secondes de génération, avec un code que je pouvais lire de haut en bas sans avoir recours à un débogueur.

C’est la partie qui change véritablement ma façon de penser quel modèle doit appartenir à mon pipeline.

Test 4 : Terrain de montagne – Là où les fissures sont apparues

Je veux être honnête. Stealth Flash n’est pas magique. Il a un point faible évident, et je l’ai trouvé dans mon invite de terrain.

L'invite : Générez une scène Three.js avec un terrain de montagne procédural à l'aide du bruit Perlin. Incluez un brouillard atmosphérique, un éclairage dynamique qui simule le lever au coucher du soleil et un petit maillage de personnage qui traverse le terrain avec une détection de collision appropriée — le personnage doit suivre l'élévation et non traverser les montagnes.

Les visuels sont ressortis à merveille. De véritables sommets enneigés. Un brouillard convaincant. Le cycle d'éclairage était le meilleur que j'ai vu sur n'importe quel modèle à cette invite : les ombres s'allongeaient à mesure que le soleil se baissait et la couleur du ciel passait à des tons chauds et réalistes. J'ai fait une capture d'écran du cadre du coucher de soleil et cela ressemblait à quelque chose provenant d'une plaque de fond du Studio Ghibli.

Mais la physique s'est cassée. Le maillage du personnage s'est déplacé à Y constant, ignorant entièrement l'élévation du terrain. Il traversait les montagnes comme un fantôme. Lorsque j'ai demandé au furtif Flash de corriger la collision, il a généré une solution basée sur le raycast qui a presque fonctionné : le personnage suivait désormais l'élévation à peu près, mais tremblait violemment sur les pentes raides parce que le modèle ne lissait pas l'interpolation de hauteur entre les sommets adjacents.

Score : 6/10. Beau moteur de rendu, simulation cassée.

Cela correspond à ce que disent les testeurs des fils de discussion LMArena : la variante furtive Flash est considérablement plus puissante en termes de génération visuelle et de code frontal, mais son raisonnement physique et de simulation est toujours à la traîne du niveau Pro. C'est une limitation significative si vous créez des jeux ou quoi que ce soit avec une collision en temps réel.

Si vous avez besoin d'une sortie précise en physique, vous voulez toujours Pro. Si vous avez besoin de quelque chose de visuellement riche et interactif, le furtif Flash est soudainement le bon outil.

Test cinq : SVG — Le pélican à vélo

Je ne peux pas écrire un article de revue de modèle en 2026 sans invoquer la référence du pélican à vélo de Simon Willison. Si vous n'avez pas suivi son travail, l'invite est exactement ce à quoi elle ressemble : Générer un SVG d'un pélican faisant du vélo - et Simon l'utilise comme référence informelle depuis plus d'un an maintenant, car elle oblige le modèle à combiner le raisonnement spatial, la compréhension anatomique et la syntaxe SVG en une seule sortie où vous ne pouvez pas récupérer une image mémorisée à partir des données d'entraînement.

La plupart des modèles produisent quelque chose entre « l'art abstrait » et le « crime de haine actif contre les pélicans ». Claude 3.7 Le pélican de Sonnet ressemblait à un bonhomme de neige avec un bec. Le pélican de GPT-5 avait incontestablement la forme d'un oiseau, mais le vélo avait trois roues disposées en triangle. Même les efforts de Gemini 3.1 Pro ont permis d'obtenir un pélican réalisable, mais le cadre du vélo était géométriquement incohérent.

Stealth Flash a produit ce que j'appellerais le pélican sur vélo le plus propre que j'ai jamais vu sur n'importe quel modèle. Le pélican avait des proportions corporelles appropriées, un bec reconnaissable et était perché sur le siège du vélo dans une posture qui suggérait qu'il pédalait plutôt que de léviter au-dessus d'un objet en forme de cycle. Le vélo avait deux roues de taille correcte, un cadre triangulaire à géométrie cohérente, un guidon à angle droit et une chaîne qui reliait les pédales à la roue arrière. Les ailes du pélican s'inclinaient même légèrement vers l'avant, ce qui ressemblait à un mouvement.

Je veux faire attention à ne pas exagérer cela. La sortie SVG est l'une des modalités les plus faciles à jouer avec l'exposition des données d'entraînement, et Simon lui-même a noté que le benchmark devient moins utile à mesure que les modèles s'entraînent de manière plus explicite à son invite. Mais sur une base relative, aux côtés de tous les autres modèles que j'ai testés en 2026, c'était le pélican le plus puissant.

Note : 9,5/10.

J'ai également exécuté ma propre invite de papillon animée : Générer un SVG animé d'un papillon avec une trajectoire de vol qui trace un huit. Stealth Flash a produit un papillon avec une animation de battements d'ailes étonnamment cohérente, bien que la géométrie du corps présente une légère asymétrie là où l'abdomen se connecte au thorax. L'animation de la trajectoire de vol a parfaitement fonctionné. Note : 8,5/10.

Ce que cela signifie pour les modèles que vous utilisez réellement

Laissez-moi parler de mon cerveau produit pendant une seconde.

Si le Flash furtif est aussi proche de Gemini 3.1 Pro et qu'il porte un badge de niveau Flash, l'implication en termes de prix est énorme. Gemini 3 Flash se situe à 0,50 $ par million de jetons d'entrée et à 3,00 $ par million de jetons de sortie. Gemini 3.1 Pro appartient à une catégorie différente : le niveau Pro de Vertex fonctionne à des multiples de celui-ci pour l'entrée et la sortie. Nous parlons de coûts de sortie environ 5 à 7 fois plus élevés sur Pro selon la configuration.

Si Google expédie la variante Flash mise à niveau au prix actuel de Flash – et qu'il n'y a pas encore de signal indiquant qu'ils ont l'intention de l'augmenter – alors le calcul cost-per-quality pour une énorme tranche de charges de travail de production AI est réécrit du jour au lendemain. Chaque équipe qui a appelé Pro pour des tâches pour lesquelles elle aurait pu appeler Flash, sauf que Flash n'était pas tout à fait suffisant, dispose soudainement d'une option beaucoup moins chère qui offre l'essentiel de la qualité.

C'est une histoire bien plus intéressante que "Google a publié un modèle plus rapide". Google réduit l'écart entre ses niveaux d'une manière qui exerce une pression sur tous les autres laboratoires (Anthropic, OpenAI, DeepSeek) pour justifier leur tarification intermédiaire.

Je surveille cela de près, car le même changement s'est produit début 2025, lorsqu'Anthropic a commencé à fixer le prix de Sonnet à un niveau qui rendait GPT-4 difficile à justifier pour un travail hors frontière. Les laboratoires qui remporteront la prochaine vague de déploiement AI en entreprise seront ceux qui fourniront des résultats de qualité Pro au prix de Flash. Google semble s'aligner exactement sur ce mouvement, trois semaines avant leur plus grande scène annuelle.

Si vous avez construit avec Claude ou GPT pour la génération de code de production, mon point de vue honnête est que vous ne devriez pas encore changer, mais vous devez absolument exécuter la variante Flash mise à niveau sur vos charges de travail réelles lorsqu'elle est publiée publiquement. L’arithmétique des coûts pourrait vous forcer la main. J'ai couvert le cadre plus large cost-per-quality que j'utilise lors de la sélection de modèles dans [mon article de comparaison Codex et Gemini Deep Think] (https://www.mejba.me/codex-spark-gemini-deep-think-coding-models) — le même cadre s'applique ici avec les variables décalées.

La théorie du déploiement : ce que fait réellement Google

Cette partie est une spéculation éclairée. Je tiens à le signaler clairement. Je n'ai pas de source Google. Je suis en train d'élaborer un calendrier de déploiement à partir des signaux publics et du calendrier de ce qui apparaît où.

Voici la théorie. Je pense que Google exécute un calendrier de publication en trois étapes qui ressemble à ceci :

Première étape — préparation pré-I/O (maintenant jusqu'au 18 mai 2026) : Mettez à niveau silencieusement Gemini 3 Flash sur LMArena vers une variante de classe 3.1. Laissez les testeurs le trouver. Générez du buzz organique. Déplacez la version 3.1 Flash Lite de la version préliminaire vers GA sur Vertex AI pour capturer le segment des entreprises sensible aux coûts. Cela crée l’esprit des développeurs sans graver l’annonce I/O.

Deuxième étape — Keynote Google I/O 2026 (19-20 mai) : Annoncez le titre de la publication. Les candidats les plus probables sont basés sur la feuille de route publique et sur ce que pointent les canaux de fuite : un modèle Pro de classe 3,5, une mise à jour majeure de Veo, des capacités étendues de Project Astra, des outils de codage agent. La version Pro est le moment clé car c'est l'élément de campagne qui fait la une des journaux.

** Troisième étape : version post-I/O Flash (mi-juin à début juillet) :** Expédiez publiquement la variante Flash mise à niveau sous le numéro de version final que Google décide : 3.1, 3.2 ou 3.5 Flash. À ce stade, le nouveau Pro est le niveau phare et le Flash amélioré se place en dessous en tant que bête de somme rentable. L'écart entre le niveau public Flash et le niveau public Pro reste suffisamment important pour que la tarification de Pro soit justifiée, mais le plancher absolu de ce que Flash peut faire a considérablement augmenté.

Pourquoi est-ce que je pense que c'est le plan ? Parce que l’écart actuellement disponible entre décembre 2025 Flash et 3.1 Pro est trop grand. Google ne veut pas d'un écosystème de développeurs dans lequel Flash est le choix budgétaire évident et Pro est le choix évident de qualité, sans rien entre les deux. Ils veulent une échelle plus serrée. Ils veulent que chaque niveau se sente compétitif par rapport à tout ce que les laboratoires proposent à ce niveau de prix. Et ils veulent que le discours d'ouverture du I/O soit le moment où ils révèlent une gamme de produits cohérente, et non le moment où ils annoncent un nouveau Pro qui rend leur Flash actuel obsolète en comparaison.

Le furtif Flash sur Arena est le pont. Il comble l'écart avant I/O de sorte que lorsque le nouveau Pro arrive, toute la gamme de produits progresse ensemble.

Je peux me tromper. Peut-être que le Flash mis à niveau n'est qu'un test interne A/B d'une variante expérimentale qui ne sera pas expédiée. Peut-être que le timing autour de I/O est une coïncidence. Mais étant donné que nous avons trois signaux indépendants pointant vers la même fenêtre de publication – la mise à niveau Arena, la notification d'entreprise Vertex sur 3.1 Flash Lite GA et le Google I/O 2026 confirmé le discours d'ouverture les 19 et 20 mai à Shoreline Amphitheatre – je mettrais mon propre argent sur la théorie en trois étapes.

Note latérale - J'ai remarqué que le blog des développeurs Google mentionnait déjà que le codage agent serait à l'ordre du jour d'I/O. Cela me dit que la révélation du niveau Pro ne concerne pas seulement la capacité du modèle brut. Il sera fourni avec une infrastructure d'agent. Ce qui rend l'augmentation des capacités du niveau Flash encore plus importante, car la plupart des charges de travail des agents sont sensibles au coût et Flash est l'endroit où ils résident.

Ce que je ferais avec ces informations si je construisais maintenant

Si vous expédiez actuellement les fonctionnalités AI dans le code de production, voici ce que j'en penserais.

Ne refactorisez rien basé sur le Flash furtif. Le modèle n'est pas public API. Il n’y a pas de SLA. Il n'existe pas de version documentée. Vous ne pouvez pas le mettre dans un Dockerfile.

** Commencez à exécuter vos invites de référence en mode combat LMArena. ** Vous ne dessinerez pas toujours la variante mise à niveau, mais lorsque vous le ferez, vous obtiendrez un aperçu de la destination de Google. Cet aperçu vaut les quelques minutes de vote et de rotation nécessaires pour traquer le modèle.

Réservez environ 20 % de votre feuille de route des fonctionnalités AI en tant que capacité flexible pour la fenêtre de publication post-I/O. Si le Flash mis à niveau est livré au prix actuel du Flash, vous aurez besoin d'un sprint ou deux de relâchement pour migrer les bonnes charges de travail hors de Pro. Les économies de coûts pourraient être substantielles – j’estime que les équipes qui gèrent un trafic de production important pourraient voir des réductions significatives en pourcentage sur leurs factures modèles, mais je veux faire attention à ne pas inventer des chiffres précis que je n’ai pas mesurés sur des charges de travail réelles.

Ne présumez pas que le Flash mis à niveau est le même que le GA 3.1 Flash Lite déployé sur Vertex. Ce sont des modèles différents pour différents niveaux de prix. Flash Lite est l'offre à coût plancher de 0,25 $ par million de jetons d'entrée et 1,50 $ par million de jetons de sortie – moins cher que le Flash actuel, mais un niveau différent. Le Flash furtif sur Arena se situe à un niveau de capacité plus élevé que Lite. Le nom va prêter à confusion pendant au moins les prochaines semaines. Lisez attentivement les fiches modèles.

** Commencez à réfléchir aux charges de travail de votre pile qui utilisent Pro, car Flash n'était pas tout à fait suffisant. ** Ce sont vos candidats à la migration. Si votre modèle d'utilisation est « Pro pour la génération de code, Flash pour la classification » et que le Flash mis à niveau commence à gérer la génération de code à 90 % de la qualité Pro, les calculs vont favoriser la migration. J'ai couvert un cadre connexe dans ma [immersion approfondie Gemini 3.1 Pro] (https://www.mejba.me/gemini-3-1-pro-real-power) - la partie sur l'identification des tâches qui nécessitent réellement un raisonnement Pro par rapport aux tâches qui nécessitent simplement un généraliste compétent.

Ce que je regarde d'ici I/O

Quelques éléments spécifiques que je suivrai au cours des trois prochaines semaines. Si vous suivez, ce sont les signaux qui méritent votre attention.

Pages de carte de modèle Vertex AI sur docs.cloud.google.com pour toutes les nouvelles variantes de Gemini. Google les met souvent à jour quelques jours avant une annonce majeure, et la documentation apparaissant avant le discours est l'un des indicateurs de fuite les plus fiables du secteur.

La page de tarification Gemini API sur ai.google.dev/gemini-api/docs/pricing. Tout changement dans la tarification du niveau Flash – à la hausse ou à la baisse – nous indiquera comment Google positionne le modèle mis à niveau. Un prix forfaitaire signifie qu’ils absorbent l’augmentation de capacité. Une petite augmentation signifie qu’ils progressent. Une diminution (moins probable) signifierait qu’ils deviennent agressifs en matière de part d’entreprise.

Le journal des modifications du classement LMArena. L'équipe arena.ai publie des mises à jour régulières lorsque de nouveaux modèles rejoignent le classement, et l'apparition d'un slug gemini-3.1-flash ou gemini-3.5-flash – distinct du slug gemini-3-flash existant – confirmerait que le déploiement passe du furtif au public.

Et bien sûr, le keynote Google I/O 2026 lui-même. 19 mai, 10h00 Pacifique. Je vais diffuser l'intégralité du flux et tester en direct tous les vaisseaux. Si vous voulez ma lecture en temps réel, suivez-moi : j'aurai un fil de discussion dans l'heure suivant le discours d'ouverture et une analyse approfondie dans les 48 heures suivant la sortie.

Questions fréquemment posées

Qu'est-ce que le Gemini 3 Flash stealth upgrade sur LMArena ?

Le Gemini 3 Flash stealth upgrade est une variante de modèle non annoncée que Google a silencieusement échangée derrière le slug gemini-3-flash sur le mode de combat de LMArena, fonctionnant nettement plus près de Gemini 3.1 Pro que du Flash disponible au public en décembre 2025. Il n'est pas encore disponible via Gemini API ou Vertex AI. Le tester nécessite le mode de combat LMArena et l’acceptation d’un taux de correspondance d’environ un sur six.

Quand le Gemini 3 Flash mis à niveau sera-t-il rendu public ?

La fenêtre de sortie publique la plus probable s'étend de la mi-juin au début juillet 2026, après que Google I/O 2026, les 19 et 20 mai, ait révélé le prochain modèle de niveau Pro. Le modèle de déploiement correspond à la cadence de publication précédente, niveau par niveau, de Google : Pro en premier, Flash six à huit semaines plus tard.

Gemini 3.1 Flash Lite est-il identique au Flash furtif sur LMArena ?

Non. Gemini 3.1 Flash Lite est un modèle distinct et documenté qui est passé de la préversion à la version GA sur Vertex AI début 2026 à 0,25 $ par million de jetons d'entrée et 1,50 $ par million de jetons de sortie. La variante furtive Flash sur LMArena semble être un modèle plus performant que Flash Lite, plus proche du niveau Pro, et n'est pas encore disponible en tant que API public.

Combien coûte Gemini 3 Flash par rapport à Gemini 3.1 Pro ?

Gemini 3 Flash est au prix de 0,50 $ par million de jetons d'entrée et de 3,00 $ par million de jetons de sortie. Gemini 3.1 Pro se situe à un niveau nettement supérieur : des multiples de Flash en entrée et en sortie. Le calcul coût-qualité explique exactement pourquoi un Flash amélioré dont les performances sont proches du niveau Pro modifierait de manière significative l'économie de la charge de travail de production du AI.

Le Gemini 3 Flash furtif bat-il Gemini 3.1 Pro à chaque benchmark ?

Non. Lors de mes tests, le Flash furtif correspondait au Pro 3.1 sur le code frontal, aux visuels de rendu 3D et à la génération SVG, mais était à la traîne de Pro sur la simulation physique et le raisonnement complexe en plusieurs étapes. Traitez-le comme un généraliste proche de Pro pour les tâches visuelles et de code et restez fidèle à Pro pour la simulation, l'orchestration d'agents et les travaux nécessitant beaucoup de raisonnement.

Travaillons ensemble

Vous cherchez à créer des systèmes AI, à automatiser les flux de travail ou à faire évoluer votre infrastructure technologique ? J'aimerais aider.

Fiverr (versions et intégrations personnalisées) : fiverr.com/s/EgxYmWD
Portefeuille : mejba.me
Ramlit Limited (solutions d'entreprise) : ramlit.com
ColorPark (conception et image de marque) : colorpark.io
xCyberSecurity (services de sécurité) : xcybersecurity.io

Gemini 3 Flash stealth upgrade : testé sur LMArena