Gemini 3 Flash stealth upgrade: getest op LMArena
Ik had het bijna gemist.
Ik zat op een dinsdagochtend aan mijn bureau, de koffie koud, en deed wat ik de meeste weken doe: mijn standaardbatterij met testprompts uitvoeren op welke nieuwe modellen dan ook. De gevechtsmodus van LMArena was geopend in één tabblad. Ik liet mijn Three.js PS5-controllerprompt vallen, dezelfde die ik heb gebruikt om elk model te martelen, van Claude 3.5 Sonnet tot GPT-5.4 tot Gemini 3.1 Pro. Druk op verzenden. Ik heb twee reacties terug, naast elkaar, zowel anoniem als de gevechtsmodus vereist.
Eén ervan was duidelijk een kleiner model. De uitvoer was ruw: de controller zag eruit als een gesmolten stuk zeep met twee stippen erop. Prima. Wat dan ook. Ik heb gestemd. De onthulling kwam naar voren: dat was een concurrent die ik niet zal noemen (het heeft een zware week achter de rug).
De andere zorgde ervoor dat ik rechtop ging zitten. De controller had de juiste proporties. De triggers hadden diepte. De thumbsticks draaiden tijdens het zweven. Er was zelfs een subtiel verloop op de carrosserie waardoor het leek op spuitgegoten plastic in plaats van op een kleiproject uit de kleuterklas. Ik heb er instinctief op gestemd. Toen verscheen de modelnaam.
Gemini 3 Flash.
Daar stopten mijn hersenen even. Omdat ik Gemini 3 Flash heb gebruikt. Veel. En de versie die ik ken kan dit niet. De Gemini 3 Flash die in december werd uitgebracht, geeft je een werkbare controller – prima geometrie, basisinteractiviteit, niets dat een ontwerper zou doen aarzelen. Wat ik op mijn scherm zag, was iets heel anders. Iets dat veel dichter in de buurt komt van wat ik krijg als ik dezelfde prompt uitvoer op Gemini 3.1 Pro.
De slak was niet veranderd. De naam in de vervolgkeuzelijst luidt gemini-3-flash. Maar het model erachter was duidelijk verwisseld. En niemand – niet Google, niet het LMArena-team, niet de gebruikelijke lekkanalen die ik volg – had er een woord over gezegd.
Dus bracht ik de volgende twee dagen door met het uitvoeren van elke benchmarkprompt die ik bezit via de gevechtsmodus, blind stemmen en op zoek gaan naar die geüpgradede variant. Wat ik heb gevonden, komt het dichtst in de buurt van een model uit de Gemini 3.1 Pro-klasse met een Flash-tier-badge. En de timing – drie weken vóór Google I/O 2026 op 19 en 20 mei – is geen toeval.
Ik zal je laten zien wat ik heb getest, wat er is veranderd en waarom ik denk dat dit Google is die een zeer doelbewuste uitrol organiseert.
Wat Google stilletjes deed met Gemini 3 Flash
Hier is de situatie, zo goed als ik kan samenstellen na een week testen en kijken naar de lekkanalen.
De Gemini 3 Flash die u nu rechtstreeks via de Gemini API of Vertex AI kunt aanroepen, is hetzelfde model dat in december 2025 werd gelanceerd. Dezelfde prijs: $ 0,50 per miljoen inputtokens, $ 3,00 per miljoen outputtokens. Hetzelfde 1M-contextvenster. De Vertex AI-modelkaart is niet bijgewerkt. De officiële changelog zwijgt.
Maar als je op LMArena de gevechtsmodus activeert en wordt gekoppeld aan gemini-3-flash, krijg je soms dat originele decembermodel, en soms krijg je iets anders. Iets dat merkbaar beter presteert op het gebied van redeneren, code genereren en SVG/3D-uitvoer. Testers op de Chinese AI-forums hebben de hele week resultaten vergeleken en de consensus is dezelfde als die van mij: wat Google ook op Arena draait onder de Flash-slug, werkt op een niveau dat veel dichter bij Gemini 3.1 Pro ligt dan bij de Flash die daadwerkelijk wordt verzonden.
Niemand buiten Google kent het echte versienummer. Mensen noemen het Gemini 3.1 Flash, Gemini 3.2 Flash en Gemini 3.5 Flash, afhankelijk van op welk forum je je bevindt. Geeky-Gadgets heeft een stuk uitgevoerd dat ernaar verwijst als 3.2 Flash. Linux.do heeft het als een stealth 3.1 Flash. Er komt ook een afzonderlijk signaal vanuit de Google Cloud: Vertex AI zakelijke klanten hebben een melding ontvangen over een GA-release voor Gemini 3.1 Flash Lite die uit de preview verdwijnt. Dat is een gedocumenteerd model met een eigen kaart op docs.cloud.google.com. Het is niet hetzelfde als de geüpgradede variant in de gevechtsmodus, maar het maakt deel uit van dezelfde release-cadans.
Wat we weten is dit: Google heeft meerdere Flash-tier varianten in verschillende releasefasen, de publiekgerichte API bedient nog steeds het model van december 2025 en de versie op Arena is stilletjes geüpgraded naar iets aanzienlijk sterkers. Of het versienummer 3.1, 3.2 of 3.5 is, maakt alleen uit wanneer Google besluit het te verzenden.
Ik ga het de rest van dit stuk de stealth Flash noemen, want dat is het eigenlijk, en ik weiger te doen alsof ik de echte naam ken.
Je vraagt je waarschijnlijk af hoe ik er zo zeker van ben dat het op een goede dag niet alleen de originele Flash is. Eerlijk. Ik ook. Zo heb ik het getest.
Hoe ik op het geüpgradede model jaagde in Battle Mode
De gevechtsmodus van LMArena is het enige openbare oppervlak waar je kunt communiceren met de stealth Flash, en de manier waarop deze werkt zorgt voor wrijving. Wanneer u een prompt indient, krijgt u twee reacties van twee anonieme modellen. U stemt op de betere. Pas na het stemmen maakt het platform bekend welk model je hebt. U kunt geen specifiek model kiezen. Je kunt alleen doorgaan met indienen totdat de matchmaker je koppelt aan degene op wie je jaagt.
In de praktijk moest ik elke testprompt tussen de vier en negen keer indienen voordat ik de geüpgradede Flash-variant tekende. Soms kreeg ik de Flash van december. Soms kreeg ik andere Google-modellen. Soms kreeg ik OpenAI of Anthropic of DeepSeek. Het hitpercentage voor het landen van de stealth Flash lag specifiek rond één op zes op de dagen dat ik testte.
Ik heb een snelle spreadsheet gemaakt. Voor elke prompt noteerde ik de modelnaam na de stemming, de tijd van de wandklok tot het eerste token en een score van 1-10 op de uitvoerkwaliteit op basis van dezelfde rubriek die ik altijd gebruik: wordt de code uitgevoerd, komt de uitvoer overeen met het verzoek, heeft het het soort glans dat een ontwerper doet zeggen: 'verzend het'.
Om de vergelijking eerlijk te maken, betaalde ik ook voor directe toegang tot API en voerde ik dezelfde aanwijzingen uit op de productie van december Gemini 3 Flash en op Gemini 3.1 Pro. Dat leverde me drie datapunten per prompt op: stealth Flash (alleen Arena), productie Flash (API) en 3.1 Pro (API).
Hier is wat eruit kwam.
Test één: een browsergebaseerde macOS-kloon
Dit is een van mijn favoriete stresstests voor frontend-compatibele modellen. De prompt luidt grofweg: Bouw een HTML-kloon van één pagina van macOS die volledig in de browser draait. Inclusief Spotlight-zoekopdracht, een werkende Finder, Safari met ten minste drie echte laadbare sites in iframes, een terminal die reageert op basisopdrachten, notities, rekenmachine, een paneel Instellingen en een kleine 3D-demo in Minecraft-stijl als app. Gebruik alleen gewone HTML, CSS en JavaScript, geen frameworks.
Deze prompt eet de meeste modellen levend op. Ze slaan functies over, bouwen ze als een inerte gebruikersinterface of genereren iets dat crasht zodra je ergens op klikt.
De productie van december Gemini 3 Flash gaf me een werkbare schil. Schijnwerper geopend. Finder toonde een statische bestandenlijst. Safari laadde één site, Terminal drukte "opdracht niet gevonden" voor alles wat ik typte, en de Minecraft-demo was een plat groen vlak. Score: 6/10. Functioneel maar duidelijk een schets.
De stealth Flash op Arena heeft iets voor me gebouwd waarvan ik een screenshot heb gemaakt en naar een vriend heb gestuurd die macOS-apps bouwt voor de kost. Spotlight had echte fuzzy-matching in de app-lijst. Finder heeft geneste mappen weergegeven met de juiste zijbalknavigatie. Safari laadde drie verschillende sites correct in iframes, waaronder Wikipedia en een kleine nieuwssite. De Terminal ondersteunde ls, pwd, whoami, date, echo en zelfs een nep-ps-opdracht die plausibele uitvoer afdrukte. De rekenmachine verwerkte de volgorde van de bewerkingen correct. De demo in Minecraft-stijl gaf me een stuk van 16x16 met drie bloktypen die ik met muisklikken kon plaatsen en breken. Score: 9/10.
Ter referentie: Gemini 3.1 Pro scoorde op dezelfde prompt 9,5/10 - iets schonere code, iets betere fysica op de blokbrekende demo. Maar de kloof tussen stealth Flash en 3.1 Pro was zo klein dat ik bij een informele recensie naar de codestructuur moest kijken om te zien welke welke was.
Dat was het moment waarop ik wist dat ik het me niet verbeeldde.
Test twee: Three.js — De PS5-controllerbenchmark
Hier gaat het om het vragen van AI-modellen om 3D-inhoud te genereren met Three.js. Het legt alles bloot. Het model moet inzicht hebben in de geometrie, materialen, verlichting, camerapositionering, animatielussen en hoe interactiviteit kan worden aangesloten via OrbitControls of aanwijzergebeurtenissen. Ongeveer 90% van de modellen die ik op deze prompt test, faalt op een of andere kritische manier: verkeerde proporties, kapotte materialen, ontbrekende interactiviteit, scènes die worden weergegeven als een zwarte leegte omdat niemand een lichtbron heeft opgezet.
Mijn specifieke prompt: Bouw een Three.js-scène met een PS5-controller als een 3D-object. De controller moet interactief zijn: roteren bij slepen, zoomen bij scrollen. Gebruik realistische materialen. Voeg twee kleurvarianten toe waartussen de gebruiker kan schakelen met knoppen: kosmisch rood en galactisch paars.
Ik heb gezien hoe DeepSeek v4 precies op deze prompt uit elkaar viel: het genereerde een controller die meer op een afgeplatte pannenkoek leek dan op een PS5-pad, en de kleurwisselaar werkte de verkeerde mesh bij. De meeste andere modellen die ik niet zal noemen, worstelen met de triggergeometrie en de relatie tussen de thumbsticks en de body.
Stealth Flash heeft het voor elkaar. Lichaamsverhoudingen kloppen. Triggers in de juiste hoek. Duimknoppen gecentreerd, niet zwevend in de ruimte. Het richtingspad en de actieknoppen zaten in de juiste posities. OrbitControls werkte soepel. Kosmisch rood weergegeven met een metallic afwerking die eruitzag als een echte productfoto. Galactisch paars had een subtiele parelmoerachtige verschuiving waarvan ik oprecht denk dat een junior 3D-artiest deze bij de eerste poging zou kunnen missen.
Score: 9/10. Eén punt verloren omdat de L1/R1-knoppen iets te groot waren.
Ter vergelijking: de productie van Flash in december gaf me een 6/10 - herkenbaar als een controller, maar met vlakke schaduwen, geen metalen materialen, en de kleurwisselaar heeft alleen de behuizing bijgewerkt, niet de knoppen.
Ik heb deze prompt gedurende drie dagen elf keer uitgevoerd voor de drie modelvarianten en de kloof was consistent. De stealth Flash-uitvoer was betrouwbaar PS5-vormig en betrouwbaar interactief.
Dat soort consistentie – en niet slechts één gelukkige generatie – is wat je vertelt dat een model daadwerkelijk is geüpgraded, in plaats van dat je toevallig een hete output gooit.
Als je hebt gevolgd hoe ik de uitvoer van 3D-modellen test, beslaat mijn [3D-overzicht van scrollanimaties voor AI-tools] (https://www.mejba.me/3d-scroll-animations-ai-claude-code) de volledige promptsuite die ik gebruik en waarom interactieve besturingselementen belangrijker zijn dan visuele verfijning.
Test drie: een tv-simulator uit de jaren 70 met negen kanalen
Dit is mijn chaostest. Ik wil zien wat een model doet als ik het een conceptueel rijke prompt geef waarvoor meerdere subsystemen moeten samenwerken.
De opdracht: Bouw een televisiesimulator uit de jaren 70 in HTML/CSS/JS.. De tv moet negen kanalen hebben, die elk verschillende inhoud afspelen via HTML5-video, Canvas-animaties of alleen-CSS-effecten. Inclusief een aan/uit-knop, knoppen voor kanaal omhoog/down, volumeknop en een statisch ruiseffect bij het wisselen van kanaal. Pas een CRT scanline shader-effect toe over het hele scherm.
Wat de stealth-Flash produceerde was, zonder overdrijving, de schoonste implementatie van deze prompt die ik ooit heb gezien van een model dat niet 3.1 Pro was. Negen kanalen. Ze hadden allemaal verschillende inhoud: één was een door Canvas geanimeerd testpatroon, één had CSS-geanimeerde stripfiguren, één was een nepnieuwsuitzending met scrollende ticker, één was een analoge klok die daadwerkelijk de tijd aangaf, één had een op de maanlanding geïnspireerde shader. Het statische effect op de kanaalverandering was echte WebGL-ruis, geen tijdelijke aanduiding. De scanline-shader liep over het hele scherm via een CSS-overlay in fragmentstijl met een zwakke chromatische aberratie. De volumeknop draaide. De kanaalknoppen maakten een zacht mechanisch klikgeluid.
Score: 9/10. Een punt verloren omdat de Canvas-animatie van kanaal 7 af en toe desynchroniseerde met de audio.
Dit is het soort output waarvoor een frontend-ontwikkelaar twee jaar geleden in een weekend zou moeten bouwen. Stealth Flash deed het in één enkele prompt, in ongeveer 32 seconden aan generatietijd, met code die ik van boven naar beneden kon lezen zonder naar een debugger te hoeven grijpen.
Dat is het deel dat echt verandert hoe ik denk over welk model in mijn pijplijn thuishoort.
Test vier: bergterrein – waar de scheuren zichtbaar waren
Ik wil eerlijk zijn. Stealth Flash is geen magie. Het heeft een duidelijke zwakke plek en ik vond het in mijn terreinprompt.
De prompt: Genereer een Three.js-scène met procedureel bergterrein met behulp van Perlin-ruis. Voeg atmosferische mist toe, dynamische verlichting die zonsopgang tot zonsondergang simuleert, en een klein karakternetwerk dat over het terrein loopt met de juiste botsingsdetectie. Het personage moet de hoogte volgen en niet door de bergen heen clippen.
De visuals kwamen prachtig naar voren. Echte besneeuwde bergtoppen. Overtuigende mist. De verlichtingscyclus was de beste die ik ooit van welk model dan ook heb gezien: de schaduwen werden langer naarmate de zon onderging, en de kleur van de lucht veranderde door realistische warme tinten. Ik heb een screenshot gemaakt van het zonsondergangframe en het leek op iets van een Studio Ghibli-achtergrondplaat.
Maar de natuurkunde brak. Het karaktergaas bewoog met een constante Y, waarbij de hoogte van het terrein volledig werd genegeerd. Hij liep als een geest door de bergen. Toen ik stealth Flash vroeg om de botsing op te lossen, genereerde het een op raycast gebaseerde oplossing die bijna werkte: het personage volgde nu ruwweg de hoogte, maar trilde hevig op steile hellingen omdat het model de hoogte-interpolatie tussen aangrenzende hoekpunten niet vloeiend maakte.
Score: 6/10. Prachtige renderer, kapotte simulatie.
Dit komt overeen met wat testers in de LMArena-threads hebben gezegd: de stealth Flash-variant is dramatisch sterker op het gebied van visuele generatie en frontend-code, maar de fysica en simulatieredenen lopen nog steeds achter op de Pro-laag. Dat is een betekenisvolle beperking als je games of iets anders bouwt met realtime botsingen.
Als je natuurkundig nauwkeurige uitvoer nodig hebt, wil je nog steeds Pro. Als je iets visueel rijks en interactiefs nodig hebt, is stealth Flash plotseling het juiste hulpmiddel.
Test vijf: SVG — De pelikaan op een fiets
Ik kan in 2026 geen modelrecensiestuk schrijven zonder een beroep te doen op de pelikaan-op-een-fiets-benchmark van Simon Willison. Als je zijn werk niet hebt gevolgd, is de prompt precies hoe het klinkt: Genereer een SVG van een pelikaan die op een fiets rijdt — en Simon gebruikt het nu al meer dan een jaar als informele benchmark omdat het het model dwingt om ruimtelijk redeneren, anatomisch begrip en SVG-syntaxis te combineren in één enkele uitvoer waarbij je geen opgeslagen afbeelding uit trainingsgegevens kunt ophalen.
De meeste modellen produceren iets tussen 'abstracte kunst' en 'actieve haatmisdaad tegen pelikanen'. Claude 3.7 De pelikaan van Sonnet zag eruit als een sneeuwpop met een snavel. De pelikaan van de GPT-5 had onmiskenbaar de vorm van een vogel, maar de fiets had drie wielen in een driehoek. Zelfs de inspanningen van Gemini 3.1 Pro hadden een werkbare pelikaan, maar het fietsframe was geometrisch onsamenhangend.
Stealth Flash produceerde wat ik de schoonste pelikaan-op-een-fiets zou noemen die ik ooit van welk model dan ook heb gezien. De pelikaan had de juiste lichaamsproporties, een herkenbare snavel, en zat op het fietsstoeltje in een houding die suggereerde dat hij feitelijk aan het trappen was in plaats van boven een fietsvormig object te zweven. De fiets had twee wielen van de juiste maat, een driehoekig frame met een consistente geometrie, een stuur in de juiste hoek en een ketting die de pedalen met het achterwiel verbond. De vleugels van de pelikaan kantelden zelfs iets naar voren, op een manier die op beweging leek.
Ik wil oppassen dat ik dit niet te veel verkoop. SVG-uitvoer is een van de gemakkelijkere modaliteiten om te spelen met de blootstelling van trainingsgegevens, en Simon zelf heeft opgemerkt dat de benchmark minder bruikbaar wordt naarmate modellen explicieter trainen op zijn verzoek. Maar relatief gezien, naast elk ander model dat ik in 2026 heb getest, was dit de sterkste pelikaan.
Score: 9,5/10.
Ik heb ook mijn eigen geanimeerde vlinderprompt uitgevoerd: Genereer een geanimeerde SVG van een vlinder met een vliegbaan die een cijfer 8 volgt. Stealth Flash produceerde een vlinder met een verrassend coherente vleugelflapanimatie, hoewel de lichaamsgeometrie een lichte asymmetrie vertoonde waar de buik verbonden was met de thorax. De vliegbaananimatie werkte perfect. Score: 8,5/10.
Wat dit betekent voor de modellen die u daadwerkelijk gebruikt
Laat ik even mijn productbrein opzetten.
Als stealth Flash zo dicht bij Gemini 3.1 Pro presteert en een Flash-tier-badge draagt, zijn de implicaties voor de prijs enorm. Gemini 3 Flash kost $0,50 per miljoen inputtokens en $3,00 per miljoen outputtokens. Gemini 3.1 Pro bevindt zich in een andere categorie: de Pro-laag van Vertex draait op veelvouden daarvan voor zowel invoer als uitvoer. We hebben het over uitvoerkosten die ongeveer 5-7x hoger zijn op Pro, afhankelijk van de configuratie.
Als Google de geüpgradede Flash-variant levert tegen de huidige Flash-prijs – en er is nog geen signaal dat ze van plan zijn deze te verhogen – dan wordt de cost-per-quality-berekening voor een groot deel van de productie-AI-workloads van de ene op de andere dag herschreven. Elk team dat Pro belt voor taken waarvoor ze Flash hadden kunnen bellen, behalve dat Flash niet helemaal goed genoeg was, heeft plotseling een veel goedkopere optie die het grootste deel van de kwaliteit levert.
Dat is een veel interessanter verhaal dan "Google heeft een sneller model uitgebracht." Dat is Google die de kloof tussen hun niveaus comprimeert op een manier die druk uitoefent op elk ander laboratorium – Anthropic, OpenAI, DeepSeek – om hun middenprijzen te rechtvaardigen.
Ik houd dit nauwlettend in de gaten omdat dezelfde verschuiving begin 2025 plaatsvond toen Anthropic Sonnet begon te prijzen op een niveau dat GPT-4 moeilijk te rechtvaardigen maakte voor niet-grensarbeid. De labs die de volgende golf van zakelijke AI-implementaties winnen, zullen de labs zijn die uitvoer van Pro-niveau leveren tegen prijzen van Flash-niveau. Google lijkt precies die zet in de rij te zetten, drie weken voor hun grootste jaarlijkse podium.
Als je hebt gebouwd met Claude of GPT voor het genereren van productiecode, is mijn eerlijke mening dat je nog niet moet overstappen, maar dat je absoluut de geüpgradede Flash-variant moet gebruiken voor je echte werklast wanneer deze openbaar wordt verzonden. De kostenberekening kan u dwingen. Ik heb het bredere cost-per-quality-framework behandeld dat ik gebruik bij het kiezen van modellen in [mijn Codex en Gemini Deep Think-vergelijkingsstuk] (https://www.mejba.me/codex-spark-gemini-deep-think-coding-models) - hetzelfde raamwerk is hier van toepassing met de verschoven variabelen.
De uitroltheorie: wat Google feitelijk doet
Dit deel is geïnformeerde speculatie. Ik wil dat duidelijk benadrukken. Ik heb geen Google-bron. Ik ben een uitrolkalender aan het samenstellen op basis van publieke signalen en de timing van wat waar is verschenen.
Hier is de theorie. Ik denk dat Google een releaseschema in drie fasen uitvoert dat er ongeveer zo uitziet:
Fase één — pre-I/O staging (nu tot en met 18 mei 2026): Upgrade stilletjes Gemini 3 Flash op LMArena naar een 3.1-klasse variant. Laat testers het vinden. Genereer organische buzz. Verplaats 3.1 Flash Lite van preview naar GA op Vertex AI om het kostengevoelige bedrijfssegment vast te leggen. Hierdoor wordt de mindshare van ontwikkelaars opgebouwd zonder de I/O-aankondiging te verbranden.
Fase twee — Google I/O 2026 keynote (19-20 mei): Kondig de headline-release aan. De meest waarschijnlijke kandidaten op basis van de openbare routekaart en waar de lekkanalen naar wijzen: een 3,5-klasse Pro-model, een grote Veo-update, uitgebreide Project Astra-mogelijkheden, agentische coderingstools. De Pro-release is het keynote-moment omdat dit het regelitem is dat de krantenkoppen haalt.
Fase drie — post-I/O Flash-release (medio juni tot begin juli): Verzend de geüpgradede Flash-variant openbaar onder welk definitief versienummer Google ook besluit: 3.1, 3.2 of 3.5 Flash. Op dit punt is de nieuwe Pro het belangrijkste niveau en de geüpgradede Flash past daaronder als het kostenefficiënte werkpaard. De kloof tussen de openbare Flash-laag en de openbare Pro-laag blijft betekenisvol genoeg om de prijsstelling voor Pro gerechtvaardigd te maken, maar de absolute bodem van wat Flash kan doen is dramatisch naar boven verschoven.
Waarom denk ik dat dit het plan is? Omdat de kloof die momenteel wordt verzonden tussen Flash van december 2025 en 3.1 Pro te groot is. Google wil geen ecosysteem voor ontwikkelaars waarin Flash de voor de hand liggende budgetkeuze is en Pro de voor de hand liggende kwaliteitskeuze is met niets daartussenin. Ze willen een strakkere ladder. Ze willen dat elk niveau zich concurrerend voelt ten opzichte van wat de laboratoria voor die prijs ook leveren. En ze willen dat de keynote van I/O het moment is waarop ze een samenhangende productlijn onthullen, en niet het moment waarop ze een nieuwe Pro aankondigen die hun huidige Flash er in vergelijking achterhaald uit laat zien.
De stealth Flash op Arena is de brug. Het dicht het gat vóór I/O, zodat wanneer de nieuwe Pro landt, de hele productlijn samen omhoog gaat.
Ik kan het mis hebben. Misschien is de geüpgradede Flash slechts een interne A/B-test van een experimentele variant die niet zal worden verzonden. Misschien is de timing rond I/O toeval. Maar gezien het feit dat we drie onafhankelijke signalen hebben die naar hetzelfde releasevenster wijzen – de Arena-upgrade, de Vertex enterprise-melding op 3.1 Flash Lite GA, en de Google I/O 2026 bevestigde keynote op 19-20 mei in Shoreline Amphitheatre – zou ik mijn eigen geld op de driefasentheorie zetten.
Kanttekening: ik zag dat de Google Developers Blog al vermeldde dat agentische codering op de I/O-agenda zal staan. Dat vertelt mij dat de onthulling van de Pro-laag niet alleen gaat over de mogelijkheden van onbewerkte modellen. Het wordt verpakt met agentinfrastructuur. Dat maakt de capaciteitsverhoging op de Flash-laag nog belangrijker, omdat de meeste werklasten van agenten dollargevoelig zijn en Flash de plek is waar ze zich bevinden.
Wat ik met deze informatie zou doen als ik nu aan het bouwen was
Als u AI-functies nu in productiecode verzendt, zou ik er als volgt over nadenken.
Refactoreer niets op basis van de stealth Flash. Het model bevindt zich niet in de openbare API. Er is geen SLA. Er is geen gedocumenteerde versie. Je kunt het niet in een Dockerfile plaatsen.
Begin uw benchmarkprompts uit te voeren in de gevechtsmodus LMArena. U tekent niet altijd de geüpgradede variant, maar als u dat doet, krijgt u een voorbeeld van waar Google naartoe gaat. Die preview is de paar minuten stemmen en roteren waard die nodig zijn om op het model te jagen.
Reserveer ongeveer 20% van uw routekaart voor AI-functies als flexibele capaciteit voor de releaseperiode na I/O. Als de geüpgradede Flash wordt geleverd tegen de huidige Flash-prijzen, heeft u een paar sprintjes nodig om de juiste workloads van Pro te migreren. De kostenbesparingen kunnen substantieel zijn. Ik schat dat teams met veel productieverkeer een aanzienlijke procentuele korting op hun modelrekeningen kunnen zien, maar ik wil oppassen dat ik geen precieze cijfers verzin die ik niet heb gemeten over echte werklasten.
Ga er niet van uit dat de geüpgradede Flash hetzelfde is als de GA 3.1 Flash Lite die wordt uitgerold op Vertex. Dit zijn verschillende modellen voor verschillende prijspunten. Flash Lite is het kostenvloeraanbod met $0,25 per miljoen input en $1,50 per miljoen outputtokens - goedkoper dan de huidige Flash, maar een ander niveau. De stealth Flash op Arena bevindt zich op een hoger niveau dan Lite. De naamgeving zal in ieder geval de komende weken verwarrend zijn. Lees de modelkaarten aandachtig.
Begin na te denken over welke workloads in uw stack Pro gebruiken, omdat Flash niet helemaal goed genoeg was. Dit zijn uw migratiekandidaten. Als uw gebruikspatroon "Pro voor het genereren van code, Flash voor classificatie" is en de geüpgradede Flash begint met het genereren van code op 90% van de Pro-kwaliteit, zal de berekening de voorkeur geven aan migratie. Ik heb een gerelateerd raamwerk behandeld in mijn Gemini 3.1 Pro deep dive – het deel over het identificeren van welke taken eigenlijk Pro-redenering nodig hebben versus welke taken alleen een competente generalist nodig hebben.
Waar ik naar kijk tussen nu en I/O
Een paar specifieke dingen die ik de komende drie weken ga volgen. Als u meeleest, zijn dit de signalen die uw aandacht waard zijn.
De Vertex AI-modelkaartpagina's op docs.cloud.google.com voor nieuwe Gemini-varianten. Google werkt deze vaak bij in de dagen vóór een grote aankondiging, en de documentatie die vóór de keynote verschijnt, is een van de meest betrouwbare lekindicatoren in de branche.
De Gemini API-prijspagina op ai.google.dev/gemini-api/docs/pricing. Elke wijziging in de prijsstelling van het Flash-niveau – omhoog of omlaag – zal ons vertellen hoe Google het geüpgradede model positioneert. Een vaste prijs betekent dat ze de capaciteitshobbel opvangen. Een kleine stijging betekent dat ze een niveau hoger gaan. Een daling (minder waarschijnlijk) zou betekenen dat ze agressief gaan handelen op het gebied van het bedrijfsaandeel.
Het LMArena-ranglijstwijzigingenlogboek. Het arena.ai-team plaatst regelmatig updates wanneer nieuwe modellen zich bij het klassement voegen, en het verschijnen van een gemini-3.1-flash- of gemini-3.5-flash-slug – los van de bestaande gemini-3-flash-slug – zou bevestigen dat de uitrol van stealth naar openbaar gaat.
En natuurlijk de Google I/O 2026 keynote zelf. 19 mei, 10:00 uur Pacific. Ik zal de hele stream runnen en alle schepen live testen. Als je mijn real-time lezing wilt, volg mij dan – ik heb binnen een uur na de keynote een draadje en binnen 48 uur na de release een volledige diepgaande duik.
Veelgestelde vragen
Wat is de Gemini 3 Flash stealth upgrade op LMArena?
De Gemini 3 Flash stealth upgrade is een onaangekondigde modelvariant die Google stilletjes heeft ingewisseld achter de gemini-3-flash-slak in de gevechtsmodus van LMArena, en presteert aanzienlijk dichter bij Gemini 3.1 Pro dan bij de publiekelijk beschikbare Flash uit december 2025. Het is nog niet beschikbaar via de Gemini API of Vertex AI. Om het te testen is de gevechtsmodus LMArena vereist en moet een matchpercentage van ongeveer één op zes worden geaccepteerd.
Wanneer wordt de geüpgradede Gemini 3 Flash publiekelijk vrijgegeven?
De meest waarschijnlijke publieke releaseperiode is midden juni tot begin juli 2026, nadat Google I/O 2026 op 19 en 20 mei het volgende Pro-tier-model onthult. Het uitrolpatroon komt overeen met de vorige release-frequentie van Google: Pro eerst, Flash zes tot acht weken later.
Is Gemini 3.1 Flash Lite hetzelfde als de stealth Flash op LMArena?
Nee. Gemini 3.1 Flash Lite is een afzonderlijk, gedocumenteerd model dat begin 2026 van preview naar GA op Vertex AI is overgegaan voor $0,25 per miljoen invoertokens en $1,50 per miljoen uitvoertokens. De stealth Flash-variant op LMArena lijkt een model met hogere mogelijkheden te zijn dan Flash Lite, dichter bij de Pro-laag, en is nog niet beschikbaar als openbare API.
Hoeveel kost Gemini 3 Flash vergeleken met Gemini 3.1 Pro?
Gemini 3 Flash kost $0,50 per miljoen inputtokens en $3,00 per miljoen outputtokens. Gemini 3.1 Pro bevindt zich op een aanzienlijk hoger niveau: veelvouden van Flash op zowel invoer als uitvoer. De kosten-kwaliteitsberekening is precies de reden waarom een geüpgradede Flash die presteert in de buurt van het Pro-niveau de productie-AI-werklast aanzienlijk zou verschuiven.
Verslaat de stealth Gemini 3 Flash Gemini 3.1 Pro op elke benchmark?
Nee. Tijdens mijn tests kwam de stealth Flash overeen met 3.1 Pro op frontend-code, 3D rendering-visuals en SVG-generatie, maar liep hij achter op Pro op het gebied van natuurkundige simulatie en complex redeneren in meerdere stappen. Beschouw het als een bijna-Pro-generalist voor visuele en codetaken en blijf bij Pro voor simulatie, agentorkestratie en redenerend werk.
Laten we samenwerken
Wilt u AI-systemen bouwen, workflows automatiseren of uw technische infrastructuur schalen? Ik help je graag.
- Fiverr (aangepaste builds en integraties): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (ondernemingsoplossingen): ramlit.com
- ColorPark (ontwerp en branding): colorpark.io
- xCyberSecurity (beveiligingsdiensten): xcybersecurity.io