Gemini 3 Flash stealth upgrade: lo probé en LMArena

Casi me lo pierdo.

Estaba sentado en mi escritorio un martes por la mañana, con el café frío, haciendo lo que hago la mayoría de las semanas: ejecutar mi batería estándar de indicaciones de prueba en cualquier modelo nuevo que hubiera llegado. El modo batalla de LMArena estaba abierto en una pestaña. Instalé el mensaje de mi controlador Three.js PS5, el mismo que usé para torturar a todos los modelos, desde Claude 3.5 Sonnet hasta GPT-5.4 y Gemini 3.1 Pro. Pulsa enviar. Recibí dos respuestas, una al lado de la otra, ambas anónimas como lo exige el modo batalla.

Uno de ellos era claramente un modelo más pequeño. El resultado fue aproximado: el controlador parecía una pastilla de jabón derretida con dos puntos. Bien. Lo que sea. Yo voté. Surgió la revelación: ese era un competidor que no nombraré (ha estado teniendo una semana difícil).

El otro me hizo sentarme derecho. El controlador tenía las proporciones adecuadas. Los factores desencadenantes tenían profundidad. Los joysticks giraban al pasar el mouse. Incluso había un gradiente sutil en el cuerpo que lo hacía parecer plástico moldeado por inyección en lugar de un proyecto de arcilla de jardín de infantes. Lo voté instintivamente. Entonces apareció el nombre del modelo.

Gemini 3 Flash.

Ahí es donde mi cerebro se detuvo por un segundo. Porque he usado Gemini 3 Flash. Mucho. Y la versión que conozco no puede hacer esto. El Gemini 3 Flash que se envió en diciembre le brinda un controlador viable: buena geometría, interactividad básica, nada que pueda hacer que un diseñador se detenga. Lo que estaba viendo en mi pantalla era algo completamente distinto. Algo mucho más cercano a lo que obtengo cuando ejecuto el mismo mensaje en Gemini 3.1 Pro.

La babosa no había cambiado. El nombre en el menú desplegable decía gemini-3-flash. Pero el modelo detrás de esto claramente había sido cambiado. Y nadie, ni Google, ni el equipo de LMArena, ni los canales de filtraciones habituales que sigo, había dicho una palabra al respecto.

Así que pasé los siguientes dos días ejecutando todos los indicadores de referencia que poseo en el modo batalla, votando a ciegas y buscando esa variante mejorada. Lo que encontré es lo más parecido que he visto a un modelo de clase Gemini 3.1 Pro que lleva una insignia de nivel Flash. Y el momento (tres semanas antes de Google I/O de 2026, del 19 al 20 de mayo) no es una coincidencia.

Permítanme mostrarles lo que probé, qué cambió y por qué creo que Google está organizando una implementación muy deliberada.

Lo que Google le hizo silenciosamente a Gemini 3 Flash

Esta es la situación, lo mejor que puedo reconstruir después de una semana de pruebas y observación de los canales de fugas.

El Gemini 3 Flash al que puede llamar directamente a través de Gemini API o Vertex AI en este momento es el mismo modelo que se lanzó en diciembre de 2025. El mismo precio: $0,50 por millón de tokens de entrada, $3,00 por millón de tokens de salida. Misma ventana de contexto de 1M. La tarjeta del modelo Vertex AI no se ha actualizado. El registro de cambios oficial guarda silencio.

Pero en LMArena, cuando inicias el modo batalla y te emparejan con gemini-3-flash, a veces obtienes ese modelo original de diciembre y, a veces, obtienes algo más. Algo que funciona notablemente mejor en razonamiento, generación de código y salida SVG/3D. Los evaluadores en los foros chinos de AI han estado comparando resultados toda la semana y el consenso es el mismo que el mío: cualquier cosa que Google se esté ejecutando en Arena bajo el slug Flash está funcionando a un nivel mucho más cercano a Gemini 3.1 Pro que al Flash que realmente se está enviando.

Nadie fuera de Google conoce el número de versión real. La gente lo llama Gemini 3.1 Flash, Gemini 3.2 Flash y Gemini 3.5 Flash indistintamente dependiendo del foro en el que se encuentre. Geeky-Gadgets publicó un artículo que lo señala como 3.2 Flash. Linux.do lo tiene como sigiloso 3.1 Flash. También hay una señal separada proveniente del interior de la nube Google: los clientes empresariales de Vertex AI recibieron una notificación sobre una versión GA para que Gemini 3.1 Flash Lite saliera de la vista previa. Es un modelo documentado con su propia tarjeta en docs.cloud.google.com. No es lo mismo que la variante mejorada del modo batalla, pero es parte de la misma cadencia de lanzamiento.

Lo que sabemos es esto: Google tiene múltiples variantes de nivel Flash en diferentes etapas de lanzamiento, el API de cara al público todavía sirve el modelo de diciembre de 2025 y la versión en Arena se ha actualizado silenciosamente a algo significativamente más potente. Si el número de versión es 3.1, 3.2 o 3.5 solo importará cuando Google decida enviarlo.

Lo llamaré Flash sigiloso durante el resto de este artículo, porque eso es lo que realmente es, y me niego a fingir que conozco su nombre real.

Probablemente te estés preguntando cómo estoy tan seguro de que no es solo el Flash original en un buen día. Justo. Yo también. Así es como lo probé.

Cómo busqué el modelo actualizado en Battle Mode

El modo batalla de LMArena es la única superficie pública donde puedes interactuar con el sigiloso Flash, y la forma en que funciona añade fricción. Cuando envía una solicitud, obtiene dos respuestas de dos modelos anónimos. Votas por el mejor. Solo después de votar la plataforma revela qué modelo obtuviste. No puedes elegir un modelo específico. Solo puedes seguir enviando hasta que el casamentero te empareje con el que estás cazando.

En la práctica, tuve que enviar cada mensaje de prueba entre cuatro y nueve veces antes de dibujar la variante Flash actualizada. A veces obtenía el Flash de diciembre. A veces obtenía otros modelos Google. A veces obtenía OpenAI o Anthropic o DeepSeek. La tasa de aciertos para aterrizar el sigiloso Flash se estableció específicamente en alrededor de uno de cada seis en los días que probé.

Construí una hoja de cálculo rápida. Para cada mensaje, registré el nombre del modelo después de la votación, el tiempo del reloj de pared hasta el primer token y una puntuación de 1 a 10 en la calidad de salida basada en la misma rúbrica que siempre uso: ¿se ejecuta el código, si el resultado coincide con la solicitud?, ¿tiene el tipo de pulido que hace que un diseñador diga "envíelo".

Para que la comparación sea justa, también pagué por el acceso directo a API y ejecuté las mismas indicaciones en el Gemini 3 Flash de diciembre y en Gemini 3.1 Pro. Eso me dio tres puntos de datos por mensaje: sigiloso Flash (solo Arena), producción Flash (API) y 3.1 Pro (API).

Esto es lo que salió de esto.

Prueba uno: un clon macOS basado en navegador

Esta es una de mis pruebas de estrés favoritas para modelos con capacidad frontend. El mensaje es más o menos: Cree un clon HTML de una sola página de macOS que se ejecute completamente en el navegador. Incluye búsqueda de Spotlight, un Finder funcional, Safari con al menos tres sitios reales cargables en iframes, una Terminal que responde a comandos básicos, Notas, Calculadora, un panel de Configuración y una pequeña demostración de 3D estilo Minecraft como aplicación. Utilice solo HTML básico, CSS y JavaScript, no marcos.

Este mensaje devora vivos a la mayoría de los modelos. Omiten funciones, las crean como una interfaz de usuario inerte o generan algo que falla en el momento en que haces clic en algo.

La producción de diciembre Gemini 3 Flash me dio un caparazón viable. Se abrió el foco. Finder mostró una lista de archivos estáticos. Safari cargó un sitio, Terminal imprimió "comando no encontrado" para todo lo que escribí y la demostración de Minecraft era un plano verde. Puntuación: 6/10. Funcional pero obviamente un boceto.

El sigiloso Flash en Arena me creó algo que hice una captura de pantalla y le envié a un amigo que se gana la vida creando aplicaciones macOS. Spotlight tenía coincidencias reales en toda la lista de aplicaciones. Finder representa directorios anidados con navegación adecuada en la barra lateral. Safari cargó correctamente tres sitios diferentes en iframes, incluido Wikipedia y un pequeño sitio de noticias. La Terminal admitía ls, pwd, whoami, date, echo e incluso un comando ps falso que imprimió una salida plausible. La Calculadora manejó correctamente el orden de las operaciones. La demostración estilo Minecraft me dio un trozo de 16x16 con tres tipos de bloques que podía colocar y romper con clics del mouse. Puntuación: 9/10.

Como referencia, Gemini 3.1 Pro en el mismo mensaje obtuvo una puntuación de 9.5/10: código ligeramente más limpio, física ligeramente mejor en la demostración de ruptura de bloques. Pero la brecha entre el Flash sigiloso y el Pro 3.1 era lo suficientemente pequeña como para que en una revisión informal tuviera que mirar la estructura del código para saber cuál era cuál.

Ese fue el momento en que supe que no estaba imaginando cosas.

Prueba dos: Three.js: punto de referencia del controlador PS5

Esto es lo que pasa con pedir a los modelos AI que generen contenido 3D con Three.js. Lo expone todo. El modelo debe comprender la geometría, los materiales, la iluminación, el posicionamiento de la cámara, los bucles de animación y cómo conectar la interactividad a través de OrbitControls o eventos de puntero. Alrededor del 90% de los modelos que pruebo con este mensaje fallan de alguna manera crítica: proporciones incorrectas, materiales rotos, falta de interactividad, escenas que se representan como un vacío negro porque nadie instaló una fuente de luz.

Mi mensaje específico: Construya una escena Three.js con un controlador PS5 como un objeto 3D. El controlador debe ser interactivo: rotación al arrastrar, zoom al desplazarse. Utilice materiales realistas. Agregue dos variantes de color entre las que el usuario puede cambiar con botones: rojo cósmico y morado galáctico.

He visto a DeepSeek v4 desmoronarse en este mensaje exacto: generó un controlador que parecía más un panqueque aplanado que un pad PS5, y el conmutador de color actualizó la malla incorrecta. La mayoría de los otros modelos que no nombraré luchan con la geometría del gatillo y la relación entre los joysticks y el cuerpo.

El sigiloso Flash lo logró. Proporciones corporales correctas. Disparadores en el ángulo correcto. Thumbsticks centrados, no flotando en el espacio. El teclado direccional y los botones de acción estaban en las posiciones correctas. OrbitControls funcionó sin problemas. Rojo cósmico con un acabado metálico que parecía una foto de producto real. El púrpura galáctico tuvo un sutil cambio nacarado que realmente creo que un artista junior de 3D podría pasar por alto en el primer intento.

Puntuación: 9/10. Perdió un punto porque los botones L1/R1 estaban ligeramente sobredimensionados.

A modo de comparación, la producción del Flash de diciembre me dio un 6/10: reconocible como un controlador pero con sombreado plano, sin materiales metálicos y el conmutador de color solo actualizó el cuerpo, no los botones.

Ejecuté este mensaje 11 veces en las tres variantes del modelo durante tres días y la brecha fue constante. La salida sigilosa de Flash tenía una forma confiable de PS5 y era confiablemente interactiva.

Ese tipo de coherencia, no solo una generación afortunada, es lo que le indica que un modelo realmente se ha actualizado en lugar de que usted obtenga una producción en caliente.

Si ha estado siguiendo cómo pruebo la salida del modelo 3D, mi desglose de las animaciones de desplazamiento de 3D para las herramientas AI cubre el conjunto completo de mensajes que uso y por qué los controles interactivos son más importantes que el pulido visual.

Prueba tres: un simulador de televisión de los años 70 con nueve canales

Esta es mi prueba de caos. Quiero ver qué hace un modelo cuando le doy un mensaje conceptualmente rico que requiere múltiples subsistemas trabajando juntos.

El mensaje: Cree un simulador de televisión de los años 70 en HTML/CSS/JS. El televisor debe tener nueve canales, cada uno de los cuales reproduzca contenido diferente a través de video HTML5, animaciones Canvas o efectos solo CSS. Incluye un botón de encendido, botones /down para subir canales, control de volumen y un efecto de ruido estático al cambiar de canal. Aplique un efecto de sombreado de línea de exploración CRT en toda la pantalla.

Lo que produjo el sigiloso Flash fue, sin exagerar, la implementación más limpia de este mensaje que he visto en un modelo que no era 3.1 Pro. Nueve canales. Cada uno tenía contenido distinto: uno era un patrón de prueba animado por Canvas, otro tenía personajes de dibujos animados animados por CSS, uno era una transmisión de noticias falsa con un ticker de desplazamiento, uno era un reloj analógico que realmente decía la hora, uno tenía un sombreador inspirado en el alunizaje. El efecto estático en el cambio de canal era ruido WebGL real, no un marcador de posición. El sombreador de línea de exploración se ejecutó en toda la pantalla a través de una superposición CSS de estilo fragmento con una leve aberración cromática. La perilla de volumen giró. Los botones de canal emitieron un suave clic mecánico.

Puntuación: 9/10. Perdió un punto porque la animación Canvas del canal 7 ocasionalmente se desincronizaba del audio.

Este es el tipo de resultado que, hace dos años, habría requerido que un desarrollador frontend lo creara durante un fin de semana. Stealth Flash lo hizo en un solo mensaje, en aproximadamente 32 segundos de generación, con un código que podía leer de arriba a abajo sin necesidad de recurrir a un depurador.

Esa es la parte que realmente cambia mi forma de pensar sobre qué modelo pertenece a mi cartera.

Prueba cuatro: terreno montañoso: donde se mostraban las grietas

Quiero ser honesto. El sigilo Flash no es mágico. Tiene un punto débil claro y lo encontré en mi indicador de terreno.

El mensaje: Genere una escena Three.js con terreno montañoso procedimental utilizando ruido Perlin. Incluye niebla atmosférica, iluminación dinámica que simula el amanecer hasta el atardecer y una pequeña malla de personajes que camina por el terreno con una detección de colisión adecuada: el personaje debe seguir la elevación, no atravesar las montañas.

Las imágenes salieron maravillosamente. Auténticos picos nevados. Niebla convincente. El ciclo de iluminación fue el mejor que he visto en cualquier modelo en este mensaje: las sombras en realidad se alargaron a medida que el sol se ponía y el color del cielo cambió a tonos cálidos realistas. Tomé una captura de pantalla del cuadro de la puesta de sol y parecía algo sacado de una placa de fondo de Studio Ghibli.

Pero la física se rompió. La malla de personajes se movió en Y constante, ignorando por completo la elevación del terreno. Caminó por las montañas como un fantasma. Cuando le pedí al sigilo Flash que arreglara la colisión, generó una solución basada en raycast que casi funcionó: el personaje ahora seguía la elevación aproximadamente, pero temblaba violentamente en pendientes pronunciadas porque el modelo no suavizaba la interpolación de altura entre los vértices adyacentes.

Puntuación: 6/10. Hermoso renderizador, simulación rota.

Esto coincide con lo que los evaluadores en los hilos LMArena han estado diciendo: la variante sigilosa Flash es dramáticamente más fuerte en la generación visual y el código de interfaz, pero su razonamiento físico y de simulación aún está por detrás del nivel Pro. Esa es una limitación significativa si estás creando juegos o cualquier cosa con colisión en tiempo real.

Si necesita resultados con precisión física, aún desea Pro. Si necesita algo visualmente rico e interactivo, el sigiloso Flash es de repente la herramienta adecuada.

Prueba cinco: SVG — El pelícano en bicicleta

No puedo escribir un artículo sobre un modelo en 2026 sin invocar el punto de referencia del pelícano en bicicleta de Simon Willison. Si no ha seguido su trabajo, el mensaje es exactamente lo que parece: Generar un SVG de un pelícano andando en bicicleta - y Simon lo ha estado usando como punto de referencia informal durante más de un año porque obliga al modelo a combinar el razonamiento espacial, la comprensión anatómica y la sintaxis SVG en una única salida donde no se puede recuperar una imagen memorizada de los datos de entrenamiento.

La mayoría de los modelos producen algo entre "arte abstracto" y "crimen de odio activo contra los pelícanos". Claude 3.7 El pelícano de Sonnet parecía un muñeco de nieve con pico. El pelícano de GPT-5 tenía inconfundible forma de pájaro, pero la bicicleta tenía tres ruedas dispuestas en triángulo. Incluso el esfuerzo de Gemini 3.1 Pro tenía un pelícano viable, pero el cuadro de la bicicleta era geométricamente incoherente.

Stealth Flash produjo lo que yo llamaría el pelícano en bicicleta más limpio que jamás haya visto en cualquier modelo. El pelícano tenía proporciones corporales adecuadas, un pico reconocible y estaba posado en el asiento de la bicicleta en una postura que sugería que en realidad estaba pedaleando en lugar de levitando sobre un objeto con forma de bicicleta. La bicicleta tenía dos ruedas del tamaño correcto, un cuadro triangular con una geometría consistente, manillares en el ángulo correcto y una cadena que conectaba los pedales a la rueda trasera. Las alas del pelícano incluso se inclinaron ligeramente hacia adelante de una manera que parecía movimiento.

Quiero tener cuidado de no exagerar esto. La salida de SVG es una de las modalidades más fáciles de jugar con la exposición de datos de entrenamiento, y el propio Simon ha notado que el punto de referencia se vuelve menos útil cuanto más explícitamente se entrenan los modelos según su indicación. Pero en términos relativos, al lado de todos los demás modelos que probé en 2026, este fue el pelícano más fuerte.

Puntuación: 9.5/10.

También ejecuté mi propio mensaje de mariposa animada: Generar un SVG animado de una mariposa con una trayectoria de vuelo que traza una figura de ocho. Stealth Flash produjo una mariposa con una animación de aleteo sorprendentemente coherente, aunque la geometría del cuerpo tenía una ligera asimetría donde el abdomen se conectaba con el tórax. La animación de la trayectoria de vuelo funcionó perfectamente. Puntuación: 8.5/10.

Qué significa esto para los modelos que estás utilizando realmente

Permítanme hablar de mi cerebro de producto por un segundo.

Si el sigiloso Flash se desempeña tan cerca de Gemini 3.1 Pro y lleva una insignia de nivel Flash, la implicación para el precio es enorme. Gemini 3 Flash cuesta $ 0,50 por millón de tokens de entrada y $ 3,00 por millón de tokens de salida. Gemini 3.1 Pro está en una categoría diferente: el nivel Pro de Vertex se ejecuta en múltiplos de eso tanto para entrada como para salida. Estamos hablando de costos de producción que son aproximadamente entre 5 y 7 veces mayores en Pro dependiendo de la configuración.

Si Google envía la variante Flash actualizada al precio actual de Flash (y aún no hay señales de que tengan la intención de aumentarlo), entonces el cálculo de cost-per-quality para una gran porción de cargas de trabajo de producción AI se reescribe de la noche a la mañana. Cada equipo que ha estado llamando a Pro para tareas para las que podrían haber llamado a Flash, excepto que Flash no fue lo suficientemente bueno, de repente tiene una opción mucho más económica que ofrece la mayor parte de la calidad.

Esa es una historia mucho más interesante que "Google lanzó un modelo más rápido". Es decir, Google comprime la brecha entre sus niveles de una manera que ejerce presión sobre todos los demás laboratorios (Anthropic, OpenAI, DeepSeek) para justificar sus precios de nivel medio.

Estoy siguiendo esto de cerca porque el mismo cambio ocurrió a principios de 2025 cuando Anthropic comenzó a fijar el precio de Sonnet a un nivel que hizo que GPT-4 fuera difícil de justificar para trabajos no fronterizos. Los laboratorios que ganen la próxima ola de implementación empresarial de AI serán los laboratorios que ofrezcan resultados de calidad Pro a precios de calidad Flash. Google parece estar preparando exactamente ese movimiento, tres semanas antes de su mayor etapa anual.

Si ha estado compilando con Claude o GPT para la generación de código de producción, mi opinión sincera es que no debería cambiar todavía, pero definitivamente debería ejecutar la variante Flash actualizada en sus cargas de trabajo reales cuando se envíe públicamente. La aritmética de costos podría obligarlo. Cubrí el marco más amplio cost-per-quality que uso al seleccionar modelos en [mi pieza de comparación Codex y Gemini Deep Think] (https://www.mejba.me/codex-spark-gemini-deep-think-coding-models); el mismo marco se aplica aquí con las variables desplazadas.

La teoría del lanzamiento: qué está haciendo realmente Google

Esta parte es especulación informada. Quiero dejarlo claro. No tengo una fuente Google. Estoy armando un calendario de implementación a partir de señales públicas y el momento en que ha aparecido y dónde.

Aquí está la teoría. Creo que Google está ejecutando un calendario de lanzamiento de tres etapas que se parece a esto:

Etapa uno: preparación previa a I/O (desde ahora hasta el 18 de mayo de 2026): Actualice silenciosamente Gemini 3 Flash en LMArena a una variante de clase 3.1. Deje que los probadores lo encuentren. Genera entusiasmo orgánico. Mueva 3.1 Flash Lite de la versión preliminar a GA en Vertex AI para capturar el segmento empresarial sensible a los costos. Esto genera una mentalidad compartida por parte de los desarrolladores sin quemar el anuncio de I/O.

Etapa dos: discurso de apertura de Google I/O 2026 (19 y 20 de mayo): Anuncie el lanzamiento principal. Los candidatos más probables según la hoja de ruta pública y lo que apuntan los canales de filtración: un modelo Pro de clase 3.5, una actualización importante de Veo, capacidades ampliadas de Project Astra y herramientas de codificación agente. El lanzamiento de Pro es el momento clave porque es la línea de pedido que genera los titulares de prensa.

Etapa tres: lanzamiento posterior a I/O Flash (mediados de junio hasta principios de julio): Envíe públicamente la variante Flash actualizada bajo el número de versión final que Google decida: 3.1, 3.2 o 3.5 Flash. En este punto, el nuevo Pro es el nivel principal y el Flash actualizado se ubica debajo como el caballo de batalla rentable. La brecha entre el nivel público Flash y el nivel público Pro sigue siendo lo suficientemente significativa como para justificar el precio de Pro, pero el piso absoluto de lo que Flash puede hacer ha aumentado dramáticamente.

¿Por qué creo que este es el plan? Porque la brecha que existe actualmente entre el Flash de diciembre de 2025 y el Pro 3.1 es demasiado amplia. Google no quiere un ecosistema de desarrolladores donde Flash sea la opción de presupuesto obvia y Pro sea la opción de calidad obvia sin nada intermedio. Quieren una escalera más estrecha. Quieren que cada nivel se sienta competitivo frente a lo que los laboratorios envían a ese precio. Y quieren que el discurso de apertura de I/O sea el momento en que revelen una línea de productos coherente, no un momento en el que anuncien un nuevo Pro que haga que su Flash actual parezca obsoleto en comparación.

El sigiloso Flash en Arena es el puente. Cierra la brecha antes de I/O para que cuando llegue el nuevo Pro, toda la línea de productos avance junta.

Podría estar equivocado. Quizás el Flash actualizado sea solo una prueba interna del A/B de una variante experimental que no se enviará. Quizás el momento en torno a I/O sea una coincidencia. Pero dado que tenemos tres señales independientes que apuntan a la misma ventana de lanzamiento: la actualización Arena, la notificación empresarial Vertex en 3.1 Flash Lite GA y el discurso de apertura confirmado de Google I/O 2026 del 19 al 20 de mayo en el Shoreline Amphitheater, pondría mi propio dinero en la teoría de las tres etapas.

Nota al margen: noté que el blog de desarrolladores de Google ya mencionó que la codificación agente estará en la agenda de I/O. Eso me dice que la revelación del nivel Pro no se trata solo de la capacidad del modelo en bruto. Estará empaquetado con infraestructura de agentes. Lo que hace que el aumento de capacidad del nivel Flash sea aún más importante, porque la mayoría de las cargas de trabajo de los agentes son sensibles al dólar y Flash es donde residen.

¿Qué haría con esta información si estuviera construyendo ahora mismo?

Si está enviando funciones AI en código de producción en este momento, así es como lo pensaría.

No refactorice nada basándose en el Flash sigiloso. El modelo no está en el API público. No hay SLA. No existe una versión documentada. No puedes ponerlo en un Dockerfile.

Empieza a ejecutar tus indicaciones de referencia en el modo de batalla LMArena. No siempre dibujarás la variante mejorada, pero cuando lo hagas, obtendrás una vista previa de hacia dónde se dirige Google. Esa vista previa vale los pocos minutos de votación y rotación que se necesitan para cazar al modelo.

Reserve aproximadamente el 20 % de su hoja de ruta de funciones AI como capacidad flexible para la ventana de lanzamiento posterior a I/O. Si el Flash actualizado se envía al precio actual de Flash, querrá un sprint o dos de holgura para migrar las cargas de trabajo correctas desde Pro. El ahorro de costos podría ser sustancial: estimaría que los equipos que ejecutan un tráfico de producción intenso podrían ver recortes porcentuales significativos en sus facturas de modelos, pero quiero tener cuidado de no inventar números precisos que no haya medido en cargas de trabajo reales.

No asuma que el Flash actualizado es el mismo que el GA 3.1 Flash Lite que se está implementando en Vertex. Esos son modelos diferentes con diferentes precios. Flash Lite es la oferta de costo mínimo a $0,25 por millón de tokens de entrada y $1,50 por millón de tokens de salida, más barato que el Flash actual, pero de un nivel diferente. El sigiloso Flash en Arena tiene un nivel de capacidad más alto que Lite. El nombre será confuso al menos durante las próximas semanas. Lea atentamente las tarjetas modelo.

Empiece a pensar en qué cargas de trabajo de su pila utilizan Pro porque Flash no era lo suficientemente bueno. Esos son sus candidatos para la migración. Si su patrón de uso es "Pro para generación de código, Flash para clasificación" y el Flash actualizado comienza a manejar la generación de código al 90 % de la calidad de Pro, las matemáticas favorecerán la migración. Cubrí un marco relacionado en mi análisis profundo de Gemini 3.1 Pro: la parte sobre identificar qué tareas realmente necesitan el razonamiento de Pro versus qué tareas solo necesitan un generalista competente.

Lo que estoy viendo entre ahora y I/O

Algunas cosas específicas que seguiré durante las próximas tres semanas. Si está siguiendo las instrucciones, estas son las señales que merecen su atención.

Las páginas de la tarjeta del modelo Vertex AI en docs.cloud.google.com para cualquier variante nueva de Gemini. Google a menudo los actualiza en los días previos a un anuncio importante, y la documentación que aparece antes del discurso de apertura es uno de los indicadores de fugas más confiables de la industria.

La página de precios de Gemini API en ai.google.dev/gemini-api/docs/pricing. Cualquier cambio en el precio del nivel Flash (hacia arriba o hacia abajo) nos dirá cómo Google está posicionando el modelo actualizado. Un precio fijo significa que están absorbiendo el aumento de capacidad. Un pequeño aumento significa que están subiendo de nivel. Una disminución (menos probable) significaría que se están volviendo agresivos en cuanto a la participación empresarial.

El registro de cambios de la tabla de clasificación LMArena. El equipo de arena.ai publica actualizaciones periódicas cuando nuevos modelos se unen a la clasificación, y la aparición de un slug gemini-3.1-flash o gemini-3.5-flash, separado del slug gemini-3-flash existente, confirmaría que el lanzamiento está pasando de ser sigiloso a público.

Y, por supuesto, la propia conferencia magistral Google I/O 2026. 19 de mayo, 10:00 a. m. Pacífico. Ejecutaré toda la transmisión y probaré en vivo cualquier barco. Si quieres leerlo en tiempo real, sígueme: publicaré un hilo una hora después del discurso de apertura y un análisis completo en profundidad dentro de las 48 horas posteriores al lanzamiento.

Preguntas frecuentes

¿Qué es Gemini 3 Flash stealth upgrade en LMArena?

El Gemini 3 Flash stealth upgrade es una variante de modelo no anunciada que Google ha intercambiado silenciosamente detrás del slug gemini-3-flash en el modo de batalla de LMArena, con un rendimiento significativamente más cercano al Gemini 3.1 Pro que al disponible públicamente en diciembre de 2025. Flash. Aún no está disponible a través de Gemini API o Vertex AI. Probarlo requiere el modo de batalla LMArena y aceptar una tasa de coincidencia de aproximadamente uno entre seis.

¿Cuándo se lanzará públicamente el Gemini 3 Flash actualizado?

La ventana de lanzamiento público más probable es desde mediados de junio hasta principios de julio de 2026, después de que Google I/O 2026 del 19 al 20 de mayo revele el próximo modelo de nivel Pro. El patrón de implementación coincide con la cadencia de lanzamiento anterior nivel por nivel de Google: Pro primero, Flash después de seis a ocho semanas después.

¿Gemini 3.1 Flash Lite es lo mismo que el sigiloso Flash en LMArena?

No. Gemini 3.1 Flash Lite es un modelo independiente y documentado que pasó de la versión preliminar a GA en Vertex AI a principios de 2026 a $0,25 por millón de tokens de entrada y $1,50 por millón de tokens de salida. La variante sigilosa Flash en LMArena parece ser un modelo de mayor capacidad que Flash Lite, más cercano al nivel Pro y aún no está disponible como API público.

¿Cuánto cuesta Gemini 3 Flash en comparación con Gemini 3.1 Pro?

Gemini 3 Flash tiene un precio de 0,50 dólares por millón de tokens de entrada y 3,00 dólares por millón de tokens de salida. Gemini 3.1 Pro se encuentra en un nivel sustancialmente más alto: múltiplos de Flash tanto en entrada como en salida. La matemática costo-calidad es exactamente la razón por la cual un Flash actualizado que funcione cerca del nivel Pro cambiaría significativamente la economía de la carga de trabajo de producción del AI.

¿El sigiloso Gemini 3 Flash supera a Gemini 3.1 Pro en todos los puntos de referencia?

No. En mis pruebas, el Flash sigiloso coincidió con 3.1 Pro en el código de interfaz, los elementos visuales de renderizado 3D y la generación SVG, pero quedó atrás de Pro en simulación física y razonamiento complejo de varios pasos. Trátelo como un generalista casi Pro para tareas visuales y de código y quédese con Pro para simulación, orquestación de agentes y trabajo de razonamiento intenso.

Trabajemos juntos

¿Quiere crear sistemas AI, automatizar flujos de trabajo o ampliar su infraestructura tecnológica? Me encantaría ayudar.

Fiverr (compilaciones e integraciones personalizadas): fiverr.com/s/EgxYmWD
Cartera: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y marca): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io

Gemini 3 Flash stealth upgrade: lo probé en LMArena