Resumen de IA 14 de mayo de 2026: Lo que realmente está pasando a seis días del I/O
Son las 7:14 AM del jueves, tengo tres terminales abiertas, una de ellas me está gritando y mi café ya está frío.
La terminal que me grita es Claude Code. Específicamente, es el daemon que ejecuto para uno de mis sitios de marca, el que reconcilia silenciosamente contenido a través de cuatro directorios cada mañana. Hace dos semanas funcionaba en piloto automático por el precio de una sola suscripción Max. Desde el 13 de mayo, ese mismo trabajo empezó a costarme créditos reales de API además de la suscripción — porque Anthropic acaba de separar el uso programático en su propia categoría medida. Mismo agente. Mismo modelo. Mismo prompt. Diferente factura. Todavía estoy calculando las nuevas cuentas.
En otra pestaña, un hilo de Reddit se desarrolla en tiempo real sobre la app de Gemini para iOS de alguien que rotó entre versiones de modelos durante veinticuatro horas y terminó en algo llamado Gemini 3.2 Flash. Hay capturas de pantalla. Hay una interfaz rediseñada con un cuadro de prompt en forma de píldora y un fondo de gradiente pulsante que nadie pidió. Google I/O está a seis días. Las filtraciones no son sutiles.
Y en mi segundo monitor, una publicación de X sobre los robots Helix-02 de Figure está abierta con 14 millones de vistas — una transmisión en vivo donde humanoides completaron un turno entero de 8 horas en un almacén sin un solo humano en el proceso. Cambios de batería. Autodiagnóstico. Coordinación multi-robot mediante señales visuales. La cinta transportadora no se detuvo ni una vez.
Así se ve este resumen de IA del 14 de mayo de 2026 desde mi escritorio. Cuatro laboratorios, una empresa de robótica y una industria al borde de un verdadero avance en Google I/O o de una decepción silenciosamente vergonzosa. Quiero guiarlos por lo que estoy siguiendo, lo que ya he probado, lo que nadie dice en voz alta y lo que haría esta semana si fuera ustedes.
Si quieren el marco más amplio de cómo he estado leyendo mayo de 2026 — la historia de SubQuadratic, la guerra de agentes financieros, el ocaso de Mariner — mi informe de campo de principios de mes prepara el terreno. Este resumen retoma donde aquel terminó.
El escenario: A seis días de la keynote más cargada en dos años
Hay algo que sucede en la semana previa a una gran keynote de IA. Las filtraciones se aceleran. Los laboratorios contraprograman. Los benchmarks se vuelven sospechosos. Los comunicados de prensa se vuelven vagos. Y en algún lugar debajo de todo eso, el ciclo real de producto sigue avanzando, que es donde generalmente vive la historia interesante.
Esta semana fue exactamente eso, en forma comprimida.
Google tiene variantes de Gemini 3.2 en pruebas A/B dentro de la app de iOS, apareciendo en LMArena y AI Studio sin anuncio — exactamente el patrón de actualización sigilosa que rastreé en Flash hace tres semanas. OpenAI tiene GPT-5.6 en pruebas internas bajo dos nombres en clave, con una predicción de Polymarket que sitúa las probabilidades en 89% de un lanzamiento antes del 30 de junio de 2026. Anthropic acaba de lanzar un aumento del 50% en los límites semanales para suscriptores de Claude Code — y casi simultáneamente separó el uso del SDK y GitHub Actions en un pool de créditos pagos separado que tiene a la comunidad furiosa. Figure realizó un turno completamente autónomo de 8 horas ante cámaras. Y en algún lugar del trasfondo, Hermes Agent sigue acumulando silenciosamente como el proyecto de agentes de código abierto más interesante del ciclo.
No son cinco historias inconexas. Es una historia contada desde cinco ángulos diferentes. El cómputo está restringido. A los laboratorios se les acabó el presupuesto de muestras gratuitas. La robótica está alcanzando la curva. Y la pregunta que todo constructor que lee esto debería hacerse es la misma que me hago yo: ¿en cuáles de estos movimientos apuesto esta semana y cuáles espero?
Les muestro en qué estoy apostando. Empiezo con Google, porque la keynote es en seis días y ahí el ruido es más fuerte.
Google: Gemini 3.2 es menos de lo que sugiere la filtración
Esta es la parte del ciclo donde normalmente tengo que luchar contra las ganas de exagerar.
La filtración de Gemini 3.2 Flash es real. Un pequeño número de usuarios de iOS con la versión 1.2026.1710205 de la app vieron el modelo aparecer en su selector. LMArena estaba ejecutando benchmarks silenciosos. El precio reportado — $0,25 por millón de tokens de entrada — es inferior al de Gemini 3.1 Pro y supuestamente iguala gran parte de su capacidad en tareas de programación y creativas. El rediseño de interfaz "Liquid Glass" es una captura de pantalla real, no un mockup de fan. Nada de eso está en disputa.
Lo que quiero cuestionar es el encuadre.
He pasado tiempo esta semana con las variantes filtradas a través de todos los canales alternativos que puedo montar — rotaciones del selector de modelos, la vista previa de AI Studio, algunas de las batallas de LMArena donde surgió el modelo actualizado. Flash es genuinamente impresionante en generación de SVG. Ejecuté mi prompt estándar de control de PS5 y un prompt de control de Xbox Series X y obtuve proporciones precisas en ambos, con colocación correcta de botones y gatillos. Eso es un avance significativo respecto a la línea base original de Gemini 3 Flash que probé en abril. La demo de clonar Mac OS con un solo prompt que circula en X — una interfaz de escritorio con bordes de ventana funcionales, barra de menú y tres apps funcionando en una sola pasada — es real. Reproduje una versión cercana.
Pero esto es lo que no aparece en la cobertura de la filtración. La variante principal de Gemini 3.2 — la que probablemente se marcará como "Pro" en la keynote — no es un salto. En pruebas lado a lado de generación de frontend contra Gemini 3.1 Pro, el modelo actualizado en realidad produjo patrones de UI más repetitivos. Tarjetas con la misma estructura de esquinas-redondeadas-píldora-botón-ícono. Secciones hero que todas riman. Una leve regresión hacia el tipo de salida de diseño que esperarías de un modelo dos generaciones más viejo. Probé los mismos prompts en Claude Opus 4.7 y la diferencia no fue sutil.
Los nombres en clave internos son aún más interesantes. Hay al menos otras dos variantes apareciendo en pruebas de canal lateral — llámenlas Sprite y Cola, porque así aparecen en los logs de enrutamiento. La variante Cola funciona con un esfuerzo de razonamiento notablemente mayor y produce mejores resultados en tareas de contexto largo. Esa podría ser la que reciba la insignia "Deep Think" o "Ultra" en la I/O. Sprite parece un nivel medio optimizado para velocidad que probablemente se convierta en el reemplazo de Flash en la alineación.
Mi lectura honesta de lo que Google lanza el 19 o 20 de mayo: una actualización real y útil de Flash con fuerte generación de SVG y UI de un solo prompt. Un modelo Pro que es incremental, no transformador. Una variante Deep Think o Ultra que hace el trabajo pesado en las diapositivas de benchmarks. Las expectativas públicas de un salto estilo Sonnet 4.6 son demasiado altas. Yo calibraría a la baja.
Hay otra cosa que se filtra de Google que nadie está enmarcando correctamente aún.
El modelo de video Omni es la verdadera historia
Gemini Omni se filtró en línea esta semana — posiblemente Veo 4, posiblemente una línea de productos separada, la nomenclatura aún no está clara. Las demos que han surgido muestran edición de video y modificación de escenas con el tipo de preservación de movimiento y consistencia estructural que las generaciones anteriores de Veo no podían mantener entre cortes. Los rostros permanecen correctos entre cambios de ángulo. La geometría del fondo sobrevive a los movimientos de cámara. La permanencia de objetos es más nítida que cualquier cosa que haya visto de Sora 2 o Kling 3.0 con los mismos prompts.
Aún es muy temprano. Las demos son cortas. No hay acceso público. Las manos y los detalles de movimiento fino aún se desvían en lugares donde esperarías que un modelo de frontera se mantuviera estable. Pero la trayectoria es clara, y si Google lanza cualquier versión de esto en la I/O con un nivel de uso razonable, cambia la pipeline de video que he estado ejecutando para una de mis marcas.
Mi apuesta: Omni recibe un adelanto en la I/O, no un lanzamiento completo. Acceso de vista previa limitado. Lanzamiento real para el Q3.
Eso cubre Google por ahora. Pasemos al laboratorio que está haciendo más ruido en los canales de Slack de desarrolladores esta semana.
Anthropic: Un aumento de límites del 50%, un recorte efectivo de 10x y un problema de confianza
Voy a intentar muy fuerte escribir esta sección sin desahogarme.
Probablemente fracasaré.
Anthropic lanzó dos cosas casi simultáneamente el 13 de mayo que tiran en direcciones opuestas, y no se puede entender una sin la otra. Les presento ambas y luego les digo qué significa realmente en mi escritorio.
La buena noticia: los límites semanales subieron un 50% hasta el 13 de julio. Anthropic anunció que los límites semanales de Claude Code reciben un aumento del 50% para usuarios Pro, Max, Team y Enterprise basados en puestos, vigente hasta el 13 de julio de 2026. El plan gratuito está excluido. Esto se suma a una duplicación de límites a principios de mayo, financiada en parte por una nueva asociación de cómputo con SpaceX. Sobre el papel, un usuario Max ahora tiene aproximadamente 3 veces el presupuesto semanal de Claude Code que tenía a mediados de abril. Eso es genuinamente significativo para el trabajo de programación interactiva diaria — el tipo de trabajo donde estás sentado en una terminal, escribiendo prompts, revisando diffs, desplegando.
La mala noticia: el uso programático acaba de abandonar el edificio. En la misma ventana de tiempo, Anthropic separó el Agent SDK, GitHub Actions, claude -p y cualquier agente de terceros en un pool de créditos separado y medido. Las cargas programáticas ahora consumen de un cupo mensual fijo de entre $20 y $200 según tu plan, facturado a precios de API, sin acumulación, expira al final del mes. Si lo agotas, pagas precios de API además de tu suscripción.
Si solo usas Claude Code interactivamente en una terminal, esto es una ganancia neta. Obtienes 50% más de margen y tu factura no cambia.
Si ejecutas automatización — y muchos de los que leen esto ejecutan automatización — tu uso efectivo acaba de ser recortado entre 10x y 40x.
Seré específico. Tengo varios setups autónomos distribuidos entre mis marcas. Uno es un agente de reconciliación de contenido que se ejecuta cada noche en los cuatro sitios. Otro es un monitor SEO por hora para uno de mis proyectos de clientes. Otro es un patrón de subagentes bifurcados que construí a principios de año para análisis paralelo de bases de código. Hace dos semanas, esas cargas de trabajo se ejecutaban dentro de los límites diarios y semanales de mi suscripción Max — lo que significaba que el costo marginal de cada ejecución era efectivamente cero después de mi tarifa plana. Hoy, esas cargas consumen de un cupo de créditos SDK mensual de $200 a precios de tokens API. El agente de reconciliación de marcas por sí solo va camino de agotar ese cupo en once días.
No soy el único que siente esto. El hilo de la comunidad sobre este cambio tiene varios miles de respuestas en Reddit y X. La narrativa dentro de Anthropic parece ser que los usuarios programáticos estaban aprovechando arbitraje en la suscripción — lo cual es técnicamente cierto, particularmente los setups estilo OpenClaw que permitían a los usuarios enrutar cargas de agentes sin cabeza a través de un plan Pro de $20. Desde una perspectiva pura de economía unitaria, Anthropic tiene razón en que esos flujos eran insostenibles. La separación tiene sentido comercial.
El problema no es la separación. El problema es cómo se lanzó.
Se lanzó el mismo día que el anuncio del aumento del 50%, lo que hizo que el titular dijera "¡Los límites de Claude Code suben!" mientras que la experiencia real para la mitad de la base de usuarios fue "tu automatización existente acaba de encarecerse 10x." La transparencia sobre qué contaría y qué no contra el nuevo pool de créditos fue escasa durante las primeras 24 horas. La ruta de migración para cargas programáticas existentes aún se está definiendo. Y el mensaje subyacente — "tenemos restricciones de cómputo, así que los que ejecutan agentes son los que pagan" — no cuadra con la narrativa del acuerdo de cómputo con SpaceX.
Esta es mi lectura honesta. Anthropic está lidiando con una escasez de cómputo real y estructural. Los niveles de esfuerzo de razonamiento en Opus 4.7 se han reducido silenciosamente en los planes de suscripción desde finales de abril, razón por la cual algunos de ustedes han notado que el comportamiento del modelo se degrada en tareas de larga duración. La facturación dividida es una forma de mantener el producto interactivo con margen positivo mientras se cobra el uso programático a su costo real. Eso es racional. Lo que no es racional es cómo el lanzamiento trató a los desarrolladores que construyeron productos reales sobre el modelo de precios anterior de Claude Code.
Sigo usando Claude Code a diario. No estoy cambiando. Pero he movido tres cargas de trabajo a un setup híbrido donde el trabajo programático pesado pasa por Gemini 3.1 Pro en AI Studio (todavía efectivamente gratis para el volumen que necesito) y el trabajo de programación interactiva se queda en Claude Opus 4.7. El SDK de agentes de Anthropic sigue siendo la superficie de API más limpia para construir — solo soy más cuidadoso con qué trabajos justifican su precio premium.
El punto positivo de Anthropic esta semana es genuinamente útil.
El Modo Rápido ahora es el predeterminado en Opus 4.7
Fast Mode para Claude Code — la configuración de velocidad 2.5x que ejecuta Opus a mayor costo por token sin cambio de calidad — se convirtió en el modelo predeterminado de Fast Mode en Opus 4.7 a partir de hoy, 14 de mayo. Se activa con /fast en el CLI. Requiere Claude Code v2.1.139 o posterior.
He estado ejecutando Fast Mode en Opus 4.6 durante semanas. Activarlo para Opus 4.7 es, francamente, absurdo. Los tiempos de respuesta en una refactorización de múltiples archivos que normalmente supervisaría bajaron de aproximadamente 90 segundos a unos 36. La salida del modelo es idéntica al Opus 4.7 sin modo rápido en todo lo que he comparado. El compromiso es real — Fast Mode consume créditos de uso extra, no de tu pool de suscripción — así que no querrás activarlo para todo. Para programación interactiva donde realmente estás esperando respuestas, vale el costo extra. Lo desactivo para ejecuciones autónomas largas.
Consejo profesional: combina Fast Mode con el setup de flujo de trabajo basado en skills que he estado usando y la velocidad se vuelve legítimamente incómoda de buena manera. El modelo genera más rápido de lo que puedo leer.
Eso es Anthropic. Pasemos al otro laboratorio que tuvo una semana real de manera silenciosa.
OpenAI: GPT-5.6 está en pruebas, y hay una super-app escondida
OpenAI no lanzó un modelo esta semana. Están demasiado ocupados probando el siguiente.
GPT-5.6 está en pruebas internas completas bajo dos nombres en clave que aparecieron en logs de desarrolladores y en la rotación de modelos anónimos de LMArena: Ember Alpha y Beacon Alpha. El sufijo "-alpha" es significativo en el patrón de lanzamiento de OpenAI. Tiende a aparecer de cuatro a seis semanas antes de un lanzamiento público. Combinando eso con la predicción de Polymarket del 89% para un lanzamiento de GPT-5.6 antes del 30 de junio, las cuentas apuntan a mediados de junio.
Lo que quiero destacar aquí es lo que está cambiando en el proceso de pruebas mismo.
OpenAI está ejecutando ciclos de red-teaming y evaluación de seguridad notablemente más largos en GPT-5.6 que los que hizo en GPT-5.5. Los puntos de control internos han sido visibles en logs de Codex durante semanas, pero las ventanas de prueba están extendidas. Múltiples regímenes de razonamiento están siendo evaluados comparativamente bajo diferentes ajustes de seguridad antes de que el modelo se acerque a una decisión de lanzamiento público. Esto es, en mi lectura, una respuesta directa a las divulgaciones de métricas de alucinación post-GPT-5.5 — donde GPT-5.5 Instant redujo las alucinaciones un 52.5% en dominios de alto riesgo, y la empresa se comprometió silenciosamente a hacer de eso la línea base en adelante.
Creo que GPT-5.6 sale con un piso de alucinaciones notablemente mejor que GPT-5.5. No creo que salga con un salto dramático de inteligencia. El ciclo Spud fue el salto de inteligencia. Este ciclo se trata de confiabilidad.
También hay un adelanto circulando sobre una posible nueva super-app de OpenAI llamada CodeX — con mayúsculas como nombre de producto, no el Codex CLI existente. Los detalles son escasos. Algunas capturas de pantalla, algunas descripciones vagas de "un espacio de trabajo unificado para programación, investigación y operaciones." Podría ser un rebrandeo del paraguas Codex existente con una superficie de consumidor pulida. Podría ser la superficie browser-first que cubrí la semana pasada obteniendo un envoltorio de producto real. Podría no ser nada.
Mi instinto: es la productización del stack de extensión de Chrome Codex + devbox remoto en algo que un no-desarrollador pueda usar. Si OpenAI apunta a la capa del sistema operativo — y la evidencia del 9 de mayo sugería fuertemente que sí — el siguiente paso es envolver el stack de agentes en una superficie de app amigable para el consumidor. Mediados de junio sería una ventana lógica. Veremos.
Lo que estoy haciendo al respecto esta semana: nada. No estoy migrando cargas de trabajo a OpenAI antes de un modelo que no he probado. Mantengo Codex instalado y fijado en mi dock, y ejecutaré mi batería de pruebas estándar el día que GPT-5.6 aterrice. Si supera un umbral específico de confiabilidad — medido contra mi propio set de evaluación interno, no diapositivas de benchmarks — reequilibraré algunas cargas de trabajo entonces.
Esos son los tres grandes laboratorios. Ahora quiero dedicar un momento a la historia sobre la que casi nadie en mi feed está gritando, porque creo que debería ser el verdadero titular de la semana.
Figure AI: El turno de 8 horas acaba de suceder, y deberías reflexionar sobre ello
Quiero que imagines el almacén por un segundo.
Distribución estándar. Cinta transportadora corriendo por el medio. Pilas de cajas entrando por un lado, paquetes saliendo por el otro. Un equipo normal para operar esto sería de seis a ocho humanos en el piso, más un gerente, más una persona de mantenimiento de guardia. Un turno son ocho horas. Tomas descansos. Rotas personal. Lidias con el inevitable atasco en la línea cada cuarenta minutos aproximadamente.
Ahora imagina el mismo almacén sin humanos en el piso durante ocho horas seguidas.
Eso es lo que Figure AI transmitió en vivo la semana pasada. Una flota de robots humanoides Helix-02 completó un turno completo de 8 horas moviendo paquetes a una cinta transportadora — detectando códigos de barras en cajas entrantes, recogiendo los paquetes, reorientándolos para que los códigos de barras queden hacia abajo, colocándolos en la línea. Operación continua. Sin teleoperación. Sin humanos en el proceso.
La red neuronal del Helix-02 hace todo con inferencia a bordo. Sin viaje de ida y vuelta a la nube. Los robots ven a través de sus cámaras, razonan sobre lo que están viendo, planifican sus movimientos, ejecutan. Cuando un robot detectó un problema con su propio rendimiento, se autodiagnosticó y caminó autónomamente al área de mantenimiento para solicitar un reemplazo de flota. Los otros robots ajustaron su flujo de trabajo para cubrir la brecha. La cinta transportadora nunca se detuvo.
Se coordinan visualmente. No hay comunicación verbal, ningún protocolo de mensajería interno que se pueda leer con un sniffer de red. Se miran entre sí, observan el estado de la línea y se ajustan. Como un equipo de almacén humano que ha trabajado junto durante dos años se coordina sin hablar.
Tres cosas de esto me importan como constructor, no como entusiasta de la robótica.
Uno: la inferencia sucede en el dispositivo. Esa es la parte que debería poner nerviosos a los proveedores de IA en la nube. Si un envolvente de cómputo de clase 1.5kW puede ejecutar un modelo de visión-lenguaje-acción lo suficientemente bueno para 8 horas de manejo de paquetes, la cola larga de la IA del mundo físico no necesita un clúster de inferencia de mil millones de dólares. Necesita un chip y una fuente de alimentación. La economía de la IA física acaba de divergir de la economía de la IA en la nube de manera significativa.
Dos: la coordinación multi-agente es emergente. Los robots no fueron preprogramados para asentir entre sí. La coordinación visual surgió del entrenamiento. Es el mismo patrón que he estado observando en setups de codificación multi-agente durante los últimos seis meses — una vez que dejas que los agentes observen el estado del otro, comienzan a coordinarse de maneras que el entrenamiento original no especificó explícitamente. Estamos viendo el mismo comportamiento emergente aparecer en el espacio físico.
Tres: la implicación laboral ya no está a 18 meses de distancia. He estado escribiendo sobre la cuestión de IA y empleo durante un año. El contraargumento convencional siempre ha sido "sí, pero el trabajo físico está seguro por otra década." Ese argumento se debilitó esta semana. Un turno de manejo de paquetes no es un experimento mental. Es una categoría real de empleo en almacenes. Hay un estimado de 1.7 millones de manipuladores de paquetes solo en EE.UU. La economía unitaria de un robot Figure 03 a escala está entre $30,000 y $50,000 por unidad amortizados durante su vida útil — muy por debajo del costo total de un trabajador humano haciendo el mismo trabajo durante el mismo período.
No digo nada de esto para ser catastrofista. Lo digo porque el ciclo avanza más rápido que la conversación política. Si no has empezado a pensar en qué hace tu negocio que sea defendible en el mundo físico, esta semana es un recordatorio para empezar.
Eso cubre Figure. Repasemos el resto de lo que se mueve esta semana.
Notas breves: Jules, Hermes y la capa de código abierto
Dos cosas que vale la pena señalar y que no tuvieron su propia sección.
El acceso anticipado a Google Jules V2 está abierto. El formulario se publicó para lo que Google posiciona como "una plataforma de desarrollo de productos agénticos de extremo a extremo." La mejora más importante que todos esperan: operación continua, incluso cuando el dispositivo del usuario está desconectado. Si Jules V2 se lanza con ejecuciones de agentes persistentes verdaderamente del lado del servidor — donde puedes cerrar tu portátil, irte cuatro horas y volver a encontrar el trabajo hecho — eso es una respuesta competitiva a la dirección de Codex y Claude Code. La lista de espera es lo correcto por ahora. Estoy en ella. No estoy apostando ningún trabajo de producción en Jules hasta que pueda ejecutar mi batería de pruebas estándar contra V2.
Hermes Agent sigue siendo el proyecto de código abierto más interesante del ciclo. El ciclo de auto-mejora — donde Hermes observa sus propias completaciones exitosas de tareas, las abstrae en "trayectorias" reutilizables y mejora progresivamente en tus flujos de trabajo específicos — sigue lanzando actualizaciones. Las integraciones de proveedores se han ampliado. Y circulan informes de que el modelo Qwen 3.6 Plus se ofrece gratis dentro de Hermes a través de una asociación con un portal de noticias por tiempo limitado. (Nota: el material fuente me llegó como "Coin 3.6 Plus" — estoy casi seguro de que es Qwen 3.6 Plus, dada la línea de modelos y el timing. Si ven referencias a cualquiera de los dos, apuntan a lo mismo.) Para constructores que ejecutan setups de agentes de código abierto, Hermes está ahora firmemente en la misma conversación que los jugadores propietarios. Eso no era cierto hace seis meses.
Ese es el campo. Cierro con la parte por la que vinieron — lo que realmente haría esta semana.
Lo que haría esta semana como constructor
A seis días de Google I/O. El modelo de facturación de Anthropic moviéndose bajo tus pies. GPT-5.6 asomándose. Este es el plan.
No migrar prematuramente. El error más costoso que veo cometer a los constructores en semanas como esta es apresurarse a cambiar de stack antes de una keynote que aún no ha sucedido. Las filtraciones de Gemini 3.2 son reales, pero no son el producto final. Los nombres en clave de GPT-5.6 son reales, pero el modelo no está en producción. Esperar. Dejar que el polvo se asiente. Ejecutar tu stack existente una semana más.
Audita tu automatización de Claude Code hoy. Específicamente: abre todas las cargas programáticas que tengas ejecutándose en Claude — scripts SDK, GitHub Actions, trabajos sin cabeza de claude -p, agentes de terceros — y cálculalos con los nuevos precios del pool de créditos. Si encuentras una carga que va a agotar tu cupo mensual de $20 a $200 en dos semanas, tienes una decisión que tomar: pagar la prima API, migrar la carga a un proveedor más barato para el trabajo pesado, o reestructurarla para que haga menos. Hazlo antes del 31 de mayo.
Prueba Fast Mode en Opus 4.7 si haces programación interactiva. La aceleración de 2.5x es real. La calidad no cambia. El costo de uso extra es contenido si lo desactivas para ejecuciones autónomas largas. Esta es la mayor ganancia de velocidad de flujo de trabajo disponible para usuarios de Claude Code esta semana. Ejecuta /fast en tu CLI. Hazlo un hábito. (Requiere v2.1.139 o posterior — verifica con claude --version.)
Si haces trabajo de frontend con IA, ejecuta tus prompts estándar en Gemini 3.2 Flash esta semana. A través de AI Studio, a través de cualquier canal alternativo que tengas. La generación de SVG es fuerte. El scaffolding de UI con un solo prompt es particularmente fuerte en Flash. Para secciones hero bosquejadas, diagramas de controladores, sets de íconos, esqueletos de dashboards — Flash es genuinamente competitivo en costo por output ahora mismo. Guarda los tokens de Pro y Opus para el trabajo real.
Mira la keynote de I/O con un cuaderno abierto. El 19 o 20 de mayo, lo que estaré observando no es el modelo principal. Es la profundidad de la historia de agentes que Google cuente. Específicamente: ¿recibe Gemini Agent una revelación real de plataforma? ¿Recibe Omni un nivel de uso? ¿Recibe Jules V2 una fecha de lanzamiento? Esas tres señales me dirán más sobre la posición real de Google en la carrera del sistema operativo que cualquier diapositiva de benchmarks.
Y hagas lo que hagas esta semana, no dejes pasar la demo de Figure sin dedicarle una hora de reflexión. Mira la repetición del livestream. Presta atención a los momentos donde un robot se autodiagnostica y camina hacia mantenimiento. Presta atención a cómo los otros se ajustan sin perder el ritmo en la línea. Así se ve un sistema multi-agente emergente en el mundo físico, y se convirtió en algo real esta semana. Hace seis meses, eso era una demo de investigación. Hoy es una trayectoria de producto.
La opinión honesta
Esto es lo que creo que realmente está pasando, si hago zoom hasta el máximo.
A los laboratorios se les acabó el presupuesto de muestras gratuitas. Acuerdos de cómputo con SpaceX, contratos del Pentágono, uso programático siendo reajustado, ciclos de red-teaming más largos, nombres en clave internos ocultando experimentos de precios — todo esto apunta a la misma realidad subyacente. Estamos al final de la fase donde cada gran laboratorio de modelos absorbe pérdidas de cómputo para captar la atención de los desarrolladores. Los próximos doce a dieciocho meses van a parecerse mucho más a la economía normal de SaaS, con todos los compromisos que eso implica. Los niveles gratuitos se reducirán. El uso programático se cobrará a costo. Las suscripciones interactivas se mantendrán. Las ventanas de arbitraje que construyeron el boom de agentes de código abierto de principios de 2026 se están cerrando.
Las keynotes que veas en las próximas seis semanas — Google I/O el 19-20 de mayo, la revelación de GPT-5.6 de OpenAI a mediados de junio, la respuesta de Anthropic a lo que Google lance — van a ser el momento en que la industria decida cómo se ve realmente la capa de producto con precio incluido. El todo-gratis se acaba. Los precios se estabilizan. La diferenciación se medirá en calidad de flujo de trabajo, confiabilidad y las partes del stack que cada laboratorio realmente posee.
Y debajo de todo eso, Figure completó un turno completo de almacén sin humanos en el proceso. Que es el tipo de cosa que, en una semana diferente, habría sido la única historia de la que todos hablaran.
Así se ve el 14 de mayo de 2026 desde mi escritorio. A seis días de una keynote. Una semana después del reset de precios de Anthropic. Una rotación de filtraciones en el nuevo selector de modelos de Google. Un livestream hacia un futuro de IA física que llegó más rápido de lo que esperaba.
Escribiré de nuevo después de la I/O. Si están ejecutando algo en producción sobre estos modelos, aseguren las escotillas.
Van a ser seis días ruidosos.
Preguntas frecuentes
¿Cuándo se lanza Gemini 3.2?
Gemini 3.2 se lanzará con mayor probabilidad en Google I/O 2026 el 19-20 de mayo. La variante Flash se ha estado filtrando a través de la app de Gemini para iOS y LMArena durante más de una semana, y el patrón de Google es anunciar formalmente modelos que ya están ejecutándose en pruebas A/B de producción. Espera un nivel Pro junto a Flash, más una posible variante Deep Think o Ultra.
¿Qué cambió con los límites de Claude Code en mayo de 2026?
Anthropic elevó los límites semanales interactivos de Claude Code un 50% del 13 de mayo al 13 de julio de 2026. Al mismo tiempo, el uso del Agent SDK, GitHub Actions, claude -p y llamadas de agentes de terceros se movieron a un pool de créditos medido separado de $20-$200 por mes según el plan, facturado a precios de API. La programación interactiva se abarató. El uso programático se encareció dramáticamente.
¿GPT-5.6 sale pronto?
GPT-5.6 está en pruebas internas bajo los nombres en clave Ember Alpha y Beacon Alpha, con Polymarket prediciendo un 89% de probabilidad de lanzamiento antes del 30 de junio de 2026. Mediados de junio es la ventana de lanzamiento más probable. Espera una reducción significativa de alucinaciones respecto a GPT-5.5 en lugar de un salto dramático de inteligencia.
¿Qué demostró Figure AI con Helix-02?
Figure AI transmitió en vivo una flota de robots humanoides Helix-02 ejecutando un turno de almacén completamente autónomo de 8 horas de clasificación de paquetes en una cinta transportadora. La coordinación fue multi-robot y solo visual, sin teleoperación. Los robots autodiagnosticaron fallas, solicitaron reemplazos e intercambiaron baterías autónomamente. Toda la inferencia se ejecutó en el dispositivo sin viaje a la nube.
¿Cómo funciona el Fast Mode de Claude Code en Opus 4.7?
Fast Mode ejecuta Claude Opus 4.7 con una configuración de API optimizada para velocidad, produciendo una salida de calidad idéntica a 2.5x la velocidad por un mayor costo por token. Se activa con /fast en Claude Code v2.1.139 o posterior. En planes de suscripción, Fast Mode consume créditos de uso extra en lugar del pool de límite de tasa de suscripción.
Trabajemos juntos
¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudar.
- Fiverr (desarrollos e integraciones personalizadas): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (soluciones empresariales): ramlit.com
- ColorPark (diseño y branding): colorpark.io
- xCyberSecurity (servicios de seguridad): xcybersecurity.io