AI esta semana: GLM-5.2, Fable 5, Diffusion Gemma

Tres cosas aterrizaron en mi bandeja de entrada en unas 72 horas, y cada una rompió en silencio una suposición que había cargado durante meses.

Un laboratorio chino lanzó una ventana de contexto de un millón de tokens con los pesos bajo una licencia MIT. Google lanzó un modelo de lenguaje que no genera texto un token a la vez. Y una fábrica de robots humanoides en California dejó de ser un render y se convirtió en un edificio con 200 personas dentro. Cualquiera de esas sería titular en una semana normal. Este resumen semanal de AI es mi intento de darle sentido a todo a la vez — no como un repetidor de notas de prensa, sino como un ingeniero en activo que clasifica cuál de estas cosas realmente cambia mi lunes y cuál es ruido disfrazado de señal.

Seré directo sobre lo que probé versus lo que leí. Algunos lanzamientos de esta semana pude probar con mis manos. Algunos — como los pesos abiertos de GLM-5.2 — literalmente no se pueden descargar aún mientras escribo esto. Lo señalaré cada vez, porque la forma más rápida de perder tu confianza es fingir que hice benchmark de algo cuya ficha técnica solo leí. Vamos a recorrer la semana como la procesé realmente: en orden de cuánto movió mi forma de pensar.

GLM-5.2 y la ventana de contexto de 1M que nadie vio venir

Empecemos con el que me hizo releer el anuncio dos veces.

El 13 de junio de 2026, Z.ai (la escisión de Zhipu AI) anunció GLM-5.2 con una ventana de contexto utilizable de un millón de tokens — un salto de 5x respecto a los 200K de GLM-5.1. La palabra "utilizable" está haciendo trabajo real en esa frase, y volveré a por qué. El modelo se activó inmediatamente para usuarios del GLM Coding Plan, con acceso a API, chatbot, y pesos abiertos bajo licencia MIT, todo prometido para "la próxima semana."

Detente un momento en la licencia. MIT. No una licencia comunitaria personalizada con cláusula de ingresos. No "pesos abiertos, uso comercial restringido." MIT — la misma licencia permisiva bajo la que se distribuye tu paquete npm favorito. Un modelo cercano a la frontera con una ventana de un millón de tokens, libre para descargar, modificar y desplegar comercialmente, con el laboratorio absorbiendo el coste de entrenamiento. Esa combinación no existía en código abierto hace dieciocho meses. Apenas existía hace dieciocho días.

Aquí está por qué la ventana de contexto importa específicamente, y por qué soy cauteloso con la cifra del titular al mismo tiempo. La mayoría de las afirmaciones de "contexto largo" son un truco de magia. El modelo acepta una entrada enorme pero deja de prestar atención genuina a la mitad — pegas 400 páginas, preguntas sobre la página 230, y responde basándose en la página 12 con total confianza. Cubrí exactamente este modo de fallo en mi primera mirada a MiniMax M3, que también reclama una ventana de 1M. Lo interesante del enfoque de GLM-5.2 es que Z.ai está afirmando explícitamente retención a lo largo de toda la ventana, no solo aceptación — y dicen que lo entrenaron con un nuevo algoritmo asíncrono de reinforcement learning de agentes en más de 10.000 entornos verificables en nueve lenguajes de programación.

Ese detalle de entrenamiento es la parte que realmente creo que se sostendrá, más que cualquier benchmark individual. El trabajo de agentes de largo horizonte — del tipo donde el modelo corre durante una hora, hace cien llamadas a herramientas y tiene que recordar lo que decidió en el paso 4 cuando llega al paso 90 — vive y muere por la retención de contexto. Si GLM-5.2 genuinamente mantiene la comprensión a lo largo de la ventana, esa es la clave, no el conteo bruto de tokens.

Las demos que circularon esta semana se apoyaron en desarrollo web y, de todas las cosas, un clon de Minecraft con generación infinita de terreno desde un solo prompt. Admito que las demos de terreno infinito me generan escepticismo por reflejo — son visualmente impresionantes y fáciles de cherry-pickear. Pero la lógica de generación procedural en un sandbox de voxels funcional es una tarea de codificación agéntica genuinamente difícil: gestión de estado, carga de chunks, matemáticas de coordenadas que tienen que mantenerse consistentes. No es poca cosa.

Sobre qué reservo mi juicio hasta que aparezcan los pesos: multimodalidad real (no hay visión nativa en el lanzamiento), y cómo se comportan los dos ajustes de "intensidad de pensamiento" bajo carga. Dos niveles de razonamiento es una decisión de producto inteligente — la mayoría de mis prompts no necesitan razonamiento profundo, y pagar el impuesto de latencia en todos es un desperdicio — pero quiero ver si el ajuste más ligero se mantiene coherente o simplemente se vuelve rápido y descuidado.

Aquí está el bucle abierto que resolveré más adelante en este resumen: GLM-5.2 pasándose a MIT es uno de tres movimientos esta semana que apuntan al mismo cambio en quién controla la capacidad de frontera. Guarda ese pensamiento.

Claude Fable 5: el benchmark es empate, la factura no

Este es con el que más tiempo práctico real tengo, porque he estado viviendo en Fable 5 para trabajo de codificación desde su lanzamiento.

Si has leído mi registro de construcción sobre producción autónoma de video con Fable 5 o mi build del conector Clay para outreach, ya sabes que lo considero el modelo de codificación agéntica más fuerte que he usado. Esta semana los números de benchmark alcanzaron esa sensación instintiva, y una comparación en particular merece que la mires fijamente.

En SWE-bench Pro — el benchmark de codificación agéntica más difícil de Anthropic, no el set Verified más amigable — Fable 5 puntúa 80,3%, la puntuación más alta de cualquier modelo probado, por delante del 69,2% de Opus 4.8. En SWE-bench Verified alcanza el 95,0%. Son números reales, reportados independientemente, no el deck de marketing de Anthropic.

Pero el encuadre de la fuente que inició este resumen es a lo que sigo volviendo. En un benchmark profundo de ingeniería de software para tareas genuinamente complejas, Fable 5 aterriza aproximadamente empatado con el modelo top de clase GPT-5.5 — misma tasa de éxito — a un coste por tarea radicalmente diferente. Hablamos de la diferencia entre unos diez dólares y varios cientos de dólares para resolver la misma tarea. Incluso si tratas las cifras exactas en dólares como aproximadas (el coste por tarea oscila con el uso de tokens, así que no me juego el cuello en un número preciso), la diferencia de un orden de magnitud es la historia.

Déjame traducir eso a una decisión que realmente enfrentarás. Cuando dos modelos empatan en capacidad, toda la elección se reduce a economía y ergonomía. Fable 5 tiene un precio de $10 por millón de tokens de entrada y $50 por millón de salida — el doble de los $5/$25 de Opus 4.8, y no es barato en términos absolutos. Así que esto no es "Fable 5 es la opción económica." Es más sutil: en las tareas más difíciles, donde una ejecución autónoma fallida desperdicia más dinero en tokens quemados que la diferencia de precio, el modelo más capaz es el más barato. Un modelo que completa tu refactorización nocturna al primer intento por $10 le gana a un modelo que necesita tres intentos de $4 y aún te entrega algo roto.

Ese es el modelo mental con el que quiero que salgas de esta sección: en trabajo de dificultad de frontera, la capacidad es una función de control de costes. Las ejecuciones fallidas son el gasto real, y son invisibles hasta que sumas un mes de ellas.

Si estás intentando elegir un modelo de codificación ahora mismo, aquí va la versión compacta: usa el modelo más barato para ediciones rutinarias donde un reintento no cuesta nada, y reserva Fable 5 para grandes refactorizaciones, ejecuciones autónomas nocturnas y bugs de dificultad de frontera donde una respuesta incorrecta se propaga en cascada. La comparación precio-por-token es una trampa; la comparación precio-por-tarea-completada es la verdad.

Una actualización más que merece señalarse, porque es una decisión de valores disfrazada de feature. Fable 5 recibió una actualización que hace sus protecciones visibles — cuando el modelo rechaza o retrocede ante una solicitud, ahora ves el evento de retroceso en lugar de obtener comportamiento silencioso y misterioso. Me gusta genuinamente esto. La cantidad de horas que he perdido con "por qué el modelo de repente se volvió peor en esto" solo para descubrir que una protección invisible se había activado... la transparencia ahí es una mejora real de calidad de vida. La contrapartida honesta: protecciones visibles probablemente significan más falsos positivos visibles. Lo verás rechazar cosas que no necesitaba rechazar. Prefiero ver el falso positivo que depurar un fantasma. Tu tolerancia puede diferir, y ese es un desacuerdo legítimo.

Si prefieres que alguien construya un flujo de trabajo de codificación agéntica alrededor de modelos como este en lugar de ajustarlo tú mismo, ese es el tipo de trabajo de integración que tomo — puedes ver lo que he entregado en fiverr.com/s/EgxYmWD.

DiffusionGemma: Google construyó un modelo que no escribe de izquierda a derecha

Ahora el arquitectónicamente raro, que encuentro más interesante que cualquier otra cosa esta semana aunque aún no puedo ejecutarlo completamente.

El 10 de junio de 2026, Google DeepMind lanzó DiffusionGemma bajo Apache 2.0, con pesos en Hugging Face. La razón por la que importa no tiene nada que ver con benchmarks y todo que ver con cómo genera texto. Cada modelo estilo GPT que has usado escribe un token a la vez, de izquierda a derecha, cada token condicionado por el anterior. DiffusionGemma no. Usa difusión discreta — desruidificando bloques de 256 tokens en paralelo, la misma familia de técnicas que impulsa los generadores de imágenes, aplicada al lenguaje.

¿Por qué importa la generación de texto basada en difusión?

La generación de texto basada en difusión produce múltiples tokens simultáneamente en lugar de uno a la vez, razón por la cual DiffusionGemma puede alcanzar velocidades que un modelo autorregresivo estructuralmente no puede. Google reporta más de 1.000 tokens por segundo en una sola Nvidia H100 — hasta 4x más rápido que modelos autorregresivos comparables — y 700+ tokens por segundo en una RTX 5090 de consumo. El modelo es un 26B mixture-of-experts que activa solo 3,8B parámetros en inferencia, así que se cuantiza para caber en un presupuesto de VRAM de 18GB.

Lee esa última frase otra vez, porque es la parte que debería hacerte prestar atención: un modelo así de rápido, corriendo en una tarjeta que un hobbyista serio puede realmente poseer.

Aquí es donde tengo que ser honesto en lugar de hacer hype. No he logrado que DiffusionGemma corra localmente, y la razón es instructiva: el módulo drafter personalizado que necesita para inferencia local no existe en ningún runtime público todavía. Ni en mlx-lm, ni en LM Studio. A día de hoy es efectivamente inejecutable en la mayoría de configuraciones de consumo a pesar de que los pesos son públicos. Así que cuando veas posts sin aliento sobre "corre un modelo de 1000 tok/s en tu PC gaming esta noche", eso es aspiracional, no real. Espero que el soporte de runtime llegue — hay demasiada demanda para que no — pero hoy la velocidad es una especificación, no una experiencia que pueda verificar por ti.

Y hay un coste real a la velocidad, horneado en la arquitectura. La generación de texto por difusión intercambia precisión por rendimiento. DiffusionGemma alucina más que Gemma 4 estándar. El propio posicionamiento de Google es refrescantemente directo sobre esto: úsalo para tareas críticas en velocidad y no factuales — edición de código, reformateo de texto, transformación masiva — y no lo uses donde la precisión factual importa. Respeto un lanzamiento que te dice en qué es malo su modelo. Si ejecutas modelos locales, ya conoces este cálculo de configurar herramientas como Gemma 4 en LM Studio — elegir el modelo correcto para la tarea correcta le gana a perseguir un modelo que hace todo mediocremente.

Mi opinión honesta: DiffusionGemma es el lanzamiento arquitectónico más importante de la semana y simultáneamente el producto menos inmediatamente útil de la semana. Es una declaración de investigación de que el monopolio autorregresivo sobre la generación de lenguaje tiene una grieta. La primera vez que un modelo de lenguaje de difusión sea tanto rápido como suficientemente preciso para uso general, toda la conversación sobre costes de inferencia se reinicia. Ese día no es hoy. Pero ahora está visiblemente en el calendario.

OpenAI Codex consiguió un superpoder de depuración (y un programa de fidelización)

Dos actualizaciones de Codex esta semana, y apuntan a partes completamente diferentes de tu cerebro — una técnica, otra conductual.

La técnica me entusiasma genuinamente. Codex añadió un modo desarrollador que le da acceso controlado al Chrome DevTools Protocol (CDP). En términos simples: Codex ahora puede meterse en una sesión Chrome en vivo y leer tráfico de red, salida de consola, errores de runtime, estado del DOM y estilos aplicados — exactamente las cosas que inspeccionarías a mano cuando un bug de front-end se niega a tener sentido. Está desactivado por defecto (Configuración → Navegador → "Enable full CDP access" bajo Developer mode), que es el valor por defecto correcto para algo tan potente.

Por qué esto es un asunto más grande de lo que suena: la depuración de front-end ha sido el punto débil de los agentes de codificación con AI. Un modelo puede escribir un componente React preciosamente y luego ser inútil para averiguar por qué se renderiza en blanco en el navegador, porque el fallo vive en el estado de runtime que el modelo no puede ver. El acceso CDP cierra ese bucle. El agente ahora puede observar el síntoma — el error real de consola, la petición de red realmente fallida — en lugar de adivinar solo desde el código fuente. Esa es la diferencia entre un agente que escribe código y un agente que lo depura.

La actualización conductual es más astuta. OpenAI lanzó acumulación de resets de rate-limit: los usuarios Plus y Pro obtienen resets que pueden acumular y gastar cuando quieran (los resets acumulados duran 30 días), más un programa de referidos — invita hasta tres amigos entre el 11 y el 24 de junio, y cuando un amigo envíe su primer mensaje en Codex, ambos reciben un reset acumulado.

Voy a decir la parte callada en voz alta, porque fingir que no lo noto sería deshonesto. El mecanismo de referidos es ingeniería de stickiness de ecosistema. Los resets acumulados son una función inteligente, genuinamente amigable con el usuario — control sobre cuándo quemas tu capacidad es valor real, especialmente si agrupas trabajo pesado. Pero superponer un bucle de fidelización por referidos de amigos encima de una herramienta de desarrollo es una jugada de retención tomada directamente de las apps de consumo. No es malo. Solo vale la pena verlo con claridad: los laboratorios de modelos ahora compiten en costes de cambio, no solo en capacidad. La depuración CDP es el foso; el programa de referidos es la valla.

Dos actualizaciones que cambian silenciosamente cómo operan los agentes

Un patrón que sigo notando en 2026: los cambios más trascendentales no son nuevos modelos, son nuevas estructuras de permisos alrededor de los modelos. Dos esta semana.

Primero, la codificación autónoma se volvió más segura por defecto. El modo auto de Claude Code y el clasificador de auto-revisión de Cursor están convergiendo en el mismo diseño: pre-aprobar las acciones seguras, bloquear las arriesgadas. En lugar de supervisar cada comando o aprobar todo al estilo YOLO, el tooling ahora triage — ¿leer un archivo, ejecutar un test, formatear código? Adelante. ¿Borrar un directorio, golpear un endpoint de producción, reescribir una migración? Parar y preguntar. He escrito antes sobre por qué volverse agent-native en 2026 es principalmente conseguir exactamente este gradiente bien. Un agente al que tienes que aprobar constantemente no es autónomo; un agente que no puedes detener es peligroso. La capa clasificadora es el compromiso, y está madurando rápido.

Segundo — y esta es la historia de infraestructura poco sexy que creo que más importará en un año — la autenticación de agentes AI se está convirtiendo en una categoría de producto real. Descope lanzó Agentic Identity Hub 2.5 esta semana (la versión 2.0 fue en enero), y está resolviendo un problema que la mayoría de la gente construyendo agentes aún no ha tenido pero absolutamente tendrá: ¿cómo demuestra un agente autónomo quién es y qué tiene permitido hacer, sin que le des las credenciales de un humano?

Esa última parte es el meollo. Ahora mismo, un número deprimente de configuraciones de agentes funcionan dándole al agente un token API de un humano y esperando lo mejor. Eso es un desastre de seguridad esperando a ocurrir — sin scoping, sin rastro de auditoría, sin forma de revocar solo el acceso del agente. La propuesta de Descope es agentes como identidades de primera clase: OAuth 2.1, scopes a nivel de herramienta, aplicación de políticas sobre qué servidores MCP puede tocar un agente, y flujos de aprobación con humano-en-el-bucle para acciones sensibles. Magic links y flujos de contraseña de un solo uso te dan control granular sobre lo que un agente puede hacer en nombre de un usuario.

No voy a pretender que lo he desplegado en producción. Pero he sentido la ausencia de exactamente esto. Cada vez que he conectado un agente a un sistema con permisos reales, la historia de autenticación ha sido la parte que armé con parches y me sentí mal por ello. Un plano de control construido a propósito para identidad no humana es el tipo de infraestructura aburrida y portante que la AI agéntica ha estado necesitando — y es un tema que se sitúa directamente en la intersección de AI y seguridad, que es exactamente el tipo de trabajo que mis colegas en xCyberSecurity manejan para equipos que despliegan agentes contra datos sensibles.

Las dos apuestas de frontera: modelos de interacción y robots humanoides a escala

Ahora alejémonos, porque dos desarrollos de esta semana no son sobre este trimestre — son sobre hacia dónde va todo.

El primero son los modelos de interacción de Thinking Machines Lab. El laboratorio de Mira Murati (es la ex CTO de OpenAI) presentó una vista previa de investigación de TML-Interaction-Small, y la arquitectura es una verdadera ruptura con el patrón de chatbot que todos hemos internalizado. En lugar del bucle solicitud-respuesta — tú hablas, espera, responde — el modelo procesa audio, video y texto en micro-turnos de 200 milisegundos, continuamente, como dos personas realmente colaboran. Puede hablar mientras tú hablas, reaccionar a lo que ve antes de que termines una frase, y llamar herramientas en medio de una conversación.

El detalle estructural inteligente: se divide en dos modelos que comparten contexto completo. Un modelo de interacción rápido se mantiene en vivo contigo para respuestas instantáneas, mientras un modelo de fondo maneja el razonamiento lento y profundo y el uso de herramientas de forma asíncrona. Esa es una respuesta arquitectónica real a la tensión central en AI conversacional — quieres tanto rapidez como profundidad, y esas normalmente se compensan mutuamente. Es un mixture-of-experts de 276B parámetros con 12B activos, y está en vista previa de investigación limitada sin API pública, así que modera expectativas. Pero la idea — colaboración en lugar de solicitud-respuesta — es el reencuadre más interesante de la interacción humano-AI que he visto este año.

El segundo es concreto en el sentido más literal. 1X Technologies comenzó la producción en masa de su robot humanoide Neo en una fábrica de 58.000 pies cuadrados en Hayward, California. La instalación emplea actualmente más de 200 personas y tiene capacidad para 10.000 robots al año, escalando hacia más de 100.000 unidades para 2027. La primera tirada de producción se agotó en días según los informes. No son solo bots de logística de fábrica — Neo está posicionado fuertemente como robot doméstico, con envíos a clientes planificados para 2026.

Tengo sentimientos complicados aquí, y los compartiré honestamente en lugar de hacer de animador. La transición de una demo en un escenario a una fábrica verticalmente integrada — 1X construye sus propios motores, baterías, sensores y transmisiones internamente — es el salto más difícil en robótica, y la mayoría de las empresas nunca lo logran. Esa parte merece respeto real. El escéptico en mí también recuerda que "enviar" y "útil en tu cocina" son hitos muy diferentes, y la robótica humanoide tiene una larga historia de demos deslumbrantes que se desploman bajo el desorden de entornos reales. Pero una fábrica con una línea anual de 10.000 unidades no es un render. Algo se está construyendo realmente. Descubriremos en 2026 si lo que se envía es un ayudante genuino o un proof of concept muy caro.

Lo que esta semana realmente significa (el bucle abierto, resuelto)

¿Recuerdas el hilo que te pedí que guardaras al principio — que GLM-5.2 pasándose a MIT era uno de tres movimientos que apuntan en la misma dirección? Aquí está la resolución.

Mira el patrón a lo largo de toda la semana. GLM-5.2 poniendo un modelo de frontera de 1M de contexto bajo MIT. DiffusionGemma regalando una arquitectura genuinamente novedosa bajo Apache 2.0. Incluso Descope construyendo estándares abiertos (OAuth 2.1, MCP) para identidad de agentes. El centro de gravedad en AI se está deslizando de alquilar inteligencia cerrada hacia poseer y controlar inteligencia abierta. No completamente — la frontera absoluta aún vive en laboratorios cerrados, y la dominancia de benchmark de Fable 5 demuestra que los líderes propietarios no se quedan quietos. Pero la brecha entre "el mejor modelo cerrado" y "el mejor modelo que realmente puedes descargar y poseer" es la más estrecha que ha sido jamás.

Eso cambia la pregunta que deberías estar haciéndote. Hace dieciocho meses la pregunta era "¿qué API alquilo?" Cada vez más, la pregunta real es "¿qué capacidades necesito poseer — por coste, por privacidad, por control — y cuáles puedo seguir alquilando?" Los equipos que se enriquezcan respondiendo correctamente a esa pregunta serán los que dejaron de tratar abierto y cerrado como una prueba de lealtad y empezaron a tratarlo como una decisión de portafolio.

Así que aquí va tu única acción concreta para esta semana. Elige la única dependencia de AI en tu stack que más dolería si su precio se triplicara o sus términos cambiaran de la noche a la mañana. Solo una. Luego ve a buscar el modelo open-weight más cercano que podría reemplazarla — GLM-5.2 cuando aparezcan los pesos, o lo que encaje con tu tarea — y pasa una tarde realmente probándolo en tu carga de trabajo real, no en un prompt de juguete. No tienes que migrar. Solo necesitas saber que la puerta existe antes de que alguien más la cierre por ti. Esa es la diferencia, este año, entre ser inquilino y ser propietario.

Preguntas frecuentes

¿Cuál es el tamaño de la ventana de contexto de GLM-5.2?

GLM-5.2 tiene una ventana de contexto utilizable de un millón de tokens, un aumento de 5x respecto a los 200K de GLM-5.1. Z.ai afirma que el modelo retiene comprensión a lo largo de toda la ventana en lugar de solo aceptar la entrada, y los pesos abiertos bajo licencia MIT están programados para publicarse poco después del anuncio del 13 de junio de 2026.

¿Vale la pena el precio más alto de Claude Fable 5 para codificación?

Claude Fable 5 vale la pena para tareas de dificultad de frontera donde una ejecución fallida desperdicia más en tokens quemados que la prima de precio. Lidera SWE-bench Pro con 80,3% y empata con modelos top de clase GPT-5.5 en benchmarks difíciles a una fracción del coste por tarea. Para ediciones rutinarias, un modelo más barato suele ser la opción más inteligente. Ve la sección de Fable 5 arriba para el desglose completo.

¿En qué se diferencia DiffusionGemma del Gemma regular?

DiffusionGemma genera texto usando difusión discreta — desruidificando bloques de 256 tokens en paralelo — en lugar de un token a la vez, alcanzando más de 1.000 tokens por segundo frente a modelos autorregresivos estándar. La contrapartida es tasas de alucinación más altas, por lo que Google lo recomienda solo para tareas críticas en velocidad y no factuales como edición de código y formateo de texto.

¿Puede DiffusionGemma correr en una GPU de consumo?

DiffusionGemma está diseñado para caber en 18GB de VRAM y según se informa alcanza 700+ tokens por segundo en una RTX 5090, pero a junio de 2026 el módulo drafter personalizado que necesita para inferencia local no está soportado en ningún runtime público como LM Studio o mlx-lm, haciéndolo efectivamente inejecutable en la mayoría de configuraciones de consumo hoy.

¿Cuándo se enviará el robot humanoide 1X Neo?

1X Technologies comenzó la producción en masa en su fábrica de Hayward, California, con envíos a clientes planificados para 2026. La instalación puede producir 10.000 unidades anualmente, escalando hacia más de 100.000 para 2027, y la primera tirada de producción se agotó según los informes en días tras el lanzamiento.

Trabajemos juntos

¿Buscas construir sistemas de AI, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudar.

Fiverr (construcciones e integraciones a medida): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io

AI esta semana: GLM-5.2, Fable 5, Diffusion Gemma