Resumen Semanal de IA: La Semana en Que Todo Cambió

Me desperté el lunes por la mañana con una notificación de un investigador de seguridad al que sigo en X. Había encontrado algo en el sistema de gestión de contenidos de Anthropic — casi 3.000 activos no publicados expuestos al público, incluyendo borradores de entradas de blog que describían un modelo que Anthropic llamaba "con diferencia, el modelo de IA más potente que hemos desarrollado jamás." Para el martes, Fortune ya tenía la historia. Para el miércoles, cada newsletter de IA del planeta la estaba publicando.

Y esa ni siquiera fue la noticia más importante de la semana.

Esta fue una de esas semanas en las que cada mañana traía otro anuncio que, por sí solo, habría dominado un ciclo informativo entero. Anthropic filtró accidentalmente detalles de dos modelos no publicados. OpenAI eliminó Sora y apostó todo por un misterioso modelo llamado Spud. Google lanzó agentes de voz multimodales en tiempo real. Un modelo open-source de China puntuó a menos del 5% de Opus 4.6 en benchmarks de programación. Un nuevo benchmark de inteligencia hizo que todos los modelos de frontera parecieran funcionar con conexión de dial-up. Y Claude Code recibió funciones que cambian fundamentalmente mi forma de trabajar con PRs.

Llevo dos años siguiendo los avances en IA a diario, y esta podría ser la semana más densa que he visto. No por el hype — sino por lanzamientos reales, testeables y que transforman flujos de trabajo, acompañados de movimientos estratégicos que reconfiguran el mapa competitivo para el resto de 2026.

Esto es lo que pasó, lo que realmente significa, y lo que estoy cambiando en mi propio flujo de trabajo a raíz de todo ello.

La Filtración de Anthropic: Claude Mythos y Capybara Son Reales

Empecemos con la historia que rompió internet — y lo hizo de la forma más irónica posible.

Los investigadores de seguridad Roy Paz de LayerX Security y Alexandre Pauwels de la Universidad de Cambridge descubrieron datos expuestos en el sistema de gestión de contenidos de Anthropic. Un error de configuración — "error humano," según Anthropic — dejó cerca de 3.000 activos de blog no publicados accesibles públicamente. Entre ellos: borradores que describían dos modelos no publicados.

Claude Mythos es el modelo de gama alta. Los borradores filtrados lo describen como un "salto cualitativo" en capacidades, con puntuaciones dramáticamente superiores a cualquier modelo que Anthropic haya lanzado en pruebas de programación de software, razonamiento académico y ciberseguridad. Anthropic confirmó que el modelo existe y que lo están probando con un grupo reducido de clientes con acceso anticipado.

Capybara se sitúa entre Mythos y el actual buque insignia Opus — un nuevo nivel de modelo que es más capaz que Opus 4.6 pero menos costoso de ejecutar que Mythos.

Esto es lo que hace que sea genuinamente significativo y no simple cotilleo interesante. Los documentos internos filtrados advierten específicamente que Mythos podría "aumentar significativamente los riesgos de ciberseguridad" al encontrar y explotar vulnerabilidades de software rápidamente. El propio equipo de seguridad de Anthropic señaló el potencial de acelerar una carrera armamentista cibernética. Eso no es lenguaje de marketing — es una evaluación de riesgos interna que nunca debió hacerse pública.

La estrategia de lanzamiento planificada te dice todo sobre dónde tiene la cabeza Anthropic. Podrían lanzar versiones intermedias — un Opus 5 o Sonnet 5 — antes de poner Mythos en manos de nadie. El modelo es costoso de ejecutar y "aún no está listo para su lanzamiento general," según los borradores.

¿Mi opinión? Dos cosas destacan. Primero, las preocupaciones de seguridad son reales y específicas — esto no es una vaguedad sobre "riesgos potenciales." El propio equipo de Anthropic está preocupado por lo que este modelo puede hacer con el análisis de vulnerabilidades a nivel de código. Segundo, el hecho de que estén construyendo un nivel entre Opus y Mythos (Capybara) sugiere que la brecha de capacidad es lo suficientemente grande como para necesitar un escalón intermedio. Eso es inusual. Cuando el salto es incremental, simplemente lanzas la actualización.

Si estás construyendo algo que depende del techo de capacidad actual de Claude — flujos de trabajo agénticos, auditoría de seguridad automatizada, generación autónoma de código — la filtración de esta semana es tu señal para empezar a planificar un salto significativo de capacidad en los próximos meses. Yo ya he empezado a diseñar mis arquitecturas de agentes con margen para modelos que son significativamente más inteligentes que Opus 4.6.

La ironía de que una empresa de IA centrada en la seguridad filtre accidentalmente los detalles de su modelo más peligroso a través de una mala configuración del CMS no se le escapa a nadie. Pero sigamos adelante, porque OpenAI soltó su propia bomba esta semana.

"Spud" de OpenAI — Y Por Qué Mataron a Sora Para Construirlo

Mientras todo el mundo analizaba la filtración de Anthropic, OpenAI estaba haciendo movimientos que te dicen exactamente hacia dónde están cambiando sus prioridades.

El CEO Sam Altman envió un memo interno — posteriormente reportado por The Information — confirmando que el pre-entrenamiento de un nuevo modelo con nombre en clave "Spud" está completo. Altman dijo a los empleados que esperen un "modelo muy potente" en "unas pocas semanas" que puede "realmente acelerar la economía." Si Spud se convertirá en GPT-5.5 o GPT-6 aún no está claro.

Pero aquí está la parte que me hizo prestar mucha atención. Para liberar capacidad de cómputo para Spud y otras prioridades, OpenAI está cerrando Sora. La versión web y la aplicación se apagan el 26 de abril de 2026, con la API siguiéndole el 24 de septiembre.

Sora — la herramienta de generación de vídeo con IA que se lanzó con un hype masivo — alcanzó un pico de aproximadamente 3,3 millones de descargas en noviembre de 2025 antes de descender a 1,1 millones en febrero de 2026. Disney retiró su inversión planeada de 1.000 millones de dólares en OpenAI junto con el anuncio. Eso no es un pivote. Es una retirada total de la generación de vídeo para volcarlo todo en la capacidad del modelo de lenguaje.

La señal estratégica es inequívoca. OpenAI está apostando a que la inteligencia bruta del modelo — del tipo que puede "acelerar la economía" — importa más que las herramientas creativas llamativas. Están consolidándose en torno a lo que creen que es un ganador, y están dispuestos a matar un producto con más de un millón de usuarios activos para lograrlo.

Altman también renunció a la supervisión directa de los equipos de seguridad y protección de OpenAI para centrarse en "construir centros de datos a una escala sin precedentes." Sacad vuestras propias conclusiones.

Para los que estamos en el sector de herramientas para desarrolladores, Spud importa por una razón práctica: puede servir como base para la "superapp" de escritorio planeada por OpenAI que combina ChatGPT, Codex y el navegador Atlas en un solo entorno. Si eso se lanza, cambia la dinámica competitiva de todo el mercado de programación asistida por IA.

Hablando de Codex — también recibió una actualización importante esta semana.

Codex Incorpora Plugins: De Herramienta de Programación a Plataforma de Ejecución

OpenAI introdujo un sistema de plugins para Codex el 27 de marzo, y este merece más atención de la que está recibiendo.

Los plugins en Codex no son simples complementos. Son paquetes instalables que agrupan habilidades, integraciones de aplicaciones y configuraciones de servidores MCP (Model Context Protocol) en flujos de trabajo reutilizables. El directorio curado incluye integraciones con Slack, Notion, Figma, Gmail y Google Drive — más de una docena de opciones preempaquetadas en el lanzamiento.

Lo que esto significa en la práctica: Codex ya no es solo un agente de programación. Se está convirtiendo en un entorno de ejecución donde puedes lanzar flujos de trabajo de IA preconstruidos y ejecutables — desarrollo de apps iOS, análisis de datos, generación de informes — con una configuración mínima. Los usuarios pueden instalar un plugin y tener un flujo de trabajo completo funcionando sin escribir prompts personalizados ni configurar herramientas por su cuenta.

Los números respaldan el impulso. Codex alcanzó 1,6 millones de usuarios activos semanales a principios de marzo de 2026 — más del triple desde el lanzamiento de Codex con GPT-5.3 en febrero. Clientes empresariales como Cisco, NVIDIA, Ramp, Rakuten y Harvey lo están desplegando en sus equipos.

Esto es un disparo directo al ecosistema de plugins y skills de Claude Code. Escribí sobre el sistema de plugins de Claude Code hace unas semanas, y el timing del movimiento de OpenAI parece deliberado. La guerra de plugins ha comenzado oficialmente.

¿Mi valoración honesta? El enfoque de plugins de Codex está más pulido para usuarios no técnicos que quieren flujos de trabajo llave en mano. El enfoque de Claude Code da más control a desarrolladores que quieren construir pipelines de agentes personalizados. Ambas son estrategias viables, y el ganador probablemente depende de qué base de usuarios crezca más rápido. Estoy siguiendo de cerca los números de adopción durante el próximo trimestre.

Pero mientras los laboratorios propietarios peleaban por los plugins, algo ocurrió en el mundo open-source que merece seria atención.

GLM 5.1: El Modelo Open-Source Que Alcanza el 94,6% de Opus

Z.ai (anteriormente Zhipu AI) puso GLM 5.1 a disposición de todos los usuarios del Coding Plan el 27 de marzo, y los números en benchmarks son llamativos.

Usando Claude Code como herramienta de prueba — lo cual es un entorno de comparación bastante controlado — GLM 5.1 obtuvo 45,3 puntos en benchmarks de programación. Opus 4.6 obtuvo 47,9. Eso es el 94,6% del rendimiento de Opus. Una mejora del 28% respecto a la puntuación de 35,4 de GLM 5.

Modelo	Puntuación en Programación	Diferencia con Opus 4.6	Arquitectura
Claude Opus 4.6	47,9	—	Propietario
GLM 5.1	45,3	-2,6 puntos (5,4%)	744B MoE, 40B activos
GLM 5.0	35,4	-12,5 puntos	745B MoE, 44B activos

Probé el GLM 5 anterior (Pony Alpha) cuando apareció por primera vez como un lanzamiento sigiloso en Open Router, e incluso entonces dije que la brecha se estaba cerrando más rápido de lo que la mayoría de los desarrolladores occidentales pensaban. GLM 5.1 lo demuestra. Un salto del 28% en una sola iteración — sobre la misma arquitectura subyacente de Mixture-of-Experts de 744 mil millones de parámetros — significa que el pipeline de entrenamiento de Z.ai está madurando rápidamente.

El precio lo hace particularmente interesante. Los Coding Plans de GLM empiezan en $3/mes en promoción, $10/mes en tarifa estándar. Compárese con los costes de la API de Opus 4.6. Para equipos que ejecutan cargas de trabajo agénticas de alto volumen donde una precisión del 94,6% es aceptable, GLM 5.1 es una opción legítima a una fracción del precio.

Z.ai aún no ha liberado GLM 5.1 como open-source, pero han insinuado que está en camino — y su historial respalda la afirmación. GLM 4.7 está en Hugging Face bajo la Licencia MIT ahora mismo. Si GLM 5.1 sigue el mismo camino, tendremos un modelo de programación casi de frontera disponible como pesos abiertos para que cualquiera lo ejecute localmente.

La brecha entre modelos de IA open-source y propietarios ya no se mide en generaciones. Se mide en puntos porcentuales de un solo dígito. Ese cambio ocurrió más rápido de lo que la mayoría esperaba, y transforma la economía de cada producto dependiente de IA.

Ahora algo completamente diferente — y genuinamente humillante.

ARC AGI 3: El Benchmark Que Dejó en Ridículo a Toda la IA

ARC AGI 3 se lanzó el 25 de marzo de 2026, y podría ser el lanzamiento de benchmark más importante del año. No porque la IA lo hiciera bien — sino porque lo hizo catastróficamente mal.

Este es el primer benchmark de razonamiento interactivo. Los benchmarks anteriores evalúan si un modelo puede responder preguntas o generar código. ARC AGI 3 evalúa si un modelo puede explorar un entorno novedoso, descubrir lo que se supone que debe hacer sin instrucciones, construir un modelo mental funcional del mundo, y luego resolver tareas en el primer intento.

Los resultados son aleccionadores:

Google Gemini 3.1 Pro: 0,37%
OpenAI GPT 5.4: 0,26%
Anthropic Opus 4.6: 0,25%
Humanos: 100%

Lean esos números otra vez. El mejor sistema de IA del planeta — el modelo insignia de Google — resolvió menos de medio por ciento de las tareas. Los humanos las resolvieron todas.

El premio acumulado es de 850.000 dólares solo para la categoría ARC AGI 3, con un gran premio de 700.000 dólares para el primer agente que alcance el 100%. La competición se extiende hasta diciembre de 2026, con puntos de control el 30 de junio y el 30 de septiembre.

¿Por qué importa esto más allá del interés académico? Porque ARC AGI 3 mide algo fundamentalmente diferente a lo que la IA actual hace bien. Los modelos actuales destacan en el reconocimiento de patrones dentro de las distribuciones con las que fueron entrenados. ARC AGI 3 requiere aprendizaje genuino — la capacidad de encontrarse con algo verdaderamente novedoso y resolverlo desde cero, sin ejemplos previos, sin instrucciones, sin la posibilidad de intentarlo múltiples veces.

Esta es la brecha entre "IA que automatiza tareas conocidas" e "IA que puede manejar situaciones genuinamente novedosas." Todos los laboratorios de frontera saben que esta brecha existe, pero ARC AGI 3 le pone un número preciso a cuán amplia es. Y ese número — menos del 1% frente al 100% — sugiere que no estamos tan cerca de la inteligencia general como el ciclo de hype insinúa.

Para los profesionales, esto es una comprobación de realidad útil. Las herramientas de IA que estamos usando — Claude Code, Codex, Gemini — son extraordinariamente potentes dentro de sus distribuciones de entrenamiento. Pueden escribir código, analizar datos, generar contenido y automatizar flujos de trabajo con una habilidad notable. Pero todavía no pueden aprender de la forma en que lo hacen los humanos. Construir tu estrategia de IA en torno a esa distinción — aprovechando la IA para aquello en lo que es excelente manteniendo a los humanos en el circuito para los problemas genuinamente novedosos — sigue siendo la decisión correcta para 2026.

Dicho esto, la posición de Google en la cima incluso de este benchmark brutal es digna de mención. Lo cual nos lleva a su otro gran anuncio de esta semana.

Gemini 3.1 Flash Live: Voz y Visión en Tiempo Real Ya Está Disponible

Google DeepMind lanzó Gemini 3.1 Flash Live el 26 de marzo, y este es el tipo de lanzamiento de infraestructura que no genera titulares pero cambia silenciosamente lo que se puede construir.

Flash Live es un modelo multimodal de voz y visión en tiempo real. Procesa audio de forma nativa — no a través de transcripción, sino entendiendo los matices acústicos directamente. Maneja fotogramas de vídeo junto con audio. Y hace todo esto a través de conexiones WebSocket con comunicación full-duplex, lo que significa que soporta "barge-in" (interrupciones del usuario) durante las respuestas.

La implicación práctica: ahora puedes construir agentes de IA conversacionales que ven y oyen en tiempo real, con una latencia lo suficientemente baja para una conversación natural. No latencia de "suficiente para una demo" — latencia de nivel producción diseñada para aplicaciones desplegadas.

Google dice que invirtió más de un año centrándose en la infraestructura y la experiencia de desarrollador para este lanzamiento. El modelo soporta una ventana de contexto de 128K tokens y está disponible a través de la API de Gemini y Google AI Studio mediante la Live API.

Aún no he construido nada con Flash Live — se lanzó hace dos días — pero ya veo tres casos de uso que quiero probar: un asistente de revisión de código en tiempo real que observa mi pantalla y comenta el código mientras lo escribo, un wrapper de Claude Code controlado por voz que me permita dictar tareas mientras tengo las manos ocupadas, y un sistema de tutoriales interactivos que se adapta según lo que ve en la pantalla del estudiante.

Si estás construyendo algo que involucre interacción por voz o vídeo, este es el modelo a seguir de cerca. La combinación de procesamiento de audio nativo, comprensión de vídeo en tiempo real y comunicación full-duplex basada en WebSocket es un stack de capacidades que no existía en forma lista para producción hace una semana.

Claude Code: Tres Actualizaciones Que Cambian Mi Flujo de Trabajo Diario

Anthropic lanzó tres actualizaciones de Claude Code esta semana que ya estoy usando a diario. Veamos cada una.

Auto-Fix en la Nube

Esta es la que genuinamente cambió mi forma de trabajar con pull requests. Claude Code ahora puede monitorear tus PRs de forma remota — corrigiendo fallos de CI, respondiendo a comentarios de revisión y haciendo push de correcciones mientras estás lejos del teclado.

Cuando el CI falla, Claude lee el error, investiga la causa raíz, hace push de una corrección y explica lo que hizo. Para comentarios de revisión claros, Claude hace el cambio, hace push y responde al hilo. Esto ocurre en la infraestructura cloud de Anthropic, así que sigue funcionando incluso cuando tu portátil está cerrado.

Envié tres PRs el miércoles por la tarde y me fui a preparar la cena. Cuando volví, dos estaban en verde — Claude había corregido un test que fallaba por un caso límite de zona horaria y resolvió la petición de un revisor de renombrar una variable para mayor claridad. El tercero tenía un problema más complejo que Claude señaló pero no pudo resolver automáticamente, que es exactamente el comportamiento correcto.

El ahorro de tiempo es real, pero la mayor ventaja es eliminar el cambio de contexto. El ciclo de revisión de PRs solía fragmentar mis sesiones de trabajo profundo — estaba en medio de construir algo nuevo cuando un comentario de revisión me arrastraba de vuelta al código de ayer. Ahora Claude se encarga de las correcciones rutinarias, y solo me involucro cuando se trata de algo genuinamente complejo.

Auto Mode

Lanzado el 24 de marzo, auto mode introduce un clasificador de IA integrado que revisa cada llamada a herramienta antes de su ejecución. Las acciones seguras proceden automáticamente. Las arriesgadas — eliminación masiva de archivos, intentos de exfiltración de datos, ejecución de código malicioso — se bloquean, y Claude toma un enfoque diferente.

Este es el punto medio entre "aprobar cada acción individual" (seguro pero agotador) y "saltarse todos los permisos" (rápido pero aterrador). Lo he estado ejecutando en un contenedor Docker durante cuatro días, y el criterio del clasificador ha sido sólido. Aprobó automáticamente y correctamente lecturas de archivos, operaciones de git y ejecución de tests, mientras bloqueó un rm -rf que habría destruido un directorio que no pretendía eliminar.

Anthropic está siendo apropiadamente cauteloso — es una vista previa de investigación disponible en planes Team, con acceso Enterprise y API próximamente. Recomiendan explícitamente ejecutarlo en entornos aislados. Un enfoque inteligente para una función que otorga a un agente de IA más control autónomo.

Límites de Sesión en Horas Pico

La actualización menos emocionante pero prácticamente importante: Anthropic ajustó los límites de sesión durante horas pico (5:00-11:00 AM PT en días laborables) en los planes Free, Pro y Max. Las sesiones de cinco horas pueden consumirse más rápido durante picos porque los costes por token son más altos.

¿El lado positivo? Las horas fuera de pico recibieron una promoción temporal — límites de uso duplicados — que se extendió hasta el 28 de marzo. Mi ajuste de flujo de trabajo: he estado trasladando mis sesiones más intensivas de Claude Code a primera hora de la mañana o por la noche, y en realidad ha sido una mejora de productividad. Menos distracciones de Slack durante esas horas de todas formas.

Si prefieres que alguien te configure un flujo de trabajo de Claude Code con auto-fix, auto mode y gestión optimizada de sesiones desde cero, acepto ese tipo de integraciones. Puedes ver lo que he construido en fiverr.com/s/EgxYmWD.

El Reparto Secundario: Cinco Historias Más Que Vale la Pena Seguir

No todas las historias de esta semana fueron titulares, pero varias merecen una mención porque importarán más en las próximas semanas.

Voxtral TTS de Mistral — Voz Open-Weight Que Rivaliza con ElevenLabs

Mistral lanzó Voxtral TTS el 26 de marzo, un modelo open-weight de texto a voz de 4 mil millones de parámetros que soporta nueve idiomas y puede clonar una voz a partir de solo tres segundos de audio de referencia. Las evaluaciones humanas muestran que alcanza una naturalidad superior en comparación con ElevenLabs Flash v2.5.

El detalle crítico: Mistral está liberando los pesos completos del modelo. Puedes descargar Voxtral TTS, ejecutarlo en tus propios servidores — o incluso en un smartphone — y nunca enviar datos de audio a un tercero. Para desarrolladores que construyen aplicaciones habilitadas por voz con requisitos de privacidad, esta es una alternativa genuina a los servicios dependientes de API.

Operon de Anthropic — Claude Consigue un Laboratorio de Biología

Operon es un nuevo modo dedicado en la aplicación de escritorio de Claude, diseñado específicamente para investigación en biología y salud. Se ubica junto a Chat, Code y Cowork como un espacio de trabajo separado con herramientas de gestión de proyectos y capacidades multi-sesión adaptadas a flujos de trabajo de investigación científica.

Esto señala el impulso de Anthropic hacia aplicaciones verticales de IA. Junto con asociaciones con el Allen Institute y el Howard Hughes Medical Institute, Operon sugiere que Anthropic ve la investigación científica — particularmente la biología — como un caso de uso de alto valor donde las capacidades de razonamiento de Claude pueden generar un impacto desproporcionado.

La CLI de ElevenLabs Se Vuelve Agent-First

ElevenLabs desplegó actualizaciones importantes en su CLI durante marzo, haciéndola no interactiva y agent-first por defecto. La herramienta ahora trata a los agentes de voz como código — los gestionas a través de archivos de configuración, control de versiones y pipelines de CI/CD en lugar de interacciones por dashboard.

Para cualquiera que construya flujos de trabajo de audio automatizados — producción de podcasts, despliegue de agentes de voz, narración de contenido — este es el tipo de cambio de infraestructura que desbloquea nuevos patrones de automatización. Ya estoy pensando en cómo integrarlo con mis flujos de trabajo de audio impulsados por Claude Code.

El Escándalo de Cursor Composer 2

Esta es una historia de combustión lenta. El 19 de marzo, Cursor lanzó Composer 2 afirmando que obtuvo 61,7 en Terminal-Bench 2.0 — superando a Claude Opus 4.6 — a $0,50 por millón de tokens de entrada. Impresionante, ¿verdad?

Entonces un desarrollador llamado Fynn descubrió algo en la respuesta de la API compatible con OpenAI de Cursor: un identificador de modelo que revelaba que Composer 2 es en realidad Kimi K2.5, un modelo open-weight de Moonshot AI, con sede en Pekín, ajustado con aprendizaje por refuerzo. Cursor finalmente confirmó que aproximadamente una cuarta parte del pre-entrenamiento proviene de la base de Kimi K2.5.

¿El problema de licencia? La Licencia MIT Modificada de Kimi K2.5 requiere que cualquier producto comercial con más de 20 millones de dólares de ingresos mensuales muestre de forma prominente "Kimi K2.5" en su interfaz. Los ingresos de Cursor supuestamente superan ese umbral por aproximadamente 8 veces. Hasta finales de marzo, Cursor no había abordado la cuestión de cumplimiento públicamente.

Esta historia importa más allá del drama. Revela cómo las líneas entre modelos "propietarios" y "open-source" se están difuminando en productos comerciales — y cómo la atribución y las licencias en IA se están convirtiendo en cuestiones legales y éticas serias.

La Muerte Silenciosa de Sora

Cubrí el cierre de Sora antes en el contexto del pivote de OpenAI hacia Spud, pero vale la pena señalar el calendario para cualquiera con proyectos activos en Sora. La aplicación se apaga el 26 de abril de 2026. La API le sigue el 24 de septiembre. Si tienes trabajo en Sora, expórtalo ahora. No esperes.

Lo Que Esta Semana Realmente Significa — Mi Lectura

Si damos un paso atrás respecto a las historias individuales, emergen tres patrones.

Patrón 1: El techo de capacidad está subiendo rápido, pero de forma desigual. Mythos y Spud sugieren que la próxima generación de modelos de frontera será dramáticamente más potente para programación, razonamiento y análisis. Pero ARC AGI 3 demuestra que "más potente" no significa "generalmente inteligente." Estamos construyendo especialistas cada vez más impresionantes, no generalistas. Planifica en consecuencia.

Patrón 2: La brecha open-source está casi cerrada. GLM 5.1 al 94,6% de Opus. Voxtral TTS igualando a ElevenLabs. Kimi K2.5 lo suficientemente competitivo como para que Cursor construyera un producto comercial sobre él. La era de los modelos propietarios manteniendo una ventaja masiva de calidad está terminando. El diferenciador está virando hacia el ecosistema, la experiencia de desarrollador y las herramientas integradas — que es exactamente por lo que tanto OpenAI como Anthropic están invirtiendo fuertemente en plugins, auto-fix y flujos de trabajo basados en la nube.

Patrón 3: El mercado de IA se está consolidando en torno a los modelos de lenguaje. OpenAI eliminó su producto de vídeo para centrarse en Spud. Anthropic está construyendo aplicaciones verticales (Operon) sobre Claude en lugar de diversificarse hacia nuevas modalidades. Google está desplegando capacidad multimodal que alimenta su ecosistema de modelos de lenguaje. El consenso es claro: el modelo central de lenguaje/razonamiento es la plataforma. Todo lo demás es una funcionalidad.

Para mi propio flujo de trabajo, esto es lo que estoy cambiando esta semana:

Cambié a auto mode en Claude Code dentro de contenedores Docker para todo el trabajo que no sea producción
Activé PR auto-fix en tres repositorios activos — recuperando aproximadamente 30-40 minutos al día de cambio de contexto
Empecé a probar GLM 5.1 a través del Coding Plan para tareas agénticas de alto volumen y menor riesgo donde una precisión del 94,6% es más que suficiente
Marqué como favorito el leaderboard de ARC AGI 3 como comprobación de realidad para cuando el hype de la IA se vuelva demasiado ruidoso

Una semana. Ocho desarrollos importantes. Y solo llevamos tres meses de 2026.

La pregunta a la que sigo volviendo no es si la IA se mueve rápido — eso es obvio. La pregunta es si estamos construyendo flujos de trabajo y habilidades que sigan siendo valiosos a medida que el suelo de capacidad sube. Los ingenieros que prosperarán no son los que pueden hacer prompts perfectos a un modelo actual. Son los que entienden el patrón de cómo evolucionan estas herramientas — y se posicionan para surfear la próxima ola antes de que rompa.

Esta semana hizo esa próxima ola mucho más visible.

Preguntas Frecuentes

¿Qué es Claude Mythos y cuándo se lanzará?

Claude Mythos es el modelo de IA de próxima generación no publicado de Anthropic, revelado accidentalmente a través de un error de configuración del CMS en marzo de 2026. Anthropic lo describe como un "salto cualitativo" respecto a los modelos Opus actuales, con puntuaciones dramáticamente superiores en programación, razonamiento y ciberseguridad. No se ha anunciado fecha de lanzamiento público — Anthropic lo está probando con un grupo reducido de clientes con acceso anticipado y podría lanzar modelos intermedios primero.

¿En qué se diferencia ARC AGI 3 de los benchmarks de IA anteriores?

ARC AGI 3 es el primer benchmark de razonamiento interactivo que requiere que los agentes de IA exploren entornos novedosos, infieran objetivos sin instrucciones y resuelvan tareas en el primer intento. A diferencia de los benchmarks tradicionales que evalúan conocimiento memorizado o reconocimiento de patrones, ARC AGI 3 mide la capacidad genuina de aprendizaje. El mejor modelo de IA de frontera obtuvo un 0,37% mientras que los humanos alcanzaron el 100%, revelando una brecha masiva en razonamiento adaptativo.

¿Es GLM 5.1 open source?

GLM 5.1 no es open-source aún a fecha de 28 de marzo de 2026, pero Z.ai ha señalado un próximo lanzamiento de pesos abiertos. El modelo está disponible actualmente a través del Coding Plan de Z.ai a partir de $3/mes. Z.ai tiene un sólido historial de liberar sus modelos como open-source — GLM 4.7 está disponible en Hugging Face bajo la Licencia MIT.

¿Qué pasó con la aplicación Sora de OpenAI?

OpenAI está cerrando Sora para redirigir recursos computacionales hacia su nuevo modelo de lenguaje "Spud." La aplicación web y móvil de Sora cierra el 26 de abril de 2026, con la API siguiéndole el 24 de septiembre de 2026. Las descargas habían descendido de 3,3 millones en noviembre de 2025 a 1,1 millones en febrero de 2026. Disney también canceló su inversión planeada de 1.000 millones de dólares en OpenAI junto con el anuncio.

¿Qué es el auto mode de Claude Code?

El auto mode de Claude Code, lanzado el 24 de marzo de 2026, utiliza un clasificador de seguridad de IA integrado para aprobar automáticamente acciones de bajo riesgo mientras bloquea operaciones potencialmente destructivas como eliminaciones masivas de archivos o exfiltración de datos. Es un punto medio entre aprobar cada acción manualmente y saltarse todos los permisos. Disponible como vista previa de investigación en planes Team, con acceso Enterprise próximamente.

Trabajemos Juntos

¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudarte.

Fiverr (desarrollo personalizado e integraciones): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io