AI Roundup 9 de mayo de 2026: empieza la carrera del chatbot al OS

Viernes por la mañana, 6:41 a.m. Tenía cuatro ventanas del navegador abiertas y un argumento a medio formular en mi cabeza.

Codex estaba ejecutando una tarea autónoma en Chrome en mi monitor izquierdo: abrir Salesforce, buscar una lista de contactos, redactar un borrador. Hacía once minutos que no tocaba el teclado. A la derecha, Claude Cowork estaba creando un modelo de comparación para los informes del segundo trimestre de una de mis marcas, extrayendo datos de FactSet a través de un conector que no existía la semana pasada. En la esquina, Grok estaba rastreando mi espacio de trabajo de Notion buscando un borrador que casi recordaba haber escrito en febrero. Y en el fondo, en algún lugar de una pestaña que me había olvidado, un intercambio de texto judicial filtrado entre Sam Altman y Mira Murati ardía en X.

Así es como se ve este resumen de AI del 9 de mayo de 2026 desde mi flujo de trabajo: cuatro laboratorios, cuatro apuestas totalmente diferentes, todas convergiendo en la misma forma de producto. El cuadro de chat está muriendo. La superficie operativa está naciendo. Y casi nadie se hace la pregunta que realmente importa: si lo que lo reemplaza tiene alguna legitimidad ante las personas cuyo trabajo reemplaza.

Esto es lo que estoy siguiendo, lo que creo que le falta a la prensa y lo que haré al respecto antes del lunes.

Si desea un contexto sobre cómo normalmente clasifico semanas como esta, mi desglose de señal versus ruido de la inundación de lanzamiento de abril establece el marco.

La tesis: Tres empresas simplemente dejaron de fingir que se trata de chatbots

Hay algo que sucede en un mercado en rápido movimiento donde cada jugador sigue lanzando el mismo tipo de característica con el mismo tipo de cadencia, y parece caótico desde el exterior, pero si entrecierras los ojos, el movimiento real es un gran viraje sincronizado.

Eso es lo que fue esta semana.

OpenAI envió una extensión de Chrome que permite a Codex ejecutar flujos de trabajo de Salesforce, Gmail y LinkedIn en una instancia de navegador separada que pertenece al agente. Google, observando desde el margen, comenzó a probar en campo Gemini 3.2 Flash dentro de iOS sin previo aviso. xAI implementó conectores Grok disponibles en Web, iOS y Android, conectándose a Gmail, Drive, Docs, Sheets, Calendar, Notion, GitHub y Linear en un solo anuncio. Y Anthropic, que juega lo que estoy cada vez más convencido de que es el juego largo más inteligente de los cuatro, envió diez plantillas de agentes de servicios financieros listas para ejecutar que convierten a Claude en algo más parecido a una estación de trabajo de analista que a un chatbot.

Cuatro empresas. Una dirección. Deja de intentar ganar el cuadro de chat. Empezar a intentar ser la capa operativa para el trabajo del conocimiento.

La razón por la que esto es importante es en sentido descendente. Si administra marcas, envía códigos, escribe contenido, administra un equipo pequeño (cualquiera de las cosas que hago en mis cuatro sitios), sus suposiciones sobre cómo aparece AI en su semana ya están obsoletas. Hace tres meses, "agente AI" significaba "abro una pestaña y escribo un mensaje". Esta semana, significa que "un agente corrió durante cuarenta minutos en una instancia del navegador que no puedo ver, accedió a tres herramientas SaaS usando mi sesión de inicio de sesión y publicó el resultado en Slack mientras estaba en el gimnasio". Ese es un producto diferente. Merece un modelo mental diferente.

El resto de esta publicación soy yo analizando cuál de esas apuestas es real, cuál es objeto de burla, cuál está sobrevalorada y cuál anuncio silencioso de Beijing podría importar más que los cuatro combinados.

Déjame mostrarte.

Codex acaba de convertirse en navegador

He estado esperando que Codex controle las pestañas del navegador en segundo plano desde que se envió el comando /goal en la versión 0.128.0. Finalmente sucedió.

El 7 de mayo de 2026, OpenAI lanzó la extensión de Chrome Codex para macOS y Windows. No es una adquisición de pestañas. Es una instancia de Chrome separada que pertenece al agente, con sus propios grupos de pestañas, su propio acceso a DevTools y su propia capacidad para usar sus sesiones iniciadas en sitios como Salesforce, Gmail, LinkedIn y cualquier herramienta interna con una interfaz de navegador. Sigue trabajando. El agente trabaja en paralelo.

Combine eso con el navegador en la aplicación, múltiples pestañas de terminal, conexiones SSH a devboxes remotos (en alfa) e integración de Chrome DevTools que llegó en la misma actualización, y la imagen se vuelve más nítida rápidamente. Codex ya no es un agente de codificación. Es un agente de codificación más un navegador más un shell remoto más un sistema de objetivos de larga duración.

Según las propias cifras de OpenAI, Codex ahora tiene más de 4 millones de usuarios activos semanales, un aumento de 8 veces desde principios de 2026. Ese crecimiento no se debe a que el modelo haya mejorado. Es porque la superficie se hizo más grande. La gente está utilizando Codex para realizar trabajos que no tienen nada que ver con el código (campañas de divulgación, raspaduras de investigación, actualizaciones de paneles, informes de gastos) porque el agente finalmente puede acceder a las herramientas donde reside ese trabajo.

Lo que probé esta semana. Le di a Codex tres trabajos reales.

Trabajo uno: extraer todas las facturas pagadas de mi panel de Stripe durante los últimos 90 días, compararlas con la proyección MRR esperada en una hoja de Google y marcar las brechas. Tiempo transcurrido: 22 minutos. Llegó al ochenta y tantos por ciento del camino antes de llegar al mensaje de permiso de Stripe que tuve que borrar y luego terminé. La salida fue correcta.

Trabajo dos: leer los últimos catorce días de mis análisis de Substack, identificar qué publicaciones están superando la media final de 90 días, redactar un hilo de Twitter que muestre las tres primeras con citas de los cuerpos. Tiempo transcurrido: 11 minutos. La calidad del borrador fue mejor que la versión que yo habría escrito, lo cual es levemente humillante.

Tercer trabajo: abrir Salesforce, encontrar todos los contactos etiquetados como "cliente potencial cálido primer trimestre de 2026" que no hayan tenido contacto en más de 30 días, redactar correos electrónicos personalizados para volver a interactuar que hagan referencia al último hilo de conversación. Éste lo cuidé. Funcionó. No habría enviado los correos electrónicos sin leerlos, pero la capa borrador era real.

La evaluación honesta. La extensión de Chrome es lo más útil que OpenAI ha enviado en 2026. También es la más peligrosa, porque el modo de falla de "agente con su sesión de Salesforce" es mucho peor que "agente que obtiene un fragmento de código incorrecto". Lo estoy ejecutando. También estoy leyendo el registro de auditoría de cada acción que se realiza antes de dejar que toque algo que cueste dinero o que tenga el nombre de un cliente.

Luego está la voz, que OpenAI silenciosamente convirtió en su propia superficie de agente la misma semana.

GPT-Realtime-2 es la capa de voz que la mayoría de los constructores ignorarán (y no deberían)

El 7 de mayo de 2026, OpenAI envió GPT-Realtime-2, su primer modelo de voz con lo que la compañía llama "razonamiento de clase GPT-5", lo que significa que el modelo puede pensar en una solicitud de varios pasos en mitad de una conversación mientras mantiene la transmisión de audio en vivo.

Los números de los titulares. La ventana de contexto saltó de 32K a 128K, lo que significa sesiones más largas y flujos agentes más complejos sin unión de estados externos. El modelo puede llamar a múltiples herramientas en paralelo y narrar lo que está haciendo ("revisar su calendario, buscarlo ahora") mientras el trabajo se realiza en segundo plano. El precio es de 32 dólares por millón de tokens de entrada de audio y 64 dólares por millón de tokens de salida de audio, y la entrada en caché cae a 0,40 dólares por millón.

OpenAI envió dos compañeros junto a él. GPT-Realtime-Translate maneja más de 70 idiomas de entrada en 13 idiomas de salida a 0,034 dólares por minuto. GPT-Realtime-Whisper transmite voz a texto en vivo a 0,017 dólares por minuto. Cubrí el modelo de traducción y lo que hace para los agentes de voz transfronterizos a principios de esta semana, pero el modelo base en tiempo real-2 es el que la mayoría de los creadores de aplicaciones descartarán demasiado rápido.

Esto es lo que nadie dice en voz alta. La voz es la siguiente inflexión de chat-box-die. La mayoría de los productos AI que ejecuto para mis marcas hoy son conversaciones escritas. Esto va a parecer tan pintoresco dentro de dieciocho meses como lo parece el IRC hoy. Realtime-2 es el primer modelo de voz donde la latencia es lo suficientemente baja, el razonamiento es lo suficientemente profundo y la llamada de herramientas es lo suficientemente confiable como para que un propietario de una pequeña empresa que no sea codificador pueda ejecutar un agente de soporte de voz en su sitio sin que suene como un robot leyendo un script.

Estoy construyendo exactamente eso para una de mis marcas este mes. La apuesta no es que la voz reemplace al texto, sino que la voz más el texto más los agentes de navegación en segundo plano colapsan en una superficie de asistente, y quien posea el piso de latencia en el lado de la voz gana la superficie.

OpenAI acaba de hacer una oferta real por ese piso.

El contraataque de Anthropic: profundidad sobre amplitud

Mientras OpenAI creaba la aplicación de todo, Anthropic envió algo casi exactamente lo contrario. Y creo que podría ser la apuesta más inteligente.

El 5 de mayo de 2026, Anthropic lanzó diez plantillas de agente AI listas para ejecutar para servicios financieros, disponibles como complementos en Claude Cowork y Claude Code, y como libros de cocina para los agentes administrados de Claude. La lista es específica de una manera que importa: un creador de presentaciones, una herramienta de preparación de reuniones, un revisor de ganancias, un creador de modelos financieros, un motor de compañías comparables, un conciliador del libro mayor, un cerrador de fin de mes, un auditor de estados financieros, un evaluador de KYC y un manejador de escalaciones.

Esto no es un juego de producto horizontal. Esa es una vertical, completamente cubierta.

El lado de los datos es donde la apuesta se agudiza. El anuncio de agentes financieros antrópicos enumera los socios conectores en FactSet, S&P Capital IQ, MSCI, PitchBook, Morningstar, Chronograph, LSEG, Daloopa, además de nuevas incorporaciones como Dun & Bradstreet, Fiscal AI, Financial Modeling Prep, Guidepoint, IBISWorld, SS&C IntraLinks, Third Puente y Verisk. Moody's lanzó una aplicación independiente MCP que muestra calificaciones crediticias propias y datos de más de 600 millones de empresas públicas y privadas. Y la misma semana, Era se convirtió en el primer conector de finanzas personales en el directorio Claude, construido sobre el protocolo abierto MCP.

No administro un fondo de cobertura. Nada de esto se aplica directamente a mi trabajo. Entonces, ¿por qué sigo volviendo a ello?

Porque la estrategia es la parte que escala. Antrópico no es intentar serlo todo. Eligen una vertical, se apropian de las asociaciones de datos, crean las plantillas y permiten que el agente sea el analista más inteligente en ese dominio específico. Si envían un paquete similar para el próximo trimestre legal, luego para la atención médica y luego para la fabricación (cada paquete con su propio ecosistema de conectores, sus propias plantillas, sus propios mensajes verticalizados) terminarán con una profundidad que los jugadores horizontales no pueden igualar.

La prensa AI los trata como ganancias empresariales en términos de ingresos. Creo que son otra cosa. Creo que Anthropic acaba de publicar el libro de jugadas sobre cómo una empresa modelo de frontera vence a una generalista al ir de manera estrecha y profunda, una industria a la vez. Observa qué vertical tocan a continuación. Sea lo que sea, le dirá dónde comienza el segundo foso de capitalización.

Si construye para una industria específica (y la mayoría de nosotros lo hacemos, incluso si no nos damos cuenta), esta es la plantilla estructural que vale la pena copiar. Elija una vertical. Construye los conectores. Envíe las plantillas. Dejemos que el modelo sea inteligente pero que los datos y los flujos de trabajo sean específicos.

Hablando de fosos: un único anuncio discreto procedente de Beijing podría deshacerlos todos.

La verdadera historia que nadie encabeza: ERNIE 5.1 al 6% del costo de capacitación

Si tuviera que elegir el anuncio más trascendental de la semana (el que con mayor probabilidad remodelará la curva de costos durante los próximos dieciocho meses) no sería Codex Chrome ni serían los agentes financieros Claude. Sería un comunicado modelo de Baidu que la prensa en inglés cubrió a medias y luego se olvidó el martes.

Vista previa de ERNIE 5.1 lanzada el 30 de abril de 2026. En cinco días, había subido al puesto 13 en la clasificación Text Arena de LMArena con un Elo de 1476, ocupando el puesto n.º 1 entre todos los modelos chinos AI, n.º 1 a nivel mundial en categorías legales y gubernamentales, n.º 4 en gestión empresarial y operaciones financieras, y n.º 7 en software y servicios de TI.

Esos números son buenos. Ellos no son la historia.

La historia está en las matemáticas de parámetros. ERNIE 5.1 comprimió los parámetros totales a aproximadamente un tercio y los parámetros activos a aproximadamente la mitad de ERNIE 5.0. Y logró el rendimiento fundamental líder en su escala de modelo utilizando aproximadamente 6 % del costo de capacitación previa de modelos comparables. Seis por ciento. No sesenta. Seis.

Si eres constructor, ese número debería hacerte sentar.

He aquí por qué. El supuesto dominante incorporado en cada valoración de laboratorio de frontera, cada contrato de GPU, cada construcción de centro de datos (Stargate, el compromiso de Microsoft de 500 mil millones de dólares, las nuevas instalaciones de Coreweave) es que la capacidad de frontera requiere computación de frontera, y la computación de frontera requiere capital de frontera. Ese es el foso. Esa es la función de puerta. Eso es lo que le da a Anthropic, OpenAI y Google su poder de fijación de precios.

Una afirmación del 6% sobre el costo previo a la capacitación, si se generaliza (y eso es un verdadero si), derriba esa suposición. Significa que un laboratorio bien financiado en cualquier país puede ofrecer capacidad de texto de vanguardia por menos del presupuesto de marketing de un solo anuncio del Super Bowl. Significa que el costo mínimo de la inteligencia de texto se está derrumbando rápidamente. Significa que el foso en la capa del modelo tiene una fuga.

Qué significa esto para los constructores posteriores. No realizo entrenamiento de modelos. La mayoría de ustedes tampoco. Pero la curva de costos en la parte inferior de la pila determina los precios de API en el medio de la pila, lo que determina la economía unitaria en la parte superior de la pila, que es donde yo y la mayoría de ustedes vivimos. Si las técnicas de eficiencia al estilo de ERNIE se propagan a la comunidad de código abierto en los próximos dos trimestres (y en base a lo que sucedió después de DeepSeek-V4 Pro enviado bajo licencia del MIT el último trimestre, espero que lo hagan), la curva de precio por millón de tokens cae otro orden de magnitud.

Ésa es la historia que estoy siguiendo. No "quién envió la mejor demostración esta semana". ¿Quién está doblando la curva de costos más rápido?

Si construye en la capa de aplicaciones (aplicaciones, agentes, sistemas de contenido, automatizaciones), su pregunta estratégica deja de ser "en qué modelo apuesto" y comienza a ser "qué arquitectura construyo que sobreviva a una caída de precio de 10 veces en el modelo subyacente cada nueve meses". Esa es una pregunta diferente con una respuesta diferente.

Pasemos ahora al modelo que podría estar perdiendo terreno silenciosamente.

La extraña semana de Gemini y qué hacer cuando un modelo del que dependes se desvía

Esta semana surgieron informes de que Gemini 3 Pro y el inédito 3.5 Pro han sido "fuertemente debilitados": menos seguimientos en contexto largo, generación de código de primer paso más débil, regresiones en cadenas de razonamiento que funcionaron hace un mes. No está realmente claro si estos informes son mediciones reales o ruido del usuario. El hilo de la comunidad en el foro de soporte de aplicaciones Gemini está lleno de quejas, y al menos una voz creíble en X está pidiendo a Google que envíe algo importante en las próximas dos semanas o corre el riesgo de perder impulso.

Agregue a esto la [final del 9 de marzo de 2026 de Gemini 3 Pro Preview] de Google (https://www.threads.com/@bassey__j/post/DVpyVntjDJn), solo cuatro meses después del lanzamiento del modelo, y tendrá un patrón. Los ciclos de vida de los modelos ahora se miden en semanas. La cinta de correr mejorada es real. Los constructores que eligieron Gemini para los flujos de trabajo de producción a finales de 2025 ya tuvieron que migrar dos veces.

Mientras tanto, Gemini 3.2 Flash apareció silenciosamente dentro de la aplicación iOS y AI Studio el 5 de mayo de 2026 sin comunicado de prensa, lo que muestra fortaleza en la generación, codificación y animación de SVG. Cubrí el patrón de actualización sigilosa de Flash Gemini 3 a principios de este trimestre y el manual es idéntico. La estrategia de Google es claramente apretar el nivel rápido y barato en lugar de dominar el buque insignia premium.

La lección para los constructores es la que aprendí de la manera más difícil en 2025. Nunca dependa de un solo modelo para un flujo de trabajo que debe entregarse de manera confiable en un trimestre. Cree su pila de agentes para que el modelo sea una variable intercambiable. Fije sus indicaciones al comportamiento, no a un nombre de modelo específico. Ejecute el mismo conjunto de evaluación para cada nueva versión que llegue a su pila para detectar las regresiones antes que sus clientes.

Cuando Gemini 3.1 Pro no funcione esta semana, cambie a Opus 4.7 o Sonnet 4.8 y continúe con el envío. Cuando Sonnet se desvíe, cambie a GPT-5.5. El modelo es ahora un insumo de productos básicos. Trátelo de esa manera.

Grok se convierte en una aplicación de productividad

xAI envió su juego de conectores esta semana y, en la superficie, parece una versión más limpia de lo que ya hacen Codex y Cowork. Los conectores se activaron el 6 de mayo de 2026 para Web, iOS y Android, conectándose a Google Workspace (Gmail, Drive, Docs, Sheets, Calendar), Notion, GitHub, Linear y cualquier servidor de protocolo de contexto de modelo personalizado a través de "Bring Your Own MCP".

Lo probé durante dos días. El UX es más fluido de lo que esperaba. La latencia es buena. La capacidad de colocar un servidor MCP personalizado en Grok y hacer que funcione es realmente impresionante: conecté un MCP interno que construí para una de mis agencias y Grok lo manejó sin problemas de configuración.

Pero aquí está mi opinión honesta. Grok sigue, no lidera. Todos los conectores de la lista se envían en Cowork o Codex o ambos. El único diferenciador (Grok está dentro del feed principal de X, con cualquier extraño impulso viral que esto genere) es también lo que la mayoría de los constructores no están optimizando. La mayoría de nosotros no intentamos ganarle a la viralidad X. Estamos intentando realizar el envío.

Si ya vive dentro de X, los conectores Grok son una mejora en su calidad de vida. Si no lo hace, esta no es la semana para migrar. Observe lo que hace xAI el próximo trimestre: si envían algo que Codex y Cowork no tienen, el cálculo cambia.

Por ahora, mi uso de Grok no ha cambiado. Lo mantengo abierto para un trabajo específico (investigación de bajo costo con acceso web) y el resto de mi trabajo se ejecuta en Claude Code y Codex. Su pila debe reflejar en qué es mejor cada herramienta, no en lo más nuevo.

Cubrí dónde realmente encaja Grok en una pila de múltiples agentes en el resumen del mes pasado, y la respuesta este mes es la misma. Es una herramienta secundaria útil, no una superficie principal.

Las dos historias que la prensa AI está infraponderando

Quiero dedicar el resto de esta publicación a las dos historias que no aparecieron en la portada pero que podrían dar forma al próximo año más que cualquier otra cosa esta semana.

Historia uno: Los textos judiciales de Mira Murati y lo que realmente significan

Esta semana, en el juicio en curso de Musk contra Altman, se registró en el expediente un intercambio de texto entre Sam Altman y Mira Murati de la noche del 19 de noviembre de 2023. Altman, recién despedido por la junta directiva de OpenAI dos días antes, estaba contactando a Murati, quien estaba en la reunión de la junta que decidiría si instalar a Emmett Shear como director ejecutivo sustituto, para obtener información interna.

Su mensaje: "¿Puedes indicar direccionalmente lo bueno o lo malo?"

Su respuesta: "direccionalmente muy mala".

En cuestión de horas, Altman había organizado la petición que firmaron 600 empleados de OpenAI, amenazando con desertar en masa hacia Microsoft. A los pocos días, fue reinstalado. Al cabo de unas semanas, los miembros de la junta que habían votado a favor de su destitución fueron los que se fueron.

La nueva revelación, la que hace que la filtración de esta semana sea significativa y no solo histórica, es el informe de que Murati había canalizado información importante (capturas de pantalla, documentación de mensajes de texto, acusaciones de mala gestión) al cofundador Ilya Sutskever, quien la incluyó en el memorando de 52 páginas que desencadenó la acción original de la junta directiva.

Ella no era solo la CTO. Ella fue la testigo principal del caso en su contra.

Por qué esto importa ahora. Murati dejó OpenAI en septiembre de 2024 para fundar Thinking Machines Lab, que recaudó una ronda inicial de 2.000 millones de dólares pero perdió a tres cofundadores frente a OpenAI en enero de 2026. La lectura a la que sigo volviendo es que toda la clase ejecutiva de AI está atrapada en una guerra por el mismo grupo de talentos cada vez más reducido. y el rastro jurídico-probatorio de quién dijo qué a quién en noviembre de 2023 seguirá apareciendo en las salas de los tribunales y en los ciclos de prensa durante los próximos dieciocho meses.

Para los constructores, la lección no son los chismes. Es gobernanza. Las empresas de las que depende para su infraestructura fundamental están dirigidas por personas cuyos mensajes de texto privados de hace tres años ahora se están incorporando como prueba. Este es un recordatorio de que nunca apueste su negocio por un solo API. Su pila debería sobrevivir a la implosión de cualquiera de estos laboratorios. Construya en consecuencia.

Historia dos: La reacción anti-Clanker se está generalizando

La otra historia que no tuvo suficiente cobertura. El insulto "clanker", originalmente un término de Star Wars ahora usado como etiqueta despectiva para AI y robots en TikTok, X y cada vez más en mítines del mundo real, ha pasado de la jerga de Internet al movimiento real.

Las cifras de los informes de NBC y los registros de incidentes rastreados por Substack: los incidentes anti-robots documentados han aumentado de 16 eventos importantes en 2023 a más de 40 en 2026. Se están llevando a cabo manifestaciones de la vida real en San Francisco y Londres. Los robots de reparto de Starship Technologies han sido vandalizados sistemáticamente en Sheffield, Reino Unido desde marzo, y los atacantes pintaron máquinas con aerosol y doblaron postes de identificación.

Las cifras de las encuestas detrás del movimiento son la parte que debería preocupar a todos los fundadores de este espacio. Un informe de Ernst & Young de julio de 2025 encontró que al 42% de los empleados europeos les preocupa que el lugar de trabajo AI amenace sus puestos de trabajo. Una encuesta de Gartner encontró que el 64% de los clientes prefieren que las empresas no utilicen AI para el servicio al cliente, y el 53% cambiaría a un competidor que no lo hiciera.

Esta es la brecha de consentimiento. La capacidad avanza rápidamente. El consenso cultural y político está rezagado, y la brecha ahora es lo suficientemente amplia como para que el resentimiento tenga su propia jerga, sus propias manifestaciones callejeras y sus propios patrones de ataque.

La comida para llevar para los constructores. Si su producto está "impulsado por AI" y se jacta de ello en la portada, se encuentra en el lado equivocado de la curva cultural en este momento. Las empresas que ganarán los próximos 24 meses son las que ofrecen productos que son obviamente útiles y silenciosamente impulsados por AI, no las que lideran con "ahora impulsado por GPT-5.5". Observe cómo Anthropic posicionó a sus agentes financieros esta semana: el mensaje es "su equipo ahora puede hacer X más rápido". No "AI reemplaza a su analista". Ese encuadre no es un accidente. Es el único encuadre que sobrevive.

Este fin de semana cambiaré el nombre de dos páginas de productos con esta lección en mente. Te sugiero que audites el tuyo.

Lo que realmente estoy haciendo esta semana como constructor

Esta es la sección que debería justificar la existencia de esta publicación. Cinco movimientos concretos que haré antes del lunes en función de lo que se envió esta semana.

Uno: voy a trasladar mi flujo de trabajo de redacción de divulgación y clasificación de correo electrónico a la extensión Codex de Chrome. El trabajo de Stripe-and-MRR de 22 minutos fue el punto de prueba. Ejecutaré esto en un perfil de Chrome en espacio aislado sin credenciales de pago guardadas, y leeré cada registro de auditoría antes de confiarle al agente cualquier cosa que afecte a un cliente. Espero ahorrar de cuatro a seis horas a la semana dentro de un mes.

Dos: estoy creando un agente de voz en GPT-Realtime-2 para una de mis marcas. El contexto de 128K más la llamada de herramientas paralela es el umbral que estaba esperando. Lo emparejaré con un MCP que accede al CRM, el calendario y Stripe de la marca. Objetivo: reserva por voz y soporte para clientes que odian los formularios. Presupuesto: $200 en gasto de API para la prueba, elimínelo si la calidad de la llamada es inferior a aceptable.

Tres: NO voy a migrar ninguna automatización de mejba.me a conectores Grok. Los conectores son buenos. No son mejores que los que ya tengo ejecutándose en Claude Code con servidores MCP personalizados que construí el último trimestre. El costo de la migración no vale una mejora del 5% en UX.

Cuarto: Estoy ejecutando la pila de plantillas de agentes financieros de Anthropic con la contabilidad de mis propias marcas durante el resto de mayo. No porque dirija un fondo de cobertura. Porque quiero ver si un paquete de agentes verticales supera a un agente generalista en un flujo de trabajo estructurado que realmente se corresponda con las operaciones de mi marca. Si es así, copio el patrón del paquete de plantillas para la creación de contenido, mi competencia principal real.

Cinco: estoy reescribiendo la portada de dos páginas de productos para eliminar todos los reclamos "impulsados por AI". Comience con el resultado. Enterrar la tecnología. Deja que el trabajo hable.

Si tomas una cosa de toda esta publicación, toma esa quinta. El mercado está cambiando. Los laboratorios corren hacia un producto con forma de sistema operativo. El piso de costos se está derrumbando. El consentimiento cultural se está desgastando. En ese entorno, los fundadores que ganan son los que aportan valor que la gente puede sentir y se quedan callados sobre cómo se hace.

Eso es lo que estoy rastreando. Eso es lo que está cambiando el lunes. Nos vemos la próxima semana.

Preguntas frecuentes

¿Cuál es el anuncio de AI más importante de la semana del 9 de mayo de 2026?

El lanzamiento más importante fue ERNIE 5.1 de Baidu, que logró un rendimiento fundamental líder en su escala de modelo utilizando aproximadamente el 6 % del costo de capacitación previa de modelos comparables. Se lanzó el 30 de abril y ascendió al puesto 13 en Text Arena de LMArena en una semana. La compresión de costos es más importante que cualquier demostración de modelo individual porque indica hacia dónde se dirige el precio mínimo por token en toda la industria.

¿Es seguro usar la extensión Codex para Chrome?

La extensión Codex Chrome es técnicamente segura pero operativamente riesgosa. Se ejecuta en una instancia de Chrome separada que pertenece al agente, con registros de auditoría para cada acción, pero puede usar sus sesiones iniciadas en Salesforce, Gmail, LinkedIn y herramientas similares. Ejecútelo en un perfil de navegador dedicado, nunca almacene credenciales de pago en ese perfil y revise el registro de auditoría antes de confiarle algo relacionado con el cliente.

¿Qué es GPT-Realtime-2 y debería compilar con él?

GPT-Realtime-2 es el modelo de voz de OpenAI con razonamiento de clase GPT-5, una ventana de contexto de 128K y llamadas de herramientas paralelas a $32 por millón de tokens de entrada de audio y $64 por millón de tokens de salida de audio. Es el primer modelo de voz en el que la latencia, la profundidad del razonamiento y la confiabilidad de la herramienta alcanzan los umbrales de producción simultáneamente. Construya con él ahora si la voz es fundamental para su producto. De lo contrario, supervise la curva de precios hasta el tercer trimestre antes de comprometerse.

¿Gemini 3 Pro realmente se debilitó en mayo de 2026?

Los informes sobre el rendimiento degradado de Gemini 3 Pro circularon ampliamente esta semana, y varios usuarios de X y del foro de soporte de aplicaciones Gemini informaron cadenas de razonamiento y generación de código más débiles. No está claro si esto refleja una ronda de sintonización real de RLHF o una desviación de la percepción del usuario. De cualquier manera, la lección es la misma: nunca dependa de un único modelo para los flujos de trabajo de producción. Construya su pila para que el modelo sea una variable intercambiable.

¿Qué significa el lanzamiento del agente de servicios financieros de Anthropic para los constructores no financieros?

Anthropic envió diez plantillas de agentes de servicios financieros listas para usar con profundos conectores de socios de datos (FactSet, S&P Capital IQ, MSCI, Morningstar, Moody's y más). La plantilla estratégica (elegir una vertical, poseer las asociaciones de datos, enviar plantillas verticales específicas) es más importante que el anuncio en sí. Espere que Anthropic repita este patrón en los sectores legal, sanitario y manufacturero en los próximos dos trimestres.

Trabajemos juntos

¿Quiere crear sistemas AI, automatizar flujos de trabajo o ampliar su infraestructura tecnológica? Me encantaría ayudar.

Fiverr (compilaciones e integraciones personalizadas): fiverr.com/s/EgxYmWD
Cartera: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y marca): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io

AI Roundup 9 de mayo de 2026: empieza la carrera del chatbot al OS