Claude Opus 4.7 filtrado: qué revela Capiara

Estaba desplazándome por un hilo de discusión de GitHub a las 11 de la noche de un lunes cuando alguien publicó una captura de pantalla que me hizo dejar el café. Era un fragmento del paquete npm de Claude Code — el código fuente real, no una maqueta — que mostraba cadenas de versión para modelos que todavía no existen. Claude Opus 4.7. Claude Sonnet 4.8. Y un nivel llamado Capybara que se situaba por encima de todo lo que Anthropic ha lanzado públicamente.

En cuestión de horas, esa captura estaba en todas partes. Y a los pocos días, una segunda filtración — esta vez del propio sistema de gestión de contenidos de Anthropic — dejó casi 3.000 documentos no publicados a la vista del público, incluidas comparaciones borrador de benchmarks y notas internas de arquitectura sobre algo con el nombre en clave Capiara.

Dos filtraciones accidentales en cinco días. De una empresa cuya marca entera está construida sobre la seguridad y el control cuidadoso. La ironía era tan espesa que se podía cortar con un git revert.

He pasado la última semana armando el rompecabezas de lo que estas filtraciones realmente nos dicen — separando los hechos confirmados de la especulación, la señal auténtica del ruido. Porque enterrada entre 500.000 líneas de código fuente expuesto y una pila de documentos de marketing en borrador hay una imagen sorprendentemente clara de hacia dónde se dirige Anthropic. Y si estás construyendo cualquier cosa sobre la API de Claude ahora mismo, necesitas entender esto antes de que aterrice.

Qué se filtró realmente — y cómo

Dos incidentes separados. La misma empresa. La misma semana. Vulnerabilidades distintas. La cronología importa porque te dice algo sobre la escala de lo que se expuso.

Filtración uno: el error de empaquetado de npm (31 de marzo de 2026). Una actualización defectuosa del paquete npm de Claude Code se publicó con archivos fuente que deberían haberse eliminado antes de la publicación. Aproximadamente 500.000 líneas de código repartidas en 1.900 archivos salieron a la luz. La comunidad lo encontró en cuestión de minutos. Anthropic emitió solicitudes de retirada, pero el código ya había sido replicado, bifurcado y analizado por desarrolladores de tres continentes.

Dentro de ese código: referencias a Opus 4.7 y Sonnet 4.8 como "cadenas de versión prohibidas" en lo que parece ser un modo de prueba interno llamado Undercover Mode. Los modelos no eran ejecutables desde el código filtrado — no había pesos, ni endpoints, ni forma de usarlos realmente. Pero los identificadores de versión confirmaron que existen como builds internos. Eso no es especulación. Son literales de cadena en código de producción.

Filtración dos: la configuración incorrecta del CMS (aproximadamente 1-2 de abril de 2026). Un error de configuración en el sistema de gestión de contenidos de Anthropic hizo accesibles al público cerca de 3.000 activos no publicados. Según la cobertura de Fortune, esto ocurrió solo unos días después del incidente de npm. Los documentos expuestos incluían borradores de publicaciones de blog, comparaciones de benchmarks y descripciones de arquitectura para una generación de modelos llamada Mythos — con el nombre de nivel Capybara (también referido como Capiara en algunos documentos internos).

La respuesta de Anthropic fue rápida pero mínima. Atribuyeron la filtración de npm a un error de empaquetado. Bloquearon el CMS. Emitieron retiradas. No confirmaron cronogramas específicos, benchmarks ni planes de lanzamiento para ningún modelo no publicado. La posición oficial de la empresa al 9 de abril de 2026: Mythos existe, los clientes de acceso anticipado lo están probando, sin fecha pública de lanzamiento.

Esa es la base confirmada. Todo lo que voy a discutir se apoya en lo que se encontró en esos dos conjuntos de datos.

Decodificando la convención de nombres: Mythos, Capybara, Capiara, Opus 4.7

La situación de los nombres confundió a casi todos los análisis tempranos que leí. Déjame desentrañarlo, porque la distinción entre estos términos revela cómo piensa Anthropic sobre su hoja de ruta de producto.

Mythos es un nombre de generación. Piensa en cómo Apple usa "iPhone 16" — es la familia del producto. Mythos representa la próxima generación de modelos Claude, sucediendo a la actual familia Claude 4.x.

Capybara es un nombre de nivel. Anthropic tiene actualmente tres niveles: Haiku (rápido y barato), Sonnet (equilibrado) y Opus (potente y caro). Capybara sería un cuarto nivel — situado por encima de Opus. Más grande, más capaz y significativamente más caro. Esta es la primera vez que vemos pruebas de que Anthropic está expandiéndose más allá de tres niveles.

Capiara aparece en algunos documentos filtrados como una ortografía alternativa o nombre en clave — posiblemente un nombre interno temprano antes de que Capybara fuera formalizado. Si es un error tipográfico, un nombre en clave para una variante específica de Capybara o un proyecto interno distinto, no queda claro en los materiales filtrados.

Opus 4.7 es una versión dentro del nivel Opus de la generación actual. Sería el próximo lanzamiento de Opus después de 4.6, siguiendo el patrón de Opus 4.5 (noviembre de 2025) y Opus 4.6 (febrero de 2026).

Esto es lo que significa en la práctica: Opus 4.7 y Capybara/Mythos son probablemente cosas distintas. Opus 4.7 es la próxima actualización incremental de Opus — aún dentro de la familia Claude 4.x. Capybara/Mythos es un nivel completamente nuevo, que potencialmente representa un salto generacional. El código filtrado hacía referencia a ambos, lo que significa que Anthropic está trabajando en al menos dos actualizaciones de modelo no publicadas de forma simultánea.

Esa es una señal significativa de asignación de recursos. Anthropic no solo está iterando sobre la arquitectura actual — están construyendo una nueva categoría por encima mientras continúan mejorando la línea existente. La estrategia de dos pistas refleja lo que hemos visto con OpenAI y sus modelos de razonamiento de la serie o funcionando junto a los lanzamientos de GPT, pero el enfoque de Anthropic lo formaliza como un nivel permanente en lugar de una línea de producto paralela.

Qué sugieren los benchmarks — con un gran asterisco

Necesito ser cuidadoso aquí, porque ninguna de las cifras de benchmarks de las filtraciones ha sido verificada de forma independiente. Anthropic no las ha confirmado. Los documentos filtrados son borradores — no resultados publicados. Trata todo en esta sección como "afirmaciones filtradas", no rendimiento probado.

Con esa advertencia firmemente en su lugar: los números son notables.

Los documentos borrador filtrados afirman que Opus 4.7 superará a Opus 4.6 por "amplios márgenes" en razonamiento de múltiples pasos, comprensión de código complejo, depuración y tareas de planificación. No se incluyeron porcentajes específicos en los documentos que han sido analizados públicamente, pero el lenguaje es más fuerte que el típico material de borrador interno. Los ingenieros de Anthropic no lanzan casualmente "amplios márgenes" en documentos que esperan que lea su jefe.

Para contextualizar lo que Opus 4.6 ya logra: obtiene 80,8 % en SWE-bench Verified, lo que lo convierte en uno de los mejores modelos de codificación disponibles. Obtuvo 65,4 % en SE-bench (un benchmark de ingeniería de software diferente, más difícil). Se sitúa en 91,3 % en GPQA Diamond para razonamiento científico. Estas son cifras de clase frontier.

Si Opus 4.7 mejora esto por "amplios márgenes", estamos viendo un modelo que podría llevar SWE-bench Verified por encima del 85 % — territorio que se consideraba cerca del techo hace seis meses. En razonamiento matemático y científico, los documentos filtrados sugieren que Opus 4.7 competirá en o por encima del nivel de Gemini 3, que obtuvo 1501 ELO en LM Arena y mostró una mejora del 41 % en ARC-AGI-2.

La afirmación sobre la codificación es la que encuentro más creíble, y aquí está el porqué. Anthropic ha estado en racha con los benchmarks de codificación. Opus 4.6 superó la puntuación de 54,6 % de GPT-4.1 en SE-bench con su 65,4 %. La vista previa de Mythos — que es el nivel Capybara, no Opus 4.7 — ya alcanzó 93,9 % en SWE-bench Verified. Si el nivel Capybara está alcanzando el 93,9 %, es totalmente plausible que Opus 4.7 — un modelo menos potente de la misma línea de investigación — aterrice en algún punto significativamente por encima de Opus 4.6 pero por debajo de Capybara.

Mi predicción aproximada, y esto es pura especulación basada en el patrón: Opus 4.7 SWE-bench Verified en el rango de 85-90 %, con SE-bench potencialmente superando el 75 %. Si esos números se mantienen, harían de Opus 4.7 el segundo modelo de codificación más capaz que Anthropic ha probado — solo detrás del nivel restringido Capybara/Mythos.

Pero aquí está el asterisco al asterisco. Los benchmarks no son rendimiento en el mundo real. He probado Opus 4.6 extensamente en tareas reales de codificación — construcción de juegos, producción de podcasts, generación de presentaciones — y la experiencia del mundo real a menudo diverge de las puntuaciones de los benchmarks. Un modelo que obtiene un 5 % más en SWE-bench puede sentirse idéntico en el uso diario. O puede ser dramáticamente mejor en las tareas específicas que ese benchmark no mide bien, como planificación a largo plazo o decisiones arquitectónicas. Hasta que pueda usar realmente Opus 4.7, los benchmarks son puntos de datos interesantes, no conclusiones.

La arquitectura bajo el capó

Los documentos filtrados describen la arquitectura de Opus 4.7 como un transformer decodificador denso — sin mezcla dispersa de expertos (MoE). Este es el mismo enfoque fundamental que Opus 4.6, y es una elección filosófica deliberada que distingue a Claude de modelos como GLM-5.1 (que usa MoE con 754 mil millones de parámetros pero solo activa una fracción en la inferencia).

Los transformers densos usan todos sus parámetros para cada token que procesan. Los modelos MoE dirigen diferentes entradas a través de diferentes subredes "expertas", activando solo un subconjunto del total de parámetros. La compensación es directa: los modelos densos son más caros computacionalmente por token, pero tienden a producir una calidad de razonamiento más consistente. Los modelos MoE son más baratos de ejecutar pero pueden ser desiguales — brillantes en algunas entradas, mediocres en otras.

La apuesta de Anthropic por la arquitectura densa dice algo sobre sus prioridades. Están optimizando para confiabilidad y profundidad sobre el coste de inferencia. Cuando estás cobrando 5 $ por millón de tokens de entrada y 25 $ por millón de tokens de salida (precios de Opus 4.6), puedes permitirte ejecutar un modelo más pesado porque el punto de precio soporta el cómputo. El precio premium subvenciona la arquitectura premium.

El recuento de parámetros no ha sido divulgado oficialmente para ningún modelo Claude — Anthropic ha sido más reservado sobre esto que casi cualquier otro laboratorio. Las estimaciones de analistas para Opus 4.6 están en el rango de "cientos de miles de millones". Opus 4.7, según los borradores filtrados, es "aún más grande". Si eso significa un 10 % más grande o 3 veces más grande es desconocido.

Lo que encuentro más interesante que el recuento bruto de parámetros es la descripción de los datos de entrenamiento. Las filtraciones hacen referencia al entrenamiento con "billones de tokens de texto de internet, código, libros y conjuntos de datos licenciados". La parte de "conjuntos de datos licenciados" es significativa — sugiere que Anthropic ha expandido sus acuerdos de licencia de datos, dando potencialmente a Opus 4.7 acceso a texto y código propietario de alta calidad que los competidores que entrenan principalmente con raspados web no tienen. La calidad de los datos suele tener más impacto que el tamaño del modelo, y Anthropic ha sido agresivo en asegurar asociaciones de datos exclusivas.

Se espera que la ventana de contexto mantenga o supere la capacidad de 1 millón de tokens introducida con Opus 4.6. Dado que tanto GPT-4.1 como Gemini 3 ya soportan 1 millón de tokens, caer por debajo de ese umbral sería una regresión competitiva que Anthropic no puede permitirse.

La cadencia de lanzamiento cuenta una historia

Aléjate de los detalles técnicos y mira la cronología de lanzamientos:

Opus 4.5: noviembre de 2025
Opus 4.6: febrero de 2026 (3 meses después)
Opus 4.7 (esperado): mediados a finales de 2026 (4-6 meses después)

La cadencia se está acelerando en capacidad mientras se extiende ligeramente en cronología. De Opus 4.5 a 4.6 hubo una brecha de 3 meses e introdujo la ventana de contexto de 1 millón de tokens — un cambio arquitectónico masivo. Si Opus 4.7 toma 4-6 meses, es porque el alcance de la actualización es mayor, no porque Anthropic esté ralentizándose.

El CEO de Anthropic ha confirmado las pruebas tempranas con clientes seleccionados y ha descrito los resultados como un "step change" en el rendimiento de razonamiento y codificación. Ese lenguaje — step change — es específico y deliberado. Significa que la mejora no es incremental. Algo fundamental cambió en el entrenamiento o la arquitectura que produce resultados cualitativamente diferentes.

He visto lenguaje de "step change" de laboratorios de IA antes. A veces es marketing. Pero Anthropic ha sido históricamente conservador con las afirmaciones — son más propensos a prometer menos y entregar más que al revés. Cuando Dario Amodei dice "step change", me lo tomo en serio.

El patrón de despliegue controlado también cuenta una historia. Opus 4.6 se lanzó con amplio acceso a la API desde el primer día. Los documentos filtrados sugieren que Opus 4.7 seguirá un lanzamiento más cauteloso — primero acceso anticipado para equipos de seguridad y socios seleccionados, luego disponibilidad más amplia de la API. Esto refleja lo que ocurrió con Mythos/Capybara, que a abril de 2026 aún está restringido a un pequeño grupo de clientes de acceso anticipado elegidos por Anthropic.

¿Por qué la precaución? Dos posibilidades. Primero, el modelo es lo suficientemente potente como para que Anthropic quiera que los investigadores de seguridad lo sometan a pruebas de estrés antes del acceso público — la misma razón detrás del despliegue restringido de Mythos en el Proyecto Glasswing. Segundo, Anthropic está gestionando la capacidad de cómputo. Un modelo más grande y denso requiere más tiempo de GPU por solicitud. Controlar el acceso les permite escalar la infraestructura antes de abrir las compuertas.

Mi apuesta son ambos factores simultáneamente.

Seguridad en ASL-3: qué significa realmente para ti

Anthropic opera sus modelos frontier bajo AI Safety Level 3 (ASL-3) — su estándar de seguridad interno más alto. Este marco fue activado junto con la familia Claude 4 y cubre categorías de riesgo específicas: desarrollo de armas químicas, biológicas, radiológicas y nucleares (CBRN); operaciones cibernéticas autónomas; y autorreplicación del modelo.

Para Opus 4.7, ASL-3 significa varias cosas concretas:

Mayor prueba de red-team antes del lanzamiento. Cada modelo frontier de Claude pasa por pruebas adversariales donde los equipos intentan activamente hacer que haga cosas peligrosas — sintetizar instrucciones de bioarmas, escribir código de exploits para infraestructura crítica, planificar acciones autónomas fuera de su sandbox. Opus 4.6 pasó estas pruebas con algunas preocupaciones de casos límite marcadas, pero sin riesgos novedosos importantes identificados. Opus 4.7 enfrentará un escrutinio más estricto porque es más capaz.

Niveles de despliegue controlados. No todos obtienen acceso al mismo tiempo. Primero equipos de seguridad y socios de confianza. Luego acceso más amplio para desarrolladores. Acceso al consumidor al final. Este es un patrón deliberado que Anthropic ha estado refinando — y se espera que el despliegue de Opus 4.7 lo formalice más que cualquier lanzamiento anterior.

Monitoreo continuo después del despliegue. ASL-3 no solo gobierna el lanzamiento. Anthropic monitorea comportamientos emergentes después del despliegue — patrones de uso indebido, descubrimientos de capacidades inesperadas o desviaciones de alineación que solo aparecen a escala. Se han comprometido a publicar informes de riesgo, como el que publicaron para Mythos en abril de 2026.

En febrero de 2026, Anthropic actualizó su Responsible Scaling Policy a la versión 3.0, que requiere publicar Frontier Safety Roadmaps con objetivos de seguridad detallados e informes de riesgo que cuantifiquen el riesgo en todos los modelos desplegados. Opus 4.7 será el primer lanzamiento de Opus de nivel estándar bajo estos requisitos ampliados de divulgación.

Aquí está mi opinión honesta sobre lo que ASL-3 significa prácticamente para los desarrolladores. Si estás construyendo aplicaciones estándar — chatbots, asistentes de código, herramientas de contenido, pipelines de análisis de datos — ASL-3 no afectará tu experiencia diaria con el modelo. Las medidas de seguridad están dirigidas principalmente a prevenir el uso indebido catastrófico, no a limitar los flujos de trabajo rutinarios de los desarrolladores. No notarás los guardarraíles en la operación normal.

Donde podrías notarlos: si estás construyendo herramientas de seguridad, agentes autónomos con acceso a la red o sistemas que interactúan con infraestructura física. Los límites sobre lo que Claude hará y no hará en esos dominios son más estrictos que los de los competidores, y se harán más estrictos con Opus 4.7. Si eso es una característica o una limitación depende completamente de lo que estés construyendo.

Dónde encaja Opus 4.7 en la guerra competitiva

El panorama de modelos de IA en abril de 2026 es el más concurrido y competitivo que jamás ha sido. Opus 4.7 no se lanza en un vacío — aterriza en medio de una lucha a cuatro bandas.

GPT-5.4 de OpenAI lidera en varios benchmarks de codificación, particularmente en tareas que involucran recursión, manejo de errores y lógica de casos límite. Obtuvo 83 % en GDPval (igualando a profesionales de la industria en 44 ocupaciones) y 75 % en OSWorld, superando el rendimiento humano en tareas de escritorio. La ventaja de ecosistema de OpenAI — la base de consumidores de ChatGPT, la amplia integración de API, las asociaciones con Microsoft — le da a GPT-5.4 una distribución que ningún otro modelo iguala.

Gemini 3.1 Pro de Google gana en razonamiento abstracto (77,1 % en ARC-AGI-2, más del doble de la puntuación de Gemini 3 Pro) y razonamiento científico (94,3 % en GPQA Diamond, la más alta de cualquier modelo). Sus capacidades multimodales — video, audio, razonamiento espacial — ocupan territorio en el que Claude no compite. Y a 2 $ de entrada / 12 $ de salida por millón de tokens, socava significativamente los precios de Anthropic.

Llama 3 (405B) de Meta ofrece algo que ninguno de los modelos cerrados puede: soberanía completa de datos. Código abierto, autoalojable, ajustable. Para organizaciones que no pueden enviar datos a APIs externas — salud, defensa, servicios financieros — Llama suele ser la única opción independientemente de las puntuaciones de los benchmarks.

Entonces, ¿dónde encaja Opus 4.7?

El foso de Claude siempre ha sido la intersección de tres cosas: razonamiento profundo de múltiples pasos, ingeniería de software compleja y comprensión masiva de documentos. Si necesito una IA para leer una base de código de 200.000 tokens y sugerir una refactorización arquitectónica, Claude es mi primera llamada. Si necesito que encadene una sesión de depuración a través de doce archivos con lógica interdependiente, Claude supera a todo lo demás que he probado.

Opus 4.7 parece diseñado para ensanchar ese foso específico en lugar de perseguir a los competidores en sus fortalezas. Los benchmarks filtrados no mencionan comprensión de video, procesamiento de audio o razonamiento espacial — áreas donde Gemini domina. No destacan características orientadas al consumidor o integraciones de ecosistema — el territorio de OpenAI. Se enfocan implacablemente en la profundidad del razonamiento, la calidad del código y la capacidad de planificación.

Esta es una elección estratégica deliberada, y creo que es la correcta. En un mercado donde cada laboratorio intenta ser todo para todos, Anthropic está apostando a que ser definitivamente el mejor en tareas analíticas y de ingeniería complejas es suficiente para construir un negocio masivo. Dado que sus clientes son abrumadoramente desarrolladores y empresas — no consumidores — esa apuesta parece bien calibrada.

El comodín es el precio. Se espera que Opus 4.7 cueste lo mismo o más que los 5 $/25 $ por millón de tokens de Opus 4.6. Cuando Gemini 3.1 Pro ofrece un rendimiento de codificación competitivo a menos de la mitad del precio, la propuesta de valor depende completamente de si la ventaja de calidad de Opus 4.7 justifica el sobreprecio. Para mi flujo de trabajo — codificación agéntica compleja, refactorización de múltiples archivos, análisis de contexto largo — absolutamente lo hace. He perdido más dinero depurando salidas malas de IA de modelos más baratos que el que jamás he gastado en tokens de Claude.

Pero reconozco que ese no es el cálculo de todos. Si estás ejecutando tareas de alto volumen y menor complejidad, la brecha de precios importa.

Nuevas capacidades de la API: Chyros y Autodream

Enterradas en los documentos filtrados del CMS había referencias a dos nuevas capacidades de API con los nombres en clave Chyros y Autodream. Estas no eran parte de la filtración de código npm — aparecieron en lo que parecen ser documentos internos de hoja de ruta de producto.

Los detalles son escasos, pero los fragmentos que han sido analizados sugieren:

Chyros parece involucrar primitivas avanzadas de agentes — herramientas para construir agentes de IA que pueden delegar subtareas, gestionar su propio estado de ejecución y operar de forma persistente a través de sesiones. Si esto es lo que parece, es una respuesta directa al floreciente ecosistema de agentes. Ahora mismo, construir agentes persistentes de Claude requiere coser juntos la gestión de conversaciones, las llamadas a herramientas y el seguimiento de estado por tu cuenta. Chyros podría proporcionar esa infraestructura de forma nativa.

He estado construyendo arquitecturas de enjambre de agentes con Claude durante meses, y el mayor punto de dolor es siempre la gestión de estado entre sesiones. Si Anthropic lanza memoria persistente nativa y delegación de tareas a través de la API, colapsaría semanas de infraestructura personalizada en llamadas a la API. Eso solo justificaría actualizar a Opus 4.7 para cualquier constructor serio de agentes.

Autodream es aún más críptico. El nombre sugiere algo relacionado con la operación o planificación autónoma — posiblemente una capacidad donde el modelo puede generar y refinar planes antes de ejecutarlos, similar al pensamiento extendido pero aplicado a flujos de trabajo de agentes de múltiples pasos en lugar de razonamiento de un solo turno.

Estoy especulando fuertemente aquí. Los fragmentos filtrados no dan suficiente para sacar conclusiones firmes. Pero la dirección es consistente con todo lo demás que estamos viendo: Anthropic está construyendo hacia sistemas de IA que pueden operar con menos supervisión humana momento a momento. Mythos demostró esa capacidad de manera dramática. Chyros y Autodream podrían ser las herramientas orientadas al desarrollador que la hacen accesible y controlable.

Qué significa esto para los desarrolladores que construyen sobre Claude ahora mismo

Aquí dejo de analizar filtraciones y empiezo a hablar de lo que realmente deberías hacer con esta información.

No esperes. No te congeles. La peor respuesta a un próximo lanzamiento de modelo es dejar de construir. Opus 4.6 es excelente. No va a empeorar cuando llegue 4.7. Construye sobre 4.6 ahora, y diseña tu sistema para intercambiar modelos con un solo cambio de configuración. Si tu código está codificado de forma fija a una versión específica de modelo, eso es un problema independientemente de lo que venga después.

Diseña para el salto de ventana de contexto. La ventana de contexto de 1 millón de tokens de Opus 4.6 fue un cambio radical para cómo construyo. Opus 4.7 la mantendrá o la superará. Si no has reconstruido tus flujos de trabajo en torno a las capacidades de contexto largo — alimentando bases de código enteras, conjuntos completos de documentos, historiales completos de conversación — estás dejando la capacidad más valiosa sobre la mesa. Empieza ahora. Las habilidades se transfieren directamente a lo que venga después.

Presupuesta para precios premium. Nada en las filtraciones sugiere que Opus 4.7 será más barato que 4.6. Si acaso, las señales de precios "similares o más altos" de los documentos borrador sugieren un aumento modesto. Construye tus modelos de costos en torno a 5-7 $ por millón de tokens de entrada y 25-30 $ por millón de tokens de salida. Si el precio real resulta más bajo, tendrás margen. Si resulta más alto, no te pillará desprevenido.

Vigila el nivel Capybara como producto separado. Esta es la perspectiva oculta de las filtraciones. Si Anthropic lanza un cuarto nivel por encima de Opus, significa que habrá tareas donde incluso Opus no será la herramienta adecuada. El precio de Capybara/Mythos será dramáticamente más alto — posiblemente 15-25 $ por millón de tokens de entrada según los costos de tokens reportados para el acceso a la vista previa de Mythos. Para la mayoría de los casos de uso, Opus sigue siendo el punto dulce. Pero si estás construyendo sistemas que necesitan el techo absoluto de capacidad de razonamiento — auditoría de seguridad, análisis legal complejo, investigación científica — empieza a pensar en cómo un nivel Capybara encaja en tu arquitectura.

Ponte serio con los límites de seguridad. El patrón de despliegue controlado no se va. Cada lanzamiento sucesivo de Claude tendrá más guardarraíles, más acceso por niveles, más monitoreo. Si tu aplicación depende de empujar los bordes de lo que Claude está dispuesto a hacer — acceso autónomo a la red, ejecución de código en entornos de producción, pruebas de seguridad — construye esos límites explícitamente en tu diseño de sistema. No confíes en que el modelo esté dispuesto. Construye redundancia alrededor de las restricciones.

Si prefieres que alguien construya esta infraestructura desde cero — la arquitectura de agentes, la capa de cambio de modelo, la pipeline de optimización de costos — yo asumo exactamente este tipo de encargos. Puedes ver lo que he construido en fiverr.com/s/EgxYmWD.

La pregunta incómoda sobre el problema de filtraciones de Anthropic

No puedo escribir sobre estas filtraciones sin abordar el elefante en la habitación. Anthropic — la empresa que se posiciona como el laboratorio de IA responsable y centrado en la seguridad — tuvo dos grandes exposiciones de datos en la misma semana. Un error de empaquetado de npm que envió 500.000 líneas de código fuente. Una configuración incorrecta de CMS que expuso 3.000 documentos internos.

Estos no son ataques sofisticados. Son errores operativos. El tipo de errores que ocurren cuando la velocidad de envío supera la higiene de seguridad.

No creo que esto socave las credenciales de seguridad de Anthropic en el lado de la alineación de IA. La seguridad del modelo — impedir que Claude ayude a alguien a construir un arma biológica — es una disciplina fundamentalmente diferente de la seguridad operativa — impedir que tu propio código fuente se filtre a través de npm. Equipos diferentes, procesos diferentes, modos de fallo diferentes. Las personas que construyen sistemas de alineación RLHF no son las mismas personas que configuran los permisos del CMS.

Pero la óptica es brutal. Cuando la promesa de tu marca es "construimos IA de forma responsable y cuidadosa", dos filtraciones consecutivas sacuden la confianza en la parte "cuidadosa". Especialmente cuando el contenido filtrado incluye detalles sobre modelos que podrían encontrar vulnerabilidades de día cero de forma autónoma. La desconexión entre "somos tan conscientes de la seguridad que no lanzaremos Mythos públicamente" y "accidentalmente publicamos todo nuestro código fuente a través de un error de empaquetado" es desconcertante.

Anthropic necesita abordar esta brecha — no solo con respuestas a incidentes y avisos de retirada, sino con una mejora visible en las prácticas de seguridad operativa. El talento técnico claramente está ahí. La disciplina de procesos, con esta evidencia, necesita trabajo.

Para que conste, cada gran laboratorio de IA ha tenido incidentes similares. El Slack interno de OpenAI fue comprometido en 2024. Google tuvo filtraciones relacionadas con Gemini a través de su rastreador de errores. La velocidad del desarrollo de IA crea presión organizativa que rutinariamente derrota las prácticas de seguridad estándar. No es una excusa — es contexto.

Qué estoy vigilando a continuación

Tres señales me dirán si la filtración de Opus 4.7 pinta una imagen precisa:

Señal uno: anuncios de acceso anticipado. Cuando Anthropic empiece a dar a socios seleccionados acceso a Opus 4.7 — y lo harán, porque necesitan los datos de prueba — las pistas compatibles con NDA comenzarán a fluir. Vigila a los desarrolladores que de repente hablan de "razonamiento mejorado" o "mejor rendimiento en contexto largo" sin nombrar el modelo. Esa es la señal.

Señal dos: cambios de precios en la alineación actual. Cuando Anthropic está a punto de agregar un nuevo nivel, típicamente ajustan los precios de los niveles existentes. Si Opus 4.6 obtiene una reducción de precio en los próximos 2-3 meses, probablemente signifique que Opus 4.7 (o Capybara) está a punto de tomar la posición premium. Los ajustes de precios de Haiku y Sonnet señalarían lo mismo.

Señal tres: el informe de Responsible Scaling Policy. Bajo RSP 3.0, Anthropic se ha comprometido a publicar informes de riesgo para modelos frontier. Cuando el informe de riesgo de Opus 4.7 se publique — y se publicará antes o en el lanzamiento — la brecha entre los benchmarks de borrador filtrados y los números reales quedará clara.

Mi predicción: Opus 4.7 llega entre junio y agosto de 2026. Las mejoras de codificación serán reales y significativas. Las ganancias de razonamiento serán significativas pero menos dramáticas de lo que sugieren las filtraciones. El nivel Capybara se lanzará por separado, más tarde, y a un precio que hará parpadear a la mayoría de los desarrolladores. Y la carrera de IA seguirá acelerándose, porque esa es la única dirección que conoce.

El código filtrado me mostró cadenas de versión. Los documentos filtrados me mostraron pistas de benchmarks y notas de arquitectura. Pero lo que realmente me dijo más sobre Opus 4.7? Fue la palabra "step change" del CEO de Anthropic. Porque cuando una empresa conocida por su moderación empieza a usar un lenguaje tan fuerte, el modelo detrás suele ser mejor de lo que sugieren las filtraciones.

Preguntas frecuentes

¿Cuándo se lanzará Claude Opus 4.7?

Anthropic no ha confirmado una fecha de lanzamiento pública para Claude Opus 4.7 a abril de 2026. Con base en la cadencia de actualización de 3-4 meses (Opus 4.5 en noviembre de 2025, Opus 4.6 en febrero de 2026), un lanzamiento de mediados a finales de 2026 es lo más probable. El acceso anticipado para socios seleccionados ya está en marcha.

¿Cuál es la diferencia entre Claude Mythos y Opus 4.7?

Claude Mythos es un nombre de generación/producto, mientras que Opus 4.7 es una versión dentro del nivel Opus de Claude 4.x actual. Mythos usa el nivel Capybara — un nuevo cuarto nivel por encima de Opus. Opus 4.7 y Capybara/Mythos son modelos separados en diferentes niveles de capacidad y precio. Para el desglose completo, consulta la sección de convención de nombres arriba.

¿Cuánto costará Claude Opus 4.7?

Los documentos filtrados sugieren precios similares o superiores a los de Opus 4.6, que son de 5 $ por millón de tokens de entrada y 25 $ por millón de tokens de salida. Optimizaciones como el caché de prompts y la ejecución por lotes pueden reducir los costos efectivos. El nivel Capybara/Mythos tendrá un precio significativamente más alto.

¿Es Claude Opus 4.7 mejor que GPT-5.4 para codificación?

Los benchmarks filtrados sugieren que Opus 4.7 superará significativamente a GPT-4.1 y competirá estrechamente con GPT-5.4 en tareas complejas de ingeniería de software. Se espera que las fortalezas tradicionales de Claude — razonamiento de múltiples pasos, comprensión de código en contexto largo y depuración — vean las mayores mejoras. Los benchmarks independientes determinarán las clasificaciones finales.

¿Qué se expuso en la filtración de código fuente de Claude Code?

Aproximadamente 500.000 líneas de código repartidas en 1.900 archivos se expusieron a través de un error de empaquetado de npm el 31 de marzo de 2026. El código reveló referencias a Opus 4.7 y Sonnet 4.8 como cadenas de versión internas, junto con detalles de la infraestructura de pruebas. No se expusieron pesos de modelo ni claves de API.

Trabajemos juntos

¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudar.

Fiverr (construcciones e integraciones personalizadas): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io

Claude Opus 4.7 filtrado: qué revela Capiara