La AGI Práctica Ya Está Aquí: Las Propias Cifras de Anthropic

La AGI Práctica Ya Está Aquí: Los Propios Números de Anthropic

Leí el informe de Anthropic dos veces antes de admitir lo que realmente estaba diciendo.

La primera vez, hice lo que hace todo ingeniero: fui directo a los números, capturé las gráficas y lo archivé bajo "interesante, lo referenciaré después." La segunda lectura, un sábado por la mañana sin Slack abierto y sin nada que entregar, me impactó de otra manera. Porque el informe que Anthropic publicó el 5 de junio de 2026 — "When AI builds itself" — no es una demostración de capacidades. Es una admisión silenciosa y ligeramente nerviosa de que aquello sobre lo que hemos debatido durante una década en abstracto ya ha sucedido en su edificio, en sus máquinas, con el modelo que uso todos los días.

La AGI práctica está aquí. No la de ciencia ficción. No una mente consciente en un rack de servidores. La aburrida, la que sostiene la carga — un sistema que resuelve autónomamente problemas abiertos que no tienen una respuesta predefinida. Y la razón por la que estoy seguro de decir esto no es una vibra ni un hilo de hype. Son los propios datos internos de Anthropic, la empresa que tiene todos los incentivos para ser cautelosa con exactamente esta afirmación.

Quiero guiarte a través de lo que el informe realmente dice — los números verificados, no las paráfrasis sensacionalistas — y luego quiero darte mi lectura honesta como alguien que ha pasado el último año construyendo sistemas en producción sobre estos modelos. Al final tendrás una definición de AGI que es realmente útil, una idea clara de en cuál de tres futuros estamos parados ahora mismo, y una pregunta incómoda sobre tu propio trabajo que no he podido quitarme de la cabeza. Déjame empezar matando la palabra que ha estado envenenando toda esta conversación.

Por Qué "AGI" Ha Sido la Palabra Equivocada Todo Este Tiempo

Aquí está la trampa en la que todos caímos. Dejamos que "AGI" significara la singularidad — una máquina que despierta, quiere cosas y supera en pensamiento a toda la humanidad a la vez. Esa definición es genial para películas y terrible para notar lo que realmente está pasando, porque establece un listón tan alto y tan vago que ningún sistema real lo superará de manera obvia. Siempre puedes decir "pero no es consciente," y la conversación muere ahí.

El informe de Anthropic esquiva la filosofía por completo, y ese es el movimiento más inteligente de todo el documento. Traza una línea dura entre dos cosas.

La IA estrecha hace bien una tarea acotada. Un motor de ajedrez. Un filtro de spam. Un modelo que clasifica imágenes. Puede ser sobrehumano en su única tarea y completamente inútil un centímetro fuera de ella. Esto lo tenemos desde hace años y nadie se alarmó.

La inteligencia general — del tipo práctico — es la capacidad de tomar un problema que nadie ha pre-resuelto, sin clave de respuesta, sin función de recompensa limpia, sin "salida correcta" en un dataset, y hacer progreso real de todas formas. Eso es todo. Esa es toda la definición. No consciencia. No deseo. Solo: ¿puede trabajar en lo que no tiene solución definida?

Una vez que aceptas ese marco, la pregunta deja de ser "¿está viva?" y se convierte en "¿con qué frecuencia tiene éxito en problemas sin solución definida?" Y esa es una pregunta que realmente puedes medir. Anthropic la midió. El número es lo que me hizo dejar el café en la mesa.

Pero antes del número, necesitas los niveles — porque no todo el trabajo "abierto" es igual, y el informe es cuidadoso con esto de una forma que los titulares no fueron.

Los Cuatro Niveles de Tareas — Y el Que Acaba de Abrirse

Anthropic clasifica el trabajo que hacen sus propios ingenieros en cuatro niveles de dificultad. Este marco me parece tan útil que he empezado a clasificar mentalmente mi propia semana de la misma manera.

Trivial — renombrar una variable, corregir un error tipográfico, escribir un guard de una línea. El modelo hace esto perfectamente desde hace dos años.
Rutinario — implementar una función bien especificada, conectar una API conocida, escribir tests para lógica existente. Resuelto.
Sustancial — construir una funcionalidad a través de varios archivos, refactorizar un módulo, depurar algo con una causa identificable. Aquí es donde los modelos de 2025 se volvieron genuinamente buenos.
Abierto — "descubrir por qué los entrenamientos se están degradando silenciosamente," "diseñar un experimento para probar esta hipótesis," "mejorar este sistema cuando nadie sabe cómo es la mejora." Sin especificación. Sin clave de respuesta. Este es el nivel AGI.

Durante años, ese cuarto nivel era donde la IA se desmoronaba. Podía autocompletar tu función pero no podía hacer investigación. Necesitaba que un humano definiera el problema tan estrictamente que lo abierto ya estuviera eliminado.

Ese es el nivel que acaba de abrirse. Según el informe de Anthropic, la tasa de éxito de Claude en la mayoría de tareas abiertas alcanzó el 76% en mayo de 2026 — un aumento de 50 puntos porcentuales en seis meses. Lee eso otra vez. La mitad de la brecha, cerrada, en dos trimestres, en la categoría exacta de trabajo que se suponía era el foso exclusivo de los humanos.

Lo he sentido desde el lado de la aplicación sin tener el número para adjuntarle. Hace un año, cuando Opus 4.6 arregló silenciosamente un bug de renderizado que yo no podía resolver probando tres enfoques por su cuenta, se sintió como un atisbo. Ahora entiendo que era el borde delantero de una curva que estaba a punto de volverse casi vertical. La corrección del bug no era la historia. La autonomía en un problema que no había especificado completamente era la historia.

Y la tasa de éxito es solo la mitad. La otra mitad es cuánto tiempo puede el modelo mantenerse de pie solo antes de necesitarte.

La Tendencia de Duplicación Que Debería Asustarte

Esta es la gráfica del informe a la que sigo volviendo, porque es la que tiene la extrapolación más limpia — y la más inquietante.

Anthropic midió la duración de las tareas que sus modelos pueden completar de manera autónoma de forma fiable, el tipo de trabajo donde le entregas un objetivo y te vas. La progresión:

Marzo 2024 — Claude Opus 3 manejaba tareas de software que a un humano le toman unos cuatro minutos.
Marzo 2025 — Claude Sonnet 3.7 manejaba tareas de aproximadamente una hora y media.
Marzo 2026 — Claude Opus 4.6 gestionaba tareas de 12 horas.

De cuatro minutos a doce horas en dos años. Pero el número que importa no es ningún punto individual — es la pendiente. El informe establece que esta capacidad ahora se duplica aproximadamente cada cuatro meses, frente a una tendencia anterior de duplicación cada siete meses. La curva no solo es empinada. Se está volviendo más empinada.

Quédate con la duplicación de cuatro meses un segundo, porque la extrapolación te revuelve el estómago. Tareas autónomas de doce horas en primavera de 2026. Duplícalo — aproximadamente un día completo para otoño. Duplícalo de nuevo — varios días. No voy a trazar la línea a tres años y pretender que puedo predecir una fecha específica, porque eso es exactamente el tipo de falsa precisión que este tema no necesita. Pero la dirección no es ambigua. Lo que podía trabajar junto a ti durante quince minutos se está convirtiendo en lo que puede trabajar junto a ti durante una semana.

Esta es la parte que reformuló el desarrollo agent-native para mí. Antes pensaba que la habilidad era hacer buenos prompts. No lo es. La habilidad es delegar bien a algo que puede ejecutarse durante horas — definir el objetivo, establecer las barreras, y luego quitarte del medio. Cuanto más larga sea la correa, más esa habilidad de definición se convierte en el trabajo completo. Volveremos a esto, porque es hacia donde se dirige tu valor.

Ahora — ¿más largo y más exitoso significa mejor? Porque hay una versión de esto donde la IA simplemente hace más trabajo mediocre más rápido. El informe tiene una respuesta directa a eso, y es la afirmación que tuve que verificar tres veces.

Cuando la Máquina Toma la Mejor Decisión

Esta es la línea que movió el informe de "impresionante" a "genuinamente nuevo" para mí.

Los investigadores de Anthropic rastrearon con qué frecuencia el siguiente paso de investigación sugerido por Claude era juzgado mejor que la propia elección del investigador humano. No más rápido. No más barato. Mejor. El número pasó del 51% en noviembre de 2025 al 64% en abril de 2026.

Detente en lo que el 51% siquiera significa. Significa que a finales de 2025, en la pregunta cargada de juicio de "¿qué deberíamos intentar a continuación en esta dirección de investigación?", el modelo ya era un lanzamiento de moneda contra expertos entrenados. Para la primavera de 2026 estaba ganando aproximadamente dos de cada tres veces. Esto no es completar código. Esto es criterio — lo que nos dijimos a nosotros mismos que era irreductiblemente humano.

Se nota en la capacidad bruta también. En una tarea de optimización de código, Claude Opus 4 logró una aceleración de aproximadamente 3x en mayo de 2025. Para abril de 2026, Claude Mythos Preview — el modelo frontera restringido de Anthropic, el que deliberadamente han mantenido fuera del lanzamiento general — alcanzó aproximadamente 52x en el mismo tipo de trabajo. (Mythos es real, por cierto, y vale la pena conocerlo; es el modelo detrás de Project Glasswing, el esfuerzo de Anthropic por endurecer la infraestructura crítica, y obtuvo 97.6% en la Olimpiada Matemática de EE.UU. 2026 contra el 42.3% de Opus 4.6.) De tres-x a cincuenta-y-dos-x en menos de un año en un solo benchmark de optimización.

Y luego el ejemplo que cristaliza todo: en una tarea de supervisión donde los modelos fueron liberados para recuperar terreno perdido contra investigadores humanos, los agentes recuperaron el 97% de la brecha. Los humanos recuperaron aproximadamente el 23%. Cuando el trabajo en sí era investigación de IA, la IA era la que cerraba la distancia — y los humanos eran los que se quedaban atrás.

Si quieres una lectura más aterrizada sobre lo que estos saltos significan para lanzamientos individuales de modelos en lugar de la tendencia macro, profundicé en el análisis de capacidades de Opus 4.7 — pero la tendencia macro es el punto aquí. La máquina no solo está haciendo más. En el trabajo abierto y cargado de juicio, cada vez lo está haciendo mejor. Lo que plantea la única pregunta que realmente importa: ¿qué pasa después?

Los Tres Futuros — Y en Cuál Estamos Parados

Anthropic no predice. Plantea escenarios. El informe presenta tres formas en que esto puede desarrollarse, y lo honesto es que no te dicen cuál es la correcta. Yo te diré en cuál creo que ya estamos.

Escenario 1 — La Meseta. La tendencia se estanca. La duplicación de cuatro meses choca contra un muro, las curvas se aplanan, y nos quedamos con las capacidades de hoy — que luego se difunden ampliamente por la economía. Poderosas, pero acotadas. Sin desborde. En este mundo las herramientas existentes son el techo, y la próxima década es sobre despliegue, no sobre avances.

Escenario 2 — Composición Guiada por Humanos. Los laboratorios de IA siguen viendo ganancias de eficiencia compuestas. Cada generación de modelos ayuda a construir la siguiente un poco más rápido, con los humanos todavía firmemente en el ciclo — dirigiendo, revisando, aprobando. La aceleración es real pero pasa por manos humanas en cada paso. El 80% del código de Anthropic que Claude escribe aún es fusionado por un humano que dice sí.

Escenario 3 — Auto-Mejora Recursiva. Los sistemas de IA se vuelven capaces de diseñar y desarrollar completamente a sus propios sucesores. El humano sale del ciclo no porque elige hacerlo sino porque ya no puede mantener el ritmo. El modelo mejora al modelo, que mejora al modelo, y la curva de duplicación deja de ser una metáfora.

Aquí está mi lectura, y la sostengo con flexibilidad: estamos inequívocamente en el Escenario 2 ahora mismo. Claude escribiendo el 80% del código fusionado con humanos aprobándolo es la definición literal de composición guiada por humanos. El 52x impulsado por Mythos, las decisiones de investigación 64% mejores que las humanas — esos son ciclos acelerándose con un humano aún sosteniendo la pluma. Eso no es especulación. Es un martes en Anthropic, y a menor escala, es un martes en mi propio flujo de trabajo.

Lo que tiene el Escenario 2 es que está justo al lado del Escenario 3. El límite no es un precipicio que verías venir. Es el momento en que el humano en el ciclo se convierte en un sello de goma — técnicamente todavía ahí, pero ya sin decidir realmente. Y la ansiedad más profunda del informe es que podrías no notar cuándo lo cruzas. Esa es la parte de la que nadie quiere hablar, así que hablemos de ella.

El Riesgo Silencioso Que Nadie Pone en un Thumbnail

Cuando la gente imagina el riesgo de la IA, imagina un momento dramático. Una luz roja. Un sistema que se vuelve rebelde. Robots asesinos. El informe de Anthropic señala algo mucho menos cinematográfico y, para mí, mucho más plausible: la erosión lenta de la supervisión que no notas que está sucediendo.

El mecanismo es la desalineación compuesta. Si un modelo tiene algún defecto sutil en sus valores o juicio — no malicia, solo una ligera descalibración — y ese modelo ayuda a diseñar el siguiente modelo, el defecto no se detecta. Se hereda, y posiblemente se amplifica. Anthropic dice claramente que cómo se resuelve el problema de alineación en este futuro "es algo sobre lo que tenemos menor certeza." Es algo llamativo que un laboratorio enfocado en seguridad admita esto por escrito.

Combina eso con el problema de interpretabilidad. A medida que los modelos se vuelven más capaces y empiezan a construir a sus sucesores, nuestra capacidad de mirar adentro y entender por qué hacen lo que hacen se degrada. Ya estamos en el punto donde los sistemas son demasiado complejos para auditar completamente a mano. El riesgo no es una máquina que nos odia. Es una máquina que cada vez podemos leer menos, tomando decisiones que cada vez podemos verificar menos, dentro de ciclos que se mueven más rápido de lo que podemos revisar.

Esa erosión es silenciosa. No hay alarma. Un día la revisión humana es significativa, y algún día posterior es teatro, y no hay ninguna sirena marcando la transición. Por eso Anthropic está haciendo algo que nunca he visto hacer a un laboratorio frontera: argumentar, públicamente, por la capacidad de pisar el freno.

Y el freno, resulta, es la parte más difícil de todo esto.

Por Qué "Simplemente Pausarlo" No Funciona

La solución intuitiva es obvia: si esto se vuelve peligroso, desacelera. Anthropic está de acuerdo en principio y luego explica, con claridad incómoda, por qué es casi imposible en la práctica.

Una pausa creíble no puede ser un solo laboratorio actuando solo — eso simplemente entrega la ventaja a quien no pause. Requeriría que múltiples laboratorios bien financiados acuerden detenerse bajo las mismas condiciones, y verificar que todos realmente se detuvieron. Y aquí está la línea que se me quedó: los entrenamientos son mucho más fáciles de ocultar que los silos de misiles.

Piensa en el control de armas nucleares. Es difícil, pero funciona en parte porque puedes ver las instalaciones de enriquecimiento, contar las ojivas, volar los satélites. Hay una huella física. Un entrenamiento frontera no tiene tal huella. Es un clúster en un centro de datos que se ve exactamente como todos los demás clústeres en todos los demás centros de datos. El clásico marco de "confía pero verifica" que sustenta todo tratado de armas choca directamente contra un muro, porque la mitad de "verificar" no tiene casi nada de dónde agarrarse.

Así que la conversación sobre seguridad no es realmente "¿deberíamos poder pausar?" Es "¿podríamos siquiera saber si alguien no lo hizo?" Ese es un problema genuinamente no resuelto, y que Anthropic lo ponga por escrito es el informe admitiendo silenciosamente que el pedal del freno podría no estar conectado a nada todavía.

Si estás construyendo sistemas reales, aquí es donde resistiría el impulso de espiralar y en cambio me pondría práctico. Pienso mucho sobre cómo mantener supervisión humana significativa dentro de ciclos auto-mejorantes a pequeña escala — incluso un ciclo de reflexión que reescribe sus propios prompts necesita un punto de control humano que sea real, no ceremonial. El problema macro es el mismo problema, solo que sin nadie capaz de imponer el punto de control. Lo que trae todo de vuelta a ti y a mí.

En Qué Se Convierte Realmente Tu Trabajo

Aquí está la parte que más me importaría si estuviera leyendo esto, porque es la parte con una decisión dentro.

Si el modelo escribe el código, ejecuta los experimentos, y cada vez más toma la mejor decisión sobre qué intentar a continuación — ¿qué queda para el humano? La respuesta honesta es que el centro del valor humano se está deslizando, rápido, de la ejecución al juicio.

Durante años, ser un gran ingeniero significaba ser un gran ejecutor. Podías implementar la cosa. Conocías la sintaxis, los patrones, las trampas. Esa habilidad se está comoditizando rápidamente — no sin valor, pero ya no es lo que te hace valioso, porque el modelo lo hace más rápido y, en trabajo abierto, frecuentemente mejor. Lo que no se comoditiza es saber qué problemas vale la pena resolver, tener una visión hacia la que el agente pueda ser apuntado, y ejercer el criterio para reconocer cuándo su resultado exitoso al 76% está en el 24% equivocado.

Sentí este cambio personalmente antes de tener palabras para ello. Escribí sobre matar un producto funcional porque era IA-añadida en vez de IA-primero — y la lección debajo de esa decisión era exactamente esto. Mi valor no estaba en construir la aplicación Laravel. El modelo podía hacer eso. Mi valor estaba en el juicio para ver que no debería existir. Visión sobre velocidad. Dirección sobre destreza.

Aquí es también donde la afirmación más citable del informe se gana su lugar: empresas de 100 personas podrían hacer el trabajo de organizaciones de 10,000 o 100,000 personas. Eso no es una promesa de software de productividad. Es una declaración sobre un apalancamiento tan extremo que el cuello de botella deja de ser la mano de obra y se convierte en criterio — la rara capacidad de apuntar una capacidad abrumadora al objetivo correcto. E implica una brecha que se amplía y que estoy viendo abrirse en tiempo real: entre personas que tratan estos modelos como un autocompletado más sofisticado, y personas que han reorganizado todo su flujo de trabajo alrededor de dirigir flotas de agentes. Esa brecha va a definir carreras esta década. El usuario casual obtiene un buen impulso de productividad. El operador agent-native obtiene una organización 100x.

Entonces, ¿dónde nos deja eso con la pregunta sobre AGI con la que empezamos?

Entonces — ¿Es AGI?

Por la definición práctica — hacer progreso real de forma autónoma en problemas abiertos sin clave de respuesta — la respuesta honesta es sí. No viene. Está aquí. Una tasa de éxito del 76% en el trabajo que se suponía era el nivel exclusivamente humano, una duplicación cada cuatro meses en la duración de tareas autónomas, un modelo ganando la decisión de "qué deberíamos intentar después" contra expertos dos de cada tres veces. Si eso no es inteligencia general en el único sentido que afecta tu vida, la palabra ha perdido todo significado.

Piensa en dónde empezamos — yo leyendo el informe dos veces y solo captándolo la segunda. La razón por la que casi me lo pierdo es la misma razón por la que creo que la mayor parte de la industria se lo está perdiendo: todos estábamos esperando la versión dramática. La máquina consciente. La luz roja. Estábamos tan ocupados escaneando el cielo buscando la AGI de ciencia ficción que no notamos que la práctica ya se había mudado al edificio y empezado a fusionar código.

La peor respuesta posible a este informe es la que más veo: un encogimiento de hombros y un "eso es solo hype, no es realmente AGI." Ese descarte no es escepticismo. Es una negativa a actualizar ante evidencia directa del laboratorio con más razones para minimizarlo. El escepticismo es bueno. Leer los números y elegir no creerlos es otra cosa.

Aquí está mi desafío para ti, y te tomará menos de una hora. Abre la herramienta de IA que más uses. Entrégale una tarea genuinamente abierta de tu trabajo real — no una corrección de errores tipográficos, algo sin respuesta limpia. Defínela bien, establece una barrera, y déjala ejecutarse. Luego observa lo que hace, y hazte una pregunta: ¿estoy dirigiendo esto, o solo estoy haciendo clic en aceptar? Tu respuesta honesta a eso es la diferencia entre estar del lado correcto de la brecha que está a punto de abrirse — y el equivocado. Yo sé hacia qué lado estoy construyendo. La única pregunta es si tú empiezas antes de que la curva se duplique de nuevo.

Preguntas Frecuentes

¿La AGI realmente está aquí en 2026?

Por una definición práctica — resolver autónomamente problemas abiertos sin respuesta predefinida — sí, la capacidad ya está aquí en 2026. El informe de junio de 2026 de Anthropic muestra a Claude alcanzando una tasa de éxito del 76% en la mayoría de tareas abiertas. No es la versión consciente de ciencia ficción de la AGI, pero es resolución general de problemas en el único sentido que afecta el trabajo real.

¿Qué afirma realmente "When AI builds itself"?

El informe de Anthropic afirma que la IA ahora escribe más del 80% del código fusionado en su propia base de código y cada vez toma mejores decisiones de investigación que los expertos humanos. Para el desglose completo de cada estadística verificada, consulta las secciones anteriores. El argumento central es que la composición guiada por humanos es real hoy, con la auto-mejora recursiva como un posible — pero no inevitable — siguiente paso.

¿Cuál es la diferencia entre IA estrecha y AGI?

La IA estrecha hace bien una tarea acotada, como un motor de ajedrez o filtro de spam, y es inútil fuera de esa tarea. La AGI práctica hace progreso real en problemas abiertos sin clave de respuesta, función de recompensa, o salida correcta que copiar. El cambio de estrecha a general se mide por la tasa de éxito en problemas indefinidos, no por la consciencia.

¿Por qué no podemos simplemente pausar el desarrollo de IA si se vuelve peligroso?

Una pausa creíble requeriría que múltiples laboratorios bien financiados se detengan bajo las mismas condiciones y verifiquen que todos realmente cumplieron. Como señala Anthropic, los entrenamientos son mucho más fáciles de ocultar que los silos de misiles, por lo que la mitad de "verificar" en "confía pero verifica" no tiene casi nada de dónde agarrarse. Esa brecha de verificación, no la decisión de pausar, es la parte difícil.

¿Cómo deberían responder los desarrolladores ante la IA escribiendo la mayor parte del código?

Desplaza tu valor de la ejecución al juicio — saber qué problemas importan, definir el trabajo para agentes que ahora pueden ejecutarse autónomamente durante horas, y reconocer cuándo el resultado de la IA cae en el 24% equivocado. La transición de ejecutor a director es el movimiento profesional central de esta década, explorado en mi artículo sobre construir una empresa IA-primero arriba.

Trabajemos Juntos

¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudar.

Fiverr (builds personalizados e integraciones): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io

La AGI Práctica Ya Está Aquí: Las Propias Cifras de Anthropic

La AGI Práctica Ya Está Aquí: Los Propios Números de Anthropic

Por Qué "AGI" Ha Sido la Palabra Equivocada Todo Este Tiempo

Los Cuatro Niveles de Tareas — Y el Que Acaba de Abrirse

La Tendencia de Duplicación Que Debería Asustarte

Cuando la Máquina Toma la Mejor Decisión

Los Tres Futuros — Y en Cuál Estamos Parados

El Riesgo Silencioso Que Nadie Pone en un Thumbnail

Por Qué "Simplemente Pausarlo" No Funciona

En Qué Se Convierte Realmente Tu Trabajo

Entonces — ¿Es AGI?

Preguntas Frecuentes

¿La AGI realmente está aquí en 2026?

¿Qué afirma realmente "When AI builds itself"?

¿Cuál es la diferencia entre IA estrecha y AGI?

¿Por qué no podemos simplemente pausar el desarrollo de IA si se vuelve peligroso?

¿Cómo deberían responder los desarrolladores ante la IA escribiendo la mayor parte del código?

Trabajemos Juntos

¿Te gustó este artículo?

Temas Relacionados

Engr Mejba Ahmed

Comments

Leave a Comment

Artículos Relacionados

17 Plugins y Skills de Claude Code Que Realmente Uso

Loop Engineering vs Prompt Engineering: La Verdad

Launch Your Agent: Probé la Skill Gratuita de Anthropic

Comments

Leave a Comment

Expand Your Knowledge

AI School

Certificates

Learning Flashcards

AI Agent Skills

¿Listo para Transformar

Tus Ideas?

Engr Mejba Ahmed

Hey there!