Resumen de modelos de IA junio 2026: Sonnet 5 y orquestación
Un amigo me escribió a las 23:40 un domingo por la noche con una captura de pantalla de una clasificación y tres palabras: "¿esto es real?"
La captura mostraba un modelo del que nunca había oído hablar — de un laboratorio que la mayoría de los desarrolladores no podrían nombrar — situado por encima de Opus 4.8 en un benchmark de programación. Mi primer instinto fue el mismo que tengo cada semana ahora: probablemente cherry-picked, probablemente los números propios del laboratorio, probablemente nada. Casi respondí "ignóralo" y me fui a dormir.
Entonces leí quién lo había hecho. Sakana AI. Y el modelo ni siquiera era un modelo en la forma en que pienso sobre modelos — era un orquestador que enrutaba tareas a través de los modelos frontera de otros. Eso fue lo que me hizo prestar atención. Porque si me hubieras preguntado hace seis meses de dónde vendría el siguiente salto en IA, habría dicho "un Opus más grande, un GPT más grande." No habría dicho "un laboratorio japonés pegando los modelos de todos detrás de una sola API y ganándoles en precio."
Esa es la verdadera historia de este resumen de modelos de IA junio 2026: la frontera ya no compite solo en capacidad bruta. Compite en eficiencia de costes al mismo tiempo — y una tercera arquitectura, la orquestación, acaba de entrar en la sala. Seré honesto, entré esperando otra semana de "el modelo X vence al modelo Y". Lo que encontré fue más desordenado y más interesante.
Aquí está todo lo que realmente se movió este mes — qué está confirmado, qué es rumor, y qué creo que significa para cualquiera que construya con estas herramientas a diario. Seré implacable con la clasificación, porque la mitad de lo que circula ahora mismo es humo.
Qué está realmente confirmado vs. qué son solo rumores
Antes de lo jugoso, lo más útil que puedo darte es una línea clara entre confirmado y cháchara. Aquí es donde la mayoría de los resúmenes hacen trampa silenciosamente — mezclan un nombre en código filtrado con un producto enviado y te dejan asumir que ambos son igual de reales. Yo no hago eso.
Aquí está el marcador honesto a 23 de junio de 2026:
Confirmado y disponible:
- Claude Opus 4.8 — lanzado a finales de mayo de 2026, contexto de 1M de tokens por defecto, 128K de salida máxima, codificación agéntica más fuerte y "honestidad." Este es el que uso a diario.
- Claude Fable 5 — el primer modelo de clase Mythos públicamente disponible de Anthropic, también lanzado a principios de junio. Pensamiento adaptativo siempre activo, contexto de 1M, ~2x el precio de Opus 4.8 ($10/M entrada, $50/M salida según los precios de Anthropic). Obtuvo 65 en el Intelligence Index de Artificial Analysis, por delante de GPT-5.5 (60) y Gemini 3.1 Pro Preview (57).
- Una suspensión de controles de exportación de EE.UU. sobre Fable 5 y Mythos 5, anunciada por Anthropic el 12 de junio de 2026. Esto es real y es un gran asunto — más abajo.
- Sakana Fugu — el modelo de orquestación del laboratorio tokiota Sakana AI. Beta abierta en abril de 2026, con un empuje de lanzamiento más amplio alrededor del 22 de junio. Producto real, API real.
Rumoreado / filtrado / no confirmado:
- Claude Sonnet 5 — no anunciado. "Se lanza la próxima semana" circula desde febrero. Trata cualquier afirmación de características como una lista de deseos.
- Una variante de clase Opus más capaz que lo público — este es el hilo de Mythos, y es genuinamente opaco.
- GPT-5.x Pro y el siguiente modelo de voz en tiempo real — fuertemente reportado, parcialmente desplegado, no completamente GA.
Mantén ese marcador en tu cabeza mientras lees. Todo lo que sigue está etiquetado. La parte interesante no es ningún lanzamiento individual — es lo que pasa cuando los alineas todos juntos. Empecemos con el que la gente me pregunta constantemente.
Claude Sonnet 5: el rumor que no quiere morir (y qué es plausiblemente cierto)
Déjame sacar el descargo de responsabilidad de un tirón: Anthropic no ha anunciado Claude Sonnet 5. Ni fecha, ni confirmación de nombre, nada. Si alguien te dice que sabe el día de lanzamiento, está adivinando.
Aquí está por qué lo cubro de todas formas. Sonnet es el modelo al que yo — y probablemente tú — más recurro. Opus es el peso pesado que sacas para razonamiento difícil; Sonnet 4.6 (lanzado el 17 de febrero de 2026, con una ventana de 1M de tokens a $3/M entrada, $15/M salida) es el caballo de batalla diario que maneja el 80% del trabajo real sin fundir tu presupuesto. Así que el próximo Sonnet importa más a los desarrolladores que trabajan que el próximo Opus, aunque Opus se lleve los titulares.
El molino de rumores, según lo reportado alrededor del 21 de junio de 2026, emparejó un posible Sonnet 5 con el próximo lanzamiento de OpenAI en la misma semana. Algunos medios mencionaron una puntuación de SWE-bench en algún lugar entre los 80 bajos y altos. Toma eso con un puñado de sal — la misma predicción de "la próxima semana" ha sido incorrecta repetidamente desde febrero. Un informe incluso recicló el nombre en código "Fennec", que ya resultó ser Sonnet 4.6. Eso no es una filtración; es un eco.
Entonces, ¿qué es plausiblemente cierto, basándose en hacia dónde apuntan el material fuente y la trayectoria general? Algunos hilos que vale la pena seguir — y quiero ser cristalino de que estos son rumores, enmarcados como análisis de lo que la gente afirma, no hechos que haya verificado:
- Una ventana de contexto más grande — se habla de escalar hacia 1-2M de tokens como estándar. Plausible, dado que Opus 4.8 ya envía 1M por defecto. La línea de tendencia lo respalda.
- Mejor visión — específicamente la capacidad de leer mockups de UI y diagramas de arquitectura de forma más fiable. Este es el rumor que más quiero que sea verdad, porque es donde me topo con muros hoy.
- Un nuevo tokenizador — y aquí está la trampa que nadie enfatiza: los mismos rumores sugieren que podría consumir aproximadamente un 30% más de tokens por prompt. Si eso es real, un Sonnet 5 "más barato y más inteligente" podría seguir costándote más por tarea que Sonnet 4.6, porque le estás alimentando más tokens para hacer el mismo trabajo. Lee el precio por token y el consumo de tokens por tarea antes de celebrar.
- Generación SVG rápida y de alta calidad — generar gráficos vectoriales limpios rápidamente. Nicho, pero si alguna vez le pediste a un modelo un icono SVG y recibiste un enredo de rutas rotas, sabes por qué importa.
¿Será Claude Sonnet 5 realmente más barato de ejecutar?
No necesariamente — y esta es la pregunta que yo fijaría antes de planificar en torno a ella. Un precio más bajo por millón de tokens es insignificante si un nuevo tokenizador hace que cada prompt consuma ~30% más tokens, que es exactamente lo que sugieren los rumores actuales. Coste por tarea, no coste por token, es el número que aparece en tu factura. Hasta que Anthropic publique ambos, trata cualquier afirmación de "Sonnet más barato" como no probada.
Aquí está mi opinión honesta después de vivir en estos modelos durante un año: no apuesto por características rumoreadas. Lo que sí hago es mantener mis flujos de trabajo lo suficientemente agnósticos al modelo para poder cambiar Sonnet 4.6 por Sonnet 5 el día que se lance y medir los números reales yo mismo. Esa costumbre — construir para el cambio, no para la hoja de especificaciones — me ha ahorrado más tiempo que cualquier actualización de modelo individual. Pero el rumor de Sonnet ni siquiera es el hilo más picante de Anthropic este mes. El más picante involucra un modelo que puede que ya exista y que quizás nunca te permitan usar.
El modelo de clase Opus que podría ser demasiado potente para lanzar
Este es el hilo que más se distorsiona en resúmenes de segunda mano, así que déjame desenredarlo cuidadosamente, porque la verdad es en realidad más dramática que el rumor.
Ha habido conversación persistente sobre un modelo de Anthropic por encima del nivel público de Opus — una variante de alta gama con razonamiento de horizonte largo más fuerte, mejor codificación agéntica, capacidad real de planificación y ejecución fiable en tareas grandes y de múltiples pasos. El tipo de modelo que no solo escribe una función sino que entrega una característica a través de doce archivos sin perder el hilo. En el discurso filtrado y rumoreado esto ha llevado varios nombres. La versión del nombre en código interno de esta historia — aquella en la que Anthropic expuso accidentalmente un modelo que describieron en sus propios documentos como el más capaz jamás creado — la cubrí completamente en mi desglose de la filtración de Claude Mythos. No voy a relitigar eso aquí; si quieres la historia de terror de seguridad operacional sobre cómo 3.000 documentos internos terminaron indexados públicamente, ese artículo es el lugar.
Lo que es nuevo este mes, y confirmado, es la parte que hace que el encuadre de "demasiado potente para lanzar" sea literal en lugar de dramático.
El 12 de junio de 2026, Anthropic anunció que había recibido una directiva de control de exportaciones de EE.UU. que le exige suspender el acceso tanto a Claude Fable 5 como a Claude Mythos 5. Lee eso de nuevo. Los modelos de clase Mythos más capaces — el público (Fable 5) y el superior (Mythos 5) — fueron retirados, no porque fallaran una evaluación de seguridad, sino porque un gobierno decidió que sus capacidades tenían peso de seguridad nacional.
Eso lo reencuadra todo. El "modelo prohibido de clase Opus de alta gama" no es una teoría conspiratoria ni un teaser de marketing. Hay un caso real y documentado de modelos frontera de Anthropic siendo restringidos por reguladores después del lanzamiento. El destino del nivel más capaz es genuinamente incierto — no porque Anthropic sea evasivo, sino porque la cuestión ahora vive parcialmente fuera del control de Anthropic.
Encuentro esto genuinamente inquietante, y lo digo como alguien que es bastante optimista sobre estas cosas. Hemos cruzado a un territorio donde el cuello de botella para los modelos más capaces no es el cómputo ni los datos de entrenamiento. Es la política. La capacidad existe. Si tú y yo podemos tocarla es ahora una cuestión regulatoria. Si quieres los mecanismos de control de exportaciones y la respuesta de código abierto en profundidad, escribí largo sobre eso en mi resumen de junio sobre controles de exportación y ensambles de código abierto.
Así que ese es el mes de Anthropic: un rumor de caballo de batalla diario, y un nivel frontera parcialmente detrás de una puerta gubernamental. Veamos ahora el otro lado, porque OpenAI no pasó junio en silencio.
GPT-5.x Pro de OpenAI y el modelo de voz que responde a mitad de frase
Dos hilos aquí, y etiquetaré el nivel de realidad de cada uno conforme avance.
Hilo uno — GPT-5.x Pro (reportado, parcialmente desplegado). Las mejoras reportadas se centran en la calidad de front-end y diseño web más un rango creativo bruto. La demo que se pasó de mano en mano — y enmarco esto exactamente como me fue presentado, como una afirmación de demo, no un benchmark que yo ejecuté — fue un interior jugable en primera persona de una casa. Múltiples habitaciones, navegación de recorrido, construido en un solo archivo HTML de aproximadamente 700KB, generado en aproximadamente 40 minutos.
Quiero ser cuidadoso aquí, porque este es precisamente el tipo de número que se repite como hecho hasta que todo el mundo lo "sabe." Yo no construí esto. Reporto lo que la fuente mostró. Lo que sí puedo decirte, desde la experiencia real de enviar front-ends con estos modelos todo el año, es que la forma de la afirmación es creíble. El salto en salida interactiva, autocontenida en un solo archivo durante las últimas dos generaciones de modelos ha sido real y grande. Una habitación jugable en un archivo HTML es exactamente el tipo de cosa con la que GPT-5.5 ya coqueteaba. Así que no lo descarto. Simplemente me niego a citar "700KB en 40 minutos" como evangelio hasta que lo haya reproducido yo mismo.
También hay reportes fuertes de que la línea de próxima generación empuja el contexto hacia 1,5M de tokens, subiendo del 1M que GPT-5.5 envió en abril. Plausible, consistente con la tendencia, aún no confirmado a nivel de versión.
Hilo dos — el modelo de voz en tiempo real (reportado, despliegue limitado). Este es el que me hizo realmente parar y pensar sobre interfaz, no solo capacidad. OpenAI ha estado enviando modelos de voz en tiempo real con razonamiento de clase GPT — modelos que escuchan y hablan al mismo tiempo en lugar del viejo patrón walkie-talkie de "tú hablas, luego habla él."
Las capacidades reportadas para la versión más reciente:
- Un corte de conocimiento alrededor de agosto de 2025
- Correcciones a mitad de frase — puede detectar y corregirse a sí mismo a mitad de una respuesta hablada, como lo hace un humano
- Toma de turnos activa — maneja interrupciones y habla superpuesta en lugar de esperar una parada total
- Un despliegue limitado y escalonado en lugar de disponibilidad general inmediata
¿Por qué importa esto más que otro salto de benchmark? Porque la toma de turnos es lo que ha hecho que los agentes de voz se sientan robóticos durante años. La pausa antinatural. El hablar por encima del otro. El "lo siento, ¿puede repetir eso?" después de que ya has seguido adelante. Un modelo que negocia el ritmo de la conversación en tiempo real no es un modelo más grande — es una categoría de producto diferente. He construido flujos de voz donde la latencia y la estructura rígida de turnos mataron toda la experiencia. Esto ataca exactamente eso.
Si has trabajado con la generación anterior del stack de voz en tiempo real de OpenAI, la trayectoria aquí te resultará familiar — profundicé en el lado de traducción y agentes en mi análisis de agentes de voz GPT en tiempo real. La pieza nueva es el ritmo conversacional.
Así que el junio de OpenAI es: mejor salida de diseño web (reportado, creíble), y un modelo de voz que finalmente se comporta como un interlocutor (reportado, desplegándose). Ambas direcciones reales. Ahora el lanzamiento que genuinamente me sorprendió — el que no es de Anthropic ni de OpenAI.
Sakana Fugu: orquestación como una arquitectura completamente nueva
Este es el que saltaría en la mayoría de los resúmenes, y es el que resultó importar más. Así que le daré espacio.
Sakana Fugu está confirmado y es real — construido por Sakana AI, el laboratorio de investigación de Tokio, con acceso beta desde abril de 2026 y un empuje más amplio alrededor del 22 de junio. Pero "modelo" es quedarse corto. Fugu no genera tokens desde sus propios pesos como lo hacen Opus o GPT-5.5. Es un orquestador: se sitúa detrás de un endpoint de API compatible con OpenAI y enruta dinámicamente cada tarea a través de un pool intercambiable de modelos frontera — según se reporta incluyendo GPT-5.5, Claude Opus y Gemini 3.1 Pro.
Está construido sobre la investigación publicada de Sakana — trabajo que presentaron en ICLR 2026 sobre coordinación evolucionada de LLMs y aprendizaje de orquestación de agentes en lenguaje natural. La arquitectura asigna roles — piensa en Pensador, Trabajador, Verificador — a través del pool de modelos y delega adaptativamente por tarea: un modelo redacta, otro ejecuta, un tercero verifica. El pool es intercambiable, lo que significa que cuando aparecen nuevos modelos frontera, Fugu puede enrutar hacia ellos sin ser reentrenado. Esa es una apuesta genuinamente diferente sobre de dónde viene el valor de la IA.
Ahora, las afirmaciones de benchmarks. Sakana dice que Fugu Ultra supera a los modelos frontera públicamente accesibles — incluyendo GPT-5.5 y Opus 4.8 en sus configuraciones de alto esfuerzo — en benchmarks de codificación, razonamiento científico e investigación agéntica. Aquí me pongo mi gorro escéptico, y creo que tú también deberías: estos son los números propios del laboratorio. Benchmarks autorreportados de la empresa que vende el producto son marketing hasta que evaluadores independientes los reproduzcan. No digo que estén equivocados. Digo que la carga de la prueba recae en Sakana, y ahora mismo no está satisfecha. (Vale la pena notar: Fugu no está disponible en la UE/EEE en el lanzamiento mientras Sakana trabaja en el cumplimiento del RGPD — un pequeño detalle que te dice que van en serio con ser un producto real, no una demo.)
Opus 4.8 Ultra vs. Fugu Ultra: la comparación que reencuadra "ganar"
La fuente ejecutó una comparación directa que creo es el punto de datos más esclarecedor del mes, y no tiene nada que ver con qué modelo es "más inteligente." La tarea: construir un juego estilo Crossy Road en 3D. Mismo briefing, dos sistemas. Así se reportó — y presento estos como las cifras reportadas por la fuente, no números que yo verifiqué:
| Dimensión | Opus 4.8 Ultra | Fugu Ultra (orquestado) |
|---|---|---|
| Tiempo de construcción | ~79 minutos | ~22 minutos |
| Tokens consumidos | ~940.000 | ~90.000 |
| Coste | ~$37,85 | ~$7,32 |
| Pulido de salida | Mayor — controles limpios, cámara sólida | Menor — controles invertidos, cámara inestable |
Deja que eso cale un momento, porque está haciendo algo sutil. El enfoque orquestado fue aproximadamente 3,5x más rápido, usó ~10x menos tokens y costó alrededor de 5x menos — y produjo un juego peor. Controles invertidos. Una cámara que luchaba contra el jugador. Menos pulido.
¿Entonces quién ganó? Esa es la pregunta equivocada, y ese es exactamente el punto. Si estás prototipando cincuenta conceptos de juego para encontrar uno que valga la pena, el perfil de Fugu es obviamente correcto — quieres velocidad y coste, el pulido viene después. Si estás enviando el único juego por el que los jugadores realmente van a pagar, el pulido de Opus 4.8 Ultra vale cada dólar y minuto extra. El eje sobre el que todos discuten — capacidad — ya no es el único eje. La eficiencia de costes es ahora una dimensión de primera clase, y la orquestación es la arquitectura que apuesta más fuerte por ella.
Este es el momento en que todo el resumen encajó para mí. Llevamos dos años preguntando "¿cuál es el mejor modelo?" La pregunta más útil de 2026 es "¿qué forma de sistema encaja en este trabajo?" — y "un orquestador que enruta a través de muchos modelos" es ahora una respuesta real a esa pregunta, no una curiosidad de investigación. Si la dirección multi-modelo, de ensamble, te interesa, tracé la versión temprana de este patrón en mi artículo sobre ensambles de código abierto, y la carrera de capacidades más amplia entre Anthropic y OpenAI en mi playbook de la guerra de codificación.
Lo que me lleva a la parte donde te digo lo que realmente pienso, con el marketing despojado.
Lo que realmente pienso, después de un año dentro de estas herramientas
Hora de hablar claro, porque un resumen que solo lista lanzamientos es un resumen de notas de prensa, y eso lo puedes conseguir en cualquier parte.
Primero: me equivoqué sobre de dónde vendría el siguiente salto. Asumí que sería un modelo único más grande. El resultado de Fugu sugiere que una parte significativa del progreso a corto plazo vendrá de la coordinación — exprimir más de los modelos que ya tenemos enrutando inteligentemente entre ellos. Esa es una forma de progreso más humilde, menos glamurosa, y creo que ha sido subestimada precisamente porque no genera un titular llamativo de "nuevo modelo."
Segundo: el eje de costes es ahora tan importante como el eje de capacidad, y la mayoría de la cobertura lo ignora. Todo el mundo hace benchmarks de inteligencia. Casi nadie hace benchmarks de euros por tarea completada. La tabla Opus-vs-Fugu es la ilustración más clara que he visto de que "mejor" es ahora una palabra dependiente del presupuesto. Cuando asesoro equipos, la pregunta que hago primero ya no es "¿qué modelo es más inteligente?" — es "¿cuál es su tolerancia de coste vs. pulido en este trabajo específico?" La mayoría de los días acepto un ahorro de 5x en costes y arreglo la cámara yo mismo.
Tercero — y este es el incómodo: los modelos más capaces son ahora parcialmente una cuestión regulatoria. La suspensión de control de exportaciones de Fable 5 / Mythos 5 es el canario. La frontera de lo que es posible y la frontera de lo que está disponible para ti se han separado. Si tu hoja de ruta depende de tener siempre acceso al modelo absolutamente más capaz, eso es ahora un riesgo que debes planificar, no una garantía. He comenzado a diseñar sistemas para clientes con un respaldo deliberado de "caer al siguiente nivel inferior", porque la disponibilidad ya no es algo que doy por sentado.
Donde empujaría contra el bombo: Los benchmarks autorreportados de Sakana merecen escepticismo saludable hasta que terceros los confirmen. Y cada rumor de "se lanza la próxima semana" de Sonnet 5 debería tratarse como entretenimiento, no como input de planificación. He visto esa predicción específica fallar desde febrero. No reorganices tu stack alrededor de un modelo que no tiene fecha.
El resumen honesto: este fue un mes rápido, pero la velocidad fue en dos ejes simultáneamente — capacidad y eficiencia — más un cambio estructural hacia la orquestación y un cambio regulatorio hacia el acceso restringido. Esa combinación es más interesante, y más consecuente para cómo construyes, que cualquier lanzamiento de modelo individual. Aquí está qué hacer concretamente con ello.
Qué vigilar — y qué hacer esta semana
No necesitas perseguir cada lanzamiento. Necesitas una postura. Aquí está la mía, y lo que le daría a cualquiera que esté construyendo con estas herramientas ahora mismo.
Qué vigilar en las próximas semanas:
- Si Sonnet 5 realmente se lanza — y en el momento en que lo haga, compara coste por tarea, no coste por token, contra Sonnet 4.6. El rumor del tokenizador hace que este sea el número que importa.
- Benchmarks independientes de Sakana Fugu — si terceros reproducen incluso la mitad de las afirmaciones de Sakana, la orquestación pasa de curiosidad a categoría.
- La situación de controles de exportación — si el acceso a Fable 5 / Mythos 5 regresa, se estrecha, o se extiende a modelos frontera de otros laboratorios.
- La salida real de diseño web de GPT-5.x Pro — una vez que esté ampliamente disponible, la afirmación de "700KB casa en 40 minutos" se vuelve testeable. Pruébalo antes de confiar en ello.
Una cosa para hacer en las próximas 24 horas: elige una tarea que ejecutas regularmente a través de un solo modelo, y pregúntate conscientemente "¿cuál es mi tolerancia de coste vs. pulido aquí?" Luego prueba intencionalmente la ruta más barata — un modelo más pequeño, o una ruta a través de varios más baratos — y mide lo que realmente pierdes. Ese único experimento te enseñará más sobre la verdadera frontera de 2026 que leer diez resúmenes más.
Porque esto es lo que la captura de pantalla del domingo por la noche finalmente me dejó claro: la pregunta que importó todo el año — "¿cuál es el mejor modelo?" — dejó silenciosamente de ser la correcta. La mejor pregunta ahora es "¿qué forma de sistema encaja en este trabajo, con este presupuesto, dado lo que realmente se me permite usar?" Responde bien a eso, y construirás círculos alrededor de personas que aún esperan la clasificación de la próxima semana.
Preguntas frecuentes
¿Está Claude Sonnet 5 confirmado para lanzarse en junio de 2026?
No — Anthropic no ha anunciado Claude Sonnet 5, una fecha, ni ninguna lista oficial de características a 23 de junio de 2026. "Sonnet 5 se lanza la próxima semana" ha circulado repetidamente desde febrero de 2026 y ha sido incorrecto cada vez. Trata cada afirmación de características (contexto más grande, nuevo tokenizador, mejor visión) como rumor, no como hecho confirmado.
¿Qué es Sakana Fugu y en qué se diferencia de un modelo de IA normal?
Sakana Fugu es un modelo de orquestación del laboratorio tokiota Sakana AI que enruta cada tarea a través de un pool intercambiable de modelos frontera (según se reporta GPT-5.5, Claude Opus, Gemini 3.1 Pro) detrás de una API. A diferencia de un modelo estándar, no genera desde sus propios pesos — coordina otros modelos. Para el desglose completo, consulta la sección de Sakana Fugu arriba.
¿Por qué se suspendieron Claude Fable 5 y Mythos 5?
El 12 de junio de 2026, Anthropic anunció una directiva de control de exportaciones de EE.UU. que le exige suspender el acceso tanto a Claude Fable 5 como a Claude Mythos 5. La suspensión está vinculada a las capacidades de los modelos y la política de seguridad nacional, no al fallo de una evaluación de seguridad. Es un caso real y documentado de modelos frontera siendo restringidos por regulación después del lanzamiento.
¿Debería cambiarme a un modelo de orquestación como Fugu en lugar de Claude o GPT?
Depende de tu tolerancia de coste vs. pulido. En la comparación reportada de Crossy Road, la orquestación fue mucho más rápida y barata pero produjo menor pulido (controles invertidos, cámara inestable). Usa orquestación para prototipado de alto volumen donde velocidad y coste ganan; usa un modelo individual top cuando la calidad terminada es la prioridad.
¿Son confiables las afirmaciones de benchmarks de Sakana Fugu?
Trátalas con escepticismo hasta que evaluadores independientes las confirmen. Las afirmaciones de que Fugu Ultra supera a GPT-5.5 y Opus 4.8 son los números autorreportados de Sakana, que son marketing hasta que sean reproducidos por terceros. La arquitectura es real e interesante; la posición en la clasificación no está probada.
Trabajemos juntos
¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudar.
- Fiverr (builds e integraciones personalizadas): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (soluciones empresariales): ramlit.com
- ColorPark (diseño y branding): colorpark.io
- xCyberSecurity (servicios de seguridad): xcybersecurity.io