Sakana Fugu Ultra: Lo Vi Vencer a Stockfish

El detalle que me detuvo no fue un benchmark. Fue una partida de ajedrez jugada sin tablero.

Sin imagen de las piezas. Sin cuadrícula de coordenadas. Solo un modelo manteniendo todo el estado del juego en su cabeza, movimiento tras movimiento, contra un motor Stockfish clasificado en torno a los 2.100 ELO — el tipo de fuerza que vence a casi cualquier jugador de club humano que jamás conocerás. Y Sakana Fugu Ultra no solo sobrevivió. Ganó cuatro partidas consecutivas, todas terminando en jaque mate, contra tres modelos de frontera y el motor.

Ese fue el momento en que me di cuenta de que había estado pensando en todo esto de forma equivocada. Entré al vídeo sobre Sakana Fugu Ultra esperando otro reel de hype de "nuevo modelo vence a GPT", del tipo que he aprendido a descartar a primera vista. Lo que obtuve en cambio fue un argumento silenciosamente radical: quizás el próximo salto en capacidad de IA no viene de un cerebro más grande. Quizás viene de un comité más inteligente.

Quiero ser directo sobre lo que es esta publicación, porque la honestidad importa más que el clic. No he ejecutado la API de Fugu yo mismo — el acceso está restringido, y en su lanzamiento está bloqueado en la UE/EEE mientras Sakana trabaja en el RGPD. Así que no voy a pretender que lo desplegué en un proyecto de cliente el martes pasado. Lo que sí puedo hacer es algo más útil: tomar los resultados de pruebas que existen, verificarlos contra la investigación publicada de Sakana, y decirte lo que realmente significan para cómo eliges herramientas en 2026. Los números a continuación provienen de las pruebas fuente y los materiales propios de Sakana. El juicio es mío.

Déjame mostrarte por qué "¿es mejor que GPT-5.5?" resulta ser la pregunta equivocada por completo.

¿Qué es Sakana Fugu Ultra y por qué no es un modelo normal?

Sakana Fugu Ultra no es un modelo fundacional — es un sistema de orquestación multi-agente que descompone una tarea, enruta las subtareas a diferentes LLMs especializados, y luego critica, verifica y sintetiza sus salidas en una sola respuesta. Cuando lo llamas a través de su único endpoint API, no estás hablando con un conjunto de pesos como lo haces con Opus 4.8 o GPT-5.5. Estás hablando con un director que sabe qué músicos llamar para cada pasaje.

Sakana AI es un laboratorio de investigación en Tokio, y Fugu se lanzó el 22 de junio de 2026. La etiqueta de "modelo" le queda corta. Aquí está la arquitectura en términos simples: Fugu toma tu prompt, lo divide en piezas y asigna roles a través de un pool intercambiable de modelos de frontera — piensa en Pensador, Trabajador, Verificador. Un modelo diseña un plan. Otro ejecuta una parte. Un tercero revisa el trabajo. Fugu cose los resultados y te entrega la salida terminada.

La palabra "intercambiable" está haciendo mucho trabajo ahí. Porque Fugu enruta hacia modelos en lugar de ser uno, el pool puede crecer a medida que aparecen nuevos modelos de frontera — sin reentrenamiento. Esa es una apuesta genuinamente diferente sobre de dónde viene el valor de la IA. La mayoría de los laboratorios compiten por construir el cerebro único más inteligente. Sakana apuesta a que coordinar los cerebros que ya tenemos es el camino más barato y rápido hacia más victorias.

Aquí está la parte que la mayoría de la cobertura malinterpreta, y lo cambia todo: la orquestación de Fugu está aprendida, no programada. Esto no es un enrutador construido con lógica if/else y un comparador de palabras clave. Según la investigación de Sakana, Fugu es en sí mismo un modelo de lenguaje entrenado cuyo trabajo es llamar a otros LLMs — y aprendió cómo coordinarlos a partir de dos artículos de ICLR 2026: Trinity (un coordinador evolucionado que asigna los roles de Pensador/Trabajador/Verificador) y The Conductor (entrenado con aprendizaje por refuerzo para descubrir estrategias de coordinación en lenguaje natural). El sistema aprendió qué decirle a cada modelo para hacer que un pool diverso superara a cualquier trabajador individual.

Y hay un detalle sorprendente enterrado ahí. Fugu puede llamarse a sí mismo recursivamente — leer su propia salida anterior, decidir si su primer intento de coordinación se quedó corto, e iniciar un flujo de trabajo correctivo. La profundidad de esa recursión se convierte en un eje de cómputo ajustable en tiempo de inferencia. Puedes gastar más pensamiento profundizando, sin reentrenar nada. Es un nuevo tipo de escalado en tiempo de prueba, y es el tipo de idea que es obvia en retrospectiva y que casi nadie entregó primero.

Así que cuando veas que Fugu "vence" a un modelo de frontera en un benchmark, sostén ese resultado a la luz. Por supuesto que un sistema que descompone, delega y verifica lo hace bien en tareas que recompensan la resolución cuidadosa de problemas. Es literalmente para lo que está construido. La pregunta interesante no es si gana — es dónde gana, y cuánto te cuesta llegar ahí.

Esa pregunta del coste es donde la historia se pone incómoda.

La prueba del trader desk: a dónde va realmente el dinero

Quiero empezar con la prueba menos dramática, porque es la más honesta. El encargo: construir un "trader desk en vivo" — un front-end más back-end, el tipo de aplicación multicomponente que la gente real construye. Cuatro sistemas recibieron el mismo prompt. Aquí está lo que usaron, según lo reportado en la fuente:

Sistema	Tokens Usados	Coste (USD)	Lo que obtuviste
Fugu Ultra	~22.000	$0,51	UI más pulida y rica en funciones — y la más cara
Opus 4.8	~16.000	$0,31	Implementación sólida y equilibrada
GPT-5.5	~11.000	$0,26	Buena relación calidad-eficiencia
Chinchilla 5.2	~13.000	$0,03	Con diferencia la más barata, menos pulido en diseño

Lee esa tabla despacio, porque hay dos historias en ella.

La primera historia es la que Sakana quiere que veas: Fugu produjo la UI más atractiva y completa. Si "hazlo impresionante de una sola vez" es el trabajo, Fugu cumplió. La orquestación se compensó en pulido — múltiples modelos verificándose entre sí tienden a captar los huecos que un solo paso deja atrás.

La segunda historia es la que importa para tu presupuesto. Fugu costó $0,51 — aproximadamente 17 veces lo que Chinchilla 5.2 cobró por una versión funcional de lo mismo. También quemó la mayor cantidad de tokens. Eso no es un bug. Es la arquitectura. Cada vez que Fugu descompone una tarea, la enruta y verifica el resultado, hace más llamadas a modelos que un modelo individual haría. La coordinación tiene sobrecarga, y pagas por ella en tokens, euros y latencia.

Aquí es donde aterrizo, y no es donde el marketing me quiere: para una construcción sencilla, esa prima es difícil de justificar. Chinchilla 5.2 te dio un trader desk funcional por tres centavos. Si lo necesitas bonito, Opus 4.8 dividió la diferencia a $0,31 con un resultado limpio. Los 64 centavos extra de Fugu sobre Chinchilla te compran pulido — y en muchas herramientas internas, nadie califica el pulido.

Pero "muchas herramientas internas" no es todo trabajo. La prueba del trader desk recompensa la eficiencia, así que las herramientas eficientes se ven inteligentes. Cambia la tarea a una que recompense la coordinación, y la imagen gira drásticamente.

La prueba de Crossy Road: cuando más rápido y más barato produce peor resultado

Esta es la prueba que reenmarcó todo el asunto para mí, y no tiene nada que ver con qué sistema es "más inteligente".

La tarea: construir un juego 3D estilo Crossy Road. Mismo encargo, cara a cara — Fugu Ultra contra Opus 4.8. Aquí están las cifras reportadas, y las presento exactamente como la fuente las reportó, no como números que yo mismo verifiqué:

Dimensión	Fugu Ultra	Opus 4.8
Tiempo de construcción	~22 minutos	~79 minutos
Tokens usados	~90.000	~1.000.000
Coste	~$7,32	~$37
Resultado	Más rápido, más barato, pero defectuoso	Más lento, más caro, más pulido

Fugu fue aproximadamente 3,5 veces más rápido, usó cerca de 10 veces menos tokens y costó aproximadamente 5 veces menos. Detente y asimila eso, porque contradice el resultado del trader desk que acabas de leer. Aquí, el sistema orquestado fue el frugal.

Y sin embargo produjo el peor juego. El clon de Crossy Road de Fugu tenía controles de giro invertidos — pulsa derecha, ve a la izquierda. La cámara luchaba contra el jugador. No había sonido. El juego estaba incompleto. Opus 4.8 gastó cinco veces más dinero y casi cuatro veces el tiempo real, y devolvió algo más pulido y funcional — aunque todavía ligeramente con errores.

Entonces, ¿quién ganó? Esa es la pregunta equivocada, y ese es exactamente el punto. Si estás prototipando cincuenta conceptos de juegos para encontrar el que vale la pena construir, el perfil de Fugu es obviamente correcto — quieres velocidad y bajo coste, y arreglarás la cámara en la idea que sobreviva. Si estás entregando el juego por el que los jugadores realmente van a pagar, el pulido de Opus 4.8 vale cada dólar extra.

Observa lo que acaba de pasar en dos pruebas. En el trader desk, Fugu fue la opción cara. En Crossy Road, Fugu fue la opción barata. El mismo sistema. La variable no fue Fugu — fue la tarea. La sobrecarga de orquestación es un impuesto fijo que rinde enormemente en algunos trabajos y te desangra en otros, y no puedes saber cuál sin emparejar la tarea con la arquitectura.

Esa es la habilidad que nadie está enseñando todavía: leer una tarea y predecir qué forma de sistema le corresponde. Déjame darte la regla general que yo usaría.

¿Deberías usar Fugu Ultra o simplemente elegir un modelo de frontera?

Usa Fugu Ultra cuando la tarea sea multicomponente, de alto detalle y se beneficie de la verificación — construcciones de UI, simulaciones, cualquier cosa donde la verificación cruzada capture errores que un solo paso no detecta. Recurre a un modelo de frontera individual como Opus 4.8 o GPT-5.5 cuando necesites velocidad predecible, bajo coste y un ciclo de retroalimentación ajustado. El factor decisivo no es la capacidad. Es si la descomposición-y-verificación recupera su sobrecarga en este trabajo específico.

Aquí está la decisión que yo realmente ejecutaría, en orden:

¿Es esto un artefacto impresionante de una sola vez o un ciclo de iteración ajustado? El pulido de una sola vez favorece el ciclo de verificar-y-sintetizar de Fugu. La iteración rápida favorece un modelo individual — no quieres latencia de orquestación entre cada pulsación de feedback.
¿Qué tan a largo plazo es la tarea? Esta es importante. Los resultados reportados muestran que Fugu a veces se queda atrás en trabajo amplio y a largo plazo — cosas como Sweep Bench Pro — precisamente porque la sobrecarga de orquestación y los puntos de fallo de coordinación se acumulan a lo largo de muchos pasos. Más piezas móviles significa más lugares para romperse.
¿Cuál es tu techo de coste y tu piso de calidad? Si tienes un presupuesto estricto y un listón de calidad indulgente, un modelo eficiente individual gana casi siempre. Si el pulido no es negociable y el presupuesto es flexible, las llamadas extra de Fugu se ganan su coste.
¿Necesita funcionar en la UE? En el lanzamiento, Fugu no está disponible en la UE/EEE mientras Sakana trabaja en el RGPD. Si tu stack o usuarios viven allí, la decisión está tomada por ti.

En benchmarks puros, la fuente reporta que Fugu puntúa bien en ingeniería, razonamiento científico, codificación y tareas agénticas — y a menudo supera a Mythos 5 en benchmarks específicos como Live Code Bench y BBQ Evil, exactamente el tipo que recompensa la descomposición cuidadosa y la verificación. Pero se queda corto frente a modelos de frontera verdaderos como Fable 5 en tareas reales más desordenadas. Las victorias en benchmarks son reales y son en parte un artefacto de aquello para lo que la orquestación está construida. Ambas cosas son ciertas.

Una advertencia honesta más que no voy a enterrar: la mayoría de las afirmaciones de benchmark de los titulares son cifras propias de Sakana. Los benchmarks autorreportados de la empresa que vende el producto son marketing hasta que evaluadores independientes los reproduzcan. No digo que estén equivocados — digo que la carga de la prueba recae en Sakana, y ahora mismo solo está parcialmente satisfecha. Los resultados de pruebas de terceros arriba (trader desk, Crossy Road) son más confiables precisamente porque no fueron realizados por Sakana.

Si toda la dirección multi-modelo y de ensembles te interesa, tracé la versión temprana de este patrón en mi análisis de ensembles de IA de código abierto, y cubrí el lanzamiento de Fugu en contexto junto con las otras publicaciones de junio en mi resumen de modelos de IA para junio de 2026. Esta publicación es la inmersión profunda en Fugu solo; ese resumen es el mapa más amplio.

Ahora — las pruebas donde Fugu genuinamente me impresionó, y donde la arquitectura de orquestación deja de ser un compromiso y empieza a ser una ventaja.

Donde la orquestación realmente brilla: simulaciones, terreno y un tablero que no puede ver

Tres resultados me llevaron de escéptico a "vale, esto es real."

La simulación del agujero negro. El encargo fue una simulación surrealista de agujero negro — nombre clave "Singularity". Fugu produjo una visualización detallada y bien renderizada que superó a GLM MiniMax y Chinchilla 2.7 Code en precisión visual. Este es exactamente el tipo de tarea donde la orquestación debería ganar: renderizar correctamente una escena con matices físicos involucra varios subproblemas — la geometría, la iluminación, la física de distorsión, el estilizado surrealista — y un sistema que puede enrutar cada uno a un modelo capaz y verificar el compuesto tiene una ventaja estructural sobre un modelo individual intentando mantener todo a la vez.

El simulador de vuelo. Misma historia, diferente dominio. Fugu generó un simulador de vuelo de terreno infinito semi-preciso que superó a GLM 5.2 y MiniMax, ambos con resultados limitados. "Terreno infinito" es un problema de descomposición disfrazado — generación de terreno, la física de vuelo, la cámara, el bucle de renderizado — y la descomposición es el terreno de Fugu.

Y luego el ajedrez. Sigo volviendo a este porque es la demostración más limpia de lo que "mantener estado a través de coordinación" realmente te aporta. Ajedrez a ciegas, de una sola vez, sin tablero visual — el sistema tiene que rastrear toda la posición en memoria de trabajo a lo largo de toda la partida. Fugu ganó cuatro partidas consecutivas contra tres modelos de frontera y un motor Stockfish alrededor de 2.100 ELO, terminando cada partida en jaque mate. Mantuvo el estado del juego y la precisión de movimientos mejor que oponentes que, sobre el papel, son más capaces.

¿Por qué sucede eso? Porque un verificador en el bucle captura el error antes de que se cometa. Un modelo individual jugando ajedrez a ciegas tiene un intento para rastrear el tablero correctamente en cada movimiento. Un sistema orquestado puede hacer que un componente proponga un movimiento y otro verifique la posición resultante contra el historial de movimientos. Eso no es magia — es el mismo bucle de descomponer-y-verificar, aplicado a un problema donde un solo desliz pierde la partida. Toda la razón de existir de la arquitectura es capturar el error que el solista cometería.

Si has leído hasta aquí, aquí está el cambio que quiero que te lleves: durante años preguntamos "¿qué modelo es el más inteligente?" La pregunta más útil de 2026 es "¿qué forma de sistema se ajusta a este trabajo?" Y "un orquestador que enruta entre muchos modelos" es ahora una respuesta real y desplegada a esa pregunta — no una curiosidad de investigación.

En qué me equivoqué sobre de dónde viene el próximo salto

Hora de hablar claro, porque una reseña de herramientas que solo lista funciones es una hoja de especificaciones, y eso lo puedes conseguir en cualquier lado.

Primero, me equivoqué sobre la forma del progreso. Asumí que el próximo salto de capacidad vendría de un modelo individual más grande — más parámetros, más entrenamiento, un cerebro más gordo. Los resultados de Fugu sugieren que una porción significativa del progreso a corto plazo vendrá de la coordinación en su lugar: exprimir más de los modelos que ya tenemos enrutando inteligentemente entre ellos y verificando la salida. Esa es una forma de progreso más humilde, menos glamurosa. No genera un titular llamativo de "nuevo modelo". Creo que ha sido subestimada exactamente por esa razón.

Segundo, el eje del coste es ahora tan importante como el eje de la capacidad, y la mayoría de la cobertura aún lo ignora. Todo el mundo hace benchmarks de inteligencia. Casi nadie hace benchmarks de euros-por-tarea-completada. Las tablas del trader desk y Crossy Road son la ilustración más clara que he visto de que "mejor" es ahora una palabra dependiente del presupuesto. Cuando asesoro equipos, la primera pregunta ya no es "qué modelo es el más inteligente" — es "cuál es tu tolerancia para coste versus pulido en este trabajo." La mayoría de los días tomo el resultado más barato y arreglo la cámara yo mismo.

Tercero — y esta es la limitación con la que Sakana no va a liderar — la sobrecarga de orquestación es un impuesto real y recurrente. Más llamadas a modelos significan mayor latencia, mayor coste y más puntos de fallo. Cada salto entre modelos es un lugar donde el flujo de trabajo puede perder contexto o enrutar mal. En tareas a largo plazo, esos puntos de fallo se acumulan, lo cual es exactamente por qué Fugu se queda atrás en los benchmarks más amplios. Un orquestador es solo tan confiable como su traspaso más débil, y tiene más traspasos que un modelo individual. Eso no es un fallo para parchar — es el coste inherente del diseño.

Si el patrón de orquestación te ha dejado curioso por ejecutar uno tú mismo, he puesto a prueba un par de estos sistemas — mira mi experiencia práctica con el orquestador de agentes OpenAI Symphony, que aborda el mismo problema de coordinar-muchos-modelos desde el ángulo del arnés de código. Y si estás considerando conectar una capa de orquestación multi-agente en tu propio stack — averiguar dónde gana su sobrecarga versus dónde un modelo individual es la opción más sensata — ese es exactamente el tipo de decisión de arquitectura que asumo a través de mi Fiverr. La respuesta honesta suele ser "usa orquestación para el 20% de las tareas que genuinamente la necesitan, y un modelo individual rápido para el resto," y acertar esa división es la mayor parte del valor.

Entonces, ¿dónde encaja Fugu realmente? Déjame hacerlo concreto.

Qué esperar si adoptas Fugu Ultra hoy

No voy a inventar precisión que no tengo. Pero las pruebas reportadas, leídas contra la arquitectura, apuntan a una forma consistente alrededor de la cual puedes planificar.

Espera que Fugu gane en artefactos multicomponente, de alto detalle y de una sola vez — la construcción de UI pulida, la simulación renderizada, la generación en múltiples partes donde la verificación captura lo que un solo paso no detecta. La UI del trader desk, la simulación del agujero negro, el simulador de vuelo, el ajedrez a ciegas — todos comparten ese ADN: varios subproblemas que se benefician de ser divididos, resueltos y verificados.

Espera que Fugu se quede atrás en trabajo a largo plazo, abierto o sensible al coste — tareas agénticas amplias donde la sobrecarga se acumula, y cualquier trabajo donde un modelo individual más barato te lleva el 90% del camino por una fracción del gasto. El trader desk de tres centavos de Chinchilla 5.2 es la historia de advertencia: si no necesitas el pulido, estás pagando una prima considerable por él.

Espera pagar más y esperar más que con GPT-5.5 u Opus 4.8 en tareas equivalentes, como regla. Ese es el coste estructural de la coordinación, y no desaparecerá completamente — aunque la idea de profundidad recursiva de Sakana sugiere que al menos tienen una perilla para intercambiar cómputo por calidad deliberadamente en lugar de a ciegas.

Y espera que esto mejore. Fugu se lanzó el 22 de junio de 2026; es temprano. El pool es intercambiable, así que hereda cada nuevo modelo de frontera gratis. La coordinación está aprendida, así que el entrenamiento continuo puede afilarla. La prueba de concepto ya es convincente. La pregunta es si Sakana puede cerrar la brecha de sobrecarga lo suficientemente rápido como para hacer de la orquestación la opción por defecto en lugar de la elección especialista.

Por ahora, mi recomendación es poco glamurosa y, creo, correcta: Fugu Ultra es una herramienta especialista, no un conductor diario. Para trabajo de aplicación general, GPT-5.5 y Opus 4.8 actualmente te dan un mejor equilibrio coste-velocidad-calidad. Mantén a Fugu en tu kit para los trabajos específicos de alto detalle y multicomponente donde descomponer-y-verificar gana su coste — y observa la tendencia de sobrecarga, porque si baja, todo el cálculo cambia.

Vuelve una vez más a esa partida de ajedrez a ciegas. Un sistema que no podía ver el tablero ganó igualmente — no porque fuera el jugador más inteligente en la mesa, sino porque tenía un compañero de equipo revisando su trabajo antes de cada movimiento. Esa es la verdadera lección de Fugu Ultra, y es más grande que un producto. La próxima era de la IA quizás no la gane el modelo más inteligente. Quizás la gane el equipo mejor coordinado de modelos ordinarios.

Así que la pregunta que te dejaría no es "¿es Fugu mejor que GPT-5.5?" Es esta: de los trabajos en tu mesa esta semana, ¿cuáles estás resolviendo con un solista que en realidad necesitan un comité?

Preguntas Frecuentes

¿Es Sakana Fugu Ultra un modelo fundacional o un orquestador?

Fugu Ultra es un orquestador, no un modelo fundacional. Descompone una tarea, enruta subtareas a un pool intercambiable de LLMs de frontera, y luego verifica y sintetiza sus salidas a través de una única API. A diferencia de Opus 4.8 o GPT-5.5, no genera respuestas desde sus propios pesos — coordina otros modelos. Consulta el desglose de arquitectura arriba para la imagen completa.

¿Es Fugu Ultra más barato que Opus 4.8 o GPT-5.5?

Depende enteramente de la tarea. En una construcción de Crossy Road, Fugu costó según los informes aproximadamente 5 veces menos que Opus 4.8; en una construcción de trader desk, fue el más caro de cuatro sistemas a $0,51. La sobrecarga de orquestación es un impuesto fijo que rinde en algunos trabajos y te desangra en otros. El marco de decisión arriba explica cómo predecir cuál.

¿En qué benchmarks le va bien a Fugu Ultra?

Fugu puntúa bien según los informes en ingeniería, razonamiento científico, codificación y benchmarks agénticos, y a menudo supera a Mythos 5 en tareas como Live Code Bench y BBQ Evil que recompensan la descomposición y verificación. Se queda atrás en benchmarks a largo plazo como Sweep Bench Pro, donde la sobrecarga de orquestación se acumula.

¿Dónde está disponible Sakana Fugu Ultra?

Fugu Ultra es accesible a través de un proveedor de API y se lanzó el 22 de junio de 2026. En el lanzamiento no está disponible en la UE/EEE mientras Sakana AI trabaja en el cumplimiento del RGPD. Si tus usuarios o stack viven en Europa, esa restricción puede decidir la cuestión por ti.

¿Fugu Ultra realmente venció a Stockfish en ajedrez a ciegas?

Según las pruebas fuente, sí — Fugu ganó cuatro partidas consecutivas a ciegas (sin tablero visual) contra tres modelos de frontera y un motor Stockfish clasificado en torno a los 2.100 ELO, terminando cada partida en jaque mate. La razón probable es su diseño de verificar-en-el-bucle, que captura el error de seguimiento de posición que un modelo individual cometería.

Trabajemos Juntos

¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudar.

Fiverr (construcciones personalizadas e integraciones): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io

Sakana Fugu Ultra: Lo Vi Vencer a Stockfish