Sakana Fugu Ultra: Eu Vi Ele Vencer o Stockfish
O detalhe que me parou não foi um benchmark. Foi uma partida de xadrez jogada sem tabuleiro.
Sem imagem das peças. Sem grade de coordenadas. Apenas um modelo mantendo todo o estado do jogo na cabeça, lance após lance, contra um motor Stockfish classificado em torno de 2.100 ELO — o tipo de força que vence quase qualquer jogador de clube humano que você encontrará. E o Sakana Fugu Ultra não apenas sobreviveu. Ele venceu quatro partidas consecutivas, todas terminando em xeque-mate, contra três modelos de fronteira e o motor.
Esse foi o momento em que percebi que estava pensando em tudo isso da maneira errada. Entrei no vídeo sobre o Sakana Fugu Ultra esperando mais um reel de hype "novo modelo vence o GPT", do tipo que aprendi a descartar à primeira vista. O que recebi em vez disso foi um argumento silenciosamente radical: talvez o próximo salto em capacidade de IA não venha de um cérebro maior. Talvez venha de um comitê mais inteligente.
Quero ser direto sobre o que esta publicação é, porque a honestidade importa mais que o clique. Eu não executei a API do Fugu pessoalmente — o acesso é restrito, e no lançamento está bloqueado na UE/EEE enquanto a Sakana trabalha no RGPD. Então não vou fingir que implantei isso em um projeto de cliente na terça-feira passada. O que eu posso fazer é algo mais útil: pegar os resultados de testes que existem, verificá-los cruzando com a pesquisa publicada da Sakana, e dizer o que eles realmente significam para como você escolhe ferramentas em 2026. Os números abaixo vêm dos testes-fonte e dos materiais próprios da Sakana. O julgamento é meu.
Deixe-me mostrar por que "é melhor que o GPT-5.5?" acaba sendo a pergunta completamente errada.
O que é o Sakana Fugu Ultra e por que não é um modelo normal?
Sakana Fugu Ultra não é um modelo fundacional — é um sistema de orquestração multi-agente que decompõe uma tarefa, roteia as subtarefas para diferentes LLMs especializados, e então critica, verifica e sintetiza suas saídas em uma única resposta. Quando você o chama através de seu único endpoint de API, você não está falando com um conjunto de pesos como faz com o Opus 4.8 ou GPT-5.5. Você está falando com um maestro que sabe quais músicos chamar para cada passagem.
Sakana AI é um laboratório de pesquisa em Tóquio, e o Fugu foi lançado em 22 de junho de 2026. O rótulo de "modelo" não faz justiça. Aqui está a arquitetura em termos simples: Fugu pega seu prompt, divide em pedaços e atribui papéis através de um pool intercambiável de modelos de fronteira — pense em Pensador, Trabalhador, Verificador. Um modelo elabora um plano. Outro executa uma parte dele. Um terceiro verifica o trabalho. O Fugu costura os resultados e entrega a saída finalizada.
A palavra "intercambiável" está fazendo trabalho pesado aí. Porque o Fugu roteia para modelos em vez de ser um, o pool pode crescer à medida que novos modelos de fronteira aparecem — sem retreinamento. Essa é uma aposta genuinamente diferente sobre de onde vem o valor da IA. A maioria dos laboratórios está correndo para construir o cérebro único mais inteligente. A Sakana aposta que coordenar os cérebros que já temos é o caminho mais barato e rápido para mais vitórias.
Aqui está a parte que a maioria da cobertura erra, e muda tudo: a orquestração do Fugu é aprendida, não codificada. Isso não é um roteador construído com lógica if/else e um comparador de palavras-chave. De acordo com a pesquisa da Sakana, o Fugu é ele mesmo um modelo de linguagem treinado cujo trabalho é chamar outros LLMs — e aprendeu como coordená-los a partir de dois artigos do ICLR 2026: Trinity (um coordenador evoluído que atribui os papéis de Pensador/Trabalhador/Verificador) e The Conductor (treinado com aprendizado por reforço para descobrir estratégias de coordenação em linguagem natural). O sistema aprendeu o que dizer a cada modelo para fazer um pool diverso superar qualquer trabalhador individual.
E há um detalhe surpreendente enterrado aí. O Fugu pode chamar a si mesmo recursivamente — ler sua própria saída anterior, decidir se sua primeira tentativa de coordenação ficou aquém, e iniciar um fluxo de trabalho corretivo. A profundidade dessa recursão se torna um eixo computacional ajustável em tempo de inferência. Você pode gastar mais pensamento indo mais fundo, sem retreinar nada. Isso é um novo tipo de escalamento em tempo de teste, e é o tipo de ideia que é óbvia em retrospecto e que quase ninguém entregou primeiro.
Então, quando você vir o Fugu "vencer" um modelo de fronteira em um benchmark, segure esse resultado contra a luz. É claro que um sistema que decompõe, delega e verifica se sai bem em tarefas que recompensam a resolução cuidadosa de problemas. É literalmente para isso que foi construído. A pergunta interessante não é se ele vence — é onde ele vence, e quanto custa para você chegar lá.
Essa questão de custo é onde a história fica desconfortável.
O teste do trader desk: para onde o dinheiro realmente vai
Quero começar com o teste menos dramático, porque é o mais honesto. O briefing: construir um "trader desk ao vivo" — um front-end mais back-end, o tipo de aplicativo multicomponente que pessoas reais realmente constroem. Quatro sistemas receberam o mesmo prompt. Aqui está o que usaram, como reportado na fonte:
| Sistema | Tokens Usados | Custo (USD) | O que você recebeu |
|---|---|---|---|
| Fugu Ultra | ~22.000 | $0,51 | UI mais polida e rica em recursos — e a mais cara |
| Opus 4.8 | ~16.000 | $0,31 | Implementação sólida e equilibrada |
| GPT-5.5 | ~11.000 | $0,26 | Boa relação qualidade-eficiência |
| Chinchilla 5.2 | ~13.000 | $0,03 | De longe o mais barato, menos polimento em design |
Leia essa tabela devagar, porque há duas histórias nela.
A primeira história é a que a Sakana quer que você veja: o Fugu produziu a UI mais bonita e completa. Se "faça impressionante de primeira" é o trabalho, o Fugu entregou. A orquestração se pagou em polimento — múltiplos modelos verificando uns aos outros tendem a captar as lacunas que uma única passagem deixa para trás.
A segunda história é a que importa para seu orçamento. O Fugu custou $0,51 — cerca de 17 vezes o que o Chinchilla 5.2 cobrou por uma versão funcional da mesma coisa. Também queimou a maior quantidade de tokens. Isso não é um bug. É a arquitetura. Toda vez que o Fugu decompõe uma tarefa, roteia e verifica o resultado, ele faz mais chamadas de modelo do que um modelo individual faria. Coordenação tem overhead, e você paga por isso em tokens, reais e latência.
Aqui é onde eu chego, e não é onde o marketing me quer: para uma construção direta, esse prêmio é difícil de justificar. O Chinchilla 5.2 te deu um trader desk funcional por três centavos. Se você precisa bonito, o Opus 4.8 dividiu a diferença em $0,31 com um resultado limpo. Os 64 centavos extras do Fugu sobre o Chinchilla compram polimento — e em muitas ferramentas internas, ninguém avalia o polimento.
Mas "muitas ferramentas internas" não é todo trabalho. O teste do trader desk recompensa eficiência, então as ferramentas eficientes parecem espertas. Mude a tarefa para uma que recompense coordenação, e o quadro vira drasticamente.
O teste do Crossy Road: quando mais rápido e mais barato produz pior resultado
Este é o teste que reenquadrou tudo para mim, e não tem nada a ver com qual sistema é "mais inteligente".
A tarefa: construir um jogo 3D estilo Crossy Road. Mesmo briefing, cara a cara — Fugu Ultra contra Opus 4.8. Aqui estão os números reportados, e eu os apresento exatamente como a fonte os reportou, não como números que eu mesmo verifiquei:
| Dimensão | Fugu Ultra | Opus 4.8 |
|---|---|---|
| Tempo de construção | ~22 minutos | ~79 minutos |
| Tokens usados | ~90.000 | ~1.000.000 |
| Custo | ~$7,32 | ~$37 |
| Resultado | Mais rápido, mais barato, mas falho | Mais lento, mais caro, mais polido |
O Fugu foi aproximadamente 3,5 vezes mais rápido, usou cerca de 10 vezes menos tokens e custou aproximadamente 5 vezes menos. Pare e absorva isso, porque contradiz o resultado do trader desk que você acabou de ler. Aqui, o sistema orquestrado foi o frugal.
E ainda assim produziu o jogo pior. O clone de Crossy Road do Fugu tinha controles de direção invertidos — aperte direita, vá para a esquerda. A câmera lutava contra o jogador. Não havia som. O jogo estava incompleto. O Opus 4.8 gastou cinco vezes o dinheiro e quase quatro vezes o tempo real, e devolveu algo mais polido e funcional — embora ainda ligeiramente com bugs.
Então quem ganhou? Essa é a pergunta errada, e esse é exatamente o ponto. Se você está prototipando cinquenta conceitos de jogos para encontrar o que vale a pena construir, o perfil do Fugu é obviamente correto — você quer velocidade e baixo custo, e vai consertar a câmera na ideia que sobreviver. Se você está entregando o jogo pelo qual jogadores realmente vão pagar, o polimento do Opus 4.8 vale cada dólar extra.
Observe o que aconteceu em dois testes. No trader desk, o Fugu foi a opção cara. No Crossy Road, o Fugu foi a opção barata. O mesmo sistema. A variável não foi o Fugu — foi a tarefa. O overhead de orquestração é um imposto fixo que rende enormemente em alguns trabalhos e te sangra em outros, e você não pode saber qual sem combinar a tarefa com a arquitetura.
Essa é a habilidade que ninguém está ensinando ainda: ler uma tarefa e prever qual forma de sistema se encaixa. Deixe-me dar a regra geral que eu usaria.
Você deveria usar o Fugu Ultra ou simplesmente escolher um modelo de fronteira?
Use o Fugu Ultra quando a tarefa for multicomponente, de alto detalhe e se beneficiar de verificação — construções de UI, simulações, qualquer coisa onde a verificação cruzada capture erros que uma única passagem não detecta. Recorra a um modelo de fronteira individual como Opus 4.8 ou GPT-5.5 quando precisar de velocidade previsível, baixo custo e um ciclo de feedback ajustado. O fator decisivo não é a capacidade. É se a decomposição-e-verificação recupera seu overhead neste trabalho específico.
Aqui está a decisão que eu realmente executaria, em ordem:
- Isso é um artefato impressionante de uma vez ou um ciclo de iteração ajustado? Polimento de uma vez favorece o ciclo de verificar-e-sintetizar do Fugu. Iteração rápida favorece um modelo individual — você não quer latência de orquestração entre cada tecla de feedback.
- Quão longo prazo é a tarefa? Esta é importante. Os resultados reportados mostram que o Fugu às vezes fica para trás em trabalho amplo e de longo prazo — coisas como Sweep Bench Pro — precisamente porque o overhead de orquestração e os pontos de falha de coordenação se acumulam ao longo de muitos passos. Mais peças móveis significa mais lugares para quebrar.
- Qual é seu teto de custo e seu piso de qualidade? Se você tem um orçamento rígido e um padrão de qualidade indulgente, um modelo eficiente individual gana quase sempre. Se polimento não é negociável e o orçamento é flexível, as chamadas extras do Fugu ganham seu custo.
- Precisa rodar na UE? No lançamento, o Fugu não está disponível na UE/EEE enquanto a Sakana trabalha no RGPD. Se seu stack ou usuários vivem lá, a decisão está tomada por você.
Em benchmarks puros, a fonte reporta que o Fugu pontua bem em engenharia, raciocínio científico, codificação e tarefas agênticas — e frequentemente supera o Mythos 5 em benchmarks específicos como Live Code Bench e BBQ Evil, exatamente o tipo que recompensa decomposição cuidadosa e verificação. Mas fica aquém de modelos de fronteira verdadeiros como o Fable 5 em tarefas do mundo real mais bagunçadas. As vitórias em benchmarks são reais e são em parte um artefato daquilo para o qual a orquestração foi construída. Ambas as coisas são verdadeiras.
Mais uma ressalva honesta que não vou enterrar: a maioria das afirmações de benchmark das manchetes são números próprios da Sakana. Benchmarks auto-reportados da empresa que vende o produto são marketing até que avaliadores independentes os reproduzam. Não estou dizendo que estão errados — estou dizendo que o ônus da prova está com a Sakana, e neste momento está apenas parcialmente cumprido. Os resultados de testes de terceiros acima (trader desk, Crossy Road) são mais confiáveis precisamente porque não foram conduzidos pela Sakana.
Se toda a direção multi-modelo e de ensembles te interessa, tracei a versão inicial desse padrão na minha análise de ensembles de IA de código aberto, e cobri o lançamento do Fugu em contexto junto com os outros lançamentos de junho no meu resumo de modelos de IA para junho de 2026. Esta publicação é o mergulho profundo no Fugu sozinho; aquele resumo é o mapa mais amplo.
Agora — os testes onde o Fugu genuinamente me impressionou, e onde a arquitetura de orquestração para de ser um compromisso e começa a ser uma vantagem.
Onde a orquestração realmente brilha: simulações, terreno e um tabuleiro que não pode ver
Três resultados me levaram de cético a "ok, isso é real."
A simulação do buraco negro. O briefing era uma simulação surrealista de buraco negro — codinome "Singularity". O Fugu produziu uma visualização detalhada e bem renderizada que superou o GLM MiniMax e o Chinchilla 2.7 Code em precisão visual. Este é exatamente o tipo de tarefa onde a orquestração deveria vencer: renderizar corretamente uma cena com nuances físicas envolve vários subproblemas — a geometria, a iluminação, a física de distorção, o estilo surrealista — e um sistema que pode rotear cada um para um modelo capaz e verificar o composto tem uma vantagem estrutural sobre um modelo individual tentando manter tudo de uma vez.
O simulador de voo. Mesma história, domínio diferente. O Fugu gerou um simulador de voo de terreno infinito semi-preciso que superou o GLM 5.2 e o MiniMax, ambos com resultados limitados. "Terreno infinito" é um problema de decomposição disfarçado — geração de terreno, a física de voo, a câmera, o loop de renderização — e decomposição é o território do Fugu.
E então o xadrez. Eu continuo voltando a este porque é a demonstração mais limpa do que "manter estado através de coordenação" realmente te proporciona. Xadrez às cegas, de uma vez, sem tabuleiro visual — o sistema tem que rastrear toda a posição na memória de trabalho ao longo de toda a partida. O Fugu venceu quatro partidas consecutivas contra três modelos de fronteira e um motor Stockfish em torno de 2.100 ELO, terminando cada partida em xeque-mate. Manteve o estado do jogo e a precisão de lances melhor que oponentes que, no papel, são mais capazes.
Por que isso acontece? Porque um verificador no loop captura o erro antes de ser cometido. Um modelo individual jogando xadrez às cegas tem uma tentativa para rastrear o tabuleiro corretamente a cada lance. Um sistema orquestrado pode fazer um componente propor um lance e outro verificar a posição resultante contra o histórico de lances. Isso não é mágica — é o mesmo loop de decompor-e-verificar, aplicado a um problema onde um único deslize perde a partida. Toda a razão de existir da arquitetura é capturar o erro que o solista cometeria.
Se você leu até aqui, aqui está a mudança que quero que leve consigo: por anos perguntamos "qual modelo é o mais inteligente?" A pergunta mais útil de 2026 é "qual forma de sistema se encaixa neste trabalho?" E "um orquestrador que roteia entre muitos modelos" é agora uma resposta real e em produção para essa pergunta — não uma curiosidade de pesquisa.
O que errei sobre de onde vem o próximo salto
Hora de falar direto, porque uma análise de ferramenta que só lista recursos é uma ficha técnica, e isso você consegue em qualquer lugar.
Primeiro, errei sobre a forma do progresso. Assumi que o próximo salto de capacidade viria de um modelo individual maior — mais parâmetros, mais treinamento, um cérebro mais gordo. Os resultados do Fugu sugerem que uma parcela significativa do progresso a curto prazo virá da coordenação em vez disso: extrair mais dos modelos que já temos roteando inteligentemente entre eles e verificando a saída. Essa é uma forma de progresso mais humilde, menos glamorosa. Não gera uma manchete chamativa de "novo modelo". Acho que foi subestimada exatamente por essa razão.
Segundo, o eixo do custo é agora tão importante quanto o eixo da capacidade, e a maioria da cobertura ainda o ignora. Todo mundo faz benchmark de inteligência. Quase ninguém faz benchmark de reais-por-tarefa-completada. As tabelas do trader desk e Crossy Road são a ilustração mais clara que vi de que "melhor" é agora uma palavra dependente do orçamento. Quando assessoro equipes, a primeira pergunta não é mais "qual modelo é o mais inteligente" — é "qual é sua tolerância para custo versus polimento neste trabalho." Na maioria dos dias, pego o resultado mais barato e conserto a câmera eu mesmo.
Terceiro — e esta é a limitação com a qual a Sakana não vai liderar — o overhead de orquestração é um imposto real e recorrente. Mais chamadas de modelo significam maior latência, maior custo e mais pontos de falha. Cada salto entre modelos é um lugar onde o fluxo de trabalho pode perder contexto ou rotear errado. Em tarefas de longo prazo, esses pontos de falha se acumulam, o que é exatamente por que o Fugu fica para trás nos benchmarks mais amplos. Um orquestrador é tão confiável quanto sua transferência mais fraca, e tem mais transferências que um modelo individual. Isso não é uma falha para corrigir — é o custo inerente do design.
Se o padrão de orquestração te deixou curioso para rodar um você mesmo, testei alguns desses sistemas — veja minha experiência prática com o orquestrador de agentes OpenAI Symphony, que aborda o mesmo problema de coordenar-muitos-modelos pela perspectiva do harness de código. E se você está considerando conectar uma camada de orquestração multi-agente em seu próprio stack — descobrir onde ela ganha seu overhead versus onde um modelo individual é a escolha mais sensata — esse é exatamente o tipo de decisão de arquitetura que assumo através do meu Fiverr. A resposta honesta geralmente é "use orquestração para os 20% das tarefas que genuinamente precisam, e um modelo individual rápido para o resto," e acertar essa divisão é a maior parte do valor.
Então, onde o Fugu realmente se encaixa? Deixe-me tornar isso concreto.
O que esperar se você adotar o Fugu Ultra hoje
Não vou inventar precisão que não tenho. Mas os testes reportados, lidos contra a arquitetura, apontam para uma forma consistente ao redor da qual você pode planejar.
Espere que o Fugu vença em artefatos multicomponente, de alto detalhe e de uma vez — a construção de UI polida, a simulação renderizada, a geração em múltiplas partes onde a verificação captura o que uma única passagem não detecta. A UI do trader desk, a simulação do buraco negro, o simulador de voo, o xadrez às cegas — todos compartilham esse DNA: vários subproblemas que se beneficiam de serem divididos, resolvidos e verificados.
Espere que o Fugu fique para trás em trabalho de longo prazo, aberto ou sensível a custo — tarefas agênticas amplas onde o overhead se acumula, e qualquer trabalho onde um modelo individual mais barato te leva 90% do caminho por uma fração do gasto. O trader desk de três centavos do Chinchilla 5.2 é a história de alerta: se você não precisa do polimento, está pagando um prêmio considerável por ele.
Espere pagar mais e esperar mais do que com GPT-5.5 ou Opus 4.8 em tarefas equivalentes, como regra. Esse é o custo estrutural da coordenação, e não vai desaparecer completamente — embora a ideia de profundidade recursiva da Sakana sugira que eles pelo menos têm um botão para trocar computação por qualidade deliberadamente em vez de às cegas.
E espere que isso melhore. O Fugu foi lançado em 22 de junho de 2026; é cedo. O pool é intercambiável, então herda cada novo modelo de fronteira gratuitamente. A coordenação é aprendida, então treinamento contínuo pode afiá-la. A prova de conceito já é convincente. A questão é se a Sakana pode fechar a lacuna de overhead rápido o suficiente para tornar a orquestração o padrão em vez da escolha especialista.
Por enquanto, minha recomendação é sem glamour e, creio, correta: Fugu Ultra é uma ferramenta especialista, não um veículo do dia a dia. Para trabalho de aplicação geral, GPT-5.5 e Opus 4.8 atualmente te dão um melhor equilíbrio custo-velocidade-qualidade. Mantenha o Fugu no seu kit para os trabalhos específicos de alto detalhe e multicomponente onde decompor-e-verificar ganha seu custo — e observe a tendência de overhead, porque se ela cair, todo o cálculo muda.
Volte mais uma vez àquela partida de xadrez às cegas. Um sistema que não podia ver o tabuleiro venceu mesmo assim — não porque era o jogador mais inteligente na mesa, mas porque tinha um companheiro de equipe verificando seu trabalho antes de cada lance. Essa é a verdadeira lição do Fugu Ultra, e é maior que um produto. A próxima era da IA talvez não seja vencida pelo modelo mais inteligente. Talvez seja vencida pela equipe mais bem coordenada de modelos comuns.
Então a pergunta que eu te deixaria não é "o Fugu é melhor que o GPT-5.5?" É esta: dos trabalhos na sua mesa esta semana, quais você está resolvendo com um solista que na verdade precisam de um comitê?
Perguntas Frequentes
O Sakana Fugu Ultra é um modelo fundacional ou um orquestrador?
O Fugu Ultra é um orquestrador, não um modelo fundacional. Ele decompõe uma tarefa, roteia subtarefas para um pool intercambiável de LLMs de fronteira, e então verifica e sintetiza suas saídas através de uma única API. Diferente do Opus 4.8 ou GPT-5.5, não gera respostas a partir de seus próprios pesos — coordena outros modelos. Veja a análise da arquitetura acima para o quadro completo.
O Fugu Ultra é mais barato que o Opus 4.8 ou GPT-5.5?
Depende inteiramente da tarefa. Em uma construção de Crossy Road, o Fugu custou segundo reportes aproximadamente 5 vezes menos que o Opus 4.8; em uma construção de trader desk, foi o mais caro de quatro sistemas a $0,51. O overhead de orquestração é um imposto fixo que rende em alguns trabalhos e te sangra em outros. O framework de decisão acima explica como prever qual.
Em quais benchmarks o Fugu Ultra se sai bem?
O Fugu pontua bem segundo reportes em engenharia, raciocínio científico, codificação e benchmarks agênticos, e frequentemente supera o Mythos 5 em tarefas como Live Code Bench e BBQ Evil que recompensam decomposição e verificação. Fica para trás em benchmarks de longo prazo como Sweep Bench Pro, onde o overhead de orquestração se acumula.
Onde o Sakana Fugu Ultra está disponível?
O Fugu Ultra é acessível através de um provedor de API e foi lançado em 22 de junho de 2026. No lançamento não está disponível na UE/EEE enquanto a Sakana AI trabalha na conformidade com o RGPD. Se seus usuários ou stack vivem na Europa, essa restrição pode decidir a questão por você.
O Fugu Ultra realmente venceu o Stockfish no xadrez às cegas?
De acordo com os testes-fonte, sim — o Fugu venceu quatro partidas consecutivas às cegas (sem tabuleiro visual) contra três modelos de fronteira e um motor Stockfish classificado em torno de 2.100 ELO, terminando cada partida em xeque-mate. A razão provável é seu design de verificar-no-loop, que captura o erro de rastreamento de posição que um modelo individual cometeria.
Vamos Trabalhar Juntos
Procurando construir sistemas de IA, automatizar fluxos de trabalho ou escalar sua infraestrutura tecnológica? Adoraria ajudar.
- Fiverr (construções personalizadas e integrações): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (soluções empresariais): ramlit.com
- ColorPark (design e branding): colorpark.io
- xCyberSecurity (serviços de segurança): xcybersecurity.io