Sakana Fugu Ultra: Ich Sah Es Stockfish Schlagen

Das Detail, das mich stoppte, war kein Benchmark. Es war ein Schachspiel ohne Brett.

Kein Bild der Figuren. Kein Koordinatenraster. Nur ein Modell, das den gesamten Spielzustand im Kopf hielt, Zug um Zug, gegen eine Stockfish-Engine mit einer Bewertung von etwa 2.100 ELO — die Art von Stärke, die fast jeden menschlichen Vereinsspieler schlägt, dem man je begegnen wird. Und Sakana Fugu Ultra hat nicht nur überlebt. Es gewann vier Partien in Folge, jede mit Schachmatt beendet, gegen drei Frontier-Modelle und die Engine.

Das war der Moment, in dem mir klar wurde, dass ich die ganze Sache falsch betrachtet hatte. Ich ging in das Video über Sakana Fugu Ultra mit der Erwartung eines weiteren "neues Modell schlägt GPT"-Hypes, der Art, die ich auf den ersten Blick gelernt habe zu ignorieren. Was ich stattdessen bekam, war ein leise radikales Argument: Vielleicht kommt der nächste Sprung in der KI-Fähigkeit nicht von einem größeren Gehirn. Vielleicht kommt er von einem klügeren Komitee.

Ich möchte ehrlich sein, was dieser Beitrag ist, denn die Ehrlichkeit zählt mehr als der Klick. Ich habe Fugus API nicht selbst ausgeführt — der Zugang ist beschränkt, und zum Start ist er in der EU/EWR blockiert, während Sakana die DSGVO durcharbeitet. Ich werde also nicht so tun, als hätte ich es letzten Dienstag in einem Kundenprojekt eingesetzt. Was ich tun kann, ist etwas Nützlicheres: die vorhandenen Testergebnisse nehmen, sie mit Sakanas veröffentlichter Forschung abgleichen und Ihnen sagen, was sie tatsächlich für Ihre Werkzeugauswahl in 2026 bedeuten. Die Zahlen unten stammen aus den Quelltests und Sakanas eigenen Materialien. Das Urteil ist meins.

Lassen Sie mich zeigen, warum "ist es besser als GPT-5.5?" sich als die falsche Frage herausstellt.

Was ist Sakana Fugu Ultra, und warum ist es kein normales Modell?

Sakana Fugu Ultra ist kein Foundation-Modell — es ist ein Multi-Agent-Orchestrierungssystem, das eine Aufgabe zerlegt, die Teilaufgaben an verschiedene spezialisierte LLMs weiterleitet und dann deren Ausgaben kritisiert, verifiziert und zu einer Antwort zusammenfügt. Wenn Sie es über seinen einzelnen API-Endpunkt aufrufen, sprechen Sie nicht mit einem Satz von Gewichten wie bei Opus 4.8 oder GPT-5.5. Sie sprechen mit einem Dirigenten, der weiß, welche Musiker er für welche Passage rufen muss.

Sakana AI ist ein Forschungslabor in Tokio, und Fugu wurde am 22. Juni 2026 gestartet. Das Label "Modell" wird dem nicht gerecht. Hier ist die Architektur in einfachen Worten: Fugu nimmt Ihren Prompt, zerlegt ihn in Teile und weist Rollen über einen austauschbaren Pool von Frontier-Modellen zu — denken Sie an Denker, Arbeiter, Verifizierer. Ein Modell entwirft einen Plan. Ein anderes führt einen Teil davon aus. Ein drittes prüft die Arbeit. Fugu fügt die Ergebnisse zusammen und übergibt Ihnen die fertige Ausgabe.

Das Wort "austauschbar" leistet hier schwere Arbeit. Weil Fugu zu Modellen routet, anstatt eines zu sein, kann der Pool wachsen, wenn neue Frontier-Modelle erscheinen — ohne Nachtraining. Das ist eine aufrichtig andere Wette darauf, woher KI-Wert kommt. Die meisten Labore wetteifern darum, das eine klügste Gehirn zu bauen. Sakana wettet, dass die Koordination der Gehirne, die wir bereits haben, der günstigere, schnellere Weg zu mehr Erfolgen ist.

Hier ist der Teil, den die meiste Berichterstattung falsch darstellt, und er ändert alles: Fugus Orchestrierung ist gelernt, nicht hartcodiert. Dies ist kein Router aus if/else-Logik und einem Schlüsselwort-Matcher. Laut Sakanas Forschung ist Fugu selbst ein trainiertes Sprachmodell, dessen Aufgabe es ist, andere LLMs aufzurufen — und es lernte, wie man sie koordiniert, aus zwei ICLR 2026-Papers: Trinity (ein evolvierter Koordinator, der die Denker/Arbeiter/Verifizierer-Rollen zuweist) und The Conductor (trainiert mit Reinforcement Learning, um natürlichsprachige Koordinationsstrategien zu entdecken). Das System lernte, was es jedem Modell sagen muss, damit ein diverser Pool jeden einzelnen Arbeiter übertrifft.

Und es gibt ein wildes Detail, das darin verborgen ist. Fugu kann sich selbst rekursiv aufrufen — seine eigene vorherige Ausgabe lesen, entscheiden, ob sein erster Koordinationsversuch zu kurz griff, und einen korrektiven Workflow starten. Die Tiefe dieser Rekursion wird zu einer einstellbaren Rechenachse zur Inferenzzeit. Sie können mehr Denkzeit investieren, indem Sie tiefer gehen, ohne irgendetwas neu zu trainieren. Das ist eine neue Art von Test-Time-Scaling, und es ist die Art von Idee, die im Nachhinein offensichtlich ist und die fast niemand zuerst geliefert hat.

Wenn Sie also sehen, dass Fugu ein Frontier-Modell auf einem Benchmark "schlägt", halten Sie dieses Ergebnis gegen das Licht. Natürlich schneidet ein System, das zerlegt, delegiert und verifiziert, gut bei Aufgaben ab, die sorgfältiges Problemlösen belohnen. Dafür ist es buchstäblich gebaut. Die interessante Frage ist nicht, ob es gewinnt — sondern wo es gewinnt und was es Sie kostet, dorthin zu kommen.

Diese Kostenfrage ist der Punkt, an dem die Geschichte unbequem wird.

Der Trader-Desk-Test: Wohin das Geld wirklich geht

Ich möchte mit dem am wenigsten dramatischen Test beginnen, weil er der ehrlichste ist. Die Aufgabe: Bauen Sie einen "Live Trader Desk" — ein Frontend plus Backend, die Art von Multi-Komponenten-App, die echte Menschen tatsächlich bauen. Vier Systeme erhielten denselben Prompt. Hier ist, was sie verwendeten, wie in der Quelle berichtet:

System	Verwendete Tokens	Kosten (USD)	Was Sie bekamen
Fugu Ultra	~22.000	$0,51	Ausgefeiltest, funktionsreichste UI — und die teuerste
Opus 4.8	~16.000	$0,31	Solide, ausgewogene Implementierung
GPT-5.5	~11.000	$0,26	Gutes Qualitäts-zu-Effizienz-Verhältnis
Chinchilla 5.2	~13.000	$0,03	Mit Abstand am günstigsten, am wenigsten Design-Politur

Lesen Sie diese Tabelle langsam, denn es stecken zwei Geschichten darin.

Die erste Geschichte ist die, die Sakana Ihnen zeigen möchte: Fugu produzierte die am besten aussehende, vollständigste UI. Wenn "mach es auf Anhieb beeindruckend" die Aufgabe ist, lieferte Fugu. Die Orchestrierung zahlte sich in Politur aus — mehrere Modelle, die sich gegenseitig überprüfen, fangen tendenziell die Lücken auf, die ein einzelner Durchlauf hinterlässt.

Die zweite Geschichte ist die, die für Ihr Budget zählt. Fugu kostete $0,51 — etwa das 17-fache dessen, was Chinchilla 5.2 für eine funktionierende Version desselben berechnete. Es verbrannte auch die meisten Tokens. Das ist kein Bug. Das ist die Architektur. Jedes Mal, wenn Fugu eine Aufgabe zerlegt, routet und das Ergebnis verifiziert, macht es mehr Modellaufrufe als ein einzelnes Modell. Koordination hat Overhead, und Sie bezahlen dafür in Tokens, Euro und Latenz.

Hier ist, wo ich lande, und es ist nicht dort, wo das Marketing mich haben will: Für einen unkomplizierten Build ist dieser Aufpreis schwer zu rechtfertigen. Chinchilla 5.2 gab Ihnen einen funktionalen Trader Desk für drei Cent. Wenn Sie es hübsch brauchen, teilte Opus 4.8 den Unterschied bei $0,31 mit einem sauberen Ergebnis. Fugus zusätzliche 64 Cent über Chinchilla kaufen Ihnen Politur — und bei vielen internen Tools bewertet niemand die Politur.

Aber "viele interne Tools" ist nicht jede Aufgabe. Der Trader-Desk-Test belohnt Effizienz, also sehen die effizienten Werkzeuge clever aus. Ändern Sie die Aufgabe zu einer, die Koordination belohnt, und das Bild dreht sich drastisch.

Der Crossy-Road-Test: Wenn schneller und günstiger Schlechteres ergibt

Dies ist der Test, der das Ganze für mich neu gerahmt hat, und er hat nichts damit zu tun, welches System "klüger" ist.

Die Aufgabe: Bauen Sie ein 3D-Crossy-Road-artiges Spiel. Dieselbe Aufgabe, direkt gegeneinander — Fugu Ultra gegen Opus 4.8. Hier sind die gemeldeten Zahlen, und ich präsentiere sie genau so, wie die Quelle sie berichtete, nicht als Zahlen, die ich selbst verifiziert habe:

Dimension	Fugu Ultra	Opus 4.8
Bauzeit	~22 Minuten	~79 Minuten
Verwendete Tokens	~90.000	~1.000.000
Kosten	~$7,32	~$37
Ergebnis	Schneller, günstiger, aber fehlerhaft	Langsamer, teurer, polierter

Fugu war ungefähr 3,5x schneller, verwendete etwa 10x weniger Tokens und kostete etwa 5x weniger. Halten Sie inne und lassen Sie das sacken, denn es widerspricht dem Trader-Desk-Ergebnis, das Sie gerade gelesen haben. Hier war das orchestrierte System das sparsame.

Und dennoch produzierte es das schlechtere Spiel. Fugus Crossy-Road-Klon hatte invertierte Lenkung — drücke rechts, gehe links. Die Kamera kämpfte gegen den Spieler. Es gab keinen Sound. Das Spiel war unvollständig. Opus 4.8 gab fünfmal so viel Geld und fast viermal die Wanduhrzeit aus und lieferte etwas Polierteres und Funktionaleres — wenn auch noch leicht fehlerhaft.

Also wer gewann? Das ist die falsche Frage, und genau das ist der Punkt. Wenn Sie fünfzig Spielkonzepte prototypen, um das eine zu finden, das es wert ist gebaut zu werden, ist Fugus Profil offensichtlich richtig — Sie wollen Geschwindigkeit und Günstigkeit, und Sie reparieren die Kamera bei der einen Idee, die überlebt. Wenn Sie das Spiel liefern, für das Spieler tatsächlich bezahlen werden, ist Opus 4.8s Politur jeden zusätzlichen Dollar wert.

Beachten Sie, was gerade über zwei Tests passiert ist. Beim Trader Desk war Fugu die teure Option. Bei Crossy Road war Fugu die günstige Option. Dasselbe System. Die Variable war nicht Fugu — es war die Aufgabe. Orchestrierungs-Overhead ist eine feste Steuer, die bei manchen Aufgaben enorm rentiert und Sie bei anderen ausblutet, und Sie können nicht wissen welche, ohne die Aufgabe mit der Architektur abzugleichen.

Das ist die Fähigkeit, die noch niemand lehrt: eine Aufgabe lesen und vorhersagen, welche Form von System dazu passt. Lassen Sie mich Ihnen die Faustregel geben, die ich verwenden würde.

Sollten Sie Fugu Ultra verwenden oder einfach ein Frontier-Modell wählen?

Verwenden Sie Fugu Ultra, wenn die Aufgabe mehrkomponentig ist, hohe Detailgenauigkeit erfordert und von Verifikation profitiert — UI-Builds, Simulationen, alles wo Gegenprüfung Fehler auffängt, die ein einzelner Durchlauf übersieht. Greifen Sie zu einem einzelnen Frontier-Modell wie Opus 4.8 oder GPT-5.5, wenn Sie vorhersagbare Geschwindigkeit, niedrige Kosten und eine enge Feedback-Schleife brauchen. Der entscheidende Faktor ist nicht die Fähigkeit. Es ist, ob Zerlegung-und-Verifikation ihren Overhead bei dieser spezifischen Aufgabe zurückverdient.

Hier ist die Entscheidung, die ich tatsächlich durchlaufen würde, in der Reihenfolge:

Ist dies ein einmaliges beeindruckendes Artefakt oder eine enge Iterationsschleife? Einmalige Politur begünstigt Fugus Verifizieren-und-Synthetisieren-Schleife. Schnelle Iteration begünstigt ein einzelnes Modell — Sie wollen keine Orchestrierungslatenz zwischen jedem Tastendruck von Feedback.
Wie langfristig ist die Aufgabe? Diese ist wichtig. Die gemeldeten Ergebnisse zeigen, dass Fugu bei breiter, langfristiger Arbeit manchmal zurückfällt — Dinge wie Sweep Bench Pro — genau weil sich Orchestrierungs-Overhead und Koordinationsfehlerquellen über viele Schritte aufsummieren. Mehr bewegliche Teile bedeuten mehr Stellen zum Brechen.
Was ist Ihre Kostenobergrenze und Ihr Qualitätsminimum? Wenn Sie ein hartes Budget und eine nachsichtige Qualitätslatte haben, gewinnt ein einzelnes effizientes Modell fast immer. Wenn Politur nicht verhandelbar ist und das Budget flexibel, verdienen Fugus zusätzliche Aufrufe ihre Kosten.
Muss es in der EU laufen? Zum Start ist Fugu in der EU/EWR nicht verfügbar, während Sakana die DSGVO durcharbeitet. Wenn Ihr Stack oder Ihre Nutzer dort leben, ist die Entscheidung für Sie getroffen.

Bei reinen Benchmarks berichtet die Quelle, dass Fugu gut in Engineering, wissenschaftlichem Denken, Coding und agentischen Aufgaben abschneidet — und oft Mythos 5 übertrifft bei spezifischen Benchmarks wie Live Code Bench und BBQ Evil, genau der Art, die sorgfältige Zerlegung und Verifikation belohnt. Aber es fällt hinter echte Frontier-Modelle wie Fable 5 bei chaotischeren, realen Aufgaben zurück. Die Benchmark-Siege sind echt und sie sind teilweise ein Artefakt dessen, wofür Orchestrierung gebaut ist. Beides stimmt.

Noch ein ehrlicher Vorbehalt, den ich nicht begraben werde: Die meisten Schlagzeilen-Benchmark-Behauptungen sind Sakanas eigene Zahlen. Selbst gemeldete Benchmarks vom Unternehmen, das das Produkt verkauft, sind Marketing, bis unabhängige Evaluierer sie reproduzieren. Ich sage nicht, dass sie falsch sind — ich sage, die Beweislast liegt bei Sakana, und momentan ist sie nur teilweise erfüllt. Die Drittanbieter-Testergebnisse oben (Trader Desk, Crossy Road) sind vertrauenswürdiger, genau weil sie nicht von Sakana durchgeführt wurden.

Wenn die gesamte Multi-Modell-Ensemble-Richtung Sie interessiert, habe ich die frühe Version dieses Musters in meiner Analyse von Open-Source-KI-Ensembles nachverfolgt, und ich behandelte Fugus Start im Kontext neben den anderen Juni-Veröffentlichungen in meinem KI-Modell-Überblick für Juni 2026. Dieser Beitrag ist der tiefe Einblick in Fugu allein; jener Überblick ist die breitere Karte.

Nun — die Tests, bei denen Fugu mich wirklich beeindruckt hat, und wo die Orchestrierungsarchitektur aufhört ein Kompromiss zu sein und anfängt ein Vorteil zu werden.

Wo Orchestrierung wirklich glänzt: Simulationen, Terrain und ein Brett, das es nicht sehen kann

Drei Ergebnisse brachten mich vom Skeptiker zu "okay, das ist echt."

Die Schwarze-Loch-Simulation. Die Aufgabe war eine surrealistische Schwarze-Loch-Sim — Codename "Singularity". Fugu produzierte eine detaillierte, gut gerenderte Visualisierung, die GLM MiniMax und Chinchilla 2.7 Code bei der visuellen Genauigkeit übertraf. Dies ist genau die Art von Aufgabe, bei der Orchestrierung gewinnen sollte: Eine physikalisch angehauchte Szene korrekt zu rendern umfasst mehrere Teilprobleme — die Geometrie, die Beleuchtung, die Verzerrungsphysik, das surreale Styling — und ein System, das jedes an ein fähiges Modell weiterleiten und das Komposit verifizieren kann, hat einen strukturellen Vorteil gegenüber einem einzelnen Modell, das versucht, alles gleichzeitig zu halten.

Der Flugsimulator. Dieselbe Geschichte, andere Domäne. Fugu generierte einen semi-genauen Endlos-Terrain-Flugsimulator, der GLM 5.2 und MiniMax übertraf, die beide begrenzte Ergebnisse lieferten. "Endloses Terrain" ist ein Zerlegungsproblem in Verkleidung — Terrain-Generierung, die Flugphysik, die Kamera, die Render-Schleife — und Zerlegung ist Fugus Heimatgebiet.

Und dann das Schach. Ich komme immer wieder darauf zurück, weil es die sauberste Demonstration dessen ist, was "Zustanderhaltung durch Koordination" Ihnen tatsächlich bringt. Blindschach, einmalig, kein visuelles Brett — das System muss die gesamte Position im Arbeitsgedächtnis über das gesamte Spiel verfolgen. Fugu gewann vier aufeinanderfolgende Partien gegen drei Frontier-Modelle und eine Stockfish-Engine um 2.100 ELO und beendete jede Partie mit Schachmatt. Es hielt den Spielzustand und die Zuggenauigkeit besser als Gegner, die auf dem Papier fähiger sind.

Warum passiert das? Weil ein Verifizierer in der Schleife den Fehler auffängt, bevor er begangen wird. Ein einzelnes Modell, das Blindschach spielt, hat einen Versuch, das Brett bei jedem Zug korrekt zu verfolgen. Ein orchestriertes System kann eine Komponente einen Zug vorschlagen lassen und eine andere die resultierende Position gegen die Zughistorie prüfen lassen. Das ist keine Magie — es ist dieselbe Zerlegen-und-Verifizieren-Schleife, angewandt auf ein Problem, bei dem ein einziger Fehler das Spiel verliert. Der gesamte Daseinszweck der Architektur ist es, den Fehler aufzufangen, den der Solist machen würde.

Wenn Sie bis hierher gelesen haben, hier ist die Verschiebung, die ich Ihnen mitgeben möchte: Jahrelang fragten wir "welches Modell ist am klügsten?" Die nützlichere Frage von 2026 ist "welche Form von System passt zu dieser Aufgabe?" Und "ein Orchestrator, der über viele Modelle routet" ist jetzt eine echte, ausgelieferte Antwort auf diese Frage — keine Forschungskuriosität.

Was ich falsch eingeschätzt habe, woher der nächste Sprung kommt

Zeit für Klartext, denn eine Werkzeugbesprechung, die nur Funktionen auflistet, ist ein Datenblatt, und das bekommen Sie überall.

Erstens, ich lag falsch über die Form des Fortschritts. Ich nahm an, der nächste Fähigkeitssprung würde von einem größeren einzelnen Modell kommen — mehr Parameter, mehr Training, ein dickeres Gehirn. Fugus Ergebnisse legen nahe, dass ein bedeutender Teil des kurzfristigen Fortschritts stattdessen von Koordination kommen wird: mehr aus den Modellen herausholen, die wir bereits haben, indem wir intelligent zwischen ihnen routen und die Ausgabe verifizieren. Das ist eine bescheidenere, weniger glamouröse Form des Fortschritts. Sie schafft keine auffällige "neues Modell"-Schlagzeile. Ich denke, sie wurde genau aus diesem Grund unterschätzt.

Zweitens, die Kostenachse ist jetzt genauso wichtig wie die Fähigkeitsachse, und die meiste Berichterstattung ignoriert sie noch. Jeder benchmarkt Intelligenz. Fast niemand benchmarkt Euro-pro-erledigte-Aufgabe. Die Trader-Desk- und Crossy-Road-Tabellen sind die klarste Illustration, die ich gesehen habe, dass "beste" jetzt ein budgetabhängiges Wort ist. Wenn ich Teams berate, lautet die erste Frage nicht mehr "welches Modell ist am klügsten" — sondern "wie hoch ist Ihre Toleranz für Kosten versus Politur bei dieser Aufgabe." An den meisten Tagen nehme ich das günstigere Ergebnis und repariere die Kamera selbst.

Drittens — und das ist die Einschränkung, mit der Sakana nicht führen wird — Orchestrierungs-Overhead ist eine echte, wiederkehrende Steuer. Mehr Modellaufrufe bedeuten höhere Latenz, höhere Kosten und mehr Fehlerstellen. Jeder Sprung zwischen Modellen ist eine Stelle, an der der Workflow Kontext verlieren oder falsch routen kann. Bei langfristigen Aufgaben summieren sich diese Fehlerstellen, was genau der Grund ist, warum Fugu bei den breitesten Benchmarks zurückfällt. Ein Orchestrator ist nur so zuverlässig wie seine schwächste Übergabe, und er hat mehr Übergaben als ein einzelnes Modell. Das ist kein Fehler zum Wegpatchen — es sind die inhärenten Kosten des Designs.

Wenn das Orchestrierungsmuster Sie neugierig gemacht hat, eines selbst zu betreiben, habe ich einige davon auf Herz und Nieren geprüft — siehe meinen Praxistest mit dem OpenAI Symphony Agent-Orchestrator, der dasselbe Koordiniere-viele-Modelle-Problem aus der Coding-Harness-Perspektive angeht. Und wenn Sie überlegen, eine Multi-Agent-Orchestrierungsschicht in Ihren eigenen Stack einzubauen — herauszufinden, wo sie ihren Overhead verdient versus wo ein einzelnes Modell die vernünftigere Wahl ist — das ist genau die Art von Architekturentscheidung, die ich über mein Fiverr übernehme. Die ehrliche Antwort lautet meist "verwenden Sie Orchestrierung für die 20% der Aufgaben, die sie wirklich brauchen, und ein schnelles einzelnes Modell für den Rest", und diese Aufteilung richtig hinzubekommen ist der größte Teil des Wertes.

Also, wo passt Fugu wirklich hin? Lassen Sie mich das konkret machen.

Was Sie erwarten können, wenn Sie Fugu Ultra heute einsetzen

Ich werde keine Präzision erfinden, die ich nicht habe. Aber die gemeldeten Tests, gelesen vor dem Hintergrund der Architektur, weisen auf eine konsistente Form hin, um die Sie planen können.

Erwarten Sie, dass Fugu bei mehrkomponentigen, detailreichen, einmaligen Artefakten gewinnt — der polierte UI-Build, die gerenderte Simulation, die mehrteilige Generierung, bei der Verifikation auffängt, was ein einzelner Durchlauf übersieht. Die Trader-Desk-UI, die Schwarze-Loch-Sim, der Flugsimulator, das Blindschach — alle teilen diese DNA: mehrere Teilprobleme, die von Aufteilung, Lösung und Prüfung profitieren.

Erwarten Sie, dass Fugu bei langfristiger, offener oder kostensensitiver Arbeit zurückfällt — breite agentische Aufgaben, bei denen sich Overhead aufsummiert, und jede Aufgabe, bei der ein günstigeres einzelnes Modell Sie für einen Bruchteil der Ausgaben 90% des Weges bringt. Chinchilla 5.2s Drei-Cent-Trader-Desk ist die warnende Geschichte: Wenn Sie die Politur nicht brauchen, zahlen Sie einen steilen Aufpreis dafür.

Erwarten Sie, mehr zu bezahlen und länger zu warten als bei GPT-5.5 oder Opus 4.8 für vergleichbare Aufgaben, als Regel. Das sind die strukturellen Kosten der Koordination, und sie werden nicht vollständig verschwinden — obwohl Sakanas Idee der rekursiven Tiefe nahelegt, dass sie zumindest einen Regler haben, um bewusst Rechenleistung gegen Qualität abzuwägen statt blind.

Und erwarten Sie, dass dies besser wird. Fugu startete am 22. Juni 2026; es ist früh. Der Pool ist austauschbar, also erbt es jedes neue Frontier-Modell kostenlos. Die Koordination ist gelernt, also kann fortgesetztes Training sie schärfen. Der Proof-of-Concept ist bereits überzeugend. Die Frage ist, ob Sakana die Overhead-Lücke schnell genug schließen kann, um Orchestrierung zum Standard statt zur Spezialistenwahl zu machen.

Vorerst ist meine Empfehlung unspektakulär und, denke ich, richtig: Fugu Ultra ist ein Spezialwerkzeug, kein Alltagsfahrzeug. Für allgemeine Anwendungsarbeit bieten GPT-5.5 und Opus 4.8 derzeit eine bessere Kosten-Geschwindigkeits-Qualitätsbalance. Behalten Sie Fugu in Ihrem Werkzeugkasten für die spezifischen detailreichen, mehrkomponentigen Aufgaben, bei denen Zerlegen-und-Verifizieren seine Kosten verdient — und beobachten Sie den Overhead-Trend, denn wenn er sinkt, ändert sich die gesamte Kalkulation.

Kommen Sie noch einmal zu dieser Blindschachpartie zurück. Ein System, das das Brett nicht sehen konnte, gewann trotzdem — nicht weil es der klügste Spieler am Tisch war, sondern weil es einen Teamkameraden hatte, der seine Arbeit vor jedem Zug überprüfte. Das ist die wahre Lektion von Fugu Ultra, und sie ist größer als ein Produkt. Die nächste Ära der KI wird vielleicht nicht vom klügsten Modell gewonnen. Sie wird vielleicht vom am besten koordinierten Team gewöhnlicher gewonnen.

Also ist die Frage, die ich Ihnen mitgeben würde, nicht "ist Fugu besser als GPT-5.5?" Es ist diese: Von den Aufgaben auf Ihrem Tisch diese Woche, welche lösen Sie mit einem Solisten, die eigentlich ein Komitee bräuchten?

Häufig Gestellte Fragen

Ist Sakana Fugu Ultra ein Foundation-Modell oder ein Orchestrator?

Fugu Ultra ist ein Orchestrator, kein Foundation-Modell. Es zerlegt eine Aufgabe, routet Teilaufgaben an einen austauschbaren Pool von Frontier-LLMs und verifiziert und synthetisiert dann deren Ausgabe über eine einzelne API. Im Gegensatz zu Opus 4.8 oder GPT-5.5 generiert es keine Antworten aus eigenen Gewichten — es koordiniert andere Modelle. Siehe die Architekturanalyse oben für das vollständige Bild.

Ist Fugu Ultra günstiger als Opus 4.8 oder GPT-5.5?

Das hängt vollständig von der Aufgabe ab. Bei einem Crossy-Road-Build kostete Fugu Berichten zufolge etwa 5x weniger als Opus 4.8; bei einem Trader-Desk-Build war es das teuerste von vier Systemen mit $0,51. Orchestrierungs-Overhead ist eine feste Steuer, die bei manchen Aufgaben rentiert und Sie bei anderen ausblutet. Das Entscheidungsrahmenwerk oben erklärt, wie Sie vorhersagen können, welches.

Bei welchen Benchmarks schneidet Fugu Ultra gut ab?

Fugu schneidet Berichten zufolge gut bei Engineering, wissenschaftlichem Denken, Coding und agentischen Benchmarks ab und übertrifft oft Mythos 5 bei Aufgaben wie Live Code Bench und BBQ Evil, die Zerlegung und Verifikation belohnen. Es fällt bei langfristigen Benchmarks wie Sweep Bench Pro zurück, wo sich Orchestrierungs-Overhead aufsummiert.

Wo ist Sakana Fugu Ultra verfügbar?

Fugu Ultra ist über einen API-Anbieter zugänglich und startete am 22. Juni 2026. Zum Start ist es in der EU/EWR nicht verfügbar, während Sakana AI die DSGVO-Compliance durcharbeitet. Wenn Ihre Nutzer oder Ihr Stack in Europa leben, kann diese Einschränkung die Frage für Sie beantworten.

Hat Fugu Ultra wirklich Stockfish beim Blindschach geschlagen?

Laut den Quelltests, ja — Fugu gewann vier aufeinanderfolgende Blindpartien (kein visuelles Brett) gegen drei Frontier-Modelle und eine Stockfish-Engine mit einer Bewertung von etwa 2.100 ELO und beendete jede Partie mit Schachmatt. Der wahrscheinliche Grund ist das Verifizieren-in-der-Schleife-Design, das den Positionsverfolgungsfehler auffängt, den ein einzelnes Modell begehen würde.

Lassen Sie Uns Zusammenarbeiten

Möchten Sie KI-Systeme bauen, Workflows automatisieren oder Ihre technische Infrastruktur skalieren? Ich helfe gerne.

Fiverr (Maßanfertigungen & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Unternehmenslösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io

Sakana Fugu Ultra: Ich Sah Es Stockfish Schlagen