GLM 5.2 vs Qwen 3.7 Max vs Claude Opus 4.8
Das Modell, das die Benchmark-Charts anführte, verlor vier meiner fünf Tests.
Ich möchte dort beginnen, weil das der ganze Punkt ist, und ich es selbst kaum glaubte. Ich hatte GLM 5.2 vs Qwen 3.7 Max vs Claude Opus 4.8 aufgestellt und erwartete, dass Qwen es locker gewinnen würde — es führt die veröffentlichten Agentic-Coding-Tabellen an, Alibaba hat lautstark über Terminal-Bench und SWE-Bench Pro Scores gesprochen, und auf dem Papier hätte es die offensichtliche Wahl sein sollen. Dann gab ich allen dreien die exakt gleichen Prompts, ein Versuch, keine Wiederholungen, kein "versuch das nochmal," und sah zu, wie der Chart-Anführer mir einen Voxel-Runner lieferte, der technisch funktional und völlig leblos war. Währenddessen lieferte ein chinesisches Open-Weight-Modell, das noch nicht einmal 5.2-Benchmarks veröffentlicht hat, immer wieder Dinge, die tatsächlich Spaß machten.
Diese Kluft — zwischen dem, was ein Leaderboard verspricht, und dem, was auf Ihrem Bildschirm erscheint — ist worum es in diesem ganzen Test geht. Wenn Sie gerade ein Coding-Modell auf Basis einer SWE-Bench-Zahl auswählen, die Sie in einem Launch-Tweet gesehen haben, würde ich warten, bis Sie gelesen haben, was passiert ist, als ich diese drei bei identischen, realen Aufgaben ohne zweite Chancen antreten ließ.
Ein ehrlicher Haftungsausschluss vorab, derselbe, den ich jedes Mal mache: Ich sage Ihnen genau, was ich praktisch getestet habe und wo ich mich auf Herstellerangaben verlasse. Die Versionsnummern hier — GLM 5.2, Qwen 3.7 Max, Claude Opus 4.8 — sind alle echte, ausgelieferte Modelle ab Juni 2026, und ich habe ihre Veröffentlichungsdetails überprüft. Wo eine Benchmark-Zahl aus dem eigenen Deck eines Herstellers stammt, sage ich das, weil die gesamte Lektion dieses Artikels ist, dass man diesen Zahlen nicht blind vertrauen sollte. Einschließlich meiner.
Die Drei Modelle, und Warum Dieser Vergleich Tatsächlich Fair Ist
Eine kurze Einordnung vor den Tests, denn wenn die Teilnehmer nicht vergleichbar sind, sind die Ergebnisse Rauschen.
GLM 5.2 wurde am 13. Juni 2026 von Z.ai (dem Zhipu AI-Spin-off) veröffentlicht. Es ist ein Mixture-of-Experts-Modell mit 744B Parametern und etwa 40B aktiven Parametern pro Token, einem echten 1M-Token-Kontextfenster und — das ist die Schlagzeile, die immer wieder zählt — MIT-lizenzierten offenen Gewichten. Ich habe den Launch ausführlich in meiner wöchentlichen KI-Zusammenfassung über GLM-5.2, Fable 5 und DiffusionGemma behandelt, daher werde ich die Spezifikationen hier nicht erneut durchgehen. Die relevante Tatsache für diesen Test: Z.ai veröffentlichte Benchmarks für GLM 5.1, nicht 5.2. Wenn GLM 5.2 also unten etwas gewinnt, gewinnt es ohne einen Benchmark, hinter dem es sich verstecken kann.
Qwen 3.7 Max ist Alibabas Flaggschiff, angekündigt auf dem Alibaba Cloud Summit in Hangzhou am 20. Mai 2026, ebenfalls mit einem 1M-Token-Fenster. Alibabas veröffentlichte Tabellen setzen es bei etwa 60,6 auf SWE-Bench Pro und behaupten, es übertrifft die vorherige Claude Opus-Generation bei Terminal-Bench 2.0 und MCP-Atlas. Es ist eindeutig als Agent-Modell positioniert — gebaut für Tool-Calls, Orchestrierung und Aufgabenketten mit langem Horizont.
Claude Opus 4.8 kam am 28. Mai 2026 von Anthropic zu unveränderten Preisen ($5 pro Million Input, $25 pro Million Output). Seine eigene SWE-Bench Pro-Zahl beträgt 69,2% — und bemerkenswert ist, dass das tatsächlich höher ist als Qwens veröffentlichtes Ergebnis, was die Geschichte "Qwen führt die Benchmarks" bereits kompliziert, mit der ich hereinkam. Anthropic lieferte auch Dynamic Workflows, mit denen Claude Code parallele Subagenten starten kann.
Hier ist der Haken, den die Quelle für diesen Test markierte, und ich möchte ehrlich darüber sein. Ich hatte eine SWE-Bench-Zahl von 80,4% für Qwen 3.7 Max kursieren sehen. Ich konnte diese Zahl nicht anhand von Alibabas eigenen veröffentlichten Tabellen verifizieren, die etwa 60,6 auf SWE-Bench Pro zeigen. Daher behandle ich 80,4% als eine nicht verifizierbare herstellernahe Behauptung und behaupte sie nicht als Tatsache. Die verifizierten, von Dritten berichteten Zahlen erzählen eine andere Geschichte als der Hype — Opus 4.8 mit 69,2% liegt über Qwens veröffentlichtem Pro-Score. Merken Sie sich das; es wird interessanter, sobald die realen Ergebnisse kommen.
Der Test selbst: fünf Aufgaben, jedes Modell bekommt den identischen Prompt, ein Versuch, keine Wiederholungen. So wie Sie sie tatsächlich in einer CLI an einem Dienstag verwenden würden — nicht wie ein Benchmark-Rahmen sie mit Wiederholungen und Hilfestellung verwöhnt.
Wie Ich den One-Shot-Test Durchführte (und Warum "One Shot" Wichtig Ist)
Die Regeln waren bewusst streng, denn Nachsicht ist genau die Art, wie Benchmarks Sie belügen.
Ein Prompt pro Aufgabe. Was auch immer das Modell beim ersten Durchgang produzierte, wurde bewertet. Kein "fix den Bug," kein "mach es interessanter," kein erneutes Würfeln, bis es mir gefiel. Die meisten Benchmark-Scores erlauben stillschweigend mehrere Versuche, Agent-Scaffolding oder Best-of-N-Sampling — und das bläht Zahlen auf eine Weise auf, die nichts mit Ihrer Erfahrung zu tun hat, wenn Sie einen einzelnen Prompt abschicken und warten.
Ich bewertete auf drei Achsen, die ein Leaderboard nicht erfassen kann: funktioniert es, ist es wirklich gut, und würde ein Mensch es benutzen wollen. Diese dritte Achse ist der Killer. Ein Voxelspiel kann sauber kompilieren, mit 60fps laufen und trotzdem bei der Ankunft tot sein, weil es langweilig ist. Keine SWE-Bench-Zelle hat eine Spalte für "Spaß." Diese Auslassung erklärt, wie sich herausstellt, den größten Teil der Kluft zwischen den Rankings und der Realität.
Fünf Aufgaben, gewählt um das Spektrum abzudecken: ein 3D-Voxel-Runner-Spiel, eine Karte des inneren Sonnensystems, eine Flüssigkeit-in-einer-Kugel-Physiksimulation, eine Marketing-Landingpage und ein klassisches Arcade-Spiel. Zwei sind Game-Dev (kreativ + interaktiv), zwei neigen zu Simulation und Physik, eines ist reines Front-End. Zusammen belasten sie visuelle Qualität, Interaktionsdesign, Physikmathematik, Layout-Gespür und diese schwer fassbare "ist das erfreulich"-Qualität gleichzeitig.
Bevor ich Ihnen die Scorecard zeige, etwas zum Festhalten: Ich erwartete, dass es knapp werden würde. Das war es nicht.
Die Scorecard: One-Shot-Ergebnisse Über Alle Fünf Aufgaben
Hier ist, wo jedes Modell landete, Kopf an Kopf, ohne Wiederholungen.
| Aufgabe | GLM 5.2 | Qwen 3.7 Max | Claude Opus 4.8 | Gewinner |
|---|---|---|---|---|
| Voxel Runner Spiel | Spaßig, flüssig, wirklich interessant | Funktioniert, aber buggy und langweilig | Sehr basic, kein Spaß | GLM 5.2 |
| Inneres-Sonnensystem-Karte | Schlechte visuelle Qualität | Akzeptabel aber schwach | Hoch interaktiv & klar | Claude Opus 4.8 |
| Flüssigkeit-in-einer-Kugel Sim | Schöne Animation, interaktiv | Weniger ansprechend | Sehr langweilig | GLM 5.2 |
| Landingpage | Gut strukturiert mit Animation | Leere Leinwand, schwach | Sehr basic, uninspirierend | GLM 5.2 |
| Arcade-Spiel | Hochgradig fesselnd und spaßig | Bug: Ball verschwindet | Spielbarer als Qwen | GLM 5.2 |
Vier zu eins für GLM 5.2. Das benchmark-führende Agent-Modell, Qwen 3.7 Max, gewann exakt null Aufgaben. Und Claude Opus 4.8 — das Modell mit dem höchsten verifizierten SWE-Bench Pro-Score der drei — gewann eine einzige Aufgabe und scheiterte beim Rest der kreativen Arbeit.
Wenn Sie nur eine Sache aus diesem Artikel mitnehmen, dann lassen Sie es die Form dieser Tabelle sein. Die veröffentlichten Rankings hätten Qwen als Ersten vorhergesagt, Opus als Zweiten, GLM irgendwo dahinter ohne 5.2-Zahlen auf seinem Konto. In der Praxis kehrte sich die Reihenfolge fast um. Lassen Sie mich Ihnen nun warum erklären, Aufgabe für Aufgabe, denn die Gründe sind nützlicher als das Urteil.
Voxel Runner: Wo "Funktioniert" und "Gut" Sich Trennen
Die erste Aufgabe zog die klarste Linie des gesamten Tests.
Ich bat alle drei um einen 3D-Voxel-Runner — denken Sie an einen Endless-Runner, bei dem Sie durch eine blockige Welt springen und ausweichen. GLM 5.2 lieferte etwas, das ich tatsächlich weiterspielen wollte. Die Bewegung hatte Gewicht, die Kamera folgte sinnvoll, die Welt hatte genug visuelle Vielfalt, dass es sich nicht anfühlte, als würde man auf eine einzige Textur starren. Es machte Spaß. Dieses Wort ist wichtiger, als es klingt.
Qwen 3.7 Max produzierte ebenfalls einen Voxel-Runner — und auf reiner "hat es kompiliert und lief"-Basis bestand es. Aber es war auf kleine, hartnäckige Weisen buggy, und schlimmer noch, es war langweilig. Flache Beleuchtung, kein Geschwindigkeitsgefühl, die Art von Sache, die den Prompt technisch erfüllt und sonst nichts zufriedenstellt. Das ist genau die Falle beim Bewerten nach "Aufgabe gelöst." Qwen löste die Aufgabe. Ein SWE-Bench-artiges System würde es grün markieren. Ein Mensch würde den Tab in zehn Sekunden schließen.
Claude Opus 4.8 war hier die Überraschung, und keine gute. Sein Voxel-Runner war der grundlegendste der drei — funktional, sauberer Code darunter, fast sicher, aber visuell und erfahrungsmäßig dünn. Für ein Modell, das die verifizierten Coding-Benchmarks anführt, war es der erste Riss in meinen Annahmen, als ich sah, wie es das am wenigsten ansprechende Spiel der drei produzierte.
Die sich bereits herauskristallisierende Lektion: Diese Modelle unterscheiden sich nicht in der Korrektheit. Sie unterscheiden sich im Geschmack. Und Geschmack ist das, was niemand benchmarkt.
Orbitkarte: Claudes Einziger Klarer Sieg, und Er Ist ein Echter
Ich möchte nicht, dass dies wie eine GLM-Krönung liest, denn die Orbitkarten-Aufgabe zeigte etwas wirklich Wichtiges über Claude Opus 4.8.
Der Prompt: Baue eine interaktive Karte des inneren Sonnensystems — die Sonne, Merkur bis Mars, Umlaufbahnen klar gerendert, idealerweise etwas, womit man interagieren kann. Dies ist die einzige Aufgabe, bei der Präzision und strukturiertes räumliches Denken mehr zählen als Atmosphäre, und Claude dominierte es. Seine Orbitkarte war die interaktivste und klarste mit großem Abstand: lesbare Umlaufbahnen, sinnvolle Skalierung, flüssige Interaktion, die Art von Output, bei der man sofort versteht, was man sieht.
GLM 5.2, der Gesamtsieger des Tests, lieferte hier schlechte visuelle Qualität — die einzige Aufgabe, die es deutlich verlor. Qwen landete in der Mitte: akzeptabel, aber schwach, nie über "in Ordnung" hinauskommend.
Das nehme ich daraus mit. Wenn eine Aufgabe grundlegend um Korrektheit und Klarheit geht — räumliche Genauigkeit, strukturiertes Layout, mathematische Beziehungen, die man nicht fälschen kann — zeigen sich Claude Opus 4.8s Stärken genau dort, wo sein Benchmark-Profil sagt, dass sie sein sollten. Dies ist das Modell, nach dem Sie greifen, wenn "sieht beeindruckend aus" weniger wichtig ist als "ist eindeutig korrekt." Sein 69,2% SWE-Bench Pro-Score ist keine Lüge; er misst nur ein schmaleres Stück Nützlichkeit, als das Marketing impliziert.
Diese Nuance ist der ehrliche Kern des gesamten Vergleichs: Kein Modell ist schlecht. Sie haben unterschiedliche Formen. Claude verlor die meisten kreativen Aufgaben nicht, weil es schwach ist, sondern weil kreative Interaktivität nicht dort lebt, wo sein Vorsprung ist. Merken Sie sich das, denn es ändert die Empfehlung am Ende.
Flüssigkeit-in-einer-Kugel und die Landingpage: GLMs Muster Hält
Zwei weitere Aufgaben, und dasselbe Thema wiederholte sich mit fast langweiliger Konsistenz.
Die Flüssigkeit-in-einer-Kugel-Simulation — Flüssigkeit, die in einer Kugel schwappt, idealerweise etwas, das man kippen und womit man interagieren kann — ging wieder an GLM 5.2. Seine Version hatte wirklich schöne Animation und echte Interaktivität; man konnte die Physik reagieren fühlen. Qwens war weniger ansprechend, die Bewegung steifer und weniger lebendig. Claudes war, in einem Wort, langweilig — die Physik war wahrscheinlich korrekt, aber korrekt ist nicht dasselbe wie fesselnd, und eine Flüssigkeitssimulation, an der niemand herumpoken möchte, hat bei ihrer eigentlichen Aufgabe versagt.
Die Landingpage erzählte dieselbe Geschichte aus einem anderen Blickwinkel. Ich bat um eine Marketing-Landingpage, und GLM 5.2 lieferte etwas Gut-Strukturiertes mit durchdachter Animation — ein Layout mit Hierarchie, Abschnitte, die flossen, Bewegung, die das Auge führte. Qwen gab mir etwas, das einer leeren Leinwand nahekam: technisch eine Seite, praktisch ein Ausgangspunkt, den man von Grund auf aufbauen müsste. Claudes war basic und uninspirierend, funktional aber flach.
Ich habe genug echte Landingpages gebaut — für Ramlits Kundenarbeit und meine eigenen Projekte — um den Unterschied zwischen "eine Seite existiert" und "eine Seite verkauft" zu kennen. GLM 5.2 war das einzige der drei, das zu verstehen schien, dass es einen Unterschied gibt.
Wenn Sie lieber jemanden hätten, der einen Multi-Modell-Coding-Workflow aufbaut, der jede Aufgabe an das Modell weiterleitet, das tatsächlich am besten darin ist — anstatt Ihren gesamten Stack auf einen Leaderboard-Gewinner zu setzen — dann ist das genau die Art von Integrationsarbeit, die ich übernehme. Sie können sehen, was ich geliefert habe auf fiverr.com/s/EgxYmWD.
Das Arcade-Spiel: Ein Verschwindender Ball Entscheidet Es
Die letzte Aufgabe war fast komisch aufklärend.
Ein klassisches Arcade-Spiel — denken Sie an Paddle-and-Ball, Brick-Breaker-Territorium. GLM 5.2 machte es hochgradig fesselnd und spaßig und erreichte seinen inzwischen vertrauten Rhythmus. Claude Opus 4.8 war spielbarer als Qwen und landete auf einem respektablen zweiten Platz. Und Qwen 3.7 Max? Qwens Ball verschwand mitten im Spiel. Das wichtigste Objekt in einem ballbasierten Arcade-Spiel verschwand im Nichts.
Lassen Sie das einen Moment neben Qwens Benchmark-Position sacken. Dies ist, auf dem Papier, der Agentic-Coding-Führer — starke SWE-Bench-Zahlen, gebaut für komplexe Mehrstufen-Aufgaben. Und in einem One-Shot-Arcade-Build verlor es den Ball. Kein subtiler Logik-Bug, der drei Funktionen tief vergraben ist. Der buchstäbliche Ball, weg.
Das ist die gesamte These dieses Artikels komprimiert in ein Sprite. Benchmark-Scores messen die Leistung eines Modells auf einem kuratierten Set von Problemen unter günstigen Bedingungen. Sie messen nicht, ob Ihr einzelner realer Prompt etwas produziert, das von Anfang bis Ende funktioniert. Die Kluft zwischen diesen beiden Dingen ist der Ort, an dem die meisten Modellauswahl-Fehler gemacht werden.
Warum Benchmarks Mich Angelogen Haben (und Wahrscheinlich Auch Sie)
Zeit, unter die Motorhaube der Diskrepanz zu schauen, denn zu verstehen, warum es passiert, macht Sie zu einem besseren Modellwähler als jedes Leaderboard.
Hersteller-Benchmarks werden von den Menschen durchgeführt, die vom Ergebnis profitieren. Das ist keine Betrugsanschuldigung — es ist einfach strukturell. Wenn Alibaba Qwen 3.7 Max's SWE-Bench Pro bei 60,6 meldet, haben sie das unter Bedingungen durchgeführt, die sie gewählt haben, auf einem Aufgabenset, das belohnt, wofür ihr Modell optimiert ist. Selbst vollständig ehrliche Zahlen spiegeln eine Konfiguration wider, die Sie an Ihrem Terminal nie reproduzieren werden. Und die nicht verifizierten Zahlen, die kursieren — wie jene 80,4%, die ich nicht bestätigen konnte — machen es schlimmer, weil sie als Tatsache in das Gespräch eingehen und wiederholt werden, bis jeder "weiß", dass Qwen führt.
Dann gibt es die Form dessen, was Benchmarks testen. SWE-Bench misst das Lösen realer GitHub-Issues — Bugs in bestehenden Codebasen patchen. Das ist genuinely wertvoll, und deshalb ist Claude Opus 4.8's 69,2% bedeutsam für Wartungsarbeit. Aber "patche diesen Django-Bug" und "baue mir einen spaßigen Voxel-Runner aus dem Nichts" sind komplett verschiedene Muskeln. Ein Modell kann beim Ersten elite sein und beim Zweiten mittelmäßig, und ein Benchmark, der um das Erste herum gebaut wurde, sagt Ihnen nichts über das Zweite.
Hier ist der Teil, den die meisten Menschen übersehen: Es gibt keinen Benchmark für Geschmack. Keine Leaderboard-Spalte für "ist diese Landingpage etwas, auf das ein Mensch stolz wäre, es auszuliefern," oder "macht dieses Spiel Spaß." Diese Qualitäten sind das tatsächliche Produkt, wenn Sie kreative oder Front-End-Arbeit machen — und sie sind genau dort, wo GLM 5.2 immer wieder gewann, obwohl es keine veröffentlichten 5.2-Zahlen hatte, auf die es zeigen konnte. Das, worin es am besten ist, ist das, was niemand scored.
Mein korrigiertes mentales Modell nach diesem Test: Behandeln Sie jeden Benchmark als Messung einer einzigen schmalen Fähigkeit unter idealen Laborbedingungen, und behandeln Sie Ihren eigenen One-Shot-Test als die einzige Zahl, die Ihre tatsächliche Erfahrung vorhersagt. Führen Sie drei Prompts, die Ihnen wirklich wichtig sind, durch jedes Modell, bevor Sie sich festlegen. Es dauert zwanzig Minuten und wird hundert Leaderboard-Tweets überstimmen.
Die Integrationsfrage: Hermes Agent und Was Wirklich Andockt
Es gibt eine Dimension dieses Vergleichs, die nichts mit Output-Qualität zu tun hat, und für einige von Ihnen wird sie mehr zählen als jedes Testergebnis.
Die Quelle für diesen Test betrieb GLM 5.2 und Qwen 3.7 Max innerhalb eines Agent-Betriebssystems, das sie Hermes Agent nannte — ein Dashboard zur Orchestrierung mehrerer Modelle, Verkettung von Aufgaben und Ausführung von Agent-Kollaboration. Ich möchte transparent sein: Ich konnte "Hermes Agent" nicht unabhängig als breit dokumentiertes Mainstream-Produkt verifizieren, daher präsentiere ich es als die Orchestrierungsschicht, die dieser spezifische Test verwendete, nicht als ein Werkzeug, das ich empfehle oder als Industriestandard behaupte. Die Kategorie — ein einheitliches Dashboard, das mehrere Modelle orchestriert — ist real und wachsend, unabhängig davon, wie das spezifische Produkt heißt.
Was relevant ist, ist der strukturelle Befund, denn er generalisiert auf jede Orchestrierungsplattform: GLM 5.2 und Qwen 3.7 Max integrierten sich direkt in dieses Agent-OS. Claude Opus 4.8 tat das in diesem Setup nicht. Wenn Ihr Workflow innerhalb einer Multi-Modell-Orchestrierungsschicht lebt, in der Modelle Aufgaben aneinander weitergeben, ist diese Integrationslücke entscheidend, unabhängig davon, wer ein Voxelspiel-Shootout gewinnt. Ein Modell, das nicht an Ihr Agent-Mesh angeschlossen werden kann, ist für diese Aufgabe kein Kandidat, Punkt.
Und innerhalb von Agent-Workflows speziell verschieben sich die Rankings erneut. Für forschungsartige Agent-Aufgaben — sammeln, synthetisieren, berichten — produzierte Qwen 3.7 Max gründlichere, nützlichere Ergebnisse als GLM 5.2, dessen Agent-Task-Antworten kürzer und weniger effektiv ausfielen. Qwen reagierte auch tendenziell schneller bei praktischen Agent-Anfragen. Also führt das Modell, das jede kreative One-Shot verlor, still beim agentischen Forschungsdurchsatz und der Geschwindigkeit. GLM 5.2 war dagegen als direktes Coding-Modell in einer CLI am stärksten, wo seine kreative und Software-Qualität glänzte, aber seine integrierten Agent-Antworten manchmal langsamer liefen.
Ich habe zuvor darüber geschrieben, das agentische OS als drei separate Schichten zu behandeln, und dieser Test bestärkt das: Das Modell, das am besten im Generieren eines Dings ist, und das Modell, das am besten im Orchestrieren eines Workflows ist, können zwei verschiedene Modelle sein. Um diese Realität herum zu bauen ist mächtiger als einen einzelnen Gewinner zu krönen.
Ergebnisse: Was Dies Tatsächlich für Ihre Arbeit Vorhersagt
Lassen Sie mich fünf Game-Dev-Tests in Entscheidungen übersetzen, denen Sie wirklich begegnen werden.
Für direktes kreatives und Front-End-Coding — Landingpages, Spiele, Simulationen, alles, wo die Qualität und der Spaß des Outputs das Produkt sind — war GLM 5.2 der klare Spitzenreiter in meinem One-Shot-Test, und die MIT-lizenzierten offenen Gewichte bedeuten, dass Sie es ohne Per-Token-Rechnung im großen Maßstab selbst hosten können. Diese Kombination ist schwer zu schlagen für bauintensive kreative Arbeit.
Für Präzisions- und Klarheitsaufgaben — Datenvisualisierung, strukturierte Layouts, alles, wo eindeutig korrekt zu sein über auffällig zu sein gewinnt — verdiente Claude Opus 4.8 seinen Sieg bei der Orbitkarte ehrlich, und sein 69,2% verifizierter SWE-Bench Pro-Score untermauert das für Bug-Fixing und Wartung. Dies ist das Modell für "mach es richtig," nicht "mach es blendend."
Für Agent-Orchestrierung und Forschungsdurchsatz — Mehrstufen-Tool-Calling, Sammel-und-Synthese-Aufgaben, alles innerhalb eines Multi-Modell-Dashboards, wo Geschwindigkeit und Gründlichkeit zählen — machte Qwen 3.7 Max seine Null-aus-Fünf-Kreativwertung wett. Schnellere Agent-Antworten und gründlicherer Forschungs-Output sind eine echte, nützliche Stärke, nur nicht die, die die Leaderboards mich erwarten ließen.
Beachten Sie, was gerade passiert ist: Jedes Modell gewann eine andere Kategorie, und keine dieser Kategorien ist "höchster Benchmark-Score." Das ist der praktische Gewinn. Die richtige Antwort auf "welches Modell ist das beste" ist eine Gegenfrage — das beste wofür, innerhalb welchen Workflows?
Das Setup, das ich tatsächlich betreiben würde, und die Empfehlung der Quelle, der ich vollständig zustimme: ein einheitliches Dashboard mit allen dreien (oder Ihren äquivalenten Picks), das jede Aufgabe an das Modell weiterleitet, das wirklich am stärksten darin ist. GLM 5.2 für den Build, Claude Opus 4.8 für die Präzisionsteile, Qwen 3.7 Max für die Agent-Arbeit. Ein Stack, drei Spezialisten. Ich habe ein Team von KI-Video-Agenten End-to-End auf GLM 5.2 innerhalb einer Orchestrierungsschicht laufen sehen und autonom fertige Inhalte produzieren sehen — das Multi-Modell-Dashboard ist nicht theoretisch, es ist die Art, wie ernsthafte Agent-Arbeit bereits erledigt wird.
Häufig Gestellte Fragen
Ist GLM 5.2 besser als Claude Opus 4.8 zum Programmieren?
Für kreatives und Front-End-Coding gewann GLM 5.2 vier meiner fünf One-Shot-Tests, einschließlich Spiele und Landingpages. Für Präzision und Bug-Fixing machen Claude Opus 4.8's verifizierter 69,2% SWE-Bench Pro-Score und sein Orbitkarten-Sieg es zur stärkeren Wahl. Sie sind in verschiedenen Aufgaben am besten — siehe die Aufgabe-für-Aufgabe-Analyse oben.
Führt Qwen 3.7 Max wirklich die Benchmarks an?
Qwen 3.7 Max führt mehrere veröffentlichte agentische Tabellen an, aber sein verifiziertes SWE-Bench Pro-Ergebnis beträgt etwa 60,6 — tatsächlich unter Claude Opus 4.8's 69,2%. Ein weit verbreitetes Ergebnis von 80,4% konnte nicht anhand von Alibabas eigenen Tabellen verifiziert werden, also behandeln Sie es als unbestätigte Behauptung, nicht als Tatsache.
Warum verlor das benchmark-führende Modell den Praxistest?
Benchmarks messen schmale Fähigkeiten unter günstigen Laborbedingungen mit mehreren Versuchen; mein Test war ein Versuch pro Aufgabe, teilweise bewertet danach, ob der Output wirklich gut und nutzbar war. Es gibt keine Benchmark-Spalte für "Spaß" oder "gut gestaltet," was genau dort ist, wo GLM 5.2 immer wieder gewann.
Kann Claude Opus 4.8 in ein Multi-Modell-Agent-Dashboard integriert werden?
Im für diesen Test verwendeten Orchestrierungs-Setup integrierten sich GLM 5.2 und Qwen 3.7 Max direkt, während Claude Opus 4.8 dies nicht tat. Wenn Ihr Workflow von einer Multi-Modell-Agent-Schicht abhängt, überprüfen Sie die Integrationsunterstützung, bevor Sie sich festlegen, da dies die reine Output-Qualität für diese Aufgabe überstimmen kann.
Was ist der beste Weg, ein KI-Coding-Modell im Jahr 2026 zu wählen?
Führen Sie drei Prompts, die Ihnen wirklich wichtig sind, durch jeden Kandidaten, jeweils ein Versuch, und bewerten Sie, ob der Output funktioniert und ob Sie ihn tatsächlich ausliefern würden. Zwanzig Minuten Praxis-Tests sagen Ihre tatsächliche Erfahrung besser voraus als jedes Leaderboard. Für tieferen Kontext siehe meine wöchentliche KI-Zusammenfassung über dieselben Modelle.
Der Verschwindende Ball, Noch Einmal
Ich komme immer wieder auf Qwens verschwindenden Ball zurück, weil es der ehrlichste Moment des gesamten Tests ist.
Hier war ein Modell, das nach den Zahlen die sichere Wahl hätte sein sollen — der Agentic-Coding-Führer, stark auf dem Papier, gebaut für genau diese Art von Arbeit. Und in einem einzigen realen Prompt, ohne Wiederholung zur Rettung, verlor es das einzige Objekt, um das das gesamte Spiel gebaut war. Kein Benchmark hätte mir das jemals gesagt. Nur das Ausführen tat es.
Also hier ist das eine, was in den nächsten vierundzwanzig Stunden zu tun ist, welchem Modell Sie auch zuneigen: Nehmen Sie nicht meine Scorecard, und nehmen Sie nicht ein Leaderboard. Nehmen Sie drei Prompts, die Ihre tatsächliche Arbeit repräsentieren, schicken Sie jede genau einmal durch Ihre Top-Zwei-Kandidaten, und bewerten Sie sie als Benutzer statt als Benchmark. Das Modell, das diesen Test übersteht, ist Ihr Modell. Alles andere ist das Marketing anderer Leute — einschließlich, wenn Sie den Test auslassen, dieses Artikels.
Lassen Sie Uns Zusammenarbeiten
Sie möchten KI-Systeme aufbauen, Workflows automatisieren oder Ihre Tech-Infrastruktur skalieren? Ich helfe gerne.
- Fiverr (individuelle Builds & Integrationen): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (Enterprise-Lösungen): ramlit.com
- ColorPark (Design & Branding): colorpark.io
- xCyberSecurity (Sicherheitsdienste): xcybersecurity.io