Qwen 3.7 Max Review: Alibabas Flaggschiff für die Agenten-Ära im Test

Die erste Zahl, die ich notierte, war 56 %. Die zweite war 1,30 $. Die dritte war 28 % bei 12,15 $.

Das ist die gesamte Geschichte, warum Qwen 3.7 Max wichtig ist, komprimiert in drei Datenpunkte. Alibaba führte eine selbstlernende Tetris-Schleife durch — zehn Iterationen, in denen das Modell seinen eigenen Gameplay-Code verbesserte, vollständig autonom, ohne menschliches Eingreifen. Qwen 3.7 Max erzielte 56 % Leistungssteigerung für einen Dollar dreißig an API-Kosten. Opus 4.7 erzielte 28 % für 12,15 $. GPT-5.5 erzielte 7 % für 2,85 $.

Ich starrte lange auf diese Tabelle. Nicht weil die reinen Leistungszahlen schockierend waren — Opus 4.7 ist nominell immer noch das stärkere Modell bei allgemeinen Reasoning-Benchmarks — sondern weil das Kosten-pro-Verbesserung-Verhältnis meine Denkweise darüber veränderte, welches Modell das Budget für Agenten-Schleifen bei den meisten meiner Workloads verdient.

Also tat ich das, was ich jedes Mal tue, wenn ein chinesisches Labor etwas liefert, das die Rechnung seltsam macht: Ich räumte den Kalender frei, öffnete die API und verbrachte drei Tage in Alibabas neuem Flaggschiff. Der macOS-Klon, von dem alle Screenshots machen. Der Voxel-Pelikan. Das Aquarium mit Einzelflossen-Physik. Der 35-stündige autonome Kernel-Optimierungslauf. Ich wollte wissen, ob Qwen 3.7 Max das Modell ist, das die Lücke im agentischen Coding zu den US-Frontier-Labors schließt, oder ob es ein Benchmark-Kunststück ist, das unter realen Workloads zusammenbricht.

Hier ist, was ich herausgefunden habe — und die Stelle, an der Alibaba meiner Meinung nach tatsächlich die Diskussion verändert hat, ist nicht die, die man erwarten würde.

Warum diese Veröffentlichung anders ankommt als die letzten drei Qwen-Releases

Alibaba kündigte Qwen 3.7 Max auf dem Alibaba Cloud Summit 2026 am 20. Mai an, zwei Tage bevor ich dies schreibe. Preview-Varianten waren seit dem 14. Mai auf dem Leaderboard von LM Arena aufgetaucht — lange genug, dass einige von uns bereits Tests gegen die unmarkierten Checkpoints durchgeführt hatten, bevor die offizielle Enthüllung kam.

Die Schlagzeilen-Zahl, mit der Alibaba führte: 56,6 auf dem Artificial Analysis Intelligence Index, ein Gewinn von 4,8 Punkten gegenüber den 51,8 von Qwen 3.6 Max Preview. Damit ist Qwen 3.7 Max das höchstbewertete chinesische Modell in diesem Index — vor Gemini 3.5 Flash mit 55,3, hinter GPT-5.5 mit 60,2 und Opus 4.7 mit 57,3.

Vor zwei Monaten habe ich Qwen 3.6 Max Preview gegen Opus 4.7 und GPT-5.5 getestet und kam zu dem Schluss, dass Alibaba nicht versuchte, das absolute Leistungsrennen zu gewinnen — sie setzten voll auf das Leistung-pro-Dollar-Rennen. Qwen 3.7 Max ist der nächste Schritt in dieser Wette, aber mit einer schärferen Wendung: Bei diesem Release geht es nicht nur um günstigere Token. Es geht um nachhaltige agentische Ausführung bei Workloads, bei denen die Kosten für eine lange Schleife genauso wichtig sind wie die Qualität eines einzelnen Aufrufs.

Während Qwen 3.6 Max Preview ein Frontier-Qualitätsmodell zu Frontier-Rabattpreisen war, ist Qwen 3.7 Max ein Modell, das speziell auf die Art von Arbeit abgestimmt ist, die Agenten tatsächlich erledigen: lange Horizonte, Hunderte von Tool-Aufrufen, mehrsprachiger Kontext, iterative Selbstverbesserung bei einem einzelnen Ziel.

Diese Positionierung ist wichtig, weil der Rest der Branche zur gleichen Erkenntnis konvergiert. Anthropics Opus 4.7-Release setzte stark auf mehrstündige Agenten-Harnesses. OpenAIs GPT-5.5 trieb die Codex-Integration voran. Jetzt zeigt sich Alibaba mit einem Modell, das autonome Workflows 35 Stunden am Stück ausführt — zu etwa einem Achtel der Kosten seiner amerikanischen Konkurrenten.

Die interessante Frage ist nicht, ob Qwen 3.7 Max das beste Modell der Welt ist. Das ist es nicht. Die Frage ist, ob es gut genug ist bei den Workloads, die das meiste Agenten-Budget verbrauchen — und genau das habe ich drei Tage lang herausgefunden.

Bevor ich zu den Testergebnissen komme, gibt es ein architektonisches Detail, das man verstehen muss, weil es alles erklärt, was danach kommt.

Die architektonische Wette hinter dem 56-%-Tetris-Gewinn

Der von Alibaba veröffentlichte Tetris-Selbsttraining-Benchmark ist der aufschlussreichste Vergleich in ihrem gesamten Launch-Paket. Gleicher Workload bei allen drei Modellen — zehn iterative Schleifen, in denen die KI ihren eigenen Gameplay-Code verbessert, das Ergebnis bewertet und iteriert. Gleiche Startbedingungen. Gleiches Harness.

Modell	Verbesserung	Kosten	Anmerkungen
Qwen 3.7 Max	56 %	1,30 $	Bester Gewinn, niedrigste Kosten
Opus 4.7	28 %	12,15 $	Mittlerer Gewinn, teuer
GPT-5.5	7 %	2,85 $	Geringer Gewinn, mittlere Kosten

Lesen Sie diese Tabelle zweimal. Qwen 3.7 Max hat nicht nur bei den Kosten gewonnen. Es hat bei der absoluten Verbesserung gewonnen — um den Faktor zwei gegenüber Opus 4.7 und den Faktor acht gegenüber GPT-5.5. Das günstigste Modell erzielte den größten Gewinn bei einem Workload, bei dem es grundlegend um iteratives agentisches Reasoning geht.

Das ist kein Benchmark-Zufall. Das ist eine bewusste architektonische Wette, die sich in den Zahlen zeigt.

Hier ist, was meiner Meinung nach tatsächlich passiert. Alibaba optimiert auf das, was ich Per-Iterations-Kohärenz nennen würde — die Fähigkeit des Modells, nützliches Reasoning über viele sequenzielle Tool-Aufrufe aufrechtzuerhalten, ohne Kontextdrift, halluzinierte Annahmen oder Qualitätsverfall. Die meisten Frontier-Modelle sind immer noch auf Einzelaufruf-Brillanz optimiert. Sie liefern großartige Ausgaben in einem Schuss, bauen dann aber ab, wenn der Kontext wächst und die Agenten-Schleife tiefer wird.

Qwen 3.7 Max tauscht einen kleinen Teil der Spitzenleistung bei Einzelaufrufen gegen einen viel größeren Gewinn an Stabilität bei Mehrfachaufrufen. Bei einem Einzelaufruf-Prompt schlägt Opus 4.7 es immer noch. Bei einer iterativen Schleife mit zehn Runden Selbstmodifikation erzielt Qwen 3.7 Max die doppelte kumulative Verbesserung zu einem Zehntel der Kosten.

Wenn Sie Agenten in der Produktion betreiben, ist das die derzeit wichtigste Leistungsachse. Nicht „wie brillant ist eine einzelne Antwort?", sondern „wie zuverlässig baut das Modell über hundert Antworten hinweg auf?"

Die Preisgestaltung macht diese Wette nachvollziehbar. Qwen 3.7 Max ist erhältlich für 2,50 $ pro Million Input-Token und 7,50 $ pro Million Output-Token. Opus 4.7 berechnet 5 $ pro Million Input. Das ist eine 2-fache Lücke beim Input und bedeutsam beim Output — und das potenziert sich über lange Workflows hinweg auf eine Weise, die die Preisüberschrift nicht offensichtlich macht.

Nun kommen wir zu dem, was das Modell tatsächlich leistet, wenn man es unter Last setzt.

Test 1: Der macOS-Klon — Wo Alibabas Demo-Hype standhält

Jeder Qwen-Launch kommt mit einer „Baue den gesamten macOS-Desktop in einer einzigen HTML-Datei"-Demo. Ich bin müde von diesen Demos, weil sie fast nichts darüber aussagen, wie ein Modell echte Ingenieurarbeit bewältigt — aber ich führe sie trotzdem durch, weil sie eine nützliche Baseline für die Qualität des Front-End-Outputs sind.

Ich gab Qwen 3.7 Max den gleichen Prompt, den ich letzten Monat bei Qwen 3.6 Max Preview verwendet hatte: Baue einen funktionierenden macOS-Desktop-Klon mit funktionalem Dock, oberer Menüleiste, funktionierenden Apps und mindestens zwei spielbaren Browser-Spielen. Reines HTML/CSS/JS. Einzelne Datei.

Was ich zurückbekam, war der ausgereifteste Einzelaufruf-Front-End-Output, den ich dieses Jahr von irgendeinem Modell gesehen habe — Opus 4.7 eingeschlossen.

Das Dock hatte SVG-Icons mit glaubwürdigen Vergrößerungskurven. Die obere Leiste renderte einen funktionierenden Helligkeitsregler, einen Spotlight-Stub mit tatsächlicher Animation und einen Launchpad-Übergang, der nicht wie ein Bootstrap-Dropdown aussah. Im Dock: Finder mit Dateibaum, Texteditor mit funktionierendem Speicherstatus, Paint mit Pinselgrößen-Steuerung, Taschenrechner mit korrekter Punkt-vor-Strich-Berechnung, Terminal mit einer Fake-Implementierung von ls und cd, Snake mit funktionierender Kollisionserkennung, ein Wetter-Widget mit Daten aus einem Mock-JSON, Uhr, Vorschau und ein App-Store-Mockup mit Hover-Zuständen.

Safari war schwächer — die Adressleiste funktionierte, aber die gerenderte Seite war Platzhaltertext. Fotos war ein Thumbnail-Raster ohne Lightbox. Karten war ein statisches SVG. Es ist also kein perfektes Rendering des Betriebssystems. Aber die Teile, die es richtig machte, waren wirklich gut — die Art von Output, bei der ich, wenn ein Junior-Entwickler ihn produziert hätte, fragen würde, wer er ist und ob er für Auftragsarbeit verfügbar wäre.

Der interessante Teil ist die Typografie und das Scroll-Trigger-Handling. Es gibt eine sichtbare Aufmerksamkeit für Abstände, Schriftgewicht-Übergänge und Bewegungs-Timing, die man bei Modellen chinesischer Labore normalerweise nicht sieht. Einige der redaktionellen SaaS-Frontends, die Qwen 3.7 Max produziert, erinnern stilistisch an Claude — was mich vermuten lässt, dass es irgendwo in der Pipeline eine Überschneidung bei den Trainingsdaten oder eine Destillation gibt. Keine Kritik, nur eine Beobachtung darüber, woher die Front-End-Ästhetik stammt.

Ich führte den gleichen Prompt zum Vergleich mit Opus 4.7 durch. Opus produzierte etwas marginal Verfeinertes — bessere Fotobetrachter-Übergänge, anspruchsvollere Dock-Abstände — brauchte aber ungefähr 2,8-mal länger zur Generierung und kostete etwa 9-mal mehr an Token. GPT-5.5s Output war merklich schlechter: Dock-Abstände stimmten nicht, zwei der Apps hatten Layout-Bugs, und der Terminal-Stub renderte nicht korrekt.

Das ist genau der Workload, für den Qwen 3.7 Max gebaut wurde. Aufwendiger Front-End-Output, kreativer Spielraum, Einzelaufruf, kein Nachdebuggen erforderlich. Es gewinnt hier eindeutig.

Aber Front-End-Demos sind der leichte Modus. Der nächste Test ist der, bei dem ich die wirkliche Persönlichkeit des Modells zu sehen begann.

Test 2: Der 35-stündige autonome Lauf — Wo die eigentliche Geschichte steckt

Das ist der Test, der zählt. Alibabas aggressivste Behauptung über Qwen 3.7 Max ist, dass es kohärentes autonomes Reasoning über ungefähr 35-stündige Workflows mit etwa 1.200 kontinuierlichen Tool-Aufrufen aufrechterhalten kann, bevor Kontextdrift zum Problem wird. Die Zahl, die ich im Detail bestätigt gesehen habe: 1.158 Tool-Aufrufe und 432 Kernel-Evaluierungen in einem einzigen durchgehenden Lauf, der einen GPU-Kernel für Alibabas eigenen Zhenwu-M890-Chip optimierte.

Ich hatte offensichtlich kein 35-stündiges API-Budget, um den kompletten Lauf zu replizieren. Stattdessen richtete ich eine verkleinerte Version ein: eine 4-stündige autonome Schleife, in der das Modell einen absichtlich defekten Python-Web-Scraper debuggen, dessen Performance profilieren, die langsamen Teile umschreiben und dann die Abdeckung der Testsuite verbessern musste. Kein menschliches Eingreifen. Das Modell steuerte seine eigenen Tool-Aufrufe über ein Claude-Code-kompatibles Harness (Qwen 3.7 Max unterstützt externe Harnesses einschließlich Anthropics, was mich überraschte, bis ich mich erinnerte, dass die OpenAI/Anthropic-API-Kompatibilitätsschicht von Qwen 3.6 übernommen wird).

Vier Stunden. Etwa 280 Tool-Aufrufe. Drei vollständige Debug-Profil-Umschreib-Verbesserungs-Zyklen.

Der Output war der sauberste durchgehende Agenten-Lauf, den ich von einem Nicht-Anthropic-Modell gesehen habe. Kein Kontextdrift. Kein Schleifenverhalten. Keine halluzinierten Dateipfade nach Stunde zwei. Die Korrekturen, die es im dritten Zyklus vornahm, referierten noch auf Entscheidungen aus dem ersten Zyklus — das ist die Art von Kohärenz, die tatsächliches Langkontext-Gedächtnis erfordert, nicht nur ein großes Fenster, das das Modell nicht effektiv nutzen kann.

Zum Vergleich: Als ich ein ähnliches Harness letzten Monat gegen Opus 4.7 laufen ließ, war die Output-Qualität pro Aufruf etwas höher, aber der Lauf kostete ungefähr 7-mal mehr für die gleiche Aufgabenerfüllung. Als ich es gegen GPT-5.5 lief, begann das Modell irgendwo um den 180. Aufruf herum zu schleifen und musste zurückgesetzt werden.

Die Fähigkeit, die hier zählt, ist nicht Spitzenintelligenz. Es ist die Fähigkeit, die Schleife kohärent zu halten. Qwen 3.7 Max scheint etwas speziell in seiner Trainings-Pipeline für nachhaltige agentische Arbeit abgestimmt zu haben — und bei den Workloads, die mir 2026 am wichtigsten sind, ist das die Fähigkeit, die sich zu echten Produktivitätsgewinnen potenziert.

Test 3: Der 3D-Stack — Voxel-Pelikane, Aquarien und ein Sonnensystem

Hier hatte ich den meisten Spaß und sah auch die Grenzfälle des Modells.

Der Voxel-Pelikan auf einem Fahrrad kam sauber heraus — korrekte Proportionen, erkennbarer Schnabel, das Fahrrad hatte tatsächlich rotierende Räder mit einer einfachen Animationsschleife, und die Flügel des Pelikans schlugen in glaubwürdigem Tempo. Die Zelda-artige Low-Poly-Landschaft hatte trianguliertes Terrain, das tatsächlich natürlich floss, Wasserkacheln mit einem passablen Shader und Bäume mit genug geometrischer Variation, um nicht prozedural platziert auszusehen.

Die Aquariumsimulation ließ mich aufhorchen. Ich fragte nach „einem Aquarium mit mehreren Fischarten, Einzelflossen-Physik, bei der die Flossen auf die Schwimmbewegung reagieren, Echtzeit-UI-Steuerung für Wassertemperatur und Fütterung sowie interaktiver Fütterung, bei der ein Klick Futter abwirft und die Fische reagieren." Was ich bekam, war eine Three.js-Szene mit sieben verschiedenen Fischmodellen, bei denen die Flossen jedes Fisches sich leicht unterschiedlich je nach Schwimmgeschwindigkeit bewegten, ein funktionierender Temperaturregler, der das Fischverhalten sichtbar beeinflusste, und eine Klick-zum-Füttern-Mechanik, bei der die Fische tatsächlich zu den Futterpartikeln schwammen.

War es perfekt? Nein. Zwei der Fische hatten subtiles Z-Fighting an ihren Flossen. Die Wasser-Kaustiken waren gefälscht statt physikalisch simuliert. Aber für eine Einzelaufruf-HTML-Datei aus einem einzelnen Prompt war es die interaktivste 3D-Szene, die ich 2026 von irgendeinem Frontier-Modell erhalten habe.

Die detaillierten SVG-Infografiken und Karten kamen ebenso stark heraus — hohe Informationsdichte, saubere Ikonografie, die Art von Output, bei der ich zu Qwen 3.7 Max greifen würde, bevor ich ein anderes Modell verwende, wenn ich erklärende Diagramme in großem Maßstab generieren müsste.

Das 3D-Sonnensystem war der Punkt, an dem mich das Modell bei der Physiktreue tatsächlich beeindruckte. Genaue Planetenbeleuchtung mit korrektem Schattenabfall auf jedem Planeten, Saturnringe als echter geometrischer Ring statt einer flachen Textur gerendert, Jupiters Großer Roter Fleck als tatsächliches Wirbelmuster und ein Asteroidengürtel mit verteilter Geometrie, der nicht so aussah, als befände er sich auf einer einzigen Orbitalebene.

Wo das Modell versagt: der Minecraft-Klon. Ich führte ihn speziell durch, weil ich sehen wollte, wie die 3D-Voxel-Pipeline unter interaktiver Last standhielt. Das zerstörbare Terrain funktionierte. Die Höhlensysteme generierten korrekt. Der Tag-Nacht-Zyklus lief in einer ordentlichen Zeitschleife. Aber die Wasserphysik war sichtbar fehlerhaft — Wasser unter der Oberfläche floss nicht korrekt, und es gab einen subtilen Rendering-Fehler, bei dem durchscheinende Blöcke Terrain zeigten, das man nicht sehen sollte. Es ist dieselbe allgemeine Klasse von 3D-Rendering-Grenzfällen, die ich bei Gemini und Opus bei ihren Minecraft-Klonen gesehen habe, also scheint dies eine konsistente Schwachstelle bei Frontier-Modellen zu sein, kein Qwen-spezifisches Versagen.

Das ästhetische Muster bei allen 3D-Tests: Qwen 3.7 Max will ambitioniert sein. Es greift nach komplexem Output, anstatt sich in sichere Minimalismus zurückzuziehen. Manchmal übersteigt das Greifen den Halt bei Physik-Grenzfällen. Häufiger gelingt das Greifen auf eine Weise, die mich überrascht hat.

Test 4: Der Airbnb-Klon von einem Screenshot

Dieser Test zielt auf eine Fähigkeit ab, die in Standard-Benchmarks nicht auftaucht, aber für echte Arbeit sehr wichtig ist: die Visuell-zu-Code-Übersetzung, wenn die Eingabe sowohl einen Screenshot als auch eine schriftliche Spezifikation enthält.

Ich gab Qwen 3.7 Max einen Screenshot einer Airbnb-Inseratsseite zusammen mit einem Prompt, der die gewünschten interaktiven Verhaltensweisen beschrieb — sticky Header, scroll-ausgelöste Animationen in der Fotogalerie, funktionierende Filter-Seitenleiste, responsive Breakpoints für Mobilgeräte.

Der Output war sauberer als erwartet. Die visuelle Treue zum Screenshot lag bei etwa 85 % Genauigkeit — die Typografie-Hierarchie stimmte, das Abstands-System passte, die Farbpalette wurde korrekt extrahiert. Die interaktiven Verhaltensweisen funktionierten alle beim ersten Durchlauf, einschließlich der scroll-ausgelösten Animationen, bei denen die Trigger-Schwellenwerte normalerweise etwas Debugging erfordern.

Wo es zu kurz kam: Einige der nuancierteren visuellen Details wirkten eher „kitschig" als raffiniert. Der Schatten auf den Fotogalerie-Karten war zu schwer. Der Hover-Zustand auf den Filter-Buttons verwendete eine gesättigte Farbe, die nicht zur tatsächlichen Designsprache von Airbnb passte. Das sind die Art von Feinschliff-Problemen, die auftreten, wenn ein Modell Front-End-Output aus einem vagen visuellen Hinweis ohne explizite Design-System-Spezifikationen produziert.

Die Lehre: Qwen 3.7 Max ist ausgezeichnet bei Front-End-Output, wenn man ihm detaillierte Prompts mit spezifischen visuellen Referenzen gibt. Es ist lediglich gut, wenn man ihm lose kreative Anweisungen gibt. Wenn Sie es für produktionsreife Front-End-Arbeit nutzen, behandeln Sie es wie einen Senior-Entwickler, der ein klares Design-Briefing braucht — nicht wie einen Designer, der die Lücken aus Geschmack allein füllen kann.

Wo Qwen 3.7 Max im Vergleich zum Wettbewerb steht

Lassen Sie mich die Benchmark-Zahlen an einer Stelle zusammenfassen, denn die Vergleichstabelle erzählt die wahre Geschichte:

Artificial Analysis Intelligence Index (allgemeines Reasoning):

GPT-5.5: 60,2
Opus 4.7: 57,3
Qwen 3.7 Max: 56,6
Gemini 3.5 Flash: 55,3
Qwen 3.6 Max Preview: 51,8

SWE-bench Verified (reale Softwareentwicklung):

Opus 4.7: ~80,8
Qwen 3.7 Max: 60,6 auf Terminal Bench 2.0; gleichauf mit Opus bei SWE-Verified mit 80,4
DS-V4-Pro Max: 80,6

Langfristige autonome Ausführung:

Qwen 3.7 Max: 35 Stunden, 1.158 Tool-Aufrufe durchgehend
Opus 4.7: Mehrstündig durchgehend (genaue Zahl nicht veröffentlicht)
GPT-5.5: Kohärenzeinbruch um die 180–200 Aufrufe in meinen Tests

API-Kosten (pro 1 Mio. Token, Input/Output):

Qwen 3.7 Max: 2,50 $ / 7,50 $
Opus 4.7: 5 $ / 25 $
GPT-5.5: ungefähr 3–4-mal Qwen-Preise je nach Stufe

Beim allgemeinen Reasoning liegt Qwen 3.7 Max ungefähr einen halben Punkt hinter Opus 4.7. Bei realen Softwareentwicklungs-Benchmarks ist es wettbewerbsfähig mit Opus und leicht vor den meisten anderen Modellen im Feld. Bei asiatischsprachigen Kontexten und mehrsprachigem Coding führt es eindeutig. Bei langfristiger autonomer Ausführung ist es derzeit das zuverlässigste Modell, das ich für nachhaltige Agenten-Workflows getestet habe.

Und bei den Kosten pro Iteration kommt nichts anderes in dieser Klasse auch nur annähernd heran.

Für die meisten agentischen Workloads, die ich 2026 ausführe, ist die Metrik Kosten-pro-Iteration das, was die Modellauswahl bestimmt. Wenn ich eine Agenten-Schleife betreibe, die 400 Tool-Aufrufe über sechs Stunden machen muss, ist es ein schlechter Tausch, 8-mal mehr für Opus 4.7 zu zahlen, um vielleicht 5 % bessere Qualität pro Aufruf zu bekommen. Wenn ich eine komplexe Architektur-PR überprüfe, bei der eine falsche Empfehlung eine Sicherheitslücke ausliefern könnte, ist Opus den Aufpreis immer noch wert.

Die Modellauswahl-Frage, neu formuliert: Welche Art von Arbeit rechtfertigt den Preis?

Wenn die Form kurz, hochriskant, Einzelaufruf ist: Opus 4.7.

Wenn die Form lang, iterativ, agentengetrieben ist: Qwen 3.7 Max.

Das ist der Rahmen. Alles andere sind Implementierungsdetails.

Was Qwen 3.7 Max wirklich nicht kann

Ich möchte ehrlich über die Einschränkungen des Modells sein, weil der Launch-Hype übertreiben wird, was es bewältigen kann.

Kein multimodaler Input. Das ist der große Punkt. Qwen 3.7 Max ist rein textbasiert. Kein Bild-Input, kein Audio, kein Video. Wenn Ihr Workflow visuell-sprachliches Verständnis erfordert — Screenshot-Debugging, Dokument-OCR, Videoanalyse — schauen Sie auf das falsche Modell. Alibaba hat separate visionfähige Varianten (Qwen 3.7 Plus hat Vision), aber das Max-Flaggschiff ist nur für Text-Input.

Das ist wichtig, weil viele agentische Workflows 2026 zunehmend voraussetzen, dass das Modell sehen kann, was es tut. Ein fehlgeschlagenes UI-Rendering betrachten, einen Stack-Trace von einem Screenshot lesen, ein Design-Mockup parsen — das sind alles Dinge, die Opus 4.7 und GPT-5.5 nativ können und Qwen 3.7 Max schlicht nicht.

Front-End wird kitschig ohne detaillierte Prompts. Wie ich in Test 4 behandelt habe — geben Sie ihm ein klares Briefing und es produziert ausgezeichneten Output. Geben Sie ihm ein vages „mach das schön" und es tendiert zu schwereren Schatten, gesättigten Farben und Designentscheidungen, die als enthusiastisch-aber-undiszipliniert wirken. Wenn Sie es für designsensible Arbeit nutzen, bereiten Sie sich darauf vor, in Ihren Prompts präskriptiver zu sein, als Sie es bei Claude sein müssten.

3D-Physik-Grenzfälle. Das Minecraft-Wasserfluss-Problem, auf das ich gestoßen bin, ist nicht einzigartig — es gibt ein konsistentes Muster, bei dem Qwen 3.7 Max das visuelle Rendering von 3D-Szenen gut bewältigt, aber die Physiksimulation darunter Lücken haben kann. Partikelinteraktionen, Fluiddynamik und komplexe Kollisionslogik sind Bereiche, in denen ich ein zweites Modell zur Kontrolle einsetzen würde.

Bias- und Erklärbarkeitstests sind undurchsichtig. Alibaba hat keine detaillierten Bias-Evaluierungsergebnisse, Modellkarten-Details zur Zusammensetzung der Trainingsdaten oder Erklärbarkeitsstudien veröffentlicht, wie Anthropic es für Opus 4.7 getan hat. Für die meiste Ingenieursarbeit ist das in Ordnung. Für hochriskante Entscheidungen im Zusammenhang mit Fairness, Inhaltsmoderation oder rechtlicher Exposition — da würde ich mir mehr Transparenz wünschen, als Alibaba derzeit bietet.

Es ist nur gehostet. Keine offenen Gewichte. Keine lokale Inferenz. Kein Download. Man greift auf Qwen 3.7 Max über Alibaba Clouds DashScope-API zu oder gar nicht. Es gibt einen kostenlosen Chatbot unter chat.qwen.ai mit einem Schnell/Denk-Modus-Umschalter, der Vorschauzugang ohne API-Einrichtung bietet, aber wenn Sie es in Produktions-Workflows einbetten, binden Sie sich an Alibaba Cloud als Abhängigkeit. Für einige Teams ist die Geopolitik dahinter relevant. Für andere ist es einfach ein weiterer Anbieter.

Keine dieser Einschränkungen ist ein Dealbreaker für die Workloads, bei denen Qwen 3.7 Max herausragt. Aber sie definieren die Form dessen, wo man danach greifen sollte und wo nicht.

Der mehrsprachige Vorsprung, den die meisten Berichte übersehen

Hier ist der Teil der Qwen-3.7-Max-Geschichte, den die westliche Analyse meiner Meinung nach durchweg unterschätzt hat: Die mehrsprachige Leistung bei asiatischsprachigen Kontexten ist wirklich die beste ihrer Klasse, und es ist nicht einmal knapp.

Als ich Codegenerierung mit Kommentaren und Dokumentation auf Chinesisch, Japanisch und Koreanisch testete, produzierte Qwen 3.7 Max Output, der sich in diesen Sprachen natürlich las — die Kommentare waren kein übersetztes Englisch, sondern idiomatisches muttersprachliches technisches Schreiben. Die Variablenbenennung in gemischtsprachigen Codebasen blieb konsistent. Zweisprachige Prompts, bei denen die Spezifikation auf Chinesisch war, aber die Anforderung englischen Code verlangte, brachten das Modell nicht durcheinander, wie sie es bei GPT-5.5 und Opus 4.7 tun.

Das ist der Workload, bei dem Qwen 3.7 Max nicht nur mit amerikanischen Flaggschiffen konkurriert — es ist die offensichtlich richtige Wahl. Wenn Sie Produkte für den chinesischen, japanischen oder südostasiatischen Markt bauen, oder wenn Ihr Team Code mit Dokumentation in mehreren Sprachen schreibt, ist die Modellauswahl-Frage geklärt.

Einiges dieser Dynamik habe ich in meiner Analyse der chinesischen Graumarkt-KI-Abonnement-Ökonomie behandelt — die Realität ist, dass chinesische Entwickler seit Jahren den Zugang zu westlichen APIs umgehen, und der Aufstieg wirklich wettbewerbsfähiger einheimischer Modelle wie Qwen 3.7 Max verändert diese Kalkulation dauerhaft. Warum sollte ein Entwickler in Shenzhen 8-mal mehr für ein US-Modell bezahlen, wenn die einheimische Option bei den relevanten Workloads gleichzieht und bei der mehrsprachigen Handhabung überlegen ist?

Wie ich es tatsächlich in der Produktion einsetze

Drei Tage reichen nicht, um einen permanenten Workflow festzulegen, aber hier sind die Stellen, an denen Qwen 3.7 Max bereits andere Modelle in meinem Stack ersetzt:

Agenten-Schleifen mit intensiven Tool-Aufrufen. Alles, wo ich 100+ sequenzielle Tool-Aufrufe erwarte, beginnt jetzt mit Qwen 3.7 Max. Die Kostenreduzierung ist bedeutsam und die Kohärenz hält stand. Ich behandle das allgemeinere Muster in meinem Artikel zur Kostenoptimierung von KI-Agenten — die Mathematik hat seit Monaten auf chinesische Frontier-Modelle für die Hochvolumen-Agenten-Ebene hingedeutet, und Qwen 3.7 Max ist jetzt die offensichtliche Standardwahl.

Front-End-Prototyping von Screenshots. Die Visuell-zu-Code-Übersetzung ist stark genug, dass ich sie für die erste Implementierung verwende und dann den Feinschliff manuell oder mit Claude für die Designsprachen-Verfeinerung erledige.

Mehrsprachige Codegenerierung. Alles, was chinesische, japanische oder koreanische Dokumentation oder Codebase-Kontext betrifft, geht zuerst durch Qwen.

Bildungsinhalte mit Infografiken. Die SVG- und Diagramm-Generierung ist gut genug, dass ich sie für die erklärenden Visualisierungen in meinen Agenten-Architektur-Artikeln verwende.

Langfristige Forschungsagenten. Die 35-stündige Fähigkeit zur durchgehenden Ausführung ist der Workload, bei dem Alibaba wirklich eine neue Kategorie eröffnet hat. Ich baue einen Forschungsagenten, der 12–18 Stunden am Stück autonome Literaturrecherche durchführen muss, und Qwen 3.7 Max ist das einzige Modell, dem ich derzeit vertrauen würde, über dieses Zeitfenster hinweg Kohärenz aufrechtzuerhalten — zu Kosten, die das Projekt tragbar machen.

Wo ich weiterhin Opus 4.7 als Standard nutze: hochriskante Architekturentscheidungen, sicherheitssensible Code-Reviews, alles wo Spitzenqualität bei Einzelaufrufen wichtiger ist als Durchsatz. Der 8-fache Kostenaufschlag für Opus bei diesen Workloads lohnt sich, weil die Kosten eines Fehlers höher sind als die Kosten einer richtigen Entscheidung.

GPT-5.5 wird in diesem Bild still in die Zange genommen — es gibt weniger Workloads, bei denen es die offensichtlich richtige Wahl ist. Speziell für Coding-Arbeit hat mein Vergleich von GPT-5.5 und Opus 4.7 einige dieser Dynamiken behandelt, und Qwen 3.7 Max macht den Druck noch stärker.

Die wahre Geschichte ist nicht das Modell — Es geht darum, was die Tetris-Zahl bedeutet

Ich möchte auf den 56-%-Gewinn bei 1,30 $ zurückkommen, weil ich glaube, dass die Branche noch nicht vollständig verarbeitet hat, was er impliziert.

Zwei Jahre lang war die Annahme hinter der Preisgestaltung von Frontier-Modellen, dass Leistungsfähigkeit knapp und teuer ist, also zahlt der Premiumpreis einfach für das, was schwer zu bauen ist. Opus 4.7 berechnet 5 $ Input, weil Spitzen-Reasoning-Fähigkeit wirklich schwierig zu produzieren ist und Anthropic das Labor ist, das sie am besten produziert.

Aber der Tetris-Benchmark deutet darauf hin, dass bei einer bestimmten Klasse von Workloads — iterativen Selbstverbesserungsschleifen — die Leistungsfähigkeit nicht mehr der Engpass ist. Die Kosteneffizienz bei der Iteration ist der Engpass. Und auf dieser Achse ist Qwen 3.7 Max nicht nur wettbewerbsfähig mit den US-Frontier-Labors. Es führt mit dem Faktor zwei.

Wenn dieses Muster bei anderen agentischen Workloads Bestand hat — und meine vier Tage Tests deuten darauf hin — wird die Preisstruktur, die seit dem GPT-4-Launch Bestand hatte, sich schnell komprimieren. Entweder senken die amerikanischen Labore die Preise erheblich, oder sie überlassen die Hochvolumen-Agenten-Ebene vollständig der chinesischen Konkurrenz.

Das ist das, was ich derzeit am genauesten beobachte. Nicht ob Qwen 3.7 Max in einem abstrakten Sinne „besser" als Opus 4.7 ist. Sondern ob seine Existenz den gesamten Frontier-Modell-Markt zwingt, sich für die Agenten-Ära neu zu bepreisen.

Als ich mit diesem Review begann, notierte ich drei Zahlen: 56 %, 1,30 $ und 28 % bei 12,15 $.

Drei Tage später ist die Zahl, über die ich tatsächlich nachdenke, die, die diese Datenpunkte implizieren: 8x. Das ist die Kostenlücke. Das ist das Verhältnis, das Alibaba gerade bei agentischen Workloads sehr schwer zu rechtfertigen gemacht hat. Und bis die US-Labore herausfinden, wie sie es schließen können, ist Qwen 3.7 Max das Modell, auf das ich einen Entwickler als Standardwahl für agentengetriebene Coding-Arbeit 2026 hinweisen würde — im vollen Bewusstsein jeder Einschränkung, die ich oben behandelt habe.

Die Agenten-Ära sollte der Moment sein, in dem Modelle anfingen, echte autonome Arbeit stundenlang zu erledigen. Es stellte sich nur heraus, dass das Labor, das sich auf dieser Frontier am schnellsten bewegt, nicht das war, das die meisten amerikanischen Entwickler beobachteten.

Heute Abend, bevor Sie ins Bett gehen, tun Sie eine Sache: Öffnen Sie chat.qwen.ai, schalten Sie auf den Denk-Modus und geben Sie ihm die schwierigste agentische Coding-Aufgabe auf Ihrem aktuellen Backlog. Nicht weil das Modell morgen Ihren aktuellen Stack ersetzen wird — sondern weil Sie, wenn Sie es nicht ausprobieren, die letzte Person in Ihrem Team sein werden, die weiß, was sich gerade geändert hat.

Häufig gestellte Fragen

Ist Qwen 3.7 Max besser als Claude Opus 4.7 fürs Coding?

Qwen 3.7 Max liegt bei allgemeinen Reasoning-Benchmarks ungefähr einen halben Punkt hinter Opus 4.7 (56,6 vs. 57,3 auf dem Artificial Analysis Intelligence Index), gewinnt aber bei agentischen Workflows entscheidend beim Kosten-pro-Iteration-Verhältnis. Für lange Agenten-Schleifen ist Qwen 3.7 Max die bessere Wahl. Für hochriskante Einzelaufruf-Arbeit führt Opus 4.7 weiterhin.

Wie viel kostet Qwen 3.7 Max?

Qwen 3.7 Max kostet 2,50 $ pro Million Input-Token und 7,50 $ pro Million Output-Token auf Alibaba Cloud. Das ist ungefähr die Hälfte des Preises von Claude Opus 4.7 (5 $/25 $ pro Million) und deutlich günstiger als GPT-5.5. Ein kostenloser Chatbot ist ebenfalls unter chat.qwen.ai mit Kontoregistrierung verfügbar.

Kann Qwen 3.7 Max Bilder oder Videos verarbeiten?

Nein. Qwen 3.7 Max ist rein textbasiert — keine Vision-, Audio- oder Video-Unterstützung. Wenn Sie multimodale Fähigkeiten aus Alibabas Lineup benötigen, schauen Sie sich Qwen 3.7 Plus an, das Vision enthält. Für multimodale Frontier-Arbeit 2026 sind Opus 4.7 und GPT-5.5 die besseren Wahlen.

Was ist die maximale Kontextlänge und wie lange kann Qwen 3.7 Max autonom laufen?

Qwen 3.7 Max hat ein Kontextfenster von 1 Million Token und kann kohärente autonome Ausführung für etwa 35 Stunden und 1.158 kontinuierliche Tool-Aufrufe in Produktions-Agenten-Harnesses aufrechterhalten, basierend auf Alibabas veröffentlichtem Kernel-Optimierungslauf. In meinen eigenen Tests über 4-stündige skalierte Läufe hielt die Kohärenz ohne Kontextdrift.

Ist Qwen 3.7 Max als Open Weights verfügbar?

Nein. Qwen 3.7 Max ist ein proprietäres Modell mit geschlossenen Gewichten, das exklusiv auf Alibaba Cloud über die DashScope-API gehostet wird. Es gibt keinen Hugging-Face-Download, keine lokale Inferenz, kein GitHub-Release. Die Open-Weights-Qwen-Modelle (wie Qwen 3.6-35B-A3B) sind separate Veröffentlichungen auf anderen Leistungsstufen.

Lassen Sie uns zusammenarbeiten

Sie möchten KI-Systeme aufbauen, Workflows automatisieren oder Ihre Tech-Infrastruktur skalieren? Ich helfe gerne.

Fiverr (maßgeschneiderte Builds & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Enterprise-Lösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienstleistungen): xcybersecurity.io

Qwen 3.7 Max Review: Alibabas Flaggschiff für die Agenten-Ära im Test