Qwen 3.7 Max Review: Alibaba's Vlaggenschip voor het Agent-Tijdperk Getest

Het eerste getal dat ik noteerde was 56%. Het tweede was $1,30. Het derde was 28% bij $12,15.

Dat is het hele verhaal van waarom Qwen 3.7 Max ertoe doet, samengeperst in drie datapunten. Alibaba draaide een zelftrainende Tetris-lus — tien iteraties van het model dat zijn eigen gameplay-code verbetert, volledig autonoom, zonder menselijke interventie. Qwen 3.7 Max behaalde 56% prestatieverbetering voor een dollar dertig aan API-kosten. Opus 4.7 behaalde 28% voor $12,15. GPT-5.5 behaalde 7% voor $2,85.

Ik staarde lang naar die tabel. Niet omdat de ruwe prestatiecijfers schokkend waren — Opus 4.7 is nominaal nog steeds een sterker model op algemene redeneer-benchmarks — maar omdat de kosten-per-verbetering-ratio herschikt hoe ik denk over welk model het agent-loopbudget verdient op de meeste van mijn werklasten.

Dus deed ik wat ik altijd doe wanneer een Chinees lab iets uitbrengt dat de wiskunde vreemd maakt: ik maakte de agenda leeg, opende de API, en bracht drie dagen door in Alibaba's nieuwe vlaggenschip. De macOS-kloon waar iedereen screenshots van maakt. De voxel-pelikaan. Het aquarium met per-vin-fysica. De 35-uur autonome kernel-optimalisatierun. Ik wilde weten of Qwen 3.7 Max het model is dat de agentische-codeerkloof met Amerikaanse frontier-labs dicht, of dat het een benchmark-stunt is die uiteenvalt onder echte werklasten.

Dit is wat ik vond — en de plek waar ik denk dat Alibaba daadwerkelijk het gesprek heeft veranderd, is niet de plek die je zou verwachten.

Waarom Deze Release Anders Aankomt Dan de Laatste Drie Qwen-Drops

Alibaba kondigde Qwen 3.7 Max aan op de 2026 Alibaba Cloud Summit op 20 mei, twee dagen geleden terwijl ik dit schrijf. Preview-varianten waren sinds 14 mei op het leaderboard van LM Arena aan het lekken — lang genoeg dat een paar van ons stilletjes tests hadden gedraaid tegen de ongemarkeerde checkpoints vóór de formele onthulling.

Het kopcijfer waarmee Alibaba leidde: 56,6 op de Artificial Analysis Intelligence Index, een stijging van 4,8 punten ten opzichte van Qwen 3.6 Max Preview's 51,8. Dat plaatst Qwen 3.7 Max als het hoogst gerankte Chinese model op die index — vóór Gemini 3.5 Flash op 55,3, achter GPT-5.5 op 60,2 en Opus 4.7 op 57,3.

Twee maanden geleden testte ik Qwen 3.6 Max Preview tegen Opus 4.7 en GPT-5.5 en concludeerde dat Alibaba niet probeerde de absolute prestatierace te winnen — ze gingen hard op de prestatie-per-dollar-race. Qwen 3.7 Max is de volgende stap in die inzet, maar met een scherper accent: deze release gaat niet alleen over goedkopere tokens. Het gaat over duurzame agentische uitvoering op werklasten waar de kosten van het draaien van een lange lus net zo belangrijk zijn als de kwaliteit van elke individuele aanroep.

Waar Qwen 3.6 Max Preview een model van frontier-kwaliteit was tegen frontier-kortingsprijzen, is Qwen 3.7 Max een model dat specifiek is afgestemd op de vorm van werk die agents daadwerkelijk doen: lange horizonten, honderden tool-aanroepen, meertalige context, iteratieve zelfverbetering op een enkel doel.

Die positionering doet ertoe omdat de rest van de industrie op hetzelfde inzicht aan het convergeren is. Anthropic's Opus 4.7-release leunde zwaar op multi-uur agent-harnesses. OpenAI's GPT-5.5 pushte Codex-integratie. Nu verschijnt Alibaba met een model dat autonome workflows draait gedurende 35 uur achtereen tegen ruwweg een achtste van de kosten van zijn Amerikaanse concurrenten.

De interessante vraag is niet of Qwen 3.7 Max het beste model ter wereld is. Dat is het niet. De vraag is of het goed genoeg is op de werklasten die het meeste agentbudget verbruiken — en dat is wat ik drie dagen heb uitgezocht.

Voordat ik bij de testresultaten kom, is er één architecturaal detail dat je moet begrijpen, want het verklaart alles wat volgt.

De Architecturale Inzet Achter de 56% Tetris-Winst

De Tetris zelftrainings-benchmark die Alibaba publiceerde is de meest verhelderende vergelijking in hun hele lanceerpakket. Dezelfde werklast over alle drie modellen — tien iteratieve lussen waarin de AI zijn eigen gameplay-code verbetert, het resultaat evalueert, en itereert. Dezelfde startcondities. Hetzelfde harnas.

Model	Verbetering	Kosten	Opmerkingen
Qwen 3.7 Max	56%	$1,30	Beste winst, laagste kosten
Opus 4.7	28%	$12,15	Gemiddelde winst, duur
GPT-5.5	7%	$2,85	Lage winst, gemiddelde kosten

Lees die tabel twee keer. Qwen 3.7 Max won niet alleen op kosten. Het won op absolute verbetering — met een factor twee tegen Opus 4.7 en een factor acht tegen GPT-5.5. Het goedkoopste model produceerde de grootste winst op een werklast die fundamenteel draait om iteratief agentisch redeneren.

Dat is geen benchmark-toevalstreffer. Dat is een bewuste architecturale inzet die in de cijfers verschijnt.

Dit is wat ik denk dat er daadwerkelijk gebeurt. Alibaba optimaliseert voor wat ik per-iteratie-coherentie zou noemen — het vermogen van het model om nuttig redeneren te behouden over vele opeenvolgende tool-aanroepen zonder contextdrift, gehalluceneerde aannames, of kwaliteitsverval. De meeste frontier-modellen zijn nog steeds geoptimaliseerd voor briljantie bij een enkele aanroep. Ze produceren prachtige output in één schot, en degraderen vervolgens naarmate de context groeit en de agent-lus dieper wordt.

Qwen 3.7 Max ruilt een kleine hoeveelheid piekprestatie bij een enkele aanroep in voor een veel grotere hoeveelheid stabiliteit bij meerdere aanroepen. Op een enkelvoudige prompt verslaat Opus 4.7 het nog steeds. Op een iteratieve lus met tien rondes zelfmodificatie produceert Qwen 3.7 Max twee keer de cumulatieve verbetering tegen een tiende van de kosten.

Als je agents in productie draait, is dat op dit moment de allerbelangrijkste prestatie-as. Niet "hoe briljant is één antwoord?" maar "hoe betrouwbaar compoundeert het model over honderd antwoorden?"

De prijsstelling maakt die inzet leesbaar. Qwen 3.7 Max is beschikbaar tegen $2,50 per miljoen invoertokens en $7,50 per miljoen uitvoertokens. Opus 4.7 rekent $5 per miljoen invoer. Dat is een 2x-kloof op invoer en significant op uitvoer — en het compoundeert over lange workflows op manieren die de kopprijs niet duidelijk maakt.

Laten we nu kijken wat het model daadwerkelijk doet wanneer je het onder belasting zet.

Test 1: De macOS-Kloon — Waar Alibaba's Demo-Hype Standhoudt

Elke Qwen-lancering komt met een "bouw het volledige macOS-bureaublad in een enkel HTML-bestand" demo. Ik ben moe van deze demo's omdat ze je bijna niets vertellen over hoe een model omgaat met echt engineeringwerk — maar ik draai ze toch omdat ze een nuttige baseline zijn voor de kwaliteit van frontend-output.

Ik gaf Qwen 3.7 Max dezelfde prompt die ik vorige maand op Qwen 3.6 Max Preview gebruikte: bouw een werkende macOS-desktopkloon met een functioneel dock, bovenste menubalk, werkende apps, en minstens twee speelbare browsergames. Vanilla HTML/CSS/JS. Enkel bestand.

Wat ik terugkreeg was de meest gepolijste single-shot frontend-output die ik dit jaar van welk model dan ook heb gezien — Opus 4.7 inbegrepen.

Het dock had SVG-iconen met geloofwaardige vergrotingscurves. De bovenste balk renderde een werkende helderheidsschuifregelaar, een Spotlight-stub die daadwerkelijk animeerde, en een Launchpad-overgang die er niet uitzag als een Bootstrap-dropdown. In het dock: Finder met een bestandsboom, Teksteditor met werkende opslagstatus, Paint met penseelgroottebediening, Rekenmachine met correcte bewerkingsvolgorde-afhandeling, Terminal met een nep ls- en cd-implementatie, Snake met botsingsdetectie die daadwerkelijk werkte, een Weer-widget die uit een mock JSON trok, Klok, Preview, en een App Store-mockup met hover-states.

Safari was zwakker — de adresbalk werkte maar de gerenderde pagina was plaatsvervangende tekst. Foto's was een miniatuurrooster zonder lightbox. Kaarten was een statische SVG. Dus dit is geen perfecte weergave van het besturingssysteem. Maar de delen die het goed deed waren oprecht goed — het soort output waarbij als een junior developer het had geproduceerd, ik zou vragen wie ze waren en of ze beschikbaar zijn voor contractwerk.

Het interessante deel is de typografie en de scroll-trigger-afhandeling. Er is een zichtbare aandacht voor spatiëring, lettergewichtovergangen en bewegingstiming die je normaal niet ziet bij modellen van Chinese labs. Sommige van de editorial-SaaS-frontends die Qwen 3.7 Max produceert zien er stilistisch uit als Claude — wat me doet vermoeden dat er trainingsdata-overlap of distillatie plaatsvindt ergens in de pipeline. Geen kritiek, gewoon een observatie over waar de frontend-esthetiek vandaan komt.

Ik draaide dezelfde prompt tegen Opus 4.7 ter vergelijking. Opus produceerde iets marginaal verfijnders — betere fotokijker-overgangen, meer gesofisticeerde dock-spatiëring — maar het duurde ruwweg 2,8x langer om te genereren en kostte ongeveer 9x meer in tokens. De output van GPT-5.5 was merkbaar slechter: dock-spatiëring klopte niet, twee van de apps hadden lay-outbugs, en de Terminal-stub renderde niet correct.

Dit is precies de werklast waarvoor Qwen 3.7 Max is gebouwd om te winnen. Zware frontend-output, creatieve vrijheid, single-shot, geen follow-up debugging nodig. Het wint overtuigend.

Maar frontend-demo's zijn de makkelijke modus. De volgende test is waar ik de echte persoonlijkheid van het model begon te zien.

Test 2: De 35-Uur Autonome Run — Waar Het Echte Verhaal Zit

Dit is de test die ertoe doet. Alibaba's meest agressieve claim over Qwen 3.7 Max is dat het coherent autonoom redeneren kan volhouden over ruwweg 35-uur workflows met ongeveer 1.200 doorlopende tool-aanroepen voordat contextdrift een probleem wordt. Het getal dat ik in detail bevestigd heb gezien: 1.158 tool-aanroepen en 432 kernel-evaluaties in een enkele doorlopende run die een GPU-kernel optimaliseerde voor Alibaba's eigen Zhenwu M890-chip.

Ik had uiteraard geen 35 uur API-budget om de volledige run te repliceren. Wat ik in plaats daarvan deed was een afgeschaalde versie opzetten: een 4-uur autonome lus waarin het model een opzettelijk kapotte Python-webscraper moest debuggen, de prestaties profileren, de langzame delen herschrijven, en vervolgens de dekking van de testsuite verbeteren. Geen menselijke interventie. Het model beheerde zijn eigen tool-aanroepen via een Claude Code-compatibel harnas (Qwen 3.7 Max ondersteunt externe harnesses inclusief die van Anthropic, wat me verraste totdat ik me herinnerde dat de OpenAI/Anthropic API-compatibiliteitslaag doorloopt van Qwen 3.6).

Vier uur. Misschien 280 tool-aanroepen. Drie volledige debug-profiel-herschrijf-verbeter-cycli.

De output was de schoonste duurzame agent-run die ik heb gezien van welk niet-Anthropic-model dan ook. Geen contextdrift. Geen lusgedrag. Geen gehalluceneerde bestandspaden na uur twee. De fixes die het maakte in de derde cyclus verwezen nog steeds naar beslissingen die het in de eerste cyclus had genomen — dat is het soort coherentie dat echt lange-contextgeheugen vereist, niet alleen een groot venster dat het model niet effectief kan gebruiken.

Ter vergelijking, toen ik een soortgelijk harnas draaide tegen Opus 4.7 vorige maand, was de outputkwaliteit per aanroep iets hoger maar de run kostte ruwweg 7x meer voor equivalente taakvoltooiing. Toen ik het tegen GPT-5.5 draaide, begon het model ergens rond het 180-aanroepen-punt te loopen en moest worden gereset.

De capaciteit die hier telt is niet piekintelligentie. Het is het vermogen om de lus coherent te houden. Qwen 3.7 Max lijkt iets specifiek afgesteld te hebben in zijn trainingspipeline voor duurzaam agentisch werk — en op de werklasten die ik het meest belangrijk vind in 2026, is dat de capaciteit die compoundeert tot echte productiviteitswinst.

Test 3: De 3D-Stack — Voxel-Pelikanen, Aquaria, en een Zonnestelsel

Dit is waar ik het meeste plezier had, en ook waar ik de randgevallen van het model zag.

De voxel-pelikaan op een fiets kwam er schoon uit — correcte proporties, herkenbare snavel, de fiets had daadwerkelijk draaiende wielen aangedreven door een eenvoudige animatielus, en de vleugels van de pelikaan klapperden op een geloofwaardig tempo. Het Zelda-achtige low-poly-landschap had getrianguleerd terrein dat daadwerkelijk natuurlijk vloeide, watertegels met een aanvaardbare shader, en bomen met voldoende geometrische variatie om niet procedureel geplaatst te lijken.

De aquariumsimulatie is wat me rechtop deed zitten. Ik vroeg om "een aquarium met meerdere vissoorten, per-vin-fysica waarbij de vinnen reageren op zwembeweging, realtime UI-bedieningselementen voor watertemperatuur en voeding, en interactieve voeding waarbij klikken voer laat vallen en de vissen reageren." Wat ik kreeg was een Three.js-scène met zeven verschillende vismodellen, elk met vinnen die iets anders articuleerden op basis van zwemsnelheid, een werkende temperatuurschuifregelaar die zichtbaar het visgedrag beïnvloedde, en een klik-om-te-voeren-mechaniek waarbij de vissen daadwerkelijk naar de voedseldeeltjes toe navigeerden.

Was het perfect? Nee. Twee van de vissen hadden subtiele z-fighting op hun vinnen. De waterlichtbreking was nagebootst in plaats van fysisch gesimuleerd. Maar voor een single-shot HTML-bestand van een enkele prompt was het de meest interactieve 3D-scène die ik in 2026 van welk frontier-model dan ook heb gekregen.

De gedetailleerde SVG-infographics en kaarten kwamen er even sterk uit — hoge informatiedichtheid, schone iconografie, het soort output waarvoor ik eerder naar Qwen 3.7 Max zou grijpen dan naar welk ander model als ik op schaal verklarende diagrammen moest genereren.

Het 3D-zonnestelsel was waar het model me daadwerkelijk imponeerde qua fysica-getrouwheid. Nauwkeurige planetaire verlichting met correcte schaduwafname op elke planeet, Saturnus' ringen gerenderd als een echte geometrische ring in plaats van een platte textuur, Jupiters grote rode oog dat verscheen als een daadwerkelijk wervelpatroon, en een asteroïdengordel met verspreide geometrie die er niet uitzag alsof het op een enkel orbitaal vlak lag.

Waar het model faalt: de Minecraft-kloon. Ik draaide het specifiek omdat ik wilde zien hoe de 3D-voxel-pipeline standhield onder interactieve belasting. Het breekbare terrein werkte. De grottensystemen werden correct gegenereerd. De dag/nacht-cyclus draaide op een correcte tijdlus. Maar de waterfysica was zichtbaar onvolmaakt — water onder het oppervlak stroomde niet correct, en er was een subtiele renderingbug waarbij doorschijnende blokken terrein onthulden dat je niet zou moeten kunnen zien. Het is dezelfde algemene klasse van 3D-rendering-randgeval die ik zag bij Gemini en Opus toen ze Minecraft-klonen probeerden, dus dit lijkt een consistent zwak punt te zijn over frontier-modellen, geen Qwen-specifieke fout.

Het esthetische patroon over alle 3D-tests: Qwen 3.7 Max wil ambitieus zijn. Het grijpt naar complexe output in plaats van terug te vallen op veilig minimalisme. Soms overtreft het bereik het kunnen bij fysica-randgevallen. Vaker slaagt het bereik op manieren die me verrasten.

Test 4: De Airbnb-Kloon Vanaf een Screenshot

Deze test raakt aan een capaciteit die niet verschijnt op standaard-benchmarks maar er veel toe doet voor echt werk: visuele-naar-code-vertaling wanneer de invoer zowel een screenshot als een geschreven specificatie bevat.

Ik gaf Qwen 3.7 Max een screenshot van een Airbnb-advertentiepagina samen met een prompt die de interactieve gedragingen beschreef die ik wilde — sticky header, scroll-getriggerde animaties op de fotogalerij, werkende filter-zijbalk, responsieve breekpunten voor mobiel.

De output was schoner dan ik verwachtte. De visuele getrouwheid aan de screenshot was ongeveer 85% nauwkeurig — de typografische hiërarchie klopte, het spatiëringssysteem kwam overeen, het kleurpalet was correct geëxtraheerd. De interactieve gedragingen werkten allemaal bij de eerste keer, inclusief de scroll-getriggerde animaties die meestal wat debugging nodig hebben om de triggerdrempels goed te krijgen.

Waar het tekortschoot: sommige van de meer genuanceerde visuele details waren "kitscherig" in plaats van verfijnd. De schaduw op de fotogalerijkaarten was te zwaar. De hover-status op de filterknoppen gebruikte een verzadigde kleur die niet overeenkwam met Airbnb's echte designtaal. Dit zijn het soort polijstproblemen die verschijnen wanneer een model frontend-output produceert vanuit een vage visuele hint zonder expliciete designsysteemspecificaties.

De les: Qwen 3.7 Max is uitstekend in frontend-output wanneer je het gedetailleerde prompts geeft met specifieke visuele referenties. Het is slechts goed wanneer je het losse creatieve richting geeft. Als je het gebruikt voor productie-frontendwerk, behandel het dan als een senior developer die een duidelijke designbrief nodig heeft — niet als een designer die de gaten kan opvullen vanuit smaak alleen.

Waar Qwen 3.7 Max Landt Ten Opzichte van het Veld

Laat me de benchmarkcijfers op één plek zetten, want de vergelijkingstabel vertelt het echte verhaal:

Artificial Analysis Intelligence Index (algeheel redeneren):

GPT-5.5: 60,2
Opus 4.7: 57,3
Qwen 3.7 Max: 56,6
Gemini 3.5 Flash: 55,3
Qwen 3.6 Max Preview: 51,8

SWE-bench Verified (real-world software engineering):

Opus 4.7: ~80,8
Qwen 3.7 Max: 60,6 op Terminal Bench 2.0; evenaart Opus op SWE-Verified op 80,4
DS-V4-Pro Max: 80,6

Lang-horizon autonome uitvoering:

Qwen 3.7 Max: 35 uur, 1.158 tool-aanroepen volgehouden
Opus 4.7: Meerdere uren volgehouden (specifiek getal niet gepubliceerd)
GPT-5.5: Coherentie-instorting rond 180-200 aanroepen in mijn tests

API-kosten (per 1M tokens, invoer/uitvoer):

Qwen 3.7 Max: $2,50 / $7,50
Opus 4.7: $5 / $25
GPT-5.5: ruwweg 3-4x Qwen-prijsstelling afhankelijk van tier

Op algeheel redeneren zit Qwen 3.7 Max ruwweg een half punt achter Opus 4.7. Op real-world software engineering benchmarks is het competitief met Opus en iets voor op de meeste andere modellen in het veld. Op Aziatischtalige contexten en meertalig coderen leidt het ronduit. Op lang-horizon autonome uitvoering is het momenteel het meest betrouwbare model dat ik heb getest voor duurzame agent-workflows.

En op kosten-per-iteratie komt niets anders in deze tier in de buurt.

Voor de meeste agentische werklasten die ik in 2026 draai, is die kosten-per-iteratie-metriek wat de modelkeuze stuurt. Wanneer ik een agent-lus draai die 400 tool-aanroepen moet maken over zes uur, is 8x meer betalen voor Opus 4.7 om misschien 5% betere per-aanroep-kwaliteit te krijgen een slechte deal. Wanneer ik een complexe architectuur-PR review waar één verkeerde aanbeveling een beveiligingsfout kan opleveren, is Opus de premie nog steeds waard.

De modelselectievraag, herformuleerd: welke vorm van werk rechtvaardigt de prijs?

Als de vorm kort, hoogstaand, enkele-aanroep is: Opus 4.7.

Als de vorm lang, iteratief, agent-gestuurd is: Qwen 3.7 Max.

Dat is het raamwerk. Al het andere is implementatiedetail.

Wat Qwen 3.7 Max Oprecht Niet Kan

Ik wil eerlijk zijn over de beperkingen van het model, omdat de lanceringshype gaat overdrijven wat het aankan.

Geen multimodale invoer. Dit is de grote. Qwen 3.7 Max is alleen tekst. Geen afbeeldingsinvoer, geen audio, geen video. Als je workflow visie-taalkundig begrip vereist — screenshot-debugging, document-OCR, video-analyse — kijk je naar het verkeerde model. Alibaba heeft aparte visie-capabele varianten (Qwen 3.7 Plus heeft visie), maar het Max-vlaggenschip is alleen tekstinvoer.

Dit doet ertoe omdat veel agentische workflows in 2026 steeds meer aannemen dat het model kan zien wat het doet. Kijken naar een mislukte UI-render, een stacktrace lezen van een screenshot, een ontwerpmockup parsen — dit zijn allemaal dingen die Opus 4.7 en GPT-5.5 native doen, en Qwen 3.7 Max simpelweg niet kan.

Frontend wordt kitscherig zonder gedetailleerde prompts. Zoals ik in Test 4 behandelde — geef het een duidelijke brief en het produceert uitstekende output. Geef het een vaag "maak dit mooi" en het neigt naar zwaardere schaduwen, verzadigde kleuren, en ontwerpkeuzes die lezen als enthousiast-maar-ongedisciplineerd. Als je het gebruikt voor ontwerpgevoelig werk, bereid je voor om prescriptiever te zijn in je prompts dan je zou moeten zijn bij Claude.

3D-fysica-randgevallen. Het Minecraft waterstroming-probleem dat ik tegenkwam is niet uniek — er is een consistent patroon waarbij Qwen 3.7 Max de visuele rendering van 3D-scènes goed afhandelt maar de fysicasimulatie eronder gaten kan hebben. Deeltjesinteracties, vloeistofdynamica, en complexe botsingslogica zijn waar ik een tweede model als controle zou draaien.

Bias- en verklaarbaardheidstesten zijn ondoorzichtig. Alibaba heeft geen gedetailleerde bias-evaluatieresultaten, modelkaartdetails over trainingsdata-samenstelling, of verklaarbaardheidsonderzoek gepubliceerd op de manier waarop Anthropic dat heeft gedaan voor Opus 4.7. Voor het meeste engineeringwerk is dit prima. Voor beslissingen met hoge inzet rondom eerlijkheid, contentmoderatie, of juridische blootstelling — zou ik meer transparantie willen dan Alibaba momenteel biedt.

Het is alleen gehost. Geen open gewichten. Geen lokale inferentie. Geen download. Je benadert Qwen 3.7 Max via Alibaba Cloud's DashScope API of je benadert het helemaal niet. Er is een gratis chatbot op chat.qwen.ai met een snelle/denkende modus-schakelaar die je preview-toegang geeft zonder API-setup, maar als je het inbedt in productie-workflows, bind je je aan Alibaba Cloud als afhankelijkheid. Voor sommige teams doet de geopolitiek ertoe. Voor anderen is het gewoon weer een leverancier.

Geen van deze beperkingen is een dealbreaker voor de werklasten waarin Qwen 3.7 Max uitblinkt. Maar ze definiëren wel de vorm van waar je er wel en niet naar moet grijpen.

De Meertalige Voorsprong Die de Meeste Berichtgeving Mist

Hier is het deel van het Qwen 3.7 Max-verhaal waarvan ik denk dat Westerse analyse het consequent heeft onderschat: de meertalige prestatie op Aziatischtalige contexten is oprecht best-in-class, en het is niet eens dichtbij.

Toen ik codegeneratie testte met commentaar en documentatie in het Chinees, Japans en Koreaans, produceerde Qwen 3.7 Max output die natuurlijk las in die talen — het commentaar was geen vertaald Engels, het was idiomatisch moedertaal-technisch schrijven. Naamgeving van variabelen in meertalige codebases bleef consistent. Tweetalige prompts waarbij de specificatie in het Chinees was maar de vereiste Engelstalige code was, lieten het model niet struikelen op de manier waarop ze GPT-5.5 en Opus 4.7 laten struikelen.

Dit is de werklast waarbij Qwen 3.7 Max niet alleen competitief is met Amerikaanse vlaggenschepen — het is het voor de hand liggende juiste antwoord. Als je producten bouwt voor de Chinese, Japanse of Zuidoost-Aziatische markten, of als je team code schrijft met documentatie in meerdere talen, is de modelselectievraag beantwoord.

Ik behandelde een deel van deze dynamiek in mijn analyse van de Chinese grijze-markt AI-abonnementseconomie — de realiteit is dat Chinese ontwikkelaars al jaren om Westerse API-toegang heen werken, en de opkomst van echt competitieve binnenlandse modellen zoals Qwen 3.7 Max verandert die berekening permanent. Waarom zou een ontwikkelaar in Shenzhen 8x meer betalen voor een Amerikaans model als de binnenlandse optie ze evenaart op de werklasten die ertoe doen en ze verslaat op meertalige afhandeling?

Hoe Ik Het Daadwerkelijk Gebruik in Productie

Drie dagen is niet genoeg om een permanente workflow vast te leggen, maar hier is waar Qwen 3.7 Max al andere modellen vervangt in mijn stack:

Agent-lussen met zware tool-aanroepen. Alles waar ik 100+ opeenvolgende tool-aanroepen verwacht, begint nu met Qwen 3.7 Max. Kostenreductie is betekenisvol en de coherentie houdt stand. Ik behandel het bredere patroon in mijn stuk over AI-agent-kostenoptimalisatie — de wiskunde wijst al maanden naar Chinese frontier-modellen voor de hoog-volume agent-tier, en Qwen 3.7 Max is nu de voor de hand liggende standaard.

Frontend-prototyping vanaf screenshots. De visuele-naar-code-vertaling is sterk genoeg dat ik het gebruik voor eerste-pass implementatie, en dan het polijstwerk handmatig of met Claude doe voor de designtaal-verfijning.

Meertalige codegeneratie. Alles wat Chinese, Japanse of Koreaanse documentatie of codebase-context betreft, gaat eerst door Qwen.

Educatieve content met infographics. De SVG- en diagramgeneratie is goed genoeg dat ik het ben gaan gebruiken voor de verklarende visuals in mijn agent-architectuur-artikelen.

Lang-horizon onderzoeksagents. De 35-uur duurzame-uitvoeringscapaciteit is de werklast waarbij Alibaba oprecht een nieuwe categorie heeft geopend. Ik bouw een onderzoeksagent die 12-18 uur achtereen autonoom literatuuroverzichten moet draaien, en Qwen 3.7 Max is het enige model dat ik momenteel zou vertrouwen om coherentie te behouden over dat venster tegen kosten die het project haalbaar maken.

Waar ik nog steeds terugval op Opus 4.7: architectuurbeslissingen met hoge inzet, beveiligingsgevoelige code-review, alles waar piekprestatie bij een enkele aanroep meer uitmaakt dan doorvoer. De 8x kostenpremie voor Opus op die werklasten is het waard omdat de kosten van het verkeerd hebben hoger zijn dan de kosten van het goed hebben.

GPT-5.5 wordt in dit plaatje stilletjes klemgezet — er zijn minder werklasten waar het het voor de hand liggende juiste antwoord is. Voor codeerwerk specifiek behandelde mijn vergelijking van GPT-5.5 en Opus 4.7 een deel van die dynamiek, en Qwen 3.7 Max maakt de klem strakker.

Het Echte Verhaal Is Niet Het Model — Het Is Wat Het Tetris-Getal Betekent

Ik wil terugkomen op die 56% winst bij $1,30, omdat ik denk dat de industrie nog niet volledig heeft verwerkt wat het impliceert.

Twee jaar lang was de aanname onder frontier-modelprijsstelling dat capaciteit schaars en duur is, dus de premieprijsstelling betaalt gewoon voor wat moeilijk te bouwen is. Opus 4.7 rekent $5 invoer omdat piekredeneer-capaciteit oprecht moeilijk te produceren is, en Anthropic is het lab dat het het beste produceert.

Maar de Tetris-benchmark suggereert dat op een specifieke klasse werklasten — iteratieve zelfverbeteringslussen — capaciteit niet langer het knelpunt is. Kostenefficiëntie op de iteratie is het knelpunt. En op die as is Qwen 3.7 Max niet alleen competitief met de Amerikaanse frontier-labs. Het leidt met een factor twee.

Als dat patroon standhoudt over andere agentische werklasten — en mijn vier dagen testen suggereren dat het dat doet — gaat de prijsstructuur die sinds de lancering van GPT-4 heeft gehouden snel comprimeren. Ofwel de Amerikaanse labs verlagen de prijzen significant, ofwel ze staan de hoog-volume agentische tier volledig af aan Chinese concurrentie.

Dat is wat ik nu het zorgvuldigst in de gaten houd. Niet of Qwen 3.7 Max in abstracte zin "beter" is dan Opus 4.7. Maar of het bestaan ervan de hele frontier-modelmarkt dwingt om zichzelf te herprijzen voor het agent-tijdperk.

Toen ik aan deze review begon, noteerde ik drie getallen: 56%, $1,30, en 28% bij $12,15.

Drie dagen later is het getal waar ik daadwerkelijk over nadenk het getal dat die datapunten impliceren: 8x. Dat is de kostenkloof. Dat is de ratio die Alibaba zojuist heel moeilijk te rechtvaardigen heeft gemaakt op agentische werklasten. En totdat de Amerikaanse labs uitvogelen hoe ze die kloof kunnen dichten, is Qwen 3.7 Max het model waar ik een ontwikkelaar naar zou verwijzen als hun standaardkeuze voor agent-gestuurd codeerwerk in 2026 — met volledig bewustzijn van elke beperking die ik hierboven heb behandeld.

Het agent-tijdperk zou het moment zijn waarop modellen begonnen met echt autonoom werk voor uren achtereen. Het bleek alleen dat het lab dat het snelst bewoog op die frontier niet het lab was waar de meeste Amerikaanse ontwikkelaars naar keken.

Vanavond, voordat je naar bed gaat, doe één ding: open chat.qwen.ai, schakel naar denkmodus, en geef het de moeilijkste agentische codeertaak op je huidige achterstand. Niet omdat het model morgen je huidige stack gaat vervangen — maar omdat als je het niet draait, je de laatste persoon in je team zult zijn die weet wat er net is veranderd.

Veelgestelde Vragen

Is Qwen 3.7 Max beter dan Claude Opus 4.7 voor coderen?

Qwen 3.7 Max zit ruwweg een half punt achter Opus 4.7 op algehele redeneer-benchmarks (56,6 vs 57,3 op Artificial Analysis Intelligence Index) maar wint decisief op kosten-per-iteratie voor agentische workflows. Voor lange agent-lussen is Qwen 3.7 Max de betere keuze. Voor single-call werk met hoge inzet leidt Opus 4.7 nog steeds.

Hoeveel kost Qwen 3.7 Max?

Qwen 3.7 Max kost $2,50 per miljoen invoertokens en $7,50 per miljoen uitvoertokens op Alibaba Cloud. Dat is ruwweg de helft van de prijs van Claude Opus 4.7 ($5/$25 per miljoen) en significant goedkoper dan GPT-5.5. Een gratis chatbot is ook beschikbaar op chat.qwen.ai met accountregistratie.

Kan Qwen 3.7 Max afbeeldingen of video verwerken?

Nee. Qwen 3.7 Max is alleen tekstinvoer — geen visie, audio of video-ondersteuning. Als je multimodale capaciteit nodig hebt van Alibaba's aanbod, kijk naar Qwen 3.7 Plus die visie bevat. Voor multimodaal frontier-werk in 2026 zijn Opus 4.7 en GPT-5.5 de betere keuzes.

Wat is de maximale contextlengte en hoe lang kan Qwen 3.7 Max autonoom draaien?

Qwen 3.7 Max heeft een contextvenster van 1 miljoen tokens en kan coherente autonome uitvoering volhouden gedurende ongeveer 35 uur en 1.158 doorlopende tool-aanroepen in productie-agentharnesses, gebaseerd op Alibaba's gepubliceerde kernel-optimalisatierun. In mijn eigen tests over afgeschaalde 4-uur runs hield de coherentie stand zonder contextdrift.

Is Qwen 3.7 Max beschikbaar als open gewichten?

Nee. Qwen 3.7 Max is een eigendomsmodel met gesloten gewichten, exclusief gehost op Alibaba Cloud via de DashScope API. Er is geen Hugging Face-download, geen lokale inferentie, geen GitHub-release. De open-gewichten Qwen-modellen (zoals Qwen 3.6-35B-A3B) zijn aparte releases op andere capaciteitsniveaus.

Laten We Samenwerken

Op zoek naar het bouwen van AI-systemen, het automatiseren van workflows, of het opschalen van je tech-infrastructuur? Ik help graag.

Fiverr (maatwerk builds & integraties): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (enterprise-oplossingen): ramlit.com
ColorPark (design & branding): colorpark.io
xCyberSecurity (beveiligingsdiensten): xcybersecurity.io

Qwen 3.7 Max Review: Alibaba's Vlaggenschip voor het Agent-Tijdperk Getest