Qwen 3.7 Max : test du modèle phare d'Alibaba pour l'ère des agents
Le premier chiffre que j'ai noté était 56 %. Le deuxième, 1,30 $. Le troisième, 28 % à 12,15 $.
C'est toute l'histoire de pourquoi Qwen 3.7 Max compte, comprimée en trois données. Alibaba a fait tourner une boucle de Tetris en auto-apprentissage — dix itérations où le modèle améliore son propre code de jeu, en totale autonomie, sans intervention humaine. Qwen 3.7 Max a gagné 56 % de performance pour un dollar trente en coût d'API. Opus 4.7 a gagné 28 % pour 12,15 $. GPT-5.5 a gagné 7 % pour 2,85 $.
J'ai fixé ce tableau pendant un long moment. Non pas parce que les chiffres bruts de capacité étaient choquants — Opus 4.7 est toujours nominalement un modèle plus puissant sur les benchmarks de raisonnement global — mais parce que le ratio coût-par-amélioration venait de réorganiser ma façon de penser à quel modèle mérite le budget de boucle agentique sur la plupart de mes charges de travail.
Alors j'ai fait ce que je fais chaque fois qu'un laboratoire chinois livre quelque chose qui rend les calculs bizarres : j'ai vidé mon agenda, ouvert l'API, et passé trois jours dans le nouveau vaisseau amiral d'Alibaba. Le clone macOS que tout le monde capture en screenshot. Le pélican en voxels. L'aquarium avec la physique par nageoire. Le run autonome d'optimisation de noyau de 35 heures. Je voulais savoir si Qwen 3.7 Max est le modèle qui comble l'écart en codage agentique avec les laboratoires frontières américains, ou si c'est un coup de benchmark qui s'effondre sous les charges de travail réelles.
Voici ce que j'ai trouvé — et l'endroit où je pense qu'Alibaba a vraiment changé la conversation n'est pas celui auquel vous vous attendez.
Pourquoi cette sortie se distingue des trois dernières de Qwen
Alibaba a annoncé Qwen 3.7 Max lors du Sommet Alibaba Cloud 2026, le 20 mai, il y a deux jours au moment où j'écris ceci. Des variantes en preview fuitaient sur le classement de LM Arena depuis le 14 mai — assez longtemps pour que quelques-uns d'entre nous aient discrètement fait tourner des tests sur les checkpoints non identifiés avant la révélation officielle.
Le chiffre phare mis en avant par Alibaba : 56,6 sur l'Intelligence Index d'Artificial Analysis, un gain de 4,8 points par rapport aux 51,8 de Qwen 3.6 Max Preview. Cela place Qwen 3.7 Max comme le modèle chinois le mieux classé sur cet index — devant Gemini 3.5 Flash à 55,3, derrière GPT-5.5 à 60,2 et Opus 4.7 à 57,3.
Il y a deux mois, j'ai testé Qwen 3.6 Max Preview face à Opus 4.7 et GPT-5.5 et j'ai conclu qu'Alibaba ne cherchait pas à gagner la course de capacité absolue — ils misaient fort sur la course capacité-par-dollar. Qwen 3.7 Max est l'étape suivante de ce pari, mais avec un angle plus tranchant : cette sortie ne concerne pas seulement des tokens moins chers. Elle concerne l'exécution agentique soutenue sur des charges de travail où le coût d'une longue boucle compte autant que la qualité d'un appel individuel.
Là où Qwen 3.6 Max Preview était un modèle de qualité frontière à prix frontière réduit, Qwen 3.7 Max est un modèle spécifiquement optimisé pour la forme de travail que les agents effectuent réellement : horizons longs, centaines d'appels d'outils, contexte multilingue, auto-amélioration itérative sur un objectif unique.
Ce positionnement compte parce que le reste de l'industrie converge vers la même intuition. La sortie d'Opus 4.7 par Anthropic s'appuyait fortement sur des harnais d'agents multi-heures. GPT-5.5 d'OpenAI a poussé l'intégration Codex. Maintenant Alibaba se présente avec un modèle qui fait tourner des workflows autonomes pendant 35 heures d'affilée à environ un huitième du coût de ses concurrents américains.
La question intéressante n'est pas de savoir si Qwen 3.7 Max est le meilleur modèle au monde. Il ne l'est pas. La question est de savoir s'il est suffisamment bon sur les charges de travail qui consomment le plus de budget agentique — et c'est ce que j'ai passé trois jours à découvrir.
Avant d'en venir aux résultats des tests, il y a un détail architectural que vous devez comprendre, parce qu'il explique tout ce qui suit.
Le pari architectural derrière le gain de 56 % au Tetris
Le benchmark de Tetris en auto-apprentissage publié par Alibaba est la comparaison la plus éclairante de tout leur dossier de lancement. Même charge de travail sur les trois modèles — dix boucles itératives où l'IA améliore son propre code de jeu, évalue le résultat, et itère. Mêmes conditions de départ. Même harnais.
| Modèle | Amélioration | Coût | Notes |
|---|---|---|---|
| Qwen 3.7 Max | 56 % | 1,30 $ | Meilleur gain, coût le plus bas |
| Opus 4.7 | 28 % | 12,15 $ | Gain moyen, cher |
| GPT-5.5 | 7 % | 2,85 $ | Gain faible, coût moyen |
Lisez ce tableau deux fois. Qwen 3.7 Max n'a pas seulement gagné sur le coût. Il a gagné en amélioration absolue — par un facteur de deux face à Opus 4.7 et un facteur de huit face à GPT-5.5. Le modèle le moins cher a produit le plus grand gain sur une charge de travail qui porte fondamentalement sur le raisonnement agentique itératif.
Ce n'est pas un artefact de benchmark. C'est un pari architectural délibéré qui se manifeste dans les chiffres.
Voici ce que je pense qu'il se passe réellement. Alibaba optimise ce que j'appellerais la cohérence par itération — la capacité du modèle à maintenir un raisonnement utile à travers de nombreux appels d'outils séquentiels sans dérive contextuelle, hypothèses hallucinées, ou dégradation de qualité. La plupart des modèles frontières sont encore optimisés pour l'excellence en appel unique. Ils produisent une sortie magnifique en un coup, puis se dégradent à mesure que le contexte s'allonge et que la boucle agentique s'approfondit.
Qwen 3.7 Max échange une petite quantité de performance de pointe en appel unique contre une bien plus grande stabilité multi-appels. Sur un prompt one-shot, Opus 4.7 le bat encore. Sur une boucle itérative de dix tours d'auto-modification, Qwen 3.7 Max produit deux fois plus d'amélioration cumulative à un dixième du coût.
Si vous faites tourner des agents en production, c'est l'axe de capacité le plus important en ce moment. Non pas « à quel point une réponse est-elle brillante ? » mais « à quel point le modèle accumule-t-il de manière fiable sur une centaine de réponses ? »
La tarification rend ce pari lisible. Qwen 3.7 Max est disponible à 2,50 $ par million de tokens en entrée et 7,50 $ par million de tokens en sortie. Opus 4.7 facture 5 $ par million en entrée. C'est un écart de 2x sur l'entrée et significatif sur la sortie — et cela se compose à travers les workflows longs d'une manière que la tarification phare ne rend pas évidente.
Passons maintenant à ce que le modèle fait réellement quand on le met sous charge.
Test 1 : Le clone macOS — Là où le battage d'Alibaba tient la route
Chaque lancement de Qwen s'accompagne d'une démo « construis tout le bureau macOS dans un seul fichier HTML ». J'en ai assez de ces démos parce qu'elles ne disent presque rien sur la façon dont un modèle gère le vrai travail d'ingénierie — mais je les exécute quand même parce qu'elles constituent une base utile pour la qualité de sortie front-end.
J'ai donné à Qwen 3.7 Max le même prompt que j'ai utilisé sur Qwen 3.6 Max Preview le mois dernier : construire un clone de bureau macOS fonctionnel avec un dock, une barre de menu supérieure, des applications fonctionnelles, et au moins deux jeux de navigateur jouables. HTML/CSS/JS pur. Fichier unique.
Ce que j'ai obtenu était la sortie front-end one-shot la plus soignée que j'aie vue d'aucun modèle cette année — Opus 4.7 inclus.
Le dock avait des icônes SVG avec des courbes de grossissement crédibles. La barre supérieure affichait un curseur de luminosité fonctionnel, un stub Spotlight qui s'animait vraiment, et une transition Launchpad qui ne ressemblait pas à un dropdown Bootstrap. Dans le dock : Finder avec un arbre de fichiers, Éditeur de texte avec état de sauvegarde fonctionnel, Paint avec contrôles de taille de pinceau, Calculatrice avec gestion correcte de l'ordre des opérations, Terminal avec une fausse implémentation de ls et cd, Snake avec détection de collision fonctionnelle, un widget Météo tirant d'un JSON factice, Horloge, Aperçu, et un mock d'App Store avec états de survol.
Safari était plus faible — la barre d'adresse fonctionnait mais la page rendue était du texte de remplissage. Photos était une grille de miniatures sans lightbox. Plans était un SVG statique. Ce n'est donc pas un rendu parfait de l'OS. Mais les parties réussies étaient véritablement bonnes — le genre de sortie où si un développeur junior l'avait produite, je demanderais qui il est et s'il est disponible en freelance.
La partie intéressante est la typographie et la gestion du scroll-trigger. Il y a une attention visible à l'espacement, aux transitions de graisse de police, et au timing des mouvements qu'on ne voit habituellement pas des modèles de laboratoires chinois. Certains des front-ends de type SaaS éditorial que Qwen 3.7 Max produit ont un rendu stylistique rappelant Claude — ce qui me fait soupçonner un chevauchement de données d'entraînement ou une distillation quelque part dans le pipeline. Ce n'est pas une critique, juste une observation sur l'origine de l'esthétique front-end.
J'ai lancé le même prompt sur Opus 4.7 pour comparaison. Opus a produit quelque chose marginalement plus raffiné — meilleures transitions de visionneuse photo, espacement de dock plus sophistiqué — mais il a pris environ 2,8 fois plus de temps à générer et coûté environ 9 fois plus en tokens. La sortie de GPT-5.5 était nettement moins bonne : l'espacement du dock était décalé, deux des applications avaient des bugs de mise en page, et le stub Terminal ne s'affichait pas correctement.
C'est exactement la charge de travail pour laquelle Qwen 3.7 Max a été conçu. Sortie front-end lourde, latitude créative, one-shot, aucun débogage de suivi nécessaire. Il la remporte nettement.
Mais les démos front-end sont le mode facile. Le test suivant est là où j'ai commencé à voir la vraie personnalité du modèle.
Test 2 : Le run autonome de 35 heures — Là où réside la vraie histoire
C'est le test qui compte. L'affirmation la plus audacieuse d'Alibaba concernant Qwen 3.7 Max est qu'il peut maintenir un raisonnement autonome cohérent sur des workflows d'environ 35 heures avec approximativement 1 200 appels d'outils continus avant que la dérive contextuelle ne devienne un problème. Le chiffre que j'ai vu confirmé en détail : 1 158 appels d'outils et 432 évaluations de noyau dans un seul run soutenu qui a optimisé un noyau GPU pour la puce Zhenwu M890 d'Alibaba.
Je n'avais évidemment pas 35 heures de budget API pour reproduire le run complet. Ce que j'ai fait à la place : une version réduite de 4 heures, une boucle autonome où le modèle devait déboguer un web scraper Python délibérément cassé, profiler ses performances, réécrire les parties lentes, puis améliorer la couverture de la suite de tests. Aucune intervention humaine. Le modèle contrôlait ses propres appels d'outils à travers un harnais compatible Claude Code (Qwen 3.7 Max prend en charge les harnais externes y compris celui d'Anthropic, ce qui m'a surpris jusqu'à ce que je me souvienne que la couche de compatibilité API OpenAI/Anthropic se prolonge depuis Qwen 3.6).
Quatre heures. Environ 280 appels d'outils. Trois cycles complets débogage-profilage-réécriture-amélioration.
La sortie était le run agentique soutenu le plus propre que j'aie vu d'un modèle non Anthropic. Aucune dérive contextuelle. Aucun comportement en boucle. Aucun chemin de fichier halluciné après la deuxième heure. Les corrections qu'il a faites au troisième cycle référençaient encore des décisions prises au premier cycle — c'est le genre de cohérence qui nécessite une véritable mémoire de contexte long, pas simplement une grande fenêtre que le modèle ne peut pas utiliser efficacement.
Pour comparaison, quand j'ai fait tourner un harnais similaire avec Opus 4.7 le mois dernier, la qualité de sortie était légèrement supérieure par appel mais le run a coûté environ 7 fois plus pour un achèvement de tâche équivalent. Quand je l'ai fait tourner avec GPT-5.5, le modèle a commencé à boucler autour du 180e appel et a dû être réinitialisé.
La capacité qui compte ici n'est pas l'intelligence de pointe. C'est la capacité à maintenir la cohérence de la boucle. Qwen 3.7 Max semble avoir quelque chose de spécifiquement optimisé dans son pipeline d'entraînement pour le travail agentique soutenu — et sur les charges de travail qui m'importent le plus en 2026, c'est la capacité qui se compose en véritables gains de productivité.
Test 3 : La pile 3D — Pélicans en voxels, aquariums et système solaire
C'est là que je me suis le plus amusé, et aussi là où j'ai vu les cas limites du modèle.
Le pélican en voxels sur un vélo est sorti propre — proportions correctes, bec reconnaissable, le vélo avait de vraies roues tournantes animées par une simple boucle d'animation, et les ailes du pélican battaient à un rythme crédible. Le paysage low-poly style Zelda avait un terrain triangulé qui coulait naturellement, des tuiles d'eau avec un shader passable, et des arbres avec suffisamment de variation géométrique pour ne pas avoir l'air placés procéduralement.
La simulation d'aquarium est ce qui m'a fait me redresser. J'ai demandé « un aquarium avec plusieurs espèces de poissons, de la physique par nageoire où les nageoires répondent au mouvement de nage, des contrôles UI en temps réel pour la température de l'eau et l'alimentation, et un nourrissage interactif où cliquer dépose de la nourriture et les poissons réagissent ». Ce que j'ai obtenu était une scène Three.js avec sept modèles de poissons distincts, les nageoires de chacun s'articulant légèrement différemment en fonction de la vitesse de nage, un curseur de température fonctionnel qui affectait visiblement le comportement des poissons, et une mécanique de clic pour nourrir où les poissons se dirigeaient effectivement vers les particules de nourriture.
Était-ce parfait ? Non. Deux des poissons avaient un léger z-fighting sur leurs nageoires. Les caustiques de l'eau étaient simulées plutôt que physiquement calculées. Mais pour un fichier HTML unique issu d'un seul prompt, c'était la scène 3D la plus interactive que j'aie obtenue d'un modèle frontière en 2026.
Les infographies SVG détaillées et les cartes sont sorties tout aussi réussies — haute densité d'information, iconographie propre, le genre de sortie où je prendrais Qwen 3.7 Max avant tout autre modèle si je devais générer des diagrammes explicatifs à grande échelle.
Le système solaire 3D est là où le modèle m'a vraiment impressionné sur la fidélité physique. Éclairage planétaire précis avec une atténuation d'ombre correcte sur chaque planète, les anneaux de Saturne rendus comme un véritable anneau géométrique plutôt qu'une texture plate, la grande tache rouge de Jupiter apparaissant comme un véritable motif tourbillonnant, et une ceinture d'astéroïdes avec une géométrie distribuée qui ne semblait pas être sur un seul plan orbital.
Là où le modèle décroche : le clone Minecraft. Je l'ai exécuté spécifiquement parce que je voulais voir comment le pipeline de voxels 3D tenait sous charge interactive. Le terrain cassable fonctionnait. Les systèmes de grottes se généraient correctement. Le cycle jour/nuit tournait sur une boucle temporelle correcte. Mais la physique de l'eau était visiblement imparfaite — l'eau sous la surface ne coulait pas correctement, et il y avait un bug de rendu subtil où les blocs translucides révélaient du terrain qui ne devrait pas être visible. C'est la même classe générale de cas limite de rendu 3D que j'ai vue sur Gemini et Opus quand ils ont tenté des clones Minecraft, donc cela semble être un point faible constant entre les modèles frontières, pas un échec spécifique à Qwen.
Le pattern esthétique à travers tous les tests 3D : Qwen 3.7 Max veut être ambitieux. Il vise une sortie complexe plutôt que de se replier sur un minimalisme sûr. Parfois l'ambition dépasse la maîtrise sur les cas limites physiques. Plus souvent, l'ambition réussit de manières qui m'ont surpris.
Test 4 : Le clone Airbnb à partir d'une capture d'écran
Ce test évalue une capacité qui n'apparaît pas dans les benchmarks standard mais qui compte beaucoup pour le vrai travail : la traduction visuel-vers-code quand l'entrée comprend à la fois une capture d'écran et une spécification écrite.
J'ai donné à Qwen 3.7 Max une capture d'écran d'une page de listing Airbnb accompagnée d'un prompt décrivant les comportements interactifs souhaités — en-tête collant, animations déclenchées au scroll sur la galerie photo, barre latérale de filtres fonctionnelle, points de rupture responsive pour mobile.
La sortie était plus propre que ce à quoi je m'attendais. La fidélité visuelle par rapport à la capture était d'environ 85 % — la hiérarchie typographique était juste, le système d'espacement correspondait, la palette de couleurs était correctement extraite. Les comportements interactifs fonctionnaient tous au premier lancement, y compris les animations déclenchées au scroll qui nécessitent habituellement du débogage pour ajuster les seuils de déclenchement.
Là où c'était en dessous : certains des détails visuels plus nuancés étaient « kitsch » plutôt que raffinés. L'ombre sur les cartes de la galerie photo était trop lourde. L'état de survol sur les boutons de filtre utilisait une couleur saturée qui ne correspondait pas au véritable langage de design d'Airbnb. Ce sont le genre de problèmes de finition qui apparaissent quand un modèle produit une sortie front-end à partir d'un indice visuel vague sans spécifications explicites du système de design.
La leçon : Qwen 3.7 Max est excellent en sortie front-end quand vous lui donnez des prompts détaillés avec des références visuelles spécifiques. Il est simplement bon quand vous lui donnez une direction créative vague. Si vous l'utilisez pour du travail front-end en production, traitez-le comme un développeur senior qui a besoin d'un brief de design clair — pas comme un designer qui peut combler les lacunes par le goût seul.
Où Qwen 3.7 Max se situe face à la concurrence
Mettons les chiffres de benchmark en un seul endroit, parce que le tableau comparatif raconte la vraie histoire :
Artificial Analysis Intelligence Index (raisonnement global) :
- GPT-5.5 : 60,2
- Opus 4.7 : 57,3
- Qwen 3.7 Max : 56,6
- Gemini 3.5 Flash : 55,3
- Qwen 3.6 Max Preview : 51,8
SWE-bench Verified (ingénierie logicielle réelle) :
- Opus 4.7 : ~80,8
- Qwen 3.7 Max : 60,6 sur Terminal Bench 2.0 ; correspond à Opus sur SWE-Verified à 80,4
- DS-V4-Pro Max : 80,6
Exécution autonome longue durée :
- Qwen 3.7 Max : 35 heures, 1 158 appels d'outils soutenus
- Opus 4.7 : multi-heures soutenu (nombre précis non publié)
- GPT-5.5 : perte de cohérence autour de 180-200 appels dans mes tests
Coût API (par 1M tokens, entrée/sortie) :
- Qwen 3.7 Max : 2,50 $ / 7,50 $
- Opus 4.7 : 5 $ / 25 $
- GPT-5.5 : environ 3-4x le prix de Qwen selon le palier
En raisonnement global, Qwen 3.7 Max se situe à environ un demi-point derrière Opus 4.7. Sur les benchmarks d'ingénierie logicielle réelle, il est compétitif avec Opus et légèrement devant la plupart des autres modèles du marché. Sur les contextes en langues asiatiques et le codage multilingue, il est en tête. Sur l'exécution autonome longue durée, c'est actuellement le modèle le plus fiable que j'ai testé pour des workflows agentiques soutenus.
Et en coût-par-itération, rien d'autre dans cette catégorie ne s'en approche.
Pour la plupart des charges de travail agentiques que je fais tourner en 2026, ce ratio coût-par-itération est ce qui détermine le choix du modèle. Quand je fais tourner une boucle agentique qui doit faire 400 appels d'outils sur six heures, payer 8 fois plus pour Opus 4.7 pour obtenir peut-être 5 % de meilleure qualité par appel est un mauvais calcul. Quand je relis une PR architecturale complexe où une mauvaise recommandation pourrait envoyer une faille de sécurité en production, Opus vaut toujours la prime.
La question du choix de modèle, reformulée : quelle forme de travail justifie le prix ?
Si la forme est courte, à enjeux élevés, en appel unique : Opus 4.7.
Si la forme est longue, itérative, pilotée par agent : Qwen 3.7 Max.
C'est le cadre. Tout le reste n'est que détail d'implémentation.
Ce que Qwen 3.7 Max ne peut véritablement pas faire
Je veux être honnête sur les limites du modèle, parce que le battage du lancement va surestimer ce qu'il peut gérer.
Pas d'entrée multimodale. C'est la grosse limite. Qwen 3.7 Max est texte uniquement. Pas d'entrée image, pas d'audio, pas de vidéo. Si votre workflow nécessite de la compréhension vision-langage — débogage de captures d'écran, OCR de documents, analyse vidéo — vous regardez le mauvais modèle. Alibaba a des variantes séparées capables de vision (Qwen 3.7 Plus a la vision), mais le vaisseau amiral Max est en entrée texte uniquement.
Cela compte parce que beaucoup de workflows agentiques en 2026 supposent de plus en plus que le modèle peut voir ce qu'il fait. Regarder un rendu UI en échec, lire une stack trace depuis une capture d'écran, analyser un mockup de design — ce sont toutes des choses qu'Opus 4.7 et GPT-5.5 font nativement, et que Qwen 3.7 Max ne peut tout simplement pas faire.
Le front-end devient kitsch sans prompts détaillés. Comme je l'ai couvert dans le Test 4 — donnez-lui un brief clair et il produit une excellente sortie. Donnez-lui un vague « rends ça joli » et il tend vers des ombres plus lourdes, des couleurs saturées, et des choix de design qui se lisent comme enthousiastes-mais-indisciplinés. Si vous l'utilisez pour du travail sensible au design, préparez-vous à être plus prescriptif dans vos prompts qu'il ne le faudrait avec Claude.
Cas limites de physique 3D. Le problème d'écoulement d'eau du Minecraft que j'ai rencontré n'est pas unique — il y a un pattern constant où Qwen 3.7 Max gère bien le rendu visuel des scènes 3D mais la simulation physique sous-jacente peut avoir des lacunes. Les interactions de particules, la dynamique des fluides et la logique de collision complexe sont les domaines où je ferais tourner un deuxième modèle en vérification.
Les tests de biais et d'explicabilité sont opaques. Alibaba n'a pas publié de résultats détaillés d'évaluation des biais, de fiches modèle sur la composition des données d'entraînement, ni de recherche en explicabilité comme Anthropic l'a fait pour Opus 4.7. Pour la plupart du travail d'ingénierie, c'est correct. Pour les décisions à enjeux élevés impliquant l'équité, la modération de contenu ou l'exposition juridique — je voudrais plus de transparence que ce qu'Alibaba fournit actuellement.
C'est hébergé uniquement. Pas de poids ouverts. Pas d'inférence locale. Pas de téléchargement. Vous accédez à Qwen 3.7 Max via l'API DashScope d'Alibaba Cloud ou vous n'y accédez pas du tout. Il y a un chatbot gratuit sur chat.qwen.ai avec un toggle mode rapide/réflexion qui donne un accès preview sans configuration API, mais si vous l'intégrez dans des workflows de production, vous vous engagez avec Alibaba Cloud comme dépendance. Pour certaines équipes, la géopolitique de cela compte. Pour d'autres, c'est juste un fournisseur de plus.
Aucune de ces limites n'est rédhibitoire pour les charges de travail où Qwen 3.7 Max excelle. Mais elles définissent le périmètre de là où vous devriez et ne devriez pas le solliciter.
L'avantage multilingue que la plupart des analyses occidentales ignorent
Voici la partie de l'histoire de Qwen 3.7 Max que je pense que l'analyse occidentale a constamment sous-estimée : la performance multilingue sur les contextes en langues asiatiques est véritablement la meilleure de sa catégorie, et ce n'est même pas serré.
Quand j'ai testé la génération de code avec des commentaires et de la documentation en chinois, japonais et coréen, Qwen 3.7 Max a produit une sortie qui se lisait naturellement dans ces langues — les commentaires n'étaient pas de l'anglais traduit, c'était de la rédaction technique idiomatique en langue native. Le nommage de variables dans des bases de code multilingues restait cohérent. Les prompts bilingues où la spec était en chinois mais l'exigence était du code en anglais ne faisaient pas trébucher le modèle comme ils font trébucher GPT-5.5 et Opus 4.7.
C'est la charge de travail où Qwen 3.7 Max n'est pas seulement compétitif avec les modèles phares américains — c'est la réponse évidente. Si vous construisez des produits pour les marchés chinois, japonais ou d'Asie du Sud-Est, ou si votre équipe écrit du code avec de la documentation en plusieurs langues, la question du choix de modèle est réglée.
J'ai couvert une partie de cette dynamique dans mon analyse de l'économie des abonnements IA sur le marché gris chinois — la réalité est que les développeurs chinois contournent l'accès aux API occidentales depuis des années, et la montée de modèles domestiques véritablement compétitifs comme Qwen 3.7 Max change ce calcul de façon permanente. Pourquoi un développeur à Shenzhen paierait-il 8 fois plus pour un modèle américain quand l'option domestique le rejoint sur les charges de travail qui comptent et le bat sur le traitement multilingue ?
Comment je l'utilise réellement en production
Trois jours ne suffisent pas pour fixer un workflow permanent, mais voici où Qwen 3.7 Max remplace déjà d'autres modèles dans ma pile :
Boucles agentiques à nombreux appels d'outils. Tout ce qui s'attend à plus de 100 invocations d'outils séquentielles démarre maintenant avec Qwen 3.7 Max. La réduction de coût est significative et la cohérence tient. Je couvre le pattern plus large dans mon article sur l'optimisation des coûts des agents IA — les calculs pointent vers les modèles frontières chinois pour le palier agentique à haut volume depuis des mois, et Qwen 3.7 Max est maintenant le choix par défaut évident.
Prototypage front-end à partir de captures d'écran. La traduction visuel-vers-code est assez forte pour que je l'utilise en première passe d'implémentation, puis je fais le travail de finition manuellement ou avec Claude pour le raffinement du langage de design.
Génération de code multilingue. Tout ce qui implique de la documentation ou du contexte de base de code en chinois, japonais ou coréen passe d'abord par Qwen.
Contenu éducatif avec infographies. La génération de SVG et de diagrammes est assez bonne pour que j'aie commencé à l'utiliser pour les visuels explicatifs dans mes articles sur l'architecture agentique.
Agents de recherche longue durée. La capacité d'exécution soutenue de 35 heures est la charge de travail où Alibaba a véritablement ouvert une nouvelle catégorie. Je construis un agent de recherche qui doit faire tourner une revue de littérature autonome pendant 12 à 18 heures d'affilée, et Qwen 3.7 Max est le seul modèle auquel je ferais actuellement confiance pour maintenir la cohérence sur cette fenêtre à un coût qui rend le projet viable.
Là où je reste sur Opus 4.7 par défaut : décisions architecturales à enjeux élevés, revue de code sensible à la sécurité, tout ce qui demande une qualité de pointe en appel unique plutôt que du débit. La prime de coût de 8x pour Opus sur ces charges de travail vaut le coup parce que le coût d'une erreur vaut plus que le coût de bien faire.
GPT-5.5 s'est fait discrètement comprimer dans ce tableau — il y a de moins en moins de charges de travail où c'est la réponse évidente. Pour le travail de codage spécifiquement, ma comparaison de GPT-5.5 et Opus 4.7 a couvert une partie de cette dynamique, et Qwen 3.7 Max rend l'étau plus serré.
La vraie histoire n'est pas le modèle — C'est ce que le chiffre du Tetris signifie
Je veux revenir à ce gain de 56 % à 1,30 $, parce que je ne pense pas que l'industrie ait pleinement métabolisé ce que cela implique.
Depuis deux ans, l'hypothèse sous-jacente à la tarification des modèles frontières est que la capacité est rare et coûteuse, donc la tarification premium paie simplement ce qui est difficile à construire. Opus 4.7 facture 5 $ en entrée parce que la capacité de raisonnement de pointe est véritablement difficile à produire, et Anthropic est le labo qui la produit le mieux.
Mais le benchmark Tetris suggère que sur une classe spécifique de charges de travail — les boucles d'auto-amélioration itérative — la capacité n'est plus le goulot d'étranglement. L'efficacité de coût sur l'itération est le goulot d'étranglement. Et sur cet axe, Qwen 3.7 Max n'est pas seulement compétitif avec les labos frontières américains. Il est en tête d'un facteur de deux.
Si ce pattern se maintient à travers d'autres charges de travail agentiques — et mes quatre jours de tests suggèrent que oui — la structure de prix qui tient depuis le lancement de GPT-4 va se comprimer rapidement. Soit les labos américains réduisent significativement leurs prix, soit ils cèdent entièrement le palier agentique à haut volume à la concurrence chinoise.
C'est ce que je surveille le plus attentivement en ce moment. Non pas si Qwen 3.7 Max est « meilleur » qu'Opus 4.7 dans un sens abstrait. Mais si son existence force l'ensemble du marché des modèles frontières à se retarifer pour l'ère des agents.
Quand j'ai commencé cette review, j'ai noté trois chiffres : 56 %, 1,30 $, et 28 % à 12,15 $.
Trois jours plus tard, le chiffre auquel je pense réellement est celui que ces données impliquent : 8x. C'est l'écart de coût. C'est le ratio qu'Alibaba vient de rendre très difficile à justifier sur les charges de travail agentiques. Et tant que les labos américains n'auront pas trouvé comment le combler, Qwen 3.7 Max est le modèle vers lequel j'orienterais un développeur comme choix par défaut pour le travail de codage piloté par agent en 2026 — en pleine conscience de chaque limite que j'ai couverte ci-dessus.
L'ère des agents était censée être le moment où les modèles commenceraient à faire du vrai travail autonome pendant des heures d'affilée. Il s'est avéré que le labo qui avance le plus vite sur cette frontière n'était pas celui que la plupart des développeurs américains surveillaient.
Ce soir, avant d'aller dormir, faites une chose : ouvrez chat.qwen.ai, passez en mode réflexion, et donnez-lui la tâche de codage agentique la plus difficile de votre backlog actuel. Non pas parce que le modèle va remplacer votre pile actuelle demain — mais parce que si vous ne l'essayez pas, vous serez le dernier de votre équipe à savoir ce qui vient de changer.
Questions fréquemment posées
Qwen 3.7 Max est-il meilleur que Claude Opus 4.7 pour le codage ?
Qwen 3.7 Max se situe à environ un demi-point derrière Opus 4.7 sur les benchmarks de raisonnement global (56,6 vs 57,3 sur l'Artificial Analysis Intelligence Index) mais l'emporte décisivement en coût-par-itération pour les workflows agentiques. Pour les longues boucles agentiques, Qwen 3.7 Max est le meilleur choix. Pour le travail à enjeux élevés en appel unique, Opus 4.7 reste en tête.
Combien coûte Qwen 3.7 Max ?
Qwen 3.7 Max coûte 2,50 $ par million de tokens en entrée et 7,50 $ par million de tokens en sortie sur Alibaba Cloud. C'est environ la moitié du prix de Claude Opus 4.7 (5 $/25 $ par million) et nettement moins cher que GPT-5.5. Un chatbot gratuit est également disponible sur chat.qwen.ai avec inscription de compte.
Qwen 3.7 Max peut-il traiter des images ou de la vidéo ?
Non. Qwen 3.7 Max est en entrée texte uniquement — pas de vision, d'audio ou de support vidéo. Si vous avez besoin de capacité multimodale dans la gamme d'Alibaba, regardez Qwen 3.7 Plus qui inclut la vision. Pour le travail multimodal frontière en 2026, Opus 4.7 et GPT-5.5 sont les meilleurs choix.
Quelle est la longueur de contexte maximale et combien de temps Qwen 3.7 Max peut-il fonctionner en autonomie ?
Qwen 3.7 Max a une fenêtre de contexte d'un million de tokens et peut maintenir une exécution autonome cohérente pendant environ 35 heures et 1 158 appels d'outils continus dans des harnais d'agents en production, d'après le run d'optimisation de noyau publié par Alibaba. Dans mes propres tests sur des runs réduits de 4 heures, la cohérence s'est maintenue sans dérive contextuelle.
Qwen 3.7 Max est-il disponible en poids ouverts ?
Non. Qwen 3.7 Max est un modèle propriétaire à poids fermés hébergé exclusivement sur Alibaba Cloud via l'API DashScope. Il n'y a pas de téléchargement Hugging Face, pas d'inférence locale, pas de publication GitHub. Les modèles Qwen à poids ouverts (comme Qwen 3.6-35B-A3B) sont des versions séparées à des niveaux de capacité différents.
Travaillons ensemble
Vous cherchez à construire des systèmes IA, automatiser des workflows, ou faire évoluer votre infrastructure technologique ? Je serais ravi de vous aider.
- Fiverr (développements personnalisés et intégrations) : fiverr.com/s/EgxYmWD
- Portfolio : mejba.me
- Ramlit Limited (solutions entreprise) : ramlit.com
- ColorPark (design et branding) : colorpark.io
- xCyberSecurity (services de sécurité) : xcybersecurity.io