Qwen 3.7 Max Review: El Modelo Insignia de Alibaba para la Era de los Agentes a Prueba

El primer número que anoté fue 56 %. El segundo fue 1,30 $. El tercero fue 28 % a 12,15 $.

Esa es toda la historia de por qué Qwen 3.7 Max importa, comprimida en tres datos. Alibaba ejecutó un bucle de autoentrenamiento con Tetris — diez iteraciones del modelo mejorando su propio código de juego, completamente autónomo, sin intervención humana. Qwen 3.7 Max obtuvo un 56 % de mejora de rendimiento por un dólar con treinta centavos en costes de API. Opus 4.7 obtuvo un 28 % por 12,15 $. GPT-5.5 obtuvo un 7 % por 2,85 $.

Miré esa tabla durante mucho tiempo. No porque las cifras brutas de capacidad fueran impactantes — Opus 4.7 sigue siendo nominalmente un modelo más potente en benchmarks generales de razonamiento — sino porque la relación coste-por-mejora reorganizó por completo cómo pienso sobre qué modelo merece el presupuesto del bucle de agentes en la mayoría de mis cargas de trabajo.

Así que hice lo que hago cada vez que un laboratorio chino lanza algo que hace que las cuentas no cuadren: vacié la agenda, abrí la API y pasé tres días dentro del nuevo buque insignia de Alibaba. El clon de macOS del que todos están haciendo capturas de pantalla. El pelícano voxelizado. El acuario con física de aletas individuales. La ejecución autónoma de optimización de kernel de 35 horas. Quería saber si Qwen 3.7 Max es el modelo que cierra la brecha de programación agéntica con los laboratorios frontera de EE. UU., o si es una proeza de benchmark que se desmorona bajo cargas de trabajo reales.

Esto es lo que encontré — y el punto donde creo que Alibaba realmente ha cambiado la conversación no es el que esperarías.

Por qué este lanzamiento aterriza diferente a los últimos tres de Qwen

Alibaba anunció Qwen 3.7 Max en el Alibaba Cloud Summit 2026 el 20 de mayo, dos días antes de escribir esto. Las variantes preview habían estado filtrándose en la tabla de clasificación de LM Arena desde el 14 de mayo — tiempo suficiente para que algunos hubiéramos estado ejecutando pruebas contra los checkpoints sin marcar antes de la revelación formal.

La cifra titular con la que Alibaba lideró: 56,6 en el Artificial Analysis Intelligence Index, una ganancia de 4,8 puntos sobre los 51,8 de Qwen 3.6 Max Preview. Eso coloca a Qwen 3.7 Max como el modelo chino mejor clasificado en ese índice — por delante de Gemini 3.5 Flash con 55,3, por detrás de GPT-5.5 con 60,2 y Opus 4.7 con 57,3.

Hace dos meses probé Qwen 3.6 Max Preview contra Opus 4.7 y GPT-5.5 y concluí que Alibaba no estaba intentando ganar la carrera de capacidad absoluta — estaban apostando fuerte por la carrera de capacidad-por-dólar. Qwen 3.7 Max es el siguiente paso en esa apuesta, pero con un giro más marcado: este lanzamiento no se trata solo de tokens más baratos. Se trata de ejecución agéntica sostenida en cargas de trabajo donde el coste de ejecutar un bucle largo importa tanto como la calidad de cualquier llamada individual.

Mientras que Qwen 3.6 Max Preview era un modelo de calidad frontera con precios de descuento frontera, Qwen 3.7 Max es un modelo específicamente ajustado para la forma de trabajo que los agentes realmente hacen: horizontes largos, cientos de llamadas a herramientas, contexto multilingüe, automejora iterativa sobre un único objetivo.

Ese posicionamiento importa porque el resto de la industria ha estado convergiendo en la misma idea. El lanzamiento de Opus 4.7 de Anthropic se apoyó fuertemente en arneses de agentes de varias horas. GPT-5.5 de OpenAI impulsó la integración de Codex. Ahora Alibaba aparece con un modelo que ejecuta flujos de trabajo autónomos durante 35 horas seguidas a aproximadamente un octavo del coste de sus competidores estadounidenses.

La pregunta interesante no es si Qwen 3.7 Max es el mejor modelo del mundo. No lo es. La pregunta es si es lo suficientemente bueno en las cargas de trabajo que consumen la mayor parte del presupuesto de agentes — y eso es lo que pasé tres días averiguando.

Antes de llegar a los resultados de las pruebas, hay un detalle arquitectónico que necesitas entender, porque explica todo lo que sigue.

La apuesta arquitectónica detrás del 56 % de ganancia en Tetris

El benchmark de autoentrenamiento con Tetris que Alibaba publicó es la comparación más clarificadora de todo su paquete de lanzamiento. Misma carga de trabajo en los tres modelos — diez bucles iterativos donde la IA mejora su propio código de juego, evalúa el resultado e itera. Mismas condiciones iniciales. Mismo arnés.

Modelo	Mejora	Coste	Notas
Qwen 3.7 Max	56 %	1,30 $	Mejor ganancia, menor coste
Opus 4.7	28 %	12,15 $	Ganancia media, caro
GPT-5.5	7 %	2,85 $	Ganancia baja, coste medio

Lee esa tabla dos veces. Qwen 3.7 Max no solo ganó en coste. Ganó en mejora absoluta — por un factor de dos contra Opus 4.7 y un factor de ocho contra GPT-5.5. El modelo más barato produjo la mayor ganancia en una carga de trabajo que fundamentalmente trata sobre razonamiento agéntico iterativo.

Eso no es una casualidad de benchmark. Es una apuesta arquitectónica deliberada que se refleja en los números.

Esto es lo que creo que realmente está pasando. Alibaba está optimizando lo que yo llamaría coherencia por iteración — la capacidad del modelo para mantener un razonamiento útil a través de muchas llamadas secuenciales a herramientas sin deriva de contexto, suposiciones alucinadas o degradación de calidad. La mayoría de los modelos frontera siguen optimizados para brillantez en una sola llamada. Producen resultados magníficos de un solo disparo, luego se degradan a medida que el contexto crece y el bucle del agente se profundiza.

Qwen 3.7 Max sacrifica una pequeña cantidad de rendimiento pico en llamada individual a cambio de una cantidad mucho mayor de estabilidad en múltiples llamadas. En un prompt de una sola vez, Opus 4.7 todavía lo supera. En un bucle iterativo con diez rondas de automodificación, Qwen 3.7 Max produce el doble de mejora acumulativa a una décima parte del coste.

Si estás ejecutando agentes en producción, ese es el eje de capacidad más importante ahora mismo. No "¿qué tan brillante es una respuesta?" sino "¿con qué fiabilidad el modelo acumula resultados a lo largo de cien respuestas?"

Los precios hacen esa apuesta legible. Qwen 3.7 Max está disponible a 2,50 $ por millón de tokens de entrada y 7,50 $ por millón de tokens de salida. Opus 4.7 cobra 5 $ por millón de entrada. Es una brecha de 2x en entrada y significativa en salida — y se acumula a lo largo de flujos de trabajo largos de maneras que el precio titular no hace obvias.

Ahora veamos qué hace realmente el modelo cuando se le pone bajo carga.

Prueba 1: El clon de macOS — Donde el bombo de la demo de Alibaba se sostiene

Cada lanzamiento de Qwen viene con una demo de "construye todo el escritorio macOS en un solo archivo HTML". Estoy cansado de estas demos porque no dicen casi nada sobre cómo un modelo maneja trabajo de ingeniería real — pero las ejecuto de todas formas porque son una línea base útil para la calidad del output de front-end.

Le di a Qwen 3.7 Max el mismo prompt que usé con Qwen 3.6 Max Preview el mes pasado: construir un clon funcional del escritorio macOS con un dock funcional, barra de menú superior, apps funcionales y al menos dos juegos jugables en el navegador. HTML/CSS/JS puro. Un solo archivo.

Lo que obtuve fue el output de front-end de una sola llamada más pulido que he visto de cualquier modelo este año — incluyendo Opus 4.7.

El dock tenía iconos SVG con curvas de magnificación creíbles. La barra superior renderizaba un control deslizante de brillo funcional, un stub de Spotlight que realmente animaba y una transición de Launchpad que no parecía un desplegable de Bootstrap. Dentro del dock: Finder con un árbol de archivos, Editor de Texto con estado de guardado funcional, Paint con controles de tamaño de pincel, Calculadora con manejo correcto de orden de operaciones, Terminal con una implementación falsa de ls y cd, Snake con detección de colisiones que funcionaba de verdad, un widget de Clima extrayendo datos de un JSON simulado, Reloj, Vista Previa y un mockup de App Store con estados hover.

Safari era más débil — la barra de direcciones funcionaba pero la página renderizada era texto de relleno. Fotos era una cuadrícula de miniaturas sin lightbox. Mapas era un SVG estático. Así que no es un renderizado perfecto del sistema operativo. Pero las partes que acertó eran genuinamente buenas — el tipo de output donde, si un desarrollador junior lo hubiera producido, le preguntaría quién es y si está disponible para trabajo por contrato.

La parte interesante es la tipografía y el manejo de triggers de scroll. Hay una atención visible al espaciado, las transiciones de peso de fuente y el timing de movimiento que normalmente no se ve en modelos de laboratorios chinos. Algunos de los front-ends de SaaS editorial que Qwen 3.7 Max produce recuerdan estilísticamente a Claude — lo que me hace sospechar que hay superposición en los datos de entrenamiento o destilación en algún punto del pipeline. No es una crítica, solo una observación sobre de dónde vino la estética del front-end.

Ejecuté el mismo prompt contra Opus 4.7 para comparar. Opus produjo algo marginalmente más refinado — mejores transiciones del visor de fotos, espaciado del dock más sofisticado — pero tardó aproximadamente 2,8 veces más en generar y costó aproximadamente 9 veces más en tokens. El output de GPT-5.5 fue notablemente peor: el espaciado del dock estaba mal, dos de las apps tenían errores de diseño y el stub del Terminal no renderizó correctamente.

Esta es exactamente la carga de trabajo para la que Qwen 3.7 Max fue construido para ganar. Output de front-end pesado, libertad creativa, una sola llamada, sin necesidad de depuración posterior. Gana de forma limpia.

Pero las demos de front-end son el modo fácil. La siguiente prueba es donde empecé a ver la verdadera personalidad del modelo.

Prueba 2: La ejecución autónoma de 35 horas — Donde realmente vive la historia

Esta es la prueba que importa. La afirmación más agresiva de Alibaba sobre Qwen 3.7 Max es que puede mantener razonamiento autónomo coherente a través de aproximadamente flujos de trabajo de 35 horas con alrededor de 1.200 llamadas continuas a herramientas antes de que la deriva de contexto se convierta en un problema. El número que he visto confirmado en detalle: 1.158 llamadas a herramientas y 432 evaluaciones de kernel en una sola ejecución sostenida que optimizó un kernel de GPU para el chip Zhenwu M890 de Alibaba.

Obviamente no tenía 35 horas de presupuesto de API para replicar la ejecución completa. Lo que hice en su lugar fue configurar una versión a escala reducida: un bucle autónomo de 4 horas donde el modelo tenía que depurar un web scraper de Python deliberadamente roto, perfilar su rendimiento, reescribir las partes lentas y luego mejorar la cobertura de la suite de tests. Sin intervención humana. El modelo controlaba sus propias llamadas a herramientas a través de un arnés compatible con Claude Code (Qwen 3.7 Max soporta arneses externos incluyendo el de Anthropic, lo cual me sorprendió hasta que recordé que la capa de compatibilidad API de OpenAI/Anthropic se hereda de Qwen 3.6).

Cuatro horas. Unos 280 llamadas a herramientas. Tres ciclos completos de depuración-perfilado-reescritura-mejora.

El output fue la ejecución sostenida de agente más limpia que he visto de cualquier modelo que no sea de Anthropic. Sin deriva de contexto. Sin comportamiento de bucle. Sin rutas de archivo alucinadas después de la hora dos. Las correcciones que hizo en el tercer ciclo todavía referenciaban decisiones que había tomado en el primer ciclo — ese es el tipo de coherencia que requiere memoria real de contexto largo, no solo una ventana grande que el modelo no puede usar eficazmente.

Para comparar, cuando ejecuté un arnés similar contra Opus 4.7 el mes pasado, la calidad del output por llamada era ligeramente superior pero la ejecución costó aproximadamente 7 veces más para una finalización de tarea equivalente. Cuando lo ejecuté contra GPT-5.5, el modelo empezó a dar vueltas en algún punto alrededor de la llamada 180 y tuvo que reiniciarse.

La capacidad que importa aquí no es la inteligencia pico. Es la capacidad de mantener el bucle coherente. Qwen 3.7 Max parece tener algo específicamente ajustado en su pipeline de entrenamiento para trabajo agéntico sostenido — y en las cargas de trabajo que más me importan en 2026, esa es la capacidad que se multiplica en ganancias reales de productividad.

Prueba 3: La pila 3D — Pelícanos voxelizados, acuarios y un sistema solar

Aquí fue donde más me divertí, y también donde vi los casos límite del modelo.

El pelícano voxelizado en bicicleta salió limpio — proporciones correctas, pico reconocible, la bicicleta tenía ruedas que realmente rotaban impulsadas por un bucle de animación simple, y las alas del pelícano batían a un ritmo creíble. El paisaje de baja poligonización estilo Zelda tenía terreno triangulado que fluía naturalmente, baldosas de agua con un shader pasable y árboles con suficiente variación geométrica para no parecer colocados proceduralmente.

La simulación del acuario fue lo que me hizo incorporarme. Pedí "un acuario con múltiples especies de peces, física de aletas individuales donde las aletas responden al movimiento de nado, controles de UI en tiempo real para temperatura del agua y alimentación, y alimentación interactiva donde al hacer clic se arroja comida y los peces responden." Lo que obtuve fue una escena Three.js con siete modelos de peces distintos, cada uno con aletas articulándose ligeramente diferente según la velocidad de nado, un control deslizante de temperatura funcional que afectaba visiblemente el comportamiento de los peces, y una mecánica de clic-para-alimentar donde los peces realmente se dirigían hacia las partículas de comida.

¿Fue perfecto? No. Dos de los peces tenían sutil z-fighting en sus aletas. Las cáusticas del agua eran falsificadas en lugar de simuladas físicamente. Pero para un archivo HTML de una sola llamada desde un solo prompt, fue la escena 3D más interactiva que he obtenido de cualquier modelo frontera en 2026.

Las infografías SVG detalladas y los mapas resultaron igualmente fuertes — alta densidad informativa, iconografía limpia, el tipo de output donde elegiría Qwen 3.7 Max antes que cualquier otro modelo si necesitara generar diagramas explicativos a escala.

El sistema solar 3D fue donde el modelo realmente me impresionó en fidelidad física. Iluminación planetaria precisa con caída de sombra correcta en cada planeta, los anillos de Saturno renderizados como un anillo geométrico real en lugar de una textura plana, el Gran Ojo Rojo de Júpiter apareciendo como un patrón de remolino real, y un cinturón de asteroides con geometría distribuida que no parecía estar en un solo plano orbital.

Donde el modelo falla: el clon de Minecraft. Lo ejecuté específicamente porque quería ver cómo se mantenía el pipeline de voxels 3D bajo carga interactiva. El terreno destruible funcionaba. Los sistemas de cuevas se generaban correctamente. El ciclo día/noche corría en un bucle temporal adecuado. Pero la física del agua era visiblemente imperfecta — el agua bajo la superficie no fluía correctamente, y había un sutil error de renderizado donde los bloques translúcidos revelaban terreno que no deberías poder ver. Es la misma clase general de caso límite de renderizado 3D que vi en Gemini y Opus cuando intentaron clones de Minecraft, así que esto parece ser un punto débil consistente entre modelos frontera, no un fallo específico de Qwen.

El patrón estético en todas las pruebas 3D: Qwen 3.7 Max quiere ser ambicioso. Alcanza outputs complejos en lugar de retirarse a un minimalismo seguro. A veces el alcance excede el agarre en casos límite de física. Más a menudo, el alcance tiene éxito de maneras que me sorprendieron.

Prueba 4: El clon de Airbnb desde una captura de pantalla

Esta prueba apunta a una capacidad que no aparece en benchmarks estándar pero importa mucho para el trabajo real: la traducción de visual a código cuando la entrada incluye tanto una captura de pantalla como una especificación escrita.

Le di a Qwen 3.7 Max una captura de pantalla de una página de listado de Airbnb junto con un prompt describiendo los comportamientos interactivos que quería — encabezado fijo, animaciones activadas por scroll en la galería de fotos, barra lateral de filtros funcional, breakpoints responsivos para móvil.

El output fue más limpio de lo que esperaba. La fidelidad visual a la captura de pantalla era alrededor del 85 % precisa — la jerarquía tipográfica era correcta, el sistema de espaciado coincidía, la paleta de colores se extrajo correctamente. Los comportamientos interactivos funcionaron todos en la primera ejecución, incluyendo las animaciones activadas por scroll que normalmente requieren algo de depuración para acertar los umbrales de activación.

Donde se quedó corto: algunos de los detalles visuales más matizados eran "chabacanos" en lugar de refinados. La sombra en las tarjetas de la galería de fotos era demasiado pesada. El estado hover en los botones de filtro usaba un color saturado que no coincidía con el lenguaje de diseño real de Airbnb. Estos son el tipo de problemas de pulido que aparecen cuando un modelo produce output de front-end a partir de una pista visual vaga sin especificaciones explícitas de sistema de diseño.

La lección: Qwen 3.7 Max es excelente en output de front-end cuando le das prompts detallados con referencias visuales específicas. Es simplemente bueno cuando le das dirección creativa vaga. Si lo estás usando para trabajo de front-end en producción, trátalo como un desarrollador senior que necesita un brief de diseño claro — no como un diseñador que puede llenar los huecos solo con buen gusto.

Dónde se sitúa Qwen 3.7 Max frente al campo

Permítanme poner los números de benchmark en un solo lugar, porque la tabla comparativa cuenta la historia real:

Artificial Analysis Intelligence Index (razonamiento general):

GPT-5.5: 60,2
Opus 4.7: 57,3
Qwen 3.7 Max: 56,6
Gemini 3.5 Flash: 55,3
Qwen 3.6 Max Preview: 51,8

SWE-bench Verified (ingeniería de software del mundo real):

Opus 4.7: ~80,8
Qwen 3.7 Max: 60,6 en Terminal Bench 2.0; iguala a Opus en SWE-Verified con 80,4
DS-V4-Pro Max: 80,6

Ejecución autónoma de largo horizonte:

Qwen 3.7 Max: 35 horas, 1.158 llamadas a herramientas sostenidas
Opus 4.7: Sostenido durante varias horas (número específico no publicado)
GPT-5.5: Pérdida de coherencia alrededor de las 180-200 llamadas en mis pruebas

Coste de API (por 1M tokens, entrada/salida):

Qwen 3.7 Max: 2,50 $ / 7,50 $
Opus 4.7: 5 $ / 25 $
GPT-5.5: aproximadamente 3-4x los precios de Qwen dependiendo del nivel

En razonamiento general, Qwen 3.7 Max se sitúa aproximadamente medio punto por detrás de Opus 4.7. En benchmarks de ingeniería de software del mundo real, es competitivo con Opus y ligeramente por delante de la mayoría de los otros modelos del campo. En contextos de idiomas asiáticos y programación multilingüe, lidera claramente. En ejecución autónoma de largo horizonte, es actualmente el modelo más fiable que he probado para flujos de trabajo de agentes sostenidos.

Y en coste por iteración, nada más en este nivel se le acerca.

Para la mayoría de las cargas de trabajo agénticas que ejecuto en 2026, esa métrica de coste por iteración es lo que determina la elección de modelo. Cuando estoy ejecutando un bucle de agentes que necesita hacer 400 llamadas a herramientas durante seis horas, pagar 8 veces más por Opus 4.7 para obtener quizás un 5 % de mejor calidad por llamada es un mal trato. Cuando estoy revisando un PR de arquitectura compleja donde una recomendación incorrecta podría enviar un fallo de seguridad, Opus sigue mereciendo la prima.

La pregunta de selección de modelo, reformulada: ¿qué forma de trabajo justifica el precio?

Si la forma es corta, de alto riesgo, de una sola llamada: Opus 4.7.

Si la forma es larga, iterativa, impulsada por agentes: Qwen 3.7 Max.

Ese es el marco. Todo lo demás son detalles de implementación.

Lo que Qwen 3.7 Max genuinamente no puede hacer

Quiero ser honesto sobre las limitaciones del modelo, porque el bombo del lanzamiento va a exagerar lo que puede manejar.

Sin entrada multimodal. Este es el grande. Qwen 3.7 Max es solo texto. Sin entrada de imagen, sin audio, sin video. Si tu flujo de trabajo requiere comprensión visión-lenguaje — depuración de capturas de pantalla, OCR de documentos, análisis de video — estás mirando el modelo equivocado. Alibaba tiene variantes separadas con capacidad de visión (Qwen 3.7 Plus tiene visión), pero el buque insignia Max es solo entrada de texto.

Esto importa porque muchos flujos de trabajo agénticos en 2026 asumen cada vez más que el modelo puede ver lo que está haciendo. Mirar un renderizado de UI fallido, leer un stack trace de una captura de pantalla, analizar un mockup de diseño — todas estas son cosas que Opus 4.7 y GPT-5.5 hacen de forma nativa, y Qwen 3.7 Max simplemente no puede.

El front-end se vuelve chabacano sin prompts detallados. Como cubrí en la Prueba 4 — dale un brief claro y produce un output excelente. Dale un vago "haz que esto se vea bien" y tiende hacia sombras más pesadas, colores saturados y decisiones de diseño que se leen como entusiastas-pero-indisciplinadas. Si lo estás usando para trabajo sensible al diseño, prepárate para ser más prescriptivo en tus prompts de lo que necesitarías ser con Claude.

Casos límite de física 3D. El problema de flujo de agua en Minecraft que encontré no es único — hay un patrón consistente donde Qwen 3.7 Max maneja bien el renderizado visual de escenas 3D pero la simulación física subyacente puede tener huecos. Interacciones de partículas, dinámica de fluidos y lógica de colisión compleja son áreas donde ejecutaría un segundo modelo como verificación.

Las pruebas de sesgo y explicabilidad son opacas. Alibaba no ha publicado resultados detallados de evaluación de sesgo, detalles de la tarjeta del modelo sobre la composición de datos de entrenamiento, ni investigación de explicabilidad como Anthropic lo ha hecho para Opus 4.7. Para la mayoría del trabajo de ingeniería esto está bien. Para decisiones de alto riesgo que involucran equidad, moderación de contenido o exposición legal — querría más transparencia de la que Alibaba proporciona actualmente.

Solo está alojado. Sin pesos abiertos. Sin inferencia local. Sin descarga. Accedes a Qwen 3.7 Max a través de la API DashScope de Alibaba Cloud o no accedes en absoluto. Hay un chatbot gratuito en chat.qwen.ai con un interruptor de modo rápido/pensamiento que da acceso de vista previa sin configuración de API, pero si lo estás integrando en flujos de trabajo de producción, te estás comprometiendo con Alibaba Cloud como dependencia. Para algunos equipos, la geopolítica de eso importa. Para otros, es simplemente otro proveedor.

Ninguna de estas limitaciones es un impedimento para las cargas de trabajo donde Qwen 3.7 Max destaca. Pero sí definen la forma de dónde deberías y no deberías recurrir a él.

La ventaja multilingüe que la mayoría de las coberturas pasan por alto

Aquí está la parte de la historia de Qwen 3.7 Max que creo que el análisis occidental ha subestimado consistentemente: el rendimiento multilingüe en contextos de idiomas asiáticos es genuinamente el mejor de su clase, y no es ni siquiera cercano.

Cuando probé la generación de código con comentarios y documentación en chino, japonés y coreano, Qwen 3.7 Max produjo output que se leía como natural en esos idiomas — los comentarios no eran inglés traducido, eran escritura técnica idiomática en lengua nativa. La nomenclatura de variables en bases de código de idiomas mixtos se mantuvo consistente. Prompts bilingües donde la especificación estaba en chino pero el requisito era código en inglés no confundieron al modelo como confunden a GPT-5.5 y Opus 4.7.

Este es el tipo de carga de trabajo donde Qwen 3.7 Max no solo compite con los buques insignia estadounidenses — es la respuesta obvia. Si estás construyendo productos para los mercados chino, japonés o del sudeste asiático, o si tu equipo escribe código con documentación en múltiples idiomas, la pregunta de selección de modelo está resuelta.

Cubrí parte de esta dinámica en mi análisis de la economía de suscripciones de IA del mercado gris chino — la realidad es que los desarrolladores chinos han estado sorteando el acceso a APIs occidentales durante años, y el surgimiento de modelos domésticos genuinamente competitivos como Qwen 3.7 Max cambia ese cálculo de forma permanente. ¿Por qué pagaría un desarrollador en Shenzhen 8 veces más por un modelo estadounidense cuando la opción doméstica lo iguala en las cargas de trabajo que importan y lo supera en manejo multilingüe?

Cómo lo estoy usando realmente en producción

Tres días no son suficientes para fijar un flujo de trabajo permanente, pero aquí es donde Qwen 3.7 Max ya está reemplazando otros modelos en mi stack:

Bucles de agentes con llamadas intensivas a herramientas. Todo donde espero más de 100 invocaciones secuenciales de herramientas ahora comienza con Qwen 3.7 Max. La reducción de costes es significativa y la coherencia se mantiene. Cubro el patrón más amplio en mi artículo sobre optimización de costes de agentes de IA — las matemáticas han estado apuntando hacia modelos frontera chinos para el nivel de alto volumen de agentes durante meses, y Qwen 3.7 Max es ahora la opción predeterminada obvia.

Prototipado de front-end desde capturas de pantalla. La traducción de visual a código es lo suficientemente fuerte como para usarla para la primera implementación, luego hago el trabajo de pulido manualmente o con Claude para el refinamiento del lenguaje de diseño.

Generación de código multilingüe. Todo lo que involucra documentación o contexto de base de código en chino, japonés o coreano pasa primero por Qwen.

Contenido educativo con infografías. La generación de SVG y diagramas es lo suficientemente buena como para que haya empezado a usarla para los visuales explicativos en mis artículos sobre arquitectura de agentes.

Agentes de investigación de largo horizonte. La capacidad de ejecución sostenida de 35 horas es la carga de trabajo donde Alibaba ha abierto genuinamente una nueva categoría. Estoy construyendo un agente de investigación que necesita ejecutar revisión de literatura autónoma durante 12-18 horas seguidas, y Qwen 3.7 Max es el único modelo en el que confiaría actualmente para mantener coherencia a lo largo de esa ventana a un coste que hace el proyecto viable.

Donde sigo recurriendo a Opus 4.7 por defecto: decisiones arquitectónicas de alto riesgo, revisión de código sensible a la seguridad, cualquier cosa donde la calidad pico de una sola llamada importa más que el rendimiento. La prima de coste de 8x para Opus en esas cargas de trabajo vale la pena porque el coste de equivocarse vale más que el coste de acertar.

GPT-5.5 se ha visto silenciosamente apretado en este panorama — hay menos cargas de trabajo donde es la respuesta claramente correcta. Para trabajo de programación específicamente, mi comparación de GPT-5.5 y Opus 4.7 cubrió parte de esa dinámica, y Qwen 3.7 Max hace el apretón más fuerte.

La historia real no es el modelo — Es lo que significa el número de Tetris

Quiero volver a ese 56 % de ganancia a 1,30 $, porque no creo que la industria haya metabolizado completamente lo que implica.

Durante dos años, la suposición debajo de la fijación de precios de modelos frontera ha sido que la capacidad es escasa y cara, así que el precio premium simplemente paga por lo que es difícil de construir. Opus 4.7 cobra 5 $ de entrada porque la capacidad de razonamiento pico es genuinamente difícil de producir, y Anthropic es el laboratorio que lo produce mejor.

Pero el benchmark de Tetris sugiere que en una clase específica de carga de trabajo — bucles de automejora iterativa — la capacidad ya no es el cuello de botella. La eficiencia de costes en la iteración es el cuello de botella. Y en ese eje, Qwen 3.7 Max no solo es competitivo con los laboratorios frontera de EE. UU. Lidera por un factor de dos.

Si ese patrón se mantiene en otras cargas de trabajo agénticas — y mis cuatro días de pruebas sugieren que sí — la estructura de precios que se ha mantenido desde el lanzamiento de GPT-4 se va a comprimir rápido. O los laboratorios estadounidenses recortan precios significativamente, o ceden el nivel de alto volumen agéntico a la competencia china por completo.

Eso es lo que estoy observando con más cuidado ahora mismo. No si Qwen 3.7 Max es "mejor" que Opus 4.7 en algún sentido abstracto. Sino si su existencia fuerza a todo el mercado de modelos frontera a reajustar sus precios para la era de los agentes.

Cuando empecé esta review, anoté tres números: 56 %, 1,30 $ y 28 % a 12,15 $.

Tres días después, el número en el que realmente estoy pensando es el que esos datos implican: 8x. Esa es la brecha de costes. Esa es la proporción que Alibaba acaba de hacer muy difícil de justificar en cargas de trabajo agénticas. Y hasta que los laboratorios estadounidenses descubran cómo cerrarla, Qwen 3.7 Max es el modelo al que señalaría a un desarrollador como su opción predeterminada para trabajo de programación impulsado por agentes en 2026 — con plena conciencia de cada limitación que he cubierto arriba.

Se suponía que la era de los agentes sería el momento en que los modelos empezarían a hacer trabajo autónomo real durante horas seguidas. Resultó que el laboratorio que se mueve más rápido en esa frontera no era el que la mayoría de los desarrolladores estadounidenses estaban observando.

Esta noche, antes de irte a la cama, haz una cosa: abre chat.qwen.ai, cambia al modo de pensamiento y dale la tarea de programación agéntica más difícil de tu backlog actual. No porque el modelo vaya a reemplazar tu stack actual mañana — sino porque si no lo pruebas, vas a ser la última persona de tu equipo en saber qué acaba de cambiar.

Preguntas frecuentes

¿Es Qwen 3.7 Max mejor que Claude Opus 4.7 para programar?

Qwen 3.7 Max está aproximadamente medio punto por detrás de Opus 4.7 en benchmarks de razonamiento general (56,6 vs 57,3 en el Artificial Analysis Intelligence Index) pero gana de forma decisiva en coste por iteración para flujos de trabajo agénticos. Para bucles largos de agentes, Qwen 3.7 Max es la mejor opción. Para trabajo de alto riesgo en una sola llamada, Opus 4.7 sigue liderando.

¿Cuánto cuesta Qwen 3.7 Max?

Qwen 3.7 Max cuesta 2,50 $ por millón de tokens de entrada y 7,50 $ por millón de tokens de salida en Alibaba Cloud. Eso es aproximadamente la mitad del precio de Claude Opus 4.7 (5 $/25 $ por millón) y significativamente más barato que GPT-5.5. También hay un chatbot gratuito disponible en chat.qwen.ai con registro de cuenta.

¿Puede Qwen 3.7 Max procesar imágenes o video?

No. Qwen 3.7 Max es solo entrada de texto — sin soporte de visión, audio o video. Si necesitas capacidad multimodal de la línea de Alibaba, mira Qwen 3.7 Plus que incluye visión. Para trabajo frontera multimodal en 2026, Opus 4.7 y GPT-5.5 son las mejores opciones.

¿Cuál es la longitud máxima de contexto y cuánto tiempo puede ejecutarse Qwen 3.7 Max de forma autónoma?

Qwen 3.7 Max tiene una ventana de contexto de 1 millón de tokens y puede mantener ejecución autónoma coherente durante aproximadamente 35 horas y 1.158 llamadas continuas a herramientas en arneses de agentes de producción, basándose en la ejecución de optimización de kernel publicada por Alibaba. En mis propias pruebas a lo largo de ejecuciones escaladas de 4 horas, la coherencia se mantuvo sin deriva de contexto.

¿Está Qwen 3.7 Max disponible como pesos abiertos?

No. Qwen 3.7 Max es un modelo propietario de pesos cerrados alojado exclusivamente en Alibaba Cloud a través de la API DashScope. No hay descarga en Hugging Face, no hay inferencia local, no hay release en GitHub. Los modelos Qwen de pesos abiertos (como Qwen 3.6-35B-A3B) son lanzamientos separados en niveles de capacidad diferentes.

Trabajemos juntos

¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudar.

Fiverr (builds e integraciones personalizadas): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y marca): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io

Qwen 3.7 Max Review: El Modelo Insignia de Alibaba para la Era de los Agentes a Prueba