Qwen 3.7 Max Review: O Modelo Principal da Alibaba para a Era dos Agentes Testado

O primeiro número que anotei foi 56%. O segundo foi US$ 1,30. O terceiro foi 28% a US$ 12,15.

Essa é toda a história de por que o Qwen 3.7 Max importa, comprimida em três dados. A Alibaba executou um loop de autotreinamento com Tetris — dez iterações do modelo melhorando seu próprio código de jogo, totalmente autônomo, sem intervenção humana. O Qwen 3.7 Max obteve 56% de ganho de desempenho por um dólar e trinta centavos em custo de API. O Opus 4.7 obteve 28% por US$ 12,15. O GPT-5.5 obteve 7% por US$ 2,85.

Fiquei olhando para aquela tabela por um longo tempo. Não porque os números brutos de capacidade fossem chocantes — o Opus 4.7 ainda é nominalmente um modelo mais forte em benchmarks gerais de raciocínio — mas porque a relação custo-por-melhoria reorganizou completamente como eu penso sobre qual modelo merece o orçamento do loop de agentes na maioria das minhas cargas de trabalho.

Então fiz o que faço toda vez que um laboratório chinês entrega algo que torna a matemática estranha: limpei a agenda, abri a API e passei três dias dentro do novo carro-chefe da Alibaba. O clone do macOS que todo mundo está tirando screenshots. O pelicano em voxel. O aquário com física de barbatanas individuais. A execução autônoma de otimização de kernel de 35 horas. Eu queria saber se o Qwen 3.7 Max é o modelo que fecha a lacuna de programação agêntica com os laboratórios fronteira dos EUA, ou se é uma proeza de benchmark que desmorona sob cargas de trabalho reais.

Aqui está o que encontrei — e o ponto onde acho que a Alibaba realmente mudou a conversa não é o que você esperaria.

Por que este lançamento aterrissa diferente dos últimos três do Qwen

A Alibaba anunciou o Qwen 3.7 Max no Alibaba Cloud Summit 2026 em 20 de maio, dois dias antes de eu escrever isto. Variantes de preview vinham aparecendo no ranking da LM Arena desde 14 de maio — tempo suficiente para que alguns de nós estivéssemos executando testes contra os checkpoints não identificados antes da revelação formal.

O número manchete com que a Alibaba liderou: 56,6 no Artificial Analysis Intelligence Index, um ganho de 4,8 pontos sobre os 51,8 do Qwen 3.6 Max Preview. Isso coloca o Qwen 3.7 Max como o modelo chinês mais bem classificado nesse índice — à frente do Gemini 3.5 Flash com 55,3, atrás do GPT-5.5 com 60,2 e do Opus 4.7 com 57,3.

Dois meses atrás testei o Qwen 3.6 Max Preview contra o Opus 4.7 e o GPT-5.5 e concluí que a Alibaba não estava tentando vencer a corrida de capacidade absoluta — estavam apostando forte na corrida de capacidade-por-dólar. O Qwen 3.7 Max é o próximo passo nessa aposta, mas com uma guinada mais afiada: este lançamento não é apenas sobre tokens mais baratos. É sobre execução agêntica sustentada em cargas de trabalho onde o custo de executar um loop longo importa tanto quanto a qualidade de qualquer chamada individual.

Enquanto o Qwen 3.6 Max Preview era um modelo de qualidade fronteira com preços de desconto fronteira, o Qwen 3.7 Max é um modelo especificamente ajustado para a forma de trabalho que agentes realmente fazem: horizontes longos, centenas de chamadas de ferramentas, contexto multilíngue, automelhoria iterativa em um único objetivo.

Esse posicionamento importa porque o resto da indústria tem convergido na mesma percepção. O lançamento do Opus 4.7 da Anthropic se apoiou fortemente em harnesses de agentes de várias horas. O GPT-5.5 da OpenAI impulsionou a integração com o Codex. Agora a Alibaba aparece com um modelo que executa fluxos de trabalho autônomos por 35 horas seguidas a aproximadamente um oitavo do custo dos seus concorrentes americanos.

A pergunta interessante não é se o Qwen 3.7 Max é o melhor modelo do mundo. Não é. A pergunta é se ele é bom o suficiente nas cargas de trabalho que consomem a maior parte do orçamento de agentes — e foi isso que passei três dias descobrindo.

Antes de chegar aos resultados dos testes, há um detalhe arquitetônico que você precisa entender, porque ele explica tudo que vem depois.

A aposta arquitetônica por trás do ganho de 56% no Tetris

O benchmark de autotreinamento com Tetris que a Alibaba publicou é a comparação mais esclarecedora de todo o seu pacote de lançamento. Mesma carga de trabalho nos três modelos — dez loops iterativos onde a IA melhora seu próprio código de jogo, avalia o resultado e itera. Mesmas condições iniciais. Mesmo harness.

Modelo	Melhoria	Custo	Notas
Qwen 3.7 Max	56%	US$ 1,30	Melhor ganho, menor custo
Opus 4.7	28%	US$ 12,15	Ganho médio, caro
GPT-5.5	7%	US$ 2,85	Ganho baixo, custo médio

Leia essa tabela duas vezes. O Qwen 3.7 Max não venceu apenas no custo. Venceu na melhoria absoluta — por um fator de dois contra o Opus 4.7 e um fator de oito contra o GPT-5.5. O modelo mais barato produziu o maior ganho em uma carga de trabalho que fundamentalmente trata de raciocínio agêntico iterativo.

Isso não é um acaso de benchmark. É uma aposta arquitetônica deliberada aparecendo nos números.

Aqui está o que acho que realmente está acontecendo. A Alibaba está otimizando para o que eu chamaria de coerência por iteração — a capacidade do modelo de manter raciocínio útil através de muitas chamadas sequenciais de ferramentas sem deriva de contexto, suposições alucinadas ou degradação de qualidade. A maioria dos modelos fronteira ainda está otimizada para brilhantismo em chamada única. Eles produzem resultados magníficos em um disparo, depois se degradam à medida que o contexto cresce e o loop do agente se aprofunda.

O Qwen 3.7 Max troca uma pequena quantidade de desempenho pico em chamada única por uma quantidade muito maior de estabilidade em múltiplas chamadas. Em um prompt de disparo único, o Opus 4.7 ainda o supera. Em um loop iterativo com dez rodadas de automodificação, o Qwen 3.7 Max produz o dobro de melhoria cumulativa a um décimo do custo.

Se você está executando agentes em produção, esse é o eixo de capacidade mais importante agora. Não "quão brilhante é uma resposta?" mas "quão confiavelmente o modelo acumula ao longo de cem respostas?"

A precificação torna essa aposta legível. O Qwen 3.7 Max está disponível a US$ 2,50 por milhão de tokens de entrada e US$ 7,50 por milhão de tokens de saída. O Opus 4.7 cobra US$ 5 por milhão de entrada. É uma lacuna de 2x na entrada e significativa na saída — e isso se acumula ao longo de fluxos de trabalho longos de maneiras que o preço manchete não torna óbvio.

Agora vamos ver o que o modelo realmente faz quando posto sob carga.

Teste 1: O clone do macOS — Onde o hype da demo da Alibaba se sustenta

Todo lançamento do Qwen vem com uma demo de "construa todo o desktop do macOS em um único arquivo HTML". Estou cansado dessas demos porque elas dizem quase nada sobre como um modelo lida com trabalho de engenharia real — mas eu as executo mesmo assim porque são uma baseline útil para a qualidade do output de front-end.

Dei ao Qwen 3.7 Max o mesmo prompt que usei no Qwen 3.6 Max Preview no mês passado: construir um clone funcional do desktop macOS com um dock funcional, barra de menu superior, apps funcionais e pelo menos dois jogos jogáveis no navegador. HTML/CSS/JS puro. Arquivo único.

O que recebi de volta foi o output de front-end de chamada única mais polido que vi de qualquer modelo este ano — incluindo o Opus 4.7.

O dock tinha ícones SVG com curvas de magnificação convincentes. A barra superior renderizava um controle deslizante de brilho funcional, um stub de Spotlight que realmente animava e uma transição de Launchpad que não parecia um dropdown do Bootstrap. Dentro do dock: Finder com árvore de arquivos, Editor de Texto com estado de salvamento funcional, Paint com controles de tamanho de pincel, Calculadora com tratamento correto de ordem de operações, Terminal com uma implementação fake de ls e cd, Snake com detecção de colisão que realmente funcionava, um widget de Clima puxando dados de um JSON simulado, Relógio, Visualização e um mockup de App Store com estados hover.

O Safari era mais fraco — a barra de endereço funcionava mas a página renderizada era texto placeholder. Fotos era uma grade de miniaturas sem lightbox. Mapas era um SVG estático. Então não é um render perfeito do sistema operacional. Mas as partes que acertou eram genuinamente boas — o tipo de output onde, se um desenvolvedor júnior tivesse produzido, eu perguntaria quem ele é e se está disponível para trabalho por contrato.

A parte interessante é a tipografia e o tratamento de triggers de scroll. Há uma atenção visível ao espaçamento, transições de peso de fonte e timing de movimento que normalmente não se vê em modelos de laboratórios chineses. Alguns dos front-ends de SaaS editorial que o Qwen 3.7 Max produz lembram estilisticamente o Claude — o que me faz suspeitar que há sobreposição de dados de treinamento ou destilação em algum lugar do pipeline. Não é uma crítica, apenas uma observação sobre de onde veio a estética de front-end.

Executei o mesmo prompt contra o Opus 4.7 para comparação. O Opus produziu algo marginalmente mais refinado — melhores transições do visualizador de fotos, espaçamento de dock mais sofisticado — mas levou aproximadamente 2,8x mais tempo para gerar e custou aproximadamente 9x mais em tokens. O output do GPT-5.5 foi notavelmente pior: o espaçamento do dock estava errado, dois dos apps tinham bugs de layout, e o stub do Terminal não renderizou corretamente.

Essa é exatamente a carga de trabalho para a qual o Qwen 3.7 Max foi construído para vencer. Output pesado de front-end, liberdade criativa, chamada única, sem necessidade de depuração posterior. Vence limpo.

Mas demos de front-end são o modo fácil. O próximo teste é onde comecei a ver a verdadeira personalidade do modelo.

Teste 2: A execução autônoma de 35 horas — Onde a história realmente mora

Este é o teste que importa. A afirmação mais agressiva da Alibaba sobre o Qwen 3.7 Max é que ele pode manter raciocínio autônomo coerente ao longo de aproximadamente fluxos de trabalho de 35 horas com cerca de 1.200 chamadas contínuas de ferramentas antes que a deriva de contexto se torne um problema. O número que vi confirmado em detalhe: 1.158 chamadas de ferramentas e 432 avaliações de kernel em uma única execução sustentada que otimizou um kernel de GPU para o chip Zhenwu M890 da Alibaba.

Obviamente eu não tinha 35 horas de orçamento de API para replicar a execução completa. O que fiz em vez disso foi configurar uma versão em escala reduzida: um loop autônomo de 4 horas onde o modelo tinha que depurar um web scraper de Python deliberadamente quebrado, perfilar seu desempenho, reescrever as partes lentas e depois melhorar a cobertura da suíte de testes. Sem intervenção humana. O modelo controlava suas próprias chamadas de ferramentas através de um harness compatível com Claude Code (o Qwen 3.7 Max suporta harnesses externos incluindo o da Anthropic, o que me surpreendeu até eu lembrar que a camada de compatibilidade API OpenAI/Anthropic é herdada do Qwen 3.6).

Quatro horas. Aproximadamente 280 chamadas de ferramentas. Três ciclos completos de depuração-perfilamento-reescrita-melhoria.

O output foi a execução sustentada de agente mais limpa que vi de qualquer modelo que não seja da Anthropic. Sem deriva de contexto. Sem comportamento de loop. Sem caminhos de arquivo alucinados após a hora dois. As correções que fez no terceiro ciclo ainda referenciavam decisões que havia tomado no primeiro ciclo — esse é o tipo de coerência que requer memória real de contexto longo, não apenas uma janela grande que o modelo não consegue usar efetivamente.

Para comparação, quando executei um harness similar contra o Opus 4.7 no mês passado, a qualidade do output por chamada era ligeiramente superior, mas a execução custou aproximadamente 7x mais para conclusão de tarefa equivalente. Quando executei contra o GPT-5.5, o modelo começou a entrar em loop em algum ponto por volta da chamada 180 e teve que ser reiniciado.

A capacidade que importa aqui não é inteligência pico. É a capacidade de manter o loop coerente. O Qwen 3.7 Max parece ter algo especificamente ajustado em seu pipeline de treinamento para trabalho agêntico sustentado — e nas cargas de trabalho que mais me importam em 2026, essa é a capacidade que se multiplica em ganhos reais de produtividade.

Teste 3: A pilha 3D — Pelicanos em voxel, aquários e um sistema solar

Foi aqui que me diverti mais, e também onde vi os casos limite do modelo.

O pelicano em voxel na bicicleta saiu limpo — proporções corretas, bico reconhecível, a bicicleta tinha rodas que realmente giravam impulsionadas por um loop de animação simples, e as asas do pelicano batiam em um ritmo convincente. A paisagem low-poly estilo Zelda tinha terreno triangulado que fluía naturalmente, ladrilhos de água com um shader passável e árvores com variação geométrica suficiente para não parecerem colocadas proceduralmente.

A simulação do aquário foi o que me fez sentar direito. Pedi "um aquário com múltiplas espécies de peixes, física de barbatanas individuais onde as barbatanas respondem ao movimento de nado, controles de UI em tempo real para temperatura da água e alimentação, e alimentação interativa onde clicar solta comida e os peixes respondem." O que recebi foi uma cena Three.js com sete modelos de peixes distintos, cada um com barbatanas articulando-se ligeiramente diferente com base na velocidade de nado, um controle deslizante de temperatura funcional que afetava visivelmente o comportamento dos peixes, e uma mecânica de clique-para-alimentar onde os peixes realmente se dirigiam às partículas de comida.

Foi perfeito? Não. Dois dos peixes tinham sutil z-fighting em suas barbatanas. As cáusticas da água eram simuladas de forma falsa em vez de fisicamente. Mas para um arquivo HTML de chamada única a partir de um único prompt, foi a cena 3D mais interativa que obtive de qualquer modelo fronteira em 2026.

Os infográficos SVG detalhados e mapas saíram igualmente fortes — alta densidade informacional, iconografia limpa, o tipo de output onde eu recorreria ao Qwen 3.7 Max antes de qualquer outro modelo se precisasse gerar diagramas explicativos em escala.

O sistema solar 3D foi onde o modelo realmente me impressionou na fidelidade física. Iluminação planetária precisa com queda de sombra correta em cada planeta, os anéis de Saturno renderizados como um anel geométrico real em vez de uma textura plana, o Grande Olho Vermelho de Júpiter aparecendo como um padrão de redemoinho real, e um cinturão de asteroides com geometria distribuída que não parecia estar em um único plano orbital.

Onde o modelo falha: o clone de Minecraft. Executei especificamente porque queria ver como o pipeline de voxels 3D se sustentava sob carga interativa. O terreno destrutível funcionava. Os sistemas de cavernas geravam corretamente. O ciclo dia/noite rodava em um loop temporal adequado. Mas a física da água era visivelmente imperfeita — a água abaixo da superfície não fluía corretamente, e havia um sutil bug de renderização onde blocos translúcidos revelavam terreno que você não deveria conseguir ver. É a mesma classe geral de caso limite de renderização 3D que vi no Gemini e Opus quando tentaram clones de Minecraft, então isso parece ser um ponto fraco consistente entre modelos fronteira, não uma falha específica do Qwen.

O padrão estético em todos os testes 3D: o Qwen 3.7 Max quer ser ambicioso. Ele busca output complexo em vez de recuar para um minimalismo seguro. Às vezes o alcance excede o domínio em casos limite de física. Mais frequentemente, o alcance tem sucesso de maneiras que me surpreenderam.

Teste 4: O clone do Airbnb a partir de uma captura de tela

Este teste mira uma capacidade que não aparece em benchmarks padrão mas importa muito para trabalho real: a tradução de visual para código quando a entrada inclui tanto uma captura de tela quanto uma especificação escrita.

Dei ao Qwen 3.7 Max uma captura de tela de uma página de listagem do Airbnb junto com um prompt descrevendo os comportamentos interativos que eu queria — cabeçalho fixo, animações ativadas por scroll na galeria de fotos, barra lateral de filtros funcional, breakpoints responsivos para mobile.

O output foi mais limpo do que eu esperava. A fidelidade visual à captura de tela era cerca de 85% precisa — a hierarquia tipográfica estava correta, o sistema de espaçamento coincidia, a paleta de cores foi extraída corretamente. Os comportamentos interativos funcionaram todos na primeira execução, incluindo as animações ativadas por scroll que normalmente requerem alguma depuração para acertar os limites de ativação.

Onde ficou aquém: alguns dos detalhes visuais mais nuançados eram "bregas" em vez de refinados. A sombra nos cards da galeria de fotos era pesada demais. O estado hover nos botões de filtro usava uma cor saturada que não combinava com a linguagem de design real do Airbnb. Esses são o tipo de problemas de polimento que aparecem quando um modelo produz output de front-end a partir de uma pista visual vaga sem especificações explícitas de design system.

A lição: o Qwen 3.7 Max é excelente em output de front-end quando você dá prompts detalhados com referências visuais específicas. É meramente bom quando você dá direção criativa vaga. Se você está usando para trabalho de front-end em produção, trate-o como um desenvolvedor sênior que precisa de um brief de design claro — não como um designer que pode preencher as lacunas apenas com bom gosto.

Onde o Qwen 3.7 Max se posiciona em relação ao campo

Deixe-me colocar os números de benchmark em um só lugar, porque a tabela comparativa conta a história real:

Artificial Analysis Intelligence Index (raciocínio geral):

GPT-5.5: 60,2
Opus 4.7: 57,3
Qwen 3.7 Max: 56,6
Gemini 3.5 Flash: 55,3
Qwen 3.6 Max Preview: 51,8

SWE-bench Verified (engenharia de software do mundo real):

Opus 4.7: ~80,8
Qwen 3.7 Max: 60,6 no Terminal Bench 2.0; iguala o Opus no SWE-Verified com 80,4
DS-V4-Pro Max: 80,6

Execução autônoma de horizonte longo:

Qwen 3.7 Max: 35 horas, 1.158 chamadas de ferramentas sustentadas
Opus 4.7: Várias horas sustentadas (número específico não publicado)
GPT-5.5: Perda de coerência por volta das 180-200 chamadas nos meus testes

Custo de API (por 1M tokens, entrada/saída):

Qwen 3.7 Max: US$ 2,50 / US$ 7,50
Opus 4.7: US$ 5 / US$ 25
GPT-5.5: aproximadamente 3-4x os preços do Qwen dependendo do nível

No raciocínio geral, o Qwen 3.7 Max fica aproximadamente meio ponto atrás do Opus 4.7. Em benchmarks de engenharia de software do mundo real, é competitivo com o Opus e ligeiramente à frente da maioria dos outros modelos no campo. Em contextos de idiomas asiáticos e programação multilíngue, lidera definitivamente. Em execução autônoma de horizonte longo, é atualmente o modelo mais confiável que testei para fluxos de trabalho de agentes sustentados.

E em custo por iteração, nada mais nesse nível chega perto.

Para a maioria das cargas de trabalho agênticas que executo em 2026, essa métrica de custo por iteração é o que determina a escolha do modelo. Quando estou executando um loop de agentes que precisa fazer 400 chamadas de ferramentas ao longo de seis horas, pagar 8x mais pelo Opus 4.7 para obter talvez 5% de melhor qualidade por chamada é um mau negócio. Quando estou revisando um PR de arquitetura complexa onde uma recomendação errada poderia enviar uma falha de segurança, o Opus ainda vale o prêmio.

A pergunta de seleção de modelo, reformulada: que forma de trabalho justifica o preço?

Se a forma é curta, de alto risco, chamada única: Opus 4.7.

Se a forma é longa, iterativa, impulsionada por agentes: Qwen 3.7 Max.

Esse é o framework. Todo o resto são detalhes de implementação.

O que o Qwen 3.7 Max genuinamente não consegue fazer

Quero ser honesto sobre as limitações do modelo, porque o hype de lançamento vai exagerar o que ele pode lidar.

Sem entrada multimodal. Este é o grande. O Qwen 3.7 Max é apenas texto. Sem entrada de imagem, sem áudio, sem vídeo. Se seu fluxo de trabalho requer compreensão visão-linguagem — depuração de screenshots, OCR de documentos, análise de vídeo — você está olhando para o modelo errado. A Alibaba tem variantes separadas com capacidade de visão (o Qwen 3.7 Plus tem visão), mas o flagship Max é apenas entrada de texto.

Isso importa porque muitos fluxos de trabalho agênticos em 2026 assumem cada vez mais que o modelo pode ver o que está fazendo. Olhar um render de UI que falhou, ler um stack trace de um screenshot, analisar um mockup de design — tudo isso são coisas que o Opus 4.7 e o GPT-5.5 fazem nativamente, e o Qwen 3.7 Max simplesmente não pode.

Front-end fica brega sem prompts detalhados. Como cobri no Teste 4 — dê a ele um brief claro e produz output excelente. Dê a ele um vago "faça isso bonito" e tende a sombras mais pesadas, cores saturadas e escolhas de design que soam como entusiastas-mas-indisciplinadas. Se você está usando para trabalho sensível ao design, prepare-se para ser mais prescritivo nos seus prompts do que precisaria ser com o Claude.

Casos limite de física 3D. O problema de fluxo de água no Minecraft que encontrei não é único — há um padrão consistente onde o Qwen 3.7 Max lida bem com a renderização visual de cenas 3D mas a simulação física por baixo pode ter lacunas. Interações de partículas, dinâmica de fluidos e lógica de colisão complexa são áreas onde eu executaria um segundo modelo como verificação.

Testes de viés e explicabilidade são opacos. A Alibaba não publicou resultados detalhados de avaliação de viés, detalhes do model card sobre composição dos dados de treinamento, ou pesquisa de explicabilidade como a Anthropic fez para o Opus 4.7. Para a maioria do trabalho de engenharia isso está ok. Para decisões de alto risco envolvendo equidade, moderação de conteúdo ou exposição legal — eu quereria mais transparência do que a Alibaba está fornecendo atualmente.

É apenas hospedado. Sem pesos abertos. Sem inferência local. Sem download. Você acessa o Qwen 3.7 Max pela API DashScope da Alibaba Cloud ou não acessa de jeito nenhum. Há um chatbot gratuito em chat.qwen.ai com um toggle de modo rápido/pensamento que dá acesso de preview sem configuração de API, mas se você está incorporando em fluxos de trabalho de produção, está se comprometendo com a Alibaba Cloud como dependência. Para algumas equipes, a geopolítica disso importa. Para outras, é apenas mais um fornecedor.

Nenhuma dessas limitações é impeditiva para as cargas de trabalho onde o Qwen 3.7 Max se destaca. Mas elas definem o contorno de onde você deve e não deve recorrer a ele.

A vantagem multilíngue que a maioria das coberturas está ignorando

Aqui está a parte da história do Qwen 3.7 Max que acho que a análise ocidental tem consistentemente subestimado: o desempenho multilíngue em contextos de idiomas asiáticos é genuinamente o melhor da categoria, e não é nem de perto disputado.

Quando testei geração de código com comentários e documentação em chinês, japonês e coreano, o Qwen 3.7 Max produziu output que se lia como natural nesses idiomas — os comentários não eram inglês traduzido, eram escrita técnica idiomática em língua nativa. A nomenclatura de variáveis em codebases de idiomas mistos permaneceu consistente. Prompts bilíngues onde a especificação era em chinês mas o requisito era código em inglês não confundiram o modelo como confundem o GPT-5.5 e o Opus 4.7.

Essa é a carga de trabalho onde o Qwen 3.7 Max não está apenas competindo com os carros-chefe americanos — é a resposta óbvia. Se você está construindo produtos para os mercados chinês, japonês ou do sudeste asiático, ou se sua equipe escreve código com documentação em múltiplos idiomas, a questão de seleção de modelo está resolvida.

Cobri parte dessa dinâmica na minha análise da economia de assinaturas de IA do mercado cinza chinês — a realidade é que desenvolvedores chineses vêm contornando o acesso a APIs ocidentais há anos, e o surgimento de modelos domésticos genuinamente competitivos como o Qwen 3.7 Max muda esse cálculo permanentemente. Por que um desenvolvedor em Shenzhen pagaria 8x mais por um modelo americano quando a opção doméstica o iguala nas cargas de trabalho que importam e o supera no tratamento multilíngue?

Como estou realmente usando em produção

Três dias não são suficientes para fixar um fluxo de trabalho permanente, mas aqui está onde o Qwen 3.7 Max já está substituindo outros modelos no meu stack:

Loops de agentes com chamadas intensivas de ferramentas. Tudo onde espero mais de 100 invocações sequenciais de ferramentas agora começa com o Qwen 3.7 Max. A redução de custo é significativa e a coerência se mantém. Cubro o padrão mais amplo no meu artigo sobre otimização de custos de agentes de IA — a matemática vem apontando para modelos fronteira chineses para o nível de alto volume de agentes há meses, e o Qwen 3.7 Max é agora a escolha padrão óbvia.

Prototipagem de front-end a partir de screenshots. A tradução visual-para-código é forte o suficiente para usar na implementação inicial, depois faço o trabalho de polimento manualmente ou com o Claude para o refinamento da linguagem de design.

Geração de código multilíngue. Tudo envolvendo documentação ou contexto de codebase em chinês, japonês ou coreano passa pelo Qwen primeiro.

Conteúdo educacional com infográficos. A geração de SVG e diagramas é boa o suficiente para que eu tenha começado a usá-la para os visuais explicativos nos meus artigos sobre arquitetura de agentes.

Agentes de pesquisa de horizonte longo. A capacidade de execução sustentada de 35 horas é a carga de trabalho onde a Alibaba genuinamente abriu uma nova categoria. Estou construindo um agente de pesquisa que precisa executar revisão de literatura autônoma por 12-18 horas seguidas, e o Qwen 3.7 Max é o único modelo em que confiaria atualmente para manter coerência ao longo dessa janela a um custo que torna o projeto viável.

Onde continuo usando o Opus 4.7 como padrão: decisões arquitetônicas de alto risco, revisão de código sensível à segurança, qualquer coisa onde a qualidade pico de chamada única importa mais que throughput. O prêmio de custo de 8x para o Opus nessas cargas de trabalho vale a pena porque o custo de errar vale mais que o custo de acertar.

O GPT-5.5 foi silenciosamente espremido nesse cenário — há menos cargas de trabalho onde é a resposta claramente correta. Para trabalho de programação especificamente, minha comparação do GPT-5.5 e Opus 4.7 cobriu parte dessa dinâmica, e o Qwen 3.7 Max torna o aperto mais forte.

A história real não é o modelo — É o que o número do Tetris significa

Quero voltar àquele ganho de 56% a US$ 1,30, porque não acho que a indústria metabolizou completamente o que ele implica.

Por dois anos, a suposição por trás da precificação de modelos fronteira tem sido que capacidade é escassa e cara, então o preço premium está apenas pagando pelo que é difícil de construir. O Opus 4.7 cobra US$ 5 de entrada porque capacidade de raciocínio pico é genuinamente difícil de produzir, e a Anthropic é o laboratório que a produz melhor.

Mas o benchmark do Tetris sugere que em uma classe específica de carga de trabalho — loops iterativos de automelhoria — a capacidade não é mais o gargalo. A eficiência de custo na iteração é o gargalo. E nesse eixo, o Qwen 3.7 Max não está apenas competindo com os laboratórios fronteira dos EUA. Está liderando por um fator de dois.

Se esse padrão se mantiver em outras cargas de trabalho agênticas — e meus quatro dias de teste sugerem que sim — a estrutura de preços que se manteve desde o lançamento do GPT-4 vai se comprimir rapidamente. Ou os laboratórios americanos cortam preços significativamente, ou cedem o nível de alto volume agêntico para a competição chinesa inteiramente.

É isso que estou observando com mais cuidado agora. Não se o Qwen 3.7 Max é "melhor" que o Opus 4.7 em algum sentido abstrato. Mas se sua existência força todo o mercado de modelos fronteira a reajustar preços para a era dos agentes.

Quando comecei esta review, anotei três números: 56%, US$ 1,30 e 28% a US$ 12,15.

Três dias depois, o número em que realmente estou pensando é o que esses dados implicam: 8x. Essa é a lacuna de custo. Essa é a proporção que a Alibaba acabou de tornar muito difícil de justificar em cargas de trabalho agênticas. E até que os laboratórios dos EUA descubram como fechá-la, o Qwen 3.7 Max é o modelo para o qual eu apontaria um desenvolvedor como sua escolha padrão para trabalho de programação impulsionado por agentes em 2026 — com plena consciência de cada limitação que cobri acima.

A era dos agentes deveria ser o momento em que modelos começariam a fazer trabalho autônomo real por horas seguidas. Acontece que o laboratório se movendo mais rápido nessa fronteira não era o que a maioria dos desenvolvedores americanos estava observando.

Hoje à noite, antes de ir para a cama, faça uma coisa: abra chat.qwen.ai, mude para o modo de pensamento e dê a ele a tarefa de programação agêntica mais difícil do seu backlog atual. Não porque o modelo vai substituir seu stack atual amanhã — mas porque se você não testá-lo, vai ser a última pessoa da sua equipe a saber o que acabou de mudar.

Perguntas frequentes

O Qwen 3.7 Max é melhor que o Claude Opus 4.7 para programação?

O Qwen 3.7 Max está aproximadamente meio ponto atrás do Opus 4.7 em benchmarks de raciocínio geral (56,6 vs 57,3 no Artificial Analysis Intelligence Index) mas vence decisivamente em custo por iteração para fluxos de trabalho agênticos. Para loops longos de agentes, o Qwen 3.7 Max é a melhor escolha. Para trabalho de alto risco em chamada única, o Opus 4.7 ainda lidera.

Quanto custa o Qwen 3.7 Max?

O Qwen 3.7 Max custa US$ 2,50 por milhão de tokens de entrada e US$ 7,50 por milhão de tokens de saída na Alibaba Cloud. Isso é aproximadamente metade do preço do Claude Opus 4.7 (US$ 5/US$ 25 por milhão) e significativamente mais barato que o GPT-5.5. Um chatbot gratuito também está disponível em chat.qwen.ai com registro de conta.

O Qwen 3.7 Max consegue processar imagens ou vídeo?

Não. O Qwen 3.7 Max é apenas entrada de texto — sem suporte a visão, áudio ou vídeo. Se você precisa de capacidade multimodal da linha da Alibaba, procure o Qwen 3.7 Plus que inclui visão. Para trabalho fronteira multimodal em 2026, o Opus 4.7 e o GPT-5.5 são as melhores escolhas.

Qual é o comprimento máximo de contexto e por quanto tempo o Qwen 3.7 Max pode executar de forma autônoma?

O Qwen 3.7 Max tem uma janela de contexto de 1 milhão de tokens e pode manter execução autônoma coerente por aproximadamente 35 horas e 1.158 chamadas contínuas de ferramentas em harnesses de agentes de produção, com base na execução de otimização de kernel publicada pela Alibaba. Nos meus próprios testes ao longo de execuções escaladas de 4 horas, a coerência se manteve sem deriva de contexto.

O Qwen 3.7 Max está disponível como pesos abertos?

Não. O Qwen 3.7 Max é um modelo proprietário de pesos fechados hospedado exclusivamente na Alibaba Cloud através da API DashScope. Não há download no Hugging Face, não há inferência local, não há release no GitHub. Os modelos Qwen de pesos abertos (como o Qwen 3.6-35B-A3B) são lançamentos separados em níveis de capacidade diferentes.

Vamos trabalhar juntos

Quer construir sistemas de IA, automatizar fluxos de trabalho ou escalar sua infraestrutura de tecnologia? Adoraria ajudar.

Fiverr (builds e integrações personalizadas): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (soluções empresariais): ramlit.com
ColorPark (design e marca): colorpark.io
xCyberSecurity (serviços de segurança): xcybersecurity.io

Qwen 3.7 Max Review: O Modelo Principal da Alibaba para a Era dos Agentes Testado