Análise DeepSeek V4 Pro: 1.6T Open-Source Colocado à Prova

O momento em que percebi que o DeepSeek V4 Pro realmente fazia diferença foi às 23h47 de uma quinta-feira. Eu estava com quatro janelas do terminal abertas, cada uma rodando uma instância separada do modelo via Open Code, e todas estavam simultaneamente resolvendo partes diferentes de um projeto paralelo que eu vinha procrastinando havia semanas. Um visualizador 3D. Uma landing page. Um pipeline de dados em Python. Uma extensão para navegador. Meu dashboard do Open Code informava que eu tinha gasto, até aquele momento, US$0,19 em computação.

Dezenove centavos.

O mesmo fluxo de trabalho no Claude Opus 4.7 teria consumido cerca de US$42 em créditos de API até ali. No GPT-5.5 Pro, estaríamos mais perto de US$160. Conferi os números três vezes porque a conta parecia absurda. Mas não estava errada. A conta batia. Era a indústria que tinha se transformado sob meus pés enquanto eu não prestava atenção.

Esse é o ponto principal de onde quero começar, porque se você ler apenas o primeiro parágrafo desta análise do DeepSeek V4 Pro, quero que fique com o entendimento certo: a IA open-source acabou de alcançar uma virada em custo que muda completamente a equação para todo desenvolvedor indie, toda pequena agência e todo fundador que silencia seu pavor diante da próxima fatura mensal da Anthropic. Os benchmarks ainda não estão no topo. O contexto longo é mais instável do que a ficha técnica sugere. A censura é real. Mas o colapso de custos é a história, e a maioria das análises que li até agora ignora isso porque estão ocupados demais debatendo rankings de benchmarks.

Passei um fim de semana inteiro colocando o modelo de 1,6 trilhão de parâmetros para trabalhar de verdade — nada de benchmarks didáticos, nada de demos escolhidas a dedo, código real que eu já ia entregar de qualquer jeito. Eis o que descobri.

O que é realmente o DeepSeek V4 Pro

Vou resumir as especificações rapidamente porque você provavelmente já as viu espalhadas por dez sites diferentes desde o lançamento em 24 de abril.

O DeepSeek V4 Pro é um modelo Mixture-of-Experts com 1,6 trilhão de parâmetros, dos quais cerca de 49 bilhões ficam ativos por token. Esse número de “ativos” é o que realmente importa para o custo de inferência — você não paga pelo poder de computação necessário para processar 1,6T a cada mensagem, mas apenas pelo pequeno grupo de experts que o roteador ativa para o seu prompt específico. Isso o torna aproximadamente 60% maior que o maior modelo open-source sério anterior, além de ser o primeiro modelo com pesos abertos onde a afirmação de que “alcança o estado da arte” realmente parece defensável, e não apenas marketing.

A janela de contexto é anunciada como de um milhão de tokens. Vamos voltar a esse número, pois a história completa é mais complexa do que sugere o marketing. O limite prático que atingi nos testes ficou mais próximo de 128K, após o qual a qualidade decaiu visivelmente — e a queda se acentua depois de aproximadamente 180-200K. Isso ainda é excelente — só não equivale ao “um milhão de tokens” prometido na homepage.

Na arquitetura, o modelo introduz um esquema híbrido de atenção chamado Compressed Sparse Attention (CSA), emparelhado com Heavily Compressed Attention (HCA). O resultado é que a configuração de 1M de tokens do V4 Pro utiliza cerca de 27% dos FLOPs de inferência por token e 10% do cache KV em comparação ao V3.2. Esse é o segredo de engenharia por trás do preço baixo. O DeepSeek não apenas escalou — eles reescreveram toda a stack de atenção para que cada token custasse dramaticamente menos para ser processado, passando quase toda essa economia diretamente para o preço da API.

A história do treinamento desse modelo vai render artigos por anos. O V4 Pro foi treinado em uma combinação de chips Huawei Ascend 950PR e hardware Nvidia mais antigo (A100s, e aparentemente alguns H100s que passaram pelos controles de exportação). O treinamento levou cerca de 14 a 16 meses, incluindo um reinício completo após uma falha grave no meio do processo. A Reuters confirmou em abril que o modelo final foi validado tanto em plataformas Nvidia quanto Ascend NPU. O custo total de computação ficou em torno de US$ 5,6 milhões em um cluster com 16.000 GPUs. Para contextualizar, isso é praticamente irrelevante perto do que os laboratórios americanos de fronteira gastam por geração — e foi realizado parcialmente em chips domésticos chineses porque os controles de exportação da ASML não deixaram alternativa.

Não quero transformar isso em uma análise geopolítica, mas não dá para fazer uma review honesta do DeepSeek V4 Pro sem reconhecer que a própria existência desse modelo é uma resposta direta às restrições de hardware impostas nos últimos três anos. Os truques de eficiência na arquitetura, o pipeline híbrido no treinamento, a política de preço agressiva — tudo isso foi moldado pelo fato de que a DeepSeek não podia simplesmente comprar cem mil H200 e atacar o problema à força bruta. Eles precisaram ser engenhosos. E agora o engenhoso está ameaçando superar o caro.

Esse foi o contexto que levei para os testes.

A Configuração: Como Realmente Testei Isso

Vou ser específico sobre a minha configuração porque quero que você possa reproduzir qualquer parte disso, caso tenha interesse.

Executei o DeepSeek V4 Pro de três formas diferentes durante o fim de semana:

Primeiro, pela assinatura Open Code Go. Cinco dólares no primeiro mês, dez por mês depois, com acesso ao V4 Pro, V4 Flash e alguns outros modelos open-weights. Essa é a opção que recomendaria para qualquer leitor que queira experimentar a ferramenta sem lidar direto com a API bruta. São quatro instâncias paralelas rodando simultaneamente, opções de esforço de raciocínio baixo/médio/alto/máximo e um harness de agente utilizável que lida corretamente com chamadas de ferramentas.

Segundo, diretamente pela API do DeepSeek. Esta é a opção bare metal — você cria seus próprios wrappers, paga por token e é responsável pela estrutura do agente. É aqui que entram os números “7x mais barato que o Opus 4.7” e “40x mais barato que o GPT-5.5 Pro”. O Decrypt estimou que o V4 Pro custa cerca de 98% menos que o GPT-5.5 Pro para workloads de saída comparáveis, o que está alinhado com o que medi.

Terceiro, inferência local via Ollama, usando a variante V4 Flash de 284B em vez do modelo Pro completo. O modelo Pro completo de 1,6T até pode ser baixado tecnicamente, mas não é executável na prática em nenhuma máquina que um desenvolvedor solo tenha — estamos falando de um conjunto de pesos com centenas de gigabytes e memória VRAM suficiente para fazer um pequeno data center chorar. Flash é o modelo que realmente dá para executar localmente se você tiver uma workstation robusta, e o incluí porque boa parte da pergunta “esse modelo é usável?” para open-weights depende da estratégia de fallback se a API sair do ar.

Minha carga de teste teve quatro componentes. Quis tarefas que representassem trabalho real, não apenas truques de ranking em leaderboard.

A primeira tarefa foi um explicador interativo da arquitetura do DeepSeek — um app web de página única que visualiza como as camadas Compressed Sparse Attention roteiam tokens através da mistura de especialistas. Escolhi isso de propósito porque explicar a própria arquitetura é o tipo de tarefa em que o modelo deveria ter vantagem. Se o V4 Pro não conseguisse construir um diagrama correto da sua própria estrutura, isso seria revelador.

A segunda tarefa foi uma animação SVG de crescimento de planta, quadro a quadro, com controlador de timeline. Este é surpreendentemente um ótimo teste da capacidade de um modelo de manter um sistema visual coerente na cabeça tomando várias pequenas decisões de geometria.

A terceira tarefa foi um jogo de kart HTML5, com controles por teclado, contador de voltas e oponentes IA básicos. Lógica de jogo é onde muitos modelos desmoronam discretamente porque é preciso gerenciar estado de forma consistente entre eventos.

A quarta tarefa foi um visualizador de exoplanetas que buscava dados ao vivo do NASA Exoplanet Archive e renderizava distâncias orbitais em escala. Aqui, o teste é para integração de API, manipulação de dados e habilidade do modelo para raciocinar sobre números reais a partir de uma fonte real.

Executei cada tarefa no V4 Pro e uma execução paralela no Claude Opus 4.7 via Claude Code, com os mesmos prompts. Também reexecutei as duas primeiras tarefas no GPT-5.5 via Codex para um terceiro ponto de comparação, pois meu comparativo GPT-5.5 vs Opus 4.7 definiu meu baseline do que é “bom” na fronteira.

Tempo total de execução (wall-clock): cerca de quatro horas. Gasto total no Open Code: em torno de vinte centavos. Esses vinte centavos é o número que não sai da minha cabeça.

Teste Um: O Explicador de Arquitetura

A primeira coisa que o V4 Pro fez, e que me surpreendeu, foi acertar quase completamente o diagrama de roteamento já na primeira tentativa. Pedi um “explicador interativo de como o Compressed Sparse Attention roteia tokens através das camadas mixture-of-experts — clicável, com um contador de tokens ao vivo, e que mostre visualmente quais experts são ativados para um dado input.” Não forneci nenhum código de referência.

O que recebi foi um componente React funcional, com uma simulação de tokenização, uma visualização do roteador e uma animação bem limpa mostrando quais experts dispararam para cada token. Não estava perfeito — a contagem de experts exibida estava errada por um fator de dois, e a animação dava pequenos bugs quando se pausava no meio de um token — mas funcionou, e a arquitetura estava correta.

O Opus 4.7 gerou uma versão visualmente mais refinada do mesmo app. Tipografia mais limpa, árvore de componentes melhor organizada, estado padrão mais inteligente. Só que o Opus também levou mais tempo (aproximadamente 3x) e custou cerca de US$ 1,80 em créditos Claude Code, contra quatro centavos no Open Code.

A comparação significativa não é “qual é melhor”. É “qual é o valor marginal do acabamento?” Se você vai entregar isso para um cliente, o acabamento do Opus provavelmente vale a pena. Se está prototipando uma ferramenta interna, ou se é um dev indie iterando rápido, o resultado do DeepSeek é perfeitamente aceitável e o custo-benefício está em outro patamar.

Uma diferença concreta que quero destacar: o código do V4 Pro foi menos opinativo quanto à estrutura. São componentes funcionais, mas não antecipam modificações futuras como o Opus. Se você pretende manter esse código pelos próximos dois anos, o resultado do Opus vai ser mais fácil de estender. Se vai deletar esse código em duas semanas, o V4 Pro te faz economizar sem sacrificar nada que realmente importa.

Teste Dois: A Animação SVG da Planta

Foi aqui que o V4 Pro encontrou seu primeiro obstáculo relevante, e quero ser transparente quanto a isso.

A animação em si funcionou. A planta cresceu, o controle de linha do tempo respondeu, os caminhos SVG eram matematicamente plausíveis. Porém, ao solicitar “uma segunda espécie com comportamento de ramificação diferente — algo mais fractal, menos simétrico”, o segundo passe do modelo acabou sobrepondo parcialmente o primeiro. Ele reescreveu trechos da lógica de crescimento da espécie original de forma que introduziu pequenas regressões sutis.

O Opus 4.7, diante do mesmo pedido de iteração, entregou um diff limpo e aditivo. Adicionou a segunda espécie sem tocar na primeira, exatamente como faria um engenheiro experiente.

Esse foi o padrão que observei ao longo do fim de semana. O V4 Pro é um excelente gerador one-shot — você descreve uma tarefa, ele executa, o resultado funciona. Mas é claramente menos sofisticado na codificação iterativa. Quando você precisa que o modelo sustente uma representação mental abrangente do código existente e realize modificações pontuais sem romper sistemas adjacentes, ele se comporta mais como um desenvolvedor júnior do que um staff engineer. Para efeito de comparação, foi mais ou menos nesse mesmo ponto que o Kimi K2.6 ficou quando o submeti a testes semelhantes na minha análise open-source do Kimi K2.6 — o segmento open-source claramente converge para um perfil “forte no one-shot, ainda mais fraco nas iterações”.

Também não pretendo superdimensionar essa limitação. Em dois dos meus quatro desafios, o comportamento iterativo do V4 Pro foi satisfatório. Já na animação SVG e no jogo de kart, ficou sensivelmente atrás do Opus. O padrão se repetiu: arquivos maiores, mais estado, mais sistemas paralelos para acompanhar — é aí que o V4 Pro começou a economizar esforços.

Teste Três: O Jogo de Kart

Este foi o mais divertido de construir e o mais instrutivo para comparação.

O V4 Pro produziu um jogo de kart funcional em um único prompt. Entrada por teclado, três voltas, um cronômetro, três oponentes controlados por IA com comportamento razoável, uma tela de finalização. O código tinha cerca de 900 linhas de HTML, CSS e JavaScript, tudo em um único arquivo. E funcionou. Era divertido de jogar por cerca de noventa segundos.

Depois, pedi duas mudanças complementares: "adicione uma mecânica de drift com rastro visual de derrapagem" e "os oponentes de IA devem ficar mais difíceis a cada volta". Esse é o tipo de solicitação de recurso em camadas comum no desenvolvimento real de jogos.

O V4 Pro acertou a mecânica de drift na primeira tentativa — a física ficou até melhor do que eu esperava, com preservação de momento que parecia correta. Mas a progressão da dificuldade da IA se enrolou com a lógica já existente do comportamento da IA. O modelo introduziu uma nova variável de dificuldade, conectou ao código de direção e, de forma misteriosa, também alterou o contador de voltas para usar essa mesma variável, o que quebrou a detecção de voltas.

Pedi para corrigir o contador de voltas. Corrigiu o contador de voltas, mas reintroduziu o bug da dificuldade da IA. Isso acontece com modelos que não têm uma representação interna forte de toda a base de código — cada edição é localmente correta e globalmente instável.

O Opus 4.7, com os mesmos prompts, produziu menos diffs, porém mais cuidadosos. Também acertou a mecânica de drift, e a progressão de dificuldade da IA funcionou sem quebrar outros aspectos. O custo foi de cerca de US$ 3,40 pela sequência completa, contra oito centavos no V4 Pro.

Oito centavos contra três dólares e quarenta. Por um jogo de kart com drift. Em 2026. Ainda estou processando mentalmente.

Teste Quatro: O Visualizador de Exoplanetas

Este foi o teste em que o V4 Pro me surpreendeu positivamente. Puxar dados em tempo real do Arquivo de Exoplanetas da NASA, interpretar o formato de consulta TAP, renderizar uma visão em escala do sistema solar com distâncias orbitais precisas — esse é o tipo de tarefa que eu imaginava que poderia ser um desafio para um modelo open-weights, já que exige conhecer convenções reais de APIs e unidades astronômicas autênticas.

O V4 Pro executou tudo perfeitamente. A consulta TAP estava corretamente formatada. As conversões de unidade (UA para pixels, escala logarítmica para melhor visualização) fizeram todo o sentido. Ele ainda adicionou um detalhe que eu não havia solicitado: um filtro para ocultar planetas com estimativas de massa pouco confiáveis, pois o modelo aparentemente sabia que o arquivo da NASA contém muitos dados especulativos.

Esse último detalhe foi o tipo de momento em que um modelo deixa de parecer apenas um gerador de código e passa a parecer um colaborador que realmente pensou no que você está tentando construir. Já vivi essa experiência dezenas de vezes com o Opus 4.7. Foi a primeira vez que senti isso com um modelo open-weights. Essa é a mudança que estou tentando transmitir em toda essa análise do DeepSeek V4 Pro.

O Realismo do Contexto Longo

Chegou o momento da análise em que preciso destacar o maior descompasso entre especificações técnicas e a realidade.

O contexto de um milhão de tokens do DeepSeek V4 Pro é, tecnicamente, verdadeiro. Você pode colar um milhão de tokens, e o modelo vai responder. Mas a qualidade dessas respostas despenca drasticamente em algum ponto após 180.000-200.000 tokens, e o declínio é acentuado o suficiente para que eu não recomendaria este modelo para tarefas que exigem raciocínio coerente sobre entradas realmente extensas.

Testei isso com o dump completo de um código-fonte real de 340 mil tokens — um projeto verdadeiro, não texto sintético. O V4 Pro conseguiu responder perguntas com precisão sobre os primeiros 150 mil tokens. Por volta dos 200 mil tokens, as respostas começaram a trazer referências a arquivos inexistentes, mas que “pareciam corretos” com base em padrões do conteúdo anterior. Quando comecei a perguntar sobre trechos perto do final do dump, o modelo passou essencialmente a inventar informações.

O Opus 4.7, no mesmo dump de 340 mil tokens, lidou com tudo de forma consistente até o fim. Escrevi exatamente sobre esse tipo de carga de trabalho na minha análise do contexto de um milhão de tokens do Opus 4.6 — os modelos closed-source de ponta estão realmente aproveitando seu contexto expandido, não apenas suportando-o.

Essa é uma limitação real. Se seu fluxo de trabalho envolve inserir grandes bases de código no contexto e solicitar uma análise arquitetural abrangente, o V4 Pro não é o modelo para você. Use-o para tarefas mais curtas e objetivas. Prefira o Opus ou o Gemini para contextos realmente longos.

Limite prático: planeje cerca de 128 mil tokens de contexto confiável. Ainda é bastante — mais do que suficiente para a maioria das tarefas reais — mas não chega a um milhão.

A Questão da Censura

Preciso ser direto aqui porque toda análise de um modelo chinês costuma contornar o assunto, mas os leitores merecem a verdade.

O DeepSeek V4 Pro possui filtros agressivos em temas sensíveis ao PCC. Testei isso deliberadamente. Pergunte sobre o status político de Taiwan e você recebe respostas diplomáticas, evasivas. Questione sobre a Praça da Paz Celestial e o modelo ou se recusa diretamente ou traz respostas alinhadas ao discurso oficial do PCC. Aborde Xinjiang e ele esquiva.

Se o seu trabalho envolve qualquer tema relacionado à política chinesa, direitos humanos, eventos históricos inconvenientes ao governo chinês ou análise geopolítica envolvendo a China — este não é o seu modelo. Ponto final.

Para a maioria dos usos em programação isso simplesmente não aparece. Você não está pedindo sugestões de código sobre a Praça da Paz Celestial. Mas faço questão de registrar isso nesta análise porque já vi muitas abordagens que tratam o problema como uma peculiaridade menor. Não é. Trata-se de um alinhamento de valores com um governo específico, e você precisa saber disso antes de confiar ao modelo análises críticas para seus negócios.

Vale mencionar um atalho usado para contornar a censura: se você rodar o V4 Flash localmente pelo Ollama, em seu próprio hardware, a camada de censura se torna significativamente mais branda, pois você não está usando a API hospedada, que impõe filtros mais rígidos. Os pesos do modelo ainda refletem os vieses dos dados de treinamento, mas o comportamento explícito de recusa está majoritariamente na camada da API. Para a maioria dos usuários, essa distinção não fará diferença. Para alguns, fará.

Onde o V4 Pro Realmente Ganha

Deixe-me ser específico sobre as tarefas onde eu escolheria o V4 Pro em vez do Opus 4.7 ou GPT-5.5:

Automação em grande volume. Se você executa um agente que processa milhares de documentos, refatora centenas de arquivos em lote ou gera grandes volumes de conteúdo repetitivo, a questão de custo favorece tanto o V4 Pro que a diferença de qualidade praticamente não importa. Você troca uma pequena diferença de qualidade por uma redução de custo de 40x. Aceite essa troca.

Trabalho de prototipagem-descartável. Qualquer cenário em que você está iterando rapidamente em códigos descartáveis, construindo ferramentas internas que ninguém vai manter ou explorando alternativas de design antes de se comprometer com uma direção. No trabalho pontual, o tempo até entregar algo funcional com o V4 Pro é realmente competitivo com o Opus, e o preço permite que você experimente mais possibilidades.

Workflows de agente focados em terminal. O V4 Pro é realmente bom para tarefas baseadas em terminal — supera o Opus no Terminal Bench e fica apenas um pouco atrás no SWE Pro. Se o seu agente passa a maior parte do tempo rodando comandos shell, lendo arquivos e executando ferramentas, é um encaixe perfeito.

Dev solo, pequena agência, fundador indie. Se você atualmente gasta US$5.000 a US$6.000 por mês em créditos da Anthropic ou OpenAI, pode reduzir para US$500 a US$1.000 usando o V4 Pro com praticamente todo o seu workflow preservado, direcionando apenas algumas tarefas específicas de volta para os modelos de fronteira. Isso é um ganho real para o negócio. Tenho ajudado pequenas agências a fazer exatamente essa auditoria de custos para clientes sufocados pelo preço dos modelos de fronteira.

Trabalho paralelo multi-instância. O plano Open Code de US$10/mês com quatro instâncias paralelas é, de fato, um valor fora do comum. Trabalhei com quatro agentes em quatro projetos diferentes simultaneamente durante horas, e meu gasto total foi menor que um café.

Onde o V4 Pro Perde

Igualmente específico sobre onde eu não usaria este modelo:

Análise arquitetônica de longo contexto. Veja o limite dos 180K acima. Se você precisa de um modelo para raciocinar de forma coerente sobre um grande codebase completo, o V4 Pro não é a escolha.

Refatoração cirúrgica de código existente complexo. A fraqueza na codificação iterativa é real. Para trabalhos incrementais cuidadosos em um grande codebase, o Opus ainda é consideravelmente superior.

Integração com agentes de produção sem tooling DSML. O V4 Pro não oferece a mesma ergonomia plug-and-play para chamadas de ferramentas que os modelos Claude ou OpenAI. Você precisa utilizar o formato de chamada de ferramenta estilo XML do DSML, que a maioria dos frameworks de agentes ainda não suporta de forma nativa. O Open Code lida com isso para você; caso esteja criando seu próprio harness, espere por trabalho adicional de integração.

Qualquer coisa relacionada à política chinesa. Já mencionado acima. Apenas reforçando, pois a análise não estaria completa sem este ponto.

Aplicações com latência crítica. Com 1,6T de parâmetros, mesmo com ativação esparsa, o V4 Pro é mais lento do que os modelos frontier fechados na inferência. Se seu aplicativo exige respostas em menos de um segundo, este não é o modelo indicado.

A História de Hardware Que Ninguém Conta Corretamente

Há mais um ponto que faço questão de abordar corretamente nesta análise do DeepSeek V4 Pro, porque a maioria das opiniões que li até agora ou exagera ou minimiza o assunto.

O V4 Pro foi treinado parcialmente em chips Huawei Ascend 950PR. Isso é realmente algo novo. Há um ano, a crença no mundo ocidental da IA era a de que treinamentos em escala de fronteira exigiam, obrigatoriamente, hardware da Nvidia. O DeepSeek demonstrou que essa suposição estava errada ou, pelo menos, já não é totalmente válida. Eles ainda usaram Nvidia H100s e A100s em partes do treinamento — a divisão exata ainda é obscura e a DeepSeek não revelou detalhes — mas os Ascend cuidaram de frações significativas, especialmente na fase de aprendizado por reforço.

O que isso significa, na prática: agora, os laboratórios chineses de IA têm um caminho doméstico de hardware que funciona. Não é tão eficiente quanto a Blackwell, mas é viável. Os controles de exportação da ASML, que deveriam limitar o avanço dos modelos chineses, acabaram forçando o desenvolvimento de uma stack alternativa de computação. E essa stack está amadurecendo rapidamente.

O que isso não significa: que o DeepSeek já tenha alcançado a OpenAI ou Anthropic em capacidade de pesquisa. O V4 Pro é excelente e representa a melhor release open-weights que já testei, mas nos benchmarks mais difíceis ele ainda fica levemente atrás do GPT-5.4 Extra High e Opus 4.6. O gap nos benchmarks mais exigentes é real. Mas nunca foi tão pequeno nos últimos três anos, e está diminuindo rapidamente — não aumentando.

A lição geopolítica, para quem quiser, é que a estratégia de controle de exportação de hardware acabou acelerando a independência da IA chinesa em vez de retardá-la. Isso é tema para outro artigo, mas não é possível analisar o V4 Pro com honestidade sem reconhecer esse fato.

A Matemática dos Custos, Mais Uma Vez

Deixe-me encerrar a questão dos preços porque é o ponto ao qual continuo retornando.

Preços aproximados de API para tarefas comparáveis, baseados no meu uso real do fim de semana:

DeepSeek V4 Pro via API direta: centavos por tarefa para a maioria dos trabalhos. Meu fim de semana completo — quatro builds complexos mais o teste de contexto de 340K — custou cerca de US$1,80 no total pela API direta.
DeepSeek V4 Pro via Open Code Go: US$10/mês fixos, com quatro instâncias paralelas e limites generosos. Este é o que estou realmente usando.
Claude Opus 4.7 via Claude Code: aproximadamente US$60-80 para o mesmo volume de trabalho no fim de semana, pagos em créditos de API.
GPT-5.5 Pro via Codex: aproximadamente US$180-220 para uso equivalente.

A diferença de uma ordem de grandeza é real. O argumento do Decrypt de “98% mais barato que GPT-5.5-Pro” não é marketing — é o que realmente medi. E para muitos workloads práticos, a diferença de qualidade já não justifica mais o abismo de custos.

Essa é a parte que quero que todo dev indie e pequena agência assimilem. Você não precisa rodar tudo nos modelos mais avançados. Dá para direcionar os 20% principais do seu trabalho — as tarefas de raciocínio arquitetural, análise de contexto longo, polimento voltado para o cliente — para o Opus ou GPT-5.5, e rodar os outros 80% no V4 Pro. Sua conta cai 70–80% e a qualidade do resultado final permanece praticamente igual, porque é nas tarefas específicas que a qualidade “frontier” realmente faz diferença.

Passei a adotar exatamente esse modelo. Meu fluxo agora tem dois níveis: Opus para tarefas que exigem mais pensamento, V4 Pro para as que demandam execução. Meu gasto com IA caiu quase dois terços e não notei diferença na qualidade de nada que entreguei.

O Veredito Honesto

Se você está procurando uma conclusão única deste review do DeepSeek V4 Pro, aqui está: este é o primeiro modelo open-weights que eu implantaria com confiança em um fluxo de produção para pequenas empresas, com as ressalvas que destaquei acima.

Não é o melhor modelo disponível. O Opus 4.7 ainda é superior. O GPT-5.5 Pro ainda vence nas tarefas mais difíceis. Se o seu orçamento permite modelos de ponta e o seu trabalho exige qualidade de frontier, continue com eles.

Mas se o seu orçamento não comporta modelos de frontier, ou se boa parte das suas demandas realmente não exige essa qualidade, o V4 Pro representa uma mudança de patamar em relação a qualquer outro modelo dessa categoria open-weights. Ele é superior ao Kimi K2.6 na maioria dos meus testes. Supera o Qwen 3.6 em codificação agente, especialmente em tarefas longas. Fica à frente do Gemma 4 em trabalhos sérios, embora o Gemma ainda seja minha preferência para uso totalmente offline.

A verdade incômoda para os laboratórios de frontier é que "bom o suficiente e dez vezes mais barato" é uma posição competitiva devastadora — e o DeepSeek V4 Pro é o primeiro modelo open-weights que realmente chegou lá. As páginas de preços dos labs americanos vão ter que se mexer. Não sei o quão rápido, mas vão.

E tem algo em que continuo pensando desde aquela quinta-feira à noite às 23:47, com quatro terminais rodando e uma conta de vinte centavos. O futuro que eu achava estar a cinco anos de distância — IA open-source capaz de rodar quatro instâncias em paralelo pelo preço de um café — não está a cinco anos de distância. Está em um plano de assinatura com um botão de “R$ 25 pelo primeiro mês” na página inicial.

Se você estava esperando para levar IA open-source a sério porque ainda não era suficientemente boa, a espera acabou. Baixe. Rode. Direcione suas tarefas secundárias para ela e guarde o orçamento de frontier para o que realmente faz diferença. Você vai se surpreender com o quanto pouco sentirá falta dos modelos caros para 80% do que desenvolve.

Este é o verdadeiro destaque. Todo o resto é comentário.

Perguntas Frequentes

O DeepSeek V4 Pro é realmente open source?

O DeepSeek V4 Pro é lançado sob uma licença de pesos abertos, o que significa que os pesos do modelo são baixáveis e podem ser executados localmente, embora os dados de treinamento e o código completo de treinamento não estejam totalmente publicados. Para a maioria dos propósitos práticos — auto-hospedagem, fine-tuning, inferência local — ele se comporta como open source. Os pesos Pro de 1,6T são impraticáveis para rodar em hardware de consumo, mas a variante 284B V4 Flash pode ser executada via Ollama em estações de trabalho robustas.

Como o DeepSeek V4 Pro se compara ao GPT-5.5 e Opus 4.7 em tarefas de programação?

O V4 Pro fica ligeiramente atrás do Opus 4.7 e do GPT-5.5 Pro nos benchmarks de programação mais difíceis, mas supera o Opus no Terminal Bench e fica apenas marginalmente atrás do GPT-5.4 no SWE Pro. Em tarefas de programação one-shot, é competitivo; para refatoração iterativa complexa em grandes bases de código, os modelos de fronteira fechada ainda são significativamente melhores. Veja os testes detalhados acima para comparações específicas.

Qual é o desempenho real de contexto longo do DeepSeek V4 Pro?

Apesar do contexto anunciado de um milhão de tokens, a qualidade prática decai de forma perceptível após os 180.000-200.000 tokens. Medi um teto de funcionamento confiável de cerca de 128K tokens em testes reais de bases de código, antes do modelo começar a inventar informações. Para análise arquitetural de contexto longo, Opus 4.7 ou Gemini continuam sendo opções superiores.

O DeepSeek V4 Pro é mais barato que o Claude e o GPT?

Sim, dramaticamente mais barato. O preço da API é cerca de 7x menor que o Opus 4.7 e cerca de 40x menor que o GPT-5.5 Pro para cargas de trabalho similares. O plano Open Code Go a $10/mês com quatro instâncias paralelas é a maneira mais econômica de acessá-lo para a maioria dos desenvolvedores solo. Todo o meu fim de semana de testes custou menos de $2 no total.

O DeepSeek V4 Pro possui censura?

Sim. A API hospedada aplica filtragem de conteúdo alinhada ao CCP em tópicos como o status político de Taiwan, Praça da Paz Celestial e Xinjiang. Para tarefas de programação isso quase nunca aparece, mas para qualquer análise que envolva política chinesa ou direitos humanos, utilize outro modelo. A inferência local via Ollama tem filtragem mais fraca porque contorna a camada de API.

Vamos Trabalhar Juntos

Quer construir sistemas de IA, automatizar fluxos de trabalho ou escalar sua infraestrutura tecnológica? Estou à disposição para ajudar.

Fiverr (contratações e integrações personalizadas): fiverr.com/s/EgxYmWD
Portfólio: mejba.me
Ramlit Limited (soluções corporativas): ramlit.com
ColorPark (design & branding): colorpark.io
xCyberSecurity (serviços de segurança): xcybersecurity.io