Hybrid AI coding: DeepSeek V4 + Claude Code testado
Enviei um AI dashboard funcional na última terça-feira por quinze centavos.
Não é um wireframe. Não é um protótipo. Um Next.js dashboard real com rotas API simuladas, um painel de tarefas no estilo Kanban, três componentes de gráfico diferentes, uma página de configurações que realmente persistia no estado e uma seção de herói que eu me sentiria confortável em colocar na frente de um cliente. Toda a construção demorou cerca de noventa minutos no relógio de parede. O gasto total em dois provedores chegou a US$ 0,149.
Mesmo projeto em Opus 4.7 puro? Eu construí variantes deste dashboard exato quatro vezes nos últimos seis meses como referência, e o custo nunca foi inferior a US$ 11. Em um período ruim com muitas revisões, está perto de US$ 28. A matemática pareceu errada na primeira vez que vi cair em uma única moeda de dez centavos e um níquel, então reconstruí tudo mais duas vezes para ter certeza de que não estava lendo o dashboard errado. Eu não estava.
O truque não era trocar de modelo. O truque era recusar-se a mudar. Mantive Claude Code como equipamento - o mesmo CLI, o mesmo loop de agente, as mesmas chamadas de ferramenta que usei todos os dias de trabalho no ano passado - e redirecionei silenciosamente as partes * chatas * da construção para DeepSeek V4, mantendo as partes que realmente exigem gosto em Opus 4.7. Essa é toda a ideia por trás do fluxo de trabalho hybrid AI coding que quero explicar nesta postagem. Não é exótico. Não é um novo IDE. É uma camada de roteamento entre Claude Code e dois provedores de modelo e, uma vez configurada, você para de pensar nisso.
Quero ser honesto antes de prosseguirmos: este não é um post “DeepSeek substitui Opus”. Estou cansado disso. Eles foram escritos por pessoas que não lançaram nada sério em nenhum dos modelos. DeepSeek V4 não é um modelo UI de fronteira. Isso não fará com que sua seção de heróis pareça viva. Não vai detectar o problema sutil de layout que o olho percebe, mas o linter não. O que ele é é o burro de carga de 80% do trabalho mais genuinamente útil que usei desde que os modelos de código aberto deixaram de ser uma piada. E combinado com Claude Opus 4.7 para os 20% que realmente importam, ele reduziu meus gastos com codificação API em algo como 78% em abril, sem piorar o trabalho.
Essa é a história. Veja como isso realmente funciona.
Por que a abordagem convencional "Just Use Opus" interrompe o dimensionamento
Por cerca de dezoito meses, minha resposta para "com qual modelo devo codificar?" era simples: tudo o que a Anthropic enviou mais recentemente, porque a diferença entre a fronteira e todo o resto era grande o suficiente para tornar a diferença de custo irrelevante. Quando expliquei minha abordagem no guia de otimização de custos do agente AI no ano passado, eu ainda estava defendendo essa posição com ressalvas. Pague pelo Opus, dizia o raciocínio, e pare de questionar cada solicitação.
Essa lógica sobrevive até que você realmente comece a enviar volume.
Um desenvolvedor solo criando um recurso por semana em um plano Claude Max de US$ 200 está bem. Um desenvolvedor solo executando três projetos paralelos, um cliente retentor e uma programação de vídeo agressiva atingirá os limites de taxas semanais na tarde de quarta-feira. Comecei a esbarrar no teto regularmente em fevereiro. O limite do plano Pro chega a algo em torno de 220.000 tokens por janela de cinco horas e, em um dia de construção intensa, eu queimo isso em duas longas sessões de agente. Em março, eu tinha três contas Claude em rotação, o que pareceu inteligente por cerca de uma semana e depois começou a parecer um problema disfarçado de fluxo de trabalho.
A questão mais profunda não eram os limites das taxas. O problema era que eu estava pagando preços de modelo de fronteira para realizar trabalhos para os quais os modelos de fronteira são absurdamente superqualificados. A geração de uma estrutura de pastas para um projeto Next.js não requer 64,3% no SWE-bench Pro. Escrever um teste de unidade que afirme que uma função retorna a forma correta não requer raciocínio de um milhão de tokens. A estruturação de uma rota CRUD não requer o modelo que acabou de oferecer a melhor coerência de contexto longo do mercado. Eu estava usando um modelo de token de saída de US$ 25 por milhão para produzir código que qualquer modelo de código aberto decente poderia produzir por US$ 0,87 por milhão.
Essa é a lacuna que um fluxo de trabalho hybrid AI coding existe para preencher.
Os números DeepSeek V4 que me fizeram prestar atenção
DeepSeek V4 foi lançado em 24 de abril de 2026 – cerca de duas semanas antes de escrever isto – como uma versão prévia com duas variantes. V4 Pro é o modelo de mistura de especialistas de 1,6 trilhão de parâmetros com aproximadamente 49 bilhões de parâmetros ativos por token. V4 Flash é o primo menor com 284 bilhões de parâmetros e 13 bilhões ativos. Ambos são fornecidos com uma janela de contexto de um milhão de tokens incluída no preço base, ambos são lançados sob a licença MIT e ambos têm pesos completos disponíveis publicamente no HuggingFace nos repositórios oficiais deepseek-ai/DeepSeek-V4-Pro e deepseek-ai/DeepSeek-V4-Flash.
O preço é a parte que importa para o fluxo de trabalho híbrido.
O V4 Pro foi lançado com preços promocionais de US$ 0,435 por milhão de tokens de entrada e US$ 0,87 por milhão de tokens de saída. Essa promoção vai até 5 de maio – basicamente o dia em que esta postagem chega – após o qual a taxa padrão sobe para $ 1,74 de entrada / $ 3,48 de saída. Mesmo na taxa pós-promoção, você está considerando aproximadamente um sétimo do custo por token do Claude Opus 4.7 e cerca de um sexto do custo do GPT-5.5 Pro no preço de perda de cache. O número principal do VentureBeat chegou a “1/6th o custo de Opus 4.7”, o que se alinha perfeitamente com o que medi nas compilações reais.
O resumo original em que eu estava trabalhando citava "76% mais barato em média". Esse número é conservador. O spread real do V4 Pro é mais próximo de 83-86% mais barato do que o Opus 4.7 na produção, dependendo da tabela de preços do dia que você obtiver. O Flash V4 é ainda mais barato – entrada de US$ 0,14/saída de US$ 0,28, o que o torna cerca de cinquenta vezes mais barato do que o Opus em tokens de saída. Para trabalho em segundo plano, código cola e geração de testes de unidade, o preço do Flash é realmente difícil de superar.
Mas o custo só importa se o modelo for realmente competente no trabalho que você está encaminhando para ele. Aqui está a parte que me fez comprometer:
DeepSeek V4 Pro chega a 80,6% no banco SWE verificado. Opus 4.7 fica em 80,8%. Isso representa um empate estatístico no benchmark de engenharia de software mais citado do setor. V4 Pro supera LiveCodeBench em 93,5. Ele atinge Codeforces ELO 3206, que está significativamente à frente do 3168 do GPT-5.5. E pontua cerca de 67,9% no Terminal-Bench 2.0 - não o líder (GPT-5.5 leva isso em 82,7%, Opus 4.7 em 69,4%), mas absolutamente na mesma liga.
Traduza isso do jargão de benchmark: para o tipo de trabalho em que um engenheiro sênior competente diria "esta é uma tarefa definida com especificações limpas e um formato conhecido", o V4 Pro é genuinamente competitivo com a fronteira. Não é melhor na revisão de código. Não é melhor entender o que você realmente deseja com um prompt vago e meio formado. Não é melhor no trabalho de arquitetura de alto contexto onde o Opus ainda vence. Mas para tudo o que se enquadra perfeitamente num envelope de tarefas definido, a distância até à fronteira é estatisticamente ruidosa.
Essa é a observação fundamental por trás de todo o fluxo de trabalho híbrido.
O que "fluxo de trabalho de codificação híbrido AI" realmente significa na prática
O modelo mental ao qual sempre volto não é "use o modelo barato quando puder". É “pare de usar o modelo caro quando não precisar dele”. Diferença sutil, mas o enquadramento é importante porque muda a forma como você constrói as regras de roteamento.
Aqui está a taxonomia aproximada que estabeleci após cerca de três semanas executando esta configuração em tempo integral:
Vai para DeepSeek V4 Pro (ou Flash, para tarefas muito restritas):
- Andaime do projeto - estrutura inicial do Next.js, layouts de pastas, esqueletos de roteamento
- Geração de dados simulados e scripts iniciais
- Rotas básicas CRUD API com formas previsíveis
- Testes unitários para funções onde as especificações são claras
- Cole o código entre interfaces definidas (funções de adaptador, transformadores, validadores)
- Problemas algorítmicos com especificações limpas - classificação, análise, estruturas básicas de dados
- Scripts de automação únicos onde sei exatamente o que quero
- Sequências de chamada de ferramentas onde as ferramentas estão bem definidas
- Geração de código a partir de um arquivo de token do sistema de design Figma
- Refatoradores em massa onde a regra é mecânica (renomear, extrair, dividir)
Vai para Claude Opus 4.7 (ou Codex GPT-5.5 quando estou em uma janela do Codex):
- Polimento UI — qualquer coisa onde "isso parece certo" é o critério de sucesso
- Decisões de layout em uma seção hero, arranjo dashboard ou qualquer superfície interativa
- Qualidade de componentes e revisão estrutural
- Revisão de código de qualquer coisa que estou prestes a enviar para produção
- Auditorias de segurança, especialmente para qualquer coisa relacionada a autenticação ou pagamentos
- Trabalho arquitetônico de longo contexto — raciocínio sobre uma base de código como um todo
- Documentação que quero ler como um humano a escreveu
- Qualquer coisa criativa – nomenclatura, cópia, conteúdo adjacente ao marketing
- Depuração de comportamento estranho que não corresponde a um padrão de erro óbvio
- Qualquer coisa onde eu teria vergonha de enviar o primeiro rascunho
O limite não é estrito. Há dias em que deixo DeepSeek dar uma primeira passada em um componente UI e depois peço ao Opus para refiná-lo, o que funciona bem quando o esqueleto subjacente é sólido, mas falta o polimento. Também há dias em que começo com o Opus, percebo que a tarefa é mais mecânica do que pensava e mudo o roteamento no meio da sessão.
Mas o princípio mais amplo é simples. Andaimes DeepSeek, formas Opus. Esse é o fluxo de trabalho.
A configuração: Anti-Gravity, Claude Code Router e Proxy Layer
Agora a parte prática. Como o Claude Code – que é, tecnicamente, o CLI da Anthropic para modelos da Anthropic – se comunica com um modelo chinês de código aberto?
Através de um proxy. Especificamente, por meio de uma camada de tradução API compatível com Anthropic que fica entre o Claude Code CLI e o provedor de modelo real. Existem dois projetos principais que vale a pena conhecer e usei ambos:
Claude Code Router é o que eu escolhi. É um gateway proxy de código aberto que se liga a uma porta local (padrão 127.0.0.1:3456) e permite definir regras de roteamento por tipo de solicitação. As tarefas em segundo plano vão para um provedor. As tarefas de visão vão para outra. A codificação padrão vai para um terceiro. Claude Code pensa que está conversando com o Anthropic o tempo todo porque o proxy fala a solicitação exata e o formato de resposta do Anthropic. O arquivo de configuração do roteador permite mapear tipos de tarefas para modelar endpoints com cerca de dez linhas de JSON.
Anti-Gravity Claude Proxy é a opção alternativa. Começou como uma forma de usar tokens antigravidade do Google para chamar modelos Claude dentro de Claude Code, mas o fork da comunidade (ai-dev-2024/Antigravity-Claude-Code-Proxy) o estendeu para funcionar com Gemini, GPT-5, Grok e mais de 20 outros modelos, incluindo DeepSeek. Ele inclui um dashboard em tempo real e troca de modelo por janela, o que parece um exagero até a primeira vez que você deseja diferentes janelas de terminal executando modelos diferentes na mesma base de código.
Eu me aprofundei no próprio Anti-Gravity no passo a passo do IDE Anti-Gravity no início deste ano, e o guia gratuito Claude Code proxy cobre a configuração relacionada com Back-ends NVIDIA NIM, OpenRouter e Ollama. Se você já está confortável com esse padrão proxy, a troca em DeepSeek V4 é uma alteração de configuração de cinco minutos.
Para uma nova configuração, aqui está a sequência real que executo em uma nova máquina. Isto é para a abordagem Claude Code Router porque é aquela com a documentação mais limpa e o menor número de peças móveis:
npm install -g @anthropic-ai/claude-code
# 2. Install the router
npm install -g @musistudio/claude-code-router
# 3. Initialize the config
ccr init
# 4. Edit ~/.claude-code-router/config.json
# Add your DeepSeek API key and Anthropic API key under "Providers"
# Define routes under "Router" — typically:
# default: deepseek,deepseek-v4-pro
# longContext: anthropic,claude-opus-4-7
# background: deepseek,deepseek-v4-flash
# think: anthropic,claude-opus-4-7
# 5. Start the router (it stays running in the background)
ccr start
# 6. Use Claude Code through the router instead of directly
ccr code
O comando ccr code inicia Claude Code, mas aponta-o para a porta proxy local. Tudo o que você faria normalmente — comandos claude, invocações de agentes, servidores MCP, ganchos — funciona de forma idêntica. A única diferença é a camada de roteamento abaixo.
Financiar uma conta DeepSeek API leva cerca de noventa segundos. O saldo mínimo pré-pago é de US$ 2, que com preço promocional compra cerca de 4,6 milhões de tokens de entrada ou 2,3 milhões de tokens de saída. Para contextualizar, todo o meu fim de semana de testes em todos os quatro projetos em minha [análise do DeepSeek V4 Pro] (/blog/deepseek-v4-pro-open-source-ai-review) me custou cerca de US$ 0,43 em cobranças de DeepSeek. Dois dólares são muito úteis.
É aqui que você deve ter cuidado: o manuseio da chave API é importante. O proxy lê chaves de um arquivo de configuração em seu diretório inicial. Se você submeter essa configuração a um repositório público por acidente — e cheguei desconfortavelmente perto de fazer isso no primeiro dia — você terá um dia ruim. Adicione .claude-code-router/ ao seu gitignore global antes de fazer qualquer outra coisa. Eu mantenho um repositório de dotfiles separado para configurações do proxy para que eles nunca fiquem próximos ao código do projeto.
A construção do painel: um passo a passo concreto
Deixe-me analisar a construção real do dashboard de quinze centavos porque os números abstratos não significam muito sem uma estrutura concreta.
O resumo era simples. Eu queria um Next.js 15 dashboard para um produto operacional AI fictício. Navegação na barra lateral. Três visualizações: uma visão geral com cartões KPI e um gráfico, uma visualização de tarefas com um quadro estilo Kanban e uma página de configurações. Rotas API simuladas que retornaram formas realistas. Vento traseiro para estilizar. Recharts para a visualização. Nenhuma persistência além do estado do componente local. Eu já havia construído essa especificação exata três vezes antes no Opus puro, então tinha números de linha de base limpos para comparar.
Comecei com o DeepSeek V4 Pro fazendo a passagem do andaime. O prompt foi deliberadamente mecânico: "Gere uma estrutura de projeto de roteador de aplicativo Next.js 15 com essas três rotas, crie as rotas API que retornam dados simulados correspondentes a essas interfaces TypeScript, crie o scaffold dos componentes básicos do layout com o Tailwind e faça stub dos componentes de visualização sem estilizá-los ainda." Este é o tipo de tarefa em que o DeepSeek realmente prospera. Há especificações claras, as formas são bem definidas e o trabalho é mais uma questão de consistência do que de julgamento.
O V4 Pro produziu um esqueleto de projeto limpo e bem organizado em cerca de quatro minutos do tempo do agente. A estrutura de pastas era exatamente o que eu teria construído manualmente. As interfaces TypeScript estavam corretas. Os dados simulados eram razoáveis – não criativos, mas não errados. Os stubs de componentes tinham digitação de prop adequada e exportações padrão sensatas. Gasto total nesse passe: cerca de US$ 0,04.
Então mudei o roteamento para Opus 4.7 para a camada de polimento. O prompt neste estágio tinha um caráter diferente: "Pegue a estrutura existente e faça com que o dashboard realmente pareça um produto. Refine o estilo de navegação da barra lateral. Melhore a hierarquia do cartão KPI. Torne as colunas Kanban visualmente distintas. Preste atenção ao espaçamento, ao ritmo da tipografia e ao polimento visual geral. O gráfico parece simples - dê-lhe personalidade sem torná-lo barulhento."
Essa não é exatamente uma tarefa que DeepSeek faria mal. É uma tarefa que DeepSeek faria simplesmente. A saída seria tecnicamente correta e visualmente esquecível. A Opus, por outro lado, tomou cerca de duas dúzias de pequenas decisões que eu nunca teria solicitado explicitamente – ajustando a altura das linhas, escolhendo tokens de cores semânticas para as colunas, adicionando um estado sutil de foco nos cartões, reestruturando a legenda do gráfico para que não competisse com o título. Nenhuma dessas decisões estava no meu prompt. Todos melhoraram o resultado. É por esse trabalho que estou pagando preços de fronteira e vale a pena.
Custo do passe Opus: cerca de US$ 0,11. Total combinado: $ 0,149.
O mesmo dashboard construído de ponta a ponta no Opus puro, em minhas execuções de linha de base, ficou entre US$ 11 e US$ 28, dependendo de quantos ciclos de revisão eu acionei. A versão híbrida era aproximadamente 73 a 187 vezes mais barata, dependendo da linha de base que você está comparando. E - esta é a parte à qual sempre volto - o resultado foi indistinguível de uma construção pura do Opus em qualidade subjetiva, porque as partes da construção que precisavam do julgamento do Opus receberam o julgamento do Opus, e as partes que não o fizeram foram tratadas por um modelo que era perfeitamente capaz de realizar o trabalho mecânico.
O CTA intermediário, se você chegou até aqui: se preferir que alguém crie fluxos de trabalho Claude Code de nível de produção como este para sua equipe, em vez de descobrir a configuração do proxy sozinho, eu assumo compromissos hybrid-routing por meio de fiverr.com/s/EgxYmWD.
Onde o fluxo de trabalho híbrido é interrompido (e o que eu faço a respeito)
Quero ser específico sobre os modos de falha porque toda revisão honesta precisa deles, e os padrões de roteamento que descrevi não são almoço grátis.
Modo de falha um: DeepSeek conclui tarefas com excesso de confiança que não deveria. O modelo tem a tendência de afirmar que uma tarefa está concluída quando está estruturalmente concluída, mas funcionalmente quebrada. Tive uma sessão na semana passada em que o V4 Pro gerou uma implementação Kanban "completa" que foi montada, parecia correta e lançou um TypeError em cada evento de arrastar porque havia conectado onDragEnd a um manipulador indefinido. O ciclo do agente foi concluído, declarado sucesso e seguiu em frente. A Opus teria percebido isso em uma autoavaliação. DeepSeek não. A solução é ser mais agressivo quanto à cobertura de testes nas regras de roteamento – qualquer coisa com lógica interativa obtém uma aprovação no teste de unidade ou uma verificação manual de integridade antes que o agente reivindique a conclusão.
Modo de falha dois: degradação de contexto longo após cerca de 180-200 mil tokens. O contexto anunciado de um milhão de tokens é real no sentido de que o modelo aceitará um milhão de tokens de entrada. O penhasco de qualidade após cerca de 180K também é real. Para trabalho arquitetônico de base de código completo — o tipo de coisa em que você realmente precisa carregar uma árvore de produção real no contexto e raciocinar sobre isso — Opus 4.7 ainda vence decisivamente. Abordo isso com mais detalhes no passo a passo Gerenciamento de contexto Claude Code 1M. A regra de roteamento híbrido que uso: se a tarefa afetar mais de dez arquivos de uma vez, o padrão é Opus, independentemente do tipo de tarefa.
Modo de falha três: revisão de código e auditorias de segurança. Não roteio revisões de código por meio de DeepSeek. Período. As resenhas exigem o tipo de raciocínio cético que detecta o bug que ninguém pediu para você procurar, e é exatamente nesse trabalho que o julgamento do modelo deve ser mais aguçado do que o do redator. O mesmo se aplica a qualquer trabalho sensível à segurança – fluxos de autenticação, integrações de pagamento, qualquer coisa que toque nos dados do usuário em repouso. DeepSeek produzirá código que parece seguro. Se realmente é, é necessário verificar o Opus ou o GPT-5.5. A diferença de custo no trabalho de revisão é irrelevante em comparação com o custo de envio de uma vulnerabilidade.
Modo de falha quatro: cluster de limite de taxa. O DeepSeek do API tem seus próprios limites de taxa e, durante o período promocional de lançamento até 5 de maio, atingi-los é mais provável do que o normal porque todos estão testando o modelo. A mitigação aqui é manter um substituto do OpenRouter configurado no roteador para que as solicitações DeepSeek possam fazer failover para um provedor diferente que atenda aos mesmos pesos de modelo. Isso é uma adição de configuração de cinco minutos e me salvou pelo menos três sessões nas últimas duas semanas.
Modo de falha cinco: sensibilidade de dados. DeepSeek é uma empresa chinesa com uma nuvem chinesa API. Para qualquer código que toque em lógica proprietária sensível, eu o encaminho exclusivamente para o Opus ou - para o trabalho verdadeiramente sensível - executo o V4 Flash localmente através do Ollama em minha estação de trabalho. O modelo V4 Pro 1.6T completo não pode ser executado de forma realista em hardware de consumo. Flash V4 é. Se o seu trabalho tiver preocupações com a confidencialidade dos dados, crie regras de roteamento para dar conta disso e mantenha um substituto local baseado em Ollama pronto para o trabalho que nunca deve sair da sua máquina.
Qual é a aparência real da matemática de custos ao longo de um mês
Quero compartilhar números reais de abril para que a reivindicação de poupança não seja abstrata.
Em março, antes de mudar para o fluxo de trabalho híbrido, meu uso do Anthropic API além da assinatura Max custava US$ 342 por mês. Isso complementava o plano Max com chamadas API de overflow quando os limites de taxa me limitavam em dias de construção pesada. Aproximadamente metade desse excesso ocorreu em tarefas que, em retrospecto, não precisavam de raciocínio de fronteira. Estruturas de pastas. Andaimes CRUD. Geração de teste. Refatoradores em massa.
Em abril, com o fluxo de trabalho híbrido em vigor, meus gastos com o Anthropic API caíram para US$ 74. Meu gasto com DeepSeek foi de US$ 19,42. Combinado: $ 93,42. Isso representa uma redução de 73% nos gastos com codificação API, em uma produção mensal aproximadamente equivalente, sem degradação subjetiva da qualidade no trabalho que enviei aos clientes.
As economias ficam mais dramáticas à medida que você aumenta. Se eu estivesse executando essa mesma configuração com 3x o volume – que é a aparência do meu fluxo de trabalho durante um mês de produção pesada – a economia absoluta seria algo em torno de US$ 700-800 por mês. Para uma pequena agência que administra vários desenvolvedores, esse é o tipo de valor que paga o orçamento completo de ferramentas de um engenheiro adicional.
Quero ter cuidado para não extrapolar demais. Sua mixagem ficará diferente da minha. Se você estiver fazendo principalmente trabalho UI e codificação criativa, suas economias serão menores porque mais do seu trabalho pertence ao Opus. Se você estiver fazendo principalmente automação, scripts e colagem de back-end, sua economia será maior. Os 73% é o meu número. O seu pousará em algum lugar em uma faixa semelhante com base no formato do seu trabalho.
O que eu faria de diferente se estivesse começando de novo
Algumas coisas que aprendi da maneira mais difícil e que você pode pular:
Comece com as regras de roteamento antes de iniciar a instalação do proxy. Passei meu primeiro dia mexendo na configuração do proxy e só acertei as regras de roteamento após uma semana de uso. O proxy é a parte fácil. Saber quais tarefas pertencem a qual modelo é a parte que requer prática. Passe uma noite escrevendo uma taxonomia do seu trabalho real antes de depositar na conta API.
Comprometa-se com um único projeto proxy, não alterne entre eles. Comecei com o proxy Anti-Gravity Claude, mudei para Claude Code Router e tentei brevemente uma terceira opção antes de voltar ao roteador. Cada mudança me custou algumas horas de retrabalho de configuração. Escolha um. Continue com isso. As diferenças entre eles no nível de uso diário são pequenas.
Configure o monitoramento de custos no primeiro dia. Tanto o DeepSeek quanto o Anthropic usam dashboards. Marque-os. Verifique-os diariamente durante as primeiras duas semanas. O objetivo da configuração híbrida é saber para onde seu dinheiro está indo, e isso só funciona se você realmente observar os números.
Não tente rotear tudo. Passei por uma fase de tentativa de enviar todas as tarefas possíveis para DeepSeek para maximizar a economia, incluindo o trabalho de polimento de UI que obviamente não pertencia a esse lugar. O resultado foi um trabalho genuinamente pior enviado aos clientes. A solução foi simples: recuar, encaminhar o polimento para a Opus, aceitar que a economia seria de 73% em vez de 92% e parar de otimizar além do ponto de retornos decrescentes.
Por que isso é importante além do meu próprio fluxo de trabalho
Há um padrão mais amplo que quero sinalizar porque acho que é a história realmente interessante por trás do ângulo da economia de custos.
Durante a maior parte dos últimos três anos, o mercado de codificação AI tem sido uma proposta de fronteira ou nada. Ou você pagou pelo melhor modelo disponível ou aceitou resultados significativamente piores. A diferença entre o nível superior e o segundo nível era grande o suficiente para que qualquer pessoa séria sobre o envio do código de produção optasse por quem detinha a coroa do banco SWE naquele trimestre.
Essa lacuna diminuiu em abril de 2026. DeepSeek V4 Pro atingindo 80,6% no SWE-bench Verified – estatisticamente empatado com Opus 4.7 – a um sétimo do preço não é uma melhoria marginal. É uma mudança estrutural no mercado. A implicação é que, para qualquer tarefa em que o critério seja "engenheiro sênior competente realizando um trabalho bem definido", você não precisará mais pagar preços fronteiriços. O único trabalho que ainda exige genuinamente a fronteira é o trabalho que requer julgamento, bom gosto, raciocínio arquitetônico de longo contexto ou revisão cética – e esse trabalho é uma parte real, mas minoritária, do dia do desenvolvedor médio.
O fluxo de trabalho hybrid AI coding é a consequência operacional dessa mudança. É a resposta prática à pergunta “o que você faz quando o modelo barato é bom o suficiente para 70% das suas tarefas?” Você roteia por tipo de tarefa, mantém o modelo de fronteira disponível para o trabalho que dele necessita e para de pagar preços premium por trabalhos que sempre foram de nível de commodity por baixo.
Esta não é a última vez que a fronteira se move. Daqui a seis meses, o V5 chegará ou o que quer que o GPT-5.6 acabe sendo chamado será atingido, e as regras de roteamento precisarão ser atualizadas. O padrão híbrido em si é pegajoso. Depois de desenvolver a força para pensar "de qual modelo essa tarefa realmente precisa?" em vez de "qual modelo devo usar como padrão?", você não volta. Você acabou de atualizar os provedores por trás da mesma lógica de roteamento.
Essa é a verdadeira conclusão. Não "DeepSeek é barato". Não "Opus é caro". A conclusão é que a questão mudou. Não estamos mais escolhendo um modelo. Estamos projetando uma estratégia de roteamento em vários modelos, cada um lidando com o trabalho em que realmente é melhor, com um único agente no topo unindo tudo.
Levei noventa minutos e quinze centavos para enviar um dashboard que deveria custar vinte dólares. Essa matemática não funciona no enquadramento antigo. Funciona perfeitamente no novo.
Perguntas frequentes
Como rotear solicitações Claude Code para DeepSeek V4 sem sair do Claude Code CLI?
Instale Claude Code Router (ou proxy Anti-Gravity Claude) e configure-o como um proxy local compatível com Anthropic na porta 127.0.0.1:3456. O roteador traduz suas solicitações Claude Code para o formato API de DeepSeek de forma transparente - Claude Code pensa que ainda está se comunicando com a Anthropic. Para obter o passo a passo completo da configuração, consulte a seção de configuração do fluxo de trabalho acima.
DeepSeek V4 é realmente mais barato que Claude Opus 4.7 em uso real?
Sim – o V4 Pro custa aproximadamente um sétimo do custo por token do Opus 4.7 a taxas padrão (US$ 1,74/US$ 3,48 por milhão versus US$ 15/US$ 75 da Opus). Meus gastos de abril caíram 73% em relação a março na produção mensal equivalente. A economia depende da combinação de tarefas; O trabalho pure-UI economiza menos do que fluxos de trabalho pesados de back-end.
Quais tarefas de codificação devem permanecer em Opus 4.7 em vez de DeepSeek?
Direcione para o Opus para polimento de UI, decisões de layout, revisão de código, auditorias de segurança, trabalho arquitetônico de longo contexto após 180 mil tokens e qualquer coisa em que o julgamento seja mais importante do que a mecânica. DeepSeek lida com scaffolding, código cola, testes de unidade, dados simulados e tarefas algorítmicas bem especificadas com competência.
Posso executar DeepSeek V4 localmente para código sensível à privacidade?
O Flash V4 (parâmetros 284B) pode ser executado localmente via Ollama em uma estação de trabalho séria. O modelo V4 Pro 1.6T completo requer hardware de classe de data center que a maioria dos desenvolvedores individuais não possui. Para código confidencial, roteie exclusivamente para Opus ou use Flash V4 localmente como substituto.
Qual é o custo mínimo para testar esse fluxo de trabalho híbrido?
Cerca de US$ 2 – esse é o saldo mínimo pré-pago de API do API, que compra cerca de 2,3 milhões de tokens de saída a preços promocionais. Um fim de semana completo de testes de projeto normalmente custa menos de US$ 0,50 em cobranças DeepSeek. Seu acesso Antrópico API existente lida com o lado Opus.
Vamos trabalhar juntos
Procurando construir sistemas AI, automatizar fluxos de trabalho ou dimensionar sua infraestrutura tecnológica? Eu adoraria ajudar.
- Fiverr (compilações e integrações personalizadas): fiverr.com/s/EgxYmWD
- Portfólio: mejba.me
- Ramlit Limited (soluções empresariais): ramlit.com
- ColorPark (design e marca): colorpark.io
- xCyberSecurity (serviços de segurança): xcybersecurity.io