Hybrid AI coding : DeepSeek V4 + Claude Code testé

J'ai expédié un AI dashboard fonctionnel mardi dernier pour quinze cents.

Pas un filaire. Pas un prototype. Un vrai Next.js dashboard avec des itinéraires simulés API, un volet de tâches de style Kanban, trois composants de graphique différents, une page de paramètres qui persiste réellement et une section de héros que je serais à l'aise de mettre devant un client. L’ensemble de la construction a pris environ quatre-vingt-dix minutes de temps d’horloge murale. Les dépenses totales des deux fournisseurs se sont élevées à 0,149 $.

Même projet sur Opus 4.7 pur ? J'ai construit des variantes de ce dashboard exact quatre fois au cours des six derniers mois à titre de référence, et le coût n'a jamais été inférieur à 11 $. Sur un mauvais parcours avec de nombreuses révisions, il s'est rapproché de 28 $. Les calculs m'ont semblé faux la première fois que je l'ai vu atterrir sur un seul centime et un nickel, alors j'ai reconstruit le tout deux fois de plus pour m'assurer de ne pas mal lire le dashboard. Je ne l'étais pas.

L’astuce n’était pas de changer de modèle. Le truc, c'était de refuser de changer. J'ai gardé Claude Code comme harnais - même CLI, même boucle d'agent, mêmes appels d'outils que j'ai utilisés chaque jour de travail au cours de l'année dernière - et j'ai discrètement redirigé les parties ennuyeuses de la construction vers DeepSeek V4 tout en conservant les parties qui nécessitent réellement du goût sur Opus 4.7. C'est toute l'idée derrière le flux de travail hybrid AI coding que je souhaite vous expliquer dans cet article. Ce n'est pas exotique. Ce n'est pas un nouvel IDE. Il s'agit d'une couche de routage entre Claude Code et deux fournisseurs de modèles, et une fois configurée, vous n'y pensez plus.

Je veux être honnête avant d'aller plus loin : ce n'est pas un article "DeepSeek remplace Opus". J'en ai marre de ça. Ils sont rédigés par des personnes qui n’ont rien livré de sérieux sur aucun des deux modèles. DeepSeek V4 n'est pas un modèle frontière UI. Cela ne donnera pas l'impression que votre section de héros est vivante. Cela ne détectera pas le problème de mise en page subtil que l'œil remarque, mais pas le linter. Ce que c'est c'est est le cheval de bataille le plus véritablement utile à 80 % du travail que j'ai utilisé depuis que les modèles open source ont cessé d'être une punchline. Et associé à Claude Opus 4.7 pour les 20 % qui comptent réellement, cela a réduit mes dépenses de codage API d'environ 78 % en avril sans aggraver le travail.

C'est l'histoire. Voici comment cela fonctionne réellement.

Pourquoi l'approche conventionnelle « Just Use Opus » cesse d'évoluer

Depuis environ dix-huit mois, ma réponse à la question « avec quel modèle dois-je coder ? C'était simple : peu importe ce qu'Anthropic a expédié le plus récemment, car l'écart entre Frontier et tout le reste était suffisamment grand pour que la différence de coût ne soit pas pertinente. Lorsque j'ai détaillé mon approche dans le Guide d'optimisation des coûts d'agent AI l'année dernière, je défendais toujours cette position avec des mises en garde. Payez pour Opus, disait le raisonnement, et arrêtez de remettre en question chaque invite.

Cette logique survit jusqu’à ce que vous commenciez réellement à expédier du volume.

Un développeur solo créant une fonctionnalité par semaine sur un plan Claude Max de 200 $ est très bien. Un développeur solo gérant trois projets parallèles, un mandat de client et un calendrier vidéo agressif atteindra les limites de tarif hebdomadaires d'ici mercredi après-midi. J'ai commencé à me cogner régulièrement au plafond en février. La limite du plan Pro se situe autour de 220 000 jetons par fenêtre de cinq heures, et lors d'une journée de construction chargée, je brûle cela en deux longues sessions d'agent. En mars, j'avais trois comptes Claude en rotation, ce qui m'a semblé intelligent pendant environ une semaine, puis a commencé à ressembler à un problème déguisé en flux de travail.

Le problème le plus profond n’était pas les limites de taux. C’était que je payais les prix des modèles frontières pour effectuer un travail pour lequel les modèles frontières sont absurdement surqualifiés. La génération d'une structure de dossiers pour un projet Next.js ne nécessite pas 64,3% sur SWE-bench Pro. L'écriture d'un test unitaire qui affirme qu'une fonction renvoie la bonne forme ne nécessite pas de raisonnement à un million de jetons. L'échafaudage d'un itinéraire CRUD ne nécessite pas le modèle qui vient d'offrir la meilleure cohérence de contexte long du marché. J'utilisais un modèle de jeton de sortie de 25 $ par million pour produire du code que n'importe quel modèle open source décent pourrait produire pour 0,87 $ par million.

C'est l'écart qu'un workflow hybrid AI coding vise à combler.

Les numéros DeepSeek V4 qui m'ont fait prêter attention

DeepSeek V4 a été lancé le 24 avril 2026 – environ deux semaines avant que j'écrive ces lignes – en tant que version préliminaire avec deux variantes. V4 Pro est le modèle de mélange d'experts de 1,6 billion de paramètres avec environ 49 milliards de paramètres actifs par jeton. V4 Flash est le plus petit cousin avec 284 milliards de paramètres dont 13 milliards actifs. Les deux sont livrés avec une fenêtre contextuelle d'un million de jetons incluse dans le prix de base, les deux sont publiés sous la licence MIT et les deux ont des poids complets disponibles publiquement sur HuggingFace sous les référentiels officiels deepseek-ai/DeepSeek-V4-Pro et deepseek-ai/DeepSeek-V4-Flash.

La tarification est la partie importante pour le flux de travail hybride.

V4 Pro a été lancé avec un prix promotionnel de 0,435 $ par million de jetons d'entrée et de 0,87 $ par million de jetons de sortie. Cette promotion se déroule jusqu'au 5 mai – essentiellement le jour de la publication de cet article – après quoi le tarif standard grimpe à 1,74 $ en entrée / 3,48 $ en sortie. Même au tarif post-promo, vous envisagez environ un septième du coût par jeton de Claude Opus 4.7 et environ un sixième du coût de GPT-5.5 Pro en termes de tarification en cas d'absence de cache. Le numéro de titre de VentureBeat a atterri à "1/6th le coût de Opus 4.7", ce qui correspond parfaitement à ce que j'ai mesuré dans les versions réelles.

Le mémoire original sur lequel je travaillais citait « 76 % moins cher en moyenne ». Ce chiffre est conservateur. Le spread réel pour V4 Pro est plus proche de 83 à 86 % moins cher que Opus 4.7 en sortie, selon la carte tarifaire du jour que vous tirez. V4 Flash est encore moins cher – 0,14 $ d’entrée / 0,28 $ de sortie, ce qui le met à environ cinquante fois moins cher qu’Opus sur les jetons de sortie. Pour le travail en arrière-plan, le code de collage et la génération de tests unitaires, Flash est vraiment difficile à battre en termes de prix.

Mais le coût n'a d'importance que si le modèle est réellement compétent pour le travail que vous lui confiez. Voici la partie qui m'a fait m'engager :

DeepSeek V4 Pro arrive à 80,6 % sur SWE-bench Verified. Opus 4.7 se situe à 80,8 %. Il s'agit d'un lien statistique avec la référence en matière d'ingénierie logicielle la plus citée du secteur. V4 Pro dépasse LiveCodeBench à 93,5. Il atteint Codeforces ELO 3206, qui est nettement en avance sur les 3168 de GPT-5.5. Et il obtient un score d'environ 67,9 % sur Terminal-Bench 2.0 – pas le leader (GPT-5.5 prend cela à 82,7 %, Opus 4.7 à 69,4 %), mais absolument dans la même ligue.

Traduisez cela en termes de référence : pour le type de travail pour lequel un ingénieur senior compétent vous dirait "il s'agit d'une tâche définie avec des spécifications propres et une forme connue", le V4 Pro est véritablement compétitif par rapport à la frontière. Ce n'est pas mieux en révision de code. Ce n'est pas mieux pour comprendre ce que vous attendez réellement d'une vague invite à moitié formée. Ce n'est pas mieux dans le travail d'architecture à contexte élevé où Opus gagne toujours. Mais pour tout ce qui s’inscrit clairement dans une enveloppe de tâches définie, l’écart par rapport à la frontière est statistiquement du bruit.

C’est le constat porteur qui se cache derrière l’ensemble du flux de travail hybride.

Que signifie réellement le « flux de travail de codage hybride AI » dans la pratique

Le modèle mental auquel je reviens sans cesse n’est pas « d’utiliser le modèle bon marché lorsque vous en avez les moyens ». Il s’agit de « cesser d’utiliser le modèle coûteux lorsque vous n’en avez pas besoin ». Différence subtile, mais le cadrage est important car il change la façon dont vous construisez les règles de routage.

Voici la taxonomie approximative dans laquelle je me suis installé après environ trois semaines d'exécution de cette configuration à plein temps :

Va à DeepSeek V4 Pro (ou Flash, pour des tâches très restreintes) :

Échafaudage du projet — Structure initiale Next.js, disposition des dossiers, squelettes de routage
Génération de données simulées et scripts de départ
Itinéraires de base CRUD API avec des formes prévisibles
Tests unitaires pour les fonctions dont la spécification est claire
Coller du code entre les interfaces définies (fonctions d'adaptateur, transformateurs, validateurs)
Problèmes algorithmiques avec une spécification propre — tri, analyse, structures de données de base
Scripts d'automatisation ponctuels où je sais exactement ce que je veux
Séquences d'appel d'outils où les outils sont bien définis
Génération de code à partir d'un fichier de jeton du système de conception Figma
Refactors en masse où la règle est mécanique (renommer, extraire, diviser)

Va à Claude Opus 4.7 (ou GPT-5.5 Codex lorsque je suis dans une fenêtre Codex) :

UI polish — tout ce qui "est-ce que cela se sent bien" est le critère de réussite
Décisions de mise en page sur une section de héros, un arrangement dashboard ou toute surface interactive
Qualité des composants et revue structurelle
Révision du code sur tout ce que je m'apprête à expédier en production
Audits de sécurité, notamment pour tout ce qui touche à l'authentification ou aux paiements
Travail architectural à contexte long — raisonnement sur une base de code dans son ensemble
Documentation que je veux lire comme un humain l'a écrite
Tout ce qui est créatif : dénomination, copie, contenu adjacent au marketing
Débogage d'un comportement étrange qui ne correspond pas à un modèle d'erreur évident
Tout ce dont je serais gêné d'expédier la première ébauche

La frontière n'est pas stricte. Il y a des jours où je laisse DeepSeek faire un premier passage sur un composant UI, puis demander à Opus de l'affiner, ce qui fonctionne bien lorsque le squelette sous-jacent est solide mais que le vernis manque. Il y a aussi des jours où je commence avec Opus, je me rends compte que la tâche est plus mécanique que je ne le pensais et je change de routage en cours de session.

Mais le principe plus large est simple. Échafaudages DeepSeek, formes Opus. C'est le flux de travail.

La configuration : Anti-Gravity, Claude Code Router et Proxy Layer

Maintenant la partie pratique. Comment Claude Code – qui est, techniquement, le CLI d'Anthropic pour les modèles d'Anthropic – communique-t-il avec un modèle open source chinois ?

Via un proxy. Plus précisément, via une couche de traduction API compatible Anthropic qui se situe entre le Claude Code CLI et le fournisseur de modèle réel. Il y a deux projets principaux qui méritent d'être connus, et j'ai utilisé les deux :

Claude Code Router est celui sur lequel j'ai choisi. Il s'agit d'une passerelle proxy open source qui se lie à un port local (127.0.0.1:3456 par défaut) et vous permet de définir des règles de routage par type de requête. Les tâches en arrière-plan sont confiées à un seul fournisseur. Les tâches de vision vont à un autre. Le codage par défaut va à un tiers. Claude Code pense qu'il parle à Anthropic tout le temps parce que proxy indique la forme exacte de la demande et de la réponse d'Anthropic. Le fichier de configuration du routeur vous permet de mapper les types de tâches aux points de terminaison du modèle avec une dizaine de lignes JSON.

Anti-Gravity Claude Proxy est l'option alternative. Cela a commencé comme un moyen d'utiliser les jetons Google Antigravity pour appeler les modèles Claude dans Claude Code, mais le fork communautaire (ai-dev-2024/Antigravity-Claude-Code-Proxy) l'a étendu pour fonctionner avec Gemini, GPT-5, Grok et plus de 20 autres modèles, dont DeepSeek. Il comprend un dashboard en temps réel et une commutation de modèle par fenêtre, ce qui semble exagéré jusqu'à la première fois où vous souhaitez que différentes fenêtres de terminal exécutent différents modèles sur la même base de code.

J'ai approfondi Anti-Gravity lui-même dans la procédure pas à pas de l'IDE Anti-Gravity plus tôt cette année, et le guide gratuit Claude Code proxy couvre la configuration associée avec les backends NVIDIA NIM, OpenRouter et Ollama. Si vous êtes déjà à l'aise avec ce modèle proxy, l'échange dans DeepSeek V4 est un changement de configuration de cinq minutes.

Pour une nouvelle configuration, voici la séquence réelle que j'exécute sur une nouvelle machine. Il s'agit de l'approche Claude Code Router car c'est celle avec la documentation la plus claire et le moins de pièces mobiles :

npm install -g @anthropic-ai/claude-code

# 2. Install the router
npm install -g @musistudio/claude-code-router

# 3. Initialize the config
ccr init

# 4. Edit ~/.claude-code-router/config.json
# Add your DeepSeek API key and Anthropic API key under "Providers"
# Define routes under "Router" — typically:
#   default: deepseek,deepseek-v4-pro
#   longContext: anthropic,claude-opus-4-7
#   background: deepseek,deepseek-v4-flash
#   think: anthropic,claude-opus-4-7

# 5. Start the router (it stays running in the background)
ccr start

# 6. Use Claude Code through the router instead of directly
ccr code

La commande ccr code lance Claude Code mais le pointe vers le port local proxy. Tout ce que vous feriez normalement (commandes claude, appels d'agent, serveurs MCP, hooks) fonctionne de manière identique. La seule différence est la couche de routage située en dessous.

Le financement d'un compte DeepSeek API prend environ quatre-vingt-dix secondes. Le solde prépayé minimum est de 2 $, ce qui, au prix promotionnel, vous permet d'acheter environ 4,6 millions de jetons d'entrée ou 2,3 millions de jetons de sortie. Pour le contexte, tout mon week-end de tests sur les quatre projets de ma revue DeepSeek V4 Pro m'a coûté environ 0,43 $ en frais DeepSeek. Deux dollars vont un chemin remarquablement long.

Voici où vous devez être prudent : la gestion des clés API est importante. Le proxy lit les clés d'un fichier de configuration dans votre répertoire personnel. Si vous validez cette configuration dans un dépôt public par accident - et j'ai failli le faire dès le premier jour - vous allez passer une mauvaise journée. Ajoutez .claude-code-router/ à votre gitignore global avant de faire autre chose. Je conserve un référentiel dotfiles distinct pour les configurations proxy afin qu'elles ne vivent jamais à côté du code du projet.

La construction du tableau de bord : une procédure pas à pas concrète

Permettez-moi de vous présenter la version réelle de dashboard à quinze cents, car les nombres abstraits ne signifient pas grand-chose sans un cadre concret.

Le brief était simple. Je voulais un Next.js 15 dashboard pour un produit opérationnel fictif AI. Navigation dans la barre latérale. Trois vues : une vue d'ensemble avec des cartes KPI et un graphique, une vue des tâches avec un tableau de style Kanban et une page de paramètres. Simulation d'itinéraires API qui renvoient des formes réalistes. Vent arrière pour le style. Recharts pour la visualisation. Aucune persistance au-delà de l’état du composant local. J'avais déjà construit cette spécification exacte trois fois auparavant sur un Opus pur, j'avais donc des chiffres de base clairs à comparer.

J'ai commencé avec DeepSeek V4 Pro en faisant la passe d'échafaudage. L'invite était délibérément mécanique : "Générez une structure de projet de routeur d'application Next.js 15 avec ces trois routes, créez les routes API qui renvoient des données fictives correspondant à ces interfaces TypeScript, échafaudez les composants de mise en page de base avec Tailwind et remplacez les composants de visualisation sans encore les styliser." C'est le genre de tâche dans laquelle DeepSeek prospère véritablement. Il y a une spécification claire, les formes sont bien définies et le travail est plus une question de cohérence que de jugement.

V4 Pro a produit un squelette de projet propre et bien organisé en quatre minutes environ de temps d'agent. La structure des dossiers était exactement celle que j'aurais construite à la main. Les interfaces TypeScript étaient correctes. Les données fictives étaient raisonnables – pas créatives, mais pas fausses. Les stubs de composants avaient un typage d'accessoires approprié et des exportations par défaut raisonnables. Dépense totale pour ce pass : environ 0,04 $.

Ensuite, j'ai changé le routage vers Opus 4.7 pour la couche de polissage. L'invite à ce stade avait un caractère différent : "Prenez l'échafaudage existant et faites en sorte que le dashboard ressemble réellement à un produit. Affinez le style de navigation de la barre latérale. Améliorez la hiérarchie des cartes KPI. Rendre les colonnes Kanban visuellement distinctes. Faites attention à l'espacement, au rythme de la typographie et à la finition visuelle globale. Le graphique semble dépouillé - donnez-lui de la personnalité sans le rendre bruyant. "

Ce n'est pas une tâche que DeepSeek ferait mal, exactement. C'est une tâche que DeepSeek ferait flattement. Le résultat serait techniquement correct et visuellement oubliable. Opus, d'un autre côté, a pris environ deux douzaines de petites décisions que je n'aurais jamais demandées explicitement : ajuster la hauteur des lignes, choisir des jetons de couleur sémantiques pour les colonnes, ajouter un état de survol subtil sur les cartes, restructurer la légende du graphique afin qu'elle n'entre pas en concurrence avec le titre. Aucune de ces décisions ne figurait dans mon message. Tous ont amélioré le résultat. C'est le travail pour lequel je paie des prix frontières, et il en vaut la peine.

Coût du pass Opus : environ 0,11$. Total combiné : 0,149 $.

Le même dashboard construit de bout en bout sur Opus pur, dans mes exécutions de base, coûte entre 11 $ et 28 $ en fonction du nombre de cycles de révision que je déclenche. La version hybride était environ 73 à 187 fois moins chère, selon la base de référence à laquelle vous comparez. Et - c'est la partie à laquelle je reviens sans cesse - le résultat était impossible à distinguer d'une construction purement Opus en termes de qualité subjective, car les parties de la construction qui nécessitaient le jugement d'Opus ont obtenu le jugement d'Opus, et les parties qui ne l'ont pas été ont été gérées par un modèle parfaitement capable de faire le travail mécanique.

Le CTA à mi-construction, si vous êtes arrivé jusqu'ici : si vous préférez que quelqu'un crée des flux de travail Claude Code de qualité production comme celui-ci pour votre équipe plutôt que de découvrir vous-même la configuration proxy, j'accepte les engagements hybrid-routing via fiverr.com/s/EgxYmWD.

Où le workflow hybride s'interrompt (et ce que je fais à ce sujet)

Je souhaite être précis sur les modes de défaillance, car toute évaluation honnête en a besoin, et les modèles de routage que j'ai décrits ne sont pas gratuits.

Mode d'échec un : DeepSeek accomplissant avec trop de confiance des tâches qu'il ne devrait pas. Le modèle a tendance à prétendre qu'une tâche est terminée lorsqu'elle est structurellement terminée mais fonctionnellement cassée. J'ai eu une session la semaine dernière au cours de laquelle V4 Pro a généré une implémentation Kanban "complète" qui s'est montée, avait l'air correcte et a lancé une TypeError à chaque événement de glissement car elle avait connecté onDragEnd à un gestionnaire non défini. La boucle d'agent s'est terminée, a revendiqué le succès et a continué. Opus aurait compris cela lors de son auto-évaluation. DeepSeek ne l'a pas fait. Le correctif consiste à être plus agressif en ce qui concerne la couverture des tests dans les règles de routage : tout ce qui a une logique interactive obtient soit une réussite de test unitaire, soit une vérification d'intégrité manuelle avant que l'agent ne prétende être terminé.

Mode d'échec deux : dégradation du contexte long au-delà d'environ 180 à 200 000 jetons. Le contexte annoncé d'un million de jetons est réel dans le sens où le modèle acceptera un million de jetons d'entrée. La chute de la qualité au-delà d’environ 180 000 est également réelle. Pour le travail architectural à base de code complète – le genre de chose où vous devez réellement charger une véritable arborescence de production dans son contexte et la raisonner – Opus 4.7 gagne toujours de manière décisive. J'aborde cela plus en détail dans la procédure pas à pas Gestion du contexte Claude Code 1M. La règle de routage hybride que j'utilise : si la tâche touche plus d'une dizaine de fichiers à la fois, par défaut Opus quel que soit le type de tâche.

Mode d'échec trois : révision du code et audits de sécurité. Je n'achemine pas les révisions de code via DeepSeek. Période. Les critiques nécessitent le genre de raisonnement sceptique qui détecte le bug que personne ne vous a demandé de rechercher, et c'est exactement le travail où le jugement du modèle doit être plus précis que celui de l'écrivain. Idem pour tout travail sensible à la sécurité : flux d'authentification, intégrations de paiement, tout ce qui touche aux données utilisateur au repos. DeepSeek produira un code qui semble sécurisé. Que ce soit réellement le cas, Opus ou GPT-5.5 doit être vérifié. La différence de coût sur le travail de révision n’est pas pertinente par rapport au coût d’expédition d’une vulnérabilité.

Mode d'échec quatre : regroupement de limites de débit. Le API de DeepSeek a ses propres limites de débit, et pendant la période promotionnelle de lancement jusqu'au 5 mai, il est plus probable que d'habitude de les atteindre car tout le monde teste le modèle. L'atténuation ici consiste à conserver une solution de secours OpenRouter configurée dans le routeur afin que les requêtes DeepSeek puissent basculer vers un autre fournisseur servant les mêmes pondérations de modèle. Cela représente un ajout de configuration de cinq minutes et cela m'a permis d'économiser au moins trois sessions au cours des deux dernières semaines.

Mode de défaillance cinq : sensibilité des données. DeepSeek est une société chinoise dotée d'un cloud chinois API. Pour tout code qui touche une logique propriétaire sensible, soit je l'achemine exclusivement vers Opus, soit - pour le travail vraiment sensible - j'exécute V4 Flash localement via Ollama sur mon poste de travail. Le modèle complet V4 Pro 1.6T n’est pas exécutable de manière réaliste sur du matériel grand public. V4 Flash est. Si votre travail présente des problèmes de sensibilité des données, créez des règles de routage pour en tenir compte et gardez une solution de secours locale basée sur Ollama prête pour le travail qui ne devrait jamais quitter votre machine.

À quoi ressemble réellement le calcul des coûts sur un mois

Je souhaite partager les chiffres réels d’avril afin que les allégations d’économies ne soient pas abstraites.

En mars, avant de passer au flux de travail hybride, mon utilisation d'Anthropic API en plus de l'abonnement Max s'élevait à 342 $ pour le mois. Cela complétait le plan Max avec des appels de débordement API lorsque les limites de débit me limitaient les jours de construction intensive. Environ la moitié de ce surplus concernait des tâches qui, rétrospectivement, ne nécessitaient pas du tout de raisonnement frontalier. Structures de dossiers. Échafaudages CRUD. Génération de tests. Refactorisations en masse.

En avril, avec la mise en place du flux de travail hybride, mes dépenses Anthropic API sont tombées à 74 $. Mes dépenses DeepSeek étaient de 19,42 $. Combiné : 93,42 $. Cela représente une réduction de 73 % des dépenses de codage de API, sur une production mensuelle à peu près équivalente, sans dégradation subjective de la qualité du travail que j'ai expédié aux clients.

Les économies deviennent plus spectaculaires à mesure que vous évoluez. Si j'exécutais cette même configuration à 3 fois le volume (ce à quoi ressemble mon flux de travail pendant un mois de production intense), les économies absolues se situeraient entre 700 et 800 $ par mois. Pour une petite agence gérant plusieurs développeurs, c'est le genre de chiffre qui permet de financer le budget d'outillage d'un ingénieur supplémentaire complet.

Je veux faire attention à ne pas extrapoler. Votre mix sera différent du mien. Si vous effectuez principalement du travail UI et du codage créatif, vos économies seront moindres car une plus grande partie de votre travail appartient à Opus. Si vous effectuez principalement de l'automatisation, des scripts et de la colle backend, vos économies seront plus importantes. Les 73% sont mon numéro. Le vôtre se situera quelque part dans une fourchette similaire en fonction de la forme de votre travail.

Ce que je ferais différemment si je recommençais

Quelques choses que j'ai apprises à mes dépens et que vous pouvez ignorer :

Commencez par les règles de routage avant de commencer l'installation de proxy. J'ai passé ma première journée à jouer avec la configuration de proxy et je n'ai vraiment maîtrisé les règles de routage qu'après une semaine d'utilisation. Le proxy est la partie la plus facile. Savoir quelles tâches appartiennent à quel modèle est la partie qui demande de la pratique. Passez une soirée à rédiger une taxonomie de votre travail réel avant de financer le compte API.

Engagez-vous sur un seul projet proxy, ne sautez pas entre eux. J'ai commencé avec le proxy Anti-Gravity Claude, je suis passé à Claude Code Router, puis j'ai brièvement essayé une troisième option avant de revenir sur le routeur. Chaque changement m'a coûté quelques heures de retouche de configuration. Choisissez-en un. Tenez-vous-en à cela. Les différences entre eux au niveau de l’utilisation quotidienne sont minimes.

Configurez la surveillance des coûts dès le premier jour. DeepSeek et Anthropic utilisent tous deux dashboard. Ajoutez-les à vos favoris. Vérifiez-les quotidiennement pendant les deux premières semaines. L’intérêt de la configuration hybride est de savoir où va votre argent, et cela ne fonctionne que si vous regardez réellement les chiffres.

N'essayez pas de tout acheminer. J'ai traversé une phase où j'ai essayé de transférer toutes les tâches possibles vers DeepSeek afin de maximiser les économies, y compris le travail de polissage de UI qui n'y appartenait évidemment pas. Le résultat a été un travail vraiment pire expédié aux clients. La solution était simple : reculer, peaufiner Opus, accepter que les économies allaient être de 73 % au lieu de 92 % et arrêter d'optimiser au-delà du point de rendements décroissants.

Pourquoi cela est important au-delà de mon propre flux de travail

Il y a un modèle plus large que je souhaite signaler parce que je pense que c'est l'histoire la plus intéressante sous l'angle des économies de coûts.

Pendant la majeure partie des trois dernières années, le marché du codage AI a été une proposition de frontière ou de rien. Soit vous avez payé pour le meilleur modèle disponible, soit vous avez accepté un rendement nettement inférieur. L'écart entre le premier et le deuxième niveau était suffisamment grand pour que quiconque s'intéressait sérieusement à l'expédition du code de production se tourne par défaut vers celui qui détenait la couronne du banc SWE ce trimestre-là.

Cet écart s'est effondré en avril 2026. DeepSeek V4 Pro atteignant 80,6 % sur le banc SWE Verified – statistiquement à égalité avec Opus 4.7 – à un septième du prix ne constitue pas une amélioration marginale. C'est un changement structurel sur le marché. L'implication est que pour toute tâche pour laquelle « un ingénieur senior compétent effectuant un travail bien défini » est la barre, vous n'avez plus à payer de prix frontières. Le seul travail qui exige encore véritablement la frontière est le travail qui nécessite du jugement, du goût, un raisonnement architectural sur un long contexte ou un examen sceptique - et ce travail représente une part réelle mais minoritaire de la journée du développeur moyen.

Le workflow hybrid AI coding est la conséquence opérationnelle de ce changement. C'est la réponse pratique à la question « que faites-vous lorsque le modèle bon marché est suffisant pour 70 % de vos tâches ? » Vous effectuez un itinéraire par type de tâche, vous conservez le modèle frontière disponible pour le travail qui en a besoin et vous arrêtez de payer des prix plus élevés pour un travail qui a toujours été de niveau inférieur.

Ce n’est pas la dernière fois que la frontière bouge. Dans six mois, la V5 arrivera ou quel que soit le nom de GPT-5.6, cela arrivera, et les règles de routage devront être mises à jour. Le modèle hybride lui-même est cependant collant. Une fois que vous avez développé le muscle nécessaire pour réfléchir : « de quel modèle cette tâche a-t-elle réellement besoin ? » au lieu de "quel modèle est-ce que je choisis par défaut ?", vous ne revenez pas en arrière. Vous mettez simplement à jour les fournisseurs derrière la même logique de routage.

C'est le vrai point à retenir. Pas "DeepSeek est bon marché." Pas "Opus est cher". Ce qu’il faut retenir, c’est que la question a changé. Nous ne choisissons plus un modèle. Nous concevons une stratégie de routage sur plusieurs modèles, chacun gérant le travail pour lequel il est réellement le meilleur, avec un harnais d'agent unique au-dessus pour relier le tout.

Il m'a fallu quatre-vingt-dix minutes et quinze cents pour expédier un dashboard qui aurait dû coûter vingt dollars. Ce calcul ne fonctionne pas dans l’ancien cadre. Fonctionne parfaitement dans le nouveau.

Questions fréquemment posées

Comment acheminer les requêtes Claude Code vers DeepSeek V4 sans quitter Claude Code CLI ?

Installez Claude Code Router (ou Anti-Gravity Claude Proxy) et configurez-le en tant que proxy local compatible Anthropic sur le port 127.0.0.1:3456. Le routeur traduit vos requêtes Claude Code au format API de DeepSeek de manière transparente – Claude Code pense qu'il parle toujours à Anthropic. Pour la procédure complète de configuration, consultez la section de configuration du flux de travail ci-dessus.

DeepSeek V4 est-il réellement moins cher que Claude Opus 4.7 en utilisation réelle ?

Oui – V4 Pro coûte environ un septième du coût par jeton de Opus 4.7 aux tarifs standard (1,74 $/3,48 $ par million contre 15 $/75 $ pour Opus). Mes dépenses d'avril ont chuté de 73 % par rapport à mars pour une production mensuelle équivalente. Les économies dépendent de la répartition de vos tâches ; Le travail pure-UI permet d'économiser moins que les flux de travail lourds en backend.

Quelles tâches de codage doivent rester sur Opus 4.7 au lieu de DeepSeek ?

Route vers Opus pour le peaufinage de UI, les décisions de mise en page, la révision du code, les audits de sécurité, le travail architectural à long contexte au-delà de 180 000 jetons et tout ce pour quoi le jugement compte plus que la mécanique. DeepSeek gère avec compétence les échafaudages, le code de colle, les tests unitaires, les données fictives et les tâches algorithmiques bien spécifiées.

Puis-je exécuter DeepSeek V4 localement pour le code sensible à la confidentialité ?

V4 Flash (paramètres 284B) est exécutable localement via Ollama sur un poste de travail sérieux. Le modèle complet V4 Pro 1.6T nécessite du matériel de classe centre de données que la plupart des développeurs solo ne possèdent pas. Pour le code sensible, acheminez-le exclusivement vers Opus ou utilisez V4 Flash localement comme solution de secours.

Quel est le coût minimum pour tester moi-même ce workflow hybride ?

Environ 2 $ – c'est le solde minimum prépayé API de DeepSeek, qui achète environ 2,3 millions de jetons de sortie à un prix promotionnel. Un week-end complet de tests de projet coûte généralement moins de 0,50 $ en frais DeepSeek. Votre accès Anthropic API existant gère le côté Opus.

Travaillons ensemble

Vous cherchez à créer des systèmes AI, à automatiser les flux de travail ou à faire évoluer votre infrastructure technologique ? J'aimerais aider.

Fiverr (versions et intégrations personnalisées) : fiverr.com/s/EgxYmWD
Portefeuille : mejba.me
Ramlit Limited (solutions d'entreprise) : ramlit.com
ColorPark (conception et image de marque) : colorpark.io
xCyberSecurity (services de sécurité) : xcybersecurity.io

Hybrid AI coding : DeepSeek V4 + Claude Code testé