Hybrid AI coding: DeepSeek V4 + Claude Code getest
Ik heb afgelopen dinsdag een werkende AI dashboard verzonden voor vijftien cent.
Geen draadframe. Geen prototype. Een echte Next.js dashboard met nep-API-routes, een taakvenster in Kanban-stijl, drie verschillende diagramcomponenten, een instellingenpagina die daadwerkelijk de status bleef behouden, en een heldensectie die ik met gemak aan een klant zou kunnen presenteren. De hele bouw duurde ongeveer negentig minuten wandkloktijd. De totale uitgaven bij twee providers kwamen uit op $ 0,149.
Hetzelfde project op pure Opus 4.7? Ik heb in de afgelopen zes maanden vier keer varianten van deze exacte dashboard gebouwd als benchmark, en de kosten zijn nooit onder de $ 11 uitgekomen. Tijdens een slechte run met veel herzieningen was het dichter bij de $28. De wiskunde voelde verkeerd aan de eerste keer dat ik het op een dubbeltje en een stuiver zag landen, dus heb ik het hele ding nog twee keer opnieuw opgebouwd om er zeker van te zijn dat ik de dashboard niet verkeerd las. Dat was ik niet.
De truc was niet om van model te wisselen. De truc was om te weigeren over te stappen. Ik heb Claude Code als harnas behouden - dezelfde CLI, dezelfde agentenlus, dezelfde tooloproepen die ik het afgelopen jaar elke werkdag heb gebruikt - en ik heb stilletjes de saaie delen van de build omgeleid naar DeepSeek V4, terwijl ik de delen die eigenlijk smaak vereisen op Opus 4.7 bewaarde. Dat is het hele idee achter de hybrid AI coding-workflow waar ik je in dit bericht doorheen wil leiden. Het is niet exotisch. Het is geen nieuwe IDE. Het is een routeringslaag tussen Claude Code en twee modelproviders, en als het eenmaal is ingesteld, denk je er niet meer over na.
Ik wil eerlijk zijn voordat we verder gaan: dit is geen "DeepSeek vervangt Opus" -bericht. Ik ben die beu. Ze zijn geschreven door mensen die voor geen van beide modellen iets serieus hebben verzonden. DeepSeek V4 is geen grensverleggend UI-model. Het zal je heldensectie niet levend laten voelen. Het zal het subtiele lay-outprobleem dat het oog opmerkt, maar de linter niet opmerken. Wat het is is het meest bruikbare werkpaard voor 80% van het werk dat ik heb gebruikt sinds open-sourcemodellen niet langer een clou waren. En in combinatie met Claude Opus 4.7 voor de 20% die er echt toe doet, verminderde het mijn coderingsuitgaven voor API in april met ongeveer 78% zonder het werk erger te maken.
Dat is het verhaal. Hier ziet u hoe het eigenlijk werkt.
Waarom de conventionele "Just Use Opus"-aanpak de schaalvergroting stopt
Ongeveer achttien maanden lang was mijn antwoord op "met welk model moet ik coderen?" was simpel: wat Anthropic het meest recentelijk heeft verzonden, omdat de kloof tussen de grens en al het andere groot genoeg was om het kostenverschil irrelevant te maken. Toen ik vorig jaar mijn aanpak uiteenzette in de AI gids voor kostenoptimalisatie van agenten, verdedigde ik dat standpunt nog steeds met kanttekeningen. Betaal voor Opus, zo luidde de redenering, en stop met het twijfelen aan elke prompt.
Die logica blijft bestaan totdat je daadwerkelijk volume gaat verzenden.
Een solo-ontwikkelaar die één functie per week bouwt met een Claude Max-abonnement van $ 200 is prima. Een solo-ontwikkelaar die drie nevenprojecten uitvoert, een klantvasthouder en een agressief videoschema, zal woensdagmiddag de wekelijkse tarieflimieten bereiken. In februari begon ik regelmatig tegen het plafond te botsen. De limiet van het Pro-plan ligt ergens rond de 220.000 tokens per periode van vijf uur, en op een zware bouwdag verbrand ik dat in twee lange agentsessies. In maart had ik drie Claude-accounts in roulatie, wat ongeveer een week lang slim aanvoelde en daarna begon te voelen als een probleem, vermomd als een workflow.
Het diepere probleem waren niet de tarieflimieten. Het was dat ik prijzen voor grensmodellen betaalde om werk te doen waarvoor grensmodellen absurd overgekwalificeerd zijn. Het genereren van een mappenstructuur voor een Next.js-project vereist geen 64,3% op SWE-bench Pro. Het schrijven van een eenheidstest die beweert dat een functie de juiste vorm retourneert, vereist geen redenering met miljoenen tokens. Voor het opzetten van een CRUD-route is niet het model nodig dat zojuist de beste lange-contextcoherentie op de markt heeft gebracht. Ik gebruikte een output-token-model van $ 25 per miljoen om code te produceren die elk fatsoenlijk open-sourcemodel voor $ 0,87 per miljoen zou kunnen produceren.
Dat is het gat dat een hybrid AI coding-workflow moet dichten.
De DeepSeek V4-nummers waardoor ik oplet
DeepSeek V4 werd gelanceerd op 24 april 2026 – ongeveer twee weken voordat ik dit schrijf – als een preview-release met twee varianten. V4 Pro is het Mixture-of-Experts-model met 1,6 biljoen parameters en ongeveer 49 miljard actieve parameters per token. V4 Flash is de kleinere neef met 284 miljard parameters waarvan 13 miljard actief. Beide worden geleverd met een contextvenster van één miljoen tokens inbegrepen in de basisprijs, beide worden vrijgegeven onder de MIT-licentie en beide hebben volledige gewichten openbaar beschikbaar op HuggingFace onder de officiële deepseek-ai/DeepSeek-V4-Pro- en deepseek-ai/DeepSeek-V4-Flash-repository's.
De prijs is het onderdeel dat van belang is voor de hybride workflow.
V4 Pro gelanceerd met promotionele prijzen van $0,435 per miljoen inputtokens en $0,87 per miljoen outputtokens. Die promotie loopt tot en met 5 mei – feitelijk de dag waarop dit bericht verschijnt – waarna het standaardtarief stijgt naar $ 1,74 in / $ 3,48 uit. Zelfs met het post-promotietarief kijk je naar ongeveer een zevende van de kosten per token van Claude Opus 4.7 en ongeveer een zesde van de kosten van GPT-5.5 Pro voor prijzen voor cache-missers. Het kopnummer van VentureBeat kwam terecht op "1/6th de kosten van Opus 4.7", wat netjes aansluit bij wat ik heb gemeten bij daadwerkelijke builds.
In de oorspronkelijke opdracht waar ik aan werkte, stond: "Gemiddeld 76% goedkoper." Dat aantal is conservatief. De werkelijke spread voor V4 Pro is dichter bij 83-86% goedkoper dan Opus 4.7 bij uitvoer, afhankelijk van de dagtariefkaart die u trekt. V4 Flash is nog steeds goedkoper: $0,14 in / $0,28 uit, waardoor het ongeveer vijftig keer goedkoper is dan Opus op het gebied van outputtokens. Voor achtergrondwerk, lijmcode en het genereren van unit-tests is Flash echt moeilijk te verslaan qua prijs.
Maar de kosten zijn alleen van belang als het model daadwerkelijk competent is in het werk dat u ernaartoe stuurt. Dit is het deel dat mij ertoe aanzette:
DeepSeek V4 Pro belandt op 80,6% op SWE-bench Verified. Opus 4.7 staat op 80,8%. Dat is een statistische gelijkheid met de meest geciteerde benchmark voor software-engineering in de branche. V4 Pro overtreft LiveCodeBench met 93,5. Het treft Codeforces ELO 3206, dat aanzienlijk hoger ligt dan de 3168 van GPT-5.5. En het scoort ongeveer 67,9% op Terminal-Bench 2.0 – niet de leider (GPT-5.5 schat dat op 82,7%, Opus 4.7 op 69,4%), maar absoluut in dezelfde klasse.
Vertaal dat uit de benchmark: voor het soort werk waarbij een competente senior engineer je zou vertellen "dit is een gedefinieerde taak met strakke specificaties en een bekende vorm", is V4 Pro echt concurrerend met de grens. Het is niet beter in codebeoordeling. Het is niet beter om te begrijpen wat je eigenlijk wilt vanuit een vage, halfgevormde prompt. Het is niet beter in het architectuurwerk met een hoge context, waar Opus nog steeds wint. Maar voor alles wat precies binnen een gedefinieerd takenpakket past, is de kloof naar de grens statistisch gezien ruis.
Dat is de dragende observatie achter de hele hybride workflow.
Wat "Hybride AI-coderingsworkflow" feitelijk in de praktijk betekent
Het mentale model waar ik steeds op terugkom is niet 'gebruik het goedkope model als je het je kunt veroorloven'. Het is "stop met het gebruik van het dure model als je het niet nodig hebt." Een subtiel verschil, maar de framing is belangrijk omdat deze de manier verandert waarop u de routeringsregels samenstelt.
Dit is de ruwe taxonomie waar ik me in heb gevestigd nadat ik deze opstelling ongeveer drie weken fulltime heb uitgevoerd:
Gaat naar DeepSeek V4 Pro (of Flash, voor zeer beperkte taken):
- Projectsteigers: initiële structuur van Next.js, mapindelingen, routeringsskeletten
- Mock-gegevensgeneratie en zaadscripts
- Basis CRUD API-routes met voorspelbare vormen
- Unittests voor functies waarvan de specificatie duidelijk is
- Lijmcode tussen gedefinieerde interfaces (adapterfuncties, transformatoren, validators)
- Algoritmische problemen met een zuivere specificatie: sorteren, parseren, basisdatastructuren
- Eenmalige automatiseringsscripts waarbij ik precies weet wat ik wil
- Gereedschapsaanroepsequenties waarbij de gereedschappen goed gedefinieerd zijn
- Codegeneratie vanuit een tokenbestand van het Figma-ontwerpsysteem
- Bulkrefactoren waarbij de regel mechanisch is (hernoemen, extraheren, splitsen)
Gaat naar Claude Opus 4.7 (of GPT-5.5 Codex als ik in een Codex-venster zit):
- UI polish — alles waarbij "voelt dit goed goed" het succescriterium is
- Lay-outbeslissingen op een hero-sectie, dashboard-opstelling of een interactief oppervlak
- Componentkwaliteit en structurele beoordeling
- Codebeoordeling van alles wat ik naar productie ga verzenden
- Beveiligingsaudits, vooral voor alles wat met authenticatie of betalingen te maken heeft
- Architectonisch werk met een lange context: redeneren over een codebase als geheel
- Documentatie die ik wil lezen zoals een mens het heeft geschreven
- Alles wat creatief is: naamgeving, tekst, marketinggerelateerde inhoud
- Foutopsporing van vreemd gedrag dat niet overeenkomt met een duidelijk foutpatroon
- Alles waarbij ik me zou schamen als ik de eerste versie zou verzenden
De grens is niet strikt. Er zijn dagen waarop ik DeepSeek een eerste poging laat doen tot een UI-component en vervolgens Opus vraag om het te verfijnen, wat goed werkt als het onderliggende skelet stevig is, maar de glans ontbreekt. Er zijn ook dagen waarop ik met Opus begin, besef dat de taak mechanischer is dan ik dacht, en halverwege de sessie van route verander.
Maar het bredere principe is eenvoudig. DeepSeek steigers, Opus-vormen. Dat is de workflow.
De installatie: Anti-Gravity, Claude Code Router en de Proxy Layer
Nu het praktische gedeelte. Hoe praat Claude Code – wat technisch gezien Anthropic's CLI is voor de modellen van Anthropic – met een Chinees open-sourcemodel?
Via een proxy. In het bijzonder via een Antropisch-compatibele API-vertaallaag die zich tussen de Claude Code CLI en de daadwerkelijke modelprovider bevindt. Er zijn twee belangrijke projecten die de moeite waard zijn om te weten, en ik heb beide gebruikt:
Claude Code Router is degene waar ik voor gekozen heb. Het is een open-source proxy-gateway die verbinding maakt met een lokale poort (standaard 127.0.0.1:3456) en waarmee u routeringsregels per verzoektype kunt definiëren. Achtergrondtaken gaan naar één aanbieder. Visietaken gaan naar een andere. Standaardcodering gaat naar een derde. Claude Code denkt de hele tijd met Anthropic te praten, omdat de proxy de exacte vraag- en antwoordvorm van Anthropic uitspreekt. Met het configuratiebestand van de router kunt u taaktypen toewijzen aan modeleindpunten met ongeveer tien regels JSON.
Anti-Gravity Claude Proxy is de alternatieve optie. Het begon als een manier om Google Antigravity-tokens te gebruiken om Claude-modellen binnen Claude Code aan te roepen, maar de communityfork (ai-dev-2024/Antigravity-Claude-Code-Proxy) breidde het uit om te werken met Gemini, GPT-5, Grok en meer dan twintig andere modellen, waaronder DeepSeek. Het omvat een real-time dashboard en modelwisseling per venster, wat klinkt als overdreven tot de eerste keer dat je wilt dat verschillende terminalvensters verschillende modellen draaien op dezelfde codebase.
Ik heb dieper in Anti-Gravity zelf gegraven in de Anti-Gravity IDE walkthrough eerder dit jaar, en de gratis Claude Code proxy handleiding behandelt de gerelateerde installatie met NVIDIA NIM, OpenRouter en Ollama-backends. Als u al vertrouwd bent met dat proxy-patroon, is het omwisselen van DeepSeek V4 een configuratiewijziging van vijf minuten.
Voor een nieuwe installatie is hier de daadwerkelijke reeks die ik op een nieuwe machine uitvoer. Dit is voor de Claude Code Router-aanpak, omdat deze degene is met de schoonste documentatie en de minste bewegende delen:
npm install -g @anthropic-ai/claude-code
# 2. Install the router
npm install -g @musistudio/claude-code-router
# 3. Initialize the config
ccr init
# 4. Edit ~/.claude-code-router/config.json
# Add your DeepSeek API key and Anthropic API key under "Providers"
# Define routes under "Router" — typically:
# default: deepseek,deepseek-v4-pro
# longContext: anthropic,claude-opus-4-7
# background: deepseek,deepseek-v4-flash
# think: anthropic,claude-opus-4-7
# 5. Start the router (it stays running in the background)
ccr start
# 6. Use Claude Code through the router instead of directly
ccr code
De opdracht ccr code start Claude Code maar verwijst deze naar de lokale proxy-poort. Alles wat u normaal zou doen (claude-opdrachten, agentaanroepen, MCP-servers, hooks) werkt identiek. Het enige verschil is de onderliggende routeringslaag.
Het financieren van een DeepSeek API-account duurt ongeveer negentig seconden. Het minimale prepaid-saldo is $ 2, waarmee je tegen promoprijzen ongeveer 4,6 miljoen inputtokens of 2,3 miljoen outputtokens kunt kopen. Ter context: mijn hele weekend van testen van alle vier de projecten in mijn DeepSeek V4 Pro-recensie leverde me ongeveer $ 0,43 aan DeepSeek-kosten op. Met twee dollar kom je opmerkelijk ver.
Hier moet u voorzichtig zijn: de sleutelafhandeling van de API is belangrijk. De proxy leest sleutels uit een configuratiebestand in uw thuismap. Als je die configuratie per ongeluk in een openbare repository plaatst (en daar kwam ik op de eerste dag ongemakkelijk dicht bij) dan zul je een slechte dag hebben. Voeg .claude-code-router/ toe aan uw globale gitignore voordat u iets anders doet. Ik bewaar een aparte dotfiles-repository voor proxy-configuraties, zodat ze nooit naast de projectcode staan.
Het dashboard bouwen: een concrete walkthrough
Laat me even door de daadwerkelijke dashboard-build van vijftien cent lopen, want abstracte cijfers betekenen niet veel zonder een concreet frame.
De opdracht was eenvoudig. Ik wilde een Next.js 15 dashboard voor een fictief AI ops-product. Zijbalknavigatie. Drie weergaven: een overzicht met KPI-kaarten en een diagram, een takenweergave met een Kanban-stijl bord en een instellingenpagina. Mock API-routes die realistische vormen teruggeven. Wind in de rug voor styling. Opnieuw diagrammen voor de visualisatie. Geen persistentie buiten de lokale componentstatus. Ik had deze exacte specificatie drie keer eerder gebouwd op pure Opus, dus ik had schone basislijnnummers om mee te vergelijken.
Ik begon met DeepSeek V4 Pro en deed de steigerpas. De prompt was opzettelijk mechanisch: "Genereer een Next.js 15 app-routerprojectstructuur met deze drie routes, creëer de API-routes die nepgegevens retourneren die overeenkomen met deze TypeScript-interfaces, stel de basislay-outcomponenten samen met Tailwind en stub de visualisatiecomponenten zonder ze nog te stylen." Dit is het soort taak waarbij DeepSeek echt gedijt. Er zijn duidelijke specificaties, de vormen zijn goed gedefinieerd en het werk gaat meer over consistentie dan over oordeel.
V4 Pro produceerde een schoon, goed georganiseerd projectskelet in ongeveer vier minuten agenttijd. De mappenstructuur was precies wat ik met de hand zou hebben gebouwd. De TypeScript-interfaces waren correct. De nepgegevens waren redelijk – niet creatief, maar niet verkeerd. De componentstubs hadden de juiste prop-typering en verstandige standaardexports. Totale uitgaven voor die pas: ongeveer $ 0,04.
Vervolgens schakelde ik de routing over naar Opus 4.7 voor de polijstlaag. De opdracht in dit stadium was anders van karakter: "Neem het bestaande platform en zorg ervoor dat de dashboard echt aanvoelt als een product. Verfijn de navigatiestijl in de zijbalk. Verbeter de KPI-kaarthiërarchie. Maak de Kanban-kolommen visueel onderscheidend. Besteed aandacht aan de spatiëring, het ritme van de typografie en de algehele visuele afwerking. Het diagram ziet er kaal uit - geef het persoonlijkheid zonder het luid te maken."
Dat is niet bepaald een taak die DeepSeek slecht zou uitvoeren. Het is een taak die DeepSeek ronduit zou uitvoeren.* De uitvoer zou technisch correct en visueel vergeetbaar zijn. Opus daarentegen nam ongeveer twee dozijn kleine beslissingen waar ik nooit expliciet om had gevraagd: het aanpassen van de lijnhoogte, het kiezen van semantische kleurfiches voor de kolommen, het toevoegen van een subtiele hover-status op de kaarten, het herstructureren van de diagramlegenda zodat deze niet concurreerde met de titel. Geen van deze beslissingen stond in mijn opdracht. Ze verbeterden allemaal het resultaat. Dat is het werk waarvoor ik grensprijzen betaal, en het is het waard.
Kosten van de Opus-pas: ongeveer $ 0,11. Totaal gecombineerd: $ 0,149.
Dezelfde dashboard, end-to-end gebouwd op pure Opus, is in mijn basisruns tussen de $ 11 en $ 28 opgekomen, afhankelijk van het aantal revisiecycli dat ik activeer. De hybride versie was ongeveer 73 tot 187 keer goedkoper, afhankelijk van de basislijn waarmee je vergelijkt. En – dit is het deel waar ik steeds op terugkom – het resultaat was qua subjectieve kwaliteit niet te onderscheiden van een pure Opus-build, omdat de delen van de build die het oordeel van Opus nodig hadden, het oordeel van Opus kregen, en de delen die dat niet deden, werden afgehandeld door een model dat perfect in staat was tot het mechanische werk.
De mid-build CTA, als je zo ver bent gekomen: als je liever iemand Claude Code-workflows van productiekwaliteit als deze voor je team laat bouwen in plaats van zelf de proxy-installatie uit te zoeken, neem ik hybrid-routing-opdrachten aan via fiverr.com/s/EgxYmWD.
Waar de hybride workflow breekt (en wat ik eraan doe)
Ik wil specifiek zijn over de faalwijzen, omdat elke eerlijke beoordeling deze nodig heeft, en de routeringspatronen die ik heb beschreven zijn geen gratis lunch.
Foutmodus één: DeepSeek voltooit te zelfverzekerd taken die niet zouden moeten worden uitgevoerd. Het model heeft de neiging te beweren dat een taak is voltooid wanneer deze structureel is voltooid maar functioneel kapot is. Ik had vorige week een sessie waarin V4 Pro een "volledige" Kanban-implementatie genereerde die werd geactiveerd, er goed uitzag en een TypeError opleverde bij elke drag-gebeurtenis omdat onDragEnd was aangesloten op een ongedefinieerde handler. De agentenlus eindigde, claimde succes en ging verder. Het Opus zou dit bij zelfcontrole hebben opgemerkt. DeepSeek niet. De oplossing is om agressiever te zijn met betrekking tot de testdekking in de routeringsregels: alles met interactieve logica krijgt een eenheidstest of een handmatige controle voordat de agent voltooiing claimt.
Foutmodus twee: degradatie van de lange context voorbij ongeveer 180-200.000 tokens. De geadverteerde context van een miljoen tokens is reëel in de zin dat het model een miljoen tokens aan invoer accepteert. De kwaliteitsklif voorbij ongeveer 180K is ook reëel. Voor architectonisch werk met volledige codebase – het soort dingen waarbij je daadwerkelijk een echte productieboom in de context moet laden en erover moet redeneren – wint Opus 4.7 nog steeds beslissend. Ik bespreek dit in meer detail in de uitleg van Claude Code 1M contextbeheer. De hybride routeringsregel die ik gebruik: als de taak meer dan ongeveer tien bestanden tegelijk raakt, wordt standaard Opus gebruikt, ongeacht het taaktype.
Foutmodus drie: codebeoordeling en beveiligingsaudits. Ik stuur codebeoordelingen niet via DeepSeek. Periode. Recensies vereisen het soort sceptische redenering dat de bug ontdekt waar niemand je om heeft gevraagd te zoeken, en dat is precies het werk waarbij het oordeel van het model scherper moet zijn dan dat van de schrijver. Hetzelfde geldt voor elk veiligheidsgevoelig werk: authenticatiestromen, betalingsintegraties, alles wat te maken heeft met gebruikersgegevens in rust. DeepSeek zal code produceren die er veilig uitziet. Of dit daadwerkelijk het geval is, vereist Opus of GPT-5.5 om te verifiëren. Het verschil in kosten voor beoordelingswerk is niet relevant in vergelijking met de kosten voor het verzenden van een kwetsbaarheid.
Foutmodus vier: clustering van snelheidslimieten. DeepSeek's API heeft zijn eigen snelheidslimieten, en tijdens de lanceringspromoperiode tot en met 5 mei is het waarschijnlijker dan normaal om deze te bereiken omdat iedereen het model aan het testen is. De oplossing hier is om een OpenRouter-fallback geconfigureerd te houden in de router, zodat DeepSeek-verzoeken kunnen failoveren naar een andere provider die hetzelfde modelgewicht biedt. Dat is een configuratietoevoeging van vijf minuten en het heeft me de afgelopen twee weken minstens drie sessies bespaard.
Foutmodus vijf: gegevensgevoeligheid. DeepSeek is een Chinees bedrijf met een Chinese cloud API. Voor elke code die gevoelige bedrijfseigen logica raakt, leid ik deze exclusief naar Opus of (voor het echt gevoelige werk) voer ik V4 Flash lokaal uit via Ollama op mijn werkstation. Het volledige V4 Pro 1.6T-model kan realistisch gezien niet op consumentenhardware worden uitgevoerd. V4 Flash is. Als er bij uw werk sprake is van gegevensgevoeligheid, stel dan routeringsregels op die daar rekening mee houden en houd een op Ollama gebaseerde lokale fallback gereed voor het werk dat uw machine nooit mag verlaten.
Hoe de kostenwiskunde er over een maand eigenlijk uitziet
Ik wil de reële cijfers van april delen, zodat de besparingsclaim niet abstract is.
In maart, voordat ik was overgestapt op de hybride workflow, bedroeg mijn Anthropic API-gebruik bovenop het Max-abonnement $ 342 per maand. Dat was een aanvulling op het Max-abonnement met overflow API-oproepen toen de tarieflimieten me op zware bouwdagen belemmerden. Ongeveer de helft van die overvloed ging naar taken waarvoor achteraf gezien helemaal geen grensredenering nodig was. Mapstructuren. CRUD-steigers. Testgeneratie. Bulk-refactoren.
In april, toen de hybride workflow werd geïmplementeerd, daalden mijn uitgaven aan Anthropic API naar $ 74. Mijn DeepSeek-uitgaven waren $ 19,42. Gecombineerd: $ 93,42. Dat is een reductie van 73% in de codeeruitgaven voor API, bij een ongeveer gelijkwaardige maandelijkse output, zonder subjectieve kwaliteitsvermindering van het werk dat ik naar klanten heb verzonden.
De besparingen worden groter naarmate u schaalt. Als ik dezelfde opstelling zou gebruiken op 3x het volume – en dat is hoe mijn workflow eruit ziet tijdens een zware productiemaand – zou de absolute besparing ergens rond de €700-800 per maand uitkomen. Voor een klein bureau met meerdere ontwikkelaars is dat het soort bedrag dat betaalt voor een volledig extra gereedschapsbudget voor ingenieurs.
Ik wil ervoor waken dat ik niet te veel extrapoleer. Jouw mix zal er anders uitzien dan de mijne. Als u voornamelijk UI-werk en creatieve codering doet, zal uw besparing kleiner zijn omdat meer van uw werk op Opus thuishoort. Als u vooral bezig bent met automatisering, scripting en backend-lijm, zal uw besparing groter zijn. De 73% is mijn nummer. De jouwe zal ergens in een vergelijkbaar bereik terechtkomen, afhankelijk van de vorm van je werk.
Wat ik anders zou doen als ik opnieuw zou beginnen
Een paar dingen die ik op de harde manier heb geleerd en die je kunt overslaan:
Begin met de routeringsregels voordat je begint met de installatie van proxy. Ik heb mijn eerste dag besteed aan het spelen met de proxy-installatie en had de routeringsregels pas echt onder de knie na een week gebruik. De proxy is het makkelijke gedeelte. Weten welke taken bij welk model horen, is het onderdeel dat oefening vergt. Besteed een avond aan het schrijven van een taxonomie van uw daadwerkelijke werk voordat u geld op de API-account stort.
Doe mee aan één proxy-project en wissel er niet heen en weer. Ik begon met Anti-Gravity Claude Proxy, schakelde over naar Claude Code Router en probeerde vervolgens kort een derde optie voordat ik weer op de Router terechtkwam. Elke overstap kostte me een paar uur herwerken van de configuratie. Kies er een. Blijf erbij. De verschillen tussen hen op het dagelijkse gebruiksniveau zijn klein.
Stel kostenbewaking in op de eerste dag. Zowel DeepSeek als Anthropic gebruiken dashboard's. Maak een bladwijzer van ze. Controleer ze de eerste twee weken dagelijks. Het hele punt van de hybride opzet is om te weten waar je geld naartoe gaat, en dat werkt alleen als je daadwerkelijk naar de cijfers kijkt.
Probeer niet alles te routeren. Ik heb een fase doorlopen waarin ik probeerde elke mogelijke taak naar DeepSeek te pushen om de besparingen te maximaliseren, inclusief UI-polijstwerk dat daar duidelijk niet thuishoorde. Het resultaat was dat er echt slechter werk naar klanten werd verzonden. De oplossing was eenvoudig: trek je terug, verwijs naar Opus, accepteer dat de besparingen 73% zouden bedragen in plaats van 92%, en stop met optimaliseren voorbij het punt waarop de opbrengsten afnemen.
Waarom dit van belang is buiten mijn eigen workflow
Er is een breder patroon dat ik wil benadrukken, omdat ik denk dat dit het feitelijk interessante verhaal is onder de kostenbesparende invalshoek.
Het grootste deel van de afgelopen drie jaar was de AI-coderingsmarkt een grens-of-niets-voorstel. Of je hebt betaald voor het beste beschikbare model, of je hebt een aanzienlijk slechtere output geaccepteerd. De kloof tussen het hoogste niveau en het tweede niveau was zo groot dat iedereen die de productiecode serieus wilde nemen, in gebreke bleef bij degene die dat kwartaal de SWE-kroon in handen had.
Dat gat is in april 2026 ingestort. DeepSeek V4 Pro haalt 80,6% op SWE-bench Verified – statistisch gekoppeld aan Opus 4.7 – en een zevende van de prijs is geen marginale verbetering. Het is een structurele verandering in de markt. De implicatie is dat je voor elke taak waarbij een ‘bekwame senior engineer die goed gedefinieerd werk doet’ de lat legt, je niet langer grensprijzen hoeft te betalen. Het enige werk dat nog steeds echt de grens opzoekt, is het werk dat oordeel, smaak, architecturale redenering in een lange context of sceptische beoordeling vereist - en dat werk vormt een reëel, maar minderheidsaandeel in de tijd van de gemiddelde ontwikkelaar.
De hybrid AI coding-workflow is het operationele gevolg van die verschuiving. Het is het praktische antwoord op de vraag "wat doe je als het goedkope model goed genoeg is voor 70% van je taken?" Je routeert op taaktype, je houdt het grensmodel beschikbaar voor het werk dat het nodig heeft, en je betaalt geen premiumprijzen meer voor werk dat altijd op het basisniveau lag.
Dit is niet de laatste keer dat de grens verschuift. Over zes maanden zal V5 landen of welke GPT-5.6 ook zal heten, en de routeringsregels zullen moeten worden bijgewerkt. Het hybride patroon zelf is echter plakkerig. Als je eenmaal de spierkracht hebt opgebouwd om te denken: "Welk model heeft deze taak eigenlijk nodig?" in plaats van "welk model moet ik standaard gebruiken?", ga je niet terug. U updatet eenvoudigweg de providers achter dezelfde routeringslogica.
Dat is de echte afhaalmaaltijd. Niet "DeepSeek is goedkoop." Niet "Opus is duur." Het punt is dat de vraag is veranderd. We kiezen niet langer een model. We ontwerpen een routeringsstrategie voor meerdere modellen, die elk het werk doen waar ze het beste in zijn, met een harnas voor één agent erbovenop dat alles met elkaar verbindt.
Het kostte me negentig minuten en vijftien cent om een dashboard te verzenden, die twintig dollar had moeten kosten. Die wiskunde werkt niet in het oude kader. In de nieuwe werkt het perfect.
Veelgestelde vragen
Hoe routeer ik Claude Code-verzoeken naar DeepSeek V4 zonder de Claude Code CLI te verlaten?
Installeer Claude Code Router (of Anti-Gravity Claude Proxy) en configureer het als een Anthropic-compatibele lokale proxy op poort 127.0.0.1:3456. De router vertaalt uw Claude Code-verzoeken transparant naar het API-formaat van DeepSeek - Claude Code denkt dat het nog steeds met Anthropic praat. Zie het gedeelte over het instellen van de workflow hierboven voor het volledige installatieoverzicht.
Is DeepSeek V4 eigenlijk goedkoper dan Claude Opus 4.7 bij echt gebruik?
Ja – V4 Pro belandt op ongeveer een zevende van de kosten per token van Opus 4.7 tegen standaardtarieven ($1,74/$3,48 per miljoen versus Opus's $15/$75). Mijn uitgaven in april daalden met 73% ten opzichte van maart bij een gelijkwaardige maandelijkse output. De besparingen zijn afhankelijk van uw takenmix; pure-UI-werk bespaart minder dan backend-zware workflows.
Welke codeertaken moeten op Opus 4.7 blijven in plaats van op DeepSeek?
Route naar Opus voor UI-polijsten, lay-outbeslissingen, codebeoordeling, beveiligingsaudits, architectonisch werk met een lange context na 180.000 tokens, en alles waarbij oordeel belangrijker is dan mechanica. DeepSeek verwerkt steigers, lijmcode, unit-tests, proefgegevens en goed gespecificeerde algoritmische taken op competente wijze.
Kan ik DeepSeek V4 lokaal uitvoeren voor privacygevoelige code?
V4 Flash (284B parameters) kan lokaal via Ollama op een serieus werkstation worden uitgevoerd. Het volledige V4 Pro 1.6T-model vereist hardware van datacenterklasse die de meeste solo-ontwikkelaars niet bezitten. Voor gevoelige code kunt u uitsluitend naar Opus sturen of V4 Flash lokaal als reserve gebruiken.
Wat zijn de minimale kosten om deze hybride workflow zelf te testen?
Ongeveer $ 2 — dat is het minimale prepaid API-saldo van DeepSeek, waarmee ongeveer 2,3 miljoen outputtokens worden gekocht tegen promoprijzen. Een volledig weekend projecttesten kost doorgaans minder dan $ 0,50 aan DeepSeek-kosten. Uw bestaande Anthropic API-toegang verzorgt de Opus-kant.
Laten we samenwerken
Wilt u AI-systemen bouwen, workflows automatiseren of uw technische infrastructuur schalen? Ik help je graag.
- Fiverr (aangepaste builds en integraties): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (ondernemingsoplossingen): ramlit.com
- ColorPark (ontwerp en branding): colorpark.io
- xCyberSecurity (beveiligingsdiensten): xcybersecurity.io