DeepSeek V4 Pro Review: 1,6T Open-Source Getest

Het moment dat ik me realiseerde dat DeepSeek V4 Pro daadwerkelijk impact maakte, was om 23:47 uur op een donderdagavond. Ik had vier terminalvensters open, elk met een aparte instantie van het model via Open Code, en alle vier losten tegelijkertijd verschillende onderdelen op van een sideproject waar ik al weken tegenaan zat te hikken. Een 3D-visualizer. Een landingspagina. Een Python-data pipeline. Een browser-extensie. Mijn Open Code-dashboard gaf aan dat ik tot nu toe $0,19 aan rekenkracht had uitgegeven.

Negentien cent.

Dezelfde workload op Claude Opus 4.7 zou op dat punt ongeveer $42 aan API-credits hebben gekost. Met GPT-5.5 Pro zaten we dichter bij de $160. Ik heb de getallen drie keer gecheckt omdat de rekensom niet leek te kloppen. Maar dat was niet zo. De rekensom klopte. Het was de industrie zelf die onder mijn neus verschoven was zonder dat ik het had gemerkt.

Dat is het belangrijkste dat ik meteen wil benadrukken, want als je alleen de eerste alinea van deze DeepSeek V4 Pro review leest, wil ik dat je de juiste conclusie trekt: open-source AI heeft op het gebied van kosten een inhaalslag gemaakt die de rekensom verandert voor elke indie developer, elk klein bureau en elke founder die met tegenzin de maandelijkse Anthropic-factuur onder ogen ziet. De benchmarks zitten aan de top nog niet helemaal op het niveau. De ondersteuning voor lange contexten is wankeler dan het specificatieblad doet vermoeden. De censuur is echt. Maar de instorting van de kosten is het grote verhaal, en de meeste analyses die ik tot nu toe heb gelezen, missen dit punt omdat iedereen vooral bezig is met de discussie over benchmark leaderboards.

Ik heb een heel weekend besteed aan het inzetten van het 1,6 biljoen parameters tellende model voor écht werk—geen speelse benchmarks, geen georkestreerde demo’s, maar echte code die ik sowieso zou shippen. Dit is wat ik ontdekte.

Wat DeepSeek V4 Pro Eigenlijk Is

Laat ik snel de specificaties doornemen, want je hebt ze waarschijnlijk al op tien verschillende sites zien langskomen sinds de release op 24 april.

DeepSeek V4 Pro is een Mixture-of-Experts-model met 1,6 biljoen parameters, waarvan er ongeveer 49 miljard actief zijn per token. Dat “actieve” getal is wat telt voor de inference-kosten — je betaalt niet om voor elk bericht 1,6T aan rekenkracht te draaien, je betaalt voor de smalle selectie experts die de router voor jouw specifieke prompt inschakelt. Het model is ongeveer 60% groter dan de tot nu toe grootste serieuze open-source release, en het is het eerste open-weights-model waarbij ik echt denk dat “frontier-niveau” claimen verdedigbaar is in plaats van marketing.

De context window wordt geadverteerd als één miljoen tokens. Daar komen we later nog op terug, want de werkelijkheid is ingewikkelder dan de marketing doet vermoeden. De praktische limiet die ik tijdens het testen bereikte lag dichter bij 128K voordat de kwaliteit zichtbaar omlaagging, en de afgrond wordt steil voorbij zo’n 180-200K. Dat is nog steeds uitstekend — het is alleen niet de “één miljoen tokens” die de homepage belooft.

Architectonisch introduceert het model een hybride attention mechanisme genaamd Compressed Sparse Attention (CSA), gecombineerd met Heavily Compressed Attention (HCA). Het resultaat is dat V4 Pro in de 1M-token configuratie ongeveer 27% van de inference-FLOPs per enkele token en 10% van de KV-cache gebruikt ten opzichte van V3.2. Dat is het technische hoesje achter de lage prijs. DeepSeek heeft niet alleen opgeschaald — ze hebben de attention stack helemaal opnieuw ontworpen zodat elke token veel minder rekentijd kost, en die besparing is vrijwel volledig direct doorgerekend in de API-prijs.

Het trainingsverhaal is het onderdeel waar de komende jaren nog over wordt geschreven. V4 Pro werd getraind op een mix van Huawei Ascend 950PR-chips en oudere Nvidia-hardware (A100’s, naar verluidt ook H100’s die de exportcontrole zijn gepasseerd). De training duurde zo’n 14 tot 16 maanden, inclusief een volledige herstart na een grote trainingsfout halverwege. Reuters bevestigde in april dat het uiteindelijke model gevalideerd is op zowel Nvidia- als Ascend-NPU-platforms. De totale compute-kosten voor deze training kwamen uit rond de $5,6 miljoen op een cluster van 16.000 GPU’s. Ter vergelijking: dat is een afrondingsfout vergeleken met wat de Amerikaanse frontier-labs per generatie uitgeven, en het gebeurde deels op Chinese chips omdat exportcontroles van ASML geen andere opties toelieten.

Ik wil er geen geopolitieke blog van maken, maar je kunt DeepSeek V4 Pro niet eerlijk reviewen zonder te benoemen dat het bestaan van dit model rechtstreeks voortkomt uit de hardwarebeperkingen van de afgelopen drie jaar. De efficiëntietrucs in de architectuur, de hybride chip-trainingspipeline, de agressieve prijsstelling — alles is het gevolg van het feit dat DeepSeek niet zomaar honderdduizend H200’s kon kopen en deze op het probleem kon loslaten. Ze moesten inventief zijn. En nu lijkt inventiviteit duur te gaan verslaan.

Met die context ben ik aan het testen geslagen.

De Setup: Hoe Ik Dit Echt Heb Getest

Ik ben bewust specifiek over mijn setup zodat je alles zelf kunt reproduceren als je nieuwsgierig bent.

Ik heb DeepSeek V4 Pro op drie verschillende manieren getest gedurende het weekend:

Ten eerste via het Open Code Go-abonnement. Vijf dollar voor de eerste maand, daarna tien dollar per maand, met toegang tot V4 Pro, V4 Flash en een handvol andere open-weights modellen. Dit is de optie die ik zou aanraden voor iedereen die deze review leest en gewoon eens wil proberen zonder direct met de ruwe API te werken. Je krijgt vier parallelle instanties die tegelijk draaien, schakelaars voor laag/middel/hoog/max redeneervermogen, en een bruikbare agent harness die tool-calls netjes afhandelt.

Ten tweede via de DeepSeek API direct. Dit is de bare-metal benadering — je krijgt alleen de wrappers die je zelf bouwt, betaalt per token, en bent zelf verantwoordelijk voor de agent scaffolding. Hier vind je de prijsstelling waar de claims “7x goedkoper dan Opus 4.7” en “40x goedkoper dan GPT-5.5 Pro” op gebaseerd zijn. Decrypt schatte het prijsverschil op ongeveer 98% goedkoper dan GPT-5.5 Pro bij vergelijkbare output workloads, wat overeenkomt met wat ik heb gemeten.

Ten derde, lokale inferentie via Ollama, met de 284B V4 Flash variant in plaats van het volledige Pro-model. Het volledige 1.6T Pro-model is technisch gezien te downloaden maar praktisch gezien niet lokaal te draaien op hardware van een solo-ontwikkelaar — je hebt het dan over honderden gigabytes aan gewichten en zoveel VRAM dat een klein datacenter het benauwd krijgt. Flash is degene die je lokaal kunt laten draaien als je een serieus workstation hebt, en die heb ik meegenomen omdat de vraag “is dit bruikbaar?” bij open-weights modellen vaak afhangt van het fallback-scenario wanneer de API offline is.

Mijn testworkload bestond uit vier onderdelen. Ik wilde taken die representatief zijn voor echt werk, geen leaderboard-fodder.

De eerste taak was een interactieve DeepSeek architectuuruitleg — een single-page webapp die visualiseert hoe de Compressed Sparse Attention-lagen tokens routen door het expert-mixture. Ik koos dit bewust omdat het uitleggen van de eigen architectuur zo'n taak is waar een model in het voordeel zou moeten zijn. Als V4 Pro geen correcte diagram van zijn eigen interne structuur kan maken, zegt dat genoeg.

De tweede taak was een SVG-animatie met plantengroei, frame-nauwkeurig, inclusief een tijdlijncontroller. Dit blijkt verrassend geschikt om te testen of een model een coherent visueel systeem kan vasthouden over veel kleine geometrische beslissingen.

De derde taak was een HTML5 kartgame met toetsenbordbesturing, rondeteller en eenvoudige AI-tegenstanders. Game-logica is waar veel modellen het stilletjes laten afweten, omdat consistente state-management tussen events essentieel is.

De vierde taak was een exoplaneet-visualizer die live data ophaalt uit het NASA Exoplanet Archive en orbitale afstanden op schaal weergeeft. Deze taak testte API-integratie, data-wrangling en het vermogen van het model om over echte getallen uit een echte bron te redeneren.

Ik draaide elke taak op V4 Pro en parallel op Claude Opus 4.7 via Claude Code, met identieke prompts. Ook heb ik de eerste twee taken opnieuw uitgevoerd via GPT-5.5 op Codex voor een derde vergelijkingspunt, omdat mijn GPT-5.5 vs Opus 4.7 vergelijking mijn referentiepunt is voor wat “goed” betekent aan het AI-front.

Totale wall-clock tijd voor alles: ongeveer vier uur. Totale uitgaven bij Open Code: ongeveer twintig cent. Dat bedrag van twintig cent blijft in mijn hoofd hangen.

Test Eén: De Architectuur-Explainer

Het eerste wat V4 Pro deed dat me verraste, was dat het het routeringsdiagram vrijwel direct goed had bij de eerste poging. Ik vroeg om "een interactieve uitleg van hoe Compressed Sparse Attention tokens routeert door je mixture-of-experts-lagen — klikbaar, met een live token-teller, en het moet visueel laten zien welke experts geactiveerd worden voor een bepaalde input." Ik gaf geen referentiecode mee.

Wat terugkwam was een werkend React-component met een tokenizer-simulatie, een router-visualisatie, en een vrij vloeiende animatie die liet zien welke experts voor elk token werden geactiveerd. Het was niet perfect — het aantal getoonde experts klopte niet (een factor twee verschil), en de animatie haperde licht als je pauzeerde middenin een token — maar het werkte wel, en de architectuur klopte.

Opus 4.7 produceerde een visueel meer gepolijste versie van dezelfde app. Nettere typografie, beter georganiseerde componentstructuur, slimmer ingestelde standaardstatus. Maar Opus deed er ook langer over (ongeveer drie keer zo lang) en kostte ongeveer $1,80 aan Claude Code-credits versus vier cent op Open Code.

De relevante vergelijking is niet "welke is beter". Het gaat om "wat is de marginale waarde van de extra afwerking?" Als je dit aan een klant levert, is de polish van Opus waarschijnlijk de moeite waard. Als je een intern prototype bouwt, of je bent een indie-developer die snel iteraties maakt, was de output van DeepSeek prima — en economisch zit je in een totaal andere prijsklasse.

Een concreet verschil dat ik wil aanstippen: de code van V4 Pro was minder opinieus qua structuur. Het schreef werkende componenten, maar anticipeerde niet op toekomstige uitbreidingen zoals Opus dat doet. Als je deze code twee jaar gaat onderhouden, is de output van Opus makkelijker uit te breiden. Als je deze code over twee weken weggooit, bespaart V4 Pro je geld zonder dat je iets belangrijks mist.

Test Twee: De SVG-plantanimatie

Hier liep V4 Pro voor het eerst tegen een muur die ik graag eerlijk wil benoemen.

De animatie zelf werkte. De plant groeide, de tijdlijn-scrubber functioneerde, de SVG-paden waren wiskundig logisch. Maar toen ik vroeg om "een tweede soort met ander vertakkingsgedrag – iets fractaler, minder symmetrisch", overschreef het model bij de tweede poging deels het eerste resultaat. Het paste delen van de groeilogica van de oorspronkelijke soort aan, waardoor er subtiele regressies ontstonden.

Opus 4.7, bij dezelfde vervolgopdracht, leverde een schone, additieve diff op. Het voegde de tweede soort toe zonder de eerste aan te raken, precies wat een senior engineer zou doen.

Dit patroon zag ik telkens terug in het weekend. V4 Pro is een uitstekende one-shot coder: je beschrijft iets, het model bouwt het, en het werkt gewoon. Het is aantoonbaar minder verfijnd als iteratieve coder. Zodra je wilt dat het een complexe mentale map van bestaande code vasthoudt en alleen heel gericht aanpassingen maakt zonder omliggende systemen te breken, komt het dichter in de buurt van een junior dan van een staff engineer. Ter vergelijking: ongeveer daar eindigde Kimi K2.6 toen ik het via vergelijkbare tests in mijn Kimi K2.6 open-source review heb meegenomen – de open-source laag convergeert duidelijk naar een profiel van “sterk in eenmalige oplossingen, zwakker bij iteratie”.

Ik wil dit minpunt niet overdrijven. Bij twee van mijn vier taken was het iteratief gedrag van V4 Pro prima. Bij de SVG-animatie en het kartspel was het duidelijk zwakker dan Opus. Het patroon leek: grotere bestanden, meer toestanden, meer parallelle systemen die bijgehouden moeten worden – dát is het moment waarop V4 Pro de boel begon af te raffelen.

Test Drie: Het Kartspel

Dit was het leukste project om te bouwen en de meest leerzame vergelijking.

V4 Pro leverde met één prompt een werkende kart-racer op. Toetsenbordbesturing, drie rondes, een timer, drie AI-tegenstanders met redelijk gedrag, en een eindscherm. De code bestond uit ongeveer 900 regels HTML, CSS en JavaScript, allemaal in één bestand. Het werkte. Het was ongeveer anderhalve minuut leuk om te spelen.

Daarna vroeg ik om twee aanpassingen: "voeg een driftmechaniek met een visueel slipspoor toe" en "de AI-tegenstanders moeten elk rondje moeilijker worden." Dit zijn typische, gelaagde feature requests zoals die in echte gameontwikkeling voorkomen.

V4 Pro had het driftmechaniek direct goed — de fysica waren zelfs beter dan verwacht, met momentumbehoud dat natuurlijk aanvoelde. Maar de schaalvergroting van de AI-moeilijkheid raakte verstrikt in de bestaande AI-logica. Het model introduceerde een nieuwe moeilijkheidsvariabele, verwerkte die in de stuurcode, maar veranderde vervolgens ook de ronde-teller zodat die dezelfde variabele gebruikte, waardoor de ronde-detectie stuk ging.

Ik vroeg het om de ronde-teller te fixen. Het model loste de ronde-teller op, maar bracht de AI-moeilijkheidsbug weer terug. Dit soort problemen zie je bij modellen die niet sterk intern representeren hoe de volledige codebase werkt — elke wijziging is lokaal correct, maar globaal instabiel.

Opus 4.7 leverde bij dezelfde prompts minder, maar zorgvuldigere codeverschillen op. Ook hier werkte het driftmechaniek direct goed en de AI-moeilijkheidsschaal functioneerde zonder andere onderdelen te breken. De kosten hiervoor waren ongeveer $3,40 voor de volledige reeks, tegenover acht cent bij V4 Pro.

Acht cent versus drie dollar veertig. Voor een kart-racer met drift. In 2026. Ik ben nog steeds mentaal aan het bijkomen.

Test Vier: De Exoplaneet-Visualizer

Dit was de taak waarbij V4 Pro mij aangenaam verraste. Live data ophalen uit het NASA Exoplanet Archive, het TAP-queryformaat parsen, een geschaalde weergave van het zonnestelsel genereren met nauwkeurige orbitale afstanden — dit is precies het soort opdracht waarvan ik dacht dat een open-weights model er moeite mee zou hebben, omdat je echte API-conventies en astronomische eenheden moet kennen.

V4 Pro leverde perfect. De TAP-query was correct geformatteerd. De unitconversies (AU naar pixels, logaritmische schaal voor zichtbaarheid) waren doordacht. Het voegde zelfs een detail toe waar ik niet om had gevraagd: een filter om planeten met onbetrouwbare massa's weg te laten, omdat het model blijkbaar wist dat het NASA-archief veel speculatieve data bevat.

Juist dat soort details maken het verschil: je hebt niet langer het gevoel dat je werkt met een codegenerator, maar met een samenwerkingspartner die daadwerkelijk heeft nagedacht over wat jij probeert te bouwen. Dat gevoel heb ik al tientallen keren gehad met Opus 4.7. Dit was de eerste keer dat ik het met een open-weights model ervaarde. Dat is precies de verschuiving die ik in deze hele DeepSeek V4 Pro-review probeer over te brengen.

De Realiteit van Lang-Context

Nu komen we bij het deel van de review waarin ik de grootste kloof tussen de specificaties en de werkelijkheid moet benoemen.

De contextcapaciteit van één miljoen tokens bij DeepSeek V4 Pro is technisch gezien echt. Je kunt daadwerkelijk een miljoen tokens plakken en het model zal reageren. Maar de kwaliteit van de output stort volledig in ergens voorbij de 180.000 tot 200.000 tokens, en die achteruitgang is scherp genoeg om dit model niet te vertrouwen voor taken waarbij sluitende redeneringen over écht lange input vereist zijn.

Ik heb dit getest met een enkele codebase-dump van 340.000 tokens — een echt project, geen synthetische tekst. V4 Pro was in staat om accurate antwoorden te geven over de eerste 150.000 tokens. Rond de 200.000 tokens begonnen antwoorden verwijzingen te bevatten naar bestanden die niet bestonden, maar die "klopt leken" op basis van patronen uit de eerdere inhoud. Tegen de tijd dat ik vragen stelde over code aan het einde van de dump, was het model feitelijk aan het verzinnen.

Opus 4.7 kon diezelfde dump van 340.000 tokens daarentegen probleemloos verwerken tot het einde. Over precies deze werklast schreef ik al in mijn analyse van de Opus 4.6 context van een miljoen tokens — de toonaangevende gesloten modellen benutten hun lange context daadwerkelijk, in plaats van die alleen te ondersteunen.

Dit is een duidelijke beperking. Als jouw workflow het vereist om grote codebases in hun geheel in de context te laden, en hierop architecturale analyses te draaien, dan is V4 Pro niet het juiste model. Gebruik V4 Pro voor kortere, bondige taken. Voor lang-contextwerk kun je beter Opus of Gemini inzetten.

In de praktijk raad ik aan om uit te gaan van zo’n 128.000 tokens aan betrouwbare context. Dat is nog steeds veel — ruimschoots voldoende voor de meeste echte use cases — maar het is niet dat miljoen.

Het Censuurprobleem

Ik moet dit punt duidelijk maken, want elke review van een Chinees model draait eromheen, terwijl lezers de waarheid verdienen.

DeepSeek V4 Pro hanteert agressieve filtering op onderwerpen die gevoelig liggen bij de CCP. Ik heb dit bewust getest. Vraag naar de politieke status van Taiwan en je krijgt vrijblijvende, diplomatieke antwoorden terug. Stel een vraag over het Tiananmenplein en het model weigert simpelweg of geeft antwoorden in lijn met de CCP. Vraag naar Xinjiang en het ontwijkt het onderwerp.

Als je werkt doet dat raakt aan Chinese politiek, mensenrechten, historische gebeurtenissen die de Chinese overheid onwelgevallig vindt, of geopolitieke analyses waar China bij betrokken is — dan is dit niet het model voor jou. Punt.

Voor het meeste programmeerwerk speelt dit geen rol. Je vraagt je autocompletion niet naar Tiananmen. Maar ik wil het nadrukkelijk benoemd hebben in deze review, omdat ik te veel meningen heb gezien die dit afdoen als een klein nadeel. Het is geen klein nadeel. Het is een waardenafstemming met een specifieke overheid, en dat moet je weten voordat je zakelijke, kritieke analyses door het model laat lopen.

De lokale inference-workaround is het vermelden waard: als je V4 Flash draait via Ollama op je eigen hardware, is de censuurlaag aanzienlijk zwakker, omdat je dan niet via de gehoste API gaat die het strengere filter afdwingt. De modelgewichten weerspiegelen nog steeds de vooringenomenheid van de trainingsdata, maar het expliciete weigeringsgedrag zit voornamelijk in de API-laag. Voor de meeste gebruikers maakt dit onderscheid weinig uit. Voor sommigen wel.

Waar V4 Pro Echt Uitblinkt

Laat me specifiek zijn over de taken waarvoor ik V4 Pro zou kiezen boven Opus 4.7 of GPT-5.5:

Automatisering op grote schaal. Als je een agent draait die duizenden documenten verwerkt, honderden bestanden in bulk refactort of grote volumes boilerplate genereert, speelt de kostenberekening zo sterk in het voordeel van V4 Pro dat het kwaliteitsverschil nauwelijks nog uitmaakt. Je ruilt een klein kwaliteitsverschil in voor een kostenverlaging van 40x. Neem die ruil.

Prototype-en-wegwerpwerk. Overal waar je snel iteraties maakt op tijdelijke code, interne tools ontwikkelt die niemand gaat onderhouden, of de designruimte verkent voordat je ergens op vastlegt. De snelheid waarmee V4 Pro one-shot-taken tot uitvoer brengt is echt competitief met Opus, en de prijs geeft je de ruimte om meer te proberen.

Agent-workflows die zwaar op de terminal leunen. V4 Pro presteert opvallend goed bij terminal-taken — het verslaat Opus op Terminal Bench en komt slechts iets tekort op SWE Pro. Als jouw agent het grootste deel van de tijd shellcommando's draait, bestanden leest en toolcalls uitvoert, past dit model uitstekend.

Solo developer, klein bureau, indie founder. Als je momenteel $5.000-$6.000 per maand uitgeeft aan Anthropic- of OpenAI-credits, kun je met V4 Pro terug naar $500-$1.000 en houd je het grootste deel van je workflow intact, met een paar specifieke taken die je terugleidt naar de frontier-modellen. Dat is echte winst. Ik help kleine bureaus precies deze kostenanalyse te draaien voor klanten die worden geraakt door frontier-modelprijzen.

Parallel werken met meerdere instanties. Het Open Code-abonnement van $10/maand met vier parallelle instanties is oprecht absurd veel waar voor je geld. Ik had vier agents urenlang simultaan aan vier verschillende projecten werken, en mijn totale uitgaven waren minder dan een kop koffie.

Waar V4 Pro Tekortschiet

Even specifiek waar ik dit model niet zou gebruiken:

Architecturale analyse met lange contexten. Zie de 180K-klik hierboven. Als je een model nodig hebt dat samenhangend kan redeneren over een volledige grote codebase, is V4 Pro niet geschikt.

Chirurgisch refactoren van complexe bestaande code. De zwakte in iteratief coderen is reëel. Voor zorgvuldig, incrementeel werk in een grote codebase is Opus nog steeds aantoonbaar beter.

Productieharnassen voor agents zonder DSML-tooling. V4 Pro biedt niet dezelfde plug-and-play tool-calling ergonomie als Claude of OpenAI-modellen. Je moet het DSML XML-achtige tool-call-formaat gebruiken, wat door de meeste agent-frameworks nog niet standaard wordt ondersteund. Open Code handelt dit voor je af; als je zelf een harness bouwt, kun je integratiewerk verwachten.

Alles dat te maken heeft met Chinese politiek. Dit is al besproken. Wordt hier opnieuw onder de aandacht gebracht omdat de review zonder deze opmerking niet compleet is.

Latency-kritische toepassingen. Met 1,6T parameters is V4 Pro, zelfs met sparse activation, trager tijdens inferentie dan frontier closed-source modellen. Als je app reacties onder de seconde vereist, is dit niet jouw model.

Het hardwareverhaal waar niemand het echt goed over heeft

Er is nog één punt dat ik in deze DeepSeek V4 Pro review absoluut helder wil krijgen, want de meeste analyses die ik heb gelezen slaan de plank mis: ze overdrijven of bagatelliseren het.

V4 Pro is deels getraind op Huawei Ascend 950PR-chips. Dat is écht nieuw. Een jaar geleden was de algemene aanname in de westerse AI-wereld dat serieus trainen op frontier-schaal alleen mogelijk was met Nvidia-hardware, punt. DeepSeek heeft bewezen dat die aanname niet meer klopt, of in elk geval niet meer volledig waar is. Voor delen van de training zijn nog steeds Nvidia H100’s en A100’s gebruikt — hoe die verhouding precies ligt is onduidelijk, DeepSeek heeft dat niet volledig openbaar gemaakt — maar een aanzienlijk deel, vooral de reinforcement learning-fase, draaide op Ascend.

Wat dit praktisch betekent: Chinese AI-labs hebben nu een binnenlands hardwarepad dat werkt. Niet zo efficiënt als Blackwell, maar wel werkbaar. De exportcontrolemaatregelen van ASML, die bedoeld waren om Chinese modelontwikkeling af te remmen, hebben juist de ontwikkeling van een alternatieve compute-stack versneld. Die stack ontwikkelt zich razendsnel.

Wat dit níet betekent: DeepSeek heeft OpenAI of Anthropic qua onderzoekscapaciteiten ingehaald. V4 Pro is uitstekend en het is de beste open-weights-release die ik heb getest, maar op de zwaarste benchmarks ligt het niveau nog nét onder GPT-5.4 Extra High en Opus 4.6. Er is echt nog een verschil op de absolute topbenchmarks. Wel is dat verschil kleiner dan het de afgelopen drie jaar ooit is geweest — en het wordt kleiner, niet groter.

De geopolitieke conclusie — als je die zoekt — is dat de strategie van exportcontrole op compute de Chinese AI-zelfstandigheid heeft versneld in plaats van vertraagd. Dat is een onderwerp voor een ander artikel, maar je kunt V4 Pro niet eerlijk beoordelen zonder dat te benoemen.

De rekensom opnieuw: de kosten

Laat me het prijsverhaal afronden, want dit is wat ik telkens opnieuw blijf benadrukken.

Ruwe API-prijzen voor vergelijkbare taken, gebaseerd op mijn daadwerkelijke weekendgebruik:

DeepSeek V4 Pro via directe API: centen per taak voor het meeste werk. Mijn volledige weekend — vier niet-triviale builds plus de 340K-contexttest — kostte in totaal zo’n $1,80 via de directe API.
DeepSeek V4 Pro via Open Code Go: $10/maand vast, met vier parallelle instanties en ruime limieten. Dit is de optie die ik daadwerkelijk gebruik.
Claude Opus 4.7 via Claude Code: ongeveer $60-80 voor hetzelfde weekend aan taken, betaald via API-credits.
GPT-5.5 Pro via Codex: ongeveer $180-220 voor vergelijkbaar gebruik.

Het verschil in orde van grootte is gewoon echt. De “98% goedkoper dan GPT-5.5 Pro”-benadering die Decrypt aanhaalt is geen marketingpraat — het is wat ik gemeten heb. En voor veel praktische workloads is het verschil in kwaliteit de kostenkloof simpelweg niet meer waard.

Dit is wat ik wil dat elke indie dev en elk klein bureau echt begrijpt. Je hoeft niet alles op frontier-modellen te draaien. Je kunt de top 20% van je werk — het genuanceerde architecturale denkwerk, langdurige contextanalyses, de afwerking richting klant — op Opus of GPT-5.5 draaien, en de andere 80% op V4 Pro. Je rekeningen dalen met 70-80% en je outputkwaliteit blijft grotendeels gelijk, omdat de frontier-modellen worden ingezet voor het werk waarbij frontierkwaliteit daadwerkelijk het verschil maakt.

Ik ben hier zelf precies zo mee begonnen. Mijn workflow bestaat nu uit twee lagen: Opus voor denkintensief werk, V4 Pro voor vooral uitvoerend werk. Mijn AI-uitgaven zijn met bijna tweederde gedaald — en ik heb geen enkel verschil gemerkt in de kwaliteit van wat ik aflever.

Het Eerlijke Eindoordeel

Als je slechts één conclusie uit deze DeepSeek V4 Pro review wilt meenemen, dan is het deze: dit is het eerste open-weights model dat ik met vertrouwen zou inzetten in een productie-omgeving voor het mkb, met de kanttekeningen die ik hierboven heb genoemd.

Het is niet het allerbeste model dat beschikbaar is. Opus 4.7 blijft beter. GPT-5.5 Pro levert nog steeds de beste prestaties bij de zwaarste taken. Als je budget ruimte laat voor frontier-modellen en je werk absolute topkwaliteit vereist, blijf die dan gerust gebruiken.

Maar als je budget geen ruimte biedt voor frontier-modellen, of als grote delen van je workload geen absolute frontier-kwaliteit vergen, dan is V4 Pro een sprong vooruit ten opzichte van alles in de open-weights categorie. Het doet het beter dan Kimi K2.6 op de meeste van mijn tests. Het is beter dan Qwen 3.6 op agentisch coderen, vooral op langere taken. Het steekt boven Gemma 4 uit voor serieus werk, hoewel Gemma nog steeds mijn lokale voorkeur is voor volledig offline gebruik.

De ongemakkelijke waarheid voor de frontier labs is dat “goed genoeg én tien keer goedkoper” een vernietigend concurrentievoordeel is, en DeepSeek V4 Pro is het eerste open-weights model dat werkelijk deze positie inneemt. De prijsmodellen van de Amerikaanse labs zullen in beweging moeten komen. Ik weet niet hoe snel, maar het zal moeten.

En dan kom ik steeds weer terug op dat moment, die donderdagavond om 23:47, met vier terminals open en een rekening van twintig cent. De toekomst waarvan ik dacht dat ze nog vijf jaar weg was — capabele open-source AI die je in viervoud naast elkaar draait voor de prijs van een kop koffie — die toekomst is er al. Het is een online abonnement met een “€5 voor je eerste maand”-knop op de homepage.

Als je hebt gewacht om open-source AI serieus te nemen omdat het steeds nét niet goed genoeg was, is dat moment nu gekomen. Download het. Draai het. Laat je minder belangrijke werkstromen erover lopen en bewaar je frontier-budget voor het werk dat het écht nodig heeft. Je zult versteld staan hoe weinig je de dure modellen nodig hebt voor 80% van wat je bouwt.

Dat is het echte nieuws. De rest is bijzaak.

Veelgestelde vragen

Is DeepSeek V4 Pro echt open source?

DeepSeek V4 Pro wordt uitgebracht onder een open-weights-licentie. Dat betekent dat de modelgewichten te downloaden en lokaal uit te voeren zijn, hoewel de trainingsdata en de volledige trainingcode niet volledig publiek zijn gemaakt. Voor de meeste praktische doeleinden — zelfhosting, fine-tuning, lokale inferentie — functioneert het model als open source. De 1.6T Pro-gewichten zijn niet praktisch te draaien op consumentenhardware, maar de 284B V4 Flash-variant werkt wel via Ollama op serieuze werkstations.

Hoe verhoudt DeepSeek V4 Pro zich tot GPT-5.5 en Opus 4.7 voor codeertaken?

V4 Pro ligt iets achter op Opus 4.7 en GPT-5.5 Pro bij de moeilijkste codeerbenchmarks, maar verslaat Opus op Terminal Bench en blijft slechts marginaal achter op GPT-5.4 op SWE Pro. Voor one-shot coding-taken is het competitief; voor complexe, iteratieve refactoring van grote codebases zijn de frontier closed-source modellen nog steeds aantoonbaar beter. Zie de testbesprekingen hierboven voor specifieke vergelijkingen.

Wat is de werkelijke long-context-prestatie van DeepSeek V4 Pro?

Ondanks de geadverteerde context van één miljoen tokens, daalt de praktische kwaliteit merkbaar voorbij 180.000-200.000 tokens. In echte codebase-tests mat ik een betrouwbaar werkend maximum van ongeveer 128K tokens voordat confabulatie optreedt. Voor architecturale analyse met lange context blijven Opus 4.7 of Gemini de betere keuzes.

Is DeepSeek V4 Pro goedkoper dan Claude en GPT?

Ja, aanzienlijk. De API-prijzen zijn ongeveer 7 keer goedkoper dan Opus 4.7 en zo'n 40 keer goedkoper dan GPT-5.5 Pro voor vergelijkbare workloads. Het Open Code Go-abonnement van $10 per maand met vier parallelle instanties is voor de meeste solodevelopers de meest kosteneffectieve toegang. Mijn volledige testweekend kostte minder dan $2 aan verbruik.

Heeft DeepSeek V4 Pro censuur?

Ja. De gehoste API hanteert CCP-lijn contentfiltering op onderwerpen als de politieke status van Taiwan, het Tiananmenplein en Xinjiang. Bij programmeerwerk speelt dit vrijwel nooit, maar voor analytisch werk over Chinese politiek of mensenrechten kun je beter een ander model gebruiken. Lokale inferentie via Ollama kent zwakkere filtering, omdat het de API-laag omzeilt.

Laten We Samenwerken

Wil je AI-systemen bouwen, workflows automatiseren of je technische infrastructuur opschalen? Ik help je graag verder.

Fiverr (maatwerk & integraties): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (oplossingen voor bedrijven): ramlit.com
ColorPark (design & branding): colorpark.io
xCyberSecurity (beveiligingsdiensten): xcybersecurity.io