Ik testte GPT 5.4 Thinking — Dit is wat er daadwerkelijk veranderde
Ik liet GPT 5.4 Thinking een presentatie van 15 slides maken, een volledig werkend Excel-spreadsheet met live formules, en een onderzoeksrapport met bronvermeldingen — allemaal binnen dezelfde sessie, allemaal in minder dan tien minuten. Toen vroeg ik het om een YouTube-hook in mijn stem te schrijven, en het klonk als een bedrijfspersbericht met een casual petje op.
Die tegenstelling — verbluffend capabel op sommige gebieden, frustrerend toondoof op andere — is de eerlijkste samenvatting die ik je kan geven van OpenAI's nieuwste vlaggenschipmodel. GPT 5.4 Thinking is geen kleine incrementele update. Het is een echte sprong in bepaalde dimensies en een zijwaartse schuifelpas in andere. Na twee dagen intensief testen op het gebied van coderen, onderzoek, documentcreatie en contentgeneratie, heb ik een helder beeld van waar dit model schittert, waar het struikelt, en — belangrijker nog — waar het past in een landschap waarin Anthropic's Opus 4.6 en Google's Gemini 3.1 Pro beide strijden om dezelfde kroon.
Voordat ik in benchmarks duik, moet je het modelaanbod begrijpen, want OpenAI bracht niet zomaar één ding uit — ze brachten een hele familie uit.
Drie modellen, drie functies, één verwarrend naamgevingsschema
OpenAI's GPT 5.x-generatie heeft nu drie onderscheidende varianten, en de verschillen ertussen zijn groter dan je op basis van de namen alleen zou denken.
GPT 5.4 Thinking is het kopstukmodel — ontworpen voor diep redeneren en complexe taken. Wanneer je het iets moeilijks vraagt, genereert het niet zomaar een antwoord. Het gaat een zichtbare "denkfase" in waarin het model verwerkt, afweegt en het probleem doorwerkt voordat het antwoordt. Zie het als het model dat even stilstaat om na te denken in plaats van het eerste aannemelijke antwoord eruit te gooien. Dit denkproces is de reden waarom het uitblinkt in onderzoekssynthese, meerstapsanalyse en taken waarbij het correct krijgen van de redeneerketen belangrijker is dan pure snelheid. De denktokens worden anders gefactureerd dan output-tokens, waardoor de kosten redelijk blijven ondanks de extra verwerking.
GPT 5.4 Pro is de onderzoekslaag — dezelfde onderliggende architectuur maar met langere denktijd, hogere contextlimieten en toegang tot meer rekenkracht per query. OpenAI positioneert dit voor professionele en zakelijke gebruikers die het absolute plafond van capaciteit nodig hebben en bereid zijn aanzienlijk meer per query te betalen. Ik heb nog niet genoeg tijd met Pro gehad om een definitief oordeel te geven, maar eerste tests suggereren dat het kwaliteitsverschil ten opzichte van standaard 5.4 Thinking het meest merkbaar is bij zeer lange, zeer complexe taken — multi-documentanalyse, uitgebreide code reviews over grote repositories, dat soort dingen. Voor dagelijks kenniswerk is standaard 5.4 Thinking meer dan voldoende.
GPT 5.3 Instant kiest de tegenovergestelde aanpak. Snelheid is het hele punt. Het offert diepgang op voor responsiviteit en levert antwoorden in fracties van een seconde in plaats van de 5-15 seconden die de Thinking-modus soms nodig heeft. De kwaliteit is merkbaar lager bij complexe taken — je voelt dat het model bochten afsnijdt in het redeneren — maar voor snelle opzoekingen, brainstormen, chatachtige interacties en taken waarbij "goed genoeg in 0,3 seconden" wint van "uitstekend in 12 seconden," is Instant oprecht nuttig. Ik ben het gaan gebruiken als mijn standaard voor snelvuurvragen tijdens ontwikkelsessies waar ik een snelle sanity check nodig heb, geen diepgaande analyse.
De drielaagse aanpak is strategisch logisch. OpenAI erkent wat powerusers al weten: verschillende taken vereisen verschillende afwegingen tussen snelheid en kwaliteit. Maar de naamgeving is een zooitje. "GPT 5.4 Thinking" versus "GPT 5.3 Instant" impliceert dat Instant een generatie achterloopt, terwijl het in werkelijkheid een gelijktijdig model is dat voor een ander gebruiksscenario is geoptimaliseerd. Ik vermoed dat OpenAI de naamgeving uiteindelijk zal opschonen, maar onthoud voor nu: Thinking = diep en grondig, Pro = maximale capaciteit, Instant = snel en licht.
Nu het modelaanbod in kaart is gebracht, volgt hier het punt over de architectuur van GPT 5.4 dat het spel verandert op een manier waar de meeste reviewers nog niet over praten.
Native computergebruik verandert de hele waardepropositie
Elk eerder GPT-model was in essentie een tekst-in-tekst-uit-machine. Natuurlijk, je kon het verbinden met plugins, koppelen aan browsing-tools, agentworkflows eromheen bouwen. Maar het model zelf leefde in een chatvenster. Het kon je vertellen wat je op je computer moest doen. Het kon het niet doen.
GPT 5.4 overschrijdt die grens.
Native computergebruik betekent dat het model webacties direct kan uitvoeren — gegevensinvoer, e-mails beheren, interactie met agenda-apps, formulieren invullen. Niet via een rommelige browserautomatiseringslaag die breekt zodra een website zijn CSS verandert. Natief. Als ingebouwde capaciteit die OpenAI heeft geïntegreerd in de kernfunctionaliteit van het model.
Ik heb deze capaciteit zien evolueren in het AI-landschap. Anthropic introduceerde computergebruik met Claude eind 2024, en Google heeft vergelijkbare functies geëxperimenteerd via Project Mariner en Gemini's agentcapaciteiten. Maar de implementatie van GPT 5.4 voelt anders vanwege hoe naadloos het integreert met het bestaande ChatGPT-ecosysteem. Je hoeft geen aparte agent op te zetten of een browsersandbox te configureren. Je vraagt het gewoon... iets op het web te doen, en het doet het.
De implicaties voor kenniswerkers zijn enorm, en ik loop straks een aantal specifieke voorbeelden door. Maar eerst — het deel waar iedereen eigenlijk naar uitkijkt.
De benchmarks vertellen maar de helft van het verhaal
OpenAI's marketingmateriaal positioneert GPT 5.4 Thinking als state-of-the-art, en claimt een lichte voorsprong op zowel Opus 4.6 als Gemini 3.1 Pro in bepaalde benchmarks. Na het draaien van mijn eigen tests is dit mijn eerlijke beoordeling: ze hebben gelijk over "licht," en ze zijn genereus met "voorsprong."
Bij kenniswerktaken — het creëren van gestructureerde documenten, het synthetiseren van onderzoek, het opbouwen van geformateerde output — is GPT 5.4 oprecht indrukwekkend. Het verwerkt complexe spreadsheetlogica waar GPT 5.2 volledig op zou zijn vastgelopen. De formules zijn correct, de opmaak is netjes, en de grafieken slaan visueel ergens op. Dit is niet de "bijna goed"-output die we het afgelopen jaar van AI-documentgeneratie hebben getolereerd. Het is productierijp.
Bij codeertaken wordt het beeld interessanter. OpenAI claimt dat de codeercapaciteiten van GPT 5.4 nu overeenkomen met hun gespecialiseerde GPT 5.3 Codex-model — de variant die specifiek is finegetuned voor codegeneratie en die ontwikkelaars via de API gebruiken. Mijn tests bevestigen dit gedeeltelijk — eenvoudige tot matig complexe codeertaken worden goed afgehandeld, met verbeterde nauwkeurigheid ten opzichte van GPT 5.2, en het feit dat een general-purpose model nu een code-gespecialiseerd model evenaart is oprecht indrukwekkend. Maar "Codex evenaren" en "het beste beschikbare codeermodel zijn" zijn niet dezelfde claim. Ik bouwde een kleine webapp met afgeronde kaarten en een licht/donker modus toggle. GPT 5.4 leverde een werkende implementatie, maar sommige links werkten niet en de filterfuncties die ik had aangevraagd filterden eigenlijk niets. Bruikbaar? Ja. Indrukwekkend? Enigszins. Beter dan wat ik krijg van Opus 4.6 in Claude Code? Eerlijk gezegd niet — en dat zeg ik als iemand die dagelijks beide ecosystemen gebruikt.
Hier is de vergelijkingstabel uit mijn tests:
| Capaciteit | GPT 5.4 Thinking | Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| Onderzoekssynthese | Uitstekend — snel, goed gestructureerd, met bronnen | Zeer goed | Zeer goed |
| Spreadsheet-/documentcreatie | Beste in zijn klasse | Goed (via artifacts) | Goed |
| Coderen (eenvoudig-gemiddeld) | Sterke verbetering t.o.v. 5.2 | Overall het sterkst | Competitief |
| Coderen (complex/interactief) | Heeft nog hiaten | Meest betrouwbaar | Wisselend |
| Schrijven (natuurlijke toon) | Zwakste van de drie | Sterk | Sterk |
| Native computergebruik | Ingebouwd, naadloos | Beschikbaar maar gesandboxed | Beperkt beschikbaar |
| Token-efficiëntie | Verbeterd t.o.v. 5.2 | Efficiënt | Zeer efficiënt |
| Hallucinatiepercentage | 33% reductie geclaimd | Laag | Laag |
De 33% hallucinatiereductie ten opzichte van GPT 5.2 verdient specifiek aandacht omdat het een van de meest hardnekkige kritieken op de GPT-lijn adresseert. Ik voerde diverse feitelijke herinneringstests uit — technische specificaties, historische data, API-documentatiedetails — en GPT 5.4 was merkbaar voorzichtiger in het nuanceren van onzekere antwoorden. Het zei "Ik ben niet zeker over dit specifieke versienummer" in situaties waar GPT 5.2 vol vertrouwen een aannemelijk klinkend antwoord zou hebben gehallucineeerd.
Dat gezegd hebbende, "33% minder hallucinaties" betekent nog steeds dat hallucinaties voorkomen. Vertrouw maar verifieer blijft de enige verstandige aanpak. Maar de trendlijn is bemoedigend.
Wat de benchmarks volledig missen, is het gevoel van het werken met deze verschillende modellen — en daar liggen mijn sterkste meningen.
De onderzoeksworkflow die me daadwerkelijk imponeerde
De meeste AI-modelreviews testen onderzoekscapaciteiten door één vraag te stellen en het antwoord te evalueren. Dat is een waardeloze test. Niemand gebruikt AI-onderzoek zo in de praktijk. Echt onderzoek is iteratief — je begint met een brede vraag, krijgt resultaten, vernauwt je focus, past je invalshoek aan, graaft dieper in één specifieke draad.
GPT 5.4 Thinking verwerkt deze iteratieve stroom beter dan elk model dat ik heb getest.
Ik begon met een brede query: "Analyseer de huidige staat van AI-aangedreven marketing automation tools, met focus op marktleiders, prijsmodellen en integratiecapaciteiten." Het model startte zijn denkproces, doorzocht het web en leverde een gestructureerde analyse in ongeveer 45 seconden. Nette secties, specifieke productnamen met actuele prijzen, vergelijkingen van integratie-ecosystemen. Goed maar niet bijzonder — Gemini en Claude kunnen vergelijkbaar werk leveren.
Hier werd het interessant. Ik zei: "Vernauw dit eigenlijk naar tools die specifiek integreren met Shopify voor e-commerce e-mailmarketing, en voeg een vergelijking toe van hun AI-personalisatiecapaciteiten."
Met GPT 5.2 zou dit soort koerswijziging midden in het proces in feite vereisen dat je opnieuw begon. Het model zou het als een nieuwe vraag behandelen en de context van de eerste onderzoeksronde verliezen. GPT 5.4 paste zijn zoekparameters aan, behield de relevante bevindingen van de eerste query en bouwde erop voort. De verfijnde output kruisrefereerde het originele marktoverzicht met Shopify-specifieke integratiedata, waardoor een vergelijking ontstond die aanvoelde alsof iemand er echt een deep dive in had gedaan in plaats van twee aparte oppervlakkige zoekopdrachten.
De output was gestructureerd in bevindingen met bronvermeldingen, een competitieve vergelijkingsmatrix en — dit was een leuke touch — een checklist met evaluatiecriteria voor het maken van een definitieve selectie. Het soort deliverable dat me 2-3 uur handmatig onderzoek zou hebben gekost.
Ik pushte het een stap verder en vroeg het om het onderzoek om te zetten in een presentatie. Vijftien slides, netjes gestructureerd, met een logische verhaallijn van marktoverzicht naar specifieke aanbevelingen. Het standaardontwerp was bedrijfs-saai (zoals verwacht), maar toen ik om een minimalistisch, modern herontwerp vroeg, was de tweede versie oprecht bruikbaar. Geen prijswinnaar — maar absoluut goed genoeg voor een interne strategievergadering.
Vervolgens vroeg ik het om een Excel-spreadsheet te bouwen met een samenvatting van de belangrijkste datapunten, vergelijkingsformules en een grafiek. Het leverde een downloadbaar .xlsx-bestand met werkende VLOOKUP-formules, voorwaardelijke opmaak en een staafdiagram dat prijzen vergeleek tussen aanbieders. Ik opende het in Excel en alles werkte. Geen kapotte verwijzingen, geen formulefouten, geen fantoomdata.
Dit is de workflow waarin GPT 5.4 absoluut zijn plek verdient. Onderzoek → Presentatie → Spreadsheet, allemaal in één gesprek, elk voortbouwend op de vorige output. Voor kenniswerkers die hun dagen besteden aan het samenvoegen van informatie in documenten, is dit een echte productiviteitsmultiplicator.
Maar er is een belangrijk voorbehoud dat ik moet adresseren voordat iemand te enthousiast wordt over die spreadsheetcapaciteiten.
De Excel-add-on is indrukwekkend maar niet wat je denkt
OpenAI bracht de ChatGPT for Excel add-on uit naast GPT 5.4, beschikbaar voor betaalde abonnees. Op papier klinkt het als de killerfunctie voor zakelijke gebruikers — naadloze AI-integratie direct in je spreadsheets.
In de praktijk is het nuttig maar beperkter dan de marketing suggereert. De add-on laat je GPT-functies gebruiken binnen Excel-cellen, wat geweldig is voor taken als het categoriseren van data, het extraheren van informatie uit tekstkolommen, of het genereren van formules op basis van natuurlijke taalbeschrijvingen. Wat het niet doet is Excel omtoveren tot een volledig AI-aangedreven analyseplatform. Je werkt nog steeds binnen het paradigma van Excel; de AI helpt alleen bij specifieke taken op celniveau.
Waar ik echte waarde vond was in formulegeneratie. In gewoon Nederlands beschrijven wat ik wilde — "bereken het jaar-op-jaar groeipercentage door kolom C te vergelijken met kolom D, maar alleen voor rijen waar kolom A 'Enterprise' bevat" — en direct een werkende formule terugkrijgen. Dat bespaart echt tijd, vooral bij complexe geneste formules waarvoor je anders twintig minuten documentatie moet doorlezen.
Waar ik niet veel waarde vond was in de bredere "AI in Excel"-use cases. Voor serieuze data-analyse exporteer ik de data liever en werk ik ermee in Claude Code of een Python-notebook. De cel-voor-cel AI-aanpak voelt als het gebruiken van een raceauto om naar de brievenbus te rijden — technisch werkt het, architecturaal verkeerd voor de taak.
Het echte verhaal van GPT 5.4 is geen enkele functie. Het is het patroon van waar OpenAI voor optimaliseert — en waarvoor niet.
Waar GPT 5.4 tekortschiet (en waarom dat ertoe doet)
Ik vroeg GPT 5.4 Thinking om vijf YouTube-videohooks te schrijven in een conversatie-achtige, directe toon. "Geen bedrijfstaal. Geen em-dashes. Schrijf alsof je praat met een vriend die je een vraag stelde."
De eerste output gebruikte vier em-dashes in vijf hooks.
Ik verduidelijkte: "Nul em-dashes. Geen. Niet één."
De tweede output gebruikte twee em-dashes en voegde "bovendien" toe aan een van de hooks.
Dit is geen kleine klacht. Naleving van schrijfstijl is een van de meest fundamentele capaciteiten die contentmakers nodig hebben van een AI-model, en GPT 5.4 is meetbaar slechter daarin dan zowel Claude als Gemini. Ik heb genoeg tijd doorgebracht met alle drie om dit met vertrouwen te zeggen: als je primaire use case het genereren van content is die overeenkomt met een specifieke stem of stijl, zou GPT 5.4 niet je eerste keuze moeten zijn.
Het probleem is niet dat het model geen goede tekst kan genereren. Individuele zinnen zijn goed geconstrueerd. Het vocabulaire is geavanceerd. De ideeën zijn relevant. Maar GPT 5.4 heeft een hardnekkige neiging om terug te vallen op een formeel, licht academisch register dat het moeilijk kan overrulen, zelfs met expliciete instructies. Het is alsof je werkt met een briljante consultant die naar een businessschool is geweest en niet kan stoppen met "synergiseren" te zeggen, hoeveel keer je ook vraagt normaal te praten.
Claude — met name in de huidige Opus 4.6-iteratie — verwerkt stijlnaleving dramatisch beter. Als ik Claude vertel "schrijf in een conversatie-achtige eerstepersoons-toon," klinkt de output daadwerkelijk conversatie-achtig. Als ik zeg "geen overgangswoorden zoals bovendien of echter," verdwijnen die woorden. Het instructie-opvolg-verschil tussen GPT 5.4 en Claude op stilistische beperkingen is breed genoeg dat ik niet zou overwegen mijn contentgeneratieworkflows over te zetten.
Gemini 3.1 Pro zit in het midden. Beter dan GPT 5.4 in het matchen van conversatietonen, niet helemaal zo flexibel als Claude voor genuanceerde stijlinstructies, maar over het algemeen betrouwbaar voor straightforward contenttaken.
Dit is belangrijk omdat het onthult waarvoor OpenAI optimaliseert met de GPT 5.4-lijn — en wat ze deprioriteren. Het model is duidelijk ontworpen voor kenniswerk: onderzoek, analyse, documentcreatie, gestructureerde output. Dit zijn enterprise use cases met enterprise-omzetpotentieel. Contentgeneratie in een specifieke merkstem is een creator economy use case met minder voor de hand liggend enterprise-waarde. De optimalisatiekeuzes zijn zakelijk logisch, ook al frustreren ze mensen zoals ik die één model willen dat alles kan.
Wat me brengt bij de vraag die ik mezelf na elke nieuwe modellancering blijf stellen.
De multi-model-realiteit die niemand wil accepteren
Hier is een standpunt dat misschien voor de hand klinkt maar waar bijna niemand ook echt naar handelt: er is geen enkel beste AI-model. Niet GPT 5.4. Niet Opus 4.6. Niet Gemini 3.1 Pro. Het juiste model hangt volledig af van wat je ermee doet.
Ik weet dat dat onbevredigend is. We willen een winnaar. We willen zeggen "gebruik deze" en klaar. Maar na alle drie uitgebreid te hebben getest — en ik bedoel echt projectwerk, geen benchmarkpuzzels — is het eerlijke antwoord dat ik verschillende modellen gebruik voor verschillende taken, en jij zou dat waarschijnlijk ook moeten doen.
Mijn huidige modelverdeling ziet er zo uit:
-
Coderen en softwareontwikkeling: Opus 4.6 in Claude Code. Niet eens in de buurt. De agentische workflow, de bestandssysteemtoegang, het vermogen om te itereren op een codebase in plaats van geïsoleerde fragmenten te genereren — niets evenaart deze ervaring op dit moment.
-
Onderzoek en documentcreatie: GPT 5.4 Thinking. De onderzoek-naar-presentatie-naar-spreadsheet pipeline is ongeëvenaard. Als ik een strategiedocument, marktanalyse of geformateerd rapport moet produceren, begin ik hier.
-
Contentgeneratie en schrijven: Claude (Opus of Sonnet, afhankelijk van complexiteit). Beste stijlnaleving, beste instructie-opvolging voor creatief en merkstemmig werk, meest natuurlijke conversatie-output.
-
Snelle vragen en brainstormen: Gemini 3.1 Pro of GPT 5.3 Instant. Snelheid is belangrijker dan diepgang voor snelle ideevorming, en beide zijn snel genoeg om als een realtime gesprek aan te voelen. De sub-seconde reacties van Instant laten het aanvoelen als autocomplete op steroïden — perfect voor "wat is de syntax voor X" of "geef me vijf namen voor Y" type vragen.
-
Computergebruik en webautomatisering: GPT 5.4 voor nu, hoewel dit landschap snel verandert naarmate Claude en Gemini hun agentcapaciteiten uitbreiden.
Deze multi-model aanpak voegt complexiteit toe. Je hebt accounts bij meerdere aanbieders nodig. Je moet intuïtie ontwikkelen voor welk model bij welke taak past. Je moet contextswisselen tussen verschillende interfaces en interactieparadigma's. Het is rommeliger dan één tool voor alles.
Maar het is ook dramatisch effectiever. GPT 5.4 gebruiken voor een taak waarin Claude uitblinkt (of andersom) betekent dat je 70% van de mogelijke kwaliteit krijgt terwijl je 95% zou kunnen halen. Over tientallen taken per week accumuleert dat kwaliteitsverschil tot een significant productiviteitsverschil.
De mensen die de meeste waarde uit GPT 5.4 zullen halen zijn niet degenen die er exclusief naar overstappen. Het zijn degenen die het aan hun toolkit toevoegen voor de specifieke use cases waarin het alles overtreft — en andere modellen blijven gebruiken waar die modellen sterker zijn.
Token-economie: het verborgen verhaal in de prijs van GPT 5.4
OpenAI maakte een interessante prijsbeslissing met GPT 5.4. De kosten per token zijn iets hoger dan bij GPT 5.2, maar het model gebruikt minder tokens om dezelfde taken te volbrengen. Dit betekent dat de werkelijke kosten per taak in de meeste gevallen lager zijn, ook al is de catalogusprijs gestegen.
Ik trackte tokengebruik over tien vergelijkbare taken tussen GPT 5.2 en GPT 5.4. Gemiddeld gebruikte GPT 5.4 22% minder tokens voor vergelijkbare output. Reken je de prijswijziging mee, dan waren de nettokosten per taak ongeveer 15% lager. Geen dramatische besparing, maar significant op schaal — vooral voor teams die dagelijks honderden API-calls draaien.
De verbetering in token-efficiëntie betekent ook snellere reacties. Minder gegenereerde tokens betekent minder wachttijd, wat zich opstapelt wanneer je iteratieve workflows draait waar elke stap afhankelijk is van de vorige output. Mijn onderzoek-naar-presentatie pipeline werd ongeveer 30% sneller voltooid met GPT 5.4 vergeleken met 5.2, wat zich vertaalt naar echte tijdsbesparing over een werkdag.
Voor API-gebruikers die producten bouwen bovenop GPT is deze efficiëntieverbetering waarschijnlijk de meest praktisch significante verbetering in de hele release. Het is niet het soort ding dat de krantenkoppen haalt, maar het is wel het soort ding dat verschijnt op je maandelijkse OpenAI-factuur.
Wat dit betekent voor de komende zes maanden
Ik test nu al ruim een jaar elke paar weken nieuwe AI-modellen, en er is een duidelijk patroon ontstaan. Elke nieuwe release van welke grote aanbieder dan ook verkleint de kloof met concurrenten op hun zwakke punten terwijl ze verder vooruitlopen op hun sterke punten. GPT 5.4 volgt dit patroon precies — het liep in op Claude's codeercapaciteiten (hoewel het ze niet overtrof), liep verder uit op kenniswerk en documentcreatie, en maakte incrementele verbeteringen op hallucinatiepercentages.
De competitieve dynamiek die dit creëert is oprecht goed voor gebruikers. OpenAI die coderen verbetert, duwt Anthropic om hun onderzoekscapaciteiten te verbeteren. Google die beide verbetert, duwt iedereen om token-efficiëntie te optimaliseren. Niemand kan op één voordeel blijven rusten omdat de andere aanbieders die kloof binnen één of twee releasecycli zullen dichten.
Waar ik de komende zes maanden op let:
Van OpenAI: Een GPT 5.5 of GPT 6 die eindelijk schrijfstijlnaleving kraakt. Dit is de meest voor de hand liggende lacune in hun aanbod, en ze weten het. De zakelijke klanten die ze proberen te werven hebben merkstemmigheid net zo hard nodig als onderzoekscapaciteiten.
Van Anthropic: Uitgebreider computergebruik en een robuustere documentcreatieipeline. Claude's dominantie op het gebied van coderen is voorlopig veilig, maar de kloof met GPT 5.4 op kenniswerk is reëel.
Van Google: Gemini's deep think-capaciteiten toegepast op langere, complexere taken. Google heeft het datavoordeel (Search, YouTube, Scholar) dat geen van beide concurrenten kan evenaren; de vraag is of ze datatoegang kunnen vertalen naar modelcapaciteit.
Het model waar ik het meest enthousiast over ben is geen specifieke release — het is de workflow waarin ik taken automatisch naar het beste beschikbare model kan routeren, zonder handmatig te wisselen. We zijn er nog niet, maar we komen er met elke release dichterbij.
Stop met wachten op het perfecte model
Ik opende dit stuk met de beschrijving van hoe GPT 5.4 me een presentatie, een spreadsheet en een onderzoeksrapport bouwde in minder dan tien minuten — om vervolgens te falen bij het schrijven van een simpele hook zonder em-dashes. Die tegenstelling is niet opgelost. Die zal niet worden opgelost in deze modelgeneratie, en waarschijnlijk ook niet in de volgende.
Het perfecte alles-in-één AI-model is een fantasie die mensen ervan weerhoudt echte waarde te halen uit de imperfecte modellen die nu al bestaan. GPT 5.4 Thinking is het beste kenniswerk- en onderzoeksmodel dat vandaag beschikbaar is. Het is niet het beste codeermodel. Het is niet het beste schrijfmodel. Het is niet het beste wat-dan-ook-model. En dat is prima.
Als je een kenniswerker bent die verdrinkt in onderzoek, rapporten en presentaties, heeft GPT 5.4 je zojuist tien uur per week bespaard. Als je een ontwikkelaar bent die zoekt naar een betere codeerassistent, is Opus 4.6 nog steeds je antwoord. Als je een contentmaker bent die AI nodig heeft die daadwerkelijk klinkt als jij, wint Claude die race met comfortabele voorsprong.
De mensen die nu echt concurrentievoordeel behalen met AI zijn niet degenen die debatteren over welk model "het beste" is. Het zijn degenen die hebben uitgevogeld welk model het beste is voor elk specifiek ding dat ze doen — en workflows hebben gebouwd die dienovereenkomstig routeren.
GPT 5.4 Thinking heeft vandaag een permanente plek in mijn toolkit verdiend. Niet als vervanging van wat dan ook. Als toevoeging. En eerlijk? Dat is het grootste compliment dat ik een AI-model kan geven in 2026.
Laten we samenwerken
Wil je AI-systemen bouwen, workflows automatiseren of je technische infrastructuur opschalen? Ik help je graag.
- Fiverr (maatwerkoplossingen & integraties): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (enterprise-oplossingen): ramlit.com
- ColorPark (design & branding): colorpark.io
- xCyberSecurity (beveiligingsdiensten): xcybersecurity.io