Skip to main content
📝 AI-tools

Ik Testte Gemini 3 Deepthink — Google's Slimste AI Tot Nu Toe

Ik Testte Gemini 3 Deepthink — Google's Slimste AI Tot Nu Toe Ik was halverwege het bouwen van een autonome agent pipeline in Claude Code toen een not...

6 min

Leestijd

1,171

Woorden

Feb 16, 2026

Gepubliceerd

Engr Mejba Ahmed

Geschreven door

Engr Mejba Ahmed

Artikel delen

Ik Testte Gemini 3 Deepthink — Google's Slimste AI Tot Nu Toe

Ik Testte Gemini 3 Deepthink — Google's Slimste AI Tot Nu Toe

Ik was halverwege het bouwen van een autonome agent pipeline in Claude Code toen een notificatie me uit mijn flow-staat trok. Google had iets groots laten vallen. Niet de incrementele Gemini 3.1 Pro-update die iedereen verwachtte — iets heel anders. Een model genaamd Gemini 3 Deepthink. En de beweringen erover waren ronduit absurd.

Goudmedailleniveau wiskunde-olympiadeprestaties. Een Codeforces ELO van 3.455. De mogelijkheid om een handgetekende schets op een servet te nemen en er een 3D-afdrukbaar bestand van te maken. Ik bouw al meer dan twee jaar professioneel met AI-modellen, en ik heb geleerd de hype van de substantie te filteren. Maar deze cijfers? Ze zorgden ervoor dat ik midden in een toetsaanslag stopte.

Dus deed ik wat ik altijd doe wanneer een model stoute beloften doet. Ik maakte mijn middag vrij, startte de API op, en gooide de moeilijkste problemen die ik kon vinden ernaar toe. Wat de volgende zes uur gebeurde, veranderde hoe ik denk over waar AI-redenering naartoe gaat.

Wat Deepthink Anders Maakt Dan Elke Eerdere Gemini

De naam vertelt je iets belangrijks. Dit is geen upgrade voor algemene doeleinden chatbot. Google heeft Gemini 3 Deepthink specifiek ontworpen voor één ding: diep, meerstaps chain-of-thought redenering. Het soort denken waarbij je zeven variabelen in je hoofd moet houden, logica moet traceren over meerdere abstractielagen, en fouten moet vangen die voorbij de meeste PhD-kandidaten zouden glippen.

Deepthink werkt in een andere categorie dan standaard Gemini 3. Het verschil tussen dit en standaard Gemini 3 voelt groter aan dan het verschil tussen GPT-3.5 en GPT-4 terug in 2023.

De Benchmarks Die Me Deden Stoppen Met Scrollen

Humanity's Last Exam — Deepthink scoorde ongeveer 48% zonder tooltoegang. Geen rekenmachine. Geen code-interpreter. Geen websearch. Voor context: de vorige beste scores lagen in de lage 30's.

Codeforces gaf Deepthink een ELO-rating van 3.455. Mijn eigen rating zweeft rond 1.400 op een goede dag. Een ELO van 3.455 plaatst Deepthink in de top fractie van een procent van alle competitieve programmeurs die ooit hebben deelgenomen.

Ark AGI 2: Deepthink scoorde 84,6, onafhankelijk geverifieerd door de ARK Prize Foundation. De menselijke basislijn op deze test zit lager dan 84,6. Lees dat opnieuw.

Benchmark Deepthink Score Waarom Het Belangrijk Is
Humanity's Last Exam (geen tools) ~48% Bijna 50% hoger dan vorige beste modellen
Codeforces ELO 3.455 Top fractie van competitieve programmeurs
Ark AGI 2 84,6 Overtreft menselijke basislijn op abstract redeneren
Internationale Wiskunde-Olympiade Goudmedailleniveau Evenarend elite menselijke wiskundige vaardigheid

De 3D-Printtest Die Me Verblufte

Ik tekende een snelle schets van een telefoonhouder — niets bijzonders, gewoon een gehoekt steun met een lip om het apparaat vast te houden. Ruwe lijnen. Geen afmetingen geschreven.

Deepthink genereerde niet alleen een 3D-bestand. Het leidde redelijke afmetingen af uit de verhoudingen in mijn schets. Het voegde structurele ondersteuning toe waar de hoeken spanningspunten zouden creëren. Het resulterende STL-bestand laadde probleemloos in Cura, werd gesneden zonder fouten, en de wanddiktes waren geschikt voor FDM-printen.

Toen Ik Het Vroeg Een Minecraft Clone te Bouwen

Ik vroeg Deepthink een Minecraft-achtig browserspel te genereren. Niet een schermafbeelding mockup. Een echt speelbaar spel in een enkel HTML-bestand met JavaScript.

Wat terugkwam was een functionele voxelwereld met blokplaatsing, blokvernietiging, basis terreinsgeneratie en werkende geluidseffecten. Je kon rondlopen. Je kon bouwen. De fysica was niet beschamend.

Was er bugs? Absoluut. Botsingsdetectie had randgevallen. Maar dit was een functioneel, speelbaar spel gegenereerd vanuit één enkele prompt.

De Browser-Gebaseerde macOS Clone Die Niet Zou Moeten Bestaan

Ik vroeg Deepthink een macOS-achtige besturingssysteeminterface te bouwen die volledig in een browser draait.

Wat het genereerde deed me versteld staan.

Het dock werkte — pictogrammen stuiteren bij hoveren, apps starten bij klikken, en het vergrotingseffect op het dock was soepel. Er was een functionele Finder-app met een bestandsboom die je kon navigeren. Een Notities-app waar je daadwerkelijk kon typen en tekst opslaan. Een rekenmachine die basisoperaties correct verwerkte. En — dit is het deel dat me trof — een Instellingenpaneel met uiterlijkpersonalisatie, inclusief een donkere modus schakelaar die de volledige interface daadwerkelijk herstyled.

De Stroomnet Stresstest — Waar Deepthink Mijn Respect Verdiende

Ik vroeg het een gedecentraliseerde stroomnet simulator te bouwen. Duizenden knooppunten. Realistische faalmodellen. Zelfherstellend vermogen.

De architectuur was doordacht. Elk knooppunt had onafhankelijk statusbeheer met eigenschappen voor generatiecapaciteit, huidige belasting, kans op falen en verbindingstopologie. Wanneer een knooppunt faalde, cascadeerde de lasthervedeling door verbonden knooppunten.

Terwijl ik de simulatie uitvoerde, zag ik een raster van 2.000 knooppunten normale werking soepel verwerken, toen een gesimuleerde hittegolf in één regio introduceerde. Generatiecapaciteit daalde. Belasting verschoof naar aangrenzende regio's. Een paar overbelaste knooppunten vielen offline. De cascade verspreidde zich visueel over het raster. En toen — dit indrukwekkende me het meest — trad het zelfherstellingsmechanisme in werking, waarbij stroom via alternatieve paden werd omgeleid en de dienstverlening geleidelijk werd hersteld.

De Plaatsen Waar Deepthink Struikelde

SVG-generatie was teleurstellend. Ik vroeg om een fotorealistische vlinder in SVG-formaat. Wat terugkwam was... in orde. Niets dat een fotorealistische SVG benadert.

Landingspagina-ontwerp was goed maar niet uitzonderlijk. Ik heb vergelijkbare uitvoer gekregen van Claude Sonnet voor eenvoudigere generatietaken.

Contextvensterdruk was reëel. Bij de langere generaties merkte ik dat het model soms consistentie in variabelenaming verloor.

Snelheid is niet zijn kracht. Deepthink is traag vergeleken met standaard Gemini 3 of Claude Sonnet.

Hoe Je Werkelijk de Beste Resultaten van Deepthink Krijgt

Stap 1: Definieer de probleemruimte expliciet.

Stap 2: Specificeer de architectuur, niet alleen de uitvoer.

Stap 3: Vraag expliciet redenering voor code.

Voeg "Schets eerst je architectuurbenadering en identificeer de drie moeilijkste technische uitdagingen. Implementeer dan." toe aan je prompts.

Stap 4: Gebruik gefaseerde complexiteit.

Stap 5: Wees specifiek over faalmodellen.

De Prijsrealiteit — Is Het $250 per Maand Waard?

Gemini 3 Deepthink is momenteel beschikbaar via Google's AI Ultra-abonnement. De introductieprijs loopt ruwweg $125 per maand voor de eerste drie maanden. Daarna kijk je naar ruwweg $250 per maand.

Periode Maandelijkse Kosten
Eerste 3 maanden (intro) ~$125/maand
Na introductieperiode ~$250/maand

Is het de moeite waard? Dat hangt volledig af van waarvoor je het gebruikt.

Als je een competitieve programmeur, een onderzoeker die werkt aan complexe wiskundige problemen, of een ingenieur bent die simulaties bouwt — de redeneercapaciteit is momenteel werkelijk ongeëvenaard.

Mijn eerlijke aanbeveling: probeer het introductietarief voor een maand. Gooi je moeilijkste onopgeloste problemen ernaar toe. Als de resultaten $250/maand rechtvaardigen voor je specifieke gebruikscase, weet je het binnen de eerste week.

Wat Dit Betekent voor het AI-Landschap

De wapenwedloop tussen Google, Anthropic en OpenAI is net verschoven van "wie heeft het beste algemene model" naar "wie heeft het beste redeneermodel."

Wat me interesseert — en eerlijk gezegd, wat me iets zorgen baart — is het Ark AGI 2-resultaat. Scoren van 84,6 op een test ontworpen om abstract redeneervermogen te meten, onafhankelijk geverifieerd, en de menselijke basislijn overtreffen? Dat is niet gewoon een indrukwekkende benchmark. Dat zijn gegevens die zinvolle vooruitgang suggereren naar kunstmatige algemene intelligentie.

De praktische implicatie voor developers: de modellen waarmee je vandaag bouwt, zullen in hun redeneercapaciteiten binnen 12-18 maanden verouderd zijn. Ontwerp je AI-geïntegreerde systemen met vervangbare modellagen.


Laten We Samenwerken

Wil je AI-systemen bouwen, workflows automatiseren of je technische infrastructuur opschalen? Ik help je graag.

Coffee cup

Vond u dit artikel leuk?

Uw steun helpt mij meer diepgaande technische content, open-source tools en gratis bronnen voor de ontwikkelaarsgemeenschap te maken.

Gerelateerde onderwerpen

Engr Mejba Ahmed

Over de auteur

Engr Mejba Ahmed

Engr. Mejba Ahmed builds AI-powered applications and secure cloud systems for businesses worldwide. With 10+ years shipping production software in Laravel, Python, and AWS, he's helped companies automate workflows, reduce infrastructure costs, and scale without security headaches. He writes about practical AI integration, cloud architecture, and developer productivity.

Discussion

Comments

0

No comments yet

Be the first to share your thoughts

Leave a Comment

Your email won't be published

3  x  5  =  ?

Blijf leren

Gerelateerde artikelen

Alles bekijken

Comments

Leave a Comment

Comments are moderated before appearing.