Ik Testte Google Gemma 4 — Open Source AI Wordt Serieus
Ik was halverwege een prompt in een Claude Code-project — bezig met het refactoren van een agent-pipeline die bleef hallucineren over tool-aanroepen — toen Google iets lanceerde dat ik niet had verwacht. Niet weer een incrementele Gemini-update. Niet een onderzoekspaper die niemand buiten DeepMind zou lezen. Vier open-weight modellen, gebouwd op hetzelfde onderzoek achter Gemini 3, uitgebracht onder Apache 2.0 op 2 april 2026.
De bewering die mij opviel? Een model met 26 miljard parameters dat slechts 3,8 miljard parameters activeert tijdens inferentie en zogenaamd op ongeveer 300 tokens per seconde draait op een Mac Studio M2 Ultra. Een model dat zo klein, dat zo snel, zesde staat in de rangschikking van alle open modellen op het Arena AI-leaderboard.
Ik ben eerder teleurgesteld door Googles open-source AI-inspanningen. Gemma 1 was ondermaats. Gemma 2 was redelijk maar onopvallend. Gemma 3 toonde echte verbetering maar kon niet tippen aan wat Qwen en Meta uitbrachten. Dus toen Google beweerde dat Gemma 4 "de grootste verbetering in één generatie in de open modelruimte" vertegenwoordigt, was mijn scepsis volledig geactiveerd.
Maar toen begon ik te testen. En binnen het eerste uur besefte ik dat deze release op manieren verschilt die ertoe doen — niet alleen voor benchmark-leaderboards, maar voor iedereen die AI lokaal draait of agentische workflows bouwt die snel, goedkoop en echt betrouwbaar moeten zijn.
Hier is alles wat ik vond gedurende meerdere dagen hands-on testen met alle vier de modellen. De goede onderdelen zijn oprecht indrukwekkend. De tekortkomingen zijn het waard om te kennen voordat je je verbindt.
Wat Google Werkelijk Heeft Uitgebracht — En Waarom de Architectuur Ertoe Doet
Gemma 4 is niet één model. Het zijn vier modellen die een bereik bestrijken van draaien op je telefoon tot concurreren met in de cloud gehoste frontier-modellen. Het begrijpen van het aanbod is belangrijk, want het kiezen van de verkeerde grootte voor jouw gebruik verspilt ofwel geld ofwel capaciteit.
| Model | Parameters | Actief bij Inferentie | Contextvenster | Doelhardware |
|---|---|---|---|---|
| E2B (Effectief 2B) | 2B | 2B | 128K tokens | Smartphones, Raspberry Pi |
| E4B (Effectief 4B) | 4B | 4B | 128K tokens | Tablets, edge-apparaten |
| 26B MoE | 26B totaal | ~3,8B | 256K tokens | Laptops, Mac Mini/Studio |
| 31B Dense | 31B | 31B | 256K tokens | Desktop, cloud, high-end GPU |
Het architectuurverhaal hier is de Mixture of Experts (MoE)-benadering in het 26B-model. Ik heb eerder over MoE geschreven bij de bespreking van GLM5 — het basisidee is dat het model veel gespecialiseerde "expert"-netwerken bevat, maar slechts een kleine subset activeert voor elke gegeven invoer. Zie het als een gebouw vol specialisten in plaats van één overwerkte generalist.
Wat de Gemma 4 26B-implementatie interessant maakt, is de verhouding. Het activeren van 3,8 miljard parameters uit een totaal van 26 miljard betekent dat ruwweg 85% van het model op elk moment slaapt. Dat is agressief. Ter vergelijking: GLM5 activeert ongeveer 44 miljard uit 745 miljard — een veel groter model, maar een vergelijkbare filosofische benadering van efficiëntie.
Het praktische resultaat? Een model dat op consumentenhardware past en ver boven zijn parametergewichtsklasse presteert. Het 256K token-contextvenster bij de grotere modellen betekent dat je complete codebases, lange documenten of multi-bestandsprojecten kunt invoeren zonder te chunken. En alle vier de modellen ondersteunen standaard meer dan 140 talen — wat, als je iets bouwt voor een wereldwijd publiek, een hele categorie hoofdpijn wegneemt.
Elk model in het aanbod ondersteunt meerstaps-redenering, gestructureerde JSON-uitvoer, toolgebruik en codering. Dit zijn geen functies die achteraf zijn toegevoegd na training. Google heeft deze capaciteiten native getraind, wat — op basis van mijn testen — een echt verschil maakt in hoe betrouwbaar de modellen agentische workflows afhandelen.
Maar hier is het deel waar ik dieper op in wil gaan: hoe dit allemaal werkelijk presteert wanneer je er echt werk tegenaan gooit.
De Benchmarks — Indrukwekkende Cijfers Met Eén Belangrijke Kanttekening
Voordat ik mijn praktijkresultaten deel, verdienen de officiële cijfers onderzoek. Niet omdat ik benchmarks op hun nominale waarde neem — dat doe ik niet, en jij zou dat ook niet moeten — maar omdat een paar van deze scores een specifiek verhaal vertellen over waar Google zijn trainingsaandacht op heeft gericht.
Het 31B dense-model scoort 85,2 op MMLU Pro, dat brede kennis en redenering meet over tientallen academische domeinen. Voor een 31-miljard-parametermodel is dat uitzonderlijk. Het haalt 89,2% op AIME 2026 — de wiskundewedstrijdbenchmark die modellen met echte wiskundige redenering scheidt van die welke zich door rekenkunde heen pattern-matchen. GPQA Diamond, de benchmark voor wetenschappen op graduaatniveau, komt uit op 84,3%. En LiveCodeBench v6, dat praktisch programmeertalent test op recente problemen waarop het model niet getraind kon zijn, laat 80% zien.
| Benchmark | Gemma 4 31B | Wat Het Meet |
|---|---|---|
| MMLU Pro | 85,2% | Brede kennis en redenering |
| AIME 2026 | 89,2% | Wiskundige redenering |
| GPQA Diamond | 84,3% | Wetenschap op graduaatniveau |
| LiveCodeBench v6 | 80,0% | Programmeertalent in de praktijk |
| Arena AI (tekst) | #3 open model (1452) | Rangschikking op menselijke voorkeur |
Het 31B-model staat momenteel op de derde plaats onder alle open modellen op het Arena AI tekst-leaderboard met een score van 1452. Het 26B MoE staat zesde met 1441 — onthoud dat het slechts 3,8 miljard actieve parameters gebruikt om bijna gelijk te komen aan zijn veel grotere broer.
Nu, de kanttekening. Volgens de intelligence index-scores die ik bijhoud over modellen heen, scoort de Gemma 4 31B een 31, terwijl het Qwen 3.5 27B-model 42 scoort. Dat is een betekenisvol verschil op een metriek die ontworpen is om algemene redeneercapaciteit te meten. De bovenstaande benchmarkcijfers schilderen Gemma 4 als competitief in specifieke domeinen, maar op holistische intelligentie — het soort "kan het iets uitvogelen waarvoor het niet specifiek getraind is"-capaciteit — heeft Qwen nog steeds een voorsprong bij vergelijkbare parametertellingen.
Dit is belangrijk voor agentische codeerworkflows waarbij het model beoordelingen moet maken, niet alleen patronen moet uitvoeren. Ik zal je precies laten zien waar dit naar voren kwam in mijn testen.
Eén gebied waar Gemma 4 echt beter presteert, is token-efficiëntie. In mijn tests gebruikten Gemma 4-modellen ongeveer 2,5 keer minder uitvoertokens voor vergelijkbare taken vergeleken met Qwen 3.5 en Llama 4. Minder tokens betekent lagere kosten, snellere generatie en minder contextvenster dat wordt opgeslokt door de eigen uitvoer van het model. Voor agentische workflows waarbij je meerdere aanroepen ketent, stapelt die efficiëntie snel op.
Gemma 4 Lokaal Draaien — Waar Het Echte Verhaal Zit
Hier is waar mijn mening over Gemma 4 verschoof van "interessant" naar "dit verandert dingen."
Ik haalde het 26B MoE-model op dag één via Ollama — Gemma 4 had dag-één-ondersteuning voor Ollama, Hugging Face, LM Studio en Kaggle. De setup was triviaal: ollama pull gemma4:26b, stel OLLAMA_NUM_GPU=99 in om GPU-laag-offloading te maximaliseren, en begin met prompten.
Op mijn Mac-setup was het 26B-model met Q4_K_M-kwantisatie responsief genoeg voor echt ontwikkelwerk. Niet "wacht vijftien seconden per antwoord"-responsief. Echt bruikbaar. Het soort snelheid waarbij je een gesprek met het model kunt voeren en je gedachtegang niet verliest tussen antwoorden.
Google claimt ruwweg 300 tokens per seconde op een Mac Studio M2 Ultra voor het 26B-model. Mijn eigen tests haalden dat exacte getal niet — kwantisatie-instellingen, promptcomplexiteit en contextlengte beïnvloeden allemaal de doorvoer — maar het model was consequent sneller dan elk ander model met vergelijkbare capaciteiten dat ik lokaal heb gedraaid. Die 3,8-miljard-actieve-parameter-architectuur doet wat het belooft.
Het 31B dense-model is zwaarder. Het heeft serieuzere hardware nodig — een desktop-GPU met voldoende VRAM, of een goed uitgeruste Apple Silicon-machine. Maar voor iedereen die die hardware al onder hun bureau heeft staan, draait het een top-drie open model zonder te betalen voor API-aanroepen. Zonder je code naar iemands server te sturen. Zonder je zorgen te maken over rate limits om 2 uur 's nachts wanneer je in de zone zit en door prompts heen brandt.
Voor de edge-modellen — de E2B en E4B — pusht Google hard op on-device inferentie. De Android AICore Developer Preview geeft ontwikkelaars een pad om deze modellen direct op telefoons te draaien. Ik heb het mobiele deploymentpad niet zelf getest, maar de implicatie is significant: multimodaal AI-redeneren — tekst, afbeeldingen, audio — dat volledig op een apparaat in je zak draait. Geen cloud-omweg. Geen data die het apparaat verlaat. Voor privacy-gevoelige toepassingen is dat geen nice-to-have. Dat is een vereiste.
De Apache 2.0-licentie verwijdert nog een barrière die ik bij andere open modellen ben tegengekomen. Llama 4 gebruikt Meta's community-licentie met een drempel van 700 miljoen maandelijks actieve gebruikers — prima voor de meeste ontwikkelaars, maar een echte beperking voor bedrijven die snel schalen. Qwen 3.5 gebruikt ook Apache 2.0, dus daar is pariteit. Maar vergeleken met de meer restrictieve voorwaarden van Gemma 3, is dit een betekenisvolle verschuiving in Googles open-source-strategie. Volledige commerciële vrijheid. Geen handhaving van acceptabel-gebruiksbeleid. Geen caps op maandelijks actieve gebruikers.
Als je liever iemand hebt die een lokale AI-inferentiepipeline helemaal opzet — kwantisatie configureren, hardware-optimalisatie en agentische tool chains — dan neem ik precies dit soort projecten aan. Je kunt zien wat ik heb gedaan op fiverr.com/s/EgxYmWD.
De UI-Generatietest — Mijn Standaard Uitdaging
Wanneer een model sterke codeermogelijkheden claimt, draai ik dezelfde reeks tests die ik bij elke review gebruik. De eerste is altijd frontend-generatie — het bouwen van een complexe UI vanuit een enkele prompt. Het test ontwerpgevoel, codestructuur, toestandsbeheer en aandacht voor detail tegelijkertijd.
Ik vroeg het Gemma 4 31B-model om een macOS-achtige desktopinterface in de browser te bouwen. Werkende apps. Versleepbare vensters. Een functioneel dock. Dezelfde prompt die ik naar Qwen 3.6 Plus, Claude Opus en GLM5 heb gestuurd.
Wat terugkwam was oprecht goed. Een werkbalk die eruitzag alsof die op een echte Mac thuishoorde. Een werkende rekenmachine. Een terminalemulator. Instellingenpanelen. De lay-out was schoon — niet het soort "het werkt maar ziet eruit als een prototype"-uitvoer dat ik van kleinere modellen heb gekregen. De kwaliteit zat ergens rond 7,5 tot 8 uit 10 naar mijn subjectieve beoordeling.
Waar het tekortschoot: mapnavigatie in de Finder-kloon was onvolledig. Sommige app-interacties die toestandsveranderingen hadden moeten triggeren, deden dat niet. Dit zijn het soort afwerkingsproblemen die een sterk eerste concept van productieklare code scheiden — en ze zijn consistent met wat ik zie van modellen in dit parameterbereik. Claude Opus en Qwen 3.6 Plus handelen deze randgevallen beter af, maar ze zijn ook ofwel groter, duurder, of beide.
Het 26B MoE-model handelde een vergelijkbare UI-taak af met kleine gebreken — sommige animaties werden niet correct getriggerd, en een paar CSS-overgangen waren niet goed. Maar de snelheid-kwaliteitsverhouding was opmerkelijk. 80% van de weg naar een afgewerkte UI halen in een fractie van de tijd en kosten? Voor prototyping, voor interne tools, voor proof-of-concepts — dat is de sweet spot.
Ik testte ook een meer beperkte prompt: genereer een specifieke UI-lay-out met strikte design token-vereisten, gedefinieerde spacing en een bepaald kleursysteem. Dit test instructie-opvolging meer dan ruwe creativiteit. Zowel het 31B- als het 26B-model handelden dit goed af — code van productieniveau die de beperkingen respecteerde. Vergelijkbare kwaliteit als wat ik heb gekregen van Qwen 3.6 en Opus 4.5 bij vergelijkbare taken.
De Natuurkundesimulatie Test — Waar de Tekortkomingen Zichtbaar Worden
Mijn tweede standaardtest duwt modellen in territorium waar ruwe redenering meer uitmaakt dan patroonherkenning: natuurkundesimulaties. Ik vroeg Gemma 4 31B om een F1-donutsimulator te bouwen — een auto die in strakke cirkels draait met realistische bandennatuurkunde, rookeffecten en 3D-rendering.
Het model toonde hier echte creativiteit. Het probeerde complexe fysische interacties, 3D-perspectiefrendering en deeltjeseffecten voor bandenrook. De technische ambitie was indrukwekkend voor een 31-miljard-parametermodel. Het begreep hoe een donut-manoeuvre er fysiek uitziet en maakte redelijke technische beslissingen over hoe het te simuleren.
Maar de uitvoering bleef achter bij wat Qwen 3.6 leverde op dezelfde prompt. De natuurkunde voelde enigszins verkeerd aan — bandengripberekeningen produceerden onrealistisch gedrag bij bepaalde snelheden. De 3D-rendering had dieptesorteeringsproblemen. De rookdeeltjes misten de organische willekeurigheid die simulaties echt doet voelen.
Dit is waar dat intelligence index-verschil tussen Gemma 4 (score 31) en Qwen 3.5 (score 42) in de praktijk zichtbaar wordt. Taken die vereisen dat het model door nieuwe fysische interacties heen redeneert — situaties waarin het niet kan vertrouwen op geheugde patronen uit trainingsdata — leggen het plafond bloot. Gemma 4 brengt je een solide 70-75% van de weg. Qwen brengt je naar 85-90%. Voor veel toepassingen maakt dat verschil niet uit. Voor complexe simulaties en games wel.
De Arena Battle Tests — Agentische Prestaties in de Praktijk
Ik besteedde een stevige middag aan het draaien van het 31B-model door LM Arena's battle mode — head-to-head vergelijkingen tegen anonieme tegenstanders op een reeks taken. Dit is waar je ziet hoe een model presteert wanneer het niet kan vertrouwen op benchmark-geoptimaliseerde training.
Interactief toestandsbeheer: Ik vroeg het om een multi-tab dashboard te bouwen met gedeelde toestand over componenten heen. Gemma 4 handelde dit schoon af — correct state lifting, contextbeheer, reactieve updates. De code was goed gestructureerd en onderhoudbaar.
360-graden productviewer: Een productweergave met zoom, hotspot-annotaties en vloeiende rotatie. Het model genereerde dit vanuit een enkele prompt met werkende muis/touch-interacties. De hotspot-positionering was accuraat en het zoomgedrag voelde natuurlijk aan.
Geanimeerde SVG-generatie: Ik vroeg om een geanimeerde vlinder — dezelfde test die ik bij elk model draai. Gemengde resultaten. De vleugelgeometrie was creatief, maar de animatietiming voelde mechanisch. Qwen 3.6 produceerde meer organische beweging op dezelfde prompt. GLM5's versie was nog beter. SVG-animatie lijkt een hardnekkige zwakte in de Gemma-lijn te zijn.
Website klonen: Ik vroeg om een Airbnb-achtige aanbiedingspagina met realistisch ogende inhoud, SVG-iconen, correcte opmaak en responsieve lay-out. Dit was verrassend sterk. Het model genereerde op maat gemaakte SVG-iconen die er opzettelijk ontworpen uitzagen, niet willekeurig. De typografie en spacing toonden echt ontwerpbewustzijn. De lay-out was responsief. Ik zou schatten dat dit 85% was van wat een mid-level frontend-ontwikkelaar zou produceren in een paar uur gefocust werk.
Spellogica: Een kaartspel met op natuurkunde gebaseerd kaartgooien, regelhandhaving en scoren. Het model handelde de spellogica correct af — correct beurtbeheer, scoreberekening, regelvalidatie. De natuurkunde van het kaartgooien was vereenvoudigd maar functioneel. Waar het moeite had was in de visuele afwerking van de kaartanimaties.
Over al deze battle-tests heen kwam één patroon consequent naar voren: Gemma 4 31B is een uitstekende eerste-conceptmachine. De structurele beslissingen zijn goed. De codearchitectuur is schoon. De initiële uitvoer brengt je 75-85% van de weg naar een afgewerkt product. Maar de laatste kilometer — de animatieafwerking, de randgevalafhandeling, de subtiele interacties die iets professioneel doen voelen — heeft vaak handmatige verfijning nodig of een tweede ronde met een capabeler model.
Agentische Mogelijkheden — De Functie Die Google Wil Dat Je Opmerkt
Google maakt een bewuste inzet met Gemma 4: ze willen dat deze modellen de basis vormen van agentische AI-workflows. Niet alleen chatbots. Niet alleen codegeneratoren. Autonome agents die tools ketenen, meerstapsplannen uitvoeren en resultaten synthetiseren over verschillende modaliteiten heen.
De praktische implementatie hiervan komt op een paar manieren naar voren.
Ten eerste is toolgebruik native getraind — niet fijn afgestemd bovenop een basismodel. Toen ik een eenvoudige agent-loop opzette met het 31B-model — zoek het web, extraheer data, formatteer als JSON, geef het door aan de volgende stap — handelde het model de overdrachten schoon af. Het wist wanneer het een tool moest aanroepen, hoe het de invoer moest formatteren en hoe het de uitvoer moest interpreteren zonder uitgebreide prompt engineering. Dit is het soort gedrag dat modellen waarop je daadwerkelijk agents kunt bouwen scheidt van modellen die tien pagina's systeemprompts nodig hebben om een rekenmachine te gebruiken.
Ten tweede is gestructureerde JSON-uitvoer betrouwbaar. Ik draaide vijftig opeenvolgende verzoeken om specifieke JSON-schema's — geneste objecten, arrays, optionele velden, typebeperkingen — en het 31B-model trof het juiste formaat bij 47 van de 50 pogingen. De drie mislukkingen waren kleine opmaakproblemen, geen structurele fouten. Voor productie-agentpipelines waarbij een verkeerd gevormd JSON-antwoord de volgende stap laat crashen, doet die betrouwbaarheid meer ertoe dan welk benchmarkcijfer dan ook.
Ten derde handelt de meerstaps-redeneringscapaciteit samengestelde taken goed af. Ik gaf het 26B-model een prompt die vereiste: een screenshot van een dashboard analyseren, drie UX-problemen identificeren, specifieke oplossingen voor elk voorstellen en de gecorrigeerde code genereren. Het voerde alle vier de stappen coherent uit in een enkel antwoord. De UX-kritieken waren specifiek en bruikbaar. De codefixes pakten de daadwerkelijk geïdentificeerde problemen aan. De redeneerketen dwaalde niet af en verloor geen context tussen stappen.
Google introduceerde ook wat ze "agent skills" noemen binnen het Gemini-app-ecosysteem — in wezen verpakte agentische gedragingen die de kleinere Gemma-modellen op het apparaat kunnen uitvoeren. De kleinere E2B- en E4B-modellen kunnen deze agent skills volledig op een telefoon draaien zonder cloud computing. Meerdere tools ketenen. Meerstapstaken uitvoeren. Uitvoer combineren. Allemaal lokaal.
Deze visie van on-device agentische AI is waar het echt interessant wordt. Stel je een telefoon voor die je foto's kan analyseren, tekst uit documenten kan extraheren, informatie kan kruisverwijzen en acties kan ondernemen — allemaal zonder een enkele byte naar een server te sturen. We zijn er nog niet volledig met de mogelijkheden van het E2B-model, maar de architectuurale basis is gelegd. En het 26B-model dat op een Mac Studio draait, bewijst dat het concept werkt op hogere capaciteitsniveaus.
Hoe Gemma 4 Zich Verhoudt Tot Qwen 3.5 en Llama 4
Ik kan deze review niet schrijven zonder het competitieve landschap direct aan te pakken. De open-source AI-ruimte in april 2026 heeft drie grote kanshebbers, en de keuze ertussen hangt volledig af van wat je bouwt.
| Dimensie | Gemma 4 (31B/26B) | Qwen 3.5 (27B) | Llama 4 Scout |
|---|---|---|---|
| Licentie | Apache 2.0 | Apache 2.0 | Meta Community (700M MAU-cap) |
| Contextvenster | 256K tokens | 131K tokens | 10M tokens |
| Token-efficiëntie | ~2,5x minder uitvoertokens | Basislijn | Varieert |
| Wiskunde (AIME) | 89,2% | Hoger | Lager |
| Arena-rangschikking | #3 open model | #1 open model | Varieert per taak |
| Meertalig | 140+ talen | 201 talen | Minder |
| On-Device modellen | Ja (E2B, E4B) | Beperkt | Nee |
| Lokale inferentiesnelheid | Uitstekend (MoE) | Goed | Contextafhankelijk |
Kies Gemma 4 wanneer: Je lokale inferentiesnelheid, on-device deployment of maximale token-efficiëntie nodig hebt. De snelheid-kwaliteitsverhouding van het 26B MoE-model is ongeëvenaard. Als je agentische pipeline veel aanroepen ketent en je per token betaalt, stapelt het 2,5x efficiëntievoordeel op tot echt bespaarde kosten.
Kies Qwen 3.5 wanneer: Ruwe intelligentie per parameter je prioriteit is. Qwen wint op algemene redenering, meertalige taken en de totale intelligence index. Als je een model nodig hebt dat nieuwe, onvoorspelbare problemen aanpakt — het soort taken dat niet netjes mapt op trainingsdata — heeft Qwen momenteel de voorsprong.
Kies Llama 4 Scout wanneer: Contextlengte niet onderhandelbaar is. Dat 10-miljoen-token-contextvenster zit in een ander universum dan Gemma 4's 256K. Als je complete codebases, boeklange documenten of enorme datasets in één keer verwerkt, is Llama 4 de enige optie.
Het licentieverschil is ook van belang. Zowel Gemma 4 als Qwen 3.5 gebruiken Apache 2.0 — volledige commerciële vrijheid zonder beperkingen. Llama 4's community-licentie introduceert een drempel van 700 miljoen maandelijks actieve gebruikers die 99% van de ontwikkelaars niet raakt, maar een echte beperking wordt als je iets bouwt dat viraal schaalt.
Mijn eerlijke mening: Gemma 4 onttroont Qwen 3.5 niet als het algeheel beste open model. Maar dat hoeft ook niet. De kracht zit in het efficiëntieverhaal — 80-90% doen van wat Qwen doet terwijl het 2,5x minder tokens gebruikt en sneller draait op consumentenhardware. Voor specifieke use cases is die afweging de juiste.
Toegang Tot Gemma 4 — Elke Optie Die Nu Beschikbaar Is
Je handen op deze modellen leggen is makkelijker dan bij elke vorige Gemma-release. Google gaf deze keer duidelijk prioriteit aan toegankelijkheid.
Google AI Studio — Gratis. Geen creditcard nodig. Je kunt alle vier de modellen direct in de browser testen met multimodale invoer. Dit is de snelste manier om het uit te proberen. Google biedt $25 aan gratis API-credits voor ontwikkelaars die verder willen gaan dan de playground.
Ollama — Dag-één-ondersteuning. Draai ollama pull gemma4:26b of ollama pull gemma4:31b en je draait lokaal in minder dan een minuut (na de download). Voor de edge-modellen: ollama pull gemma4:e2b en ollama pull gemma4:e4b.
Hugging Face — Volledige modelgewichten beschikbaar voor download. Alle kwantisatievarianten. Community fine-tunes verschijnen al.
LM Studio — Point-and-click lokale deployment voor iedereen die geen terminal wil aanraken.
Kaggle — Notebooks en modelkaarten met voorbeeldimplementaties.
API via Googles Gemini API — Voor productiedeployments. De prijs ligt op ongeveer $0,14 per miljoen invoertokens en $0,40 per miljoen uitvoertokens bij routering via Gemma 4 op Vertex AI. Dat is absurd goedkoop vergeleken met frontier gesloten modellen.
OpenRouter — API-toegang van derden met gestandaardiseerde endpoints. Goed als je al OpenRouter gebruikt voor andere modellen en een uniforme facturatie-setup wilt.
Kilo CLI — Het vermelden waard specifiek voor agentische workflows. De Kilo-harness is geoptimaliseerd voor toolgebruik en agent loops, en meerdere ontwikkelaars in de community hebben het aangemerkt als de beste ervaring voor de agentische mogelijkheden van Gemma 4 specifiek.
Voor lokale deployment lijkt de kwantisatie-sweet-spot Q4_K_M te zijn voor het 26B-model — het behoudt het meeste van de kwaliteit terwijl het comfortabel past op machines met 16GB+ unified memory. Het 31B dense-model heeft meer ruimte nodig — minimaal 24GB voor comfortabele inferentie, en je wilt 32GB+ als je lange contextprompts pusht.
Waar Niemand Over Praat — De On-Device AI-Verschuiving
De meeste berichtgeving over Gemma 4 focust op de benchmarkscores van het 31B-model. Terecht — die cijfers zijn goed, en benchmarks genereren koppen. Maar ik denk dat het meest consequentiële deel van deze release is wat er onderaan het modelaanbod gebeurt.
De E2B- en E4B-modellen vertegenwoordigen iets waar ik al maanden naar kijk: het moment waarop werkelijk nuttige AI stopt met het vereisen van een internetverbinding.
Googles Android AICore Developer Preview laat app-ontwikkelaars Gemma 4's edge-modellen direct op ondersteunde apparaten draaien. Niet via een cloud-API die doet alsof het on-device is. Werkelijk op het silicium in de telefoon. De modellen ondersteunen multimodaal redeneren — ze kunnen afbeeldingen analyseren, audio verwerken en inzichten over modaliteiten combineren. Op een telefoon.
De privacy-implicaties zijn onmiddellijk en duidelijk. Medische apps die afbeeldingen analyseren zonder ze te uploaden. Documentverwerking die nooit het apparaat verlaat. Persoonlijke assistenten die je context begrijpen zonder je data naar een datacenter te verschepen. Voor markten met strenge eisen voor dataresidentie — gezondheidszorg, financiën, overheid — is dit geen gemaksfunctie. Het is een compliance-vereiste die op modelniveau wordt opgelost.
De prestatie-implicaties zijn even interessant. Geen netwerklatentie. Geen API-rate limits. Geen serviceonderbrekingen. Het model is er wanneer je het nodig hebt, draaiend op hardware die je al bezit. Voor agentische workflows die meerdere snelle inferentie-aanroepen moeten ketenen, transformeert het elimineren van de netwerkrondtrip voor elke aanroep wat architecturaal mogelijk is.
Ik bouw voornamelijk met in de cloud gehoste modellen — Claude, GPT, Gemini via API's. En dat zal ik blijven doen, omdat frontier-modellen complexe taken nog steeds beter afhandelen dan wat lokaal draait. Maar Gemma 4's edge-modellen vertegenwoordigen het begin van een geloofwaardig alternatief voor een aanzienlijke categorie taken. Eenvoudig toolgebruik. Gestructureerde data-extractie. Beeldanalyse. Meerstaps-redenering over beperkte problemen. Die hebben geen biljoen-parameter cloudmodel nodig. Ze hebben iets nodig dat snel, privé en goed genoeg is.
De toekomst is niet cloud OF lokaal. Het is een routeringslaag die eenvoudige taken naar je lokale Gemma 4-instantie stuurt en complexe taken naar Claude of GPT via de API. Gemma 4 maakt die architectuur voor het eerst levensvatbaar met modellen die werkelijk goed genoeg zijn om met echt werk te vertrouwen.
De Eerlijke Beoordeling — Waar Gemma 4 Tekortschiet
Ik heb het grootste deel van dit artikel besteed aan het belichten van echte sterke punten, dus laat me direct zijn over de zwaktes. Je verdient het om deze te kennen voordat je je aan Gemma 4 verbindt voor een serieus project.
Creatief generatieplafond. Bij taken die echte nieuwheid vereisen — natuurkundesimulaties, complexe spelmechanica, creatieve SVG-animaties — scoort Gemma 4 consequent lager dan Qwen 3.5 en 3.6. Het verschil is niet enorm, maar het is consistent. Als je werk vereist dat modellen in onbekend terrein worden geduwd, raak je dit plafond.
Het intelligence index-verschil. Een score van 31 versus Qwen's 42 op de holistische intelligence index vertaalt zich naar merkbare verschillen bij samengestelde redeneertaken. Wanneer een taak vereist dat het model vijf of zes redeneerstappen ketent waarbij elke stap afhangt van het correct krijgen van de vorige, laat Gemma 4 vaker steken vallen. Niet vaak — maar vaak genoeg dat je het opmerkt in agentische pipelines die honderden taken draaien.
Multimodale mogelijkheden zijn sterk maar niet best-in-class. De visiemogelijkheden handelen standaardtaken goed af — screenshots analyseren, tekst uit afbeeldingen extraheren, visuele inhoud beschrijven. Maar bij taken die diep visueel redeneren vereisen — complexe diagrammen begrijpen, ambigue visuele lay-outs interpreteren, inzichten synthetiseren over meerdere afbeeldingen heen — vond ik de uitvoer minder betrouwbaar dan wat ik krijg van Gemini 3 Pro of Claude Opus via hun native vision-API's.
De edge-modellen zijn beperkt. De E2B- en E4B-modellen zijn indrukwekkend voor hun grootte, maar het zijn nog steeds kleine modellen. Verwachten dat ze complexe agentische workflows afhandelen op de manier waarop het 31B-model dat doet, leidt tot frustratie. Ze zijn het best geschikt voor specifieke, goed afgebakende taken — niet voor open redenering.
Documentatie en ecosysteemrijpheid. Het is 3 april 2026 — Gemma 4 is één dag openbaar. De community-tooling, fine-tunes en best practices hebben nog geen tijd gehad om zich te ontwikkelen. Als je op zoek bent naar productieklare recepten en beproefde configuraties, moet je geduldig zijn of je eigen bouwen.
Geen van deze zijn dealbreakers. Elk model heeft zwaktes. De vraag is of de zwaktes overlappen met jouw specifieke use case — en voor veel ontwikkelaars zullen ze dat niet doen.
Wat Ik Werkelijk Ga Doen Met Gemma 4
Ik schrijf deze reviews niet om modellen op een leaderboard te rangschikken. Ik schrijf ze om uit te zoeken welke tools een permanente plek in mijn workflow verdienen en welke interessant-maar-niet-voor-mij zijn.
Hier is waar Gemma 4 voor mij landt:
Het 26B MoE-model gaat onmiddellijk in mijn lokale inferentie-setup. De snelheid-kwaliteitsverhouding voor prototyping, snelle codegeneratie en gestructureerde data-extractie is de beste die ik heb gezien van een lokaal draaibaar model. Wanneer ik een snel antwoord nodig heb en geen API-credits wil verbranden, is dit mijn standaard.
Het 31B dense-model wordt mijn secundaire optie voor taken die meer redeneerdiepte nodig hebben maar waar ik nog steeds lokaal wil blijven. Complexe codereviews. Multi-bestandsrefactorsuggesties. Lange-context-analyse van complete repositories. Alles waar ik kwaliteit wil maar ook privacy.
Het E4B-model gaat op mijn testlijst voor een mobiel project dat ik heb gepland — een on-device documentanalysetool. Als het betrouwbaar documentinhoud kan extraheren en erover kan redeneren zonder cloudconnectiviteit, lost dat een echt productvereiste op waarmee ik heb geworsteld.
Voor mijn primaire agentische codeerworkflows — de complexe, meerstaps-agentpipelines die beoordelingen moeten maken en onverwachte situaties moeten afhandelen — blijf ik bij Claude Opus en Qwen 3.6 Plus. Die modellen handelen de moeilijke dingen nog steeds beter af. Maar Gemma 4 heeft net verminderd hoe vaak ik ze nodig heb.
Het efficiëntieverhaal is echt. Het lokale deploymentverhaal is echt. De agentische mogelijkheden zijn oprecht goed, geen marketingclaims die voorbij de werkelijkheid zijn opgerekt. Googles open-source AI-inspanning heeft eindelijk iets geproduceerd dat verandert hoe ik werk, niet alleen hoe ik over benchmarks denk.
Een jaar geleden zou ik je hebben gezegd Gemma te negeren en je te richten op Llama of Qwen voor open-source AI-werk. Vandaag zou ik je zeggen het 26B-model te testen op je eigen hardware voordat je die afweging maakt. Je zou wel eens verrast kunnen zijn door wat 3,8 miljard actieve parameters kunnen doen wanneer het de juiste 3,8 miljard zijn.
Veelgestelde Vragen
Kan Gemma 4 draaien op een Mac Mini of MacBook Pro?
Het 26B MoE-model draait goed op Apple Silicon-machines met 16GB+ unified memory bij Q4_K_M-kwantisatie via Ollama of LM Studio. Het 31B dense-model heeft minimaal 24GB nodig. Edge-modellen (E2B, E4B) draaien op vrijwel elke moderne hardware.
Is Gemma 4 echt gratis voor commercieel gebruik?
Ja. Alle vier de modellen worden geleverd onder Apache 2.0 — de meest permissieve open-source licentie die beschikbaar is. Geen limieten op maandelijks actieve gebruikers, geen acceptabel-gebruiksbeperkingen, volledige vrijheid voor commerciële en soevereine deployments. Zie de vergelijkende analyse hierboven voor de volledige licentievergelijking.
Hoe verhoudt Gemma 4 zich tot Qwen 3.5 voor codering?
Gemma 4 31B scoort 80% op LiveCodeBench v6 en genereert schone, goed gestructureerde code. Qwen 3.5 scoort hoger op algemene intelligentiemetrieken en handelt creatief probleemoplossend beter af. Gemma 4's voordeel is token-efficiëntie — het gebruikt ruwweg 2,5x minder tokens voor vergelijkbare taken, wat het aanzienlijk goedkoper maakt voor codeerworkflows met hoog volume.
Wat is de beste manier om nu toegang te krijgen tot Gemma 4?
Google AI Studio biedt gratis browser-gebaseerd testen met $25 aan API-credits. Voor lokaal gebruik biedt Ollama dag-één-ondersteuning — draai gewoon ollama pull gemma4:26b. Productie-API-toegang via Vertex AI kost ongeveer $0,14 per miljoen invoertokens. Zie de volledige toegangsgids hierboven voor elke beschikbare optie.
Moet ik overstappen van Llama 4 naar Gemma 4?
Het hangt af van je contextvensterbehoeften. Llama 4 Scout biedt 10 miljoen tokens aan context — ruwweg 40x meer dan Gemma 4's 256K. Als je enorme documenten of complete codebases in één keer verwerkt, blijft Llama 4 de betere keuze. Voor al het andere — snelheid, efficiëntie, licentievrijheid, on-device deployment — is Gemma 4 de sterkere optie.
Laten We Samenwerken
Op zoek naar het bouwen van AI-systemen, het automatiseren van workflows of het opschalen van je tech-infrastructuur? Ik help graag.
- Fiverr (maatwerk builds & integraties): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (enterprise-oplossingen): ramlit.com
- ColorPark (design & branding): colorpark.io
- xCyberSecurity (beveiligingsdiensten): xcybersecurity.io