Gemma 4: Gratis AI op je laptop en telefoon
Ik betaalde $200 per maand aan AI-abonnementen. Claude Pro. ChatGPT Plus. Een handvol API-credits die sneller verdwenen dan ik ze kon bijhouden. Toen bracht Google vier open-source modellen uit die draaien op hardware die ik al bezit — geen internetverbinding nodig, geen maandelijkse kosten, geen data die mijn apparaat verlaat. En één daarvan loste een calculusprobleem op vanaf een foto van mijn whiteboard.
Dat model is Gemma 4. En wat me blijft verbazen, is niet de wiskunde. Het is dat ik alles in minder dan tien minuten had opgezet, op een laptop, en dat het de rest van de middag offline werkte terwijl mijn wifi eruit lag door een storing bij de provider. Elke prompt. Elk antwoord. Elke beeldanalyse. Alles draaide op lokale hardware, zonder ook maar één API-token te verbranden.
Ik heb het afgelopen jaar veel open-source modellen getest. Bij de meeste voelt het alsof je een compromis sluit — je krijgt “gratis”, maar je levert in op kwaliteit, snelheid, of allebei. Gemma 4 is de eerste keer dat dat compromis echt klein aanvoelde. Klein genoeg dat ik voor bepaalde workflows helemaal niet meer naar de betaalde modellen grijp.
Hier vind je alles wat ik ontdekte na een week werken met Gemma 4 op mijn laptop en telefoon — het installatieproces, de echte mogelijkheden, de momenten waarop het me echt verraste, en de situaties waarin Claude en ChatGPT hun abonnementsgeld nog steeds waard zijn.
Waarom Dit Model Nu Belangrijk Is — En Wie Hierom Zou Moeten Geven
De AI-wereld kampt met een groeiend probleem waar niemand in Silicon Valley eerlijk over wil praten: kosten en afhankelijkheid. Elke keer dat je een prompt naar Claude of ChatGPT stuurt, reist jouw data naar de servers van iemand anders. Elke maand verschijnt er weer een nieuw abonnement op je creditcardafschrift. En als de API uitvalt — wat vaker gebeurt dan de statuspagina’s toegeven — ligt je workflow volledig stil.
Google bracht Gemma 4 uit op 2 april 2026, onder een Apache 2.0-licentie. Dat is niet “gratis met kleine lettertjes.” Dat is écht open — commercieel gebruiken, aanpassen, inzetten zoals jij wilt. De modellen zijn gebaseerd op hetzelfde onderzoek als achter Gemini 3, het vlaggenschip van Google, maar dan verpakt om te draaien op consumentenhardware in plaats van datacenter-GPU’s.
De line-up omvat vier modelgroottes, elk gericht op andere hardware:
| Model | Parameters | Context Window | Doelapparaat | Benodigde opslag |
|---|---|---|---|---|
| E2B | 2B | 128K tokens | Smartphones | Minder dan 1,5 GB |
| E4B | 4B | 128K tokens | Telefoons, tablets | ~3 GB |
| 26B MoE | 26B (3,8B actief) | 256K tokens | Laptops, desktops | ~18 GB |
| 31B Dense | 31B | 256K tokens | Desktops, high-end laptops | ~20 GB |
Dat getal “3,8B actief” bij het 26B-model is de belangrijkste ontdekking. De 26B-variant van Gemma 4 gebruikt een Mixture of Experts-architectuur — 26 miljard totale parameters, maar slechts 3,8 miljard worden geactiveerd bij een enkele inferentie. Het praktische resultaat? Een model dat snel draait op een MacBook en prestaties levert die ver boven het verwachte niveau van 3,8 miljard actieve parameters uitstijgen.
Of je nu een ontwikkelaar bent die Claude Code of ChatGPT gebruikt voor programmeerhulp, een student die AI inzet voor onderzoek, een privacybewuste professional die niet wil dat gevoelige documenten op cloudservers belanden, of gewoon iemand die het zat is om $20 per maand te betalen voor iets dat lokaal kan draaien — dit is relevant voor jou.
Maar de specificaties zijn slechts het voorgerecht. Wat ik je eigenlijk wil laten zien, is wat er gebeurt als je dit model installeert en er echt werk mee gaat doen.
Gemma 4 op een laptop installeren — Sneller dan je denkt
Ik verwachtte dat de installatie een ramp zou zijn. Lokale AI staat bekend als een weekendproject: afhankelijkheden downloaden, worstelen met Python-omgevingen, CUDA-drivers configureren. Gemma 4 veegde die aanname direct van tafel.
Stap 1: Download LM Studio
Ga naar lmstudio.ai en download de installer voor jouw platform. Het werkt op Mac, Windows en Linux. De app is een overzichtelijke desktopinterface die modelbeheer, inferentie en een chat-UI regelt — zie het als de “Spotify voor lokale AI-modellen”.
De installatie duurde bij mij ongeveer negentig seconden. Geen terminalcommando’s. Geen pip-installs. Gewoon een standaard applicatie-installer.
Stap 2: Zoek en download Gemma 4
Open LM Studio en zoek in de modelbrowser naar “Gemma 4”. Je ziet meerdere quantisatie-opties. Kies de juiste op basis van je hardware:
- 16GB RAM (M-serie Mac of degelijke Windows-laptop): Kies de
Gemma-4-27B-Q4_K_Mquantized versie. Deze is ongeveer 16-18 GB groot en draait met circa 15-20 tokens per seconde op een M2 Pro. Snel genoeg voor echte gesprekken zonder frustrerende pauzes. - 8GB RAM: Ga voor het E4B-model. Past comfortabel en kan nog steeds multimodale taken aan — afbeeldingen, PDF’s, codegeneratie.
- 32GB+ RAM of dedicated GPU: Je kunt het volledige 31B dense model draaien. Dit is het krachtpakket — derde plek op het Arena AI-leaderboard met een score van 1452.
Het downloaden duurt even, afhankelijk van je verbinding. Het 26B-model is ongeveer 18 GB. Ik startte de download, zette koffie, en kwam terug bij een gebruiksklare AI.
Stap 3: Laad het model en begin met prompten
Klik in LM Studio op het model, druk op “Load” en je kunt chatten. De interface is vertrouwd — een chatvenster waar je prompts typt en antwoorden krijgt. Maar hier is het verschil met browsergebaseerde AI: dat antwoord wordt volledig door de processor van jouw machine gegenereerd. Geen internet nodig. Geen tokens die van je tegoed afgaan. Geen data die naar een datacenter in Virginia reist.
Ik testte dit door mijn laptop direct na het laden van het model in vliegtuigmodus te zetten. Elke prompt werkte. Afbeeldingen uploaden werkte. PDF-analyse werkte. Het model belt nergens naartoe.
Stap 4: Probeer multimodale input
Hier voelde Gemma 4 niet langer als een “lokale compromisoplossing”, maar als een volwaardig gereedschap. Ik uploadde een foto van een handgeschreven calculusprobleem — een dubbele integraal met rommelige notatie. Het 26B-model analyseerde de afbeelding, herkende de wiskundige expressies en liep stap voor stap door de oplossing. Het antwoord was correct. De uitleg was duidelijker dan wat ik bij sommige betaalde bijlesdiensten heb gekregen.
Ik voerde ook een PDF van 15 pagina’s in — een technische specificatie voor een API die ik aan het integreren was — en vroeg om een samenvatting volgens het StoryBrand SB7-framework. Het model haalde de kernpunten eruit, ordende ze volgens het framework en leverde een samenvatting die ik zo naar een niet-technische stakeholder kon sturen. Op een laptop. Offline.
Voor iedereen die nieuwsgierig is naar lokale AI maar dacht dat het geen echte multimodale taken aankon — die aanname is nu achterhaald.
Gemma 4 op je telefoon installeren — AI in je broekzak, geen cloud nodig
Dit deel verbaasde me echt. Twee jaar geleden voelde het als sciencefiction om een krachtig AI-model op een smartphone te draaien. Nu is het een kwestie van tien minuten instellen.
Stap 1: Download Google's Edge Gallery-app
Google heeft een speciale app ontwikkeld genaamd AI Edge Gallery (voorheen Edge Gallery), specifiek bedoeld om Gemma-modellen op mobiele apparaten te draaien. De app is beschikbaar voor Android en Google breidt de ondersteuning voor iOS uit. Zoek in je app store naar "Google AI Edge Gallery".
Stap 2: Kies je telefoon-geoptimaliseerde model
De app biedt de E2B (2 miljard parameters) en E4B (4 miljard parameters) modellen. Deze zijn speciaal geoptimaliseerd voor mobiele hardware — ze draaien op de GPU van je telefoon, niet op de CPU, wat zorgt voor aanzienlijk betere prestaties.
- E2B: Minder dan 1,5 GB. Draait op de meeste moderne smartphones. Snel — tot 30 tokens per seconde op recente hardware. Geschikt voor snelle vragen, tekstgeneratie en basale redeneervragen.
- E4B: Ongeveer 3 GB. Vereist een vlaggenschiptelefoon (iPhone 14 Pro of nieuwer, recente Samsung Galaxy, Pixel 7+). Kan beeldanalyse, audioprocessing en complexere redeneervragen aan. Dit model raad ik aan als je telefoon het aankan.
Stap 3: Ga offline en begin direct
Zodra het model is gedownload, kun je je internetverbinding volledig uitschakelen. Het model draait lokaal op het neurale verwerkingshardware van je telefoon. Ik heb het getest tijdens een vlucht zonder wifi — ik vroeg het een foto van een Japans restaurantmenu te analyseren, en het vertaalde elk item met beschrijving. Ik vroeg het te helpen met het opstellen van een e-mailreactie aan een klant. Ik stelde een logisch raadsel. Alles werkte. Alles snel. Alles met vliegtuigmodus aan.
Het contextvenster van de telefoonmodellen is 128K tokens, uitbreidbaar tot 32K tokens voor specifieke toepassingen. Dat is genoeg om een lang document te plakken en er vragen over te stellen. Niet genoeg om een volledige codebase in te voeren — daarvoor zijn de laptopmodellen bedoeld.
Een detail dat het vermelden waard is: de telefoonmodellen tonen hun "denkproces" in realtime. Je kunt het model zien redeneren over een probleem voordat het het definitieve antwoord geeft. Het is niet alleen cosmetisch — het helpt je te begrijpen of het model op het juiste spoor zit voordat het klaar is met genereren.
Wat Gemma 4 Echt Kan — De Echte Tests
Installatiehandleidingen zijn leuk, maar wat telt is of het systeem werkt als je er echte problemen aan voorlegt. Ik heb een week lang Gemma 4 getest op zes verschillende use-cases, waarbij ik de resultaten waar relevant vergeleek met Claude en ChatGPT.
Logisch Redeneren en Wiskunde
Ik begon met redeneerpuzzels — het soort waar zwakkere modellen vaak op vastlopen. Een klassieker: "Als 5 machines 5 minuten nodig hebben om 5 widgets te maken, hoe lang doen 100 machines er dan over om 100 widgets te maken?"
Gemma 4 had het meteen goed. Vijf minuten. Belangrijker nog: het legde de redenering helder uit — elke machine maakt één widget in vijf minuten, dus 100 machines maken 100 widgets in dezelfde vijf minuten. De stapsgewijze uitleg was echt goed gestructureerd, geen warrige chain-of-thought die het antwoord verbergt.
Daarna schakelde ik op naar moeilijkere problemen. Een meervoudige integraal uit de calculus, overgenomen van een gefotografeerd whiteboard. Gemma 4 26B las het handschrift, zette de integraal correct op en loste hem op met de juiste notatie. Niet elk probleem ging perfect — een bijzonder lastige drievoudige integraal met een variabelenwissel was te veel — maar bij ongeveer 80% van de wiskundeproblemen die ik voorlegde, waren de antwoorden correct en de uitleg duidelijk.
Ter vergelijking: Claude Sonnet lost deze problemen iets consistenter op, met een nauwkeurigheid van ongeveer 90% bij vergelijkbare moeilijkheid. Maar Claude kost geld per prompt, terwijl Gemma 4 deze taken uitvoerde terwijl mijn laptop offline was in een koffiezaak.
Codegeneratie — Hier Wordt Het Interessant
Ik vroeg Gemma 4 om drie dingen te bouwen: een visualisatie van een dubbele slinger, een snake-game, en een landingspagina met hero-sectie, prijskaarten en een testimonial-carrousel.
Dubbele slinger: Gemma 4 leverde een visualisatie die fysiek realistischer was dan wat ik van Claude kreeg op dezelfde prompt. De bewegingen van de slinger zagen er natuurlijk uit — correcte energiebehoud, realistische demping. Claude’s versie werkte, maar de beweging was wat houterig. Punt voor het gratis model.
Snake-game: Claude won deze ronde. Zijn one-shot output was een nette, speelbare game met soepele besturing en een scoreteller. Gemma 4’s versie had een renderbug waarbij de staartsegmenten van de slang niet goed werden gewist. Een vervolgpunt was nodig om dit te fixen. Na de fix speelbaar, maar Claude had het in één keer goed.
Landingspagina: ChatGPT leverde hier het meest gepolijste resultaat — betere typografie, samenhangender kleurenschema, soepelere animaties. Gemma 4’s landingspagina was functioneel en zag er prima uit, maar miste de designafwerking van ChatGPT. Claude zat daar tussenin. Voor een gratis, lokaal draaiend model is Gemma 4’s weboutput indrukwekkend. Voor een klantproject zou ik toch voor een betaald model kiezen.
Het patroon bij codegeneratie was consistent: Gemma 4 levert goede tot zeer goede eerste versies die soms een extra prompt nodig hebben. Betaalde modellen leveren net wat betrouwbaardere eerste pogingen. De vraag is of dat verschil $20-200/maand waard is voor jouw specifieke toepassing.
PDF-samenvatting en Documentanalyse
Ik voerde het 26B-model een technisch whitepaper van 22 pagina’s over microservices-architectuurpatronen. Ik vroeg om een samenvatting volgens het StoryBrand SB7-framework (een storytelling-structuur rond een karakter, probleem, gids, plan, call-to-action, succes en falen).
De samenvatting was verrassend goed gestructureerd. Het model identificeerde het "karakter" als een developmentteam, het "probleem" als het opschalen van monolithische applicaties, en de "gids" als de architectuurpatronen uit het paper. Het plan-gedeelte bevatte concrete implementatiestappen direct uit het document. Dit was geen generieke samenvatting — het toonde echt begrip van de bron.
Waar het minder goed ging: zeer lange documenten (50+ pagina’s) liepen tegen contextlimieten aan, zelfs met het 256K token window, omdat de aandacht van het model afneemt richting het einde van extreem lange contexten. Voor documenten onder de 30 pagina’s was de samenvattingskwaliteit echter zo sterk dat ik Gemma 4 standaard ben gaan gebruiken als PDF-analyzer bij offline werk.
Beeldanalyse — De Onverwachte Troef
Deze verraste me. Ik nam een foto van een LEGO-doos en vroeg Gemma 4 om deze te identificeren en de winkelprijs te schatten. Het model herkende de set correct (LEGO Technic McLaren P1), noemde het geschatte aantal stukjes en schatte de prijs tot op $15 van de werkelijke waarde. Het merkte zelfs op dat de set tot de Technic-lijn behoort en doorgaans boven de winkelprijs wordt verkocht op de tweedehandsmarkt.
Ik testte met meer beelden: foto’s van printplaten (herkende componenten en suggereerde mogelijke defecten), handgeschreven notulen (getranscribeerd en omgezet in actiepunten), en een screenshot van een foutlog (herkende de oorzaak en stelde een oplossing voor).
De multimodale capaciteit in 140 talen laat zien waar Gemma 4’s training in uitblinkt. Het model las een Japans restaurantmenu, een Frans wijnetiket en een Duits technisch handboek — allemaal van foto’s, allemaal zonder internetverbinding. Voor wie reist of werkt met meertalige documenten, kan dit alleen al de benodigde schijfruimte rechtvaardigen.
Audioprocessing
De E2B- en E4B-modellen ondersteunen native audio-input — je kunt tegen het model praten of audiobestanden invoeren. Ik testte met een opgenomen vergadering van ongeveer drie minuten en vroeg om een samenvatting met actiepunten. De transcriptie was accuraat bij duidelijke spraak, had moeite met zware accenten en door elkaar pratende stemmen (zoals de meeste spraak-naar-tekst-systemen), en de samenvatting van de getranscribeerde inhoud was solide.
Dit zal Whisper of gespecialiseerde transcriptietools niet vervangen voor productieprocessen. Maar voor snelle on-device audioanalyse — het samenvatten van spraakmemo’s, het destilleren van kernpunten uit opgenomen colleges — is het een echt nuttige toevoeging die werkt zonder dat je audio naar een server hoeft te sturen.
Agentische Workflows — De Meest Over het Hoofd Geziene Feature
Gemma 4 ondersteunt wat Google "agent skills" noemt — modulaire taakdefinities waarmee het model zelfstandig meerstapsworkflows kan uitvoeren. Het model ondersteunt native function-calling, gestructureerde JSON-output en systeeminstructies, zodat je agents kunt bouwen die met lokale tools en API’s werken.
Ik testte een eenvoudige agentische workflow: "Lees dit CSV-bestand, identificeer de top 5 klanten op basis van omzet, schrijf een gepersonaliseerde follow-up e-mail voor elk, en sla ze op als aparte tekstbestanden." Het 26B-model voerde dit correct uit via de tool-use-interface van LM Studio. Het las de CSV, analyseerde de data, genereerde vijf unieke e-mails (geen copy-paste sjablonen — echt gepersonaliseerd op basis van klantdata), en structureerde de output voor het opslaan van bestanden.
Is dit net zo krachtig als het agentische systeem van Claude Code? Nee. Claude’s toolgebruik is volwassener, kan beter omgaan met randgevallen en herstelt soepeler als er iets misgaat tijdens de workflow. Maar de agentische mogelijkheden van Gemma 4, lokaal draaiend — zonder API-kosten en zonder dat data je machine verlaat — openen toepassingen voor gevoelige data die je nooit naar een cloud-API zou willen sturen. Financiële gegevens. Medische informatie. Juridische documenten. Bedrijfseigen data.
Dat is de echte doorbraak hier, en daar kom ik later op terug.
De Eerlijke Vergelijking — Waar Gemma 4 Wint en Waar Niet
Ik schrijf al lang genoeg over AI-modellen om argwanend te zijn tegenover iedereen die beweert dat een gratis tool “net zo goed” is als een betaalde, op elk vlak. Dat is zelden waar, en hier ook niet. Maar het plaatje is genuanceerder dan je misschien verwacht.
Waar Gemma 4 Echt Wint
Snelheid van lokale uitvoering. Op geschikte hardware reageert Gemma 4 sneller dan wachten op een cloud-API-ronde. Het 26B MoE-model met 3,8 miljard actieve parameters genereert ongeveer 15-20 tokens per seconde op een M2 Pro. Dat is niet razendsnel, maar wel consistent — geen latency-pieken, geen “server is busy”-fouten op drukke momenten, geen wachtrijen.
Privacy. Dit is geen marketingpraatje — het is een fundamenteel architecturaal verschil. Je data verlaat je apparaat nooit. Voor iedereen die werkt met gevoelige informatie — gezondheidsdata, financiële gegevens, juridische documenten, eigen code — verdwijnt hiermee een hele categorie risico’s. Geen wijzigingen in de gebruiksvoorwaarden. Geen datalekken op andermans servers. Geen onzekerheid of je prompts worden gebruikt voor training.
Kosten. Nul. Voor altijd. De Apache 2.0-licentie betekent geen gebruikskosten, geen token-telling, geen onverwachte rekeningen. Als je nu $20/maand uitgeeft aan ChatGPT Plus en je belangrijkste gebruikstoepassingen zijn redeneren, documentanalyse en basis codegeneratie, dan kan Gemma 4 dat allemaal zonder abonnement aan.
Offline werken. Dit klinkt als een nichevoordeel tot je internet uitvalt, of je in het vliegtuig zit, of werkt op een plek met slechte verbinding. Ik heb productieve uren verloren aan API-storingen en haperende hotel-wifi. Gemma 4 geeft niets om je verbindingsstatus.
Meertalige ondersteuning. 140 talen direct uit de doos. Ik heb getest met vijf talen, zowel tekst als beeld. De kwaliteit was sterk voor grote talen (Engels, Japans, Frans, Duits, Spaans) en bruikbaar voor minder gangbare talen. De meeste betaalde modellen ondersteunen minder talen en minder consistent.
Waar Betaalde Modellen Nog Steeds Winnen
Betrouwbaarheid bij complexe taken in één poging. Claude en ChatGPT leveren vaker direct correcte, gepolijste output bij complexe codegeneratie. Gemma 4 heeft soms een correctieronde nodig. Als je workflow afhankelijk is van one-shot nauwkeurigheid — als je per uur factureert en geen iteratierondes kunt veroorloven — besparen betaalde modellen tijd.
Ontwerpkwaliteit bij webgeneratie. Door ChatGPT gegenereerde webpagina’s zien er professioneler uit. De output van Gemma 4 is functioneel en degelijk, maar haalt het niet bij de visuele afwerking van betaalde modellen voor klantgerichte projecten.
Diepe agentische mogelijkheden. Claude Code’s agentsysteem verwerkt complexere meerstaps-workflows met betere foutafhandeling. De agentische functies van Gemma 4 zijn indrukwekkend voor een open-source model, maar lopen nog achter bij het afhandelen van edge cases en het behouden van context over lange toolgebruik-ketens.
Kwaliteit bij zeer lange context. Hoewel Gemma 4 contextvensters tot 256K tokens biedt, haalt de aandacht bij zeer lange input het niet bij wat Claude Opus levert met zijn 1M context. Voor workflows als “voer je hele codebase in” behouden betaalde modellen betere samenhang op extreme lengtes.
Wil je liever dat iemand een lokale AI-setup bouwt die is afgestemd op jouw workflow? Ik neem maatwerk AI-integratieprojecten aan. Bekijk wat ik gebouwd heb op fiverr.com/s/EgxYmWD.
De Conclusie Waar Ik Steeds Op Terugkom
Gemma 4 is geen vervanging voor Claude of ChatGPT in elk scenario. Het is een vervanging voor misschien 60-70% van wat de meeste mensen met betaalde AI doen — en dat doet het verrassend goed, zonder kosten en met behoud van je privacy.
De echte verschuiving draait niet om gelijke mogelijkheden. Het gaat om het besef dat lokale AI een drempel heeft overschreden. Twee jaar geleden betekende AI draaien op een laptop waardeloze output of slakkengang. Een jaar geleden was het acceptabel voor simpele taken. Vandaag, met Gemma 4, betekent het echt bruikbare multimodale AI die redeneert, codeert, documenten, afbeeldingen en audio verwerkt — op een telefoon.
Die ontwikkeling is belangrijker dan welk benchmarkcijfer dan ook.
Wat de Meeste Mensen Fout Doen over "Gratis" AI
Er is een misvatting die ik steeds weer zie op fora en in commentsecties: "Als het gratis is, moet het wel slechter zijn." Jarenlang was dat inderdaad zo. Open-source modellen liepen maanden of zelfs jaren achter op de propriëtaire varianten. Je gebruikte ze omdat je het alternatief niet kon betalen, niet omdat ze competitief waren.
Gemma 4 doorbreekt dat patroon op een specifieke, meetbare manier. Het 31B dense model scoort 85,2% op MMLU Pro en 89,2% op AIME 2026 — de benchmark voor wiskundige competities die echt wiskundig redeneren onderscheidt van patroonherkenning. Volgens Google's officiële modelkaart staat de 31B momenteel wereldwijd op de derde plaats onder alle open modellen op het Arena AI leaderboard. De 26B MoE staat zesde, terwijl er per inferentie slechts 3,8 miljard parameters worden geactiveerd.
Dat zijn geen "goed voor een gratis model"-cijfers. Dat zijn cijfers die "concurreren met modellen waarvoor je moet betalen".
Maar hier zit de nuance die eerlijke berichtgeving vereist: op de intelligentie-index die ik bijhoud over verschillende modellen, scoort Gemma 4 31B een 31 tegenover Qwen 3.5's score van 42. Dat verschil zie je terug bij holistische redeneertaken — de soort uitdagingen waarbij het model iets moet uitvinden waarvoor het niet specifiek getraind is. Voor gestructureerde, duidelijk gedefinieerde taken (samenvatten, vertalen, bekende wiskundige bewerkingen, standaard codegeneratie) presteert Gemma 4 gelijk aan of beter dan betaalde alternatieven. Voor nieuwe, ambigue problemen die creatieve sprongen vereisen, hebben de betaalde modellen nog steeds een voorsprong.
De praktische les: kies het juiste model voor de juiste taak. Gebruik Gemma 4 voor de 70% van je AI-gebruik die draait om duidelijk gedefinieerde problemen, documentverwerking, standaard codering en multimodale analyse. Bewaar je betaalde modelabonnement voor de 30% die grensverleggend redeneren vereist.
Die verdeling alleen al kan je AI-kosten meer dan halveren.
Vijf Dingen Die Ik Anders Zou Doen Als Ik Opnieuw Zou Beginnen
Na een week testen, dit is wat ik graag op dag één had willen weten:
1. Begin met de 26B MoE, niet de 31B. Ik koos aanvankelijk voor het grootste model, in de veronderstelling dat groter beter is. Voor de meeste taken levert de 26B MoE echter 90% van de kwaliteit tegen een aanzienlijk snellere inference-snelheid dankzij de sparse activatie. Het 31B dense model is de moeite waard voor complexe redeneer- en codeertaken — maar voor dagelijks gebruik is de 26B de betere standaardkeuze.
2. Sla de telefoonmodellen niet over. Ik beschouwde de mobiele setup als een gimmick. Fout. Krachtige AI offline beschikbaar hebben op mijn telefoon is een van die tools waarvan ik niet wist dat ik ze nodig had, tot ik ze had. Snel vertalen tijdens het reizen. E-mailantwoorden opstellen tijdens het forenzen. Foto’s analyseren in het veld. Het E4B-model op een moderne telefoon is verrassend capabel.
3. Stel agentvaardigheden vroeg in. De agentische mogelijkheden van Gemma 4 zijn niet zomaar een feature-vinkje — ze zijn een productiviteitsvermenigvuldiger als je ze goed instelt. Besteed dertig minuten aan het definiëren van 3-4 aangepaste taakmodules (data-analyse, e-mail opstellen, documentensamenvatting) en het model wordt aanzienlijk nuttiger voor terugkerende workflows.
4. Gebruik quantisatie bewust. De Q4_K_M quantisatie biedt de beste balans tussen kwaliteit en snelheid voor het 26B-model op de meeste hardware. Hoger gaan (Q5 of Q6) levert marginaal betere output op, maar met merkbaar tragere prestaties. Lager gaan (Q3) bespaart ruimte, maar zorgt voor duidelijke kwaliteitsverlies bij complexe redeneertaken. Q4_K_M is het ideale compromis voor bijna iedereen.
5. Houd een betaald model als back-up. Gemma 4 verwerkt nu het grootste deel van mijn dagelijkse AI-taken, maar ik heb mijn Claude-abonnement niet opgezegd. Voor complexe agentische codeerworkflows, langetermijnanalyse van volledige repositories en taken waarbij nauwkeurigheid bij de eerste poging cruciaal is, blijven betaalde modellen hun geld waard. Het doel is niet om betaalde AI uit te bannen — maar om te stoppen met betalen voor taken die een lokaal model net zo goed aankan.
Het privacyaspect waar niemand genoeg over praat
Elke discussie over Gemma 4 draait om benchmarks, snelheid en kosten. Maar het gesprek dat ik steeds wil voeren — en dat op de lange termijn misschien wel het belangrijkst is — gaat over datasoevereiniteit.
Wanneer je Claude of ChatGPT gebruikt, reizen je prompts door infrastructuur die je niet zelf beheert. De bedrijven publiceren privacybeleid, en over het algemeen vertrouw ik ze. Maar "vertrouwen" en "zekerheid" zijn niet hetzelfde. Servicevoorwaarden veranderen. Zelfs de meest beveiligingsbewuste bedrijven krijgen te maken met datalekken. Regelgevende omgevingen verschuiven.
Met Gemma 4 die lokaal draait, is de data-architectuur simpel: jouw data blijft op je apparaat. Punt. Er is geen beleid om te lezen, omdat er geen server is die je data ontvangt. Er is geen datalek om je zorgen over te maken, omdat de data je apparaat nooit verlaat. Er is geen vraagstuk over naleving van regelgeving, omdat de verwerking volledig binnen je eigen hardware plaatsvindt.
Voor individuele ontwikkelaars die werken aan propriëtaire code is dit een fijne bijkomstigheid. Voor zorgprofessionals, juridische teams, financieel adviseurs en iedereen die met gereguleerde data werkt — is dit potentieel revolutionair. Het betekent AI-assistentie zonder de compliance-hoofdpijn van cloudgebaseerde verwerking.
Ik heb dit specifiek getest met een gesimuleerd scenario: geanonimiseerde patiëntendossiers (synthetische data) geladen en Gemma 4 gevraagd om patronen te herkennen en een samenvattend rapport te genereren. Het model voerde de taak bekwaam uit. Nog belangrijker: de data raakte nooit een netwerkinterface. In een HIPAA-gereguleerde omgeving elimineert die architectonische eenvoud complete categorieën van compliance-documentatie.
Google heeft Gemma 4 met dit gebruiksscenario in gedachten ontworpen. De on-device verwerking is geen beperking waar ze omheen werken — het is een feature waar ze naartoe bouwen. En naarmate AI-regulering wereldwijd strenger wordt, zullen modellen die lokaal kunnen draaien zonder afhankelijkheid van de cloud steeds waardevoller worden, niet minder.
Wat Gemma 4 Signaleert Over de Richting van AI
Neem even afstand van het specifieke model. Wat Gemma 4 vertegenwoordigt, is interessanter dan wat het doet.
Achttien maanden geleden was het draaien van capabele multimodale AI op een smartphone onmogelijk. Een jaar geleden was het technisch mogelijk, maar praktisch waardeloos — te traag, te beperkt. Vandaag verwerkt een model met 4 miljard parameters op een telefoon beeldanalyse, audioprocessing, codegeneratie en redeneren in 140 talen met 30 tokens per seconde.
Extrapoleer die ontwikkeling. Tegen 2027 zal AI op telefoonniveau waarschijnlijk kunnen wat de huidige laptopmodellen nu doen. In 2028 draait je telefoon mogelijk iets dat gelijkwaardig is aan de huidige frontier-modellen. De cloud zal niet verdwijnen — sommige taken blijven altijd profiteren van enorme rekenkracht — maar de aanname dat AI een internetverbinding en abonnement vereist, brokkelt nu al af.
Voor ontwikkelaars en makers is de implicatie praktisch: begin met het ontwerpen van workflows die niet uitgaan van cloudconnectiviteit. Bouw applicaties die lokaal kunnen functioneren met inference. De gebruikers die hiervan profiteren — zij die offline werken, gevoelige data verwerken of simpelweg abonnementenmoe zijn — vormen een groeiende markt die de meeste AI-applicaties negeren.
Voor bedrijven die $20 per maand rekenen voor AI-toegang, is Gemma 4 een waarschuwingsschot. Geen fatale — betaalde modellen lopen nog steeds voorop qua frontier-capaciteiten. Maar het gat wordt sneller kleiner dan hun prijsmodellen kunnen bijbenen. Het $200/maand Claude Pro-abonnement is logisch als het de enige manier is om kwalitatieve AI-codehulp te krijgen. Het is minder logisch als een gratis, lokaal model 70% van je prompts aankan.
Ik schreef over mijn volledige benchmarktest van de Gemma 4-serie toen het model net uitkwam, met een uitgebreide analyse van de technische architectuur en vergelijkende scores. Wat sindsdien veranderd is, is eenvoudiger: ik gebruik het nu daadwerkelijk. Dagelijks. En de ervaring van Gemma 4 als dagelijkse tool — niet als benchmarkobject — heeft me overtuigd dat de drempel voor lokale AI echt is genomen.
De Ene Vraag Waar Je Even Bij Stil Moet Staan
Ik begon dit artikel met het feit dat ik $200 per maand uitgaf aan AI-abonnementen. Ik zit nu niet op nul — ik gebruik Claude nog steeds voor complex agentwerk en lange codeersessies met veel context. Maar mijn rekening is gedaald naar ongeveer $60 per maand, waarbij Gemma 4 de rest afhandelt.
Dat is niet het interessante deel. Het interessante is dit: over zes maanden, wanneer de volgende Gemma uitkomt, wanneer het open-source ecosysteem lokale modellen nóg verder brengt — wat moeten betaalde modellen dan bieden om hun prijs nog te rechtvaardigen? Alleen snelheid is niet genoeg als lokale modellen snel genoeg zijn. Alleen kwaliteit is niet genoeg als lokale modellen goed genoeg zijn voor de meeste taken. Privacy kan geen extra verkoopargument zijn als het standaard is bij lokale inferentie.
De bedrijven die betaalde AI-modellen bouwen, weten dit. De vraag is of zij hun prijsstelling aanpassen voordat gebruikers zoals ik onze workflows aanpassen en ze minder nodig hebben.
Voor nu zou ik dit aanraden: download LM Studio, haal het Gemma 4 26B-model binnen en besteed een middag aan het draaien van je echte dagelijkse prompts erop. Geen speeltjestests — je echte werk. Je zult misschien verbaasd zijn hoeveel van die prompts nooit je computer hadden hoeven verlaten.
Veelgestelde Vragen
Kan Gemma 4 echt draaien op een smartphone zonder internet?
Ja. De E2B- en E4B-modellen draaien volledig op het apparaat zelf via de GPU van je telefoon, met behulp van de AI Edge Gallery-app van Google. Na het downloaden is er geen internetverbinding meer nodig — het model verwerkt alles lokaal met snelheden tot 30 tokens per seconde op moderne hardware.
Welk Gemma 4-model moet ik als eerste downloaden?
Begin met de 26B MoE-variant als je een laptop hebt met 16GB of meer RAM. Dit model biedt de beste balans tussen snelheid en prestaties, draait op 15-20 tokens per seconde en gebruikt slechts 3,8 miljard actieve parameters per inferentie. Voor telefoons kies je de E4B, mits je toestel deze ondersteunt.
Hoe verhoudt Gemma 4 zich tot ChatGPT en Claude?
Gemma 4 dekt 60-70% van de typische AI-taken met vergelijkbare kwaliteit — redeneren, documentanalyse, codegeneratie, beeldanalyse en vertaling. Betaalde modellen blijven vooroplopen bij complexe agent-workflows, fraai vormgegeven webgeneratie en zeer lange contexttaken. Voor een gedetailleerde benchmarkvergelijking, zie mijn volledige Gemma 4-serie test.
Is Gemma 4 echt gratis voor commercieel gebruik?
Ja. Gemma 4 is uitgebracht onder de Apache 2.0-licentie, die commercieel gebruik, aanpassing en herdistributie zonder kosten toestaat. Er zijn geen gebruikslimieten, geen tokenmetering en geen abonnement vereist.
Welke hardware heb ik nodig om Gemma 4 op mijn laptop te draaien?
Voor het 26B MoE-model heb je ongeveer 18GB opslagruimte en minimaal 16GB RAM nodig (unified memory op Apple Silicon, of VRAM op een dedicated GPU). Een Mac met M-serie en 16GB unified memory draait de Q4_K_M-gekwantiseerde versie probleemloos. Voor het 31B dense model mik je op 32GB of meer RAM en een krachtige GPU.
Laten We Samenwerken
Wil je AI-systemen bouwen, workflows automatiseren of je technische infrastructuur opschalen? Ik help je graag.
- Fiverr (maatwerk & integraties): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (enterprise-oplossingen): ramlit.com
- ColorPark (design & branding): colorpark.io
- xCyberSecurity (beveiligingsdiensten): xcybersecurity.io