AI deze week: GLM-5.2, Fable 5, Diffusion Gemma

Drie dingen belandden binnen ongeveer 72 uur in mijn inbox, en elk ervan brak stilletjes een aanname die ik al maanden met me meedroeg.

Een Chinees lab bracht een contextvenster van een miljoen tokens uit, met gewichten die onder een MIT-licentie komen. Google bracht een taalmodel uit dat geen tekst genereert met één token per keer. En een fabriek voor humanoïde robots in Californië stopte met een render zijn en werd een gebouw met 200 mensen erin. Elk van deze zou de kop zijn van een normale week. Dit wekelijks AI-overzicht is mijn poging om ze allemaal tegelijk te begrijpen — niet als een doorgeefluik voor persberichten, maar als een werkende engineer die uitzoekt welk van deze daadwerkelijk mijn maandag verandert en wat ruis is vermomd als signaal.

Ik zal eerlijk zijn over wat ik heb getest versus wat ik heb gelezen. Sommige releases van deze week kon ik zelf uitproberen. Sommige — zoals de open gewichten van GLM-5.2 — zijn letterlijk nog niet te downloaden terwijl ik dit schrijf. Ik geef elke keer aan wat wat is, want de snelste manier om je vertrouwen te verliezen is doen alsof ik iets heb gebenchmarkt waarvan ik alleen de specificaties heb gelezen. Laten we de week doorlopen zoals ik hem daadwerkelijk verwerkte: in volgorde van hoeveel het mijn denken verschoof.

GLM-5.2 en het 1M-contextvenster dat niemand zag aankomen

Begin met degene die me de aankondiging twee keer deed herlezen.

Op 13 juni 2026 kondigde Z.ai (de Zhipu AI-afsplitsing) GLM-5.2 aan met een bruikbaar contextvenster van een miljoen tokens — een sprong van 5x ten opzichte van de 200K van GLM-5.1. Het woord "bruikbaar" doet echt werk in die zin, en ik kom terug op waarom. Het model ging meteen live voor GLM Coding Plan-gebruikers, met API-toegang, een chatbot, en MIT-gelicentieerde open gewichten die allemaal beloofd zijn voor "volgende week."

Sta even stil bij de licentie. MIT. Geen aangepaste communitylicentie met een omzetclausule. Niet "open gewichten, beperkt commercieel gebruik." MIT — dezelfde permissieve licentie waar je favoriete npm-pakket mee wordt geleverd. Een frontier-nabij model met een venster van een miljoen tokens, gratis te downloaden, aan te passen en commercieel in te zetten, waarbij het lab de trainingskosten draagt. Die regeling bestond achttien maanden geleden niet in open source. Het bestond nauwelijks achttien dagen geleden.

Hier is waarom het contextvenster specifiek uitmaakt, en waarom ik tegelijkertijd voorzichtig ben met het kopgetal. De meeste "lange context"-claims zijn een goocheltruc. Het model accepteert een enorme invoer maar stopt met echt aandacht besteden aan het midden — je plakt 400 pagina's, vraagt over pagina 230, en het antwoordt op basis van pagina 12 met totaal vertrouwen. Ik behandelde exact deze foutmodus in mijn eerste blik op MiniMax M3, die ook een 1M-venster claimt. Het interessante aan de framing van GLM-5.2 is dat Z.ai expliciet retentie over het hele venster claimt, niet alleen acceptatie — en ze zeggen dat ze het hebben getraind met een nieuw asynchroon agent reinforcement-learning-algoritme in meer dan 10.000 verifieerbare omgevingen in negen programmeertalen.

Dat trainingsdetail is het deel waarvan ik daadwerkelijk geloof dat het standhoudt, meer dan welke benchmark dan ook. Langetermijn-agentwerk — het soort waarbij het model een uur draait, honderd tool-aanroepen doet en moet onthouden wat het besloot in stap 4 tegen de tijd dat het stap 90 bereikt — leeft en sterft door contextretentie. Als GLM-5.2 oprecht begrip behoudt over het hele venster, dan is dat de doorbraak, niet het ruwe tokenaantal.

De demo's die deze week rondgingen leunden op webontwikkeling en, van alle dingen, een Minecraft-kloon met oneindige terreingeneratie vanuit een enkele prompt. Ik geef toe dat oneindige-terreindemo's me reflexmatig sceptisch maken — ze zijn visueel indrukwekkend en makkelijk cherry-pickbaar. Maar de procedurele generatielogica in een werkende voxel-sandbox is een oprecht moeilijke agentische codingtaak: state management, chunk loading, coördinatenwiskunde die consistent moet blijven. Het is niet niets.

Waarover ik mijn oordeel ophoud tot de gewichten verschijnen: echte multimodaliteit (er is geen native vision bij lancering), en hoe de twee "denkintensiteit"-instellingen zich gedragen onder belasting. Twee redeneerniveaus is een slimme productbeslissing — de meeste van mijn prompts hebben geen diepe redenering nodig, en de latentiebelasting op allemaal betalen is verspilling — maar ik wil zien of de lichtere instelling coherent blijft of gewoon snel en slordig wordt.

Hier is de open lus die ik later in dit overzicht zal oplossen: GLM-5.2 dat MIT gaat is een van drie bewegingen deze week die allemaal wijzen op dezelfde verschuiving in wie frontier-capaciteit controleert. Houd die gedachte vast.

Claude Fable 5: de benchmark is gelijk, de rekening niet

Dit is degene waarmee ik de meeste daadwerkelijke hands-on tijd heb, omdat ik al in Fable 5 leef voor codeerwerk sinds de lancering.

Als je mijn bouwlog over autonome videoproductie met Fable 5 of mijn Clay-connector outreach-build hebt gelezen, weet je al dat ik het het sterkste agentische codeermodel vind dat ik heb gebruikt. Deze week haalden de benchmarkcijfers dat onderbuikgevoel in, en één vergelijking in het bijzonder is het waard om naar te staren.

Op SWE-bench Pro — Anthropic's moeilijkere agentische codeerbenchmark, niet de vriendelijkere Verified-set — scoort Fable 5 80,3%, de topscore van elk getest model, vóór Opus 4.8's 69,2%. Op SWE-bench Verified haalt het 95,0%. Dat zijn echte, onafhankelijk gerapporteerde cijfers, niet Anthropic's marketingdek.

Maar de framing van de bron die dit overzicht op gang bracht is waar ik steeds op terugkom. Op een diepgaande software-engineering-benchmark voor oprecht complexe taken landt Fable 5 ruwweg gelijk met het top GPT-5.5-klasse model — hetzelfde slagingspercentage — tegen een totaal andere kosten per taak. We hebben het over het verschil tussen ruwweg tien dollar en enkele honderden dollars om dezelfde taak op te lossen. Zelfs als je de exacte dollarbedragen als benaderingen behandelt (kosten per taak schommelen met tokengebruik, dus ik hang mijn hoed er niet aan op), het verschil van een orde van grootte is het verhaal.

Laat me dat vertalen naar een beslissing die je daadwerkelijk zult nemen. Wanneer twee modellen gelijkspelen op capaciteit, valt de hele keuze samen tot economie en ergonomie. Fable 5 is geprijsd op $10 per miljoen invoertokens en $50 per miljoen uitvoer — het dubbele van Opus 4.8's $5/$25, en niet goedkoop in absolute termen. Dus dit is niet "Fable 5 is de budgetoptie." Het is subtieler: bij de moeilijkste taken, waar een mislukte autonome run meer geld verspilt aan verbrande tokens dan het prijsverschil, is het capabelere model het goedkopere. Een model dat je overnachtrefactor in één keer doet voor $10 verslaat een model dat drie pogingen van $4 nodig heeft en je nog steeds iets kapots overhandigt.

Dat is het mentale model waarmee ik wil dat je deze sectie verlaat: bij frontier-moeilijkheidswerk is capaciteit een kostenbeheersingsmiddel. Mislukte runs zijn de echte kosten, en ze zijn onzichtbaar tot je een maand ervan optelt.

Als je nu een codeermodel probeert te kiezen, hier is de compacte versie: gebruik het goedkopere model voor routinebewerkingen waar een retry niets kost, en reserveer Fable 5 voor grote refactors, autonome overnachtruns en frontier-moeilijkheidsbugs waar een fout antwoord doorwerkt. De prijs-per-token-vergelijking is een valstrik; de prijs-per-voltooide-taak-vergelijking is de waarheid.

Nog een update die het vermelden waard is, omdat het een waardenbeslissing is vermomd als een feature. Fable 5 kreeg een update die zijn beveiligingen zichtbaar maakt — wanneer het model weigert of terugvalt bij een verzoek, zie je nu de terugvalgebeurtenis in plaats van stil, mysterieus gedrag. Ik vind dit oprecht fijn. Het aantal uren dat ik verloren heb aan "waarom werd het model ineens slechter hierin" om vervolgens te ontdekken dat een onzichtbare beveiliging was ingetreden... transparantie daar is een echte kwaliteitsverbetering. De eerlijke afweging: zichtbare beveiligingen betekenen waarschijnlijk meer zichtbare false positives. Je zult het dingen zien weigeren die het niet hoefde te weigeren. Ik zie liever de false positive dan dat ik een spook debug. Jouw tolerantie kan verschillen, en dat is een legitiem meningsverschil.

Als je liever iemand hebt die een agentische codeerworkflow rond modellen als dit opbouwt in plaats van het zelf te tunen, dat is het soort integratiewerk dat ik aanneem — je kunt zien wat ik heb opgeleverd op fiverr.com/s/EgxYmWD.

DiffusionGemma: Google bouwde een model dat niet van links naar rechts schrijft

Nu de architecturaal vreemde, die ik interessanter vind dan al het andere deze week, ook al kan ik het nog niet volledig draaien.

Op 10 juni 2026 bracht Google DeepMind DiffusionGemma uit onder Apache 2.0, met gewichten op Hugging Face. De reden dat het ertoe doet heeft niets te maken met benchmarks en alles met hoe het tekst genereert. Elk GPT-achtig model dat je hebt gebruikt schrijft één token per keer, van links naar rechts, elk token geconditioneerd op het vorige. DiffusionGemma doet dat niet. Het gebruikt discrete diffusion — het denoisen van blokken van 256 tokens parallel, dezelfde familie van technieken die beeldgeneratoren aandrijft, toegepast op taal.

Waarom is diffusie-gebaseerde tekstgeneratie belangrijk?

Diffusie-gebaseerde tekstgeneratie produceert meerdere tokens tegelijkertijd in plaats van één per keer, en daarom kan DiffusionGemma snelheden bereiken die een autoregressief model structureel niet kan halen. Google meldt meer dan 1.000 tokens per seconde op een enkele Nvidia H100 — tot 4x sneller dan vergelijkbare autoregressieve modellen — en 700+ tokens per seconde op een consumer RTX 5090. Het model is een 26B mixture-of-experts dat slechts 3,8B parameters activeert bij inferentie, dus het kwantiseert omlaag om in een VRAM-budget van 18GB te passen.

Lees die laatste zin nog een keer, want dat is het deel waar je van zou moeten opveren: een model dat zo snel is, draaiend op een kaart die een serieuze hobbyist daadwerkelijk kan bezitten.

Hier moet ik eerlijk zijn in plaats van het te hypen. Ik heb DiffusionGemma niet lokaal aan de praat gekregen, en de reden is leerzaam: de aangepaste drafter-module die het nodig heeft voor lokale inferentie bestaat nog niet in enige publieke runtime. Niet in mlx-lm, niet in LM Studio. Op dit moment is het effectief niet draaibaar op de meeste consumentenopstellingen ondanks dat de gewichten publiek zijn. Dus wanneer je ademloze "draai een 1000 tok/s model op je gaming-PC vanavond" posts ziet, dat is aspiratief, niet actueel. Ik verwacht dat de runtime-ondersteuning komt — er is te veel vraag naar om niet te komen — maar vandaag is de snelheid een specificatie, niet een ervaring die ik voor je kan verifiëren.

En er is een echte prijs voor de snelheid, ingebakken in de architectuur. Diffusie-tekstgeneratie ruilt nauwkeurigheid in voor doorvoer. DiffusionGemma hallucineert meer dan standaard Gemma 4. Google's eigen positionering is verfrissend recht-voor-z'n-raap hierover: gebruik het voor snelheidskritieke, niet-feitelijke taken — code bewerken, tekst herformatteren, bulktransformatie — en gebruik het niet waar feitelijke precisie ertoe doet. Ik respecteer een lancering die je vertelt waar het model slecht in is. Als je lokale modellen draait, ken je deze afweging al van het opzetten van tools als Gemma 4 in LM Studio — het juiste model voor de juiste taak kiezen verslaat het najagen van één model dat alles middelmatig doet.

Mijn eerlijke mening: DiffusionGemma is de belangrijkste architecturale release van de week en tegelijkertijd het minst direct bruikbare product van de week. Het is een onderzoeksverklaring dat het autoregressieve monopolie op taalgeneratie een barst heeft. De eerste keer dat een diffusie-taalmodel zowel snel als nauwkeurig genoeg is voor algemeen gebruik, wordt het hele inferentiekostenverhaal gereset. Die dag is niet vandaag. Maar het staat nu zichtbaar op de kalender.

OpenAI Codex kreeg een debugging-superkracht (en een loyaliteitsprogramma)

Twee Codex-updates deze week, en ze richten zich op compleet verschillende delen van je brein — één technisch, één gedragsmatig.

De technische waar ik oprecht enthousiast over ben. Codex voegde een ontwikkelaarsmodus toe die gecontroleerde Chrome DevTools Protocol (CDP)-toegang geeft. In gewone taal: Codex kan nu in een live Chrome-sessie reiken en netwerkverkeer, console-uitvoer, runtime-fouten, DOM-status en toegepaste stijlen lezen — exact de dingen die je met de hand zou inspecteren wanneer een front-end-bug weigert logisch te zijn. Het staat standaard uit (Instellingen → Browser → "Enable full CDP access" onder Developer mode), wat de juiste standaard is voor iets dat zo krachtig is.

Waarom dit een groter verhaal is dan het klinkt: front-end debugging is de zachte onderbuik van AI-codeeragenten geweest. Een model kan prachtig een React-component schrijven en dan nutteloos zijn bij het uitzoeken waarom het leeg rendert in de browser, omdat de fout leeft in runtime-status die het model niet kan zien. CDP-toegang sluit die lus. De agent kan nu het symptoom observeren — de daadwerkelijke consolefout, het daadwerkelijke mislukte netwerkverzoek — in plaats van te raden vanuit broncode alleen. Dat is het verschil tussen een agent die code schrijft en een agent die het debugt.

De gedragsupdate is sluwer. OpenAI rolde rate-limit reset banking uit: Plus- en Pro-gebruikers krijgen resets die ze kunnen oppotten en besteden wanneer ze willen (opgespaarde resets zijn 30 dagen geldig), plus een verwijzingsprogramma — nodig tot drie vrienden uit tussen 11 en 24 juni, en wanneer een vriend zijn eerste Codex-bericht stuurt, krijgen jullie beiden een opgespaarde reset.

Ik zal het stille deel hardop zeggen, want doen alsof ik het niet merk zou oneerlijk zijn. Het verwijzingsmechanisme is ecosysteem-stickiness-engineering. Opgespaarde resets zijn een slimme, oprecht gebruikersvriendelijke feature — controle over wanneer je je capaciteit verbrandt is echte waarde, vooral als je zwaar werk batcht. Maar een vriend-verwijzings-loyaliteitslus bovenop een ontwikkelaarstool leggen is een retentiespel dat rechtstreeks is geleend van consumenten-apps. Het is niet slecht. Het is gewoon de moeite waard om helder te zien: de modellabs concurreren nu op overstapkosten, niet alleen op capaciteit. De CDP-debugging is de gracht; het verwijzingsprogramma is het hek.

Twee updates die stilletjes veranderen hoe agenten werken

Een patroon dat ik steeds opmerk in 2026: de meest ingrijpende veranderingen zijn geen nieuwe modellen, het zijn nieuwe toestemmingsstructuren rond de modellen. Twee deze week.

Ten eerste werd autonoom coderen standaard veiliger. Claude Code's auto-modus en Cursor's auto-review-classifier convergeren naar hetzelfde ontwerp: keur de veilige acties vooraf goed, blokkeer de riskante. In plaats van elke opdracht te babysitteren of alles YOLO-goed te keuren, trieert de tooling nu — een bestand lezen, een test draaien, code formatteren? Ga je gang. Een map verwijderen, een productie-endpoint raken, een migratie herschrijven? Stoppen en vragen. Ik heb eerder geschreven over waarom agent-native gaan in 2026 vooral gaat over het precies goed krijgen van deze gradiënt. Een agent die je constant moet goedkeuren is niet autonoom; een agent die je niet kunt stoppen is gevaarlijk. De classifierlaag is het compromis, en het wordt snel volwassen.

Ten tweede — en dit is het onsexye infrastructuurverhaal waarvan ik denk dat het over een jaar het meest zal uitmaken — AI-agentauthenticatie wordt een echte productcategorie. Descope bracht Agentic Identity Hub 2.5 uit deze week (de 2.0-release was in januari), en het lost een probleem op dat de meeste mensen die agenten bouwen nog niet hebben gehad maar absoluut zullen krijgen: hoe bewijst een autonome agent wie het is en wat het mag doen, zonder dat je het de inloggegevens van een mens geeft?

Dat laatste stuk is de kern. Op dit moment werkt een deprimerend aantal agentopstellingen door de agent een API-token van een mens te geven en het beste te hopen. Dat is een beveiligingsramp in wording — geen scoping, geen audittrail, geen manier om alleen de toegang van de agent in te trekken. Descope's pitch is agenten als eersteklas identiteiten: OAuth 2.1, scopes op toolniveau, beleidshandhaving over welke MCP-servers een agent mag aanraken, en goedkeuringsstromen met een mens-in-de-lus voor gevoelige acties. Magic links en eenmalige-wachtwoordstromen geven je fijnmazige controle over wat een agent namens een gebruiker kan doen.

Ik doe niet alsof ik het in productie heb ingezet. Maar ik heb precies het ontbreken hiervan gevoeld. Elke keer dat ik een agent heb aangesloten op een systeem met echte permissies, was het authenticatieverhaal het deel dat ik in elkaar hackte en me slecht over voelde. Een doelgebouwde controlelaag voor niet-menselijke identiteit is het soort saaie, dragende infrastructuur die agentische AI heeft gemist — en het is een onderwerp dat precies op het snijvlak zit van AI en beveiliging, wat exact het soort werk is dat mijn collega's bij xCyberSecurity doen voor teams die agenten inzetten op gevoelige data.

De twee frontier-weddenschappen: interactiemodellen en humanoïde robots op schaal

Zoom nu uit, want twee ontwikkelingen deze week gaan niet over dit kwartaal — ze gaan over waar het hele verhaal naartoe gaat.

De eerste is de interactiemodellen van Thinking Machines Lab. Het lab van Mira Murati (ze is de voormalige OpenAI CTO) bracht een onderzoekspreview uit van TML-Interaction-Small, en de architectuur is een oprechte afwijking van het chatbotpatroon dat we allemaal hebben geïnternaliseerd. In plaats van de verzoek-antwoord-lus — jij praat, het wacht, het reageert — verwerkt het model audio, video en tekst in micro-beurten van 200 milliseconden, continu, zoals twee mensen daadwerkelijk samenwerken. Het kan spreken terwijl jij spreekt, reageren op wat het ziet voordat je een zin afmaakt, en tools aanroepen midden in een gesprek.

Het slimme structurele aspect: het splitst in twee modellen die volledige context delen. Een snel interactiemodel blijft live bij je voor directe reacties, terwijl een achtergrondmodel het langzame, diepe redeneren en toolgebruik asynchroon afhandelt. Dat is een echt architecturaal antwoord op de centrale spanning in conversationele AI — je wilt zowel snelheid als diepgang, en die ruilen meestal in tegen elkaar. Het is een 276B-parameter mixture-of-experts met 12B actief, en het is in beperkte onderzoekspreview zonder publieke API, dus temper je verwachtingen. Maar het idee — samenwerking in plaats van vraag-antwoord — is de meest interessante herkadering van mens-AI-interactie die ik dit jaar heb gezien.

De tweede is concreet in de meest letterlijke zin. 1X Technologies begon met massaproductie van zijn Neo humanoïde robot in een fabriek van 58.000 vierkante voet in Hayward, Californië. De faciliteit heeft momenteel 200+ medewerkers en capaciteit voor 10.000 robots per jaar, opschalend naar 100.000+ eenheden tegen 2027. De productierun van het eerste jaar was naar verluidt binnen dagen uitverkocht. Dit zijn niet alleen fabriekslogistiek-bots — Neo is zwaar gepositioneerd als thuisrobot, met klantleveringen gepland voor 2026.

Ik heb hier gecompliceerde gevoelens over, en ik deel ze eerlijk in plaats van te juichen. De overgang van een demo op een podium naar een verticaal geïntegreerde fabriek — 1X bouwt zijn eigen motoren, batterijen, sensoren en transmissies in-huis — is de moeilijkste sprong in robotica, en de meeste bedrijven maken hem nooit. Dat deel verdient echt respect. De scepticus in mij herinnert zich ook dat "leveren" en "nuttig in je keuken" heel verschillende mijlpalen zijn, en humanoïde robotica heeft een lange geschiedenis van verbluffende demo's die bezwijken onder de rommeligheid van echte omgevingen. Maar een fabriek met een jaarlijn van 10.000 eenheden is geen render. Er wordt daadwerkelijk iets gebouwd. We komen er in 2026 achter of wat er wordt geleverd een oprechte helper is of een zeer duur proof of concept.

Wat deze week daadwerkelijk betekent (de open lus, opgelost)

Herinner je de draad die ik je vroeg vast te houden bovenaan — dat GLM-5.2 dat MIT gaat een van drie bewegingen was die allemaal dezelfde kant op wijzen? Hier is de oplossing.

Kijk naar het patroon over de hele week. GLM-5.2 dat een 1M-context frontier-model onder MIT plaatst. DiffusionGemma dat een oprecht nieuwe architectuur uitdeelt onder Apache 2.0. Zelfs Descope dat open standaarden bouwt (OAuth 2.1, MCP) voor agentidentiteit. Het zwaartepunt in AI verschuift van gesloten intelligentie huren naar open intelligentie bezitten en controleren. Niet volledig — de absolute frontier leeft nog steeds in gesloten labs, en Fable 5's benchmarkdominantie bewijst dat de propriëtaire leiders niet stilstaan. Maar de kloof tussen "het beste gesloten model" en "het beste model dat je daadwerkelijk kunt downloaden en bezitten" is kleiner dan ooit.

Dat verandert de vraag die je zou moeten stellen. Achttien maanden geleden was de vraag "welke API huur ik?" Steeds vaker is de echte vraag "welke capaciteiten moet ik bezitten — voor kosten, voor privacy, voor controle — en welke kan ik blijven huren?" De teams die rijk worden door die vraag correct te beantwoorden zullen degenen zijn die stopten met open en gesloten als loyaliteitstest te behandelen en het begonnen te behandelen als een portfoliobeslissing.

Dus hier is je ene concrete actie voor deze week. Kies de enkele AI-afhankelijkheid in je stack die het meeste pijn zou doen als de prijs verdrievoudigde of de voorwaarden van de ene op de andere dag veranderden. Slechts één. Ga dan het dichtstbijzijnde open-weight-model zoeken dat het zou kunnen vervangen — GLM-5.2 wanneer de gewichten verschijnen, of wat bij je taak past — en besteed een middag aan het daadwerkelijk testen ervan op je echte werkbelasting, niet een speelgoedprompt. Je hoeft niet te migreren. Je moet alleen weten dat de deur bestaat voordat iemand anders hem voor je sluit. Dat is het verschil, dit jaar, tussen huurder zijn en eigenaar zijn.

Veelgestelde vragen

Wat is de grootte van het GLM-5.2-contextvenster?

GLM-5.2 heeft een bruikbaar contextvenster van een miljoen tokens, een verhoging van 5x ten opzichte van de 200K van GLM-5.1. Z.ai claimt dat het model begrip behoudt over het hele venster in plaats van alleen de invoer te accepteren, en MIT-gelicentieerde open gewichten staan gepland voor release kort na de aankondiging van 13 juni 2026.

Is Claude Fable 5 de hogere prijs waard voor codering?

Claude Fable 5 is het waard voor frontier-moeilijkheidstaken waarbij een mislukte run meer verspilt aan verbrande tokens dan de prijspremie. Het staat bovenaan SWE-bench Pro met 80,3% en is gelijk met top GPT-5.5-klasse modellen op moeilijke benchmarks tegen een fractie van de kosten per taak. Voor routinebewerkingen is een goedkoper model meestal de slimmere keuze. Zie de Fable 5-sectie hierboven voor de volledige uitleg.

Hoe verschilt DiffusionGemma van regulier Gemma?

DiffusionGemma genereert tekst met discrete diffusion — het denoisen van blokken van 256 tokens parallel — in plaats van één token per keer, en bereikt meer dan 1.000 tokens per seconde vergeleken met standaard autoregressieve modellen. De afweging is een hoger hallucinatiepercentage, dus Google beveelt het alleen aan voor snelheidskritieke, niet-feitelijke taken zoals code bewerken en tekst formatteren.

Kan DiffusionGemma draaien op een consumentenGPU?

DiffusionGemma is ontworpen om in 18GB VRAM te passen en haalt naar verluidt 700+ tokens per seconde op een RTX 5090, maar sinds juni 2026 wordt de aangepaste drafter-module die het nodig heeft voor lokale inferentie niet ondersteund in enige publieke runtime zoals LM Studio of mlx-lm, waardoor het effectief niet draaibaar is op de meeste consumentenopstellingen vandaag.

Wanneer wordt de 1X Neo humanoïde robot geleverd?

1X Technologies is begonnen met massaproductie in zijn fabriek in Hayward, Californië, met klantleveringen gepland voor 2026. De faciliteit kan jaarlijks 10.000 eenheden produceren, opschalend naar 100.000+ tegen 2027, en de eerste productierun was naar verluidt binnen dagen na lancering uitverkocht.

Laten we samenwerken

Op zoek naar het bouwen van AI-systemen, het automatiseren van workflows of het opschalen van je technische infrastructuur? Ik help je graag.

Fiverr (maatwerkbouwen & integraties): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (bedrijfsoplossingen): ramlit.com
ColorPark (ontwerp & branding): colorpark.io
xCyberSecurity (beveiligingsdiensten): xcybersecurity.io

AI deze week: GLM-5.2, Fable 5, Diffusion Gemma