Ik Testte MiniMax M2.7 — Het Zelfevoluerende Agent-Model
De gokautomaat was het moment waarop mijn brein vastliep.
Ik was op dat moment al zo'n drie uur bezig met het testen van MiniMax M2.7 — ik joeg het door mijn standaard reeks frontend-uitdagingen, game-builds en creatieve codeeropdrachten. Het meeste was goed. Sommige dingen waren heel goed. Maar de gokautomaat ging een grens over die ik niet verwachtte van een model in deze prijsklasse. Volledige state management. Vloeiende reel-animaties met onafhankelijke timing. Willekeurigheidslogica die echt willekeurig aanvoelde. Visuele feedback bij winst met particle-effecten en schermtrillingen. Het soort gepolijste interactiviteit dat ik zou verwachten van een senior frontend-ontwikkelaar — niet van een model dat vijftig keer goedkoper is dan Opus.
Ik zat daar een volle twee minuten op de spin-knop te klikken voordat ik me herinnerde dat ik het ding zou reviewen, niet ermee zou spelen.
MiniMax M2.7 verscheen op 18 maart 2026, en de hoofdfunctie zijn niet de benchmarks of de prijs — hoewel beide indrukwekkend zijn. Het hoofdverhaal is dat dit model zichzelf heeft verbeterd. Meer dan 100 autonome rondes van het analyseren van eigen fouten, het aanpassen van eigen code, het uitvoeren van evaluaties, en het beslissen of wijzigingen behouden of teruggedraaid moesten worden. Geen mens die het toetsenbord aanraakte. Het resultaat was een prestatiewinst van 30% die het model in wezen zichzelf heeft gegeven.
Dat is de claim. Ik wilde zien wat die zelfevolutie in de praktijk daadwerkelijk opleverde — dus besteedde ik het grootste deel van vier dagen aan het er alles tegenaan gooien wat ik kon. Hier is precies wat ik vond, wat me imponeerde, wat me teleurstelde, en of dit model een plekje verdient in jouw workflow naast de modellen die je al vertrouwt.
Wat MiniMax Precies Beweert — En Waarom het Zelfevolutie-Aspect Ertoe Doet
Voordat ik op mijn testresultaten inga, moet je begrijpen wat M2.7 anders maakt dan elk ander model dat deze maand is gelanceerd. Want er zijn veel modellanceringen geweest deze maand.
MiniMax is een Chinees AI-bedrijf dat gestaag groeit sinds de lancering van hun M2-serie. De M2.7 specifiek is getraind met wat zij een "recursieve zelfverbeterings"-pipeline noemen. Dit is hoe dat in gewone taal werkt: het model voerde zijn eigen reinforcement learning-workflow uit. Het probeerde een taak, analyseerde waarom het faalde, paste zijn aanpak aan, voerde de evaluatie opnieuw uit, vergeleek de resultaten, en behield de wijziging of draaide deze terug. Vervolgens deed het dat opnieuw. En opnieuw. Meer dan 100 keer — waarbij het 30 tot 50 procent van zijn eigen ontwikkelworkflow afhandelde zonder tussenkomst van een menselijke engineer.
Volgens de berichtgeving van VentureBeat gaat het hier niet alleen om automatisering van eenvoudige taken. Het model optimaliseerde zijn eigen programmeerprestaties door faaltrajecten te analyseren en codewijzigingen te plannen over die iteratieve lussen. MiniMax' eigen technische blog beschrijft de visie als AI-zelfevolutie die "geleidelijk zal overgaan naar volledige autonomie, waarbij dataconstruktie, modeltraining, inferentie-architectuur, evaluatie en andere fasen zonder menselijke betrokkenheid worden gecoördineerd."
Dat is een gedurfde bewering. Maar hier is waarom ik het niet zomaar afdoe: de benchmarkresultaten onderbouwen het daadwerkelijk.
| Benchmark | MiniMax M2.7 | Context |
|---|---|---|
| SWE-Bench Pro | 56,22% | Benadert Opus-niveau; overtreft Gemini 3.1 Pro |
| VIBE-Pro | 55,6% | End-to-end projectopleveringscapaciteit |
| TerminalBench 2 | 57,0% | Diepgaand begrip op systeemniveau |
| MLE Bench Lite | 66,6% medaille-percentage | Gelijk met Gemini 3.1 in 22 ML-competities |
| GDPval-AA | 1495 Elo | Hoogste onder open-source-toegankelijke modellen |
| Hallucination Rate | 34% | Lager dan Sonnet 4.6 (46%) en Gemini 3.1 Pro (50%) |
Dat hallucination rate viel me op. 34% versus Sonnet 4.6's 46%? Ik was sceptisch. Maar tijdens mijn testen merkte ik inderdaad dat M2.7 minder snel functienamen verzon of API-parameters uitvond die niet bestaan. Het is niet hallucinatievrij — geen enkel model is dat — maar de vermindering is echt en merkbaar tijdens langere codeersessies.
Het model ondersteunt 50+ vaardigheden en 100+ features met wat MiniMax beschrijft als "stabiele instructie-opvolging en betrouwbaar toolgebruik." Het wordt geleverd met een context window van 24.000 tokens — kleiner dan wat ik gewend ben met Claude's 200K of Gemini's context van een miljoen tokens, maar meer dan voldoende voor het soort gerichte taakuitvoering waarvoor M2.7 is ontworpen.
En dan is er de prijs. Hier spitste ik mijn oren. De volledige kostenvergelijking komt later, maar de korte versie: $0,30 per miljoen input tokens en $1,20 per miljoen output tokens. Om dat in perspectief te plaatsen: Opus 4.6 draait op ruwweg $6 per miljoen input tokens. M2.7 levert benchmarkscores die Opus-territorium benaderen voor een fractie — soms 1/50e — van de kosten.
De vraag is niet of de benchmarks goed zijn. Dat zijn ze duidelijk. De vraag is of die cijfers zich vertalen naar echte output die ik daadwerkelijk zou willen gebruiken. Dus voerde ik zeven tests uit. Laat me je door elke test heen leiden.
Test 1: Het macOS Browser-Bureaublad — Waar M2.7 Uitblonk
Mijn eerste test is altijd ambitieus. Ik vraag het model om een macOS-stijl browserbesturingssysteem te bouwen — een volledig desktopomgeving die in de browser draait met dynamische achtergronden, werkende applicaties, een dock, vensterbeheer, alles erop en eraan. Deze test scheidt de serieuze modellen van de pretendenten, omdat het gelijktijdige competentie vereist in layout-architectuur, state management, animatie en creatief ontwerp.
M2.7 leverde iets dat ik een 9 uit 10 zou geven.
De desktopachtergrond had een dynamisch verloop dat subtiel verschoof over de tijd — niet de goedkope CSS-animatie die je van de meeste modellen krijgt, maar een vloeiende, GPU-versnelde overgang die er oprecht gepolijst uitzag. De dock onderaan was functioneel met hover-vergrotingseffecten. Vensterbeheer werkte: je kon vensters slepen, minimaliseren naar de dock, en hun grootte wijzigen met correct snap-gedrag.
De individuele applicaties verrassen me het meest. Een rekenmachine die daadwerkelijk werkte met toetsenbordinvoer. Een notitie-app met persistente state tijdens de sessie. Een instellingenpaneel waarmee je de achtergrond en accentkleuren kon wijzigen — en die wijzigingen werden onmiddellijk door de hele UI doorgevoerd. De aandacht voor detail was het soort dat je doet vergeten dat je naar gegenereerde code kijkt.
Waar het tekortschoot: de bestandsbeheerder was grotendeels cosmetisch. Je kon mapiconen zien en door een directorystructuur navigeren, maar er was geen daadwerkelijke bestandsaanmaak of persistentie. En de "terminal"-app was nep — deze accepteerde invoer maar verwerkte geen commando's. Puur decoratief.
Toch. Voor een enkele-prompt-generatie in deze prijsklasse is 9/10 eerlijk. Ik heb Opus vergelijkbare kwaliteit zien produceren, maar ik heb Opus ook zien worstelen met de state management voor iets dit complex. M2.7 handelde het netjes af.
Test 2: Landingspagina's Met Shader-Rendering — De Frontend-Spierkracht
Mijn tweede test duwt specifiek de frontend-capaciteit. Ik vroeg M2.7 om een dynamische landingspagina te genereren voor een fictief AI-product — hero-sectie met geanimeerde shader-achtergrond, feature-kaarten met micro-interacties, een prijstabel met jaar/maand-schakelaar, en een testimonials-sectie met een carrousel.
De shader-achtergrond was het hoogtepunt. M2.7 produceerde een WebGL-aangedreven verloopnetwerk dat reageerde op muisbewegingen — subtiel genoeg om premium aan te voelen in plaats van gimmickachtig. De prestaties waren ook solide. Geen framedrops op mijn M3 MacBook Pro, zelfs met de animaties draaiend.
De feature-kaarten hadden hover-states met vloeiende hoogte-overgangen en kleurverschuivingen van iconen. De prijsschakelaar werkte correct met cross-fade-animaties tussen maandelijkse en jaarlijkse tarieven. De testimonials-carrousel roteerde automatisch en pauzeerde bij hover.
Wat echt mijn aandacht trok waren de typografiekeuzes. M2.7 selecteerde lettertypecombinaties die er daadwerkelijk doordacht uitzagen — een geometrisch sans-serif voor koppen gecombineerd met een humanistisch sans voor broodtekst. De meeste modellen plakken gewoon Inter op alles en noemen het klaar. M2.7 maakte een ontwerpbeslissing, en het was een goede.
De codestructuur was ook schoon. Correcte componentscheiding, semantische HTML, CSS custom properties voor het kleurensysteem, en geen inline styles overal gedumpt. Als een junior developer dit als pull request zou indienen, zou ik het goedkeuren met kleine opmerkingen.
Ik voerde een Lighthouse-audit uit op de output: 94 performance, 100 accessibility, 92 best practices. Die cijfers zijn echt. Dat is beter dan wat ik krijg van sommige handgebouwde productiesites.
Test 3: De Minecraft-Kloon — Oneindig Terrein, Ontbrekende Blokken
Hier werd het interessant — en hier toonde M2.7 zijn eerste echte beperking.
Ik vroeg om een Minecraft-achtige voxelwereld met oneindige terrein-generatie, texturen, een inventarisbalk, en basis blokinteractie. De terrein-generatie was indrukwekkend: Perlin noise-gebaseerde heightmaps die overtuigende glooiende heuvels, valleien, en af en toe een klif creëerden. Verschillende biomen vloeiden soepel in elkaar over. Gras-, aarde-, steen-, en zandtexturen werden correct toegepast op basis van hoogte en bioomtype.
De inventarisbalk onderaan het scherm zag er goed uit. Selecteerbare slotjes met gemarkeerde randen. Verschillende bloktypes weergegeven met juiste iconen.
Maar blokken breken — de kernmechanica van Minecraft — ontbrak. Je kon naar blokken kijken, je kon het vizier zien, je kon verschillende bloktypes selecteren in de inventaris. Je kon alleen niet met de wereld interacteren. Geen breken. Geen plaatsen. Het model bouwde een prachtige voxel-landschapsviewer, geen game.
Ik probeerde M2.7 te vragen om de interactielaag toe te voegen in een vervolgprompt. Het voegde een raycasting-systeem toe voor blokselectie (juiste aanpak) maar de daadwerkelijke verwijderings- en plaatsingslogica was buggy. Blokken verdwenen van de verkeerde positie, of plaatsing verschoof met één eenheid op de Y-as. Na drie iteraties kreeg het blokken breken werkend, maar plaatsing was nog steeds inconsistent.
Dit is het soort taak waar Opus 4.6's vasthoudendheid — drie of vier onafhankelijke oplossingen proberen voordat het opgeeft — het uiteindelijk gekraakt zou hebben. M2.7 bleef dezelfde aanpak herhalen met kleine variaties in plaats van de raycast-naar-voxel-coördinaat-mapping fundamenteel te heroverwegen.
Terrein-generatie: 9/10. Blokinteractie: 4/10. Als je een voxel-renderer nodig hebt, is dit geweldig. Als je een speelbare Minecraft-kloon nodig hebt, moet je meer itereren dan ik verwachtte.
Test 4: De Casino-Gokautomaat — Waar M2.7 Opus Versloeg
Dit was de test die me deed stilstaan. En ik moet specifiek zijn over waarom, want "het maakte een goede gokautomaat" vangt niet wat er werkelijk gebeurde.
Ik gaf M2.7 één enkele prompt: bouw een interactieve casino-gokautomaat met animaties, willekeurigheidslogica, visuele feedback, en een creditsysteem. Geen aanvullende context. Geen referentieafbeeldingen. Eén poging.
De reels draaiden onafhankelijk met realistische vertragingscurves — elke reel stopte iets later dan de vorige, wat dat bevredigende cascade-effect creëerde dat je in echte gokautomaten krijgt. De symbolen waren onderscheidend en goed ontworpen (gerenderd als SVG, geen emoji). De willekeurigheid was niet zomaar Math.random() — M2.7 implementeerde een gewogen kanssysteem waarbij bepaalde symboolcombinaties zeldzamer waren dan andere.
De winstdetectie was het deel dat me het meest imponeerde. Het controleerde horizontale lijnen, diagonale lijnen, en had zelfs een speciale animatie voor drie-dezelfde versus twee-paar-combinaties. Winstbedragen werden correct berekend op basis van de zeldzaamheid van de combinatie. Credits werden bijgewerkt met een vloeiende telanimatie in plaats van een directe nummerwissel.
En de visuele feedback. Schermtrillingen bij grote winsten. Confetti-deeltjes bij jackpots. Een subtiel gloei-effect op winnende symbolen. Geluidsklare event-hooks (geen daadwerkelijk geluid, maar de code had correct geplaatste callbacks waar geluidseffecten ingevoegd konden worden).
Ik voerde dezelfde prompt door Opus 4.6 ter vergelijking. Opus produceerde een functionele gokautomaat — correcte logica, schone code, werkende state management. Maar de animaties waren eenvoudiger. Geen onafhankelijke reel-timing. Geen gewogen kansen. Geen particle-effecten. De Opus-versie was een solide B+. M2.7's versie was een A.
Voor een model dat 1/50e van de kosten is en objectief betere output produceert bij een creatief-interactieve taak? Dat is geen incrementele verbetering. Dat is een heel ander gesprek.
Test 5: De 360-Graden Productviewer — Best-in-Class Output
Ik vroeg M2.7 om een 360-graden productviewer te bouwen voor een paar koptelefoons — het soort interactieve widget dat je ziet op premium e-commercesites waar je het product kunt draaien, inzoomen, en op features kunt klikken voor annotatie-popups.
Het resultaat was een van de beste single-prompt-generaties die ik dit jaar van welk model dan ook heb ontvangen.
Vloeiende rotatie bij slepen met momentum en traagheid — laat de muis los en het product blijft draaien, geleidelijk afzwakkend tot stilstand. Knijp-om-te-zoomen op het trackpad met juiste grenzen zodat je niet oneindig kon inzoomen of uitzoomen tot een stipje. Feature-annotatiepunten gepositioneerd op belangrijke plekken van het product (oorkussens, hoofdbandverstelling, bedieningspaneel) die uitklapten tot infokaarten bij het klikken.
De infokaarten hadden schone typografie, correct z-index-beheer zodat ze nooit achter het product verdwenen, en een mooie fade-in-animatie. Sluitknoppen werkten. Het klikken op een nieuwe annotatie sloot automatisch de vorige.
De code gebruikte CSS transforms voor de rotatie — geen zware 3D-bibliotheek nodig. Dit betekent dat het soepel op mobiel zou draaien zonder optimalisatiewerk. Ik testte het op mijn telefoon via een snelle lokale server, en de aanraakinteracties voelden native aan.
Als je een e-commercesite bouwt en een productshowcase-component nodig hebt, zou de output van deze enkele prompt je een volledige dag ontwikkelwerk besparen. Misschien twee.
Test 6: De Geanimeerde Vlinder en het Gold Miner-Spel
Twee kleinere tests die verschillende aspecten van M2.7's capaciteit onthullen.
De geanimeerde vlinder-prompt — mijn standaard SVG-generatietest — produceerde een 8/10 resultaat. Gelaagde vleugelgeometrie met verloopvullingen, CSS keyframe-animatie met natuurlijke easing, en een overtuigend vliegpatroon. Vergeleken met wat ik kreeg van GLM5 bij dezelfde test was M2.7's vlinder iets minder verfijnd in de verloopovergangen maar had betere animatietiming. De vleugels bewogen met een subtiele asymmetrie die de vlucht organisch deed lijken in plaats van mechanisch.
Het casual cartoon Gold Miner-spel was een grotere verrassing. Ik verwachtte een kale klauw-valt-neer-mechanica. Wat ik kreeg was een volledig spel met selecteerbare modi: verhaal, arcade, versus, en co-op (de laatste twee als split-screen in één browservenster). Een geluidsinstellingenmenu met schuifregelaars voor muziek, SFX, en omgevingsvolume. Een winkelsysteem waar je verdiend goud kon uitgeven aan upgrades — sterkere klauw, snellere intrekking, magneetbevestiging. En een upgradeboom die bleef bestaan tussen rondes.
De spellogica was solide. De klauw zwaaide met correcte slingerfysica. Verschillende objecten (goudklompen, stenen, diamanten, dynamiet) hadden verschillende gewichten die de intreksnelheid beïnvloedden. Het scoresysteem was voldoende gebalanceerd dat vroege rondes haalbaar aanvoelden terwijl latere rondes strategische upgrades vereisten.
Was het klaar voor de App Store? Nee. De botsingsdetectie had randgevallen waarbij de klauw door objecten heen ging onder bepaalde hoeken. De versus-modus had een timingsynchronisatieprobleem waarbij Speler 2's klauw af en toe een licht snelheidsvoordeel kreeg. Maar als prototype gegenereerd vanuit één enkele prompt? De omvang en volledigheid waren opmerkelijk.
De Kostenberekening Die Alles Verandert
Hier moet ik over cijfers praten, want de benchmarks en demokwaliteit doen er alleen toe als je het model je ook daadwerkelijk kunt veroorloven in productie.
MiniMax M2.7 prijzen op OpenRouter:
| Metriek | MiniMax M2.7 | Opus 4.6 | Verhouding |
|---|---|---|---|
| Input tokens (per 1M) | $0,30 | ~$6,00 | 20x goedkoper |
| Output tokens (per 1M) | $1,20 | ~$12,00 | 10x goedkoper |
| Context window | 24.000 tokens | 200.000 tokens | Opus: 8x groter |
Er is ook een "fast mode" die de kosten verdubbelt voor lagere latency — $0,60 input en $2,40 output. Zelfs tegen fast mode-prijzen draai je nog steeds op een fractie van wat Opus of GPT-5.3-Codex zou kosten.
Om dit in praktische termen te vertalen: een typische codeersessie waarbij ik 50.000 input tokens verstuur en 30.000 output tokens ontvang, zou me ruwweg $0,051 kosten met M2.7. Dezelfde sessie met Opus 4.6 zou rond de $0,66 uitkomen. Over een maand intensief dagelijks gebruik is dat het verschil tussen een rekening van $15 en een van $200.
Het context window van 24.000 tokens is de duidelijke afweging. Als je werkt met enorme codebases of lange documenten invoert voor analyse, bereik je dat plafond snel. Voor gerichte, enkelvoudige taakuitvoeringen — genereer dit component, bouw dit spel, maak deze landingspagina — is 24K ruim voldoende. Maar voor het soort uitgebreide agent-workflows waarbij het model context moet vasthouden over tientallen bestanden en honderden functiesignaturen, zou ik nog steeds naar Opus of Sonnet 4.6 met zijn miljoen-token beta-window grijpen.
Het model is toegankelijk via meerdere kanalen. OpenRouter's API is het meest rechttoe rechtaan voor ontwikkelaars. Kilo Code — een open-source CLI-tool — biedt integratie met gratis credits inbegrepen, wat een uitstekende manier is om te testen zonder financiële verplichting. MiniMax biedt ook hun eigen chatbot-interface voor gratis toegang, en er zijn pay-as-you-go tokenpakketten als je rechtstreeks via hun platform wilt werken. Het MiniMax-team biedt 12% korting aan op tokenpakketten voor nieuwe gebruikers, wat de toch al goedkope prijs nog toegankelijker maakt.
Als je liever iemand hebt die productiewaardige AI-integraties voor je bouwt — agentsystemen, API-pipelines, of multi-model-architecturen — neem ik dat soort projecten aan. Je kunt zien wat ik heb gebouwd op fiverr.com/s/EgxYmWD.
Waar M2.7 Tekortschiet — De Eerlijke Beoordeling
Ik ben tot nu toe enthousiast geweest. Tijd om op de rem te trappen.
Het context window is een echte beperking. 24.000 tokens klinkt als veel totdat je een React-component debugt die uit vijftien andere bestanden importeert. Ik liep tegen de muur aan tijdens een multi-bestand refactoring-taak waarbij M2.7 simpelweg niet genoeg context kon vasthouden om de volledige afhankelijkheidsketen te begrijpen. Opus handelt dit moeiteloos af. M2.7 vereist dat je chirurgischer bent over wat je invoert.
Iteratief debuggen bereikt een plafond. De Minecraft-test bracht dit aan het licht. Wanneer M2.7's eerste aanpak van een probleem niet werkt, zijn de tweede en derde pogingen doorgaans kleine variaties van dezelfde strategie. Opus en GPT-5.3-Codex proberen fundamenteel andere benaderingen. M2.7 heeft de neiging om tunnelvisie te ontwikkelen op zijn initiële hypothese. Voor simpele bugs is dit prima — de eerste aanpak zit er meestal dichtbij. Voor complexe architecturale problemen besteed je meer rondes aan het sturen van het model richting alternatieve oplossingen.
De zelfevolutie is indrukwekkend maar ondoorzichtig. MiniMax claimt 100+ rondes van autonome verbetering met een prestatiewinst van 30%. Ik geloof de resultaten — de benchmarkcijfers en mijn eigen testen ondersteunen dat. Maar het proces zelf is een black box. We weten niet welke specifieke capaciteiten zijn verbeterd, welke afwegingen zijn gemaakt tijdens de zelfoptimalisatie, of het model prestaties heeft opgeofferd op gebieden die niet gemeten werden door de interne evaluatiesets. Het zelfevolutieverhaal is overtuigend, maar het vereist een mate van vertrouwen in MiniMax' evaluatiemethodologie.
Geen visuele of multimodale mogelijkheden. Dit is een tekst-in, tekst-uit model. Je kunt er geen screenshots van een ontwerp aan voeren en vragen het layout na te bouwen. Je kunt het geen foutmelding-afbeelding tonen en vragen te debuggen vanuit het plaatje. Voor ontwikkelaars die gewend zijn geraakt aan multimodale workflows met Claude of GPT is dit een stap terug in flexibiliteit.
Chinees bedrijf, geopolitieke overwegingen. Ik ga hier direct over zijn omdat ik denk dat het ertoe doet voor bepaalde gebruiksscenario's. MiniMax is gevestigd in China. Voor persoonlijke projecten, open-source-werk, en algemene ontwikkeling is dit irrelevant — de code die het genereert draait lokaal en de API-calls bevatten jouw prompts, net als bij elke andere modelprovider. Maar voor enterprise-implementaties met gevoelig intellectueel eigendom of overheidsgebonden werk zullen sommige organisaties compliance-vereisten hebben die rekening houden met de jurisdictie van de provider. Ken je beperkingen.
De Multi-Agent Architectuur — M2.7's Verborgen Kracht
Hier is iets dat niet naar voren kwam in mijn individuele tests maar overduidelijk werd toen ik uitzoomde en naar het patroon keek.
M2.7 is specifiek getraind voor multi-agent-orkestratie. Dat betekent dat het niet alleen goed is in het uitvoeren van taken — het is goed in het plannen van taken, het opsplitsen van complexe workflows in stappen, en het coördineren tussen verschillende uitvoeringsfasen. MiniMax noemt deze "Agent Teams" — clusters van AI-agenten die samenwerken met onderscheidende rollen.
In de praktijk betekent dit voor ontwikkelaars die M2.7 gebruiken via tools als Kilo Code of OpenRouter dat het model uitblinkt in gestructureerde, meerstaps-workflows. Onderzoek → analyse → generatie → review. Het decomponeert problemen van nature in fasen en behoudt consistentie over de stappen heen.
Ik testte dit door M2.7 een complexe prompt te geven: "Onderzoek de top 5 projectmanagementtools, maak een vergelijkingsmatrix, genereer een aanbevelingsrapport, en bouw een slidedeck dat de bevindingen samenvat." Het model dumpte dit niet allemaal in één antwoord. Het brak de taak op in duidelijke fasen, verwees naar zijn eigen eerdere output bij het opbouwen van vervolgfasen, en handhaafde een consistent analytisch raamwerk gedurende het hele proces.
De onderzoekskwaliteit was redelijk — niet zo diepgaand of actueel als wat je zou krijgen van een model met internettoegang, maar het structurele denken was sterk. De vergelijkingsmatrix was goed georganiseerd met consistente criteria. Het rapport citeerde specifieke bevindingen uit de matrix. Het slidedeck (gerenderd als HTML/CSS) haalde belangrijke visuals en datapunten uit het rapport.
MiniMax nam deel aan 22 ML-competities via MLE Bench Lite en behaalde een medaillepercentage van 66,6% — gelijk met Gemini 3.1. Dat is geen codeer-benchmark. Dat is een maat voor end-to-end probleemoplossing: de taak begrijpen, een aanpak ontwerpen, deze implementeren, en itereren tot de resultaten competitief zijn. Het feit dat M2.7 Gemini evenaart op deze metriek vertelt me dat de multi-agent-training echt werk levert.
Wie Dit Model Daadwerkelijk Zou Moeten Gebruiken
Na vier dagen testen ben ik tot een helder mentaal model gekomen voor waar M2.7 past.
Gebruik M2.7 wanneer:
- Je hoogwaardige frontend-generatie nodig hebt en de taak binnen 24K context past
- Je prototypes, demo's of MVP's bouwt waar snelheid en kosten belangrijker zijn dan architecturale perfectie
- Je creatief-interactieve output wilt (games, visualisaties, productviewers) — dit is waar M2.7 me oprecht verraste
- Je high-volume batchoperaties draait waar per-token-kosten direct je budget beïnvloeden
- Je meerstaps-taakplanning en workflowdecompositie nodig hebt
- Je modellen evalueert voor agentische toepassingen en Opus-niveau redenering wilt tegen een radicaal andere prijs
Blijf bij Opus/Sonnet wanneer:
- Je grote context windows nodig hebt (24K vs 200K is een echte kloof voor complexe codebases)
- Je iteratief debugt aan architecturaal complexe problemen waar het model fundamenteel andere benaderingen moet proberen
- Je multimodale invoer nodig hebt (screenshots, afbeeldingen, diagrammen)
- Je de diepste instructie-opvolging nodig hebt over 60+ berichtwisselingen
- Enterprise-compliance een in de VS gevestigde modelprovider vereist
De sweet spot is M2.7 gebruiken naast je primaire model, niet in plaats ervan. Ik ben mijn snelle generatietaken — landingspagina's, UI-componenten, creatieve demo's, gameprototypes — via M2.7 gaan routeren en bewaar Opus voor het complexe debuggen, long-context-architectuurwerk, en multi-bestand refactoring-sessies. De kostenbesparing is significant genoeg dat deze hybride aanpak zichzelf binnen een week terugverdient.
Wat de Zelfevolutie Betekent voor de Toekomst
Ik wil eindigen met het onderwerp dat me werkelijk wakker houdt sinds ik begon met het testen van M2.7. Niet de benchmarks. Niet de prijs. De zelfverbeteringslus.
Een model dat 100+ rondes van autonome optimalisatie doorliep en er 30% beter uitkwam is niet zomaar een productupdate. Het is een proof of concept voor een fundamenteel ander ontwikkelparadigma. Traditionele AI-ontwikkeling gaat zo: mensen verzamelen data, mensen ontwerpen trainingsruns, mensen evalueren resultaten, mensen beslissen wat er moet veranderen. M2.7's pipeline verving de mens bij 30-50% van die fasen — en de resultaten waren competitief met modellen die volledig door menselijke teams zijn gebouwd.
Volgens MiniMax' technische blog is hun visie om "geleidelijk over te gaan naar volledige autonomie" in de modelontwikkelingspipeline. Wat gebeurt er wanneer de volgende versie 70% afhandelt? 90%? Wanneer het aantal iteraties van 100 rondes naar 10.000 gaat?
Ik bouw al een tijdje zelfverbeterende AI-systemen, en ik kan je uit ervaring vertellen — de eerste keer dat je een systeem ziet dat zichzelf oprecht verbetert zonder jouw input, verandert het hoe je denkt over wat AI-ontwikkeling betekent. M2.7 is het eerste commercieel beschikbare model waarbij het model zelf een betekenisvolle deelnemer was aan zijn eigen creatie.
Dat is geen gimmick. Dat is een traject.
Op dit moment, vandaag, is MiniMax M2.7 een extreem kosteneffectief model dat ver boven zijn gewichtsklasse uitstijgt bij creatief coderen, frontend-generatie, en meerstaps-taakuitvoering. Het heeft duidelijke beperkingen — het context window, het iteratieve debugplafond, het ontbreken van multimodale invoer. Ik zou mijn Opus-workflow er niet door vervangen.
Maar ik voeg het toe aan mijn gereedschapskist. De gokautomaat-test, de 360-graden productviewer, het gold miner-spel — dit waren geen outputs van een budgetmodel dat probeert bij te houden. Dit waren outputs van een model dat, in specifieke domeinen, al vooroploopt.
De vraag die door mijn hoofd blijft spoken: als een zelfontwikkelend model voor $0,30 per miljoen input tokens vandaag deze kwaliteit levert, hoe ziet versie M2.8 er dan uit? En wie bouwt het — het MiniMax-team, of M2.7 zelf?
Veelgestelde Vragen
Is MiniMax M2.7 gratis te gebruiken?
Ja, je kunt M2.7 gratis gebruiken via de MiniMax Agent webchatbot, OpenRouter's gratis tier, en Kilo Code CLI met inbegrepen credits. Betaalde API-toegang begint bij $0,30 per miljoen input tokens via OpenRouter of MiniMax' eigen platform.
Hoe verhoudt MiniMax M2.7 zich tot Claude Opus 4.6?
M2.7 benadert Opus-niveau prestaties op codeer-benchmarks (56,22% SWE-Bench Pro vs Opus' toptier) tegen ruwweg 1/20e van de inputkosten. Opus wint op context window (200K vs 24K tokens), vasthoudendheid bij iteratief debuggen, multimodale invoer, en instructie-opvolging over lange gesprekken. Voor een gedetailleerde Opus-analyse, zie mijn Opus 4.6 hands-on review.
Wat betekent "zelfevoluerende AI" voor MiniMax M2.7?
MiniMax M2.7 voerde autonoom 100+ rondes van zelfverbetering uit — het analyseerde eigen fouten, paste eigen code aan, evalueerde resultaten, en behield of draaide wijzigingen terug — zonder menselijke tussenkomst. Dit proces leverde een prestatiewinst van 30% op en vertegenwoordigt een vroeg proof of concept voor AI-systemen die deelnemen aan hun eigen ontwikkeling.
Wat is de grootte van MiniMax M2.7's context window?
M2.7 heeft een context window van 24.000 tokens. Dit is voldoende voor gerichte enkelvoudige taakgeneratie (componenten, games, landingspagina's) maar beperkend voor grote codebase-analyses of uitgebreide multi-bestand refactoring-sessies die vereisen dat context over veel bestanden tegelijk wordt vastgehouden.
Kan ik MiniMax M2.7 gebruiken met codeertools zoals Kilo Code?
Ja. MiniMax heeft officiële integratiedocumentatie beschikbaar gesteld voor Kilo Code (VS Code-extensie en CLI), Claude Code, Cursor, en andere grote ontwikkelaarstools. Kilo Code biedt gratis credits voor M2.7-gebruik, wat het een van de makkelijkste manieren maakt om het model te testen in een echte ontwikkelworkflow.
Laten We Samenwerken
Wil je AI-systemen bouwen, workflows automatiseren, of je technische infrastructuur opschalen? Ik help je graag.
- Fiverr (maatwerk builds & integraties): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (enterprise-oplossingen): ramlit.com
- ColorPark (design & branding): colorpark.io
- xCyberSecurity (beveiligingsdiensten): xcybersecurity.io