Xiaomi MiMo 2.5 Pro getest: open-source frontier?

Ik las "Xiaomi" in de kop en bleef bijna scrollen.

Dat klinkt afwijzend. Het is een beetje. Maar hier is de eerlijke waarheid over hoe ik de lanceringen van open-weight-modellen tegen april 2026 had beoordeeld: het waren er te veel. DeepSeek heeft de V4 in februari uitgebracht. Kimi K 2.6 viel meteen daarna weg. GLM 5 Pony is gestegen. MiniMax M2.7 volgde. Qwen heeft in één maand vier varianten uitgebracht. Ze werden allemaal geleverd met een lanceringsvideo vol dockanimaties en Minecraft-klonen, en allemaal bereikten ze ergens ten zuiden van Opus 4.6 een piek op de werklasten die ik feitelijk voor klanten uitvoer. Dus toen de MarkTechPost-melding op 22 april verscheen – Xiaomi brengt MiMo-V2.5 en V2.5-Pro uit – was mijn eerste reactie om het op te slaan onder "Ik zal later de benchmarkgrafiek doornemen."

Toen zag ik de prijs. $1 per miljoen invoertokens. Uitvoertokens van $ 3 per miljoen. MIT-licentie. 1,02 biljoen totale parameters. 42B actief. 1M-tokencontext. En een SWE-bench Pro-score van 57,2 – beter dan de 53,4 van Claude Opus 4.6 op hetzelfde harnas.

Dat is geen lancering die ik onder 'later' kan archiveren. Dat is een lancering waarbij ik mijn agentruns afsluit en begin met testen.

De volgende vijf dagen besteedde ik aan het doorzoeken van Xiaomi MiMo 2.5 Pro door alles wat ik maar kon bedenken: agentische loops met honderden toolaanroepen, de absurde front-end-demo's waar de lanceringsvideo over opschepte, refactoren van meerdere bestanden op een echte Laravel-codebase, 3D-simulaties in Three.js, en een paar van de werklasten waarbij Opus 4.7 gaf me een goed gevoel over het betalen van $15 input / $75 output. Een deel ervan was een echte verrassing. Een deel ervan bevestigde precies wat ik had verwacht. En één specifieke bevinding veranderde welk model ik als eerste zou bereiken op een werklast die ik tientallen keren per week uitvoer, maar waarschijnlijk niet de werklast die je zou raden uit de lanceringsvideo.

Dit is wat het gemakkelijke ‘China brengt goedkoop een frontiermodel uit’-verhaal ingewikkeld maakt: de benchmarkwinsten zijn reëel, de token-efficiëntie is onredelijk, en de faalmodi zijn raar en de moeite waard om te weten voordat je dit in een stapel van productieagenten aansluit. Ik zal dit allemaal oplossen voordat je dit bericht verlaat.

Waarom het bijzonder is dat Xiaomi een frontiermodel uitbrengt

We zijn vier maanden bezig met wat de open source-golf van 2026 zal worden genoemd: het traject waarin de kloof tussen gehoste Amerikaanse vlaggenschepen en downloadbare Chinese modellen niet langer een kloof was, maar een haarscheurtje begon te worden. Ik heb in februari verslag gedaan van de DeepSeek V4 Pro-release en noemde dit het eerste echt competitieve open-weights-model voor agentische codering. Dat bericht klopt nog steeds. DeepSeek V4 was de eerste. MiMo 2.5 Pro is de tweede, maar het is degene die het prijsteam van Anthropic nerveus zou moeten maken.

Het vreemde is niet de mogelijkheid. Het vreemde is dat het bedrijf het verzendt.

Xiaomi maakt telefoons. Ze maken rijstkokers en luchtreinigers. Ze hebben een autodivisie die echte SUV's verzendt. Ze zijn geen AI-lab, maar een hardwareconglomeraat. En op 22 april 2026 hebben ze een Mixture-of-Experts-model met een parameter van 1,02T beschikbaar gesteld dat Claude Opus 4.6 op SWE-bench Pro verslaat en GPT-5.4 evenaart op agentische benchmarks met een lange horizon. Onder de MIT-licentie. Waarbij commercieel gebruik uitdrukkelijk is toegestaan. Met de modelgewichten live op Hugging Face dezelfde dag als de aankondiging.

Dat is niet hoe AI-labs het doen. Dat is hoe een hardwarebedrijf te werk gaat als ze hebben besloten dat de markt opnieuw moet worden ingesteld.

De pitch op de [officiële Xiaomi MiMo-pagina] (https://mimo.xiaomi.com/mimo-v2-5-pro/) is eenvoudig: hybride aandachtsarchitectuur, contextvenster van 1.048.576 tokens, maximale uitvoer van 131.072 tokens, geoptimaliseerd voor agentische workflows die duizenden tooloproepen omvatten. De prijzen via OpenRouter bedragen $1 input / $3 output per miljoen tokens – een vijftiende van de inputsnelheid van Opus 4.7 en een vijfentwintigste van de outputsnelheid. Gratis toegang via de kredietpool van $ 25 van Kilo Code, de standaard API van OpenRouter en een chatbot in de MiMo Studio-interface voor informele aanwijzingen.

Let echter op de benchmarkkeuzes, omdat Xiaomi zeer specifiek was. Ze claimen leiderschap op SWE-bench Pro, GDPval en ClawEval – drie evaluaties waarbij tokenefficiëntie en coherentie over de lange horizon belangrijker zijn dan ruwe single-shot-mogelijkheden. Ze hadden geen leiding met HumanEval of MMLU. Zij waren toonaangevend met de benchmarks die meten hoe goed een model zich gedraagt binnen een daadwerkelijke agentloop met honderden tooloproepen.

Dat is geen marketingongeluk. Dat is een proefschrift.

Voordat ik op de uitsplitsing van de werklast per werklast inga, moet je de architecturale weddenschap begrijpen die in deze stelling verborgen zit, omdat deze elk resultaat dat volgt verklaart.

De gok op token-efficiëntie die niemand anders waagt

Dit is wat er volgens mij feitelijk aan de hand is. Xiaomi heeft niet geprobeerd de absolute capaciteitsrace te winnen. Ze probeerden de capability-per-token-race aan de grens te winnen – en dat vereist een fundamenteel andere architecturale beslissing dan de beslissing die Anthropic, OpenAI of Google nemen.

Opus 4.7 is geoptimaliseerd voor enkele oproepen met hoge inzet. Dat geldt ook voor GPT-5.5. Dat geldt ook voor Gemini 3.1 Pro. De prijs weerspiegelt dat: als je $ 15/$ 75 per miljoen betaalt voor Opus 4.7, koop je de long tail - de enige beslissing op honderd waarbij het kleinere model een subtiele bug in productie zou hebben gebracht.

MiMo 2.5 Pro is geoptimaliseerd voor coherent werk met een lange horizon. De 1M-tokencontext is geen flex; het is dragend. Wanneer je een agentische lus uitvoert die 200.000 tokens aan repo-context ophaalt, een refactor van 14 stappen plant, 600 tool-oproepen doet en 40.000 tokens aan code terugschrijft, is de vraag niet langer "is elke oproep net zo slim als Opus?" De vraag wordt: "Blijft het model coherent bij oproep 487?"

In het artikel van MarkTechPost werd iets opgemerkt dat mij bijbleef: MiMo 2.5 Pro voltooit de SysY-compilerbenchmark in 4,3 uur via 672 toolaanroepen en scoort een perfecte 233/233 ten opzichte van de verborgen testsuite. Dat is het soort taak waarvoor een sterke student informatica een volledig semester nodig heeft. Het model eindigde niet zomaar - het eindigde terwijl ongeveer 70.000 tokens per traject op ClawEval werden verbrand, wat 40 tot 60 procent minder tokens is dan Opus 4.6, Gemini 3.1 Pro of GPT-5.4 bij dezelfde capaciteitsbalk.

Token-efficiëntie is geen getal dat iemand opwindt in een lanceringsvideo. Maar als u productieagentlussen op schaal uitvoert, is dit het enige getal dat ertoe doet. Een model dat 5% slimmer is maar twee keer zoveel tokens verbrandt, is een slechter model voor agentwerk. Een model dat 5% dommer is maar 0,5x zoveel tokens verbrandt, is het juiste hulpmiddel voor bijna elke werklast aan de lange horizon.

Dat kader is de reden dat ik de tests zorgvuldig moest uitvoeren. De vraag is niet: "is MiMo 2.5 Pro beter dan Opus 4.7?" De vraag is: "Welke specifieke vorm van werk kan het goed genoeg aan - en goedkoop genoeg - zodat ik niet eerst naar het Opus moet grijpen?"

Dit is wat ik heb gevonden.

Test 1: de macOS-browserkloon - waar de demo overeind blijft

Ik begon met de demo waar Xiaomi de lanceringsvideo leidde met: een volledige macOS desktopkloon die volledig in de browser draait. Vinder. Safari. Berichten. Opmerkingen. Kaarten. Foto's. Muziek. Terminal met opdrachtregelanimatie. Rekenmachine. Kalender. Weerwidget. Paneel Instellingen. Alles in één HTML/CSS/JS-bundel.

Ik gaf MiMo 2.5 Pro dezelfde prompt die ik vorige week aan Opus 4.7 had gegeven en Qwen 3.6 Max Preview de week ervoor: bouw een werkende macOS desktopkloon, één bestand, vanillewebstack, met minstens acht functionele apps en een werkend dock met hoververgroting.

De output was – en ik wil voorzichtig zijn met dit woord – verrassend competent. De dock-animatie had de juiste vergrotingscurve. Raamchroom had de juiste hoekradius en schaduwval. De rekenmachine maakte berekeningen met drijvende komma zonder de afrondingsfouten die ik kleinere modellen heb zien maken. Notes had een werkende autosave-indicator. Terminal had een getypte karakteranimatie die eigenlijk goed aanvoelde. Kaarten gaven een herkenbaar stadsraster weer met zoombediening.

Het werd weergegeven tijdens de eerste run. Niet nadat ik drie consolefouten heb opgelost. Eerste vlucht.

Maar hier kwam de specifieke zwakte van MiMo 2.5 Pro naar voren - en ik wil dit markeren omdat dit iets is dat in de lanceringsvideo wordt overgeslagen. De bovenste werkbalk was bijna goed en niet helemaal. Het Apple-menu was er, maar had geen vervolgkeuzelijst. Het paneel Instellingen werd weergegeven, maar de meeste schakelaars waren niet-functionele decoratie. Het model voltooide de zichtbare 80% van de demo en sloeg de polijstlaag over waar een echte ingenieur twee keer zo lang over doet dan bij het ruwe slijpen.

Ter vergelijking: Opus 4.7 produceerde uitvoer die ongeveer 12% gepolijster was: betere typografie, panelen met werkinstellingen, een verfijndere Foto's-lightbox. Maar het duurde 3,4x langer om te genereren en kostte ongeveer 14x meer tokens. GPT-5.5 produceerde iets merkbaar zwakkers: het dock zag er niet goed uit, twee van de apps hadden lay-outfouten en de Terminal-animatie trilde.

Dit is de werklast die MiMo 2.5 Pro is gebouwd om te winnen bij de prijs-per-capaciteitsverhouding: front-end codegeneratie met veel creatieve speelruimte, single-shot uitvoer, geen vervolgfoutopsporing nodig voor de kern functionaliteit. Als je kunt leven met het zelf afwerken van de polijstlaag, betaal je een vijftiende van de kosten.

Maar voordat je aanneemt dat dit patroon overal geldt: de volgende test is waar het barst.

Test 2: de Minecraft-kloon - waar de ambitie groter is dan de uitvoering

De tweede test was de demo waar ik het meest sceptisch over was uit de lanceringsvideo. Een werkende Minecraft-kloon in de browser - procedureel terrein, breekbare blokken, texturen, water, wolken, grottensystemen, ertsen, een inventaris-UI.

MiMo 2.5 Pro heeft een werkende build verzonden. Blokbreken werkte. Het plaatsen van blokken werkte. Texturen toegepast. Water had een geloofwaardige glans. Wolken dreven. In grotten waren ertsen ingebed in de juiste rotslagen. De inventaris-UI toonde slots, hotbar en een versleepbare interface.

Toen probeerde ik naar de rand van de wereld te lopen.

De wereld genereert niet oneindig. Er is een vaste terreinafbakening, en zodra je er voorbij loopt, val je door de vloer in een leegte. Dat is geen subtiele bug - dat is het model dat besluit dat "Minecraft-kloon" een eindige arena betekende in plaats van de feitelijke procedurele generatie voor het laden van chunks die Minecraft Minecraft maakt.

Ik gaf dezelfde prompt aan Opus 4.7 ter vergelijking. Opus produceerde een kleinere wereld (een vast raster van 64x64 versus MiMo's 128x128), geen grotten, eenvoudiger texturen - maar het vermeldde expliciet in de codecommentaar dat het oneindig laden van chunks buiten het bereik was voor een verzoek met één prompt. GPT-5.5 weigerde aanvankelijk vanwege de complexiteit en produceerde vervolgens een technische demo van kubussen die niet echt als een spel kwalificeerden.

De les uit deze test: MiMo 2.5 Pro is ambitieus. Het reikt naar de harde delen van een probleem op een manier die de Amerikaanse vlaggenschepen niet doen. Soms loont het bereik. Soms produceert het 90% van een indrukwekkende demo en slaat stilletjes de 10% over die het daadwerkelijk correct zou hebben gemaakt. Als u aan het prototypen bent en de zichtbare kwaliteit belangrijker is dan u zich kunt veroorloven om fouten te debuggen, loont de prijspremie voor Opus voor deze specifieke werklast.

Als je aan het prototypen bent en de uitvoer toch gaat refactoreren, brengt MiMo 2.5 Pro je veel sneller en veel goedkoper naar een bruikbaar startpunt.

Test 3: de Three.js-stresstest - SUV-fysica, zonnestelsels en het Pong-detail

Dit is waar de echte persoonlijkheid van het model naar voren kwam.

Ik heb het een 3D-simulatiepromptset gegeven die ik gebruik sinds de introductie van GPT-5.4: geef een SUV weer die een offroad-duurzaamheidstest doet op procedureel terrein, geef een zonnestelsel weer met nauwkeurige orbitale mechanica, geef een tv-kamer uit de jaren 2000 weer met een werkende CRT die vuurwerk laat zien, geef een fractale boom weer, geef een zwerm vogels weer met boid-fysica, geef een werkend Pong-spel weer met audiovisualisatie.

MiMo 2.5 Pro heeft zes demo's verzonden. Vijf daarvan waren werkelijk indrukwekkend. De fysicatest van de SUV had een carrosserierol, veerweg en bandvervorming die bij directe vergelijking de Gemini 3 Flash versloegen. Het zonnestelsel had correcte omlooptijden (de aarde voltooit een omwenteling in 365 modelseconden, Jupiter doet er 4.332 over). De fractale boom vertakt zich recursief met geloofwaardige randomisatie. De vogelzwerm gebruikte de juiste regels voor scheiding, uitlijning en cohesie van de boid. Het Pong-spel was de schoonste versie van Pong. Ik heb een modelschip gezien - de peddelfysica voelde goed, de balversnelling liep correct op, audiovisualisatie reageerde feitelijk op botsingen tussen bal en peddel in plaats van alleen maar een generieke golfvorm uit te voeren.

De tv-kamerdemo was degene die mij verraste. De CRT had het juiste scanlijneffect. Het vuurwerk had deeltjesfysica. De nachtstad in het raam werd procedureel gegenereerd met geloofwaardige gebouwverlichting. In de verte was zelfs een kleine oceaan zichtbaar met reflecterende golfschaduwen. De audiovisualisatie was aangesloten op een synthpatroon dat feitelijk coherent klonk.

Dit is de test waarbij MiMo 2.5 Pro Gemini 3 Flash echt in verlegenheid bracht en zich staande hield tegenover Opus 4.7. Voor 3D-scènecompositie met meerdere gecoördineerde systemen is dit het beste model met open gewicht dat ik heb gebruikt.

Er was één demo waar het verloren ging: een 360 graden productviewer voor een sneaker. MiMo 2.5 Pro leverde de rotatielogica correct, maar kon geen werkende kleuraanpassing implementeren. Als u op de stalen klikte, veranderde de UI-status, maar werden de materiaaleigenschappen van het 3D-model niet bijgewerkt. DeepSeek V4 had deze exacte prompt vorige maand bereikt. Dus als je een echte 3D-productconfigurator bouwt, is V4 nog steeds de tool. Voor al het andere in deze stressset is MiMo 2.5 Pro concurrerend met modellen die 10-15x meer per token vragen.

Test 4: de echte workload - multi-file Laravel-refactor

Front-end demo's zijn leuk, maar daar word ik niet voor betaald. De test waar ik het meest om gaf was een echte clientwerklast: een Laravel 12-codebase met 47 bestanden, een machtigingssysteem dat moest worden gemigreerd van een aangepaste ACL-implementatie naar de ingebouwde beleidsklassen van Laravel, met volledige achterwaartse compatibiliteit op het API-contract.

Dit is de werklast die ik uitvoer op Opus 4.7 wanneer het budget dit toelaat, en op Qwen 3.6 Plus wanneer dit niet het geval is. Er worden ongeveer 280.000 tokens aan context binnengehaald. De agent loopt 90-180 minuten. Tooloproepen komen ergens tussen de 200 en 500 terecht, afhankelijk van hoe schoon de bestaande code is.

Ik heb dezelfde prompt op drie manieren uitgevoerd: Opus 4.7 als de basislijn, Qwen 3.6 Max Preview als de budgetuitdager, MiMo 2.5 Pro als de nieuwe variabele.

Opus 4.7 duurde 142 minuten, voerde 312 tool calls uit, produceerde een schone migratie die bij de eerste run alle 184 bestaande tests doorstond en kostte ongeveer $ 11,40 aan tokens. De output was het soort werk dat ik zonder tweede doorgang naar een klant zou sturen.

Qwen 3.6 Max Preview duurde 168 minuten, voerde 387 tool calls uit, doorstond 178/184 tests bij de eerste run en kostte ongeveer $ 1,20 aan tokens. De zes fouten hadden allemaal te maken met overerving van permissies in randgevallen, die in misschien 25 minuten menselijke opruiming konden worden opgelost.

MiMo 2.5 Pro duurde 156 minuten, voerde 287 tool calls uit, doorstond 181/184 tests bij de eerste run en kostte ongeveer $ 0,95 aan tokens. De drie mislukkingen hadden allemaal betrekking op één specifiek gebied: een circulaire afhankelijkheid in de polisregistratie die ik in de prompt had gemarkeerd als een bekende landmijn. MiMo verzorgde de rest van de migratieopruimer dan Qwen, gebruikte minder toolaanroepen dan Opus en produceerde code die dichter bij de stijl van de bestaande codebase leek dan welke concurrent dan ook.

Dat is het resultaat dat de manier veranderde waarop ik over mijn agentenstapel denk. Voor een werklast die mij €11 kost op Opus, heeft MiMo 2.5 Pro mij tot 98% van hetzelfde resultaat gebracht voor minder dan een dollar. Het verschil van 2% is reëel – en bij klantwerk waarbij ik de modelkosten rechtstreeks factureer, is die 2% de moeite waard om voor te betalen. Maar voor mijn eigen interne werk, voor het maken van prototypes, voor de tientallen kleine refactors die ik in een gemiddelde week uitvoer? De economie veranderde op het moment dat de test eindigde.

Als je liever hebt dat iemand een agentenstack van productiekwaliteit bouwt die daadwerkelijk het juiste model per werklast kiest, dan is dat precies het soort betrokkenheid dat ik aanneem via [mijn Fiverr-lijst] (https://www.fiverr.com/s/EgxYmWD).

Wat MiMo 2.5 Pro fout doet - de eerlijke faallijst

Vijf dagen testen. Ik ga niet doen alsof het model even indrukwekkend is. Hier is de eerlijke lijst met mislukkingen, in de volgorde waarin het mij de meeste tijd kostte:

1. Het overslaan van de polijstlaag. Dit is de meest consistente fout die ik heb gezien. Het model voltooit de zichtbare 80% van een creatieve front-endtaak en slaat stilletjes de polijstlaag over: niet-functionele schakelaars, onvolledige vervolgkeuzelijsten, ontbrekende animaties die secundaire interacties versoepelen. Het faalt niet: het levert iets op dat goed demonstreert en uit elkaar valt bij een tweede beoordeling. Als u MiMo 2.5 Pro gebruikt voor klantgerichte prototypes, plan dan om de laatste 20% zelf te doen.

2. De oneindige scope skip. Net als de Minecraft-wereldgrens interpreteert MiMo 2.5 Pro soms een generatieverzoek met een open einde als een eindige versie van zichzelf. Procedureel terrein wordt een vast raster. Oneindig scrollen wordt een gepagineerde lijst. Het model liegt niet over wat het heeft gebouwd; het stelt alleen niet de verhelderende vraag die Opus 4.7 zou hebben gesteld. Voeg expliciete "infinite/unbounded/procedural"-taal toe aan uw aanwijzingen als u het meent.

3. De pelikaan op een fiets. Ik heb de standaard SVG-vibestest uitgevoerd: pelikaan op een fiets, gradiëntschilderijen, vlindervleugelflapanimatie. Twee van de drie hebben het gehaald. De animatie van het trappen van de pelikaan was uitgeschakeld: de gewrichten draaiden maar het voet-pedaalcontact was niet gesynchroniseerd, dus het leek alsof de vogel zweefde met zwaaiende poten in plaats van daadwerkelijk te trappen. Kimi K 2.6 was vorige maand beter geweest op het gebied van gradiëntschilderijen. Een kleinigheidje, maar het is een teken dat de animatietiminglogica van MiMo niet helemaal op het grensvlak ligt.

4. Het gat in de 3D-productconfigurator. Zoals hierboven opgemerkt: het model kan indrukwekkende 3D-scènes weergeven, maar heeft moeite met interactieve updates van materiaaleigenschappen op basis van gebruikersinvoer. DeepSeek V4 leidt nog steeds op die specifieke werklast.

5. De verhouding redeneren versus output. Bij zwaardere redeneringstaken (het soort waarbij Opus 4.7 merkbaar "langer nadenkt" en een zorgvuldiger antwoord oplevert), heeft MiMo 2.5 Pro de neiging zich te houden aan de eerste reeks redeneringen in plaats van terug te keren. Het is sneller en goedkoper. Het is ook minder juist als het probleem daadwerkelijk moet worden teruggedraaid. Voor eenvoudige agentische lussen verschijnt dit niet. Voor echt moeilijke redeneringstaken – het debuggen van een subtiele raceconditie, het ontwarren van een complex algoritmisch correctheidsbewijs – wint Opus 4.7 nog steeds, en doet het prijsverschil er niet meer toe.

Geen van deze zaken zijn dealbreakers. Ze zijn allemaal de moeite waard om te kennen voordat je het model in een productiestack aansluit en ze om 02.00 uur ontdekt.

Waar dit past - het open-source AI-landschap na MiMo

De open-sourcegrens begin 2026 kende een duidelijke hiërarchie. DeepSeek V4 was de sterkste agentcodeur. Kimi K 2.6 was de sterkste op het gebied van lange creatieve output. GLM 5 Pony was de sterkste in multimodaal redeneren. Qwen 3.6 Max Preview was de sterkste bij single-shot front-endgeneratie. MiniMax M2.7 was de sterkste op het gebied van duurzame coördinatie tussen meerdere agenten.

MiMo 2.5 Pro heeft zojuist drie van die niches samengevoegd tot één model. Het komt overeen met DeepSeek V4 op het gebied van agentische codering terwijl er 40% minder tokens worden verbrand. Het komt overeen met Kimi K 2.6 wat betreft creatieve uitvoer voor taken met veel code. Het komt overeen met GLM 5 op het gebied van multimodaal redeneren voor typische werklasten. Het verslaat niet elke specialist op zijn of haar specialiteit, maar dat hoeft ook niet. Wat het doet, is dat u één enkel model krijgt dat de lange staart van agentische werklasten afhandelt zonder dat u per taak van model hoeft te wisselen.

Dat is de werkelijk interessante positie die MiMo 2.5 Pro inneemt. Het is niet het slimste model met open gewichten (DeepSeek V4 presteert nog steeds beter bij de moeilijkste redeneringstaken). Het is niet de goedkoopste (Qwen 3.6 Plus is gratis en goed genoeg voor informeel werk). Het is het model met de beste verhouding capaciteit-dekking-per-dollar die ik heb gevonden in de categorie met open gewichten.

Voor mijn toekomstige agentenstapel: Opus 4.7 blijft het model waar ik naar streef als de kosten van een verkeerd antwoord hoog zijn. MiMo 2.5 Pro wordt de standaard voor al het andere. Qwen 3.6 Plus blijft het gratis Tier I-prototype. DeepSeek V4 blijft voor de specifieke, moeilijk te redeneren werklasten waar de voorsprong naar voren komt.

Dat is een betekenisvolle verandering. Een maand geleden was dat standaardniveau Qwen 3.6 Max Preview. Twee weken daarvoor was het Opus 4.7 zelf.

Hoe je MiMo 2.5 Pro dit weekend echt kunt proberen

Als u het model het komende uur in handen wilt krijgen, zijn er drie mogelijkheden:

1. Gratis toegang tot chatbots. Ga naar de MiMo Studio-interface en vraag direct om een melding. Geen API-sleutel. Geen betaling. De snelste manier om te zien of het model bij uw werklast past.

2. OpenRouter API. Beschikbaar op xiaomi/mimo-v2.5-pro voor $1 input / $3 output per miljoen tokens. Drop-in compatibel met de meeste agentframeworks. Dit is hoe ik elke test in dit bericht heb uitgevoerd.

3. Kilo Code met $25 gratis credits. Als u specifiek agentische coderingsworkflows bouwt, heeft Kilo Code MiMo 2.5 Pro officieel geïntegreerd en biedt $25 aan gratis credits aan om het te testen. Ongeveer 6,25 miljoen outputtokens van het testbudget.

4. Lokale multi-GPU-gevolgtrekking. Gewichten zijn live op Hugging Face onder XiaomiMiMo/MiMo-V2.5-Pro. Je hebt een aanzienlijke GPU-infrastructuur nodig om een 1,02T MoE lokaal te laten draaien, maar het is haalbaar voor teams met een hardwarebudget. Onder MIT-licentie, inclusief commercieel gebruik.

Voor de meeste lezers van dit bericht zal OpenRouter of Kilo Code het juiste toegangspunt zijn. Geef $ 5 uit aan tokens om het model uit te voeren voor drie of vier van uw echte workloads. Je weet binnen het eerste uur of het een plekje in je stack verdient.

Veelgestelde vragen

Is Xiaomi MiMo 2.5 Pro beter dan Claude Opus 4.7?

Niet op pure capaciteiten: Opus 4.7 wint nog steeds bij de moeilijkste redeneringstaken en produceert meer gepolijste output bij creatief front-end werk. Maar MiMo 2.5 Pro levert ruwweg 90-95% van Opus' agentische codeeroutput tegen een vijftiende van de inputkosten en een vijfentwintigste van de outputkosten. Voor de meeste werklasten van productieagenten is de prijs-per-capaciteitsverhouding ruimschoots in het voordeel van MiMo.

Kan ik MiMo 2.5 Pro commercieel gebruiken?

Ja. Het model is vrijgegeven onder de MIT-licentie waarbij commercieel gebruik expliciet is toegestaan. U kunt het gebruiken via gehoste providers zoals OpenRouter of Kilo Code, of u kunt de gewichten downloaden van Hugging Face en zelf hosten op een multi-GPU-infrastructuur. Geen gebruiksbeperkingen, geen royalty's.

Wat is het daadwerkelijke contextvenster en de uitvoerlimiet?

MiMo 2.5 Pro ondersteunt 1.048.576 invoertokens (1M contextvenster) en maximaal 131.072 uitvoertokens per oproep. Deze zijn beide geverifieerd op de OpenRouter-lijst en de officiële Xiaomi-documentatie. De 1M-context is echt bruikbaar voor agentlussen met een lange horizon, en niet alleen als benchmark.

Hoe verhoudt MiMo 2.5 Pro zich tot DeepSeek V4 wat betreft coderen?

Bij standaard agentische coderingsworkloads zijn ze effectief gebonden: MiMo is iets token-efficiënter, DeepSeek V4 is iets sterker bij de moeilijkste taken die zwaar redeneren. De grotere onderscheidende factor is interactieve 3D-uitvoer, waarbij DeepSeek V4 nog steeds toonaangevend is op het gebied van productconfigurators en complexe updates van materiaaleigenschappen. Voor al het andere kiest u op basis van de prijs en latentie van de provider die het beste werkt voor uw stack.

Wat is het addertje onder het gras met de prijzen van $1/$3?

Er is geen vangst. De prijs weerspiegelt de strategische beslissing van Xiaomi om te concurreren op token-efficiëntie in plaats van op per-call-mogelijkheden – en de open-source release betekent dat gehoste providers zoals OpenRouter concurreren om het model met dunne marges aan te bieden. Verwacht dat de prijsbodem verder zal dalen naarmate er meer aanbieders online komen, en niet zal stijgen.

De ene vraag die het waard is om bij stil te staan

Ik begon dit bericht bijna zonder het tabblad te openen. Ik beëindig het met MiMo 2.5 Pro in mijn standaard agentslot voor de komende maand en Opus 4.7 gereserveerd voor de werklasten waarbij de kosten van een verkeerd antwoord groter zijn dan de kosten van de tokens.

Dat is een grotere verschuiving dan het klinkt. Voor het grootste deel van 2025 en het eerste kwartaal van 2026 betekende 'open-source AI' 'de goedkope optie waarop je terugvalt als je het echte model niet kunt betalen'. MiMo 2.5 Pro is de eerste release waarin die framing niet meer waar is. Het echte model concurreert nu met een open-weights-model dat een vijftiende zoveel kost, wordt verzonden onder MIT en niet hoeft te worden gehost op infrastructuur waarover u geen controle heeft.

Als u in de tweede helft van 2026 werklasten voor productieagenten uitvoert en MiMo 2.5 Pro deze week niet hebt getest, betaalt u waarschijnlijk een orde van grootte te veel voor werklasten waarbij de marginale mogelijkheden van een gesloten vlaggenschip u eigenlijk niets opleveren.

Dus hier is de vraag die de moeite waard is om vanavond bij stil te staan: wat draait er momenteel op Opus 4.7 in je stack – en wat zou er veranderen als een vijftiende van de kosten je 95% van hetzelfde resultaat zou opleveren?

Voer dit weekend de test uit. Het antwoord zal je verrassen.

Laten we samenwerken

Wilt u AI-systemen bouwen, workflows automatiseren of uw technische infrastructuur schalen? Ik help je graag.

Fiverr (aangepaste builds en integraties): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (ondernemingsoplossingen): ramlit.com
ColorPark (ontwerp en branding): colorpark.io
xCyberSecurity (beveiligingsdiensten): xcybersecurity.io

Xiaomi MiMo 2.5 Pro getest: open-source frontier?