Xiaomi MiMo 2.5 Pro testé : nouvelle frontière open source ?

J'ai lu "Xiaomi" dans le titre et j'ai presque continué à faire défiler.

Cela semble dédaigneux. C'est vrai, un peu. Mais voici la vérité honnête sur la façon dont j’avais trié les lancements de modèles à poids ouvert d’ici avril 2026 : il y en avait trop. DeepSeek a livré la V4 en février. Kimi K 2.6 est tombé juste après. GLM 5 Pony a augmenté. MiniMax M2.7 a suivi. Qwen a publié quatre variantes en un seul mois. Chacun d'entre eux était accompagné d'une vidéo de lancement remplie d'animations de dock et de clones Minecraft, et chacun d'entre eux a culminé quelque part au sud de Opus 4.6 sur les charges de travail que j'exécute réellement pour les clients. Ainsi, lorsque la notification MarkTechPost a été reçue le 22 avril – Xiaomi publie MiMo-V2.5 et V2.5-Pro – ma première réaction a été de la classer sous « Je parcourrai le graphique de référence plus tard ».

Puis j'ai vu le prix. 1 $ par million de tokens d'entrée. 3 $ par million de tokens de sortie. Licence MIT. 1,02 billion de paramètres au total. 42B actif. Contexte de token 1M. Et un score SWE-bench Pro de 57,2 – battant le 53,4 de Claude Opus 4.6 sur le même harnais.

Ce n'est pas un lancement que je peux classer sous "plus tard". C'est un lancement où je ferme les exécutions de mon agent et commence les tests.

J'ai passé les cinq jours suivants à tester Xiaomi MiMo 2.5 Pro à travers tout ce à quoi je pouvais penser : des boucles agents avec des centaines d'appels d'outils, les démos frontales absurdes dont la vidéo de lancement se vantait, des refactors multi-fichiers sur une véritable base de code Laravel, des simulations 3D dans Three.js et quelques-unes des charges de travail sur lesquelles Opus 4.7 avait été cela me fait du bien de payer 15 $ d'entrée / 75 $ de sortie. Certains d’entre eux étaient une véritable surprise. Certains d’entre eux ont confirmé exactement ce à quoi je m’attendais. Et une découverte spécifique a changé le modèle que je recherchais en premier sur une charge de travail que j'exécute des dizaines de fois par semaine – mais probablement pas la charge de travail que vous devineriez dans la vidéo de lancement.

Voici ce qui complique le récit simple du « la Chine lance un modèle frontier à bas prix » : les victoires de référence sont réelles, l'efficacité du token est déraisonnable et les modes de défaillance sont étranges et méritent d'être connus avant de connecter cela à une pile d'agents de production. Je vais résoudre tout cela avant de quitter ce message.

Pourquoi il est étonnant que Xiaomi lance un modèle frontier

Nous sommes à quatre mois de ce que l'on appellera la montée en puissance de l'open source de 2026 – la période où l'écart entre les produits phares américains hébergés et les modèles chinois téléchargeables a cessé d'être un écart et a commencé à être une fissure capillaire. J'ai couvert la version DeepSeek V4 Pro en février et je l'ai qualifié de premier modèle à pondérations ouvertes véritablement compétitif sur le codage agent. Ce message est toujours exact. DeepSeek V4 a été le premier. MiMo 2.5 Pro est le deuxième, mais c'est celui qui devrait rendre l'équipe de tarification d'Anthropic nerveuse.

Ce qui est étrange, ce n’est pas la capacité. Ce qui est étrange, c'est la société qui l'expédie.

Xiaomi fabrique des téléphones. Ils fabriquent des cuiseurs à riz et des purificateurs d’air. Ils ont une division automobile qui expédie de vrais SUV. Il ne s'agit pas d'un laboratoire AI, c'est un conglomérat matériel. Et le 22 avril 2026, ils ont publié en open source un modèle de mélange d'experts de 1,02 T qui bat Claude Opus 4.6 sur SWE-bench Pro et correspond à GPT-5.4 sur des benchmarks agents à long terme. Sous licence MIT. Avec utilisation commerciale explicitement autorisée. Avec les poids du modèle en direct sur Hugging Face le même jour que l'annonce.

Ce n'est pas ainsi que les laboratoires AI sont livrés. C'est ainsi qu'une entreprise de matériel informatique expédie ses produits lorsqu'elle décide que le marché doit être réinitialisé.

Le pitch sur la page officielle Xiaomi MiMo est simple : architecture d'attention hybride, fenêtre contextuelle de 1 048 576 tokens, sortie maximale de 131 072 tokens, optimisée pour les flux de travail agents qui couvrent des milliers d'appels d'outils. Le prix via OpenRouter se situe à 1 $ d'entrée / 3 $ de sortie par million de tokens – un quinzième du débit d'entrée de Opus 4.7 et un vingt-cinquième de son débit de sortie. Accès gratuit via le pool de crédits de 25 $ de Kilo Code, le standard API d'OpenRouter et un chatbot sur l'interface MiMo Studio pour des invites occasionnelles.

Notez cependant les choix de référence, car Xiaomi était très spécifique. Ils revendiquent leur leadership sur SWE-bench Pro, GDPval et ClawEval, trois évaluations dans lesquelles l'efficacité des tokens et la cohérence à long terme comptent plus que la capacité brute d'un seul coup. Ils n'ont pas mené avec HumanEval ou MMLU. Ils ont été en tête avec les benchmarks qui mesurent le comportement d'un modèle au sein d'une boucle d'agent réelle avec des centaines d'appels d'outils.

Ce n'est pas un accident de marketing. C'est une thèse.

Avant d'aborder la répartition charge de travail par charge de travail, vous devez comprendre le pari architectural qui se cache dans cette thèse, car elle explique chaque résultat qui suit.

Le pari sur l’efficacité des tokens que personne d’autre ne fait

Voici ce qui, à mon avis, se passe réellement. Xiaomi n'a pas essayé de gagner la course aux capacités absolues. Ils ont essayé de gagner la course à la capacité par token à la frontière – et cela nécessite une décision architecturale fondamentalement différente de celle prise par Anthropic, OpenAI ou Google.

Opus 4.7 est optimisé pour les appels uniques à enjeux élevés. Il en va de même pour GPT-5.5. Il en va de même pour Gemini 3.1 Pro. Le prix reflète cela : lorsque vous payez 15 $/75 $ par million sur Opus 4.7, vous achetez la longue traîne – la seule décision sur cent où le modèle plus petit aurait introduit un bug subtil en production.

MiMo 2.5 Pro est optimisé pour un travail cohérent à long terme. Le contexte du token 1M n'est pas flexible ; c'est porteur. Lorsque vous exécutez une boucle agent qui extrait 200 000 tokens de contexte de dépôt, planifie un refactor en 14 étapes, effectue 600 appels d'outils et réécrit 40 000 tokens de code, la question cesse d'être "chaque appel est-il aussi intelligent qu'Opus ?" La question devient « le modèle reste-t-il cohérent à l'appel 487 ?

L'article de MarkTechPost a noté quelque chose qui m'a marqué : MiMo 2.5 Pro termine le benchmark du compilateur SysY en 4,3 heures sur 672 appels d'outils, obtenant un score parfait de 233/233 par rapport à la suite de tests cachée. C’est le genre de tâche qui prend un semestre complet à un étudiant de premier cycle en informatique. Le modèle ne s'est pas contenté de se terminer : il s'est terminé en brûlant environ 70 000 tokens par trajectoire sur ClawEval, soit 40 à 60 % de tokens en moins que Opus 4.6, Gemini 3.1 Pro ou GPT-5.4 avec la même barre de capacités.

L'efficacité des tokens n'est pas un chiffre qui passionne quiconque dans une vidéo de lancement. Mais si vous exécutez des boucles d’agents de production à grande échelle, c’est le seul chiffre qui compte. Un modèle 5 % plus intelligent mais brûlant 2 fois plus de tokens est un pire modèle pour le travail des agents. Un modèle 5 % plus stupide mais brûlant 0,5 fois plus de tokens est le bon outil pour presque toutes les charges de travail à long terme.

Ce cadrage est la raison pour laquelle j'ai dû exécuter les tests avec soin. La question n'est pas « MiMo 2.5 Pro est-il meilleur que Opus 4.7 ? » La question est « quelle forme spécifique de travail gère-t-il suffisamment bien – et à un coût suffisamment bas – pour que je devrais d'abord arrêter de recourir à Opus ? »

Voici ce que j'ai trouvé.

Test 1 : le clone de navigateur macOS - là où la démo tient

J'ai commencé avec la démo Xiaomi qui dirigeait la vidéo de lancement avec : un clone de bureau macOS complet fonctionnant entièrement dans le navigateur. Chercheur. Safari. Messages. Remarques. Cartes. Photos. Musique. Terminal avec animation en ligne de commande. Calculatrice. Calendrier. Widget météo. Panneau de paramètres. Le tout dans un seul ensemble HTML/CSS/JS.

J'ai donné à MiMo 2.5 Pro la même invite que celle que j'avais donnée à Opus 4.7 la semaine dernière et à Qwen 3.6 Max Preview la semaine précédente : créer un clone de bureau macOS fonctionnel, un fichier unique, une pile Web Vanilla, avec au moins huit applications fonctionnelles et un dock de travail avec grossissement en survol.

Le résultat était – et je veux être prudent avec ce mot – étonnamment compétent. L'animation du dock avait la bonne courbe de grossissement. Le chrome de la fenêtre avait le rayon de coin et l'atténuation des ombres corrects. La calculatrice a effectué des calculs en virgule flottante sans les erreurs d'arrondi que j'ai vu faire des modèles plus petits. Notes avait un indicateur de sauvegarde automatique fonctionnel. Terminal avait une animation de caractères dactylographiés qui semblait vraiment correcte. Les cartes ont généré une grille de ville reconnaissable avec des commandes de zoom.

Il a été rendu dès la première exécution. Pas après avoir corrigé trois erreurs de console. Première course.

Mais c'est ici que la faiblesse spécifique de MiMo 2.5 Pro est apparue – et je tiens à la signaler car c'est le genre de chose que la vidéo de lancement ignore. La barre d'outils supérieure était presque correcte et pas tout à fait. Le menu Apple était là mais n'avait pas de liste déroulante. Le panneau Paramètres est rendu, mais la plupart des bascules n'étaient qu'une décoration non fonctionnelle. Le modèle a terminé les 80 % visibles de la démo et a ignoré la couche de polissage qui prend deux fois plus de temps à un véritable ingénieur que le montage brut.

À titre de comparaison, Opus 4.7 a produit un résultat environ 12 % plus soigné : une meilleure typographie, des panneaux de paramètres fonctionnels, une lightbox Photos plus raffinée. Mais la génération a pris 3,4 fois plus de temps et a coûté environ 14 fois plus en tokens. GPT-5.5 a produit quelque chose de sensiblement plus faible : le dock avait l'air mauvais, deux des applications présentaient des bugs de mise en page et l'animation du terminal était instable.

Il s'agit de la charge de travail pour laquelle MiMo 2.5 Pro a été conçu au rapport prix par fonctionnalité : génération de code frontal avec une grande latitude créative, sortie en une seule fois, aucun débogage de suivi nécessaire pour la fonctionnalité de base. Si vous pouvez vous contenter de finir la couche de vernis vous-même, vous payez un quinzième du coût.

Mais avant de supposer que cette tendance est valable partout, le prochain test consiste à déterminer où elle se fissure.

Test 2 : le clone Minecraft - là où l’ambition dépasse l’exécution

Le deuxième test était la démo dont j'étais le plus sceptique par rapport à la vidéo de lancement. Un clone Minecraft fonctionnel dans le navigateur : terrain procédural, blocs cassables, textures, eau, nuages, systèmes de grottes, minerais, une interface utilisateur d'inventaire.

MiMo 2.5 Pro a livré une version fonctionnelle. Le bris de blocs a fonctionné. Le placement de blocs a fonctionné. Textures appliquées. L'eau avait un reflet crédible. Les nuages dérivaient. Les grottes contenaient des minerais incrustés dans les bonnes couches rocheuses. L'interface utilisateur de l'inventaire affichait des emplacements, une barre de raccourcis et une interface déplaçable.

Ensuite, j'ai essayé de marcher jusqu'au bout du monde.

Le monde ne génère pas infiniment. Il y a un cadre de délimitation de terrain fixe, et une fois que vous le dépassez, vous tombez à travers le sol dans le vide. Ce n'est pas un bug subtil - c'est le modèle qui décide que "clone Minecraft" signifiait une arène finie plutôt que la véritable génération procédurale de chargement de morceaux qui fait de Minecraft Minecraft.

J'ai donné la même invite à Opus 4.7 à des fins de comparaison. Opus a produit un monde plus petit (une grille fixe de 64 × 64 contre 128 × 128 de MiMo), pas de grottes, des textures plus simples – mais il a explicitement noté dans les commentaires du code que le chargement infini de morceaux était hors de portée pour une requête à invite unique. GPT-5.5 a d'abord refusé, invoquant la complexité, puis a produit une démo technique de cubes qui n'était pas vraiment considérée comme un jeu.

La leçon de ce test : MiMo 2.5 Pro est ambitieux. Il s'attaque aux parties difficiles d'un problème d'une manière que les produits phares américains ne le font pas. Parfois, la portée est payante. Parfois, il produit 90 % d’une démo impressionnante et saute discrètement les 10 % qui l’auraient rendue réellement correcte. Si vous faites du prototypage et que la qualité visible compte plus que ce que vous pouvez vous permettre de déboguer, le prix plus élevé d'Opus sur cette charge de travail spécifique est payant.

Si vous faites du prototypage et que vous comptez quand même refactoriser la sortie, MiMo 2.5 Pro vous amène à un point de départ utilisable beaucoup plus rapidement et beaucoup moins cher.

Test 3 : le stress test Three.js - physique de SUV, systèmes solaires et détail de Pong

C’est là que se révèle la véritable personnalité du modèle.

Je lui ai donné un ensemble d'invites de simulation 3D que j'utilise depuis la suppression de GPT-5.4 : rendre un SUV effectuant un test de durabilité tout-terrain sur un terrain procédural, restituer un système solaire avec une mécanique orbitale précise, restituer une salle de télévision des années 2000 avec un CRT fonctionnel montrant des feux d'artifice, restituer un arbre fractal, restituer une volée d'oiseaux avec une physique boid, restituer un jeu de Pong fonctionnel avec visualisation audio.

MiMo 2.5 Pro a livré six démos. Cinq d’entre eux étaient vraiment impressionnants. Le test physique du SUV a montré un roulis de caisse, un débattement de suspension et une déformation des pneus qui ont battu Gemini 3 Flash en comparaison directe. Le système solaire avait des périodes orbitales correctes (la Terre effectue une révolution en 365 secondes modèles, Jupiter en 4 332). L'arbre fractal s'est ramifié de manière récursive avec une randomisation crédible. Le troupeau d’oiseaux a utilisé des règles appropriées de séparation, d’alignement et de cohésion des corps. Le jeu Pong était la version la plus propre de Pong que j'ai vue sur un modèle réduit de bateau : la physique des pagaies semblait correcte, l'accélération de la balle s'est correctement accélérée, la visualisation audio répondait réellement aux collisions balle-palette plutôt que de simplement exécuter une forme d'onde générique.

La démo de la salle TV est celle qui m'a surpris. Le CRT avait le bon effet de ligne de balayage. Le feu d'artifice avait la physique des particules. La ville nocturne dans la fenêtre a été générée de manière procédurale avec des lumières de bâtiment crédibles. Il y avait même un petit océan visible au loin avec des shaders de vagues réfléchissants. La visualisation audio était reliée à un motif de synthétiseur qui semblait réellement cohérent.

C'est le test où MiMo 2.5 Pro a véritablement embarrassé Gemini 3 Flash et a tenu tête à Opus 4.7. Pour la composition de scènes 3D avec plusieurs systèmes coordonnés, c'est le meilleur modèle à poids ouverts que j'ai utilisé.

Il y a eu une démo où il a perdu : une visionneuse de produit à 360 degrés pour une sneaker. MiMo 2.5 Pro a correctement livré la logique de rotation, mais n'a pas pu implémenter la personnalisation des couleurs : cliquer sur les échantillons a modifié l'état de l'interface utilisateur mais n'a pas mis à jour les propriétés matérielles du modèle 3D. DeepSeek V4 avait résolu cette invite exacte le mois dernier. Ainsi, si vous créez un véritable configurateur de produits 3D, la V4 reste l'outil idéal. Pour tout le reste de cet ensemble de contraintes, MiMo 2.5 Pro est compétitif avec des modèles facturant 10 à 15 fois plus par token.

Test 4 : la vraie charge de travail - refactorisation Laravel multi-fichiers

Les démos frontales sont amusantes, mais ce n’est pas pour cela que je suis payé. Le test qui m'intéressait le plus était une charge de travail client réelle : une base de code Laravel 12 avec 47 fichiers, un système d'autorisations qui devait être migré d'une implémentation ACL personnalisée vers les classes de stratégie intégrées de Laravel, avec une compatibilité descendante totale sur le contrat API.

Il s'agit de la charge de travail que j'exécute sur Opus 4.7 lorsque le budget le permet et sur Qwen 3.6 Plus lorsqu'il ne le permet pas. Environ 280 000 tokens de contexte sont extraits. L’agent fonctionne pendant 90 à 180 minutes. Les appels d'outils atterrissent entre 200 et 500 selon la propreté du code existant.

J'ai exécuté la même invite de trois manières : Opus 4.7 comme référence, Qwen 3.6 Max Preview comme challenger budgétaire, MiMo 2.5 Pro comme nouvelle variable.

Opus 4.7 a pris 142 minutes, a effectué 312 appels d'outils, a produit une migration propre qui a réussi les 184 tests existants lors de la première exécution et a coûté environ 11,40 $ en tokens. Le résultat était le genre de travail que j’enverrais à un client sans deuxième passage.

Qwen 3.6 Max Preview a pris 168 minutes, a effectué 387 appels d'outils, a réussi 178 tests /184 lors de la première exécution et a coûté environ 1,20 $ en tokens. Les six échecs concernaient tous l’héritage des autorisations de pointe – réparables en peut-être 25 minutes de nettoyage humain.

MiMo 2.5 Pro a pris 156 minutes, a effectué 287 appels d'outils, a réussi 181 tests /184 lors de la première exécution et a coûté environ 0,95 $ en tokens. Les trois échecs concernaient tous un domaine spécifique : une dépendance circulaire dans l'enregistrement de la politique que j'avais en fait signalée comme une mine terrestre connue dans l'invite. MiMo a géré le reste de la migration plus propre que Qwen, a utilisé moins d'appels d'outils qu'Opus et a produit un code plus proche du style de la base de code existant que l'un ou l'autre concurrent.

C’est le résultat qui a changé ma façon de voir ma pile d’agents. Pour une charge de travail qui me coûte 11 $ sur Opus, MiMo 2.5 Pro m'a permis d'obtenir 98 % du même résultat pour moins d'un dollar. L'écart de 2 % est réel – et pour le travail client où je facture directement le coût du modèle, ces 2 % valent la peine d'être payés. Mais pour mon propre travail interne, pour le prototypage, pour les dizaines de petits refactors que j'exécute au cours d'une semaine typique ? L’économie a changé dès la fin de ce test.

Si vous préférez que quelqu'un crée une pile d'agents de qualité production qui sélectionne réellement le bon modèle par charge de travail, c'est exactement le genre d'engagement que je prends via [ma liste Fiverr] (https://www.fiverr.com/s/EgxYmWD).

Ce que MiMo 2.5 Pro rate - la liste honnête des échecs

Cinq jours de tests. Je ne vais pas prétendre que le modèle est uniformément impressionnant. Voici la liste honnête des échecs, dans l’ordre où cela m’a coûté le plus de temps :

1. Le saut de la couche de polissage. C'est le mode de défaillance le plus constant que j'ai vu. Le modèle termine les 80 % visibles d'une tâche frontale créative et ignore discrètement la couche de polissage : bascules non fonctionnelles, listes déroulantes incomplètes, animation manquante pour faciliter les interactions secondaires. Il n'échoue pas — il livre quelque chose qui fait de bonnes démonstrations et s'effondre lors d'un deuxième examen. Si vous utilisez MiMo 2.5 Pro pour des prototypes destinés aux clients, prévoyez de réaliser vous-même les 20 % restants.

2. Le saut à portée infinie. Comme la frontière mondiale Minecraft, MiMo 2.5 Pro interprétera parfois une demande de génération ouverte comme une version finie de lui-même. Le terrain procédural devient une grille fixe. Le défilement infini devient une liste paginée. Le modèle ne ment pas sur ce qu'il a construit - il ne pose tout simplement pas la question de clarification que Opus 4.7 aurait posée. Ajoutez un langage explicite « infinite/unbounded/procedural » à vos invites lorsque vous le pensez.

3. Le pélican sur un vélo. J'ai effectué le test d'ambiance SVG standard : pélican faisant du vélo, peintures dégradées, animation de rabats d'ailes de papillon. Deux des trois ont réussi. L'animation de pédalage des pattes du pélican était désactivée : les articulations tournaient mais le contact pied-pédale n'était pas synchronisé, il semblait donc que l'oiseau lévitait avec ses pattes agitées plutôt que de pédaler réellement. Kimi K 2.6 avait été meilleur sur l'invite de peintures en dégradé le mois dernier. Petite chose, mais c'est révélateur que la logique de synchronisation de l'animation de MiMo n'est pas tout à fait là où se situe la frontière.

4. L'écart du configurateur de produit 3D. Comme indiqué ci-dessus, le modèle peut restituer des scènes 3D impressionnantes, mais a du mal avec les mises à jour interactives des propriétés des matériaux lors des entrées de l'utilisateur. DeepSeek V4 est toujours en tête sur cette charge de travail spécifique.

5. Le rapport raisonnement/résultat. Sur les tâches de raisonnement plus difficiles (du genre où Opus 4.7 « réfléchit plus longtemps » et produit une réponse plus prudente), MiMo 2.5 Pro a tendance à s'engager dans sa première chaîne de raisonnement plutôt que de revenir en arrière. C'est plus rapide et moins cher. C'est également moins vrai lorsque le problème nécessite réellement de revenir en arrière. Pour les boucles agents simples, cela n'apparaît pas. Pour les tâches de raisonnement véritablement difficiles – déboguer une condition de concurrence subtile, démêler une preuve d’exactitude algorithmique complexe – Opus 4.7 gagne toujours, et l’écart de prix cesse d’avoir de l’importance.

Aucun de ces éléments n’est décisif. Tous méritent d'être connus avant de connecter le modèle à une pile de production et de les découvrir à 2 heures du matin.

Où cela s’inscrit - le paysage de l’IA open source après MiMo

La frontière de l'open source au début de 2026 avait une hiérarchie claire. DeepSeek V4 était le codeur agent le plus puissant. Kimi K 2.6 était le plus performant en matière de production créative de longue durée. GLM 5 Pony était le plus performant en raisonnement multimodal. Qwen 3.6 Max Preview était le plus puissant en termes de génération frontale à un seul coup. MiniMax M2.7 était le plus puissant en matière de coordination multi-agents soutenue.

MiMo 2.5 Pro vient de regrouper trois de ces niches en un seul modèle. Il correspond à DeepSeek V4 sur le codage agent tout en gravant 40 % de tokens en moins. Il correspond à Kimi K 2.6 sur la sortie créative pour les tâches gourmandes en code. Il correspond à GLM 5 sur le raisonnement multimodal pour les charges de travail typiques. Cela ne bat pas chaque spécialiste dans sa spécialité, mais ce n'est pas nécessaire. Cela vous donne un modèle unique qui gère la longue traîne des charges de travail agents sans vous obliger à changer de modèle par tâche.

C’est la position véritablement intéressante qu’occupe MiMo 2.5 Pro. Ce n'est pas le modèle à pondérations ouvertes le plus intelligent (DeepSeek V4 le devance toujours dans les tâches de raisonnement les plus difficiles). Ce n'est pas le moins cher (Qwen 3.6 Plus est gratuit et suffisant pour un travail occasionnel). C'est le modèle avec le meilleur rapport capacité-couverture par dollar que j'ai trouvé dans le niveau de pondération ouverte.

Pour ma pile d'agents à l'avenir : Opus 4.7 reste le modèle que j'utilise lorsque le coût d'une mauvaise réponse est élevé. MiMo 2.5 Pro devient la valeur par défaut pour tout le reste. Qwen 3.6 Plus reste le prototype gratuit du niveau I. DeepSeek V4 reste pour les charges de travail de raisonnement spécifiques où son avantage apparaît.

C'est un changement significatif. Il y a un mois, cet emplacement par défaut était Qwen 3.6 Max Preview. Deux semaines auparavant, c'était Opus 4.7 lui-même.

Comment essayer MiMo 2.5 Pro ce week-end

Si vous souhaitez mettre la main sur le modèle dans l'heure qui suit, trois voies fonctionnent :

1. Accès gratuit au chatbot. Accédez à l'interface MiMo Studio et invitez-le directement. Pas de clé API. Aucun paiement. Le moyen le plus rapide de voir si le modèle correspond à votre charge de travail.

2. OpenRouter API. Disponible sur xiaomi/mimo-v2.5-pro pour 1 $ d'entrée / 3 $ de sortie par million de tokens. Compatible avec la plupart des frameworks d'agents. C'est ainsi que j'ai effectué tous les tests de cet article.

3. Kilo Code avec 25 $ de crédits gratuits. Si vous créez spécifiquement des flux de travail de codage agent, Kilo Code a officiellement intégré MiMo 2.5 Pro et offre 25 $ de crédits gratuits pour le tester. Environ 6,25 millions de tokens de sortie du budget de test.

4. Inférence multi-GPU locale. Les pondérations sont en direct sur Hugging Face sous XiaomiMiMo/MiMo-V2.5-Pro. Vous aurez besoin d’une infrastructure GPU importante pour exécuter localement un MoE 1,02T, mais c’est faisable pour les équipes disposant du budget matériel. Sous licence MIT, utilisation commerciale incluse.

Pour la plupart des lecteurs de cet article, OpenRouter ou Kilo Code seront le bon point d'entrée. Dépensez 5 $ en tokens pour exécuter le modèle sur trois ou quatre de vos charges de travail réelles. Vous saurez dès la première heure si cela vous rapporte une place dans votre stack.

Questions fréquemment posées

Xiaomi MiMo 2.5 Pro est-il meilleur que Claude Opus 4.7 ?

Pas sur les capacités brutes : Opus 4.7 gagne toujours dans les tâches de raisonnement les plus difficiles et produit des résultats plus soignés sur le travail frontal créatif. Mais MiMo 2.5 Pro fournit environ 90 à 95 % de la sortie de codage agentique d'Opus pour un quinzième du coût d'entrée et un vingt-cinquième du coût de sortie. Pour la plupart des charges de travail des agents de production, le rapport prix par capacité favorise largement MiMo.

Puis-je utiliser MiMo 2.5 Pro à des fins commerciales ?

Oui. Le modèle est publié sous la licence MIT avec une utilisation commerciale explicitement autorisée. Vous pouvez l'utiliser via des fournisseurs hébergés comme OpenRouter ou Kilo Code, ou vous pouvez télécharger les poids depuis Hugging Face et les auto-héberger sur une infrastructure multi-GPU. Aucune restriction d'utilisation, aucune redevance.

Quelle est la fenêtre de contexte réelle et la limite de sortie ?

MiMo 2.5 Pro prend en charge 1 048 576 tokens d'entrée (fenêtre contextuelle de 1 M) et 131 072 tokens de sortie maximum par appel. Ceux-ci sont tous deux vérifiés sur la liste OpenRouter et dans la documentation officielle Xiaomi. Le contexte 1M est véritablement utilisable pour les boucles d'agents à long terme, et non comme un chiffre de référence uniquement.

Comment MiMo 2.5 Pro se compare-t-il à DeepSeek V4 en termes de codage ?

Sur les charges de travail de codage agent standard, elles sont effectivement liées : MiMo est légèrement plus efficace en termes de tokens, DeepSeek V4 est légèrement plus puissant sur les tâches de raisonnement les plus difficiles. Le plus grand différenciateur est la sortie 3D interactive, où DeepSeek V4 est toujours leader en matière de configurateurs de produits et de mises à jour complexes des propriétés des matériaux. Pour tout le reste, choisissez en fonction du prix et de la latence du fournisseur qui conviennent le mieux à votre pile.

Quel est le problème avec le prix à 1 $/3 $ ?

Il n'y a pas de piège. Le prix reflète la décision stratégique de Xiaomi de rivaliser sur l'efficacité des tokens plutôt que sur la capacité par appel – et la version open source signifie que les fournisseurs hébergés comme OpenRouter se font concurrence pour proposer le modèle avec de faibles marges. Attendez-vous à ce que le prix plancher baisse davantage à mesure que davantage de fournisseurs se connectent, et non qu’il augmente.

La seule question qui mérite qu’on s’y arrête

J'ai commencé ce post presque sans ouvrir l'onglet. Je termine avec MiMo 2.5 Pro dans mon emplacement d'agent par défaut pour le mois prochain et Opus 4.7 réservé aux charges de travail où le coût d'une mauvaise réponse dépasse le coût des tokens.

C’est un changement plus important qu’il n’y paraît. Pendant la majeure partie de 2025 et le premier trimestre de 2026, « AI open source » signifiait « l'option bon marché à laquelle vous vous rabattez lorsque vous ne pouvez pas vous permettre le modèle réel ». MiMo 2.5 Pro est la première version dans laquelle ce cadrage a cessé d'être vrai. Le modèle réel est désormais en concurrence avec un modèle à poids ouvert qui coûte un quinzième plus cher, est livré sous MIT et n'a pas besoin d'être hébergé sur une infrastructure que vous ne contrôlez pas.

Si vous exécutez des charges de travail d'agent de production au cours du second semestre 2026 et que vous n'avez pas testé MiMo 2.5 Pro cette semaine, vous payez probablement trop cher d'un ordre de grandeur pour des charges de travail pour lesquelles la capacité marginale d'un produit phare fermé ne vous achète rien.

Voici donc la question qui mérite d'être posée ce soir : qu'est-ce qui fonctionne actuellement sur Opus 4.7 dans votre pile - et qu'est-ce qui changerait si un quinzième du coût vous obtenait 95 % du même résultat ?

Faites le test ce week-end. La réponse vous surprendra.

Travaillons ensemble

Vous cherchez à créer des systèmes AI, à automatiser les flux de travail ou à faire évoluer votre infrastructure technologique ? J'aimerais aider.

Fiverr (versions et intégrations personnalisées) : fiverr.com/s/EgxYmWD
Portefeuille : mejba.me
Ramlit Limited (solutions d'entreprise) : ramlit.com
ColorPark (conception et image de marque) : colorpark.io
xCyberSecurity (services de sécurité) : xcybersecurity.io

Xiaomi MiMo 2.5 Pro testé : nouvelle frontière open source ?