Xiaomi MiMo 2.5 Pro getestet: Open-Source-Frontier?

Ich habe „Xiaomi“ in der Überschrift gelesen und wäre fast weiter gescrollt.

Das klingt abweisend. Es ist ein bisschen. Aber hier ist die ehrliche Wahrheit darüber, wie ich bis April 2026 die Markteinführung von Modellen mit offenem Gewicht getestet habe – es waren zu viele. DeepSeek hat V4 im Februar ausgeliefert. Kimi K 2.6 wurde direkt danach gelöscht. GLM 5 Pony ist gestiegen. MiniMax M2.7 folgte. Qwen hat in einem einzigen Monat vier Varianten veröffentlicht. Zu jedem von ihnen gehörte ein Startvideo voller Dock-Animationen und Minecraft-Klone, und jeder von ihnen erreichte seinen Höhepunkt irgendwo südlich von Opus 4.6 bei den Workloads, die ich tatsächlich für Kunden ausführe. Als die MarkTechPost-Benachrichtigung am 22. April eintraf – Xiaomi veröffentlicht MiMo-V2.5 und V2.5-Pro – war meine erste Reaktion, sie unter „Ich werde die Benchmark-Tabelle später überfliegen“ einzureichen.

Dann habe ich den Preis gesehen. 1 $ pro Million eingegebener Token. 3 $ pro Million ausgegebener Token. MIT-Lizenz. 1,02 Billionen Gesamtparameter. 42B aktiv. 1 Mio. Token-Kontext. Und ein SWE-bench Pro-Score von 57,2 – besser als Claude Opus 4.6s 53,4 auf dem gleichen Gurt.

Das ist kein Start, den ich unter „später“ ablegen kann. Das ist ein Start, bei dem ich meine Agentenläufe schließe und mit dem Testen beginne.

Ich verbrachte die nächsten fünf Tage damit, Xiaomi MiMo 2.5 Pro durch alles zu führen, was mir einfiel – Agentenschleifen mit Hunderten von Tool-Aufrufen, die absurden Front-End-Demos, mit denen das Einführungsvideo prahlte, Multi-File-Refactors auf einer echten Laravel-Codebasis, 3D-Simulationen in Three.js und einige der Workloads, wo Opus 4.7 hat mir ein gutes Gefühl gegeben, weil ich 15 $ Input und 75 $ Output bezahlt habe. Manches davon war eine echte Überraschung. Einiges davon bestätigte genau das, was ich erwartet hatte. Und eine bestimmte Erkenntnis hat sich geändert, zu welchem Modell ich bei einem Workload, den ich Dutzende Male pro Woche ausführe, zuerst greife – aber wahrscheinlich nicht der Workload, die Sie anhand des Einführungsvideos vermuten würden.

Hier ist, was das einfache Narrativ „China liefert ein Frontier-Modell zum Spottpreis“ komplizierter macht: Die Benchmark-Siege sind real, die Token-Effizienz ist unangemessen und die Fehlermodi sind seltsam und es lohnt sich, sie zu kennen, bevor Sie dies in einen Produktionsagentenstapel integrieren. Ich werde das alles klären, bevor Sie diesen Beitrag verlassen.

Warum es ungewöhnlich ist, dass Xiaomi ein Frontier-Modell veröffentlicht

Wir befinden uns bereits seit vier Monaten in dem sogenannten Open-Source-Aufschwung des Jahres 2026 – der Zeitspanne, in der die Kluft zwischen gehosteten amerikanischen Flaggschiffen und herunterladbaren chinesischen Modellen keine Lücke mehr, sondern nur noch einen Haarriss aufweist. [Ich habe im Februar über die Pro-Version von Dieser Beitrag ist immer noch korrekt. DeepSeek V4 war der erste. MiMo 2.5 Pro ist der zweite – aber es ist derjenige, der das Preisteam von Anthropic nervös machen sollte.

Das Merkwürdige daran ist nicht die Fähigkeit. Das Merkwürdige daran ist, dass das Unternehmen es versendet.

Xiaomi stellt Telefone her. Sie stellen Reiskocher und Luftreiniger her. Sie haben eine Automobilabteilung, die echte SUVs liefert. Sie sind kein AI-Labor, sie sind ein Hardware-Konglomerat. Und am 22. April 2026 stellten sie ein Mixture-of-Experts-Modell mit 1,02T-Parametern als Open-Source-Lösung zur Verfügung, das Claude Opus 4.6 auf Unter der MIT-Lizenz. Eine kommerzielle Nutzung ist ausdrücklich gestattet. Mit den Modellgewichten live auf Hugging Face am selben Tag wie die Ankündigung.

So liefern die AI-Labors nicht aus. So verhält sich ein Hardware-Unternehmen, wenn es entschieden hat, dass der Markt neu ausgerichtet werden muss.

Der Pitch auf der [offiziellen Xiaomi Die Preise über OpenRouter liegen bei 1 US-Dollar Input / 3 US-Dollar Output pro Million Token – ein Fünfzehntel der Input-Rate von Opus 4.7 und ein Fünfundzwanzigstel der Output-Rate. Kostenloser Zugang über den 25-Dollar-Guthabenpool von Kilo Code, den Standard-API von OpenRouter und einen Chatbot an der MiMo Studio-Schnittstelle für gelegentliche Eingabeaufforderungen.

Beachten Sie jedoch die Benchmark-Auswahl, da Xiaomi sehr spezifisch war. Sie beanspruchen die Führung bei SWE-bench Pro, GDPval und ClawEval – drei Bewertungen, bei denen Token-Effizienz und langfristige Kohärenz wichtiger sind als reine Single-Shot-Fähigkeit. Sie führten nicht mit HumanEval oder MMLU. Sie führten mit den Benchmarks an, die messen, wie gut sich ein Modell innerhalb einer tatsächlichen Agentenschleife mit Hunderten von Toolaufrufen verhält.

Das ist kein Marketing-Unfall. Das ist eine These.

Bevor ich zur Aufschlüsselung nach Workload komme, müssen Sie die architektonische Wette verstehen, die sich in dieser These verbirgt – denn sie erklärt jedes folgende Ergebnis.

Die Token-Effizienz-Wette, die sonst niemand eingeht

Hier ist, was meiner Meinung nach tatsächlich vor sich geht. Xiaomi hat nicht versucht, das Rennen um die absolute Leistungsfähigkeit zu gewinnen. Sie haben versucht, das Rennen um die Fähigkeit pro Token an der Grenze zu gewinnen – und das erfordert eine grundlegend andere Architekturentscheidung als die, die Anthropic, OpenAI oder Google treffen.

Opus 4.7 ist für Einzelanrufe mit hohen Einsätzen optimiert. Das Gleiche gilt für GPT-5.5. Das Gleiche gilt für Gemini 3.1 Pro. Die Preisgestaltung spiegelt Folgendes wider: Wenn Sie für Opus 4.7 15 bzw. 75 US-Dollar pro Million zahlen, kaufen Sie das Longtail – die einzige Entscheidung unter hundert, bei der das kleinere Modell einen subtilen Fehler in die Produktion gebracht hätte.

MiMo 2.5 Pro ist für kohärente Langzeitarbeit optimiert. Der 1M-Token-Kontext ist kein Flex; es ist tragend. Wenn Sie eine Agentenschleife ausführen, die 200.000 Token des Repo-Kontexts abruft, einen 14-stufigen Refactor plant, 600 Tool-Aufrufe durchführt und 40.000 Token des Codes zurückschreibt, stellt sich nicht mehr die Frage: „Ist jeder Aufruf so intelligent wie Opus?“ Die Frage lautet: „Bleibt das Modell bei Aufruf 487 kohärent?“

Im MarkTechPost-Beitrag wurde etwas erwähnt, das mir im Gedächtnis geblieben ist: Das ist die Art von Aufgabe, für die ein starker Informatikstudent ein ganzes Semester braucht. Das Modell wurde nicht einfach fertig – es wurde fertig, während auf ClawEval ungefähr 70.000 Token pro Flugbahn verbrannt wurden, was 40 bis 60 Prozent weniger Token als Opus 4.6, Gemini 3.1 Pro oder GPT-5.4 bei derselben Fähigkeitsleiste ist.

Die Token-Effizienz ist keine Zahl, die irgendjemanden in einem Einführungsvideo begeistert. Aber wenn Sie Produktionsagentenschleifen in großem Maßstab ausführen, ist nur diese Zahl von Bedeutung. Ein Modell, das 5 % intelligenter ist, aber doppelt so viele Tokens verbraucht, ist ein schlechteres Modell für Agentenarbeit. Ein Modell, das 5 % dümmer ist, aber das 0,5-fache an Tokens verbraucht, ist das richtige Werkzeug für fast jede langfristige Arbeitslast.

Aus diesem Grund musste ich die Tests tatsächlich sorgfältig durchführen. Die Frage lautet nicht: „Ist MiMo 2.5 Pro besser als Opus 4.7?“ Die Frage ist: „Welche konkrete Art von Arbeit bewältigt es gut genug – und kostengünstig genug –, dass ich zunächst aufhören sollte, nach Opus zu greifen?“

Hier ist, was ich gefunden habe.

Test 1: Der macOS-Browserklon – wo die Demo standhält

Ich begann mit der Demo. Xiaomi leitete das Einführungsvideo mit: einem vollständigen macOS-Desktop-Klon, der vollständig im Browser läuft. Finder. Safari. Nachrichten. Notizen. Karten. Fotos. Musik. Terminal mit Befehlszeilenanimation. Kalkulator. Kalender. Wetter-Widget. Einstellungsfeld. Alles in einem einzigen HTML/CSS/JS-Paket.

Ich habe MiMo 2.5 Pro die gleiche Aufforderung gegeben, die ich letzte Woche Opus 4.7 und Qwen 3.6 Max Preview in der Woche zuvor gegeben hatte: Erstellen Sie einen funktionierenden macOS-Desktop-Klon, einzelne Datei, Vanilla-Webstack, mit mindestens acht funktionsfähigen Apps und einem funktionierenden Dock mit Hover-Vergrößerung.

Die Ausgabe war – und ich möchte mit diesem Wort vorsichtig sein – erstaunlich kompetent. Die Dock-Animation hatte die richtige Vergrößerungskurve. Fensterchrom hatte den richtigen Eckenradius und Schattenabfall. Der Rechner führte Gleitkomma-Rechnungen ohne die Rundungsfehler durch, die ich bei kleineren Modellen beobachtet habe. Notizen verfügten über eine funktionierende Anzeige für die automatische Speicherung. Terminal hatte eine Animation mit getippten Charakteren, die sich wirklich richtig anfühlte. Karten haben ein erkennbares Stadtraster mit Zoomsteuerung gerendert.

Es wurde beim ersten Durchlauf gerendert. Nicht, nachdem ich drei Konsolenfehler behoben habe. Erster Lauf.

Aber hier zeigte sich die spezifische Schwäche von MiMo 2.5 Pro – und ich möchte darauf hinweisen, weil so etwas im Einführungsvideo übersprungen wird. Die obere Symbolleiste war fast richtig und nicht ganz. Das Apple-Menü war vorhanden, hatte aber kein Dropdown-Menü. Das Einstellungsfenster wurde gerendert, aber die meisten Schalter waren nicht funktionale Dekoration. Das Modell hat die sichtbaren 80 % der Demo fertiggestellt und die Polierschicht übersprungen, die für einen echten Ingenieur doppelt so lange dauert wie für den Rohschnitt.

Zum Vergleich: Opus 4.7 erzeugte eine Ausgabe, die etwa 12 % ausgefeilter war – bessere Typografie, Bedienfelder für Arbeitseinstellungen, eine verfeinerte Foto-Lightbox. Die Generierung dauerte jedoch 3,4-mal länger und kostete etwa 14-mal mehr Token. GPT-5.5 erzeugte etwas deutlich Schwächeres – das Dock sah aus, zwei der Apps hatten Layoutfehler und die Terminal-Animation zitterte.

Dies ist die Arbeitslast, die MiMo 2.5 Pro entwickelt hat, um im Preis-Leistungs-Verhältnis zu überzeugen: Front-End-Codegenerierung mit großem kreativen Spielraum, Single-Shot-Ausgabe, kein nachfolgendes Debugging für die Kern-Funktionalität erforderlich. Wenn Sie damit leben können, die Politur selbst fertigzustellen, zahlen Sie ein Fünfzehntel der Kosten.

Aber bevor Sie davon ausgehen, dass das Muster überall gilt, müssen wir beim nächsten Test feststellen, wo es bricht.

Test 2: Der Minecraft-Klon - wo der Anspruch die Umsetzung überholt

Der zweite Test war die Demo, der ich im Einführungsvideo am skeptischsten gegenüberstand. Ein funktionierender Minecraft-Klon im Browser – prozedurales Gelände, zerbrechliche Blöcke, Texturen, Wasser, Wolken, Höhlensysteme, Erze, eine Inventar-Benutzeroberfläche.

MiMo 2.5 Pro hat einen funktionierenden Build geliefert. Das Aufbrechen von Blöcken hat funktioniert. Blockplatzierung hat funktioniert. Texturen angewendet. Wasser hatte einen glaubwürdigen Schimmer. Wolken zogen. In Höhlen waren Erze in den richtigen Gesteinsschichten eingebettet. Die Inventar-Benutzeroberfläche zeigte Slots, Hotbar und eine ziehbare Oberfläche.

Dann habe ich versucht, bis ans Ende der Welt zu laufen.

Die Welt erzeugt nicht unendlich viel. Es gibt einen festen Geländebegrenzungsrahmen, und wenn man daran vorbeigeht, fällt man durch den Boden ins Leere. Das ist kein subtiler Fehler – das ist das Modell, das entscheidet, dass „Minecraft-Klon“ eine endliche Arena bedeutet und nicht die eigentliche prozedurale Erzeugung von Chunk-Loading, die Minecraft zu Minecraft macht.

Zum Vergleich habe ich Opus 4.7 die gleiche Eingabeaufforderung gegeben. Opus erzeugte eine kleinere Welt (ein festes 64×64-Gitter im Vergleich zu 128×128 von MiMo), keine Höhlen, einfachere Texturen – aber in den Codekommentaren wurde ausdrücklich darauf hingewiesen, dass das Laden unendlicher Blöcke für eine einzelne Eingabeaufforderungsanfrage nicht möglich war. GPT-5.5 weigerte sich zunächst mit der Begründung, es sei komplex, produzierte dann aber eine Tech-Demo mit Würfeln, die eigentlich nicht als Spiel geeignet waren.

Die Lehre aus diesem Test: MiMo 2.5 Pro ist ehrgeizig. Es geht auf eine Art und Weise an die schwierigen Teile eines Problems, wie es die amerikanischen Flaggschiffe nicht tun. Manchmal zahlt sich die Reichweite aus. Manchmal produziert es 90 % einer beeindruckenden Demo und überspringt stillschweigend die 10 %, die es tatsächlich korrekt gemacht hätten. Wenn Sie Prototypen erstellen und die sichtbare Qualität wichtiger ist, als Sie sich das Debuggen leisten können, zahlt sich der Preisaufschlag für Opus für diese spezielle Arbeitslast aus.

Wenn Sie Prototypen erstellen und die Ausgabe ohnehin umgestalten möchten, gelangen Sie mit MiMo 2.5 Pro viel schneller und viel kostengünstiger zu einem nutzbaren Ausgangspunkt.

Test 3: Das Three.js-Stressset - SUV-Physik, Sonnensysteme und das Pong-Detail

Hier kam die wahre Persönlichkeit des Models zum Vorschein.

Ich habe ihm ein Eingabeaufforderungsset für 3D-Simulationen gegeben, das ich seit der Veröffentlichung von GPT-5.4 verwende: Rendern Sie einen SUV, der einen Offroad-Haltbarkeitstest auf prozeduralem Gelände durchführt, rendern Sie ein Sonnensystem mit präziser Orbitalmechanik, rendern Sie einen Fernsehraum aus den 2000er Jahren mit einer funktionierenden CRT, auf der Feuerwerk gezeigt wird, rendern Sie einen fraktalen Baum, rendern Sie einen Vogelschwarm mit Boid-Physik, rendern Sie ein funktionierendes Pong-Spiel mit Audiovisualisierung.

MiMo 2.5 Pro hat sechs Demos ausgeliefert. Fünf davon waren wirklich beeindruckend. Beim SUV-Physiktest wurden Karosserieneigung, Federweg und Reifenverformung ermittelt, die im direkten Vergleich den Gemini 3 Flash übertrafen. Das Sonnensystem hatte korrekte Umlaufzeiten (die Erde vollendet eine Umdrehung in 365 Modellsekunden, Jupiter benötigt 4.332). Der fraktale Baum verzweigte sich rekursiv mit glaubwürdiger Randomisierung. Der Vogelschwarm wendete die richtigen Regeln für die Trennung, Ausrichtung und den Zusammenhalt der Körper an. Das Pong-Spiel war die sauberste Pong-Version, die ich je bei einem Schiffsmodell gesehen habe – die Paddelphysik fühlte sich richtig an, die Ballbeschleunigung wurde korrekt erhöht, die Audiovisualisierung reagierte tatsächlich auf Ball-Paddel-Kollisionen und nicht nur auf die Wiedergabe einer generischen Wellenform.

Die TV-Room-Demo hat mich überrascht. Die CRT hatte den richtigen Scan-Line-Effekt. Das Feuerwerk hatte Teilchenphysik. Die Nachtstadt im Fenster wurde prozedural mit glaubwürdigen Gebäudelichtern generiert. In der Ferne war sogar ein kleiner Ozean mit reflektierenden Wellen-Shadern zu sehen. Die Audiovisualisierung war mit einem Synthesizermuster verknüpft, das tatsächlich kohärent klang.

Dies ist der Test, bei dem MiMo 2.5 Pro Gemini 3 Flash wirklich in Verlegenheit brachte und sich gegen Opus 4.7 behaupten konnte. Für die 3D-Szenenkomposition mit mehreren koordinierten Systemen ist es das beste offene Gewichtungsmodell, das ich je verwendet habe.

Es gab eine Demo, bei der es verloren ging: ein 360-Grad-Produktbetrachter für einen Sneaker. MiMo 2.5 Pro hat die Rotationslogik korrekt geliefert, konnte jedoch keine funktionierende Farbanpassung implementieren – durch Klicken auf die Farbfelder wurde der UI-Status geändert, die Materialeigenschaften des 3D-Modells wurden jedoch nicht aktualisiert. DeepSeek V4 hatte letzten Monat genau diese Aufforderung getroffen. Wenn Sie also einen echten 3D-Produktkonfigurator erstellen, ist V4 immer noch das richtige Werkzeug. Für alles andere in diesem Stress-Set ist MiMo 2.5 Pro konkurrenzfähig mit Modellen, die 10–15x mehr pro Token verlangen.

Test 4: Die reale Arbeitslast - Multi-File-Laravel-Refactor

Frontend-Demos machen Spaß, sind aber nicht das, wofür ich bezahlt werde. Der Test, der mir am meisten am Herzen lag, war ein echter Client-Workload: eine Laravel 12-Codebasis mit 47 Dateien, ein Berechtigungssystem, das von einer benutzerdefinierten ACL-Implementierung auf die integrierten Richtlinienklassen von Laravel migriert werden musste, mit vollständiger Abwärtskompatibilität für den API-Vertrag.

Dies ist die Arbeitslast, die ich auf Opus 4.7 ausführe, wenn das Budget es zulässt, und auf Qwen 3.6 Plus, wenn dies nicht möglich ist. Es werden etwa 280.000 Kontext-Tokens abgerufen. Der Agent läuft 90 bis 180 Minuten. Die Anzahl der Toolaufrufe liegt zwischen 200 und 500, je nachdem, wie sauber der vorhandene Code ist.

Ich habe die gleiche Eingabeaufforderung auf drei Arten ausgeführt: Opus 4.7 als Basislinie, Qwen 3.6 Max Preview als Budget-Challenger und MiMo 2.5 Pro als neue Variable.

Opus 4.7 benötigte 142 Minuten, führte 312 Tool-Aufrufe durch, erzeugte eine saubere Migration, die beim ersten Durchlauf alle 184 vorhandenen Tests bestand, und kostete etwa 11,40 US-Dollar in Token. Das Ergebnis war die Art von Arbeit, die ich einem Kunden ohne einen zweiten Durchgang liefern würde.

Die maximale Vorschau von Qwen 3.6 dauerte 168 Minuten, führte 387 Tool-Aufrufe durch, bestand beim ersten Durchlauf 178/184-Tests und kostete etwa 1,20 US-Dollar in Token. Bei den sechs Fehlern handelte es sich alle um eine Edge-Case-Berechtigungsvererbung – die durch menschliche Bereinigung in etwa 25 Minuten behoben werden konnte.

MiMo 2.5 Pro dauerte 156 Minuten, führte 287 Tool-Aufrufe durch, bestand beim ersten Durchlauf 181/184-Tests und kostete etwa 0,95 US-Dollar in Token. The three failures were all in one specific area — a circular dependency in the policy registration that I'd actually flagged as a known landmine in the prompt. MiMo handled the rest of the migration cleaner than Qwen did, used fewer tool calls than Opus did, and produced code that read closer to the existing codebase's style than either competitor.

Das ist das Ergebnis, das meine Einstellung zu meinem Agenten-Stack verändert hat. Bei einem Workload, der mich auf Opus 11 US-Dollar kosten würde, habe ich mit MiMo 2.5 Pro für weniger als einen US-Dollar 98 % des gleichen Ergebnisses erzielt. Die Lücke von 2 % ist real – und bei Kundenaufträgen, bei denen ich die Modellkosten direkt in Rechnung stelle, lohnt es sich, für diese 2 % zu zahlen. Aber für meine eigene interne Arbeit, für das Prototyping, für die Dutzenden kleiner Refactors, die ich in einer typischen Woche durchführe? Die Wirtschaftslage änderte sich in dem Moment, als der Test endete.

Wenn Sie lieber jemanden einen produktionstauglichen Agenten-Stack aufbauen lassen möchten, der tatsächlich das richtige Modell pro Workload auswählt, übernehme ich genau diese Art von Engagement über meinen Fiverr-Eintrag.

Was MiMo 2.5 Pro falsch macht - die ehrliche Fehlerliste

Fünf Testtage. Ich werde nicht behaupten, dass das Modell durchweg beeindruckend ist. Hier ist die ehrliche Fehlerliste, in der Reihenfolge, in der sie mich am meisten Zeit gekostet haben:

1. Der Polierschichtsprung. Dies ist der beständigste Fehlermodus, den ich gesehen habe. Das Modell erledigt die sichtbaren 80 % einer kreativen Front-End-Aufgabe und überspringt stillschweigend die Polierebene – nicht funktionale Schalter, unvollständige Dropdowns, fehlende Animationen, die sekundäre Interaktionen erleichtern. Es scheitert nicht – es liefert etwas, das sich gut demonstrieren lässt und bei der zweiten Überprüfung auseinanderfällt. Wenn Sie MiMo 2.5 Pro für kundenorientierte Prototypen verwenden, planen Sie, die letzten 20 % selbst zu erledigen.

2. Der Sprung mit unendlichem Gültigkeitsbereich. Wie die Weltgrenze Minecraft interpretiert MiMo 2.5 Pro manchmal eine Generierungsanforderung mit offenem Ende als eine endliche Version seiner selbst. Prozedurales Gelände wird zu einem festen Raster. Unendliches Scrollen wird zu einer paginierten Liste. Das Modell lügt nicht darüber, was es gebaut hat – es stellt nur nicht die klärende Frage, die Opus 4.7 gestellt hätte. Fügen Sie Ihren Eingabeaufforderungen die explizite Sprache „infinite/unbounded/procedural“ hinzu, wenn Sie es ernst meinen.

3. Der Pelikan auf einem Fahrrad. Ich habe den Standard-SVG-Vibes-Test durchgeführt – Pelikan auf einem Fahrrad, Farbverlaufsbilder, Schmetterlingsflügelklappenanimation. Zwei der drei haben es geschafft. Die Beinbewegungsanimation des Pelikans war ausgeschaltet – die Gelenke drehten sich, aber der Fuß-Pedal-Kontakt war nicht synchronisiert, so dass es aussah, als würde der Vogel mit rudernden Beinen schweben, anstatt tatsächlich in die Pedale zu treten. Kimi K 2.6 war letzten Monat bei der Eingabeaufforderung für Farbverlaufsbilder besser. Kleine Sache, aber es ist ein Hinweis darauf, dass die Animations-Timing-Logik von MiMo nicht ganz an der Grenze liegt.

4. Die Lücke im 3D-Produktkonfigurator. Wie oben erwähnt – das Modell kann beeindruckende 3D-Szenen rendern, hat aber Probleme mit interaktiven Aktualisierungen der Materialeigenschaften auf Benutzereingaben. DeepSeek V4 ist bei dieser spezifischen Arbeitslast immer noch führend.

5. Das Verhältnis zwischen Argumentation und Ausgabe. Bei schwierigeren Argumentationsaufgaben (die Art, bei der Opus 4.7 merklich „länger nachdenkt“ und eine sorgfältigere Antwort liefert) tendiert MiMo 2.5 Pro dazu, sich auf die erste Argumentationskette zu konzentrieren, statt zurückzugehen. Es ist schneller und billiger. Es ist auch weniger richtig, wenn das Problem tatsächlich ein Zurückverfolgen erfordert. Bei einfachen Agentenschleifen wird dies nicht angezeigt. Bei wirklich schwierigen Argumentationsaufgaben – Debuggen einer subtilen Race-Bedingung, Entwirren eines komplexen algorithmischen Korrektheitsbeweises – gewinnt Opus 4.7 immer noch, und der Preisunterschied spielt keine Rolle mehr.

Keines davon ist ein Deal-Breaker. Es lohnt sich, sie alle zu kennen, bevor Sie das Modell in einen Produktionsstapel einbinden und sie um 2 Uhr morgens entdecken.

Wo das passt - die Open-Source-KI-Landschaft nach MiMo

Die Open-Source-Grenze hatte Anfang 2026 eine klare Hierarchie. DeepSeek V4 war der stärkste Agentencodierer. Kimi K 2.6 war am stärksten bei der kreativen Produktion im Langformat. GLM 5 Pony war am stärksten im multimodalen Denken. Qwen 3.6 Max Preview war die stärkste Single-Shot-Frontend-Generation. MiniMax M2.7 war am stärksten bei der nachhaltigen Koordination mehrerer Agenten.

MiMo 2.5 Pro hat gerade drei dieser Nischen in einem Modell zusammengefasst. Es entspricht DeepSeek V4 bei der Agentencodierung während 40 % weniger Token verbrannt werden. Es entspricht Kimi K 2.6 bei der kreativen Ausgabe für codeintensive Aufgaben. Es entspricht GLM 5 in Bezug auf multimodales Denken für typische Arbeitsbelastungen. Es übertrifft nicht jeden Spezialisten in seinem Spezialgebiet – aber das muss auch nicht der Fall sein. Dadurch erhalten Sie ein einziges Modell, das die lange Phase der Agenten-Arbeitslasten bewältigt, ohne dass Sie gezwungen sind, das Modell pro Aufgabe zu wechseln.

Das ist die wirklich interessante Position, die MiMo 2.5 Pro einnimmt. Es ist nicht das intelligenteste Open-Weight-Modell (DeepSeek V4 ist ihm bei den schwierigsten Denkaufgaben immer noch überlegen). Es ist nicht das billigste (Qwen 3.6 Plus ist kostenlos und gut genug für Gelegenheitsarbeiten). Es ist das Modell mit dem besten Leistungs-Abdeckungs-pro-Dollar-Verhältnis, das ich in der Kategorie der offenen Gewichte gefunden habe.

Für meinen künftigen Agenten-Stack: Opus 4.7 bleibt das Modell, nach dem ich greife, wenn die Kosten einer falschen Antwort hoch sind. MiMo 2.5 Pro wird zum Standard für alles andere. Qwen 3.6 Plus bleibt der kostenlose Prototyp der Stufe I. DeepSeek V4 bleibt für die spezifischen anspruchsvollen Workloads, bei denen sein Vorsprung zum Vorschein kommt.

Das ist eine bedeutungsvolle Veränderung. Vor einem Monat war dieser Slot der Standardstufe Qwen 3.6 Max Preview. Zwei Wochen zuvor war es Opus 4.7 selbst.

Wie Sie MiMo 2.5 Pro dieses Wochenende wirklich ausprobieren

Wenn Sie das Modell in der nächsten Stunde in die Hand nehmen möchten, funktionieren drei Wege:

1. Kostenloser Chatbot-Zugriff. Gehen Sie zur MiMo Studio-Schnittstelle und fragen Sie direkt nach. Kein API-Schlüssel. Keine Zahlung. Der schnellste Weg, um zu sehen, ob das Modell zu Ihrer Arbeitslast passt.

2. OpenRouter API. Verfügbar bei xiaomi/mimo-v2.5-pro für 1 $ Input / 3 $ Output pro Million Token. Drop-in-kompatibel mit den meisten Agent-Frameworks. So habe ich jeden Test in diesem Beitrag durchgeführt.

3. Kilo Code mit 25 $ Gratis-Credits. Wenn Sie speziell Agenten-Coding-Workflows erstellen, hat Kilo Code MiMo 2.5 Pro offiziell integriert und bietet 25 $ Gratis-Credits zum Testen an. Ungefähr 6,25 Millionen Ausgabetoken des Testbudgets.

4. Lokale Multi-GPU-Inferenz. Gewichte sind live auf Hugging Face unter XiaomiMiMo/MiMo-V2.5-Pro. Sie benötigen eine erhebliche GPU-Infrastruktur, um einen 1.02T MoE lokal auszuführen, aber es ist für Teams mit dem Hardwarebudget machbar. Unter der MIT-Lizenz, kommerzielle Nutzung inbegriffen.

Für die meisten Leser dieses Beitrags werden OpenRouter oder Kilo Code der richtige Einstiegspunkt sein. Geben Sie 5 US-Dollar in Token aus, um das Modell mit drei oder vier Ihrer tatsächlichen Arbeitslasten auszuführen. Sie werden innerhalb der ersten Stunde wissen, ob es einen Platz in Ihrem Stapel verdient.

Häufig gestellte Fragen

Ist Xiaomi MiMo 2.5 Pro besser als Claude Opus 4.7?

Nicht auf Rohleistung – Opus 4.7 gewinnt immer noch bei den schwierigsten Argumentationsaufgaben und liefert ausgefeiltere Ergebnisse bei kreativer Front-End-Arbeit. Aber MiMo 2.5 Pro liefert etwa 90–95 % der Agenten-Codierungsausgabe von Opus zu einem Fünfzehntel der Eingabekosten und einem Fünfundzwanzigstel der Ausgabekosten. Bei den meisten Produktionsagenten-Workloads begünstigt das Preis-pro-Kapazitäts-Verhältnis deutlich MiMo.

Kann ich MiMo 2.5 Pro kommerziell nutzen?

Ja. Das Modell wird unter der MIT-Lizenz veröffentlicht, wobei die kommerzielle Nutzung ausdrücklich gestattet ist. Sie können es über gehostete Anbieter wie OpenRouter oder Kilo Code verwenden oder die Gewichte von Hugging Face herunterladen und auf einer Multi-GPU-Infrastruktur selbst hosten. Keine Nutzungsbeschränkungen, keine Lizenzgebühren.

Was ist das tatsächliche Kontextfenster und Ausgabelimit?

MiMo 2.5 Pro unterstützt 1.048.576 Eingabetokens (1 Mio. Kontextfenster) und maximal 131.072 Ausgabetokens pro Aufruf. Diese werden sowohl im OpenRouter-Verzeichnis als auch in der offiziellen Xiaomi-Dokumentation überprüft. Der 1M-Kontext eignet sich tatsächlich für Agentenschleifen mit langer Laufzeit und ist keine reine Benchmark-Zahl.

Wie schneidet MiMo 2.5 Pro beim Codieren im Vergleich zu DeepSeek V4 ab?

Bei standardmäßigen Agenten-Codierungs-Workloads sind sie effektiv gebunden – MiMo ist etwas tokeneffizienter, DeepSeek V4 ist bei den schwierigsten, argumentationsintensiven Aufgaben etwas stärker. Das größere Unterscheidungsmerkmal ist die interaktive 3D-Ausgabe, bei der DeepSeek V4 immer noch führend bei Produktkonfiguratoren und komplexen Aktualisierungen von Materialeigenschaften ist. Wählen Sie für alles andere basierend auf dem Preis und der Latenz des Anbieters aus, der für Ihren Stack besser geeignet ist.

Was ist der Haken an der Preisgestaltung von 1 $/3 $?

Es gibt keinen Haken. Die Preisgestaltung spiegelt die strategische Entscheidung von Xiaomi wider, auf der Token-Effizienz statt auf der Fähigkeit pro Anruf zu konkurrieren – und die Open-Source-Veröffentlichung bedeutet, dass gehostete Anbieter wie OpenRouter im Wettbewerb stehen, um das Modell mit geringen Gewinnspannen anzubieten. Erwarten Sie, dass die Preisuntergrenze weiter sinkt, wenn mehr Anbieter online gehen, und nicht, dass sie steigt.

Die eine Frage, über die es sich nachzudenken lohnt

Ich habe diesen Beitrag begonnen, ohne den Tab zu öffnen. Ich beende es mit MiMo 2.5 Pro in meinem Standardagentenslot für den nächsten Monat und Opus 4.7, das für die Workloads reserviert ist, bei denen die Kosten einer falschen Antwort die Kosten der Token überwiegen.

Das ist eine größere Veränderung, als es sich anhört. Für den größten Teil des Jahres 2025 und das erste Quartal 2026 bedeutete „Open-Source-AI“ „die günstige Option, auf die man zurückgreift, wenn man sich das echte Modell nicht leisten kann.“ MiMo 2.5 Pro ist die erste Version, bei der dieser Rahmen nicht mehr zutrifft. Das echte Modell konkurriert jetzt mit einem Open-Weight-Modell, das ein Fünfzehntel so viel kostet, unter MIT ausgeliefert wird und nicht auf einer Infrastruktur gehostet werden muss, die Sie nicht kontrollieren.

Wenn Sie in der zweiten Hälfte des Jahres 2026 Produktionsagenten-Workloads ausführen und MiMo 2.5 Pro diese Woche nicht getestet haben, zahlen Sie wahrscheinlich um eine Größenordnung zu viel für Workloads, bei denen die Grenzleistung eines geschlossenen Flaggschiffs Ihnen eigentlich nichts einbringt.

Hier ist also die Frage, mit der es sich heute Abend zu beschäftigen lohnt: Was läuft derzeit auf Opus 4.7 in Ihrem Stack – und was würde sich ändern, wenn Sie mit einem Fünfzehntel der Kosten 95 % des gleichen Ergebnisses erzielen würden?

Führen Sie den Test dieses Wochenende durch. Die Antwort wird Sie überraschen.

Lassen Sie uns zusammenarbeiten

Möchten Sie AI-Systeme aufbauen, Arbeitsabläufe automatisieren oder Ihre technische Infrastruktur skalieren? Ich würde gerne helfen.

Fiverr (benutzerdefinierte Builds und Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Unternehmenslösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io

Xiaomi MiMo 2.5 Pro getestet: Open-Source-Frontier?