MiniMax M3: Das Open-Weight-Modell, das mich verblüfft hat

Ein Modell hat 24 Stunden lang eigenständig einen GPU-Kernel umgeschrieben, 147 Benchmark-Einreichungen gemacht, fast 2.000 Tool-Aufrufe abgefeuert und die Hardware-Auslastung von 7,6 % auf 71,3 % gesteigert — ohne einen einzigen menschlichen Tastendruck. Das entspricht ungefähr einer 9,4-fachen Beschleunigung eines FP8-CUDA-Kernels für NVIDIA-Hopper-GPUs — ausgehend von einem Triton-Skelett, das nicht einmal lauffähig war.

Das Modell, das dies geleistet hat, ist MiniMax M3. Und es ist open-weight.

Ich möchte bei diesem zweiten Satz einen Moment verweilen, denn genau dieser Satz hat mich innehalten lassen. Wir haben uns an eine bestimmte Ordnung in der KI gewöhnt: Die Frontier-Fähigkeiten stecken hinter geschlossenen APIs einer Handvoll US-Labore, und die offenen Modelle hinken ein bis zwei Generationen hinterher — nützlich, aber nie wirklich konkurrenzfähig an der Spitze. MiniMax M3, das das MiniMax-Team am 1. Juni 2026 veröffentlichte, ist das erste Open-Weight-Release dieses Jahres, das mir begegnet ist und gezielt darauf abzielt, diese Ordnung zu durchbrechen — Frontier-Coding, ein Kontextfenster von einer Million Token und native Multimodalität, alles in einem einzigen Modell, das Sie herunterladen und selbst hosten können.

Die Launch-Behauptungen sind laut. GPT-5.5 und Gemini 3.1 Pro bei wichtigen Benchmarks geschlagen. Opus 4.7 beim Coding nahe gekommen. Ein Aktionspreis, der im Vergleich zu proprietären Frontier-Tarifen ein Rundungsfehler ist. Einige dieser Zahlen lassen sich unabhängig nachvollziehen, andere sind MiniMax-eigene Benchmarks, und einige verdienen die Skepsis, die ich jedem Modell-Launch entgegenbringe. Dies ist also ein erster Blick — was M3 tatsächlich behauptet, was ich überprüfen kann, wo ich Einwände hätte und ob es einen Platz in Ihrem Stack verdient. Lassen Sie mich Sie durchführen.

Warum ein Open-Weight-Frontier-Modell gerade jetzt wichtig ist

Der Zeitpunkt ist hier die ganze Geschichte, daher möchte ich ihn verankern.

In den letzten Monaten folgte jedes interessante Modell-Release einem von zwei Drehbüchern. Entweder ein geschlossenes US-Frontier-Modell — Opus 4.7, GPT-5.5, Gemini 3.1 Pro —, bei dem man Intelligenz pro Token mietet und nie die Gewichte berührt. Oder ein leistungsfähiges offenes Release eines chinesischen Labors, das gut ist, aber klar eine Stufe unter der Frontier positioniert. Ich habe viele der zweiten Art begutachtet: mein Praxistest von DeepSeek V4-Pro und meine Analyse von Kimi K2.6 landeten beide in der Kategorie "wirklich nützlich, aber nicht ganz Frontier".

MiniMax M3 ist darauf positioniert, das erste Modell zu sein, das diese Obergrenze nicht akzeptiert. Laut MiniMax ist es das erste und einzige Open-Weight-Modell, das drei Dinge gleichzeitig vereint: Frontier-Level-Coding, ein 1M-Token-Kontextfenster und native Multimodalität. Jedes davon existiert einzeln in anderen offenen Modellen. Alle drei in einem herunterladbaren Checkpoint zusammenzubringen ist die eigentliche Schlagzeile — nicht irgendeine einzelne Benchmark-Zahl.

Hier ist, warum Sie sich dafür interessieren sollten, selbst wenn Sie vollkommen zufrieden damit sind, für Opus zu bezahlen. Offene Gewichte verändern die Wirtschaftlichkeit und die Kontrollfläche. Sie können M3 auf Ihrer eigenen Infrastruktur betreiben, es auf Ihre Domäne feintunen, es auditieren und nie einen Token an fremde Server senden. Für jeden, der Agenten baut, die sensible Daten verarbeiten — juristische, medizinische, finanzielle —, ist das kein Nice-to-have, sondern der Unterschied zwischen "wir können das nutzen" und "die Compliance hat Nein gesagt". Ich habe genau dieses Gespräch mehr als einmal vielversprechende interne KI-Projekte scheitern sehen.

Und der Preis. Die Launch-Aktion halbiert die Nutzungsgebühren auf 0,30 $ pro Million Input-Token und 1,20 $ pro Million Output-Token (gegenüber den regulären 0,60 $ / 2,40 $), mit einem 20-$/Monat-Token-Plan, der etwa 1,7 Milliarden M3-Token kauft. VentureBeat stellte M3 als Modell dar, das vergleichbare Benchmark-Leistung "für nur 5–10 % der Kosten" der proprietären Spitzenmodelle liefert. Wenn das unter realen Workloads standhält, kippt die Build-vs-Buy-Rechnung für viele Teams über Nacht.

Aber günstig und offen bedeuten nichts, wenn das Modell die Arbeit nicht tatsächlich leisten kann. Bevor ich also in Begeisterung verfalle, muss ich die Architektur verstehen, die all dies ermöglichen soll — denn genau dort wird der Launch wirklich interessant.

Was ist MiniMax Sparse Attention (MSA)?

MiniMax Sparse Attention (MSA) ist der architektonische Mechanismus, der es M3 ermöglicht, einen Kontext von einer Million Token erschwinglich zu verarbeiten, indem vollständige Attention durch selektive KV-Block-Attention ersetzt wird — Attention wird nur über die relevanten Blöcke berechnet, statt für jeden Token gegen jeden anderen Token.

Das ist die Ein-Satz-Version. Hier ist, warum MSA die tragende Wand dieses gesamten Releases ist.

Ein kurzer Hinweis zum Namen, denn die automatisch generierten Transkripte haben ihn gründlich verhunzt. Ich habe es als "Multi-Scale Attention" und "Miniax sparse attention" geschrieben gesehen. Der korrekte Begriff laut MiniMax' eigenem technischen Material ist MiniMax Sparse Attention (MSA). Dieselbe Ideenfamilie wie die Sparse- und Lightning-Attention-Arbeiten, die MiniMax in früheren Generationen ausgeliefert hat, verfeinert für M3.

Standard-Transformer-Attention hat eine brutale Eigenschaft: Die Kosten skalieren ungefähr mit dem Quadrat der Sequenzlänge. Verdoppeln Sie Ihren Kontext, vervierfachen Sie Ihre Rechenkosten. Deshalb waren Kontextfenster von einer Million Token historisch entweder augenschmerzhaft teuer oder still und leise degradiert — das Modell akzeptiert technisch eine lange Eingabe, hört aber auf, den meisten davon wirklich Aufmerksamkeit zu schenken. Sie haben das wahrscheinlich schon erlebt. Sie fügen ein riesiges Dokument ein, stellen eine Frage zu Seite 40, und das Modell antwortet selbstbewusst basierend auf Seite 2.

MSA greift das direkt an. Statt dass jeder Token jedem anderen Token Attention widmet, wählt es die relevanten KV-Blöcke aus und berechnet die Attention über diese. Der berichtete Gewinn ist dramatisch: MiniMax sagt, MSA liefere ungefähr 15,6-mal schnelleres Decoding und 9,7-mal schnelleren Prefill im Vergleich zur vorherigen M2-Generation bei Kontexten von einer Million Token und senke die Kosten bei 1M Token auf etwa ein Zwanzigstel der vorherigen Generation. Die mit dem Launch veröffentlichte Decoder-Abdeckung beschreibt, dass die Long-Context-Stufe oberhalb von 512.000 Token einsetzt.

Ich möchte ehrlich über mein Vertrauensniveau sein. Die Richtung dieser Behauptungen ist glaubwürdig — selektive Attention ist ein gut etablierter Weg, die quadratische Kurve zu durchbrechen, und mehrere Labore konvergieren auf Varianten davon. Die exakten Multiplikatoren sind MiniMax' eigene Messungen, und ich habe sie nicht unabhängig profiliert. Behandeln Sie "9,7x Prefill" also als Herstellerbenchmark, nicht als Naturgesetz. Was ich sagen kann, ist, dass die Architektur die richtige Form für das Problem hat und die Engineering-Geschichte in sich konsistent ist.

Es gibt eine zweite architektonische Entscheidung, die genauso wichtig ist — und es ist die, von der ich glaube, dass die Leute sie unterschätzen werden.

Native Multimodalität ist nicht dasselbe wie aufgepfropftes Vision

M3 wurde von Schritt null an auf Text- und Bilddaten trainiert — nativ multimodal — anstatt ein starkes Textmodell zu nehmen und nachträglich einen Vision-Encoder aufzupfropfen.

Diese Unterscheidung klingt akademisch, bis man den Unterschied in der Praxis sieht. Aufgepfropfte Vision-Modelle neigen dazu, Bilder als separaten Sinn zu behandeln, der in text-ähnliche Token übersetzt und auf Armlänge verarbeitet wird. Nativ multimodale Modelle bauen eine gemeinsame Repräsentation auf, in der visuelles und textuelles Verständnis von Anfang an verschränkt sind. Die Launch-Demo, die mir das verdeutlicht hat, war eine Formularausfüll-Aufgabe: M3 erhielt ein leeres Formularbild und eine Reihe von Datenpunkten und platzierte jeden Wert im richtigen Feld mit korrektem Abstand und Zeichenpositionierung — Schritt für Schritt durch Koordinaten, Feldplatzierung und Layout argumentierend.

Das ist nicht "lies den Text im Bild". Das ist räumliches Schlussfolgern über ein visuelles Layout. Und MiniMax berichtet, dass M3 70,06 % auf OSWorld-Verified erreicht, einem Computer-Use-Benchmark — die Art von Ergebnis, die man nur erhält, wenn visuelles und handlungsbezogenes Schlussfolgern eng gekoppelt sind.

Die Architektur verspricht also Frontier-Reasoning bei langem Kontext, günstig, mit eingebautem Vision. Mutig. Schauen wir nun, ob die Benchmarks die Architektur stützen — und hier werde ich vorsichtiger.

Die Benchmarks: Was real ist, was vom Hersteller stammt und wo ich Einwände hätte

Lassen Sie mich zuerst die Schlagzeilenzahlen auf den Tisch legen, dann hinterfragen wir sie. Jede Zahl unten stammt aus MiniMax' Launch oder weit verbreiteter Berichterstattung darüber — ich markiere, was von Dritten bestätigt wurde und was rein erstparteibezogen ist.

Benchmark	MiniMax M3 (behauptet)	Was es misst	Kontext
SWE-bench Pro	59,0 %	Autonome Software-Engineering-Aufgaben	Berichtet vor GPT-5.5 (~58,6 %); hinter Opus beim Coding
Terminal-Bench 2.1	66,0 %	Terminal-/Agenten-Aufgabenerfüllung	Starkes agentisches Ergebnis
SWE-fficiency	34,8 %	Effizienz von Code-Änderungen	Mittleres Niveau, ehrlich gesagt
KernelBench Hard	28,8 %	Low-Level-GPU-Kernel-Generierung	Der schwierige — beachten Sie die absolute Zahl
MCP Atlas	74,2 %	Tool-Nutzung via Model Context Protocol	Starke Tool-Orchestrierung
BrowseComp	83,5	Web-Browsing-/Forschungsagent	Spitzenklasse-Browsing
OSWorld-Verified	70,06 %	Computer-Nutzung (Vision + Aktion)	Stützt die Native-Multimodal-Behauptung
SVG-Bench	Übertrifft Opus 4.7	SVG-Generierungsqualität	Erstpartei-Vergleich

Jetzt die ehrliche Einschätzung.

Das am häufigsten zitierte Ergebnis ist SWE-bench Pro mit 59,0 %, was M3 knapp vor GPT-5.5 mit ungefähr 58,6 % und vor Gemini 3.1 Pro bei diesem spezifischen Benchmark platziert. Das ist die Zahl, die die PR-Schwerstarbeit leistet, und es ist die, die Ihre Skepsis am meisten verdient — nicht weil sie erfunden ist, sondern weil ein Ein-Benchmark-Vorsprung von einem halben Prozentpunkt durchaus im Rauschen liegt, je nachdem wie diese Evaluierungen durchgeführt, eingebettet und berichtet werden. Ein Open-Weight-Modell, das im selben Cluster wie GPT-5.5 bei einem echten agentischen Coding-Benchmark landet, ist die wirklich beeindruckende Tatsache. "Schlägt GPT-5.5" als Schlagzeile übertreibt ein statistisches Patt.

Wo die Rahmung am meisten zählt: MiniMax behauptet nicht, Opus beim Coding zu schlagen. Die Berichte, die ich gesehen habe, zeigen Opus 4.8 beim Coding mit rund 69,2 % auf SWE-bench Pro gegenüber M3s 59,0 %. Die korrekte Aussage ist also "M3 nähert sich dem Opus-Niveau und liefert sich ein Kopf-an-Kopf-Rennen mit GPT-5.5 und Gemini 3.1 Pro" — nicht "M3 ist der neue König". Ich habe die proprietäre Frontier im Detail in meiner Opus 4.7 vs GPT-5.4 vs Gemini 3 Pro Analyse verglichen, und die Abstände ganz oben sind klein, aber real.

Eine Zahl, die ich Sie bitten möchte, richtig zu lesen: KernelBench Hard mit 28,8 %. Aus dem Kontext gerissen sieht das niedrig aus, und Leute werden darüber spotten. Aber KernelBench Hard ist brutal — es verlangt von einem Modell, performante, korrekte GPU-Kernel zu schreiben, eine Aufgabe, bei der die meisten Modelle einstellig oder im niedrigen Teenager-Bereich punkten. 28,8 % auf dem harten Split ist tatsächlich ein starkes Ergebnis für ein offenes Modell und direkt relevant für die 24-Stunden-CUDA-Kernel-Geschichte, mit der ich begonnen habe. Absolute Zahlen ohne die Schwierigkeitsbasislinie des Benchmarks sind die Art, wie Launch-Posts Sie in die Irre führen.

Die Benchmarks, bei denen M3s Open-Weight-Status das Ergebnis wirklich überraschend macht, sind die Breiten-Benchmarks — BrowseComp, SVG-Bench, KernelBench Hard, MCP Atlas und die Dokumentenverständnis-Evaluierungen —, bei denen ein offenes Modell Berichten zufolge proprietäre Rivalen kategorieübergreifend erreicht oder schlägt, nicht nur bei einer herausgepickten Metrik. Breite ist schwerer zu manipulieren als eine einzelne Zahl. Das ist der Teil dieses Launches, den ich am ernstesten nehme.

Wenn Sie Hilfe dabei brauchen, Signal von Rauschen bei Releases wie diesem zu trennen, genau diese Art von Bewertung biete ich für Kunden an — Modelle gegen echte Workloads zu testen, anstatt den Launch-Folien zu vertrauen. Sie können die Art von Projekten sehen, die ich übernehme, auf fiverr.com/s/EgxYmWD.

Das ist die Bestenlisten-Sicht. Aber Benchmarks sind Abstraktionen. Der Grund, warum ich M3 Aufmerksamkeit schenke, sind die zwei Langzeit-Autonomie-Demos — denn die sind viel schwerer zu fälschen als eine Bestenlisten-Zeile.

Der 24-Stunden-Kernel und der Selbsttraining-Test: Langzeit-Autonomie

Hier ist die Demo, die mich dazu gebracht hat, diesen Beitrag zu schreiben, richtig erzählt.

MiniMax stellte M3 eine Aufgabe, vor der die meisten Senior-Ingenieure zurückschrecken würden: einen FP8-GEMM-(Matrixmultiplikations-)Kernel auf NVIDIA-Hopper-GPUs optimieren. Der Haken — M3 bekam nur eine Aufgabenbeschreibung, ein Benchmark-Evaluierungsskript und ein nicht funktionsfähiges Triton-Skelett. Keine Referenzimplementierung. Keinen Startcode, der lief. Es musste das Ding zum Laufen bringen und schnell machen, praktisch aus dem Nichts.

Dann ließen sie es laufen.

Über ungefähr 24 Stunden machte M3 147 Benchmark-Einreichungen und 1.959 Tool-Aufrufe, arbeitete sich durch Baseline-Implementierung, Autotuning, Engpass-Diagnose, CUDA-Graph-Integration, Persistent-Kernel-Umschreibung und Host-seitiges Scheduling. Die Hardware-Spitzenauslastung kletterte von 7,6 % auf 71,3 % — eine 9,4-fache Beschleunigung. Das Detail, das ich am aufschlussreichsten finde: MiniMax berichtet, dass die meisten anderen Modelle innerhalb ihrer ersten 30 Einreichungen aufhörten, neue Fortschritte zu machen; nur Opus 4.7 und M3 fanden über diesen Punkt hinaus weiterhin Verbesserungen.

Dieser letzte Punkt ist das eigentliche Signal. Viele Modelle können einmal kräftig auf ein Problem einschlagen. Sehr wenige können eine Kampagne durchhalten — diagnostizieren, warum Versuch 89 stagniert hat und was bei Versuch 90 zu versuchen ist — ohne in Wiederholung abzugleiten oder Fortschritte zu halluzinieren, die nicht existieren. Langzeit-Kohärenz ist die Fähigkeit, die einen Chatbot von einem Agenten unterscheidet, und sie ist das, was ich in meiner eigenen Arbeit am härtesten teste. Ich bin darauf eingegangen, warum nachhaltige Autonomie so schwer ist, in meiner MiniMax M2.7 Bewertung, wo die Selbstevolution der vorherigen Generation die Schlagzeile war.

Der zweite Autonomie-Test ist, wenn überhaupt, noch kühner. Auf einer "Post-Train Bench", die misst, ob ein Modell die vollständige Machine-Learning-Schleife selbst ausführen kann — Trainingsdaten synthetisieren, ein Modell trainieren, es evaluieren, iterieren — erhielt M3 vier Basismodelle, die nur das Pretraining abgeschlossen hatten, und führte den gesamten Datensynthese-bis-Iteration-Zyklus über etwa 12 Stunden ohne menschliches Eingreifen durch. Es belegte Berichten zufolge den dritten Platz, hinter nur Opus 4.7 und GPT-5.5, vor allen anderen getesteten Modellen.

Ein Modell, das autonom andere Modelle verbessern kann, das unter den Top drei der Welt dabei rangiert, und dabei open-weight ist — das ist die Art von Satz, der vor achtzehn Monaten wie Science-Fiction geklungen hätte.

Mein ehrlicher Vorbehalt, wie immer: Das sind MiniMax' Demonstrationen, durchgeführt von MiniMax, berichtet von MiniMax. Sie sind nicht peer-reviewed und nicht adversarial. Die Zahlen könnten Best-Case-Läufe sein, aus vielen Versuchen herausgepickt. Aber — und das ist wichtig — die Struktur dieser Tests ist schwer überzeugend zu fälschen, weil die Artefakte (ein funktionierender, schneller CUDA-Kernel; trainierte Modell-Checkpoints) verifizierbare Endprodukte sind, nicht nur Punktzahlen. Ich würde sie reproduzieren wollen, bevor ich ein Produktionssystem auf M3s Autonomie verwette. Die Richtung ist aber unverkennbar.

Benchmarks und Autonomie-Demos sind eine Sache. Was mich als Builder wirklich interessiert, ist, ob das Ding guten Code schreibt, den ich ausliefern würde. Schauen wir uns also die Build-Tests an.

Wie schlägt sich MiniMax M3 bei echtem Front-End und kreativem Coding?

MiniMax M3 produziert produktionsnahes Front-End-Output — saubere Komponentenstruktur, mehrere Typografie-Systeme und funktionierende Animationen — und in den Launch-Vergleichen übertraf es Qwens neuestes "Max"-Modell und produzierte weniger Bugs als Gemini Flash bei denselben Prompts.

Zunächst eine Namenskorrektur, da die Transkripte es vermurksen: Das Vergleichsmodell ist Qwen (Alibabas Flaggschiff, die proprietäre "Max"-Stufe zum Stand Mitte 2026), nicht "Quen 3.7". Und das leichtere Google-Modell ist die Gemini-Flash-Reihe — ich habe diese Familie separat in meinem Gemini 3.5 Flash Praxistest getestet. Die Vergleichsgruppe richtig zu benennen ist wichtig, denn "schlägt Qwen Max" und "schlägt ein kleines Flash-Modell" sind sehr unterschiedliche Behauptungen.

Hier ist, was die Build-Demos tatsächlich zeigten und wie ich jede davon einschätze.

Der Landing-Page-Test. Bei einem Prompt für eine Landing Page mit Farbblöcken und einem variablen Farbsystem produzierte M3 ein sauberes, gut strukturiertes Design mit dynamischen Interaktionen — und im direkten Vergleich war Geminis Output fehlerhafter. Das deckt sich mit meiner allgemeinen Erfahrung: Der Unterschied zwischen Modellen bei UI-Arbeit liegt normalerweise nicht bei "kann es ein div zentrieren", sondern bei "bleibt das Abstandssystem über Komponenten hinweg konsistent und funktioniert die Interaktivität tatsächlich". M3 hat Berichten zufolge beides gehalten. Das ist die Produktionsreife-Schwelle.

Der browserbasierte Windows-11-Klon. Das ist der, der mich hat aufhorchen lassen. Aus einem einzigen Prompt umfasste M3s Build Startsounds und Animationen, einen funktionalen Login mit PIN-Eingabe, funktionierende Replikate von Notepad und Paint, einen Taschenrechner, eine Eingabeaufforderung, eine Einstellungen-App mit Lautstärkeregler — und, unaufgefordert, ein 3D-Trench-Run-Spiel. Das unaufgeforderte Spiel ist der interessante Hinweis: Es deutet darauf hin, dass das Modell nicht nur die wörtliche Anfrage musterabglich, sondern den Geist von "baue ein Desktop-Betriebssystem" ausarbeitete. Der einzige gemeldete Fehlschlag war das SVG-Codieren jedes App-Icons. Diesen Tausch nehme ich gerne.

Der 3D- und Physik-Test. Aufgefordert, neun Kanäle auf einem konkaven 1990er-TV-Bildschirm zu simulieren, lieferte M3 präzises 3D-Rendering mit 3D Gaussian Splatting (3DGS) — das ist das "3GS", das das Transkript verhunzt hat — mit UI-Steuerungen, Animationen, Physiksimulation, prozeduraler Grafik und eingebettetem Sound. Ein immersiver 3D-Raum, aus einem Text-Prompt. Wenn Sie jemals ein Modell dazu gebracht haben, kohärentes Three.js oder WebGL zu produzieren, wissen Sie, wie selten sauberes physikbewusstes 3D-Output ist.

Der SVG-im-großen-Maßstab-Test. Drei SVG-Herausforderungen: ein animierter Schmetterling (hohe Qualität, vergleichbar mit Gemini), ein PS4-Controller (genaues Layout und Tastenfeld, Qwen geschlagen), und eine NYC-Skyline mit Tag/Nacht-Übergang, die über 2.000 Zeilen SVG mit animierten Szenenübergängen und ohne Füll-Padding umfasste. Der letzte ist der eigentliche Test. 2.000 Zeilen bedeutungsvolles Markup zu generieren, ohne dass das Modell aufgibt, sich wiederholt oder die Ausgabe mit repetitivem Müll auffüllt, ist ein echter Langausgabe-Stresstest — und das verbindet sich direkt mit der MSA-Langkontext-Architektur.

Der rote Faden über alle vier: M3 produziert nicht nur Code, der kompiliert, es produziert Code mit Geschmack — Layout-Disziplin, unaufgeforderte Ausarbeitung, anhaltende Kohärenz über lange Ausgaben. Das ist der qualitative Sprung, den Benchmarks schwer erfassen können.

Wie kommen Sie also tatsächlich an M3 heran? Dieser Teil ist erfrischend einfach.

So greifen Sie auf MiniMax M3 zu (API, CLI und OpenRouter)

Sie können MiniMax M3 heute über drei Hauptwege nutzen: die MiniMax-API direkt, die MiniMax-Coding-Plattform/CLI und OpenRouter — und die Gewichte sollen innerhalb von etwa zehn Tagen nach dem Launch öffentlich zum Selbst-Hosten veröffentlicht werden.

Hier ist die praktische Aufschlüsselung, mit bereinigter Benennung (die "M Code", "Open Code" und "Open Router" des Transkripts entsprechen der MiniMax-Coding-Plattform/CLI bzw. OpenRouter):

MiniMax-API — Holen Sie sich einen API-Schlüssel von der MiniMax-Plattform und rufen Sie M3 direkt auf. Die Preise während der Launch-Aktion betragen 0,30 $/M Input und 1,20 $/M Output-Token (die Hälfte der regulären 0,60 $ / 2,40 $). Ratenlimits zum Launch wurden mit etwa 200 RPM und 10M TPM angegeben. Dies ist Ihr Weg für Produktionsintegrationen.
MiniMax-Coding-Plattform / CLI — MiniMax liefert sein eigenes Coding-Tool, und der Launch erwähnte eine Code-Plattform, die M3-Zugang kostenlos anbietet. Da die API OpenAI-kompatibel ist, können Sie Ihren Schlüssel auch in Tools wie Claude Code, Cline oder OpenCode eintragen und auf M3 zeigen — dasselbe Muster, das Leute mit früheren MiniMax-Modellen verwendet haben. Wenn Sie die vollständige Setup-Anleitung für das Routing von Drittanbieter-Coding-Tools an MiniMax möchten, habe ich den Workflow in meiner MiniMax M2.7 Bewertung behandelt.
OpenRouter — M3 ist auf OpenRouter gelistet (minimax/minimax-m3), was der schnellste Weg ist, es gegen Modelle zu testen, die Sie bereits verwenden, ohne einen zweiten API-Schlüssel zu verwalten. Hier würde ich anfangen, wenn Sie nur mal einen Nachmittag reinschnuppern wollen.
Selbst-Hosten (bald) — Sobald die Gewichte auf Hugging Face und GitHub landen, können Sie M3 auf Ihrer eigenen Infrastruktur betreiben. Dies ist die Option, die die Compliance- und Feintuning-Anwendungsfälle freischaltet, die ich zuvor erwähnt habe — und der Grund, warum das Label "open-weight" mehr als ein Marketing-Wort ist.

Ein spezieller Kostenhinweis, den Sie verinnerlichen sollten: Das 1M-Token-Kontextfenster kommt mit einer Stufe. MiniMax garantiert ein nutzbares Minimum von 512.000 Token zum Standardtarif; Anfragen über 512K werden zum Langkontext-Tarif abgerechnet, der etwa das Doppelte des Standard-Token-Preises beträgt. "1M Kontext" ist also real, aber die zweite Hälfte dieses Fensters kostet mehr. Planen Sie entsprechend — entwerfen Sie keinen Agenten, der bei jedem Aufruf lässig über 512K Token hinausgeht, ohne die Rechnung gemacht zu haben.

Profi-Tipp: Wenn Sie M3 für einen Agenten evaluieren, der das volle Million-Token-Fenster benötigt, instrumentieren Sie Ihre Token-Nutzung, bevor Sie sich festlegen. Ich habe erlebt, wie Langkontext-Agenten ihre Kosten leise vervierfacht haben, weil niemand bemerkte, dass der Kontext bei jeder Schleife über die günstige Stufe hinausblähte. Messen Sie zuerst.

Und jetzt — sollten Sie M3 tatsächlich einsetzen? Hier trenne ich den Hype von dem, was ich einem Kunden wirklich sagen würde.

Die ehrliche Einschätzung: Wo ich M3 vertrauen würde und wo nicht

Ich gebe Ihnen die ehrliche Version — die, die ich einem Freund beim Kaffee geben würde, nicht die Launch-Tag-Begeisterung.

Was mich wirklich beeindruckt. Die Kombination ist die Leistung, nicht eine einzelne Zahl. Frontier-nahes Coding plus 1M nativer multimodaler Kontext plus offene Gewichte plus ein Preis im einstelligen Prozentbereich der proprietären Frontier-Modelle — dieses Bündel gab es vor dem 1. Juni 2026 nicht. Für einen Solo-Gründer oder ein kleines Team, das sich bisher keine ernsthaften Agenten auf Opus leisten konnte, verändert M3, was bezahlbar ist. Die Breite über die Benchmarks (nicht nur die Schlagzeilen-SWE-bench-Zahl) und die Langzeit-Autonomie-Demos sind die Teile, die ich am stärksten gewichte, weil sie am schwersten zu fälschen sind.

Wo ich bremsen würde. Jede Leistungszahl oben stammt von MiniMax selbst, gemessen unter MiniMax' Bedingungen. Das "schlägt GPT-5.5"-Framing beruht auf einem halben Punkt Vorsprung, der statistisch ein Patt ist. M3 schlägt Opus beim Coding nicht, und jeder, der Ihnen erzählt, es sei "der neue Frontier-König", verkauft etwas. Herstellerbenchmarks haben eine lange Geschichte, unabhängige Reproduktion nicht zu überstehen — ich habe genug Launch-Tag-Bestenlisten-Spitzenreiter erlebt, die sich zu "sehr gut, aber nicht das Beste" absetzten, sobald die Community sie adversarial getestet hat. Bis Dritte M3 auf ihren eigenen Testständen profilieren, behandle ich diese Ergebnisse als vielversprechend, nicht als bewiesen.

Der Trade-off, den am Launch-Tag niemand erwähnt. Offene Gewichte sind ein Geschenk und eine Verantwortung. Ein 1M-Kontext-Multimodal-Modell selbst zu hosten ist kein Wochenendprojekt — Sie brauchen echte GPU-Infrastruktur, und die Langkontext-Stufe ist auf der zweiten Hälfte des Fensters wirklich teuer. Das "kostenlos" und "günstig"-Framing gilt klar für die API-Stufe und kleine Kontexte. Gehen Sie in Million-Token-Agentenschleifen, und die Kosten sind real. Lassen Sie sich nicht von "open-weight und günstig" in eine Architektur locken, die Ihr Budget im Maßstab nicht tragen kann.

Meine Vorhersage. Ich denke, M3 ist der Anfang eines Musters, kein Einzelfall. Die Lücke zwischen offenen und geschlossenen Frontier-Modellen schrumpft seit einem Jahr, und M3 ist das erste Release, bei dem ich sagen würde, dass die Lücke an der Spitze jetzt eine Frage von Monaten ist, nicht von Generationen — zumindest bei Coding und agentischen Aufgaben. Bis Ende 2026 erwarte ich, dass "ein offenes Modell für 90 % der Agentenarbeit verwenden, auf ein geschlossenes Frontier-Modell für die schwierigsten 10 % zurückfallen" eine völlig gängige Architektur sein wird. M3 macht diese Architektur heute tragfähig.

Hier ist die unbequeme Frage, die über dem gesamten proprietären Frontier-Geschäftsmodell hängt: Wenn ein Open-Weight-Modell Sie zu 90 % ans Ziel bringt bei 5–10 % der Kosten — wofür genau bezahlen Sie die anderen 90 %? Bei einigen Workloads lautet die Antwort "die letzten 10 % Zuverlässigkeit, und das ist es wert". Bei vielen Workloads plötzlich nicht mehr.

Was sieht die Einführung von M3 also in der Praxis aus, und wie würden Sie wissen, ob es funktioniert? Lassen Sie mich das konkretisieren.

Was Sie erwarten können, wenn Sie M3 tatsächlich einsetzen

Realistische Erwartungen, basierend auf dem Mechanismus statt erfundenen Metriken.

Wenn Sie derzeit Agenten-Workloads auf einem proprietären Frontier-Modell ausführen und den Großteil davon auf M3 umstellen, ist der Kostenmechanismus einfach: Bei 0,30 $/1,20 $ pro Million Token (Aktion) gegenüber proprietären Frontier-Raten, die ein Vielfaches höher liegen, sinkt Ihre Pro-Aufgabe-Ausgabe für routinemäßige Agentenarbeit erheblich — VentureBeat's "5–10 % der Kosten"-Rahmung ist die Größenordnung, mit der Sie bei vergleichbarer Benchmark-Leistung planen sollten. Der ehrliche Vorbehalt ist, dass die Einsparungen schrumpfen, sobald Sie die 512K-Langkontext-Stufe überschreiten, sodass die größten Gewinne bei kurz- bis mittelkontextigen Aufgaben mit hohem Volumen liegen.

Was Sie tatsächlich messen sollten, sobald Sie testen:

Aufgabenerfüllungsrate bei Ihren echten Workloads, nicht bei Benchmarks. Lassen Sie M3 und Ihr aktuelles Modell auf denselben 20 echten Aufgaben laufen und vergleichen Sie. Das ist die einzige Zahl, die zählt.
Langzeit-Stabilität. Bei Multi-Step-Agenten beobachten Sie, wie viele Schritte M3 durchhält, bevor es den Faden verliert oder sich zu wiederholen beginnt. Die Kernel-Demo deutet darauf hin, dass dies eine Stärke ist — überprüfen Sie es an Ihren Aufgaben.
Halluzinationsrate in Ihrer Domäne. Native Multimodalität und langer Kontext beheben nicht automatisch Fabrikation. Prüfen Sie Ausgaben stichprobenartig gegen die Grundwahrheit.
Kosten pro abgeschlossener Aufgabe (nicht pro Token). Ein günstigeres Modell, das drei Wiederholungen braucht, ist nicht günstiger.

Schnelle Erfolge, die Sie am ersten Nachmittag erwarten können: Front-End- und SVG-Generierung, die näher an produktionsreif ist als bei den meisten offenen Modellen, und dramatisch niedrigere Kosten bei hochvolumigen Agentenschleifen mit kurzem Kontext. Die längerfristige Rendite — Selbst-Hosten für Compliance, Feintuning auf Ihre Domäne — kommt, sobald die Gewichte veröffentlicht sind und Sie die Infrastruktur aufgebaut haben.

Erwarten Sie nicht: ein kostenloses Mittagessen bei 1M-Kontext-Workloads oder unabhängig verifizierte Frontier-Überlegenheit. Erwarten Sie ein wirklich starkes, wirklich offenes Modell, das gut genug ist, um der Standard für den Großteil Ihrer Agentenarbeit zu sein, mit einem geschlossenen Frontier-Modell als Rückfalloption für die schwierigsten Aufgaben.

Das Fazit zu MiniMax M3

Kehren Sie zu diesem Eröffnungsbild zurück: Ein Modell, 24 Stunden allein im Dunkeln, Einreichung um Einreichung, ein totes Kernel-Skelett von 7,6 % auf 71,3 % Auslastung treibend, ohne dass jemand zusieht. Was diese Geschichte wichtig macht, ist nicht die Beschleunigung. Es ist, dass das Modell, das es getan hat, eines ist, das Sie bald herunterladen, inspizieren, feintunen und auf Ihren eigenen Maschinen betreiben können — zu einem Preis, der die Wirtschaftlichkeit der proprietären Frontier plötzlich fragil erscheinen lässt.

MiniMax M3 ist nicht das beste Modell der Welt. Opus führt beim Coding immer noch, die Schlagzeilen-Benchmark-Siege sind statistische Patts, und jede Zahl hier verdient die Skepsis, die ich jedem Launch entgegenbringe. Aber "bestes der Welt" war nie der Punkt. Der Punkt ist, dass Frontier-nahe Fähigkeiten, native Multimodalität, ein Million-Token-Kontext und offene Gewichte nun in einem einzigen Release zu einem Bruchteil der Kosten erscheinen — und diese Kombination existierte vor einer Woche nicht.

Wenn Sie Agenten bauen, hier ist Ihre nächste 24 Stunden: Rufen Sie M3 auf OpenRouter auf, nehmen Sie genau dieselben fünf Aufgaben, die Sie letzte Woche auf Ihrem aktuellen Modell ausgeführt haben, und lassen Sie sie nebeneinander laufen. Vertrauen Sie nicht meiner Einschätzung, vertrauen Sie nicht MiniMax' Folien. Führen Sie Ihren eigenen Praxistest durch. Dann kommen Sie und sagen Sie mir, ob die offene Frontier gerade angekommen ist — denn von wo ich sitze, sieht es so aus.

Häufig gestellte Fragen

Ist MiniMax M3 wirklich open-weight und kostenlos nutzbar?

MiniMax M3 ist open-weight, und die Gewichte sollen innerhalb von etwa zehn Tagen nach dem Launch am 1. Juni 2026 öffentlich auf Hugging Face und GitHub veröffentlicht werden. Die API ist nicht kostenlos — sie kostet 0,30 $/M Input und 1,20 $/M Output während der Launch-Aktion —, aber eine Code-Plattform bietet M3-Zugang kostenlos an, und Selbst-Hosten wird möglich, sobald die Gewichte verfügbar sind.

Schlägt MiniMax M3 GPT-5.5 und Opus?

MiniMax M3 übertrifft GPT-5.5 Berichten zufolge knapp bei SWE-bench Pro (59,0 % vs. ~58,6 %), aber das ist ein statistisches Patt, kein klarer Sieg. Es schlägt Opus beim Coding nicht — Opus führt mit etwa 69,2 % beim selben Benchmark. Die korrekte Rahmung ist "M3 nähert sich der proprietären Frontier", nicht "M3 ist der neue König".

Wie groß ist das Kontextfenster von MiniMax M3?

MiniMax M3 unterstützt ein Kontextfenster von bis zu 1.048.576 Token (1 Million), mit einem garantierten nutzbaren Minimum von 512.000 Token zum Standardtarif. Anfragen über 512K Token werden zu einer Langkontext-Stufe abgerechnet, die etwa das Doppelte des Standard-Token-Preises beträgt, sodass die zweite Hälfte des Fensters mehr kostet. Siehe den Zugriffsabschnitt oben für die Kostenplanung.

Wie greife ich auf MiniMax M3 zu?

Sie können über die MiniMax-API, die MiniMax-Coding-Plattform/CLI und OpenRouter (minimax/minimax-m3) auf MiniMax M3 zugreifen, wobei Selbst-Hosten verfügbar wird, sobald die offenen Gewichte veröffentlicht werden. OpenRouter ist der schnellste Weg, es gegen Modelle zu testen, die Sie bereits verwenden. Die vollständige Setup-Anleitung finden Sie im Zugriffsabschnitt oben.

Ist MiniMax M3 gut für Front-End- und UI-Coding?

In MiniMax' Launch-Vergleichen produzierte M3 saubereres, produktionsnäheres Front-End-Output als Qwens neuestes Max-Modell und weniger Bugs als Gemini Flash bei denselben Prompts — starke Layout-Disziplin, funktionierende Animationen und kohärente Komponentenstruktur. Überprüfen Sie es an Ihren eigenen UI-Aufgaben, bevor Sie es als Standard übernehmen.

Lassen Sie uns zusammenarbeiten

Sie möchten KI-Systeme bauen, Workflows automatisieren oder Ihre Tech-Infrastruktur skalieren? Ich helfe gerne.

Fiverr (maßgeschneiderte Builds & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Unternehmenslösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienstleistungen): xcybersecurity.io

MiniMax M3: Das Open-Weight-Modell, das mich verblüfft hat