Qwen 3.6 Max Preview getestet: günstiger als Opus 4.7?
Ich hätte den Tab fast nicht geöffnet. Es war 23:47 Uhr am 20. April, mein Agentensystem lief nach zwei Wochen voller Tool-Call-Schleifen endlich sauber, und das Letzte, was ich brauchte, war ein anderes Modell zum Benchmarking. Dann sah ich den Preis auf der API-Konsole von Alibaba – 1,30 $ Input, 7,80 $ Output pro Million Token – neben einem Benchmark-Chart mit sechs Nummer-eins-Platzierungen, darunter SWE-Bench Pro und Terminal-Bench 2.0.
Zum Kontext: Claude Opus 4.7 berechnet 15 US-Dollar für die Eingabe und 75 US-Dollar für die Ausgabe. Das ist kein Preisunterschied. Das ist eine Preiskluft.
Also schloss ich meine Agentenläufe ab, schenkte mir einen dritten Kaffee ein und verbrachte die nächsten vier Tage damit, Qwen 3.6 Max Preview alles durchzugehen – Agenten-Coding-Workflows, Multi-File-Refactors, die absurden Front-End-Demos, mit denen Alibaba prahlte, sogar ein paar der Aufgaben, bei denen Opus 4.7 den ganzen Monat meine Uhr gereinigt hatte. Einiges davon hat mich überrascht. Einiges davon brachte das Marketingteam von Alibaba in Verlegenheit. Und eine bestimmte Erkenntnis hat mich dazu veranlasst, das Modell zu ändern, zu dem ich bei bestimmten Arbeitslasten zuerst greife – aber wahrscheinlich nicht bei der Arbeitslast, die Sie erwarten würden.
Hier ist der Teil, der die einfache Erzählung verkompliziert: Die Schlagzeile „#1 bei sechs Benchmarks“ hält an manchen Stellen und fällt an anderen ins Wanken. Die Geschichte darüber, wo es hält, wo es bricht und was das für Ihren Stack bedeutet, ist der eigentlich interessante Teil – und ich werde alles klären, bevor Sie diesen Beitrag verlassen.
Warum diese Version wichtiger ist als die letzten drei Qwen-Drops
Wir befinden uns bereits seit drei Wochen in dem sogenannten Mai-Anstieg – ein Abschnitt, in dem GPT-5.5 landete, Claude Opus 4.7 mit seiner neuen Sonnet-Variante zwei Tage später folgte und Alibaba im selben Monat vier separate Qwen-Varianten auslieferte. Die meisten davon waren Lärm. Ich habe über Qwen 3.6 Plus berichtet, als es am 30. März veröffentlicht wurde und es als die wirklich nützlichste kostenlose Version in der Agenten-Coding-Ebene bezeichnet. Dieser Beitrag ist immer noch zutreffend – Qwen 3.6 Plus ist nach wie vor ein Tool, zu dem ich greife, wenn ich erstklassige Ergebnisse erzielen möchte, ohne dafür das Budget auszugeben.
Qwen 3.6 Max Preview ist ein anderes Tier. Es wurde am 20. April 2026 veröffentlicht und ist ein geschlossenes, nur gehostetes Flaggschiff – kein GitHub-Repo, kein Hugging Face-Download, keine lokale Schlussfolgerung. Sie erreichen es über Alibaba DashScope API von Cloud oder Sie erreichen es überhaupt nicht. Zum jetzigen Zeitpunkt ist es nicht auf OpenRouter und nicht auf Kilo verfügbar. Mit dem kostenlosen Chatbot unter chat.qwen.ai erhalten Sie Vorschauzugriff ohne einen API-Schlüssel, was die meisten Leute auch tatsächlich ausprobieren werden.
Der Grundgedanke ist klar: Nehmen Sie alles, was Qwen 3.6 Plus interessant gemacht hat, setzen Sie alles auf drei spezifische Achsen – globales Wissen, Anleitungsbefolgung, Agentenkodierung – und setzen Sie es im Vergleich zu den amerikanischen Flaggschiffen zu einem aggressiven Preis. Das 1M-Token-Kontextfenster bleibt bestehen. Die Kompatibilitätsebene OpenAI und Anthropic API bleibt bestehen. Was sich ändert, ist die Tiefe der langfristigen Aufgaben und die Qualität der Front-End-Ausgabe.
That's the marketing. Die interessante Frage ist, ob das Marketing der Realität entspricht, denn die Benchmark-Auswahl von Alibaba ist sehr spezifisch kuratiert. Ist Ihnen aufgefallen, welcher Benchmark nicht auf der Nr. 1-Liste steht? SWE-Bench verifiziert – derjenige, auf dem Anthropic und OpenAI beide direkt konkurrieren. Qwen beansprucht SWE-Bench Pro (ein anderes System mit unterschiedlicher Grundwahrheit) und mehrere interne Benchmarks (QwenClawBench, QwenWebBench, SkillsBench), bei denen sie die Bewertung vollständig steuern.
Das allein ist nicht vernichtend. Jedes Labor macht das. Aber das ist der Grund, warum ich das Modell tatsächlich testen musste, bevor ich entscheiden konnte, was das Preis-Leistungs-Verhältnis in der Praxis bedeutet.
Bevor ich zur Aufschlüsselung nach Workload komme, müssen Sie eines darüber wissen, wie Qwen 3.6 Max Preview anders denkt als Opus 4.7 und GPT-5.5 – denn es erklärt jedes Ergebnis, das folgt.
Die architektonische Wette, die sich hinter der Preisgestaltung verbirgt
Hier ist, was meiner Meinung nach tatsächlich vor sich geht. Alibaba versucht nicht, das Rennen um die absolute Leistungsfähigkeit zu gewinnen. Sie versuchen, das Fähigkeit-pro-Dollar-Rennen an der Grenze zu gewinnen – und das erfordert eine grundlegend andere architektonische Wette als die, die Anthropic mit Opus 4.7 getroffen hat.
Opus 4.7 ist für eine kleine Anzahl von Anrufen mit extrem hohen Einsätzen optimiert. Die Preisgestaltung spiegelt dies wider. Wenn ich eine umfassende Codeüberprüfung für eine PR mit 4.000 Zeilen durchführe oder das Modell auffordere, eine mehrwöchige Migration zu planen, sind die Kosten pro Token im Vergleich zum Wert einer richtigen Antwort irrelevant. Opus verlangt 15 bzw. 75 US-Dollar, weil der Käufer auf dieser Stufe für den Long Tail zahlt – die eine Entscheidung unter hundert, bei der das billigere Modell einen subtilen Fehler in die Produktion gebracht hätte.
Qwen 3.6 Max Preview ist für Volume optimiert. Der 1M-Token-Kontext ist keine flexible Funktion; Es ist für den tatsächlichen Anwendungsfall tragend. Wenn Sie eine Agentenschleife ausführen, die 200.000 Token des Repo-Kontexts abruft, einen Plan generiert, 14 Tool-Aufrufe durchführt und 30.000 Token des Codes zurückschreibt, berechnet Ihnen Opus 4.7 etwa 5 US-Dollar für die Ausführung eines einzelnen Agenten auf dieser Arbeitslast. Qwen 3.6 Max Preview berechnet etwa 0,50 $.
Das ist eine Kostenreduzierung um das Zehnfache gegenüber genau der Arbeitslast, die im Jahr 2026 am häufigsten auftreten wird – Agentenschleifen mit langem Horizont, umfangreichem Kontext und erheblichem Output. Wenn Qwen bei 70 % dieser Workloads eine Ausgabe der Opus-Klasse liefern kann, wird die Rechnung für Anthropic schnell hässlich. Nicht, weil Opus schlechter ist, sondern weil die meisten Agentenläufe nicht die Grenzkapazität benötigen, die der Preisaufschlag erkauft.
Dieser Rahmen hat mich veranlasst, die Tests tatsächlich sorgfältig durchzuführen. Die Frage lautet nicht: „Ist Qwen 3.6 Max Preview besser als Opus 4.7?“ Die Frage ist: „Welche spezifische Art von Arbeit bewältigt es so gut, dass ich nicht das Zehnfache für Opus bezahlen sollte?“
Test 1: Der macOS-Browserklon – Wo der Hype anhält
Ich habe mit der Demo begonnen, die unter X die Runde gemacht hat – einem macOS-Desktop-Klon, der vollständig im Browser läuft. SVG-Symbole, Finder-Leiste, Dock mit Hover-Animationen, funktionierende Taschenrechner- und Notizen-Apps, ein Kalender, ein Fotobetrachter mit Leuchtkasten sowie spielbares Snake und ein Neon-Runner-Spiel, eingebettet in die Betriebssystem-Shell.
Ich habe Qwen 3.6 Max Preview die gleiche Aufforderung gegeben, die ich Qwen 3.6 Plus vor einem Monat gegeben habe, und die gleiche, die ich Opus 4.7 zum Vergleich gegeben habe: „Erstellen Sie einen funktionierenden macOS-Desktop-Klon in einer einzigen HTML-Datei mit SVG-Symbolen, einem funktionierenden Dock mit mindestens vier funktionalen Apps, einer Menüleiste mit einer funktionierenden Uhr und mindestens zwei spielbaren Browserspielen, die vom Dock aus gestartet werden. Verwenden Sie nur Vanilla.“ HTML/CSS/JS.“
Die Qwen 3.6 Max Preview-Ausgabe war – und ich möchte hier präzise sein – erstaunlich sauber. Die Dock-Animation verwendete eine glaubwürdige Vergrößerungskurve. Das Fensterchrom hatte den richtigen Eckenradius und den richtigen Schattenabfall. Der Rechner hat Gleitkomma-Rechnungen ohne Rundungsfehler durchgeführt, die ich bei kleineren Modellen gesehen habe. Snake verfügte über eine ordnungsgemäße Kollisionserkennung und einen funktionierenden Punktezähler. Das Neon-Runner-Spiel hatte eine Sprungphysik, die sich tatsächlich richtig anfühlte.
Beim ersten Durchlauf wurde es korrekt gerendert. Nicht „nachdem ich drei Konsolenfehler behoben habe.“ Erster Lauf.
Zum Vergleich: Opus 4.7 erzeugte eine Ausgabe, die etwa 8 % ausgefeilter war – etwas bessere Auswahl an Schriftarten, ein verfeinerter Übergang im Foto-Viewer, geringfügig bessere Dockabstände. Die Generierung dauerte jedoch 3,2-mal länger und kostete ungefähr 11-mal mehr Token. GPT-5.5 erzeugte bei dieser speziellen Arbeitslast etwas deutlich Schlimmeres – das Dock sah aus, zwei der Apps hatten Layoutfehler und das Neon-Runner-Spiel hatte einen Physikfehler, der dazu führte, dass der Spieler durch Hindernisse hindurchklettern konnte.
Genau für diesen Workload wurde Qwen 3.6 Max Preview entwickelt, um zu gewinnen. Front-End-Codegenerierung mit großem kreativen Spielraum, Single-Shot-Ausgabe, kein nachträgliches Debuggen – und es gewinnt.
Aber bevor Sie davon ausgehen, dass das Muster überall gilt, kommt es beim nächsten Test darauf an, wo es zu knacken beginnt.
Test 2: Der Minecraft-Klon – Wo die Visual Bugs leben
Der zweite Test war die Demo, die mich gegenüber dem Einführungsvideo von Alibaba skeptisch machte. Ein funktionierender Minecraft-Klon im Browser – zerbrechliche Blöcke, Texturen, Höhlensysteme, Lava. So etwas, das in einem 30-sekündigen Highlight-Reel beeindruckend aussieht, aber jede Schwäche offenbart, wenn man es tatsächlich zwei Minuten lang spielt.
Qwen 3.6 Max Preview hat einen funktionierenden Build geliefert. Das Aufbrechen von Blöcken hat funktioniert. Texturen wurden korrekt angewendet. Die grundlegende Chunk-Loading-Logik war solide. Die Welt hatte Höhlen, Flüsse und Lava in ungefähr den richtigen Proportionen.
Dann bin ich untergetaucht.
Es gibt einen Fehler beim Rendern der Transparenz, bei dem Blöcke unter der Spieleroberfläche auf eine Weise durch Wände hindurchscheinen, die die Illusion der Spielwelt zerstören. Sie stehen auf etwas, das wie ein Steinblock aussieht, können aber durch den Boden das Höhlensystem drei Blocks darunter sehen. Es handelt sich nicht um ein kleines visuelles Artefakt – es ist die Art von Fehler, die einem sofort mitteilt, dass die Tiefenpufferlogik nicht stimmt.
Ich habe die gleiche Eingabeaufforderung zum Vergleich mit Qwen 3.6 Plus ausgeführt. Plus hatte eine viel einfachere Weltgeneration, aber keinen Transparenzfehler. Es handelt sich also tatsächlich um eine Regression in einem bestimmten 3D-Rendering-Pfad zwischen Plus- und Max-Vorschau – interessant und erwähnenswert, wenn Sie eines der Modelle für die Prototypenerstellung von Browserspielen verwenden.
Opus 4.7 hat einen Minecraft-Klon mit etwa 30 % geringerer Funktionsdichte (kleinere Welt, weniger Blocktypen, keine Höhlen), aber ohne Rendering-Fehler erstellt. GPT-5.5 lehnte die Aufforderung zunächst mit der Begründung ab, es sei komplex, und produzierte dann in einem Folgebericht etwas, das so aussah, als würde es sich um eine technische Demo für Würfel und nicht um ein Spiel handeln.
Die Lehre aus diesem Test: Qwen 3.6 Max Preview strebt nach einer ehrgeizigen 3D-Ausgabe, und manchmal übersteigt die Reichweite das Fassungsvermögen. Wenn Sie Prototypen erstellen und der visuelle Feinschliff wichtiger ist, als Sie sich das Debuggen leisten können, ist dies eine Arbeitsbelastung, bei der sich der Preisaufschlag für Opus tatsächlich auszahlt.
Test 3: Der 3D-Simulationsstapel – F1-Drifts und SUV-Haltbarkeit
Hier begann ich, die wahre Persönlichkeit des Models zu erkennen. Ich habe ihm zwei Eingabeaufforderungen gegeben, die seit der Veröffentlichung von GPT-5.4 mein Standardsatz für 3D-Stresstests sind:
- „Erstellen Sie mit Three.js eine 3D-Simulation in einer einzigen HTML-Datei: ein SUV-Haltbarkeitsgerät, das über unebenes bergiges Gelände fährt. Beziehen Sie Aufhängungsphysik, Feedback zur Radverformung und einen Rundentimer ein.“
- „Erstellen Sie mit Three.js eine 3D-Simulation in einer einzigen HTML-Datei: ein F1-Auto, das über eine Donut-förmige Strecke driftet, mit filmischen Ansichten mit mehreren Kameras, einschließlich Verfolgungskamera, von oben nach unten und einem niedrigen Winkel zur Streckenseite.“
Beide Eingabeaufforderungen kamen mit einer funktionierenden Ausgabe zurück. Beide Eingabeaufforderungen kamen mit unvollständiger Physik zurück.
Die SUV-Simulation hat das Gelände gerendert, aber die Hügelgeometrie war in gewisser Weise falsch – die Hänge waren auf der einen Seite zu steil und auf der anderen zu flach, als wäre die Höhenkartengenerierung auf eine asymmetrische Verteilung zusammengebrochen. Das Fahrzeug fuhr ordnungsgemäß, erklomm jedoch Hügel, die es nicht hätte erklimmen dürfen. Das Feedback der Federung war zwar vorhanden, fühlte sich aber eher mechanisch als physisch an.
Der F1-Donut-Drift war die interessantere Demo. Die Umschaltung mehrerer Kameras funktionierte reibungslos. Der filmische Rahmen der Verfolgungsjagd war tatsächlich gut komponiert – die Art von Aufnahme, die ein Videofilmer machen würde. Aber die Driftphysik hat den Impuls nicht richtig konserviert. Das Auto übersteuerte auf eine Art und Weise, die sich eher wie ein Arcade-Racer als wie eine Simulation anfühlte.
Was ich in die Spalte „eigentlich beeindruckend“ einordnen würde: die Kameraübergangslogik. Reibungsloses Wechseln zwischen drei Blickwinkeln mit entsprechenden Beschleunigungskurven, generiert als Teil einer Einzelaufnahme-Eingabeaufforderung. Das ist nicht trivial.
Was ich in die Spalte „Ecken in der Vorschauphase“ eintragen würde: die Physik. Bei beiden Demos kam es mir so vor, als wüsste das Modell, wie Physik aussieht, ohne wirklich zu wissen, was Physik ist. Für ein 1,30-Dollar-Eingabepreismodell ist das immer noch äußerst beeindruckend. Für ein Model, das auf der Terminal-Bench 2.0 den ersten Platz belegt, ist es auch ein nützlicher Realitätscheck.
Wenn Sie es bis hierher geschafft haben, kennen Sie bereits die Form der Antwort. Qwen 3.6 Max Preview ist bei bestimmten Workloads wirklich erstklassig und bei anderen eindeutig im Vorschaustadium. Der nächste Test ist der, bei dem der Preisaufschlag von Opus 4.7 am direktesten gefährdet wird.
Test 4: Mehrstufige Agentenkodierung – Das wahre Schlachtfeld
Dies ist der Test, der mir am meisten am Herzen lag, und es ist der Test mit dem Ergebnis, das mich dazu veranlasst hat, meinen Arbeitsablauf zu ändern.
Ich habe eine identische Agentenaufgabe für drei Kabelbäume eingerichtet – Claude Code mit Opus 4.7, Codex CLI mit GPT-5.5 und einen benutzerdefinierten Kabelbaum, der über den OpenAI-kompatiblen Endpunkt auf Qwen 3.6 Max Preview zeigt. Die Aufgabe: Nehmen Sie ein echtes Client-Repo (Laravel 11, ~14K LOC, echte Testsuite), implementieren Sie eine neue Funktionsspezifikation, die ich zuvor geschrieben habe, führen Sie die Testsuite aus, beheben Sie alle Fehler und öffnen Sie eine PR.
Die Spezifikation erforderte das Lesen von 23 Dateien, das Ändern von 7, das Hinzufügen von 4 neuen Dateien und das Sicherstellen, dass 89 bestehende Tests noch bestanden wurden, plus 6 neue Tests für die Funktion.
Opus 4.7 Ergebnis: In 17 Minuten abgeschlossen. PR war sauber. Alle 95 Tests wurden im ersten Durchgang bestanden. Gesamtkosten: 4,87 $ an API-Ausgaben.
GPT-5.5-Ergebnis: In 11 Minuten abgeschlossen (der Geschwindigkeitsunterschied zwischen Opus und GPT-5.5 stimmt mit meinem früheren Vergleichstest überein). PR hatte zwei kleinere Stilprobleme, aber die Tests wurden bestanden. Gesamtkosten: 1,34 $ an API-Ausgaben.
Qwen 3.6 Max Preview Ergebnis: In 23 Minuten abgeschlossen. Bei PR waren anfangs drei Tests fehlgeschlagen – das Modell rief den Testläufer an, sah die Fehler, behob zwei richtig und machte den dritten beim ersten Versuch teilweise falsch. Nach einer Runde der Selbstkorrektur des Agenten waren alle Tests erfolgreich. Der schließlich gelieferte Fix unterschied sich konzeptionell von dem, was Opus lieferte (andere Validierungsstrategie für eine Formulareingabe), war aber funktional gleichwertig. Gesamtkosten: 0,51 $ an API-Ausgaben.
Lesen Sie diese Zahlen noch einmal. 4,87 $ gegenüber 0,51 $ bei demselben Agenten-Workflow. Das ist die architektonische Wette, die ich zuvor beschrieben habe und die sich in echten produktionsorientierten Arbeiten auszahlt.
Der Haken – und das ist wichtig – ist die 23-minütige Fertigstellungszeit und der Test-Fehler-Roundtrip. Wenn Sie dies in einem CI-Hook ausführen, bei dem es auf Geschwindigkeit ankommt, macht sich Opus 4.7 durch die Wartezeit des Entwicklers bezahlt. Wenn Sie es als Batch-Job über Nacht oder als Bereinigungsaufgabe mit niedriger Priorität ausführen, ist die 10-fache Kosteneinsparung eindeutig.
Ich führe jetzt Qwen 3.6 Max Preview als Standardmodell für eine bestimmte Ebene der Agentenarbeit aus – Boilerplate-Gerüstbau, Bereinigungs-PRs, Abhängigkeitsaktualisierungen, Dokumentgenerierung über große Codebasen hinweg. Opus 4.7 bleibt der Standard für anspruchsvolle Funktionsarbeiten und Codeüberprüfungen. GPT-5.5 bleibt die Standardeinstellung für eine schnelle Iteration, wenn ich an der Tastatur sitze. Drei Models, drei Jobs.
Dieser abgestufte Ansatz ist die praktische Antwort, die in den meisten Berichten dieser Pressemitteilung fehlt.
Visuelles Denken: Wo die multimodale Geschichte kompliziert wird
In den Einführungsmaterialien von Alibaba liegt der Schwerpunkt auf visuellem Denken – OCR, Erdung, kontextbezogenes Bildverständnis, Diagramme, Extraktion von UI-Elementen. Ich habe das alles getestet.
Die OCR ist ausgezeichnet. Ich fütterte ihn mit einer fotografierten Quittung mit abgenutzter Tinte, einem Screenshot eines komplexen AWS-Abrechnungs-Dashboards und einer Seite aus einem technischen Handbuch aus den 1980er Jahren, das mit niedriger Auflösung gescannt wurde. Alle drei wurden genau gelesen, einschließlich der Quittung, bei der der Aufdruck am rechten Rand verblasst war.
Diagrammverständnis funktioniert. Ich gab ihm ein mehrachsiges Finanzdiagramm und stellte spezifische Fragen zu Schnittpunkten zwischen zwei Linien. Es hat richtig geantwortet. Ich habe ihm einen Screenshot der Benutzeroberfläche gegeben und ihn gebeten, die Design-Tokens (Farben, Abstände, Typografie) zu extrahieren. Es wurde eine saubere tokens.json erstellt, die dem entspricht, was auf dem Bildschirm angezeigt wird.
Der Haken daran – und die Suchergebnisse haben mich direkt bestätigt – besteht darin, dass die visuellen Fähigkeiten von Qwen 3.6 Max Preview davon abhängen, welchen Endpunkt Sie erreichen. Über die Schnittstelle chat.qwen.ai funktioniert das Hochladen von Bildern reibungslos. Durch den DashScope API benötigen Sie eine etwas andere Anforderungsstruktur, als der OpenAI-kompatible Modus sauber unterstützt. Wenn Sie es in eine vorhandene Toolkette integrieren, die die Form OpenAI vision API erwartet, müssen Sie damit rechnen, eine kleine Adapterschicht zu schreiben.
Zum Vergleich: Opus 4.7 Vision ist sofort einsatzbereit und verarbeitet Randfälle (stark verzerrte Bilder, Fotos bei schlechten Lichtverhältnissen, Dokumente in verschiedenen Sprachen) zuverlässiger. Aber für die Standard-OCR- und Diagrammlese-Workloads, die in 80 % der realen Anwendungen auftreten, ist Qwen ausreichend.
Der Bereich „Real Talk“: Wo ich ihn verwenden würde und wo nicht
Zeit für den Teil, den ich Ihnen schulde – die Kompromisse, die im Startbeitrag von Alibaba nicht erwähnt werden.
Was Qwen 3.6 Max Preview richtig macht:
- Front-End-Codegenerierung in nahezu Opus-Qualität zu etwa 11-mal geringeren Kosten – Agentenschleifen mit langem Kontext, bei denen das 1M-Kontextfenster tragend ist
- Multi-Tool-Agentenausführung (Foliendecks, Finanzanalysen, mehrstufige Recherche) in einer Qualität, die wirklich mit den amerikanischen Flaggschiffen konkurriert
- Bildschirminteraktionsgeschwindigkeit in Echtzeit – bei Streaming-Workloads deutlich schneller als Qwen 3.6 Plus
- OCR und Diagrammlesen für Standard-Produktionsanwendungsfälle
Was es falsch macht:
- 3D-Rendering-Randfälle – visuelle Fehler in komplexen Szenen, die Opus 4.7 nicht erzeugt
- Realismus der Physiksimulation – die F1- und SUV-Demos sehen richtig aus, verhalten sich aber falsch
- Beschleunigen Sie Agentenschleifen mit Test-Fix-Retest-Zyklen – die Laufzeit von 23 Minuten im Vergleich zu den 17 Minuten von Opus summiert sich über einen Tag
- Multimodale Handhabung im Grenzfall – verzerrte Fotos, Aufnahmen bei schlechten Lichtverhältnissen, Dokumente in verschiedenen Sprachen sind schwächer als Opus
- Tooling-Ökosystem – zum Zeitpunkt dieses Schreibens nicht auf OpenRouter oder Kilo, was die Integrationspfade einschränkt
- Zuverlässigkeit in der Vorschauphase – Alibaba behält sich das Recht vor, Preise und Funktionen bei GA zu ändern
Eine Einschränkung, die ich in keiner anderen Berichterstattung erwähnt habe: Der OpenAI-kompatible Endpunkt und der Anthropic-kompatible Endpunkt erzeugen leicht unterschiedliche Ausgaben für dieselbe Eingabeaufforderung. Ich habe dies in 15 Testaufforderungen bestätigt. Der Anthropic-kompatible Endpunkt erzeugt eine Ausgabe, die stilistisch eher an Claude erinnert (strukturierter, eher auf Planung und dann auf Ausführung ausgerichtet). Der OpenAI-kompatible Endpunkt erzeugt eine Ausgabe, die stilistisch näher an GPT liegt (mehr Inline-Argumentation, eher geneigt, zuerst Code zu schreiben und danach zu erklären). Wenn Sie es mit Opus 4.7 vergleichen, verwenden Sie den Anthropic-Endpunkt. Wenn Sie es in einen Stack austauschen, der zuvor GPT verwendet hat, verwenden Sie den OpenAI-Endpunkt. Wenn Sie sie verwechseln, erhalten Sie irreführende Vergleichsergebnisse.
Genau diese Art von Endpunkt-Shape-Unterschied hat mich schon einmal geärgert, und so etwas kostet Sie einen Tag Debugging, wenn Sie niemand warnt.
Was das für Ihren Stack im Mai 2026 bedeutet
Hier ist die praktische Erkenntnis. Wir befinden uns jetzt in einem Markt, in dem es drei Modelle der Spitzenklasse aus drei verschiedenen Labors zu drei unterschiedlichen Preisen gibt, jedes mit einer scharfen Spezialität:
- Claude Opus 4.7 (15 $/75 $): Arbeit mit höchstem Einsatz, Codeüberprüfung, Planung, alles, wo die Kosten einer falschen Antwort die Kosten eines Tokens in den Schatten stellen.
- GPT-5.5 (2,50 $/15 $): Schnelle Iteration über die Tastatur, IDE-integrierte Workflows, Situationen, in denen Sie die Ausgabe sofort auswerten werden.
- Qwen 3.6 Max Preview (1,30 $/7,80 $): Volumenintensive Agentenschleifen, Arbeit mit langen Kontexten, Stapelverarbeitung, jede Arbeitslast, bei der die 10-fache Kostenreduzierung wichtiger ist als die Grenzkapazität.
Das ist ein Stapel, auf dem es sich zu bauen lohnt – und ich leite jetzt bestimmte Arbeitslasten an bestimmte Modelle weiter, je nachdem, welche Achse für diesen Job am wichtigsten ist. Die Frage für jedes Team im Jahr 2026 lautet nicht: „Welches Modell ist das beste?“ Die Frage ist: „Welches Modell eignet sich am besten für diesen speziellen Anruf?“
Wenn Sie Routing-Entscheidungen nicht auf Workload-Ebene treffen, zahlen Sie entweder zu viel für Massenarbeit oder geben zu wenig für die wichtigen Anrufe aus.
Häufig gestellte Fragen
Ist Qwen 3.6 Max Preview auf OpenRouter oder Kilo verfügbar?
Nicht ab dem 28. April 2026. Der Zugriff ist derzeit auf die DashScope- und Bailian-Plattformen von Alibaba Cloud über API sowie den kostenlosen Chatbot unter chat.qwen.ai beschränkt. Die OpenAI-kompatiblen und Anthropic-kompatiblen Endpunkte machen die Integration unkompliziert, aber Sie nutzen in beiden Fällen die Infrastruktur von Alibaba.
Wie viel kostet Qwen 3.6 Max Preview im Vergleich zu Claude Opus 4.7?
Qwen 3.6 Max Preview kostet 1,30 $ pro Million Input-Tokens und 7,80 $ pro Million Output-Tokens. Claude Opus 4.7 kostet 15 US-Dollar pro Million Input und 75 US-Dollar pro Million Output. Das entspricht etwa einer Kostenreduzierung um das 11,5-fache beim Input und einer Kostenreduzierung um das 9,6-fache beim Output. Bei kontext- und ausgabeintensiven Agentenläufen ist die Kostenlücke das Hauptmerkmal.
Akzeptiert Qwen 3.6 Max Preview Bildeingaben?
Ja, aber mit Vorbehalten. Die Bildeingabe funktioniert reibungslos über chat.qwen.ai und über DashScopes nativen API. Über den OpenAI-kompatiblen Endpunkt benötigen Sie möglicherweise eine kleine Adapterschicht, um der Anforderungsstruktur zu entsprechen. Randfälle wie stark verzerrte Fotos und Bilder bei schlechten Lichtverhältnissen sind schwächer als die Vision von Claude Opus 4.7.
Was ist das Kontextfenster auf Qwen 3.6 Max Preview?
Das Modell unterstützt ein 1 Mio. Token-Kontextfenster – einige Quellen nennen jedoch 260 KB, je nachdem, welchen Endpunkt Sie erreichen. Für Standard-Frontend- und Agenten-Codierungsaufgaben ist 1 Mio. die operative Grenze. Sehen Sie sich den Abschnitt zur Agentencodierung von Test 4 oben an, um zu erfahren, wie sich der lange Kontext in der Praxis auf echten Repos verhält.
Sollte ich von Claude Opus 4.7 zu Qwen 3.6 Max Preview wechseln?
Nicht wechseln – Stufe. Verwenden Sie Qwen 3.6 Max Preview für hochvolumige Agentenschleifen, Stapelverarbeitung und Front-End-Generierung, bei denen die 10-fache Kostenreduzierung geringfügige Qualitätsunterschiede überwiegt. Behalten Sie Opus 4.7 für anspruchsvolle Codeüberprüfungen, Planungen und Funktionsarbeiten bei, bei denen eine falsche Antwort teuer ist. Die richtige Antwort im Jahr 2026 ist das Routing pro Workload und nicht die Verpflichtung auf ein einzelnes Modell.
Lasst uns zusammenarbeiten
Möchten Sie AI-Systeme aufbauen, Arbeitsabläufe automatisieren oder Ihre technische Infrastruktur skalieren? Ich würde gerne helfen.
- Fiverr (benutzerdefinierte Builds und Integrationen): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (Unternehmenslösungen): ramlit.com
- ColorPark (Design & Branding): colorpark.io
- xCyberSecurity (Sicherheitsdienste): xcybersecurity.io