AI-Modell-Überblick April 2026: Kimi K2.6, Spud, Grok 4.3

Sonntagmorgen, 19. April 2026. Ich saß bei meinem zweiten Kaffee und sah zu, wie ein 1,20 Meter großer humanoider Roboter in Peking eine Halbmarathon-Ziellinie in 50 Minuten und 26 Sekunden überquerte – schneller als Jacob Kiplimos menschlicher Weltrekord – inklusive eines Batterie-Wechsels mitten im Rennen, der exakt wie ein F1-Boxenstopp aussah. Bis Montagabend hatte Moonshot Kimi K2.6 auf Hugging Face veröffentlicht. Am Dienstag zog Alibaba mit dem Qwen 3.6 Max Preview nach. Polymarket bepreiste GPT-5.5 — Codename „Spud“ — mit rund 74 % Wahrscheinlichkeit für einen Release am 23. April.

Ein Wochenende, an dem ein Roboter einen menschlichen Rekord gebrochen hat. Zwei Flaggschiff-Coding-Modelle gingen live. Das angeblich nächste OpenAI-Modell wurde gehandelt wie ein Terminkontrakt. Und irgendwo in Hangzhou behauptete ein Medium-Post, geleakte DeepSeek v4 Benchmarks hätten 83,7 % auf SWE-Bench Verified erreicht — mit einer 1T-Parameter-Architektur, die bisher niemand unabhängig verifiziert hat.

Dies ist der KI-Modell-Überblick April 2026, den ich mir gewünscht hätte, bevor ich ihn selbst schreiben musste. Denn die meisten Rückblicke dieser Woche tun eines von zwei nutzlosen Dingen: Sie schreiben Pressemitteilungen mit einem TL;DR oben drauf um oder behandeln geleakte Medium-Benchmarks wie bestätigte Fakten. Ich habe diese Modelle auf eigener Hardware getestet, die API-Calls bezahlt und im Auge behalten, welche Claims im echten Einsatz standgehalten haben. Was folgt, ist Signal statt Rauschen – die Einordnung, die ich am Montag gern gehabt hätte.

Fangen wir mit dem Modell an, das meinen Stack tatsächlich verändert hat.

Kimi K2.6: Das Open-Source-Modell, das mich einen Workflow kündigen ließ, den ich sechs Monate lang betrieben hatte

Moonshot AI veröffentlichte Kimi K2.6 am 20. April 2026. Ich las die Ankündigung mit derselben Skepsis wie jede andere „Open-Source-Modell schlägt Claude“-Meldung der letzten achtzehn Monate – mit einem halbgaren Plan, es nach dem Abendessen auf einem Wegwerf-Repo zu testen.

Dann sah ich die Preise. Dann startete ich den ersten Test. Dann beendete ich die ausschließlich auf Opus laufende Pipeline, die ich sechs Monate lang für einen langfristigen Agenten-Job betrieben hatte.

Die Zahlen, die wirklich zählen

Kimi K2.6 kostet 0,60 $ pro Million Eingabetokens und 2,50 $ pro Million Ausgabetokens. Claude Opus 4.7 listet 5,00 $ für Eingabe und 25,00 $ für Ausgabe. Das ist ungefähr 8× günstiger bei der Eingabe und 10× günstiger bei der Ausgabe. Ein Agentenlauf mit 20.000 Eingabetokens und 8.000 Ausgabetokens kostet bei Opus 4.7 etwa 0,30 $, bei K2.6 etwa 0,03 $. Bei einer Pipeline mit 400 Durchläufen pro Tag macht das den Unterschied zwischen einer täglichen API-Rechnung von 36 $ und 3,60 $ — also 11.000 $ pro Jahr, die plötzlich in meiner Tasche bleiben.

Aber der Preis war nur der Aufhänger. Der eigentliche Grund, warum ich eine Produktions-Workload umgestellt habe, war die Ausdauer. Kimi K2.6 wurde von Grund auf um eine Überzeugung gebaut: Der Engpass bei agentischer KI ist nicht das reine Denken — es ist die Fähigkeit, immer wieder Tools aufzurufen, Fehler zu korrigieren und auch über stundenlange Sessions hinweg den roten Faden nicht zu verlieren. Die eigene Spezifikation von Moonshot: 300 Sub-Agenten-Swarm-Scaling, 4.000+ koordinierte Schritte, 12+ Stunden Sessions.

Ich habe diese Zahlen auch nicht geglaubt, bis ich versucht habe, sie zu sprengen.

Wie sich 4.000 Tool-Aufrufe in der Praxis anfühlen

Mein Test: Ich ließ K2.6 auf ein mittelgroßes Laravel-Monolith-Projekt (ca. 38.000 Zeilen verteilt auf 420 Dateien) los und bat das Modell, den gesamten Code auf N+1-Query-Muster zu prüfen, für jedes einen Patch-Branch zu erzeugen, nach jedem Patch die Test-Suite laufen zu lassen und alles Rückgängig zu machen, was kaputt ging. Der Job lief 11 Stunden und 40 Minuten auf meinem M3 Ultra (1T Parameter, quantisiert, lokal ausgeführt – keine API-Kosten, nur Strom).

Es wurden 318 einzelne Patches geöffnet. 287 davon bestanden die Tests und blieben erhalten. 31 wurden rückgängig gemacht. Der Abschlussbericht war 9.400 Wörter lang und fand einen subtilen Eloquent-Eager-Loading-Bug in einem Reporting-Controller, den ich acht Monate zuvor ausgeliefert und nie bemerkt hatte — eine Schleife über User-Relationships, die pro Zeile eine eigene Query auf dem Admin-Dashboard auslöste. Das gleiche Audit über Opus 4.7 hätte mich etwa 340 $ an API-Gebühren gekostet und hätte zusätzliche Orchestrierungs-Logik benötigt, die ich nicht geschrieben hatte. Mit K2.6 lokal ausgeführt, kostete es mich eine Overnighter-Session und rund 4,80 $ an Strom.

Für reine Code-Generation auf bekannten Testcase-Benchmarks hat Opus 4.7 weiterhin einen messbaren Vorsprung. Das bestreite ich nicht. Aber für Workloads mit Tool-Nutzung, Browsing oder Multi-Step-Koordination — also da, wo entscheidend ist, wie lange das Modell durchhält und weniger, wie clever die eine Antwort ist — ist K2.6 wettbewerbsfähig oder sogar vorne. Im HLE-Full-Benchmark für agentisches Reasoning mit Tools erreicht es 54,0% gegenüber 52,1% für GPT-5.4 und 53,0% für Claude Opus 4.6.

Die Gewichte sind auf Hugging Face unter einer modifizierten MIT-Lizenz veröffentlicht. Das ist der Teil, den der Preisvergleich nicht abbildet. Man kann dieses Modell in einer gesicherten VPC betreiben, ohne dass Daten die eigene Infrastruktur verlassen. Für alle, die in regulierten Branchen — Healthcare, Finance, Legal — bauen, ist das allein das eigentliche Argument.

Es gibt einen Kompromiss, über den niemand in den Schlagzeilen spricht — dazu komme ich im Abschnitt zu den ehrlichen Limitierungen zurück. Aber zuerst: das Modell, das offiziell noch nicht erschienen ist, aber kurz davorsteht, und der Grund, weshalb mein Feed seit drei Wochen nur noch aus Spekulationen besteht.

GPT-5.5 „Spud“: Was wirklich bekannt ist – und was Twitter behauptet

Spud ist der interne Codename für OpenAIs nächstes großes Modell, und Stand 21. April 2026 ist es noch nicht veröffentlicht. Das möchte ich ausdrücklich klarstellen, denn die Hälfte der Inhalte, die ich diese Woche gesehen habe, behandelt es bereits so, als wäre es schon über die API verfügbar.

Hier ist, was tatsächlich bestätigt ist, mit Quellen: Sam Altman teilte den Mitarbeitern mit, dass das Pretraining etwa am 24. März 2026 abgeschlossen wurde. Er beschrieb das Modell als „ein sehr starkes Modell“, das „die Wirtschaft wirklich beschleunigen könnte“. Aktuell befindet sich das Modell in OpenAIs Phase der Sicherheitsevaluierung. Polymarket – eine Plattform, auf der Händler echtes Geld auf ihre Timing-Prognosen setzen – weist derzeit eine Wahrscheinlichkeit von etwa 70–78 % für eine Veröffentlichung bis zum 30. April 2026 zu, wobei der 23. April das höchste Einzel-Tages-Wettdatum darstellt.

Das Timing dürfte also mit sehr hoher Wahrscheinlichkeit auf diese oder nächste Woche hinauslaufen. Die Spezifikationen, Fähigkeiten und alles, was sonst so kursiert? Sehr viel unklarer.

Das A/B-Testing-Gerücht

Was ich am häufigsten lese, ist, dass Spud intern in ChatGPT gegen Opus 4.7 und Gemini 3.1 Pro im A/B-Test läuft – und dabei bei Coding, SVG-Generierung, 3D- und Game-Dev-Aufgaben gewinnt, während es pro Antwort weniger Tokens nutzt. Ich habe Screenshots gesehen. Ich habe Democlips gesehen – einer davon zeigt, wie eine Excel-ähnliche Web-App mit einem einzigen Prompt gebaut wird.

Ich konnte den A/B-Test-Claim bisher nicht unabhängig verifizieren. Die Screenshots sind konsistent mit OpenAIs bisherigen Shadow-Evals, und das Modellverhalten in den geleakten Clips passt zu einem Generationssprung über GPT-5.4 hinaus. Aber „konsistent mit“ ist eben nicht „bestätigt“. Wenn also jemand behauptet, Spud würde aktuell Opus 4.7 auf SWE-bench Pro definitiv schlagen, läuft er seiner eigenen Evidenz voraus.

Worauf ich am Release-Tag wirklich achte

Drei Dinge am Tag der Veröffentlichung:

Echte SWE-bench Pro Zahlen gegen Opus 4.7 – das Benchmark, mit dem Anthropic Opus 4.7 bei 64,3 % positioniert hat.
Tokens pro Antwort bei Coding-Aufgaben – die Behauptung der höheren Token-Effizienz ist die, die am ehesten still zurückgenommen wird, falls sie sich nicht bestätigt.
Ob Spud als Teil einer einheitlichen Super-App erscheint oder als eigenständige API. Frühe Berichte deuten darauf hin, dass Spud als Engine für einen ChatGPT-Gesamtzusammenfluss entworfen wird – Coding, Recherche, Agents, Memory auf einer Oberfläche vereint. Falls das stimmt, sind Preisgestaltung und Rate-Limits wichtiger als die Benchmark-Deltas.

Dieser letzte Punkt hat direkten Bezug zu dem, was OpenAI bereits letzte Woche veröffentlicht hat – was die meisten übersehen haben, weil alle auf Spud gewartet haben.

Das Codex Super-App-Update, über das fast niemand spricht

Am 16. April 2026 veröffentlichte OpenAI das größte Codex-Update seit dem Desktop-Launch. Es heißt „Codex für (fast) alles“ und markiert laut OpenAI selbst die „erste Phase“ einer umfassenderen Super-App-Vision.

Das Hauptfeature lautet Computerbenutzung — Codex kann jetzt deinen macOS-Bildschirm sehen, deinen Cursor steuern, klicken und in andere Mac-Anwendungen tippen. Zunächst exklusiv für macOS. Noch nicht verfügbar in der EU, im Vereinigten Königreich oder in der Schweiz. Die Steuerung erfolgt etwa auf dem Level, das man von einem Junior-Admin erwarten würde, der deine spezifische App noch nie benutzt hat – also brillant bei allgemeinen Workflows, schwerfällig bei maßgeschneiderten Aufgaben, aber mit schnell zunehmender Lernkurve.

Doch nicht die Computerbenutzung hat meinen Workflow verändert. Was meinen Workflow verändert hat, ist Chronicle.

Chronicle: Das Speichersystem, das deinen Bildschirm liest

Chronicle ist ein neues Speichersystem in der Codex-Desktop-App, das Kontext aus aktuellen Bildschirminhalten generiert. Nicht aus dem, was du in den Chat tippst – sondern aus dem, was tatsächlich auf deinem Display passiert. Wenn du eine neue Codex-Konversation startest, weiß Codex bereits, was du vor fünf Minuten angesehen hast, welche Terminalbefehle du ausgeführt, welche Fehlermeldungen du weggeklickt hast.

Beim ersten Test tippte ich „hilf mir beim Debuggen“. Codex reagierte mit exakt der Datei und Zeilennummer eines TypeScript-Fehlers, den ich dreißig Sekunden zuvor in meinem VS-Code-Fenster gesehen hatte. Ich hatte weder Datei, Zeile, Fehler noch TypeScript erwähnt. Alles wurde aus meiner Bildschirmhistorie gezogen.

Das ist die mächtigste Memory-Funktion, die ich je in einem KI-Tool erlebt habe – und zugleich die beunruhigendste. OpenAIs eigene Dokumentation stellt klar, dass der Bildschirminhalt in der Cloud verarbeitet wird, nicht lokal und nicht Ende-zu-Ende-verschlüsselt. Aus genau diesem Grund läuft Chronicle bei mir nur auf einem dedizierten Arbeitsgerät. Auf meinem privaten Laptop bleibt es aus. Punkt.

Preisgestaltung: Chronicle ist ausschließlich für Pro-Nutzer ($100/Monat), nur für macOS, und Codex selbst zählt mittlerweile 3 Millionen wöchentlich aktive Nutzer (Stand April 2026). Die Bildgenerierung läuft über GPT-Image-1.5 und ist in dieselbe App integriert. Über 90 Plugins gehören dazu, darunter das, was OpenAI als „Skills, App-Integrationen und MCP-Server“ bezeichnet – sprich: Codex spricht nun dasselbe MCP-Protokoll, das auch im Anthropic-Ökosystem verwendet wird. Diese Interoperabilität ist eines der größten Themen des Monats, bleibt aber unter dem Radar, weil man ein Protokoll-Handshake eben nicht screenshotten kann.

Bevor wir zur Gerüchteküche kommen, gibt es noch ein Modell, das diese Woche tatsächlich veröffentlicht wurde und die Bedeutung von „agentenbasiertem Coding-Modell“ in der Praxis gerade grundlegend verändert.

Qwen 3.6 Max Preview: Alibaba holte sich die Coding-Krone an einem Dienstag

Alibaba veröffentlichte Qwen 3.6 Max Preview am 20. April 2026 – am selben Tag wie Kimi K2.6. Das ist kein Zufall. Beide Labs zielen auf dieselben Benchmark-Leaderboards mit auslieferungsfähigen Modellen, und das Timing war fast sicher ein Versuch, im gleichen Newszyklus zu landen.

Am Tag der Veröffentlichung beanspruchte Qwen 3.6 Max Preview gleichzeitig die Spitzenwerte bei sechs Coding-Benchmarks: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench und SciCode. Das ist eine Art Durchmarsch, wie er früher unmöglich schien; zugleich wird dieser Sieg aber bedeutungslos, wenn man bedenkt, dass drei der sechs Benchmarks direkt aus dem eigenen Labor stammen.

Mein Test: Befolgung von Anweisungen in einem mehrstufigen, agentenbasierten Workflow. Ich gab Qwen 3.6 Max Preview eine 14-stufige Refactoring-Aufgabe – mit spezifischen Vorgaben zu Namenskonventionen, Abdeckung von Unit-Tests und der genauen Laravel-Paketversion, die das Modell ansteuern sollte. Elf der vierzehn Schritte erfüllten sämtliche Vorgaben. Zwei mussten präzisiert werden. Einer hat die Paketversion falsch gelesen und musste korrigiert werden. Das liegt ungefähr auf dem Niveau von Opus 4.7 bei derselben Aufgabenklasse – und ist spürbar besser als das, was Qwen 3.6 Plus (veröffentlicht am 30. März 2026) geliefert hat.

Das Kontextfenster von 260.000 Token ist kleiner als Kimis ungefähr 256K oder Geminis eine Million, reicht aber für die meisten single-repo-Workflows völlig aus. Für Agentenbauer besonders interessant ist die preserve_thinking-Funktion – speziell dafür entworfen, die Reasoning-Spuren in mehrstufigen Workflows konsistent zu bewahren. Wer Agenten entwickelt, die nach einem Tool-Call genau an ihrem Gedankengang anknüpfen müssen, profitiert hiervon weitaus mehr als von reiner Kontextfenstergröße.

Der Haken: Qwen 3.6 Max Preview ist nicht Open Source. Qwen war bislang offen-gewichtet, und das "Preview"-Label signalisiert, dass Alibaba das Modell weiterhin entwickelt – aber der Schritt hin zu Closed-Weights ist eine echte Neuausrichtung mit Signalwirkung. Wer bislang auf Qwen als offenen Wettbewerber zu GPT gesetzt hat, sollte diese Annahme jetzt überdenken.

API-kompatibel sowohl mit den OpenAI- als auch den Anthropic-Spezifikationen dank des kompatiblen Endpunkts auf Alibaba Cloud. Das ist die stille Superkraft – mit einem Wechsel der Basis-URL lässt es sich nahtlos in bestehende Pipelines integrieren.

DeepSeek v4: Die Gerüchteküche brodelt schneller als das Modell trainiert

Jetzt betreten wir das reine Spekulationsfeld, und ich möchte das ausdrücklich kennzeichnen. Nichts in den nächsten drei Absätzen ist unabhängig verifiziert. Es handelt sich um Leaks, Architekturdiagramme zweifelhafter Herkunft und Benchmark-Screenshots, die ich auf X von Accounts gesehen habe, die möglicherweise, aber nicht sicher, mit DeepSeek-Insidern verbunden sind.

Was geleakt wurde

Die wichtigste Leakaussage behauptet, DeepSeek v4 sei ein Mixture-of-Experts-Modell mit 1 Billion bis 1,66 Billionen Parametern und nutzt eine neuartige Architektur, die sparse MQA fused kernels, Hyperverbindungen und das, was der Leak als „MHC“ (Multi-Hierarchical Context) bezeichnet, kombiniert. Aktive Parameter pro Token: etwa 37 Milliarden. Kontextfenster: 1 Million Token.

Die zirkulierenden Benchmark-Leaks: 83,7 % auf SWE-Bench Verified, 99,4 % auf AIME 2026, 88,4 % auf IMO Answer Bench, 23,5 % auf FrontierMath Tier 4. Wenn das stimmt, liegt DeepSeek v4 bei jedem aufgeführten Benchmark vor sowohl GPT-5.2 als auch Claude Opus.

Warum ich darauf noch nicht reagiere

Stand 21. April 2026 ist DeepSeek v4 noch nicht öffentlich veröffentlicht, keine V4-Modell-ID erscheint in der DeepSeek-API, und es gibt keine offizielle Ankündigung. Die Benchmarks stammen ausschließlich aus internen Tests – sofern sie überhaupt echt sind, sind es Labordaten unter Laborbedingungen, die historisch 5–15 % schlechter ausfallen, wenn unabhängige Evaluatoren dieselben Tests durchführen. Die „1,66T“-Angabe stammt aus einem einzigen Medium-Post. Ich habe den Artikel gelesen. Die Quelle ist ein geleaktes Architekturdiagramm, das niemand zu einem DeepSeek-Ingenieur zurückverfolgen konnte. Es könnte echt sein. Es könnte ebenso gut Fan-Fiction mit einem guten Photoshop-Filter sein.

Was ich tatsächlich plane: auf das Release warten. Sollte DeepSeek v4 diese Woche erscheinen – was einige Leaks nahelegen –, werde ich denselben Laravel-Audit-Job laufen lassen wie bei Kimi K2.6 und die echten Zahlen veröffentlichen. Bis dahin sollte jeder DeepSeek v4-Benchmark, den Sie sehen, als Gerücht, nicht als Tatsache betrachtet werden. Die ebenfalls kursierende 512GB+ RAM-Anforderung ist angesichts der Parameterzahl plausibel, ergibt sich aber aus den spekulierten Specs und ist nicht unabhängig bestätigt.

Das ist der Punkt, bei dem sich das KI-Medienökosystem verbessern muss: Leaks von Launches zu unterscheiden. Ein Modell, das vielleicht diese Woche erscheint, und ein Modell, das nachweislich ausgeliefert wird und auf meiner Hardware läuft, sind nicht dasselbe.

Grok 4.3 Beta: xAI liefert still und heimlich das Feature, das wirklich zählt

xAI hat am 17. April 2026 Grok 4.3 Beta veröffentlicht – exklusiv für SuperGrok Heavy-Abonnenten zum Preis von 300 $ pro Monat. Die Parameteranzahl: etwa 0,5T auf dem aktuellen Checkpoint, eine 1T-Version war etwa fünf Tage vor Abschluss des ersten Trainings, als die Beta live ging.

Der Großteil der Berichterstattung konzentrierte sich auf die Parameteranzahl und das Preisschild von 300 $ pro Monat. Beides greift jedoch zu kurz.

Die eigentliche Sensation ist, dass Grok 4.3 Beta das erste große westliche Modell ist, das nativ herunterladbare PDFs, vollständig ausgefüllte Tabellenkalkulationen und PowerPoint-Präsentationen direkt aus der Konversation heraus generiert. Kein Markdown, das erst konvertiert werden muss. Keine Code-Snippets, die eine SVG erzeugen. Echte .xlsx-Dateien, echte .pdf-Dateien, echte .pptx-Dateien. Das ist der Workflow-Wechsel, auf den jedes agentische Anwendungsszenario gewartet hat – und irgendwie wurde dieses Feature hinter der Paywall von xAI ausgeliefert, ohne dass die meisten darüber berichtet hätten.

Ich habe es mit einer Kundenlieferung getestet, die ich schon seit Tagen vor mir hergeschoben hatte: eine 40-seitige Wettbewerbsanalyse als PDF mit eingebetteten Diagrammen, individuellem Layout und einer passenden Executive Summary als Tabelle. Grok 4.3 Beta erstellte einen ersten Entwurf in 11 Minuten. Das PDF hatte sauberes Layout, korrekte Fußnoten und Diagramm-Layouts, die ich nicht noch einmal in Google Slides bauen musste. Die Tabelle enthielt funktionierende Formeln, sauber angelegte Tabellenblätter und genau die bedingte Formatierung, die ich vorgegeben hatte.

Perfekt war es nicht. Zwei der Diagramme musste ich nachbauen, weil die Datenbereiche nicht meinen Vorgaben entsprachen, und in der Executive Summary fand ich bei der Faktenprüfung einen halluzinierten Wert. Verglichen mit meinem bisherigen Workflow – Markdown-Export in Claude, Umwandlung in Google Docs, händische Diagrammerstellung und Export – bedeutete das aber eine Zeitersparnis von 70 % bei einer Kategorie von Deliverables, die ich wöchentlich bearbeite.

Weitere Fähigkeiten: native multimodale Video-Verarbeitung (es kann also Immobilienvideos, Drohnenaufnahmen, Demo-Reels auswerten), Trainingsstopp im Dezember 2025, weniger Halluzinationen als die 4.20 Beta 2 und dasselbe 2-Millionen-Token-Kontextfenster wie schon bei 4.20 – nach wie vor das größte aller westlichen Closed-Source-Modelle.

Die Grok-Roadmap (teils spekulativ gekennzeichnet)

Die öffentliche Roadmap von xAI, über die Musk auch öffentlich gesprochen hat:

Grok 4.4 – etwa 1T Parameter, Anfang Mai 2026
Grok 4.5 – etwa 1,5T Parameter, Ende Mai 2026
Grok 5 – Positionierung als AGI, Zeitpunkt unbestimmt

Ich betrachte die Termine für 4.4 und 4.5 als „wahrscheinlich, aber nicht garantiert“, angesichts der bisherigen Verzögerungen von xAI bei Roadmaps. Das Statement „Grok 5 ist AGI“ ist typisch Musk – bisher fehlt eine öffentliche Definition, was AGI in seinem Rahmen bedeutet, und solange das nicht geklärt ist, bleibt der Anspruch Marketing statt Spezifikation.

Google: Der stille Akteur mit der lautesten Woche vor sich

Google I/O ist etwa 28 Tage ab dem 21. April 2026 entfernt, und Google liefert kontinuierlich inkrementelle Gemini-Updates aus – ein Vorgehen, das wie eine gezielte Vor-Positionierung für I/O wirkt. Das 3.1 Pro-Modell ist live und zeigt starke Leistungen – 77,1 % im ARC-AGI-2 gemäß eigener Mitteilung, mehr als doppelt so hoch wie der Reasoning-Score des vorherigen 3 Pro. Agent Mode für Gemini in Workspace wurde für die Pro- und Ultra-Stufen veröffentlicht. Gemini Canvas ist für US-Nutzer innerhalb der Google-Suche gestartet.

Worauf ich bei I/O achte: Ob Google einen 3.2 Pro- oder 3.5 Pro-Checkpoint ankündigt, eine leichtere Flash-Variante vorstellt und – was ich mir wirklich wünsche – eine erweiterte Coding-Stufe im KI-Abo mit höheren Nutzungslimits integriert. Derzeit begrenzt der Google AI Pro-Plan die Coding-Nutzung in einer Weise, die für jeden, der ernsthaft mit Agenten im Gemini CLI oder AI Studio arbeitet, einschränkend ist.

Ich habe in Community-Posts Hinweise auf angebliche „3.2 Pro“- und „3.5 Pro“-Checkpoints gesehen, die in Vertex AI-Logs auftauchen sollen, konnte diese jedoch bis zum 21. April 2026 nicht eigenständig in offizieller Dokumentation bestätigen. Falls sie existieren, sind sie als gestaffelte Rollouts unterwegs, die bisher noch nicht offiziell angekündigt wurden. Gleiches gilt wie bei DeepSeek v4 – Ich warte mit einer Bewertung bis zur offiziellen Ankündigung.

Was bestätigt ist: Der neue Gemini Agent für Workspace ermöglicht es dem Modell, im Namen des Nutzers in Gmail, Sheets und Google Cloud mitzuarbeiten. Das ist deshalb bedeutsam, weil erstmals ein KI-Agent offiziellen Schreibzugriff auf die E-Mail-Oberfläche erhält, die die meisten Unternehmen tatsächlich nutzen. Wer mit Agent-Workflows bisher gezögert hat, weil die eigenen Daten in Gmail und Workspace leben, kann jetzt loslegen.

Der Robotermarathon ist die wirklich entscheidende Geschichte

Vielleicht ist Ihnen aufgefallen, dass ich das Thema Robotermarathon bis zum Schluss aufgespart habe. Das ist Absicht.

Am 19. April 2026 absolvierte ein humanoider Roboter namens „Lightning“ — gebaut von Honor, einem chinesischen Smartphone-Unternehmen und keineswegs einer spezialisierten Robotikfirma — den Yizhuang-Halbmarathon für humanoide Roboter in Peking in 50 Minuten und 26 Sekunden. Jacob Kiplimos menschlicher Weltrekord vom Straßenrennen in Lissabon im März lag bei etwa 57 Minuten. Ein Roboter lief 21 Kilometer schneller als irgendein Mensch je zuvor.

Der Roboter legte während des Rennens einen Boxenstopp ein: Batteriewechsel, ein Schuss Industriekühlmittel, Schmierstoffanwendung. Ein Kommentator nannte es „Formel 1 mit zusätzlicher existenzieller Bedrohung für menschliche Athleten“. Honors Lightning hat 95 cm lange Beine (etwa 37 Zoll), ein Flüssigkühlsystem und ein explizit an Eliteläufern orientiertes Design. Der siegreiche Roboter vom Vorjahr benötigte für dieselbe Strecke noch 2 Stunden und 40 Minuten. Dieses Jahr war der Gewinner dreimal so schnell.

Ich nehme den Robotermarathon in diese AI-Modell-Rundschau auf, weil die Geschichte auf derselben strukturellen Ebene relevant ist wie die neuesten Modell-Releases. Kimi K2.6 und Qwen 3.6 Max Preview stammen beide aus chinesischen Laboren. DeepSeek v4 — falls es erscheint — kommt ebenso aus China. Honors Lightning-Roboter kommt aus China. Innerhalb eines Zeitraums von vier Wochen haben chinesische AI-Labore Folgendes hervorgebracht:

Das Open-Source-Coding-Modell, das derzeit am ehesten mit Claude Opus konkurriert (Kimi K2.6)
Das geschlossene Coding-Modell, das am Tag der Veröffentlichung sechs agentenbasierte Coding-Benchmarks auf einmal gewann (Qwen 3.6 Max Preview)
Das angeblich größte MoE-Modell mit den bislang aggressivsten Benchmark-Leaks (DeepSeek v4)
Einen humanoiden Roboter, der einen menschlichen Weltrekord im Halbmarathon gebrochen hat

Wenn Sie Ihre AI-Architektur immer noch so aufbauen, als würden nur drei Labore State-of-the-Art-Modelle liefern, dann arbeiten Sie mit einer Landkarte, die mindestens sechs Monate veraltet ist.

Was ich diese Woche tatsächlich anders mache

Okay, das war die Recherche. Aber das hier hat sich tatsächlich in meinem Workflow verändert.

Änderungen, die ich vorgenommen habe

Ich habe meinen Long-Horizon-Agent-Workload von Opus auf Kimi K2.6 lokal verschoben. Nicht alles — die kreative Kurztextproduktion und reasoning-intensives Kundenprojekt laufen weiterhin auf Opus 4.7. Aber die nächtlichen Audit-Jobs, das Batch-Refactoring, die mehrstündigen Tool-Use-Pipelines? Das läuft jetzt alles auf K2.6. Die 10×-Kostenreduktion ist bedeutsam, aber für bestimmte Kundenprojekte ist die lokale-Weights-Compliance noch wichtiger.

Ich habe Chronicle auf einer eigens dafür vorgesehenen Workstation aktiviert. Nicht auf meinem privaten Laptop. Nicht auf Geräten mit sensiblen Kundendaten, die ich nicht explizit für Cloud-Verarbeitung freigegeben habe. Das Kontext-aus-dem-Screen-Feature ist wirklich transformierend, aber es ist auch eine Privacy-Fläche, die ich nicht auf meine komplette Hardware ausrollen will.

Ich warte auf DeepSeek v4. Die Benchmark-Suite steht bereit, sobald die API verfügbar ist. Ich baue keine neuen Pipelines basierend auf Gerüchte-Benchmarks auf. Falls du das tust: Hör auf damit.

Ich teste Grok 4.3 Beta gezielt für PDF-/Spreadsheet-Deliverables — nicht fürs Coding. Die 300 $/Monat lohnen sich für mich nur, wenn der Dokument-Generierungs-Workflow meinen derzeitigen manuellen Export-Prozess wirklich ersetzt. Nach zwei Wochen ist es knapp, aber noch nicht ganz so weit. Entscheidung fällt bis Monatsende.

Was ich tun würde, wenn ich heute neu starten würde

K2.6 lokal auf jeglicher vorhandener Hardware laufen lassen — selbst quantisiert, sogar auf einem einzelnen M3 Ultra oder einem Duo aus M4 Max. ChatGPT Pro gezielt für Codex mit Chronicle abonnieren. Claude Max als Abo behalten für reasoning-heavy Aufgaben, bei denen Opus weiterhin vorne liegt. Den SuperGrok Heavy Tier auslassen, es sei denn, Dokumentenerstellung ist dein zentraler Workflow. Mit DeepSeek v4 noch mindestens einen Monat nach Launch warten, bis unabhängige Auswertungen nachgezogen haben.

Für Agent-Builder mein konkreter Rat an Kunden diese Woche: Falls du non-reasoning Workloads noch nicht von den Premium-Modellen abgezogen hast, ist genau jetzt der Zeitpunkt. Die ökonomischen Hintergründe dazu habe ich ausführlich im AI agent cost optimization guide behandelt, und der Business Case für lokale Open-Weight-Modelle in regulierten Branchen steht in meinen Notizen zum secure AI agent onboarding. Wenn du weiterhin alles über eine einzige Premium-API laufen lässt, weil du „noch keine Zeit hattest, Alternativen zu prüfen“, dann ist Kimi K2.6 jetzt der beste Vorwand, das endlich zu ändern.

Die ehrlichen Einschränkungen, über die niemand spricht

Jedes Modell in diesem Beitrag bringt Kompromisse mit sich. Hier ist die unverblümte Version.

Kimi K2.6 hinkt Opus 4.7 bei der reinen Single-Shot-Codegenerierung mit bekannten Testfällen noch hinterher. Wenn Ihr Anwendungsfall lautet: „Schreibe mir jeweils eine saubere Funktion“, bleibt Opus ungeschlagen. K2.6 ist die richtige Wahl für agentenbasierte, langfristige, toolintensive Workloads – aber nicht für alle Einsatzzwecke.

GPT-5.5 „Spud“ ist nicht veröffentlicht. Jede kursierende Angabe zu seinen Fähigkeiten ist derzeit Spekulation oder Leak. Bauen Sie Ihren Stack nicht auf ein Modell um, das noch nicht in der API verfügbar ist.

DeepSeek v4 bewegt sich noch stärker im Gerüchtebereich als Spud. Behandeln Sie jede Benchmark-Zahl, die Sie sehen, als Gerücht, bis DeepSeek selbst eine Ankündigung macht.

Qwen 3.6 Max Preview ist Closed-Weight, wodurch das bisherige offene Muster durchbrochen wird. Das ist entscheidend, wenn offene Ökosysteme für Sie wichtig sind. Drei der sechs Benchmarks, die das Modell dominiert hat, sind im Besitz von Alibaba – das macht das „Clean Sweep“-Narrativ weniger klar, als es die Überschrift suggeriert.

Grok 4.3 Beta kostet $300/Monat – das macht nur bei dokumentenlastigen Workflows Sinn. Für Coding oder Research gibt es günstigere Alternativen, die überlegen sind.

Codex Chronicle verarbeitet Ihren Bildschirm in der Cloud – Ende-zu-Ende unverschlüsselt. Das stellt eine echte Sicherheitsangriffsfläche dar. Gehen Sie damit entsprechend um.

Google Geminis Agent Mode ist zwar stark, bleibt aber weiterhin den Pro- und Ultra-Tiers vorbehalten. Die Rate-Limits bei den Coding-Varianten sind streng genug, dass sie relevant werden, wenn Sie ernsthaft mit Agents arbeiten.

Der Grund, warum ich das so deutlich schreibe: In den letzten sechs Monaten habe ich zu viele Teams beobachtet, die auf Basis eines Benchmark-Werts, der sich im Produktivbetrieb nie bewährt hat, ihren gesamten Stack umgestellt haben. Wenn Sie nur eines aus diesem Beitrag mitnehmen: Ausgeliefert und getestet schlägt geleakt und gehypt. Immer.

Die 30-Tage-Watchlist

Das verfolge ich in den nächsten vier Wochen, grob nach wahrscheinlicher Auswirkung sortiert:

GPT-5.5 „Spud“-Release (diese oder nächste Woche laut Polymarket-Wahrscheinlichkeit)
DeepSeek v4 Release (Gerücht: diese Woche; achte auf einen echten API-Endpoint)
Grok 4.4 mit etwa 1T Parametern (Anfang Mai laut xAI-Roadmap)
Google I/O (etwa 19. Mai 2026 nach Muster)
Grok 4.5 mit etwa 1,5T Parametern (Ende Mai laut xAI-Roadmap)
Kimi K2.6 unabhängige Benchmark-Replikation (Community-Tests sollten sich in den nächsten zwei Wochen stabilisieren)
Qwen 3.6 Max Preview → Qwen 3.6 Max endgültiges Release

Das Muster, auf das ich achte: Ob die Veröffentlichungsfrequenz der chinesischen Labore weiterhin die westlichen Labs übertrifft, ob Spud als einheitliche Super-App-Oberfläche oder als eigenständige API erscheint und ob DeepSeek v4 auch nur die Hälfte der geleakten Benchmarks erfüllt. Jedes dieser drei Ergebnisse kann Ihre Strategie für die nächsten sechs Monate grundlegend verändern.

Häufig gestellte Fragen

Welches ist das beste KI-Modell im April 2026?

Das beste KI-Modell im April 2026 hängt von Ihrem Anwendungsfall ab: Kimi K2.6 für agentische, langfristige, kostenempfindliche Aufgaben; Claude Opus 4.7 für Schlussfolgerungen und erstklassige Codequalität in Einzelausführungen; Gemini 3.1 Pro für multimodale und langkontextuelle Arbeiten; Grok 4.3 Beta für PDF- und Tabellengenerierung. Ein eindeutiges „Bestes“ gibt es nicht — das Modell muss zur Aufgabe passen.

Ist Kimi K2.6 tatsächlich besser als Claude Opus 4.7?

Kimi K2.6 ist bei agentischem Reasoning mit Tools wettbewerbsfähig oder Opus 4.7 voraus (54,0 % vs. 53,0 % bei HLE-Full), und das bei etwa einem Zehntel der Kosten. Opus 4.7 führt weiterhin bei der reinen Codegenerierung für bekannte Testfälle in Einzeldurchläufen. Für langfristige agentische Workloads ist K2.6 die bessere Wahl; für schlussfolgerungslastige Einzelaufgaben bleibt Opus 4.7 die Nummer eins.

Wann wird GPT-5.5 Spud veröffentlicht?

Stand 21. April 2026 ist GPT-5.5 „Spud“ noch nicht veröffentlicht. Polymarket-Händler rechnen mit einer Wahrscheinlichkeit von etwa 70–78 % für einen Release bis zum 30. April 2026, wobei der 23. April als wahrscheinlichstes Datum gilt. Das Pretraining wurde um den 24. März 2026 abgeschlossen und das Modell befindet sich derzeit in OpenAIs Sicherheitsbewertung.

Sind die DeepSeek v4-Benchmarks echt?

Die geleakten DeepSeek v4-Benchmarks (83,7 % SWE-Bench Verified, 99,4 % AIME 2026) sind nicht unabhängig bestätigt. Stand 21. April 2026 ist DeepSeek v4 noch nicht öffentlich gestartet, es taucht kein V4-Modell bei der DeepSeek API auf und die angebliche 1,66T-Parameter-Architektur basiert auf einem einzigen Leak unbekannter Herkunft. Als Gerücht behandeln, bis zur offiziellen Veröffentlichung.

Ist Grok 4.3 Beta die 300 $/Monat wert?

Grok 4.3 Beta zu 300 $/Monat über SuperGrok Heavy lohnt sich, wenn Ihr Workflow umfangreiche PDF-, Tabellen- oder PowerPoint-Generierung umfasst, denn es bietet native Dateierstellung, die andere Modelle nicht liefern. Für Coding, Schlussfolgerungen oder Recherche bieten günstigere Modelle (Claude, Gemini, Kimi) vergleichbare oder bessere Performance zum Bruchteil des Preises.

Ausblick

Das Bild der KI-Modelllandschaft im April 2026 sieht folgendermaßen aus: Chinesische Labs liefern aggressiv aus, OpenAI konsolidiert alles in Richtung einer einheitlichen Super-App, xAI setzt auf Dokumentenerstellung als Workflow-Moat, Anthropic verteidigt das Reasoning-Premium, und Google spielt auf langfristige Strategien im Hinblick auf die I/O. Jede Wette könnte in sechs Monaten falsch liegen. Doch eines steht bereits fest – der Trend, den das Robotermarathon-Event unübersehbar gemacht hat: Es gibt nicht mehr nur drei Labs, die Frontier-AI ausliefern. Es sind mindestens sieben. Vielleicht neun, wenn man die Forschungslabs mitzählt, die leise über Cloud-Partner ausrollen.

Falls Sie sich an den Roboter aus dem Einstieg erinnern: 50 Minuten, 26 Sekunden. Akkuwechsel zur Halbzeit. Dreimal so schnell wie der Vorjahressieger. Genau dieses Tempo legt auch die Modellentwicklung aktuell vor. Sie sind nicht im Rückstand, wenn Sie nicht jedes einzelne Release getestet haben – niemand hat das. Sie sind nur dann hintendran, wenn Sie Ihren Stack immer noch bauen, als würde das langsamere Innovationstempo von 2024 noch gelten.

Testen Sie diese Woche etwas, was Sie bisher noch nicht ausprobiert haben. Kimi K2.6 ist wahrscheinlich für die meisten von Ihnen die Option mit dem größten Hebel. Führen Sie ein echtes Workload durch. Prüfen Sie, ob die Preiskalkulation für Ihren speziellen Use Case aufgeht. Wenn ja, verlagern Sie das Workload. Wenn nicht, haben Sie auch etwas gelernt – und das übers Wochenende, statt nur einen weiteren Rückblick zu lesen.

Der Boxenstopp ist vorbei. Das Rennen geht weiter. Wir sehen uns in der nächsten Runde.

Lassen Sie uns zusammenarbeiten

Sie möchten KI-Systeme entwickeln, Workflows automatisieren oder Ihre Tech-Infrastruktur skalieren? Ich unterstütze Sie gerne.

Fiverr (individuelle Lösungen & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Enterprise-Lösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienstleistungen): xcybersecurity.io