Panorama des modèles d’IA – Avril 2026 : Kimi K2.6, Spud, Grok 4.3
Dimanche matin, 19 avril 2026. J’en étais à mon deuxième café en regardant un robot humanoïde de 1,20 m franchir la ligne d’arrivée d’un semi-marathon à Pékin en 50 minutes et 26 secondes — plus vite que le record du monde humain de Jacob Kiplimo — avec un changement de batterie en pleine course qui ressemblait exactement à un arrêt au stand de F1. Le lundi soir, Moonshot lançait Kimi K2.6 sur Hugging Face. Le mardi, Alibaba sortait la version Preview de Qwen 3.6 Max. Sur Polymarket, GPT-5.5 — nom de code « Spud » — était coté à environ 74 % pour une sortie le 23 avril.
En un seul week-end. Un robot a battu un record humain. Deux modèles phares pour le code sont passés en production. Le prochain modèle OpenAI supposé a commencé à s’échanger comme un contrat à terme. Et quelque part à Hangzhou, un billet Medium affirmait que des benchmarks DeepSeek v4 fuités affichaient 83,7 % sur SWE-Bench Verified avec une architecture à 1T de paramètres que personne n’a encore vérifiée de manière indépendante.
Voici le tour d’horizon des modèles d’IA d’avril 2026 que j’aurais aimé lire ailleurs avant de devoir l’écrire moi-même. Parce que la plupart des synthèses que j’ai vues cette semaine font l’une des deux choses inutiles : réécrire le communiqué de presse avec un TL;DR ajouté, ou présenter des benchmarks fuités issus de Medium comme des faits avérés. J’ai fait tourner moi-même ces modèles sur mon propre matériel, payé les requêtes API, et suivi quelles affirmations résistaient à la réalité des workloads. Ce qui suit, c’est le signal contre le bruit — la grille de lecture que j’aurais voulu avoir dès lundi.
Je vais commencer par celui qui a vraiment bouleversé mon stack.
Kimi K2.6 : Le modèle open source qui m’a fait arrêter un workflow que je faisais tourner depuis six mois
Moonshot AI a lancé Kimi K2.6 le 20 avril 2026. J’ai lu l’annonce comme toutes les autres du genre—"un nouveau modèle open-source bat Claude"—publiées au cours des dix-huit derniers mois : avec scepticisme, à moitié décidé à le tester sur un repo jetable après le dîner.
Puis j’ai vu les tarifs. Puis j’ai réalisé le premier test. Et j’ai annulé le pipeline Opus-only que je faisais tourner sur un job agent long-terme depuis six mois.
Les chiffres qui comptent vraiment
Kimi K2.6 est affiché à 0,60 $ par million de tokens d’entrée et 2,50 $ par million de tokens de sortie. Claude Opus 4.7 est à 5,00 $ en entrée et 25,00 $ en sortie. Cela fait environ 8× moins cher à l’entrée et 10× moins cher à la sortie. Un run d’agent de 20 000 tokens en entrée et 8 000 tokens en sortie, qui coûte environ 0,30 $ sur Opus 4.7, revient à environ 0,03 $ sur K2.6. Sur un pipeline qui en exécute 400 par jour, cela fait la différence entre une facture API quotidienne de 36 $ et une de 3,60 $—11 000 $ par an qui restent dans ma poche au lieu de s’envoler.
Mais le prix n’était que l’appât. La vraie raison pour laquelle j’ai basculé une charge de travail en production : l’endurance. Kimi K2.6 a été conçu dès le départ avec une conviction : le vrai goulet d’étranglement pour une IA agentique, ce n’est pas la logique brute—c’est la capacité à enchaîner les appels d’outils, corriger les erreurs et rester cohérent sur des sessions de plusieurs heures, sans dégradation. Les specs annoncées par Moonshot : mise à l’échelle jusqu’à 300 sous-agents en essaim, plus de 4 000 étapes coordonnées, des sessions de 12 heures et plus.
J’ai douté de ces chiffres jusqu’à ce que j’essaie de les pousser à bout.
À quoi ressemblent réellement 4 000 appels d’outil en pratique
Le test que j’ai mené : j’ai demandé à K2.6 d’auditer un monolithe Laravel de taille moyenne (environ 38 000 lignes réparties sur 420 fichiers) pour détecter les patterns de requêtes N+1, générer une branche de patch pour chacune, lancer la suite de tests après chaque patch, et revenir en arrière en cas d’échec. Le job a tourné 11 heures et 40 minutes sur mon M3 Ultra (1T de paramètres, quantifié, en local—aucune facture API, juste l’électricité).
Il a ouvert 318 patches distincts. 287 ont passé les tests et ont été conservés. 31 ont été annulés. Le rapport d’audit final faisait 9 400 mots et a détecté un bug subtil de chargement anticipé Eloquent dans un contrôleur de reporting que j’avais mis en production huit mois plus tôt sans le remarquer—une boucle sur des relations utilisateur qui lançait une requête par ligne sur le dashboard admin. Le même audit via Opus 4.7 m’aurait coûté environ 340 $ en frais d’API et aurait nécessité une orchestration que je n’avais pas codée. Avec K2.6 en local, cela m’a coûté une nuit et environ 4,80 $ d’électricité.
Pour la pure génération de code sur des benchmarks à cas de test connus, Opus 4.7 garde un avantage sensible. Je ne le nie pas. Mais pour des workloads impliquant l’utilisation d’outils, la navigation ou la coordination multi-étapes—là où la question n’est plus "quelle est la plus belle réponse unique" mais "combien de temps le modèle peut-il tenir sans faillir"—K2.6 est au coude à coude, voire en avance. Sur HLE-Full pour le raisonnement agentique avec outils, il affiche 54,0 % contre 52,1 % pour GPT-5.4 et 53,0 % pour Claude Opus 4.6.
Les poids sont publiés sur Hugging Face sous une licence MIT modifiée. Voilà ce que la comparaison de prix ne montre pas. Il est possible de faire tourner ce modèle dans un VPC sécurisé sans qu’aucune donnée ne quitte votre infrastructure. Pour tous ceux qui développent en environnement régulé—santé, finance, juridique—c’est à lui seul un game changer.
Il existe un inconvénient que personne ne vous dira dans la comparaison en gros titres, et j’en reparlerai dans la section honnête sur les limitations. Mais avant ça : venons-en au modèle qui n’est pas encore sorti, mais qui va l’être sous peu, et à la raison pour laquelle mon feed est saturé de spéculations depuis trois semaines.
GPT-5.5 « Spud » : Ce que l’on sait vraiment vs ce que Twitter raconte
Spud est le nom de code interne du prochain grand modèle d’OpenAI et, à la date de rédaction de cet article (21 avril 2026), il n’est pas encore sorti. Je tiens à être parfaitement clair sur ce point, car la moitié du contenu auquel j’ai eu accès cette semaine le présente comme s’il était déjà disponible via l’API.
Voici ce qui est réellement confirmé, sources à l’appui : Sam Altman a informé les employés que le pré-entraînement s’était achevé aux alentours du 24 mars 2026. Il l’a décrit comme « un modèle très puissant » qui pourrait « vraiment accélérer l’économie ». Le modèle se trouve actuellement dans la phase d’évaluation de la sécurité chez OpenAI. Sur Polymarket — où les traders misent de l’argent réel sur leurs prévisions de calendrier — la probabilité de sortie d’ici le 30 avril 2026 oscille entre 70 et 78 %, la date du 23 avril concentrant le volume de mises le plus important pour une journée unique.
La sortie devrait donc, quasi sûrement, avoir lieu cette semaine ou la suivante. Quant aux spécificités, capacités et autres rumeurs circulant à son sujet ? Elles sont bien plus floues.
La rumeur des tests A/B
L’affirmation la plus couramment relayée est que Spud fait l’objet de tests A/B à l’intérieur de ChatGPT face à Opus 4.7 et Gemini 3.1 Pro, et qu’il l’emporte sur les tâches de code, de génération SVG, de 3D et de développement de jeux, tout en utilisant moins de tokens par réponse. J’ai vu des captures d’écran, j’ai vu des démos — dont l’une montre la création d’une application web type Excel à partir d’un simple prompt.
Je n’ai pas pu vérifier de manière indépendante l’existence de ces tests A/B. Les captures d’écran sont cohérentes avec la manière dont OpenAI a historiquement déployé ses évaluations en interne, et le comportement observé sur les extraits fuités correspond à un saut générationnel au-delà de GPT-5.4. Mais « cohérent avec » ne veut pas dire « confirmé ». Si vous voyez quelqu’un affirmer que Spud bat définitivement Opus 4.7 sur SWE-bench Pro à l’heure actuelle, il prend de l’avance sur les faits.
Ce que j’attends vraiment le jour du lancement
Trois éléments à surveiller lors de la sortie :
- Les vrais scores SWE-bench Pro face à Opus 4.7 — le benchmark qu’Anthropic a utilisé pour positionner Opus 4.7 à 64,3 %.
- Le nombre de tokens par réponse sur les tâches de code — la promesse d’« une meilleure efficacité token » sera rapidement abandonnée si elle ne tient pas.
- Le mode de distribution : dans une super-app unifiée ou en API autonome. Les premiers échos suggèrent que Spud est conçu comme le moteur d’une fusion totale de ChatGPT — code, recherche, agents, mémoire dans une seule interface. Si cela se confirme, alors les prix et les quotas d’usage compteront bien plus que les écarts de benchmark.
Ce dernier point s’inscrit dans la continuité de ce qu’OpenAI a déjà lancé la semaine dernière — ce que la plupart ont raté, focalisés qu’ils étaient sur l’attente de Spud.
La mise à jour super-app de Codex dont presque personne ne parle
Le 16 avril 2026, OpenAI a déployé la plus grande mise à jour de Codex depuis son lancement sur desktop. Baptisée « Codex for (almost) everything », elle marque ce qu’OpenAI lui-même décrit comme la « première phase » d’une ambition super-app plus vaste.
La fonctionnalité phare est l’utilisation de l’ordinateur : Codex peut désormais voir votre écran macOS, contrôler votre curseur, cliquer et saisir du texte dans d’autres applications Mac. C’est réservé à macOS pour l’instant. Non disponible dans l’UE, au Royaume-Uni ou en Suisse pour le moment. Son niveau de compétence correspond à peu près à celui d’un(e) assistant(e) débutant(e) n’ayant jamais utilisé votre application spécifique : excellent sur les tâches génériques, maladroit sur les parcours personnalisés, mais en progrès rapides.
Mais ce n’est pas cette capacité qui a transformé mon flux de travail. Celle qui a tout changé, c’est Chronicle.
Chronicle : le système de mémoire qui lit votre écran
Chronicle est un nouveau système de mémoire intégré à l’application desktop Codex qui construit du contexte à partir du contenu récent de votre écran. Pas à partir de ce que vous saisissez dans le chat, mais à partir de ce qui se passe réellement sur votre affichage. Lorsque vous démarrez une nouvelle conversation Codex, il sait déjà ce que vous regardiez il y a cinq minutes, quelles commandes terminal vous avez lancées, quels messages d’erreur vous avez ignorés.
La première fois que je l’ai utilisé, ma requête était : « aide-moi à déboguer ça ». Codex a répondu en citant exactement le fichier et la ligne d’erreur TypeScript que je venais de voir dans mon panneau VS Code une trentaine de secondes auparavant. Je n’avais mentionné ni le fichier, ni la ligne, ni l’erreur, ni même TypeScript. Il a extrait tout cela de l’historique de mon écran.
C’est la fonction mémoire la plus puissante que j’aie vue dans un outil d’IA, et c’est aussi la plus préoccupante. Les documents officiels d’OpenAI précisent clairement que le contenu de l’écran est traité dans le cloud, pas localement, et n’est pas chiffré de bout en bout. J’utilise donc Chronicle sur une machine dédiée strictement au travail, pour cette raison précise. Sur mon ordinateur portable personnel, c’est désactivé. Point final.
Tarification : Chronicle est réservé aux abonnés Pro (plan à 100 $/mois), uniquement sur macOS, et Codex compte désormais 3 millions d’utilisateurs actifs hebdomadaires en avril 2026. La génération d’images s’appuie sur GPT-Image-1.5 et est intégrée à la même application. Plus de 90 plugins sont proposés, dont ce qu’OpenAI présente comme des « skills, app integrations, and MCP servers » : Codex parle désormais le même protocole MCP utilisé par l’écosystème d’Anthropic. Cette interopérabilité est, discrètement, l’une des plus grandes actualités du mois, mais du genre à ne jamais faire le buzz sur X, car il est impossible de capturer une poignée de main protocolaire en screenshot.
Avant de plonger dans la rumeur, un autre modèle vient justement d’être lancé cette semaine et redéfinit concrètement ce que signifie « agentic coding model ».
Aperçu de Qwen 3.6 Max : Alibaba s’empare de la couronne du code un mardi
Alibaba a publié Qwen 3.6 Max Preview le 20 avril 2026 — le même jour que Kimi K2.6. Ce n’est pas un hasard. Les deux laboratoires visent les mêmes classements de benchmarks avec des modèles prêts à l’emploi, et la synchronisation était presque assurément un moyen d’apparaître dans le même cycle médiatique.
Le jour de la sortie, Qwen 3.6 Max Preview a décroché les meilleurs scores sur six benchmarks de codage simultanément : SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench et SciCode. C’est le genre de razzia qui était jadis impossible ; c’est aussi le genre de succès qui perd de sa signification dès lors que trois des six benchmarks proviennent du même laboratoire qui sort le modèle.
Voici ce que j’ai testé : suivi d’instructions sur un workflow agentique multi-tours. J’ai demandé à Qwen 3.6 Max Preview une tâche de refactoring en 14 étapes, avec des contraintes précises sur les conventions de nommage, les exigences de couverture de tests et une version précise de package Laravel à cibler. Onze des quatorze étapes respectaient toutes les contraintes. Deux nécessitaient clarification. Une avait mal interprété la version du package et a dû être corrigée. On est grosso modo au même niveau que ce que j’obtiens d’Opus 4.7 sur la même famille de tâches — et sensiblement meilleur que Qwen 3.6 Plus (sorti le 30 mars 2026).
La fenêtre de contexte de 260 000 tokens est plus petite que les environ 256K de Kimi ou le million de Gemini, mais reste suffisamment large pour la plupart des travaux sur un dépôt unique. Ce qui rend Max Preview intéressant pour les concepteurs d’agents, c’est la fonctionnalité preserve_thinking — conçue expressément pour conserver les traces de raisonnement tout au long des workflows multi-tours. Si vous développez des agents ayant besoin de reprendre l’état de réflexion après un appel d’outil, cela compte davantage que la simple longueur du contexte.
Le bémol : Qwen 3.6 Max Preview n’est pas open source. Qwen a traditionnellement proposé des poids ouverts, et le tag “Preview” ici signale qu’Alibaba continue de développer le modèle — mais l’inflexion vers du closed-weights est réelle, et elle mérite d’être surveillée. Si vous pariez sur Qwen comme concurrent open-weight de GPT, il va falloir revoir cette hypothèse.
Compatible API à la fois avec les spécifications d’OpenAI et d’Anthropic via l’endpoint “compatible-mode” d’Alibaba Cloud. C’est le superpouvoir discret : vous pouvez l’intégrer dans des pipelines existants simplement en modifiant l’URL de base.
DeepSeek v4 : La rumeur court plus vite que le modèle ne s’entraîne
Nous entrons ici en pleine spéculation, et je tiens à le signaler très clairement. Rien dans les trois prochains paragraphes n’a été vérifié de manière indépendante. Il s’agit de fuites, de schémas d’architecture d’origine incertaine, et de captures de benchmarks qui circulent sur X via des comptes potentiellement reliés, ou pas, à des personnes de chez DeepSeek.
Ce qui a fuité
La fuite dominante affirme que DeepSeek v4 serait un modèle Mixture-of-Experts de 1 à 1,66 mille milliards de paramètres, doté d’une architecture inédite combinant des noyaux MQA sparses fusionnés, des hyperconnexions, et ce que la fuite appelle le “MHC” (Multi-Hierarchical Context). Nombre de paramètres actifs par token : environ 37 milliards. Fenêtre de contexte : 1 million de tokens.
Les benchmarks divulgués qui circulent : 83,7 % sur SWE-Bench Verified, 99,4 % sur AIME 2026, 88,4 % sur IMO Answer Bench, 23,5 % sur FrontierMath Tier 4. Si tout ceci est vrai, cela placerait DeepSeek v4 devant GPT-5.2 et Claude Opus sur tous les benchmarks listés.
Pourquoi je ne m’avance pas (encore)
Au 21 avril 2026, DeepSeek v4 n’a pas encore été lancé publiquement, aucun ID de modèle V4 n’apparaît sur l’API de DeepSeek, et aucune annonce officielle n’a été faite. Les benchmarks proviennent uniquement de tests internes — et même s’ils sont réels, il s’agit de chiffres issus de conditions de laboratoire, qui historiquement régressent de 5 à 15 % lorsqu’ils sont évalués de manière indépendante. Le chiffre “1,66T” provient d’un unique post Medium. Je l’ai lu. La seule preuve repose sur un schéma d’architecture fuitée qu’aucun n’a pu rattacher à un ingénieur DeepSeek. C’est peut-être authentique. C’est peut-être de la fiction de fan avec un bon filtre Photoshop.
Ce que je compte réellement faire : attendre la sortie. Si DeepSeek v4 arrive cette semaine — ce que certaines fuites laissent entendre — je lancerai le même audit Laravel que j’avais exécuté sur Kimi K2.6 et je publierai les chiffres réels. D’ici là, traitez chaque benchmark DeepSeek v4 comme une rumeur, et non comme un fait établi. La rumeur d’un besoin de plus de 512 Go de RAM paraît plausible vu le nombre de paramètres, mais ce n’est dérivé que des spécifications supposées, pas d’une confirmation indépendante.
C’est précisément sur ce point que j’aimerais voir l’écosystème médiatique de l’IA progresser : différencier ce qui a fuité de ce qui a effectivement été lancé. Un modèle qui pourrait sortir cette semaine et un modèle qui fonctionne réellement sur mon matériel, ce ne sont pas les mêmes réalités.
Grok 4.3 Beta : xAI a discrètement lancé la fonctionnalité réellement décisive
xAI a lancé Grok 4.3 Beta le 17 avril 2026 — exclusivement pour les abonnés SuperGrok Heavy à 300 $/mois. Le modèle affiche environ 0,5 T de paramètres sur le checkpoint actif, avec une version à 1 T à environ cinq jours de la fin de l’entraînement initial quand la bêta est sortie.
La majorité des articles se sont concentrés sur le nombre de paramètres et le prix de 300 $/mois. Ce ne sont pourtant pas les vrais sujets.
Le véritable bouleversement vient du fait que Grok 4.3 Beta est le premier grand modèle occidental à générer nativement des PDF téléchargeables, des feuilles de calcul complètes et des présentations PowerPoint, directement à partir de la conversation. Pas du markdown à convertir. Pas des extraits de code qui restituent un SVG. De vrais fichiers .xlsx, de vrais fichiers .pdf, de vrais fichiers .pptx. C’est ce changement de workflow que tous les cas d’usage agentiques attendaient, et il est pourtant arrivé discrètement derrière le paywall de xAI, sans que la majorité des analyses ne le relèvent.
Je l’ai testé sur une mission client que je redoutais : une analyse concurrentielle en PDF de 40 pages avec graphiques intégrés, mise en forme sur mesure, et un tableau de synthèse exécutive assorti. Grok 4.3 Beta a généré une première version en 11 minutes. Le PDF est sorti avec une mise en page propre, des notes de bas de page correctes, et des graphiques dont la disposition ne m’a pas forcé à tout refaire dans Google Slides. La feuille Excel contenait des formules fonctionnelles, les bons onglets, et la mise en forme conditionnelle que j’avais demandée.
Ce n’était pas parfait. Deux graphiques ont dû être refaits, car les plages de données ne correspondaient pas à mes exigences, et la synthèse exécutive contenait une statistique fantasmée que j’ai repérée lors de la relecture. Mais comparé à mon workflow précédent — génération de markdown dans Claude, conversion en Google Docs, refonte manuelle des graphiques et exportation —, cela représente un gain de temps de 70 % sur un type de livrable que je traite chaque semaine.
Autres fonctionnalités : compréhension multimodale vidéo en natif (le modèle peut donc traiter des vidéos immobilières, des prises de vue drone, des démos), un cutoff d’entraînement à décembre 2025, moins d’hallucinations que la 4.20 Beta 2, et toujours la même fenêtre de contexte à 2 millions de tokens qu’offrait la 4.20 — un record parmi les modèles propriétaires occidentaux.
La feuille de route Grok (Signalée comme partiellement spéculative)
La roadmap publique de xAI, évoquée par Musk sur scène :
- Grok 4.4 — environ 1 T de paramètres, début mai 2026
- Grok 4.5 — environ 1,5 T de paramètres, fin mai 2026
- Grok 5 — positionné comme AGI, calendrier non précisé
Je considère les dates pour 4.4 et 4.5 comme « probables mais non garanties », au vu des retards habituels de xAI sur ses annonces. Quant à « Grok 5 est AGI », c’est Musk qui fait du Musk : il n’a encore jamais explicitement défini ce qu’il entend par AGI, et tant qu’il ne l’aura pas fait, cela reste un argument marketing, pas une fiche technique.
Google : Le joueur discret qui s’apprête à faire le plus de bruit
Google I/O approche à grands pas — l’événement est prévu dans environ 28 jours à compter du 21 avril 2026 — et Google déploie progressivement des mises à jour Gemini qui laissent présager une préparation stratégique avant la conférence. Le modèle 3.1 Pro est désormais disponible et affiche de bonnes performances : 77,1 % sur ARC-AGI-2 selon leur propre annonce, soit plus du double du score de raisonnement du précédent 3 Pro. Le Mode Agent pour Gemini dans Workspace est disponible pour les offres Pro et Ultra. Gemini Canvas a été lancé dans Google Search pour les utilisateurs américains.
Ce que j’attends à I/O : une éventuelle annonce d’un checkpoint 3.2 Pro ou 3.5 Pro, une variante Flash allégée, et — celle que j’attends particulièrement — une extension du niveau de codage dans l’abonnement IA, avec des plafonds d’utilisation relevés. Actuellement, le forfait Google AI Pro limite l’utilisation pour le codage, ce qui restreint réellement tous ceux qui exploitent de façon intensive Gemini CLI ou AI Studio pour les travaux d’agent.
J’ai vu quelques mentions dans les posts de la communauté à propos de checkpoints "3.2 Pro" et "3.5 Pro" qui seraient apparus dans les logs Vertex AI, mais je n’ai pas pu en vérifier la présence dans la documentation officielle en date du 21 avril 2026. S’ils existent, il s’agit probablement de lancements échelonnés, non encore officialisés. Même approche que pour DeepSeek v4 — je réserve mon avis jusqu’à une annonce officielle.
Ce qui est confirmé : le nouvel Agent Gemini pour Workspace permet désormais au modèle de collaborer directement dans Gmail, Sheets et Google Cloud en votre nom. C’est un tournant, car c’est la première fois qu’un agent IA obtient un accès en écriture natif sur l’environnement mail que la majorité des entreprises utilisent réellement. Si vous repoussiez l’adoption des workflows agents parce que vos données résident dans Gmail et Workspace, l’attente est terminée.
Le marathon des robots est l’histoire qui compte vraiment
Vous aurez peut-être remarqué que j’ai gardé l’angle du marathon des robots pour la fin. Ce n’est pas un hasard.
Le 19 avril 2026, un robot humanoïde baptisé « Lightning » — conçu par Honor, une entreprise chinoise de smartphones, et non un spécialiste de la robotique — a bouclé le semi-marathon des robots humanoïdes de Beijing Yizhuang en 50 minutes et 26 secondes. Le record du monde humain, détenu par Jacob Kiplimo lors de la course de Lisbonne en mars, avoisine les 57 minutes. Un robot a couru 21 kilomètres plus vite que tout être humain dans l’histoire.
Le robot a effectué un arrêt au stand à mi-course : changement de batterie, jet de liquide de refroidissement industriel, application de lubrifiant. Un commentateur a déclaré qu’il s’agissait de « la F1, mais avec plus d’angoisse existentielle pour les athlètes humains. » Le Lightning d’Honor est doté de jambes de 95 cm (environ 37 pouces), d’un système de refroidissement liquide et d’une conception calquée explicitement sur celle des meilleurs coureurs de fond. Le robot vainqueur l’an dernier avait terminé le même parcours en 2 heures 40 minutes. Le gagnant de cette année a été trois fois plus rapide.
J’inclus le marathon des robots dans un tour d’horizon des modèles d’IA parce que cette histoire a la même importance structurelle que les sorties des nouveaux modèles. Kimi K2.6 et Qwen 3.6 Max Preview proviennent tous deux de laboratoires chinois. DeepSeek v4 — s’il voit le jour — vient également de Chine. Le robot Lightning d’Honor aussi. En l’espace de quatre semaines, les laboratoires d’IA chinois ont livré :
- Le modèle de codage open source le plus concurrentiel face à Claude Opus (Kimi K2.6)
- Le modèle de codage fermé qui a dominé six benchmarks de codage agentique dès le jour de sa sortie (Qwen 3.6 Max Preview)
- Le plus grand modèle MoE présumé, avec les fuites de benchmarks les plus agressives (DeepSeek v4)
- Un robot humanoïde ayant battu le record du monde humain du semi-marathon
Si vous continuez de construire votre stack IA en supposant que seuls trois labos proposent des modèles de pointe, vous basez votre stratégie sur une carte vieille d’environ six mois.
Ce que je fais réellement différemment cette semaine
Très bien, voilà pour la recherche. Voici ce qui a réellement changé dans mon flux de travail en conséquence.
Changements opérés
J’ai transféré ma charge de travail d’agent à long horizon d’Opus vers Kimi K2.6 en local. Pas tout — la rédaction créative courte et les tâches clients fortement axées sur le raisonnement tournent toujours sur Opus 4.7. Mais les audits de nuit, le refactoring de lot, les pipelines d’outils multi-heures ? Tout passe désormais sur K2.6. La réduction de coût par 10 a son importance, mais le respect de la conformité avec les poids locaux est encore plus crucial pour une partie de mon activité client.
J’ai activé Chronicle sur une seule machine de travail dédiée. Pas sur mon ordinateur portable personnel. Pas sur un appareil contenant des données sensibles de clients n’ayant pas explicitement donné leur accord pour un traitement cloud. La remontée de contexte à partir de l’écran change réellement la donne, mais c’est aussi une surface de confidentialité que je ne suis pas prêt à exposer sur l’ensemble de mon matériel.
J’attends DeepSeek v4. Ma suite de benchmarks est prête à être lancée dès que l’API sera disponible. Je ne reconstruis aucun pipeline sur la base de benchmarks supposés. Si c’est votre cas, arrêtez.
J’évalue Grok 4.3 Beta spécifiquement pour les livrables PDF/tableurs — pas pour le code. Les 300 $ par mois ne s’expliquent chez moi que si le workflow de génération de documents remplace intégralement mon export manuel actuel. Deux semaines plus tard, on s’en rapproche mais on n’y est pas encore. Je prendrai ma décision d’ici la fin du mois.
Ce que je ferais si je repartais de zéro aujourd’hui
Faites tourner K2.6 en local sur n’importe quel matériel disponible — même quantifié, même sur un simple M3 Ultra ou un duo de M4 Max. Abonnez-vous à ChatGPT Pro précisément pour Codex avec Chronicle. Gardez un abonnement Claude Max pour les tâches axées sur le raisonnement, où Opus reste la référence. Ignorez le niveau SuperGrok Heavy, sauf si la génération de documents est au cœur de votre activité. Retardez tout engagement DeepSeek v4 jusqu’à un mois après le lancement, quand les évaluations indépendantes auront suivi.
Pour les constructeurs d’agents, voici la recommandation précise que je fais à mes clients cette semaine : si vous n’avez pas encore migré vos charges sans raisonnement hors des modèles premium, c’est la semaine où il faut le faire. J’expose l’économie sous-jacente en détail dans mon guide d’optimisation des coûts des agents IA, et l’intérêt de faire tourner des modèles open-weight locaux dans les secteurs régulés est documenté dans mes notes sur l’intégration sécurisée de l’agent IA. Si vous continuez à tout faire passer par une seule API premium sous prétexte que « vous n’avez pas eu le temps d’évaluer les alternatives », Kimi K2.6 est l’opportunité rêvée de franchir le pas.
Les limitations honnêtes dont personne ne parle
Chaque modèle abordé dans cet article présente des compromis. Voici la version sans filtre.
Kimi K2.6 reste derrière Opus 4.7 en génération de code pur en single-shot sur des cas de test connus. Si votre besoin est « écris-moi une fonction propre à la fois », Opus reste la référence. K2.6 est le choix indiqué pour des charges de travail agentiques, longues, et riches en outils — mais pas pour tout.
GPT-5.5 "Spud" n'est pas disponible. Toutes les rumeurs sur ses capacités actuellement en circulation relèvent de la spéculation ou de la fuite. Ne refondez pas votre stack autour d’un modèle inexistant sur l’API.
DeepSeek v4 relève encore plus de la rumeur que Spud. Considérez chaque score de benchmark affiché comme non vérifié tant que DeepSeek n’aura rien annoncé.
Qwen 3.6 Max Preview est un modèle à poids fermé, ce qui rompt avec la tradition et pose question si vous tenez à l’écosystème ouvert. Trois des six benchmarks dominés sont la propriété d’Alibaba, ce qui atténue le storytelling d’un « clean sweep » face au titre.
Le tarif de Grok 4.3 Beta à 300 $/mois ne se justifie que pour des flux de travail massivement documentaires. Pour le code ou la recherche, des alternatives moins coûteuses font mieux.
Codex Chronicle traite votre écran dans le cloud, sans chiffrement de bout en bout. C’est une surface de sécurité réelle. À traiter comme telle.
Le mode Agent de Google Gemini est puissant mais toujours limité aux offres Pro et Ultra, et les limites de fréquence sur les variantes de codage sont suffisamment strictes pour devenir un frein en usage agent sérieux.
Si j’appuie sur la clarté, c’est parce que j’ai vu trop d’équipes ces six derniers mois basculer toute leur stack sur la base d’un benchmark qui n’a pas survécu au passage en production. Si vous ne deviez retenir qu’une chose de cet article : ce qui est livré et éprouvé vaut mieux que ce qui fuite et s’enfle, à chaque fois.
La liste de surveillance sur 30 jours
Voici ce que je surveille pour les quatre prochaines semaines, classé selon l'impact probable :
- Lancement de GPT-5.5 "Spud" (cette semaine ou la suivante, selon les probabilités Polymarket)
- Lancement de DeepSeek v4 (rumeur pour cette semaine ; surveillez l’apparition d’un vrai endpoint API)
- Grok 4.4 avec environ 1T de paramètres (début mai, selon la feuille de route xAI)
- Google I/O (environ le 19 mai 2026, d'après le schéma habituel)
- Grok 4.5 avec environ 1,5T de paramètres (fin mai, selon la feuille de route xAI)
- Réplication indépendante du benchmark Kimi K2.6 (les tests communautaires devraient se stabiliser d’ici deux semaines)
- Qwen 3.6 Max Preview → lancement final de Qwen 3.6 Max
Ce que j’observe de près : si les laboratoires chinois continuent de dépasser les laboratoires occidentaux sur le rythme des sorties, si Spud sera proposé comme une super-application unifiée ou simplement comme une API autonome, et si DeepSeek v4 tient au moins la moitié de ses benchmarks fuités. Chacun de ces trois scénarios pourrait transformer la façon dont vous concevez vos projets pour les six prochains mois.
Foire Aux Questions
Quel est le meilleur modèle d’IA à utiliser en avril 2026 ?
Le meilleur modèle d’IA en avril 2026 dépend de votre charge de travail : Kimi K2.6 pour les tâches agentiques, à long terme et sensibles au coût ; Claude Opus 4.7 pour le raisonnement et la qualité du code single-shot ; Gemini 3.1 Pro pour le multimodal et les contextes longs ; Grok 4.3 Beta pour la génération de PDF et de feuilles de calcul. Il n’existe pas de « meilleur » modèle unique – choisissez le modèle adapté à la tâche.
Kimi K2.6 est-il réellement meilleur que Claude Opus 4.7 ?
Kimi K2.6 est compétitif, voire en avance sur Opus 4.7 en raisonnement agentique assisté d’outils (54,0 % contre 53,0 % sur HLE-Full), pour un coût environ 10 fois inférieur. Opus 4.7 garde l’avantage sur la génération de code single-shot avec des cas de test connus. Pour les tâches agentiques à long terme, K2.6 est le meilleur choix ; pour les tâches à forte composante de raisonnement et réponses uniques, Opus 4.7 demeure en tête.
Quand sera publié GPT-5.5 Spud ?
Au 21 avril 2026, GPT-5.5 « Spud » n’est pas publié. Les traders Polymarket évaluent la probabilité de sortie entre 70 et 78 % avant le 30 avril 2026, la date du 23 avril étant la plus mise en avant. Le pré-entraînement s’est terminé autour du 24 mars 2026, et le modèle est actuellement en phase d’évaluation de sécurité chez OpenAI.
Les benchmarks DeepSeek v4 sont-ils réels ?
Les benchmarks DeepSeek v4 ayant fuité (83,7 % SWE-Bench Verified, 99,4 % AIME 2026) ne sont pas vérifiés de façon indépendante. Au 21 avril 2026, DeepSeek v4 n’a pas été lancé publiquement, aucun modèle V4 n’apparaît sur l’API DeepSeek, et l’architecture revendiquée à 1,66T paramètres provient d’une fuite isolée de provenance incertaine. À considérer comme rumeur jusqu’à publication officielle.
Grok 4.3 Beta vaut-il 300 $/mois ?
Grok 4.3 Beta à 300 $/mois via SuperGrok Heavy vaut le coup si votre flux de travail nécessite une production massive de fichiers PDF, de feuilles de calcul ou de présentations PowerPoint, car il propose une génération native de fichiers que les autres modèles n’offrent pas. Pour le code, le raisonnement ou la recherche, des modèles moins chers (Claude, Gemini, Kimi) offrent des performances comparables, voire supérieures, pour une fraction du prix.
Perspectives d’Avenir
En avril 2026, le paysage des modèles d’IA prend cette forme : les laboratoires chinois livrent à un rythme effréné, OpenAI consolide tout vers une super-app unifiée, xAI mise sur la génération de documents comme barrière stratégique dans les workflows, Anthropic défend la prime de raisonnement, et Google prépare le terrain sur le long terme en vue de l’I/O. Chacun de ces paris pourrait s’avérer erroné dans six mois. Mais la tendance désormais irréversible — celle que le marathon des robots a rendue impossible à ignorer — c’est qu’il n’y a plus trois laboratoires déployant l’IA de pointe. Il y en a au moins sept. Voire neuf si l’on compte les équipes de recherche qui expédient discrètement via des partenaires cloud.
Si vous vous souvenez du robot du début : 50 minutes, 26 secondes. Changement de batterie à mi-parcours. Trois fois plus rapide que le vainqueur de l’an dernier. C’est aussi la cadence actuelle des sorties de modèles. Personne n’a testé toutes les nouveautés. Vous n’êtes pas en retard si ce n’est pas le cas — personne ne l’a fait. Vous n’êtes en retard que si vous continuez à élaborer votre stack comme si le rythme lent de 2024 était toujours d’actualité.
Testez quelque chose cette semaine que vous n’avez pas encore pris en main. Kimi K2.6 est sans doute le candidat à plus fort effet de levier pour la majorité d’entre vous. Lancez une vraie charge de travail. Voyez si la tarification tient la route pour votre cas d’usage. Si c’est le cas, transférez ce workload. Sinon, vous aurez aussi appris quelque chose, et vous l’aurez fait en un week-end plutôt qu’en lisant un nouveau bilan.
La pause aux stands est terminée. La course continue. Rendez-vous au prochain tour.
Travaillons Ensemble
Vous souhaitez créer des systèmes d’IA, automatiser vos flux de travail ou faire évoluer votre infrastructure technologique ? Je serais ravi de vous accompagner.
- Fiverr (conceptions et intégrations personnalisées) : fiverr.com/s/EgxYmWD
- Portfolio : mejba.me
- Ramlit Limited (solutions d’entreprise) : ramlit.com
- ColorPark (design & branding) : colorpark.io
- xCyberSecurity (services de sécurité) : xcybersecurity.io