Revue hebdomadaire de l'IA : La semaine où tout a basculé

Je me suis réveillé lundi matin avec une notification d'un chercheur en sécurité que je suis sur X. Il avait trouvé quelque chose dans le système de gestion de contenu d'Anthropic — près de 3 000 assets non publiés exposés au grand jour, dont des brouillons d'articles de blog décrivant un modèle qu'Anthropic qualifiait de « de loin le modèle d'IA le plus puissant que nous ayons jamais développé ». Mardi, Fortune avait l'histoire. Mercredi, toutes les newsletters IA de la planète en parlaient.

Et ce n'était même pas la plus grande nouvelle de la semaine.

Ce fut l'une de ces semaines où chaque matin apportait une nouvelle annonce qui, à elle seule, aurait dominé un cycle d'actualité entier. Anthropic a accidentellement divulgué des détails sur deux modèles non encore publiés. OpenAI a mis fin à Sora et a tout misé sur un modèle mystérieux appelé Spud. Google a lancé des agents vocaux multimodaux en temps réel. Un modèle open-source chinois a obtenu un score à moins de 5 % d'Opus 4.6 sur les benchmarks de programmation. Un nouveau benchmark d'intelligence a fait paraître tous les modèles de frontière comme s'ils tournaient sur une connexion bas débit. Et Claude Code a reçu des fonctionnalités qui changent fondamentalement ma façon de travailler avec les PRs.

Je suis les développements de l'IA au quotidien depuis deux ans maintenant, et cette semaine pourrait être la séquence de sept jours la plus dense que j'aie jamais vue. Pas à cause du battage médiatique — mais à cause de véritables publications testables et transformatrices de flux de travail, livrées parallèlement à des mouvements stratégiques qui redessinent la carte concurrentielle pour le reste de 2026.

Voici ce qui s'est passé, ce que cela signifie réellement, et ce que je change dans mon propre flux de travail en conséquence.

La fuite d'Anthropic : Claude Mythos et Capybara sont bien réels

Commençons par l'histoire qui a cassé Internet — et qui l'a cassé de la manière la plus ironique qui soit.

Les chercheurs en sécurité Roy Paz de LayerX Security et Alexandre Pauwels de l'Université de Cambridge ont découvert des données exposées dans le système de gestion de contenu d'Anthropic. Une erreur de configuration — une « erreur humaine », selon Anthropic — a laissé près de 3 000 assets de blog non publiés accessibles publiquement. Parmi eux : des brouillons d'articles décrivant deux modèles non encore publiés.

Claude Mythos est le modèle haut de gamme. Les brouillons divulgués le décrivent comme un « changement de niveau » en termes de capacités, avec des scores considérablement supérieurs à tout ce qu'Anthropic a publié jusqu'ici sur les tests de programmation logicielle, de raisonnement académique et de cybersécurité. Anthropic a confirmé l'existence du modèle et le fait qu'il est en cours de test auprès d'un petit groupe de clients en accès anticipé.

Capybara se situe entre Mythos et l'actuel modèle phare Opus — un nouveau niveau de modèle plus performant qu'Opus 4.6 mais moins coûteux à exécuter que Mythos.

Voici ce qui rend cela véritablement significatif et pas simplement un potin intéressant. Les documents internes divulgués avertissent spécifiquement que Mythos pourrait « augmenter considérablement les risques de cybersécurité » en trouvant et exploitant rapidement des vulnérabilités logicielles. L'équipe de sécurité d'Anthropic elle-même a signalé le potentiel d'accélération d'une course aux cyberarmes. Ce n'est pas du langage marketing — c'est une évaluation interne des risques qui n'était jamais censée devenir publique.

La stratégie de déploiement prévue en dit long sur l'état d'esprit d'Anthropic. Ils pourraient publier des versions intermédiaires — un Opus 5 ou un Sonnet 5 — avant de mettre Mythos entre les mains de qui que ce soit. Le modèle est coûteux à exécuter et « pas encore prêt pour une publication générale », selon les brouillons.

Mon analyse ? Deux choses ressortent. Premièrement, les préoccupations de sécurité sont réelles et spécifiques — il ne s'agit pas de vagues gesticulations sur des « risques potentiels ». L'équipe d'Anthropic elle-même s'inquiète de ce que ce modèle peut faire en matière d'analyse de vulnérabilités au niveau du code. Deuxièmement, le fait qu'ils construisent un niveau entre Opus et Mythos (Capybara) suggère que l'écart de capacité est suffisamment important pour nécessiter une marche intermédiaire. C'est inhabituel. Quand le saut est incrémental, on publie simplement la mise à niveau.

Si vous construisez quoi que ce soit qui dépend du plafond de capacité actuel de Claude — flux de travail agentiques, audit de sécurité automatisé, génération de code autonome — la fuite de cette semaine est votre signal pour commencer à planifier un saut de capacité significatif dans les prochains mois. J'ai déjà commencé à concevoir mes architectures d'agents avec une marge pour des modèles significativement plus intelligents qu'Opus 4.6.

L'ironie d'une entreprise d'IA axée sur la sécurité qui divulgue accidentellement les détails de son modèle le plus dangereux via une erreur de configuration CMS n'échappe à personne. Mais passons à la suite, car OpenAI a lâché sa propre bombe cette semaine.

Le « Spud » d'OpenAI — Et pourquoi ils ont tué Sora pour le construire

Pendant que tout le monde décortiquait la fuite d'Anthropic, OpenAI effectuait des manœuvres qui révèlent exactement où se déplacent leurs priorités. Le PDG Sam Altman a envoyé un mémo interne — rapporté ensuite par The Information — confirmant que le pré-entraînement d'un nouveau modèle au nom de code « Spud » est terminé. Altman a dit aux employés de s'attendre à un « modèle très puissant » dans « quelques semaines » qui peut « vraiment accélérer l'économie ». Que Spud devienne GPT-5.5 ou GPT-6 reste flou. Mais voici la partie qui m'a fait dresser l'oreille. Pour libérer de la capacité de calcul pour Spud et d'autres priorités, OpenAI ferme Sora. La version web et l'application seront désactivées le 26 avril 2026, l'API suivra le 24 septembre. Sora avait atteint un pic d'environ 3,3 millions de téléchargements en novembre 2025 avant de décliner à 1,1 million en février 2026. Disney a retiré son investissement prévu d'un milliard de dollars dans OpenAI en même temps que l'annonce. Ce n'est pas un pivot. C'est un retrait total de la génération vidéo pour tout investir dans la capacité des modèles de langage. Le signal stratégique est sans équivoque. OpenAI parie que l'intelligence brute du modèle compte plus que des outils créatifs spectaculaires. Altman a également abandonné la supervision directe des équipes de sécurité et de sûreté d'OpenAI pour se concentrer sur la « construction de datacenters à une échelle sans précédent ». Pour ceux d'entre nous dans le domaine des outils de développement, Spud est important pour une raison pratique : il pourrait servir de fondation pour le « superapp » desktop prévu par OpenAI, combinant ChatGPT, Codex et le navigateur Atlas dans un seul environnement. En parlant de Codex — il a aussi reçu une mise à jour majeure cette semaine.

Codex obtient des plugins : d'outil de programmation à plateforme d'exécution

OpenAI a introduit un système de plugins pour Codex le 27 mars. Les plugins dans Codex sont des paquets installables qui regroupent des compétences, des intégrations d'applications et des configurations de serveur MCP dans des flux de travail réutilisables. Le répertoire sélectionné comprend des intégrations avec Slack, Notion, Figma, Gmail et Google Drive. Codex a atteint 1,6 million d'utilisateurs actifs hebdomadaires début mars 2026. C'est une attaque directe contre l'écosystème de plugins de Claude Code. J'ai écrit sur le système de plugins de Claude Code il y a quelques semaines. La guerre des plugins est officiellement déclarée.

GLM 5.1 : le modèle open-source qui atteint 94,6 % d'Opus

Z.ai a rendu GLM 5.1 disponible le 27 mars, et les chiffres des benchmarks sont frappants. GLM 5.1 a obtenu 45,3 points sur les benchmarks de programmation. Opus 4.6 a obtenu 47,9. Soit 94,6 % de la performance d'Opus. J'ai testé la version précédente, GLM 5 (Pony Alpha), auparavant. L'écart entre les modèles d'IA open-source et propriétaires se mesure désormais en points de pourcentage à un chiffre.

ARC AGI 3 : le benchmark qui a ridiculisé toutes les IA

ARC AGI 3 a été lancé le 25 mars 2026. La meilleure IA (Google Gemini 3.1 Pro) a obtenu 0,37 %. Les humains ont obtenu 100 %. Le montant total des prix est de 850 000 $. Il mesure la véritable capacité d'apprentissage, pas la simple reconnaissance de motifs.

Gemini 3.1 Flash Live : voix et vision en temps réel entrent en production

Google DeepMind a publié Gemini 3.1 Flash Live le 26 mars. Un modèle multimodal de voix et de vision en temps réel avec une latence de niveau production, une fenêtre de contexte de 128K et une communication full-duplex par WebSocket.

Claude Code : trois mises à jour qui changent mon flux de travail quotidien

Auto-Fix dans le cloud

Claude Code peut désormais surveiller vos PRs à distance — corrigeant les échecs de CI, répondant aux commentaires de revue et poussant des correctifs pendant votre absence.

Auto Mode

Lancé le 24 mars, le auto mode introduit un classificateur IA intégré qui examine chaque appel d'outil avant son exécution. Les actions sûres sont exécutées automatiquement. Les actions risquées sont bloquées.

Limites de session aux heures de pointe

Anthropic a ajusté les limites de session pendant les heures de pointe.

Si vous préférez que quelqu'un configure un flux de travail Claude Code pour vous, consultez fiverr.com/s/EgxYmWD.

Le reste du casting : cinq autres histoires à suivre

Voxtral TTS de Mistral

Mistral a publié Voxtral TTS le 26 mars, un modèle text-to-speech open-weight de 4 milliards de paramètres.

Operon d'Anthropic

Conçu pour la recherche en biologie et en santé.

La CLI d'ElevenLabs passe en mode agent-first

ElevenLabs a déployé des mises à jour majeures de sa CLI. J'envisage de l'intégrer à mes flux de travail audio avec Claude Code.

Le scandale Cursor Composer 2

Un développeur nommé Fynn a découvert que Composer 2 est en réalité Kimi K2.5.

La mort silencieuse de Sora

L'application sera désactivée le 26 avril 2026. L'API suivra le 24 septembre.

Ce que cette semaine signifie vraiment — Mon analyse

Tendance 1 : Le plafond de capacité monte vite, mais de manière inégale. Tendance 2 : L'écart avec l'open-source est quasiment comblé. Tendance 3 : Le marché de l'IA se consolide autour des modèles de langage.

Pour mon propre flux de travail : 1. J'ai basculé en auto mode dans Claude Code 2. J'ai activé l'auto-fix des PRs 3. J'ai commencé à tester GLM 5.1 4. J'ai ajouté le leaderboard ARC AGI 3 à mes favoris

Foire aux questions

Qu'est-ce que Claude Mythos et quand sera-t-il publié ?

Claude Mythos est le modèle d'IA de nouvelle génération d'Anthropic, non encore publié, révélé accidentellement par une erreur de configuration CMS en mars 2026.

En quoi ARC AGI 3 diffère-t-il des benchmarks d'IA précédents ?

ARC AGI 3 est le premier benchmark de raisonnement interactif. Le meilleur modèle d'IA de frontière a obtenu 0,37 %, tandis que les humains ont atteint 100 %.

GLM 5.1 est-il open-source ?

GLM 5.1 n'est pas encore open-source au 28 mars 2026, mais Z.ai a annoncé une prochaine publication en open-weight. GLM 4.7 est disponible sur Hugging Face sous licence MIT.

Qu'est-il arrivé à l'application Sora d'OpenAI ?

OpenAI ferme Sora. L'application sera désactivée le 26 avril 2026, et l'API suivra le 24 septembre 2026.

Qu'est-ce que le auto mode de Claude Code ?

Le auto mode de Claude Code, lancé le 24 mars 2026, utilise un classificateur de sécurité IA intégré pour approuver automatiquement les actions à faible risque tout en bloquant les opérations destructrices.

Travaillons ensemble

Fiverr : fiverr.com/s/EgxYmWD
Portfolio : mejba.me
Ramlit Limited : ramlit.com
ColorPark : colorpark.io
xCyberSecurity : xcybersecurity.io