AI Roundup du 9 mai 2026 : la course du chatbot vers l’OS est lancée

Vendredi matin, 6h41. J'avais quatre fenêtres de navigateur ouvertes et un argument à moitié formé dans ma tête.

Codex exécutait une tâche autonome dans Chrome sur mon moniteur gauche : ouvrir Salesforce, gratter une liste de contacts, rédiger des actions de sensibilisation. Je n'avais pas touché au clavier depuis onze minutes. Sur la droite, Claude Cowork construisait un modèle de comparaison pour le rapport du deuxième trimestre de l'une de mes marques, en extrayant les données FactSet via un connecteur qui n'existait pas la semaine dernière. Dans le coin, Grok parcourait mon espace de travail Notion à la recherche d'un brouillon dont je me souvenais à moitié avoir écrit en février. Et en arrière-plan, quelque part dans un onglet que j'avais oublié, un échange de texte judiciaire divulgué entre Sam Altman et Mira Murati brûlait sur X.

Voilà à quoi ressemble ce résumé AI du 9 mai 2026 vu de mon flux de travail : quatre laboratoires, quatre paris totalement différents, tous convergeant vers la même forme de produit. La boîte de discussion est en train de mourir. La surface opératoire est en train de naître. Et presque personne ne se pose la question qui compte réellement : celle de savoir si la chose qui la remplace a une quelconque légitimité auprès des personnes dont elle remplace le travail.

C’est ce que je suis en train de suivre, ce qui, à mon avis, manque à la presse et ce que je ferai à ce sujet avant lundi.

Si vous voulez un contexte sur la façon dont je trie habituellement les semaines comme celle-ci, ma répartition signal/bruit de l'inondation de lancement d'avril définit le cadre.

La thèse : trois entreprises ont tout simplement arrêté de prétendre qu'il s'agissait de chatbots

Il y a une chose qui se produit dans un marché en évolution rapide où chaque joueur continue de publier le même type de fonctionnalité sur le même type de cadence, et cela semble chaotique de l'extérieur, mais si vous plissez les yeux, le mouvement réel est un grand écart synchronisé.

C’est ce qui s’est passé cette semaine.

OpenAI a fourni une extension Chrome qui permet à Codex d'exécuter les flux de travail Salesforce, Gmail et LinkedIn dans une instance de navigateur distincte que possède l'agent. Google, regardant de côté, a commencé à tester sur le terrain Gemini 3.2 Flash dans iOS sans annonce. xAI a déployé les connecteurs Grok sur le Web, iOS et Android, se connectant à Gmail, Drive, Docs, Sheets, Calendar, Notion, GitHub et Linear en une seule annonce. Et Anthropic – jouant ce que je suis de plus en plus convaincu qu'il s'agit du jeu le plus intelligent des quatre – a livré dix modèles d'agents de services financiers prêts à l'emploi qui transforment Claude en quelque chose de plus proche du poste de travail d'un analyste que d'un chatbot.

Quatre sociétés. Une direction. Arrêtez d'essayer de gagner la boîte de discussion. Commencez à essayer d’être la couche opérationnelle du travail de connaissances.

La raison pour laquelle cela est important est en aval. Si vous gérez des marques, expédiez du code, écrivez du contenu, gérez une petite équipe (toute des choses que je fais sur mes quatre sites), vos hypothèses sur la façon dont AI apparaît dans votre semaine sont déjà obsolètes. Il y a trois mois, « agent AI » signifiait « j'ouvre un onglet et tape une invite ». Cette semaine, cela signifie "un agent a couru pendant quarante minutes dans une instance de navigateur que je ne peux pas voir, a accédé à trois outils SaaS à l'aide de ma session de connexion et a publié le résultat sur Slack pendant que j'étais au gymnase". C'est un produit différent. Cela mérite un modèle mental différent.

Le reste de cet article consiste à trier lesquels de ces paris sont réels, lesquels sont taquinés, lesquels sont surfaits, et quelle annonce discrète de Pékin pourrait avoir plus d'importance que les quatre réunis.

Laissez-moi vous montrer.

Codex vient de devenir un navigateur

J'attends que Codex contrôle les onglets du navigateur en arrière-plan depuis la commande /goal livrée dans la version 0.128.0. C'est finalement arrivé.

Le 7 mai 2026, OpenAI a lancé l'extension Chrome Codex pour macOS et Windows. Il ne s'agit pas d'une prise de contrôle d'onglet. Il s'agit d'une instance Chrome distincte que possède l'agent, avec ses propres groupes d'onglets, son propre accès DevTools et sa propre capacité à utiliser vos sessions de connexion sur des sites comme Salesforce, Gmail, LinkedIn et tout outil interne doté d'une interface de navigateur. Vous continuez à travailler. L'agent travaille en parallèle.

Associez cela au navigateur intégré à l'application, à plusieurs onglets de terminal, aux connexions SSH aux boîtes de développement distantes (en alpha) et à l'intégration de Chrome DevTools qui ont atterri dans la même mise à jour, et l'image s'accentue rapidement. Codex n'est plus un agent de codage. Il s'agit d'un agent de codage, d'un navigateur, d'un shell distant et d'un système d'objectifs à long terme.

Selon les propres chiffres de OpenAI, Codex compte désormais plus de 4 millions d'utilisateurs actifs hebdomadaires, soit une multiplication par 8 depuis le début de 2026. Cette croissance n’est pas due au fait que le modèle s’est amélioré. C'est parce que la surface s'est agrandie. Les gens utilisent Codex pour effectuer un travail qui n'a rien à voir avec le code (campagnes de sensibilisation, recherches, mises à jour de tableaux de bord, notes de frais) car l'agent peut enfin accéder aux outils là où il travaille.

Ce que j'ai testé cette semaine. J'ai donné à Codex trois vrais emplois.

Première tâche : extraire chaque facture payée de mon tableau de bord Stripe au cours des 90 derniers jours, comparer la projection MRR attendue dans une feuille Google, signaler les écarts. Temps écoulé : 22 minutes. Il a parcouru environ quatre-vingts pour cent du chemin avant d'atteindre une invite d'autorisation Stripe que j'ai dû effacer, puis j'ai terminé. La sortie était correcte.

Deuxième travail : lire les quatorze derniers jours de mes analyses Substack, identifier les publications qui surpassent la médiane des 90 derniers jours, rédiger un fil Twitter taquinant les trois premiers avec des citations des corps. Temps écoulé : 11 minutes. La qualité du brouillon était meilleure que la version que j’aurais écrite, ce qui est légèrement humiliant.

Troisième tâche : ouvrez Salesforce, recherchez tous les contacts étiquetés « prospect chaud du premier trimestre 2026 » qui n'ont pas reçu de contact depuis plus de 30 jours, rédigez des e-mails de réengagement personnalisés faisant référence au dernier fil de conversation. Celui-là, je le gardais. Cela a fonctionné. Je n'aurais pas envoyé les e-mails sans les lire, mais le brouillon était réel.

L'évaluation honnête. L'extension Chrome est la chose la plus utile livrée par OpenAI en 2026. C'est également la plus dangereuse, car le mode d'échec de « l'agent avec votre session Salesforce » est bien pire que « l'agent qui obtient un extrait de code erroné ». Je le gère. Je lis également le journal d'audit de chaque action entreprise avant de le laisser toucher à tout ce qui coûte de l'argent ou qui porte le nom d'un client.

Ensuite, il y a la voix, que OpenAI a discrètement transformée en sa propre surface d'agent la même semaine.

GPT-Realtime-2 est la couche vocale que la plupart des constructeurs ignoreront (et ne devraient pas)

Le 7 mai 2026, OpenAI a livré GPT-Realtime-2, son premier modèle vocal avec ce que la société appelle un « raisonnement de classe GPT-5 », ce qui signifie que le modèle peut réfléchir à une requête en plusieurs étapes au milieu d'une conversation tout en gardant le flux audio en direct.

Les chiffres des gros titres. La fenêtre contextuelle est passée de 32 Ko à 128 Ko, ce qui signifie des sessions plus longues et des flux agents plus complexes sans assemblage d'états externes. Le modèle peut appeler plusieurs outils en parallèle et raconter ce qu'il fait – « vérifier votre calendrier, le rechercher maintenant » – pendant que le travail se déroule en arrière-plan. Le prix s'élève à 32 $ par million de jetons d'entrée audio et à 64 $ par million de jetons de sortie audio, l'entrée en cache tombant à 0,40 $ par million.

OpenAI a expédié deux compagnons à ses côtés. GPT-Realtime-Translate gère plus de 70 langues d'entrée en 13 langues de sortie à 0,034 $ par minute. GPT-Realtime-Whisper diffuse la parole en texte en direct à 0,017 $ par minute. J'ai couvert le modèle de traduction et ce qu'il fait pour les agents vocaux transfrontaliers plus tôt cette semaine, mais le modèle de base en temps réel 2 est celui que la plupart des créateurs d'applications rejetteront trop rapidement.

Voici ce que personne ne dit à voix haute. La voix est la prochaine inflexion du chat-box-dies. La plupart des produits AI que je gère aujourd'hui pour mes marques sont des conversations dactylographiées. Cela aura l'air aussi pittoresque dans dix-huit mois qu'IRC aujourd'hui. Realtime-2 est le premier modèle vocal où la latence est suffisamment faible, le raisonnement est suffisamment profond et l'appel de l'outil est suffisamment fiable pour qu'un propriétaire de petite entreprise non codeur puisse réellement exécuter un agent d'assistance vocale sur son site sans que cela ressemble à un robot lisant un script.

Je construis exactement cela pour l’une de mes marques ce mois-ci. Le pari n’est pas que la voix remplace le texte – c’est que la voix, le texte et les agents de navigation en arrière-plan s’effondrent en une seule surface d’assistant, et celui qui possède le plancher de latence du côté voix remporte la surface.

OpenAI vient de faire une offre réelle pour cet étage.

Contre-attaque d'Anthropic : la profondeur plutôt que la largeur

Pendant que OpenAI construisait l'application tout, Anthropic a livré quelque chose presque exactement le contraire. Et je pense que cela pourrait être le pari le plus intelligent.

Le 5 mai 2026, Anthropic a lancé dix modèles d'agent AI prêts à l'emploi pour les services financiers, disponibles sous forme de plugins dans Claude Cowork et Claude Code, et sous forme de livres de recettes pour les agents gérés Claude. La liste est spécifique d'une manière qui compte : un outil de création de pitch, un outil de préparation de réunion, un examinateur de résultats, un créateur de modèles financiers, un moteur de sociétés comparables, un rapprocheur de grand livre, un outil de clôture de fin de mois, un auditeur d'états financiers, un filtre KYC et un gestionnaire d'escalades.

Il ne s’agit pas d’un jeu de produits horizontal. C'est une verticale, entièrement couverte.

C’est du côté des données que le pari se précise. L'annonce des agents financiers anthropiques répertorie les partenaires connecteurs dans FactSet, S&P Capital IQ, MSCI, PitchBook, Morningstar, Chronograph, LSEG, Daloopa, ainsi que des ajouts plus récents tels que Dun & Bradstreet, Fiscal AI, Financial Modeling Prep, Guidepoint, IBISWorld, SS&C IntraLinks, Third Bridge et Verisk. Moody's a lancé une application MCP distincte qui présente les notations de crédit et les données exclusives de plus de 600 millions d'entreprises publiques et privées. Et la même semaine, Era est devenu le premier connecteur de finances personnelles du répertoire Claude, construit sur le protocole ouvert MCP.

Je ne gère pas de hedge fund. Rien de tout cela ne s’applique directement à mon travail. Alors pourquoi est-ce que j'y reviens toujours ?

Parce que la stratégie est la partie qui évolue. Anthropique n'essaie pas d'être tout. Ils choisissent un secteur vertical, s'approprient les partenariats de données, créent les modèles et laissent l'agent être l'analyste le plus intelligent dans ce domaine spécifique. S'ils expédient un pack similaire pour le trimestre prochain, pour les soins de santé, pour la fabrication ensuite - chaque pack avec son propre écosystème de connecteurs, ses propres modèles, ses propres invites verticalisées - ils se retrouvent avec une profondeur que les acteurs horizontaux ne peuvent pas égaler.

La presse AI les considère comme des gains de revenus pour l'entreprise. Je pense qu'ils sont autre chose. Je pense qu'Anthropic vient de publier le manuel expliquant comment une entreprise modèle frontière bat un généraliste en s'attaquant de manière étroite et approfondie, un secteur à la fois. Regardez quelle verticale ils atteindront ensuite. Quoi qu’il en soit, vous dira où commence le deuxième fossé composé.

Si vous construisez pour un secteur spécifique – et la plupart d’entre nous le font, même si nous ne nous en rendons pas compte – c’est le modèle structurel qui mérite d’être copié. Choisissez-en une verticale. Construisez les connecteurs. Expédiez les modèles. Que le modèle soit intelligent, mais que les données et les flux de travail soient spécifiques.

En parlant de douves : une seule annonce discrète de Pékin pourrait toutes les détruire.

La vraie histoire Personne n'est en tête d'affiche : ERNIE 5.1 à 6 % du coût de la formation

Si je devais choisir l’annonce la plus importante de la semaine – celle la plus susceptible de remodeler la courbe des coûts pour les dix-huit prochains mois – ce ne serait pas Codex Chrome ni Claude agents financiers. Il s’agirait d’un modèle de communiqué de Baidu que la presse anglophone a à moitié couvert puis oublié mardi.

ERNIE 5.1 Preview lancée le 30 avril 2026. En cinq jours, il s'est hissé au 13e rang du classement Text Arena de LMArena avec un Elo de 1 476, se classant n°1 parmi tous les modèles chinois AI, n°1 mondial dans les catégories juridiques et gouvernementales, n°4 en gestion d'entreprise et opérations financières et n°7 en logiciels et services informatiques.

Ces chiffres sont bons. Ce n’est pas eux qui racontent l’histoire.

L'histoire est dans les paramètres mathématiques. ERNIE 5.1 a compressé le total des paramètres à environ un tiers et les paramètres actifs à environ la moitié d'ERNIE 5.0. Et il a atteint les meilleures performances fondamentales à son échelle de modèle en utilisant environ 6 % du coût de pré-formation de modèles comparables. Six pour cent. Pas soixante. Six.

Si vous êtes un constructeur, ce chiffre devrait vous faire réfléchir.

Voici pourquoi. L'hypothèse dominante inhérente à chaque évaluation de laboratoire frontière, à chaque contrat GPU, à chaque construction de centre de données - Stargate, l'engagement de Microsoft de 500 milliards de dollars, les nouvelles installations Coreweave - est que la capacité de pointe nécessite un calcul de frontière, et le calcul de frontière nécessite un capital de frontière. C'est le fossé. C'est la fonction de gate. C’est ce qui donne à Anthropic, OpenAI et Google leur pouvoir de tarification.

Une réclamation de 6 % pour les frais de pré-formation, si elle se généralise – et c’est un vrai si – met à mal cette hypothèse. Cela signifie qu'un laboratoire financé de manière compétente dans n'importe quel pays peut fournir une capacité de texte de premier ordre pour un prix inférieur au budget marketing d'une seule publicité du Super Bowl. Cela signifie que le coût plancher de l’intelligence textuelle s’effondre rapidement. Cela signifie que le fossé au niveau de la couche modèle fuit.

Ce que cela signifie pour les constructeurs en aval. Je n'organise pas de formation de modèles. La plupart d’entre vous non plus. Mais la courbe de coût en bas de la pile détermine les prix API au milieu de la pile, ce qui détermine l'économie de l'unité en haut de la pile – c'est là que moi et la plupart d'entre vous vivons. Si les techniques d'efficacité de type ERNIE se propagent à la communauté open source au cours des deux prochains trimestres (et sur la base de ce qui s'est passé après DeepSeek-V4 Pro expédié sous licence MIT le dernier trimestre, je m'attends à ce qu'elles le fassent), la courbe du prix par million de jetons baisse d'un autre ordre de grandeur.

C'est l'histoire que je suis en train de suivre. Pas "qui a livré la meilleure démo cette semaine". Qui courbe la courbe des coûts le plus rapidement.

Si vous construisez au niveau de la couche application (applications, agents, systèmes de contenu, automatisations), votre question stratégique cesse d'être « sur quel modèle dois-je parier » et commence à être « quelle architecture dois-je construire pour survivre à une baisse de prix de 10 fois dans le modèle sous-jacent tous les neuf mois ». C'est une question différente avec une réponse différente.

Passons maintenant au modèle qui pourrait tranquillement perdre du terrain.

Gemini's Strange Week et que faire lorsqu'un modèle dont vous dépendez dérive

Des rapports ont fait surface cette semaine selon lesquels Gemini 3 Pro et la version 3.5 Pro inédite avaient été "durement nerfés" - moins de suivis sur un contexte long, une génération de code de premier passage plus faible, des régressions sur les chaînes de raisonnement qui fonctionnaient il y a un mois. Il n’est vraiment pas clair si ces rapports sont des mesures réelles ou du bruit de l’utilisateur. Le fil de discussion communautaire sur le forum d'assistance des applications Gemini regorge de plaintes, et au moins une voix crédible sur X demande à Google de livrer quelque chose d'important dans les deux prochaines semaines, sous peine de perdre son élan.

Ajoutez à cela la couche de soleil du 9 mars 2026 de l'aperçu Gemini 3 Pro de Google — quatre mois seulement après le lancement du modèle — et vous obtenez un modèle. Les cycles de vie des modèles se mesurent désormais en semaines. Le tapis roulant amélioré est réel. Les constructeurs qui ont choisi Gemini pour leurs flux de production fin 2025 ont déjà dû migrer deux fois.

Pendant ce temps, Gemini 3.2 Flash est apparu discrètement dans l'application iOS et dans AI Studio le 5 mai 2026 sans communiqué de presse, montrant sa force en matière de génération, de codage et d'animation SVG. J'ai couvert le modèle de mise à niveau furtive Flash Gemini 3 plus tôt ce trimestre, et le playbook est identique. La stratégie de Google consiste clairement à privilégier les niveaux bon marché et rapides plutôt que la domination des produits phares haut de gamme.

La leçon pour les constructeurs est celle que j’ai apprise à mes dépens en 2025. Ne dépendez jamais d’un seul modèle pour un flux de travail qui doit être livré de manière fiable sur un trimestre. Créez votre pile d'agents pour que le modèle soit une variable échangeable. Épinglez vos invites à un comportement, et non à un nom de modèle spécifique. Exécutez la même suite d'évaluation pour chaque nouvelle version qui arrive dans votre pile afin de détecter les régressions avant vos clients.

Lorsque Gemini 3.1 Pro se sent mal cette semaine, passez à Opus 4.7 ou Sonnet 4.8 et continuez à expédier. Lorsque Sonnet dérive, passez à GPT-5.5. Le modèle est désormais un intrant de base. Traitez-le de cette façon.

Grok devient une application de productivité

xAI a expédié ses connecteurs cette semaine, et à première vue, cela ressemble à une version plus propre de ce que Codex et Cowork font déjà. Les connecteurs ont été mis en ligne le 6 mai 2026 pour le Web, iOS et Android, se connectant à Google Workspace (Gmail, Drive, Docs, Sheets, Calendar), Notion, GitHub, Linear et tout serveur de protocole de contexte de modèle personnalisé via « Bring Your Own MCP ».

Je l'ai testé pendant deux jours. Le UX est plus fluide que prévu. La latence est bonne. La possibilité de déposer un serveur MCP personnalisé dans Grok et de le faire fonctionner est vraiment impressionnante : j'ai branché un MCP interne que j'ai construit pour l'une de mes agences et Grok l'a géré sans friction de configuration.

Mais voici mon point de vue honnête. Grok suit, pas mène. Chaque connecteur de la liste est livré dans Cowork ou Codex ou les deux. Le seul différenciateur – Grok étant dans le flux principal de X, avec l'étrange ascenseur viral que cela apporte – est également la chose pour laquelle la plupart des constructeurs n'optimisent pas. La plupart d’entre nous n’essaient pas de gagner sur la viralité X. Nous essayons d'expédier.

Si vous vivez déjà dans X, les connecteurs Grok constituent une amélioration de la qualité de vie. Si vous ne le faites pas, ce n’est pas la semaine pour migrer. Regardez ce que fait xAI au prochain trimestre : s'ils expédient quelque chose que Codex et Cowork n'ont pas fait, le calcul change.

Pour l'instant, mon utilisation de Grok est inchangée. Je le garde ouvert pour un travail spécifique (recherche à faible coût avec accès au Web) et le reste de mon travail s'exécute sur Claude Code et Codex. Votre pile doit refléter ce pour quoi chaque outil est le meilleur, et non ce qui est le plus récent.

J'ai expliqué où Grok s'intègre réellement dans une pile multi-agents dans le résumé du mois dernier, et la réponse ce mois-ci est la même. C'est un outil secondaire utile, pas une surface principale.

Les deux histoires que la presse AI sous-pondère

Je souhaite consacrer le reste de cet article aux deux histoires qui n’ont pas fait la une des journaux mais qui pourraient façonner l’année prochaine plus que toute autre chose cette semaine.

Première histoire : les textes de la cour de Mira Murati et ce qu'ils signifient réellement

Cette semaine, dans le procès en cours Musk contre Altman, un échange de texte entre Sam Altman et Mira Murati datant de la nuit du 19 novembre 2023 a été versé au dossier. Altman, fraîchement licencié par le conseil d'administration de OpenAI deux jours plus tôt, demandait à Murati – qui était présent à la réunion du conseil d'administration qui déciderait d'installer ou non Emmett Shear en tant que PDG remplaçant – pour obtenir des renseignements internes.

Son message : "Pouvez-vous indiquer une direction bonne ou mauvaise ?"

Sa réponse : "directionnellement très mauvaise".

En quelques heures, Altman avait organisé la pétition signée par 600 employés de OpenAI, menaçant de faire défection en masse vers Microsoft. En quelques jours, il a été réinstallé. En quelques semaines, les membres du conseil d’administration qui avaient voté pour sa destitution ont disparu.

La nouvelle révélation, celle qui rend la fuite de cette semaine significative et pas seulement historique, est le rapportant que Murati avait transmis des informations importantes – captures d'écran, documentation de messages texte, allégations de mauvaise gestion – au cofondateur Ilya Sutskever, qui l'a intégré dans le mémo de 52 pages qui a déclenché l'action initiale du conseil d'administration.

Elle n’était pas seulement la CTO. Elle était l'un des principaux témoins de l'accusation portée contre lui.

Pourquoi c’est important maintenant. Murati a quitté OpenAI en septembre 2024 pour fonder Thinking Machines Lab, qui a levé un tour de table de 2 milliards de dollars mais a perdu trois co-fondateurs au profit de OpenAI en janvier 2026. La lecture à laquelle je reviens sans cesse est que l'ensemble de la classe exécutive de AI est enfermé dans une guerre pour le même vivier de talents en diminution et la piste des preuves juridiques de qui a dit quoi à qui en novembre 2023 va continuer à apparaître dans les salles d’audience et dans les cycles de presse pendant les dix-huit prochains mois.

Pour les constructeurs, la leçon n’est pas celle des commérages. C'est la gouvernance. Les entreprises dont vous dépendez pour l’infrastructure de base sont dirigées par des personnes dont les messages texte privés d’il y a trois ans sont désormais déposés en preuve. C'est un rappel de ne jamais parier votre entreprise sur un seul API. Votre pile devrait survivre à l’implosion de l’un de ces laboratoires. Construisez en conséquence.

Deuxième histoire : la réaction anti-clanker se généralise

L’autre histoire qui n’a pas reçu suffisamment de couverture. L'insulte "clanker" - à l'origine un terme Star Wars, maintenant utilisé comme étiquette désobligeante pour AI et les robots sur TikTok, X, et de plus en plus dans les rassemblements du monde réel - est passée de l'argot Internet au mouvement réel.

Les chiffres issus des rapports de NBC et des journaux d'incidents suivis par la sous-pile : les incidents anti-robot documentés sont passés de 16 événements majeurs en 2023 à plus de 40 en 2026. Des rassemblements réels ont lieu à San Francisco et à Londres. Les robots de livraison de Starship Technologies ont été systématiquement vandalisés à Sheffield, au Royaume-Uni depuis mars, avec des machines de peinture au pistolet et des poteaux d'identification pliés par les attaquants.

Les chiffres des sondages sous le mouvement sont ce qui devrait inquiéter tous les fondateurs de cet espace. Un rapport Ernst & Young de juillet 2025 a révélé que 42 % des salariés européens craignent que le lieu de travail AI ne menace leur emploi. Une enquête Gartner a révélé que 64 % des clients préféreraient que les entreprises n'utilisent pas AI pour le service client, et 53 % se tourneraient vers un concurrent qui ne l'utilise pas.

C’est la lacune du consentement. Les capacités progressent à toute allure. Le consensus culturel et politique est à la traîne – et l’écart est désormais suffisamment grand pour que le ressentiment ait son propre argot, ses propres rassemblements de rue et ses propres schémas d’attaque.

Le plat à emporter pour les constructeurs. Si votre produit est "propulsé par AI" et que vous vous en vantez en première page, vous êtes actuellement du mauvais côté de la courbe culturelle. Les entreprises qui gagneront au cours des 24 prochains mois sont celles qui expédient des produits qui sont évidemment utiles et discrètement pilotés par AI, et non celles qui mènent avec "maintenant propulsé par GPT-5.5". Regardez comment Anthropic a positionné ses agents financiers cette semaine : le message est « votre équipe peut désormais faire X plus rapidement ». Pas "AI remplace votre analyste." Ce cadrage n’est pas un hasard. C'est le seul cadrage qui subsiste.

Je rebaptise deux pages de produits ce week-end avec cette leçon à l'esprit. Je vous suggère de vérifier le vôtre.

Ce que je fais réellement cette semaine en tant que constructeur

C'est la section qui devrait justifier l'existence de ce message. Cinq mesures concrètes que je prends avant lundi en fonction de ce qui a été expédié cette semaine.

Première : je déplace mon flux de travail de tri des e-mails et de rédaction de sensibilisation vers l'extension Chrome Codex. Le travail Stripe-and-MRR de 22 minutes en était la preuve. Je vais exécuter cela sur un profil Chrome en bac à sable sans aucune information de paiement enregistrée, et je lirai chaque journal d'audit avant de faire confiance à l'agent pour tout ce qui touche un client. Je m'attends à gagner quatre à six heures par semaine d'ici un mois.

Deux : je crée un agent vocal sur GPT-Realtime-2 pour l'une de mes marques. Le contexte 128K plus les appels d'outils parallèles sont le seuil que j'attendais. Je vais l'associer à un MCP qui touche le CRM, le calendrier et Stripe de la marque. Objectif : réservation vocale et assistance pour les clients qui détestent les formulaires. Budget : 200 $ de dépenses API pour le test, supprimez-le si la qualité de l'appel est moins qu'acceptable.

Trois : je ne migre AUCUNE automatisation mejba.me vers les connecteurs Grok. Les connecteurs sont sympas. Ils ne sont pas meilleurs que ceux que j'utilise déjà sur Claude Code avec les serveurs MCP personnalisés que j'ai construits le trimestre dernier. Le coût de la migration ne vaut pas une amélioration UX de 5 %.

Quatrièmement : j'utilise la pile de modèles d'agent financier Anthropic sur la comptabilité de mes propres marques pour le reste du mois de mai. Pas parce que je dirige un fonds spéculatif. Parce que je veux voir si un pack d'agents verticaux surpasse un agent généraliste sur un flux de travail structuré qui correspond réellement aux opérations de ma marque. Si tel est le cas, je copie le modèle du pack de modèles pour la création de contenu, ma véritable compétence principale.

Cinq : je réécris la première page de deux pages de produits pour supprimer toutes les affirmations "AI-powered". Dirigez le résultat. Enterrez la technologie. Laissez parler l’œuvre.

Si vous retenez une chose de tout cet article, prenez-en une cinquième. Le marché évolue. Les laboratoires se précipitent vers un produit en forme de système d'exploitation. Le plancher des coûts s’effondre. Le consentement culturel s’effiloche. Dans cet environnement, les fondateurs qui gagnent sont ceux qui transmettent de la valeur que les gens peuvent ressentir et qui restent silencieux sur la manière dont cela est créé.

C'est ce que je suis en train de suivre. C'est ce qui change lundi. Rendez-vous la semaine prochaine.

Questions fréquemment posées

Quelle est l'annonce AI la plus importante de la semaine du 9 mai 2026 ?

La version la plus importante a été ERNIE 5.1 de Baidu, qui a atteint des performances de base de premier plan à l'échelle de son modèle en utilisant environ 6 % du coût de pré-formation de modèles comparables. Il a été lancé le 30 avril et s'est hissé au 13e rang sur Text Arena de LMArena en une semaine. La compression des coûts est plus importante que n'importe quelle démonstration de modèle individuel, car elle indique où se dirige le prix plancher par jeton dans l'ensemble du secteur.

L'extension Chrome Codex est-elle sûre à utiliser ?

L'extension Chrome Codex est techniquement sûre mais risquée sur le plan opérationnel. Il s'exécute dans une instance Chrome distincte appartenant à l'agent, avec des journaux d'audit pour chaque action, mais il peut utiliser vos sessions de connexion sur Salesforce, Gmail, LinkedIn et des outils similaires. Exécutez-le sur un profil de navigateur dédié, ne stockez jamais les informations de paiement dans ce profil et consultez le journal d'audit avant de lui confier quoi que ce soit destiné au client.

Qu'est-ce que GPT-Realtime-2 et dois-je construire avec ?

GPT-Realtime-2 est le modèle vocal de OpenAI avec un raisonnement de classe GPT-5, une fenêtre contextuelle de 128 Ko et des appels d'outils parallèles à 32 $ par million de jetons d'entrée audio et 64 $ par million de jetons de sortie audio. Il s’agit du premier modèle vocal où la latence, la profondeur du raisonnement et la fiabilité des outils atteignent simultanément les seuils de production. Construisez-le maintenant si la voix est au cœur de votre produit. Sinon, surveillez la courbe des prix jusqu’au troisième trimestre avant de vous engager.

Gemini 3 Pro a-t-il vraiment été nerfé en mai 2026 ?

Des rapports faisant état de performances dégradées de Gemini 3 Pro ont largement circulé cette semaine, plusieurs utilisateurs sur X et le forum de support des applications Gemini signalant des chaînes de raisonnement et une génération de code plus faibles. Il n’est pas clair si cela reflète un véritable cycle de réglage du RLHF ou une dérive de la perception des utilisateurs. Quoi qu’il en soit, la leçon est la même : ne dépendez jamais d’un seul modèle pour les flux de production. Construisez votre pile pour que le modèle soit une variable échangeable.

Que signifie le lancement de l'agent de services financiers d'Anthropic pour les constructeurs non financiers ?

Anthropic a livré dix modèles d'agents de services financiers prêts à l'emploi avec des connecteurs de partenaires de données approfondis (FactSet, S&P Capital IQ, MSCI, Morningstar, Moody's, etc.). Le modèle stratégique – choisir un secteur vertical, s'approprier les partenariats de données, expédier des modèles spécifiques au secteur vertical – est plus important que l'annonce elle-même. Attendez-vous à ce qu'Anthropic répète ce schéma dans les domaines juridique, de la santé et de la fabrication au cours des deux prochains trimestres.

Travaillons ensemble

Vous cherchez à créer des systèmes AI, à automatiser les flux de travail ou à faire évoluer votre infrastructure technologique ? J'aimerais aider.

Fiverr (versions et intégrations personnalisées) : fiverr.com/s/EgxYmWD
Portefeuille : mejba.me
Ramlit Limited (solutions d'entreprise) : ramlit.com
ColorPark (conception et image de marque) : colorpark.io
xCyberSecurity (services de sécurité) : xcybersecurity.io

AI Roundup du 9 mai 2026 : la course du chatbot vers l’OS est lancée