Point d'inflexion de l'IA en mai 2026 : ce que je choisirais maintenant

J'avais l'article à moitié écrit mardi.

C’était censé être une avant-première calme. Les variantes du test AB Gemini 3.x fuient via l'application iOS. Quelques rumeurs sur un modèle vidéo Omni. Anticipation pré-keynote standard. J'ai pris mon café, mes notes, mon plan. Et puis, le 5 mai 2026 – le même mardi – trois compagnies ont tiré trois armes chargées en six heures environ.

Une startup de Miami appelée Subquadratic est sortie furtivement avec une fenêtre contextuelle de 12 millions de jetons et une affirmation selon laquelle son architecture utilise moins de 5 % du calcul brûlé par Claude Opus. OpenAI a discrètement remplacé le cerveau par défaut de ChatGPT par un nouveau modèle qui hallucine 52,5 % en moins sur les questions médicales, juridiques et financières. Anthropic a livré dix agents financiers Claude prêts pour la production et une intégration complète de Microsoft 365. Perplexity a lancé le même jour un agent financier concurrent avec 35 flux de travail prédéfinis et des flux de données en direct de Morningstar, PitchBook, Daloopa et Carbon Arc.

J'ai supprimé le plan.

Ce que vous êtes sur le point de lire, c'est à quoi ressemble mai 2026 quatorze jours avant Google I/O – non pas comme un résumé d'un communiqué de presse, mais comme un rapport de terrain de quelqu'un qui a déployé la production AI pour de vrais clients payants pendant que tout cela atterrissait. Certaines de ces annonces remodèleront les douze prochains mois de ma façon de construire. Certains d’entre eux sont du bruit déguisé en actualité. Et l’un d’eux – celui dont personne ne criait sur Twitter – est, d’après ma lecture, le moment AI le plus important de 2026 jusqu’à présent. Ce n'est pas celui que vous pensez.

Laissez-moi vous expliquer sur quoi je parie, ce que je retiens et ce que chaque développeur qui lit ceci devrait faire cette semaine avant qu'I/O ne remanie à nouveau le jeu.

Pourquoi ce mardi particulier était important

J'écris sur les résumés hebdomadaires de AI depuis deux ans. La plupart des semaines se confondent. Un nouveau modèle. Un changement de prix. Une baisse de fonctionnalité. Ils atterrissent, ils font la une des journaux, vous continuez à travailler.

Ce mardi était différent d'une manière qui m'a pris une journée pour le traiter complètement.

Ce qui est arrivé le 5 mai, ce ne sont pas trois lancements de produits. Il s'agissait de trois paris architecturaux convergeant la même semaine, quatre jours après la fin du projet Mariner de Google - son projet de recherche de longue date sur les agents de navigateur - et l'intégration de la technologie dans l'assistant personnel de l'agent Gemini dans l'application Gemini. Ce coucher de soleil n’était pas une note de bas de page. Cela indique que Google se repositionne devant I/O, loin des « agents de navigateur expérimentaux » et vers « l'agent 24/7 qui vit là où vous vivez ». Deux semaines avant la keynote.

Alors maintenant, faites un zoom arrière. En une semaine :

Le niveau de calcul a bougé. L'architecture sub-quadratique d'attention clairsemée de SubQ a publié des chiffres de référence qui, s'ils résistent à un examen indépendant, effondrent l'hypothèse selon laquelle l'intelligence de pointe nécessite un calcul de pointe. - Le modèle ChatGPT par défaut est devenu plus intelligent sur les choses qui comptent le plus. La réduction des hallucinations de 52,5 % de GPT-5.5 Instant sur les domaines à enjeux élevés est le type de note de version que OpenAI a utilisé pour enregistrer les versions ponctuelles complètes. - La guerre des services financiers AI s'est enflammée. Anthropic et Perplexity ont abandonné le même jour les suites d'agents concurrentes pour analystes financiers, ciblant toutes deux exactement les flux de travail des analystes juniors qui employaient des armées de MBA pendant des décennies. - Google a dégagé la piste. Le projet Mariner a été interrompu.

Fuite du modèle Omni dans le Gemini UI. Keynote I/O 2026 le 19 mai avec une révélation de modèle presque universellement attendue.

J'ai reconstruit mon modèle mental du terrain trois fois en quatorze jours. Si vous exécutez actuellement la production AI, vous devriez également le faire. Permettez-moi de commencer par l’annonce qui, à mon avis, compte le plus – et que presque personne ne considère comme faisant la une des journaux.

Sous-quadratique et la question des 12 millions de jetons

Le lancement Subquadratic a été enterré sous le cycle d'actualités GPT-5.5. C'est une erreur.

Voici la version courte. Une startup basée à Miami appelée Subquadratic a quitté le mode furtif le 5 mai avec 29 millions de dollars de financement de démarrage, un modèle frontière appelé SubQ et une fenêtre contextuelle de 12 millions de jetons construite sur ce qu'elle appelle Subquadratic Sparse Attention (SSA). Selon leur blog technique, SSA atteint une accélération de pré-remplissage de 7,2x sur une attention dense à 128 000 jetons, passant à 52,2x à 1 million de jetons, et dans le contexte complet de 12 millions de jetons, le modèle utilise moins de 5 % du calcul de systèmes frontières comparables – ce qu'ils décrivent comme une réduction de près de 1 000 fois.

Lisez ces chiffres lentement. Relisez-les ensuite.

L’hypothèse dominante depuis GPT-3 est que les coûts d’échelle calculent et que les coûts de calcul sont de l’argent et de l’intelligence. Chaque sortie de modèle frontière au cours des trois dernières années a renforcé ce mur. L'Opus 4.6 est excellent et cher. Gemini 3 Pro est excellent et cher. GPT-5 est excellent et cher. Les niveaux de tarification sur lesquels nous discutons sont tous limités à ce plancher de calcul.

Si les affirmations de la SSA survivent à la vérification par un tiers, ce plancher sera déplacé.

Les références qu’ils ont affichées ne sont pas modestes. Sur RULER à 128K, SubQ obtient 97,1 contre 94,8 pour l'Opus 4.6. Sur SWE-Bench Verified, SubQ rapporte 82,4 % contre 81,4 % pour Opus 4.6 et 80,6 % pour Gemini 3.1 Pro. Lors d'évaluations à long contexte en particulier, les types de tâches pour lesquelles la plupart des modèles s'effondrent au-delà de 200 000 jetons, SubQ semble tenir jusqu'à 12 millions.

Je veux être prudent. La lecture honnête est plus prudente que le titre.

Le camp du scepticisme n’a pas tort. Subquadratic n'a pas encore de document technique public détaillant l'architecture de manière suffisamment approfondie pour pouvoir la reproduire. Les chiffres de référence sont autodéclarés. Les allégations de complexité n’ont pas été vérifiées de manière indépendante. Nous avons tous déjà vu ce schéma : un laboratoire publie des nombres magiques, la communauté gère la suite d'évaluation, la magie diminue.

Alors pourquoi est-ce que je commence l'article avec ceci au lieu de GPT-5.5 ou des agents financiers ? Parce que la direction du pari compte plus que l'exactitude exacte des numéros de lancement.

Les observateurs du secteur financier ne sont pas les seuls à y prêter attention. Si l’attention sous-quadratique fonctionne à une échelle frontière – même avec la moitié de l’efficacité qu’ils prétendent – cela change ce qu’il est possible de mettre dans une fenêtre contextuelle pour des applications normales. Un contexte 12M n’est pas un contexte 1M légèrement plus grand. Il s'agit de l'intégralité de la base de code d'un produit SaaS de taille moyenne, en une seule invite, à des coûts de calcul qui se rapprochent plus d'un modèle Flash actuel que d'un modèle Opus actuel. Il s’agit d’une autre catégorie d’outils.

J'exécute mon premier test de production de SubQ cette semaine. Je ne m'engagerai sur rien tant que je n'aurai pas mes propres chiffres sur mes propres données. Mais je ne parie pas non plus contre une innovation architecturale qui affiche des résultats aussi agressifs sur une suite de référence aussi compétitive. Je me suis trompé trop de fois sur ce pari auparavant.

Si vous déployez le AI en production en mai 2026, voici la solution pratique : ne migrez pas encore, mais concevez un monde où la tarification en fonction du contexte s'effondre. Arrêtez d'optimiser les stratégies de regroupement de 200 000 jetons qui supposent que le plafond sera maintenu. Créez des pipelines de récupération qui peuvent évoluer de manière élastique si les douze prochains mois transforment le niveau de contexte 1M en nouveau niveau Flash. (Pour le manuel pratique sur la gestion des sessions de jetons 1M aujourd'hui, voir mes notes de gestion du contexte Claude Code 1M - la même échelle de modèles.) Les décisions d'outillage que vous prenez maintenant seront très différentes si le pari SSA est payant.

GPT-5.5 Instant et le commutateur silencieux par défaut

Alors que SubQ engageait le chercheur Twitter dans un combat, OpenAI faisait un autre type de démarche : une démarche plus silencieuse et plus axée sur l'entreprise.

Le 5 mai, OpenAI a déployé GPT-5.5 Instant comme nouveau modèle par défaut pour ChatGPT, remplaçant le GPT-5.3 Instant qui était par défaut depuis le début de cette année. Les gros titres du communiqué de presse de la société :

52,5 % d'hallucinations en moins sur des questions médicales, juridiques et financières à enjeux élevés lors des évaluations internes
37,3 % d'affirmations inexactes en moins sur un ensemble distinct d'invites que les utilisateurs avaient précédemment signalées pour des erreurs factuelles
Score HealthBench de 51,4 sur 100, contre 49,6 (GPT-5.3 Instant)
HealthBench Professional (clinique) à 38,4, contre 32,9
AIME 2025 à 81,2, contre 65,4 pour GPT-5.3
MMMU-Pro à 76,0, contre 69,2

Si vous parcourez ces chiffres, vous manquerez la véritable histoire.

L’histoire n’est pas que le modèle s’est amélioré. Les modèles s'améliorent. L'histoire est de savoir sur quels axes il s'est amélioré. OpenAI a optimisé GPT-5.5 Instant explicitement pour les choses qui comptent sur le plan juridique et financier : médical, juridique et financier. Le modèle que des millions de personnes utiliseront par défaut lorsqu'ils ouvriront ChatGPT est désormais nettement plus fiable sur les questions pour lesquelles se tromper a de réelles conséquences.

Il s’agit d’un choix stratégique, pas d’un accident technique. Et cela suit le modèle plus large du 5 mai. OpenAI et Anthropic – exactement le même mardi – ont orienté leurs versions les plus efficaces vers des domaines professionnels à enjeux élevés.

Voici ce que cela signifie en pratique pour moi.

J'ai testé GPT-5.5 Instant sur les types de tâches que j'adresse généralement à Opus pour des raisons de sécurité : examen des contrats juridiques pour le travail des clients, analyse financière pour les audits de tarification SaaS, recherche médicale de base adjacente où j'essaie explicitement d'éviter que le modèle invente quelque chose. Le premier signal est réel. Ce n’est pas la qualité Opus en mode recherche. Mais pour les réponses rapides et par défaut sur ces domaines, la baisse du taux d’hallucinations est perceptible, contrairement à GPT-5.3.

Les utilisateurs payants conservent l'accès à GPT-5.3 Instant pendant les trois prochains mois au cas où la nouvelle valeur par défaut se comporterait différemment pour leurs flux de travail spécifiques. Ce détail compte. OpenAI indique qu'ils s'attendent à ce que certains utilisateurs ressentent le changement comme une régression – probablement parce que GPT-5.5 Instant échange certains comportements stylistiques contre des gains de précision. Si vous disposez d'un échafaudage rapide adapté aux bizarreries de GPT-5.3, auditez-le avant la fermeture de la fenêtre de trois mois.

L'implication sous-discutée : c'est OpenAI qui concède tranquillement que le modèle par défaut compte plus que le produit phare. La plupart des utilisateurs de ChatGPT n'opteront jamais pour le niveau le plus cher. Le modèle qui répond à la plupart des questions AI dans le monde est le modèle par défaut. L’optimiser pour une précision à enjeux élevés est un levier d’impact sociétal bien plus important qu’un autre dixième de pour cent sur AIME.

Je conserve mon abonnement Opus en raison du raisonnement en contexte long et des intégrations d'agents que j'ai construites autour de Claude Code. Mais pour une part significative de mes questions ponctuelles, en particulier celles pour lesquelles j'aurais auparavant revérifié la réponse dans un deuxième outil, GPT-5.5 Instant est désormais l'appel que je passe en premier. Ce n’est plus vrai depuis GPT-4.

L'agent financier Anthropic — et pourquoi Microsoft 365 est la vraie histoire

L'annonce du 5 mai de Anthropic a été la plus dense de la semaine, et la partie qui a reçu le plus de couverture – les dix modèles d'agent financier – n'était pas la partie la plus importante.

Permettez-moi d'abord de couvrir les modèles, car ils sont réels. Anthropic a publié dix modèles d'agent prêts à l'emploi pour les services financiers, répartis en deux catégories :

Recherche et couverture client (5 agents) :

Constructeur de pitch
Préparateur de réunion
Examinateur des revenus
Modéliste
Etude de marché

Finances et Opérations (5 agents) :

Réviseur d'évaluation
Réconciliateur du grand livre général
Fin de mois plus proche
Commissaire aux comptes
Filtre KYC (Know Your Customer)

Chaque agent est ce que Anthropic appelle une « architecture de référence » : une combinaison packagée de compétences (instructions et connaissances du domaine pour la tâche), de connecteurs (accès régi aux données sur lesquelles la tâche s'exécute) et de sous-agents (modèles Claude supplémentaires pour les sous-tâches). Ils peuvent s'exécuter en tant que plugins dans Claude Cowork et Claude Code aux côtés d'analystes humains, ou ils peuvent être déployés en tant qu'agents gérés par Anthropic où Anthropic gère l'infrastructure de production.

C’est le genre de communiqué qui mérite un paragraphe sérieux de la part de quiconque couvre la finance AI. Mais voici ce qui a été enterré.

Même annonce. Le même jour. Anthropic est livré intégration complète de Microsoft 365 — Claude fonctionnant comme un agent unique dans Excel, PowerPoint, Word et Outlook, transportant le contexte dans les quatre applications simultanément.

Si vous ne travaillez pas dans la finance, cette phrase pourrait ne pas être pertinente. Si vous le faites, il devrait atterrir comme un piano qui tombe.

Le flux de travail standard d'un analyste junior ressemble à ceci : extraire des données dans Excel, les modéliser, créer une présentation dans PowerPoint, rédiger la note de couverture dans Word, l'envoyer via Outlook avec trois e-mails de suivi. Autrefois, chaque rupture d'outil signifiait une rupture de contexte : un endroit où les informations devaient être transportées manuellement entre les applications, où des erreurs s'insinuaient, où les analystes juniors passaient les heures peu glamour qui justifiaient leurs salaires d'entrée de gamme.

Un agent unique qui gère le contexte dans les quatre applications Microsoft 365 n'est pas un « outil de productivité AI ». Il s’agit de la disparition structurelle d’une catégorie d’emplois d’entrée. Combiné avec le partenariat de données Anthropic de Moody's annoncé le même jour, le message est sans ambiguïté : Anthropic ne crée pas de compagnons de discussion pour les analystes. Ils construisent la main-d’œuvre numérique qui était autrefois être les analystes.

Pour le parallèle de stratégie, mes notes de terrain sur le déploiement de l'agent géré de Anthropic couvrent plus en profondeur le modèle « d'infrastructure de production sécurisée » – c'est la même plomberie qui alimente désormais ces modèles financiers.

C'est également là qu'intervient l'histoire de Perplexité.

Le contre-punch de la perplexité – et qui gagne réellement

Le même mardi, Perplexity a lancé Computer for Professional Finance.

La similitude structurelle n’est pas subtile :

35 workflows financiers dédiés automatisant le travail des analystes répété chaque semaine
Intégrations de données sous licence avec Morningstar, PitchBook, Daloopa et Carbon Arc
Une intégration du serveur PitchBook Essential MCP qui donne à Perplexity un accès natif à l'intelligence firmographique de PitchBook
Formats de sortie comprenant des feuilles de calcul, des graphiques boursiers annotés et des comparaisons de recherche sur les actions avec chaque chiffre lié à sa source

Si le discours de Anthropic est « une main-d'œuvre AI qui opère au sein de votre pile Microsoft 365 existante », le discours de Perplexity est « le système d'exploitation financier lui-même » – un outil de destination, pas une intégration. Là où Anthropic demande aux entreprises de brancher Claude dans leur chaîne d'outils existante, Perplexity leur demande de migrer vers une nouvelle surface de travail où les données résident de manière native.

Les deux paris peuvent être gagnants. Ils ne gagneront probablement pas tous les deux dans les mêmes comptes.

Ma lecture honnête : Anthropic a le dessus en ce moment, pour une raison qui n'a rien à voir avec la qualité du modèle. L’intégration Microsoft 365 est le fossé. La plupart des grandes sociétés de services financiers travaillent sur Excel et PowerPoint. Leur demander de migrer les flux de travail des analystes vers un nouvel outil de destination est une source de friction. Leur demander d'ajouter Claude en tant que couche sur les outils qu'ils utilisent déjà est plus proche de la gratuité. Il s’agit d’un avantage structurel qui ne dépend pas du modèle qui rédige un résumé des bénéfices légèrement meilleur.

Mais Perplexity a quelque chose que Anthropic n'a pas : des partenariats de données natifs intégrés à la surface du produit lui-même. L'intégration du PitchBook MCP en particulier constitue une forme d'avantage différente. Lorsque la question est « trouvez-moi chaque transaction SaaS de série B au cours des 18 derniers mois qui s'est clôturée à plus de 12x ARR », le modèle qui contient déjà des données PitchBook a un avantage structurel sur le modèle qui doit savoir où chercher.

La prévision honnête est qu’il s’agira d’une répartition flux de travail par flux de travail. Le filtrage KYC et la clôture de fin de mois reviennent à Anthropic en raison de l'intégration opérationnelle. Les études de marché et la recherche de transactions sont confiées à Perplexity en raison de la couche de données. La création d'un pitchbook et l'évaluation des bénéfices seront débattues au cours des dix-huit prochains mois.

Si vous déployez AI dans un contexte de services financiers ce trimestre, n'en choisissez pas un. Exécutez les deux, en fonction de flux de travail spécifiques. La pression concurrentielle entre les deux fera baisser les prix et les capacités plus rapidement que l’un ou l’autre ne l’aurait fait seul.

Gemini 3.2 Flash, tests AB et brouillage pré-I/O

Passons maintenant à la partie avec laquelle j'avais initialement prévu de diriger – et qui a été rétrogradée par tout ce qui précède.

Google a testé AB plusieurs variantes de Gemini 3.x pendant des semaines avant I/O.. Les noms repérés dans les journaux de trafic de l'application iOS Gemini incluent Gemini 3.2 Flash, Ajax, Hercules, Hector et Orpheus. Les variantes semblent être cycliques : un utilisateur de Reddit a signalé que son application iOS Gemini était passée de Gemini 3 Flash à 3.1 à 3.2 sur une période de 24 heures.

Le prix divulgué pour Gemini 3.2 Flash, basé sur les journaux AI Studio API, est de 0,25 $ pour 1 million de jetons d'entrée et de 2 $ pour 1 million de jetons de sortie. Si ces chiffres sont valables au lancement de I/O, Gemini 3.2 Flash atteint un tarif flash avec des capacités proches de Gemini 3.1 Pro, ce qui étendrait l'avance de Google en termes de prix par rapport à la qualité au niveau intermédiaire.

Une correction importante qui mérite d’être signalée, puisque j’ai vu cela circuler dans les rafles cette semaine. La date limite de connaissance pour les modèles Gemini 3 est janvier 2025, et non janvier 2026. J'ai vu le nombre 2026 cité dans quelques fils de discussion récapitulatifs. Ce n'est pas ce que dit la documentation du modèle Google. Cela vaut la peine d'agir correctement avant de concevoir une logique de récupération autour d'une hypothèse qui ne correspond pas.

La plus grande histoire de Google est la fuite du modèle Omni. Une chaîne UI repérée dans l'interface de génération vidéo Gemini cette semaine montre la ligne "Commencez avec une idée ou essayez un modèle. Propulsé par Omni" à côté de "Toucan" - le nom interne du chemin vidéo existant alimenté par Veo-3.1. Le placement de "Omni" à l'intérieur du consommateur UI, et pas seulement dans les journaux de code, est ce qui fait penser aux observateurs que cela va plus loin qu'un changement de nom.

Il existe trois interprétations plausibles :

Omni est un nom public pour le même parcours Veo. Possible mais peu excitant.
Omni est un nouveau modèle vidéo formé par Gemini aux côtés de Veo. Possible.
Omni est un omni-modèle unifié Gemini gérant nativement l'image et la vidéo dans un seul système. La possibilité la plus significative sur le plan architectural – et celle qui atterrirait le plus difficilement à I/O.

Si la troisième interprétation est valable, Google livre le premier modèle omni de premier plan qui gère la vidéo et les images dans un seul système unifié. Combiné avec le Projet Mariner qui a pris fin le 4 mai et intégré à l'assistant personnel de l'agent Gemini, le récit I/O est mis en scène avec soin : un modèle phare révélé, un système de génération multimodal unifié et un agent 24/7 qui vit dans l'application Gemini et remplace le travail expérimental d'agent de navigateur que Mariner effectuait.

Trois modèles plausibles seront dévoilés au I/O 2026 (du lundi 19 mai au mardi 20 mai) :

Gemini 3.5 Pro / 3.5 Flash — forme la plus probable du lancement principal
Gemini 4.0 — Les traders de Polymarket sont à 94,5 % sur « non » pour la version 4.0 au 30 juin, mais I/O a déjà surpris
Omni en tant que produit phare de la génération multimodale associé au nouveau titre Gemini

Ce que je surveille spécifiquement : les prix sur le nouveau niveau Flash, si l'agent à l'intérieur de l'application Gemini obtient un nom et un modèle de tarification distincts de l'expérience de chat, et si Google annonce quelque chose qui comble le écart de codage agent avec Codex et Claude Code - car c'est là que Google a perdu du terrain le plus rapidement.

Pour le contexte plus large de la course, j'ai couvert la course aux super agents AI en mai 2026 la semaine dernière – le test côte à côte de Codex, Cowork et Gemini qui s'est terminé avec un seul terminant proprement ma tâche matinale. Spoiler : ce n'était pas Gemini. I/O est l'occasion pour Google de changer cela.

Gemma 4 MTP Drafters — La version la plus utile dont personne n'a parlé

Alors que SubQ faisait la une des journaux, l'équipe open source de Google a livré quelque chose dont presque tous les développeurs qui lisent ceci devraient se soucier plus qu'ils ne le font actuellement.

Clarification rapide d'abord, car cela était confus dans les notes sources sur lesquelles je travaillais. La version de rédaction de prédictions multi-jetons concernait Gemma 4 — la famille de modèles open source de Google — et non Gemini 4. Deux produits différents, deux versions différentes. Gemma 4 est celui que vous pouvez réellement exécuter.

Voici ce qui a été expédié. Rédacteurs MTP (Multi-Token Prediction) pour la famille Gemma 4 utilisant une architecture de décodage spéculatif spécialisée. Le rédacteur s'associe à un modèle cible lourd - par exemple Gemma 4 31B - et utilise le calcul inactif pour prédire plusieurs futurs jetons à la fois avec le rédacteur léger, en moins de temps que le modèle cible ne prend pour traiter un jeton. Le modèle cible vérifie ensuite tous les projets de jetons en parallèle.

Le résultat : jusqu'à 3x d'accélération sans aucune dégradation de la qualité de sortie.

Les rédacteurs MTP sont publiés sous la même licence Apache 2.0 que Gemma 4, avec des poids de modèle disponibles sur Hugging Face et Kaggle, et une prise en charge prête à l'emploi de Transformers, MLX, vLLM, SGLang et Ollama.

Pour les développeurs exécutant des modèles Gemma 4 locaux sur des GPU grand public ou Apple Silicon, il s’agit d’une sérieuse mise à niveau de latence gratuite. Si vous disposez d'une application de chat en temps réel, d'un flux de travail agent ou d'un produit vocal où la latence perçue par l'utilisateur est importante, les rédacteurs MTP constituent une intégration en une soirée qui réduit sensiblement les temps de réponse sans modifier le modèle lui-même.

C'est le genre de version qui ne génère pas de cycles de discours mais améliore discrètement l'expérience de production de tous ceux qui utilisent des modèles ouverts. Cela vaut dix minutes de votre semaine pour évaluer.

Catalogue Pomelli et l'outil marketing AI Maîtriser tranquillement les flux de travail des PME

Une version supplémentaire du Google qui correspond au modèle du « navire silencieux, impact réel ».

Pomelli — Google Labs et l'outil marketing AI de DeepMind pour les petites et moyennes entreprises — ont ajouté une fonctionnalité appelée Pomelli Catalog. Le flux est le suivant : vous téléchargez vos produits ou services, Pomelli les stocke dans votre catalogue et l'outil génère des campagnes marketing personnalisées et des photos de produits créées par AI à la demande. Gratuit, disponible dans le monde entier là où Pomelli est lancé (États-Unis, Canada, Australie, Nouvelle-Zélande, avec expansion en Europe).

Pomelli fonctionne en analysant votre site Web pour créer un profil ADN commercial (votre ton de voix, polices personnalisées, images, palette de couleurs) et génère ensuite des campagnes qui correspondent. Avec l'ajout du catalogue, la boucle est bouclée : les produits entrent, la création de campagne de marque sort, téléchargeable pour Instagram, TikTok, Facebook, YouTube et LinkedIn.

L'ajout en janvier 2026 de Pomelli Animate, optimisé par Veo 3.1, permet à l'outil de transformer le contenu marketing statique en animations vidéo de marque. Combiné à la fonctionnalité Photoshoot de Catalog, qui utilise Nano Banana 2 pour transformer n'importe quelle photo de produit en images professionnelles de qualité studio, vous disposez d'un flux de travail marketing complet pour PME (photo de marque, vidéo de marque, campagne de marque) dans un seul outil gratuit.

Pour les opérateurs individuels et les PME qui pratiquent le commerce électronique, il s'agit de la version de l'histoire de l'automatisation du marketing AI dont je ne cesse de parler à mes amis et qu'ils continuent de sous-estimer. Ce n’est pas aussi tape-à-l’œil qu’une armada d’agents financiers. C’est plus utile pour plus de personnes. Si vous exploitez une boutique Shopify avec moins de cinquante SKU, vous devriez avoir testé le catalogue Pomelli d'ici vendredi.

La barre latérale de Boston Dynamics mérite d'être classée

Une note qui ne correspond pas à l’histoire du logiciel AI mais qui appartient à l’image de mai 2026.

Le robot humanoïde Atlas de Boston Dynamics entre en production. Lors du CES 2026 en janvier, la société a dévoilé la version prête pour la production. Depuis mai 2026, tous les déploiements Atlas 2026 sont entièrement engagés. Les flottes devraient être expédiées au centre d'applications Robotics Metaplant de Hyundai et, de manière significative, à Google DeepMind, qui intègre ses modèles de base Gemini Robotics AI dans le système Boston Dynamics.

Le détail pertinent, ce ne sont pas les vidéos de danse. C'est le partenariat avec DeepMind. La même société qui expédie des variantes Gemini 3.x et un modèle multimodal Omni est celle qui place la frontière AI à l'intérieur des robots humanoïdes. La convergence des modèles de langage, de la génération multimodale et du AI incarné se produit en mai 2026, sur la feuille de route de Google, avec le châssis de Boston Dynamics. Enregistrez-le pour la conversation post-I/O. Nous allons en lire beaucoup plus sur Gemini Robotics au cours du second semestre 2026.

Sur quoi je parierais réellement si je déployais la production AI ce mois-ci

Huit mille mots, voici la distillation du rapport de terrain. Si vous déployez des workflows de production AI en mai 2026, c'est ce que je ferais réellement cette semaine.

Architecte pour un effondrement de la fenêtre contextuelle. Ne migrez pas encore vers SubQ - attendez une vérification indépendante - mais arrêtez de créer des stratégies de segmentation qui supposent que 200 000 est le plafond. Les douze prochains mois transformeront probablement le contexte 1M en enjeux et 10M+ en une possibilité réelle. Créez des pipelines de récupération qui évoluent de manière élastique.

Utilisez GPT-5.5 Instant comme nouvelle valeur par défaut pour les questions factuelles ponctuelles dans les domaines à enjeux élevés. Conservez votre abonnement Opus pour le raisonnement en contexte long et le travail d'agent. Mais pour des recherches médicales, juridiques ou financières rapides, GPT-5.5 Instant est désormais l'appel que je passe en premier.

Exécutez côte à côte les agents financiers Anthropic Claude et Perplexity Computer, adaptés à différents flux de travail. Anthropic pour tout ce qui se trouve dans Microsoft 365. Perplexity pour tout ce qui a besoin de données PitchBook, Morningstar, Daloopa ou Carbon Arc de manière native. N'en choisissez pas un avant que le combat n'ait duré quatre-vingt-dix jours.

Attendez I/O avant de vous engager dans une intégration Gemini. Le prix Gemini 3.2 Flash est extrêmement compétitif sur le papier, mais lancer le travail de production sur un modèle deux semaines avant l'annonce de son successeur est la recette d'une migration que vous n'aviez pas prévue. Regardez le discours d'ouverture du 19 mai, puis engagez-vous.

Intégrez les rédacteurs Gemma 4 MTP dans n'importe quel flux de travail de modèle local que vous exécutez. C'est une victoire en termes de latence gratuite.

Si vous dirigez une PME ou une entreprise de commerce électronique de moins de cinquante SKU, testez le catalogue Pomelli cette semaine. Il s'agit de la version de l'histoire d'automatisation du marketing AI qui surlivre constamment par rapport à sa publicité.

Surveillez la réponse de codage agentique de Google sur I/O. C'est l'écart que Google doit combler, et celui qui affectera le plus directement tous les développeurs qui liront ceci. S'ils proposent quelque chose qui concurrence Claude Code ou Codex sur le type de workflows de codage agent de longue durée que nous avons abordés dans la répartition de la course aux super agents de mai, votre pile d'outils change.

La seule chose que j'ai presque ratée

J'écris des résumés AI depuis assez longtemps pour savoir que les annonces qui semblent les plus importantes au cours de la première semaine ne sont souvent pas celles qui comptent au cours du sixième mois. En repensant aux annonces que j'ai écrites à bout de souffle il y a environ un an, la moitié d'entre elles sont désormais des notes de bas de page. La même prudence s'est appliquée au remaniement de l'industrie d'avril 2026 : la moitié de ces histoires de panique se sont normalisées en trente jours, et le signal durable a été enfoui dans les versions les plus silencieuses.

Je me force donc à me demander, chaque mardi comme celui-ci : de quoi vais-je encore parler en novembre ?

GPT-5.5 Instant est une version silencieuse et durable. La chute hallucinante des domaines à enjeux élevés est le genre d’amélioration qui compte chaque semaine, pour toujours, pour des milliards d’utilisateurs. C'est durable.

Le combat des agents financiers est durable. Que ce soit Anthropic ou Perplexity qui remporte le plus de workflows, la disparition des points d'entrée des analystes juniors est désormais en marche. D’ici 2027, nous discuterons de la manière dont cela a modifié l’embauche dans le secteur des services financiers.

Les dessinateurs Gemma 4 MTP sont durables de manière ennuyeuse et utile. Une inférence locale plus rapide n’est pas glamour, mais elle apporte une réelle amélioration à quiconque exécute des modèles ouverts localement. Cela reste dans ma pile.

Les variantes du test AB Flash Gemini 3.2 — Ajax, Hercules, Hector, Orpheus — ne sont pas durables. Ce sont des bruits de pré-lancement. D'ici juin, tout cela sera remplacé par tout ce que Google annonce réellement à I/O.. Si vous passez des cycles mentaux sur les variantes aujourd'hui, redirigez ces cycles vers le discours d'ouverture de I/O le 19 mai.

Et SubQ. SubQ est le joker. Si les revendications architecturales survivent, il s'agira de la version la plus importante de 2026 - plus grande que tout ce que j'attends de Google annoncé à I/O.. Si elles ne survivent pas, elle rejoint le long cimetière des "numéros magiques dans les messages de lancement qui ne se sont pas reproduits". Je surveille les threads de réplication de référence tiers qui commenceront à atterrir dans les deux prochaines semaines. S'ils concordent avec les affirmations de l'entreprise, nous serons dans un nouveau régime informatique d'ici l'automne. S’ils ne le font pas, nous continuons à construire sur le terrain dont nous disposons.

I/O est dans deux semaines. La situation aujourd'hui, le 6 mai 2026, sera différente d'ici le 21 mai. Mais la direction des paris – vers des modèles plus contextuels et moins coûteux, une précision dans le domaine professionnel, l'automatisation des services financiers et des partenariats AI incarnés – ne va pas s'inverser. Les douze prochains mois seront définis par lesquels de ces paris seront encaissés et à quelle vitesse.

L'article que je me suis mis à écrire aurait été un aperçu serein de Google I/O 2026. Ce n'est plus ça. Il s’agit d’un instantané du moment où le domaine a véritablement changé sous les pieds de tout le monde – et d’une théorie de travail sur la position à prendre en premier.

Si vous ne faites qu'une chose après avoir fermé cet onglet : regardez le keynote I/O le 19 mai avec le cadre ci-dessus en tête. Recherchez les lacunes comblées par Google, celles qu'ils lancent et les annonces qu'ils font que personne n'a vu venir. L’écart entre ce qu’ils expédient et ce que le reste de cette semaine a expédié vous dira exactement où vont les douze prochains mois.

Je serai en direct pour noter le discours d'ouverture. On se verra de l'autre côté.

Questions fréquemment posées

Qu'est-ce que l'attention subquadratique clairsemée et pourquoi est-ce important ?

Subquadratic Sparse Attention (SSA) est l'architecture derrière SubQ, le modèle frontière de la startup basée à Miami, lancé le 5 mai 2026. Il calcule sélectivement l'attention uniquement sur les positions de jetons qui comptent, plutôt que de comparer chaque jeton à chaque autre jeton. La société revendique une fenêtre contextuelle de 12 millions de jetons représentant moins de 5 % du coût de calcul de Claude Opus. Si elle est vérifiée de manière indépendante, cela détruit l’hypothèse selon laquelle le renseignement frontalier nécessite un calcul frontalier.

Quand GPT-5.5 Instant est-il sorti et qu'est-ce qui a changé ?

OpenAI a publié GPT-5.5 Instant comme nouveau modèle par défaut de ChatGPT le 5 mai 2026. Le changement principal est une réduction de 52,5 % des hallucinations sur les invites médicales, juridiques et financières par rapport à GPT-5.3 Instant, avec des scores HealthBench passant de 49,6 à 51,4 et AIME 2025 de 65,4. à 81.2. Les utilisateurs payants conservent l'accès instantané à GPT-5.3 pendant trois mois.

Quels sont les 10 modèles d'agent financier de Anthropic ?

Anthropic a lancé 10 agents financiers Claude prêts à l'emploi le 5 mai 2026, répartis en deux catégories : Research/Client Coverage (constructeur de pitch, préparateur de réunions, examinateur de bénéfices, constructeur de modèles, chercheur de marché) et Finance/Operations (examinateur d'évaluation, rapprocheur GL, clôture de fin de mois, auditeur de relevés, filtre KYC). Ils s'exécutent dans Claude Cowork et Claude Code ou en tant qu'agents gérés par Anthropic, avec une intégration complète de Microsoft 365.

Quand est Google I/O 2026 et qu'est-ce qui est attendu ?

Google I/O 2026 se déroulera du 19 au 20 mai 2026, avec le discours d'ouverture le 19 mai. Les annonces attendues incluent une révélation majeure du modèle Gemini (probablement Gemini 3.5, peut-être Gemini 4.0), le modèle de génération multimodale Omni, des mises à jour d'agent après la fin du projet Mariner en mai. 4, et probablement des mises à jour Veo et Nano Banana. La chose la plus importante à surveiller est de savoir si Google comble l'écart de codage agent avec Codex et Claude Code.

Quelle est la différence entre Gemini 4 et Gemma 4 ?

Ce sont des gammes de produits distinctes. Gemini est la famille de modèles phares à source fermée de Google. Gemma est la famille de modèles open source de Google. La version de mai 2026 du rédacteur de prédiction multi-jetons qui a fourni des accélérations d'inférence 3x concernait Gemma 4 (open source, disponible sur Hugging Face et Kaggle sous Apache 2.0), et non Gemini 4. Les deux sont souvent confondus mais sont livrés sur des pistes différentes.

Travaillons ensemble

Vous cherchez à créer des systèmes AI, à automatiser les flux de travail ou à faire évoluer votre infrastructure technologique ? J'aimerais aider.

Fiverr (versions et intégrations personnalisées) : fiverr.com/s/EgxYmWD
Portefeuille : mejba.me
Ramlit Limited (solutions d'entreprise) : ramlit.com
ColorPark (conception et image de marque) : colorpark.io
xCyberSecurity (services de sécurité) : xcybersecurity.io

Point d'inflexion de l'IA en mai 2026 : ce que je choisirais maintenant