Pourquoi les abonnements IA deviennent une commodité

J'étais assis à mon bureau un mardi, regardant quatre tableaux de bord de facturation AI différents ouverts dans quatre onglets différents, et j'ai réalisé que j'étais devenu exactement le client pour lequel l'industrie AI était conçue pour monétiser.

Claude Max, 100 $. Codex Plus, 20 $. Une clé DeepSeek API avec environ 20 $ de crédit dessus. Un compte OpenRouter avec 15 $ supplémentaires. Un essai Kimi K2.6 exécuté via OpenCode que j'avais oublié était toujours actif. Je l'ai additionné et le numéro m'a mis mal à l'aise d'une manière que je ne comprenais pas encore complètement – non pas parce que c'était beaucoup d'argent, mais parce que pour la première fois en deux ans, je ne pouvais vraiment pas vous dire de quels abonnements j'avais besoin.

C’est le problème de la marchandisation des abonnements AI. Il ne s'annonce pas. Cela ne se présente pas comme une guerre des prix ou un événement de lancement dramatique. Cela se manifeste par un soupçon lent et rampant selon lequel ce que vous avez payé en haut de la pile n'est pas réellement ce qui crée la valeur en bas de la pile. Et si cela est vrai – si le modèle lui-même devient un produit de base tandis que la couche application consomme toute la marge – alors la pile d'abonnements que j'ai passé deux ans à construire pourrait résoudre un problème qui est sur le point de cesser d'exister.

Je vais vous expliquer ce que je paie réellement, ce que je reçois réellement, pourquoi je pense que les modèles à poids ouvert ont réduit l'écart assez rapidement pour briser le modèle de tarification qui finance les laboratoires frontaliers, et où je pense que les véritables fossés se déplacent. Une partie de cela va ressembler à une hérésie si vous êtes profondément dans l'écosystème Claude ou OpenAI. Moi aussi. C'est pourquoi je l'écris.

La pile pour laquelle je paie réellement

Permettez-moi de l'exposer pour que nous travaillions à partir des mêmes chiffres.

Je paie 100 $ par mois pour Claude Max 5x, ce qui me donne environ 225 messages toutes les cinq heures sur Sonnet 4.7 et une enveloppe beaucoup plus petite sur Opus 4.7. C'est le plan que j'utilise pour le travail de conception, l'écriture longue durée et les projets pour lesquels je souhaite que le profil de goût spécifique d'Opus soit présent dans le résultat. Il existe un niveau Max 20x à 200 $ que j'ai activé deux fois et désactivé les deux fois parce que je ne pouvais pas justifier les dépenses sur une base stable.

Je paie 20 $ par mois pour ChatGPT Plus, ce qui me permet d'accéder à Codex avec le modèle GPT-5.5 et, jusqu'au 31 mai 2026, à une augmentation temporaire de 25 fois sur les limites Codex de 5 heures qui retombe à 5x une fois la promotion terminée. C'est le plan que j'utilise pour le code backend, les pipelines de données, les échafaudages ML et le type de travail fastidieux où l'efficacité de GPT-5.5 est véritablement mesurable. J'ai couvert le face-à-face en détail lorsque j'ai écrit sur Codex versus Claude Code, et l'écart que j'ai signalé n'a fait que se creuser depuis.

Ensuite, il y a la distribution rotative des clés API. DeepSeek, actuellement installé sur V4 Pro à des prix promotionnels fortement réduits jusqu'au 31 mai. Kimi K2.6 à OpenRouter à 0,60 $ par million de jetons d'entrée et 2,50 $ par million de sortie. Une poignée de modèles gratuits sur OpenRouter dont le débit est limité à vingt requêtes par minute mais qui fonctionnent correctement pour les tâches par lots qui ne sont pas urgentes. Je les garde en partie comme solution de secours lorsque Anthropic ou OpenAI rencontre un incident de page d'état, et en partie parce que j'exécute suffisamment d'expériences par mois pour les utiliser réellement.

Le total des dégâts, avant dépense symbolique, se situe entre 135 et 160 dollars par mois, selon ce que j'ai testé. Ajoutez à cela l'utilisation de API et un mois typique se situe entre 200 et 280 $. C'est le chiffre sur la feuille de calcul que je regardais mardi.

Voici ce que j'ai remarqué en approfondissant la répartition : les abonnements propriétaires représentaient environ 78 % du coût et environ 60 % des jetons de raisonnement réels que j'ai utilisés ce mois-là. Pas 60 % de la valeur — 60 % des jetons. Les trucs bon marché transportaient une plus grande charge que je ne l'avais imaginé.

C'est à ce moment-là que la question n'est plus « comment optimiser ma pile AI ? » et a commencé à se demander « pourquoi est-ce que je paie réellement ces abonnements de premier plan ?

Le problème du rattrapage

Pour comprendre pourquoi la question est importante, vous devez comparer la situation actuelle des modèles à pondération ouverte par rapport à celle où ils se trouvaient il y a un an.

En mai 2025, la conversation était simple. Claude et GPT étaient la frontière. Les modèles ouverts comme Mistral et les premières versions de Qwen et DeepSeek rattrapaient leur retard par rapport à des références spécifiques, mais perdaient beaucoup sur le travail qui comptait : le raisonnement en contexte long, l'utilisation d'outils agents, le type de tâches d'ingénierie en plusieurs étapes qui intéressent les vrais développeurs. Payer 100 $ par mois pour Claude était une évidence, car la meilleure alternative n'était pas vraiment une alternative.

Cet écart ne s’est pas seulement réduit en 2026. Il s’est, sur plusieurs critères spécifiques, entièrement comblé.

Artificial Analysis classe DeepSeek V4 Pro à la 52e place de l'Intelligence Index — le deuxième modèle de raisonnement à poids ouvert, derrière Kimi K2.6 — et le modèle coûte environ 1 071 $ pour exécuter la suite de référence complète, contre 4 811 $ pour Claude Opus 4.7. Cela représente un écart de coût de 4,5 fois par rapport à une comparaison directe des renseignements. Sur SWE-Bench Verified, l'évaluation de codage la plus citée du classement, DeepSeek V4 Pro Max obtient un score de 80,6 %, Kimi K2.6 atteint 80,2 % et MiniMax M2.5 arrive à 80,2 %, le tout à un point de pourcentage des 80,8 % de Claude Opus 4.6. HumanEval est effectivement saturé à ce stade ; Kimi K2.5 menait avec 99,0 % avant que l'indice de référence ne cesse de faire une discrimination significative entre les modèles haut de gamme.

Lisez attentivement ces chiffres. Les modèles à poids ouvert ne battent pas les modèles propriétaires. Ils les comparent aux critères pour lesquels les modèles exclusifs ont été spécialement conçus, à une fraction du coût. Et la question des coûts est ce qui est réellement déstabilisant.

DeepSeek V3.2 a réduit de moitié son prix API fin 2025 à 0,028 $ par million de jetons d'entrée d'accès au cache et à 0,42 $ par million de sortie. Le V4 Pro bénéficie actuellement d'une remise promotionnelle de 75 % jusqu'au 31 mai 2026. Kimi K2.6 coûte 0,60 $ en entrée et 2,50 $ en sortie. À titre de comparaison, Claude Opus 4.7 est environ 8 à 10 fois plus cher en jetons de sortie que Kimi, et environ 30 fois plus cher que DeepSeek V4 en entrée. Une charge de travail SaaS qui traite 100 millions de jetons par mois (ce qui n'est pas inhabituel pour une application agent) paie environ 310 $ avec Kimi, contre 4 000 $ et plus avec GPT-5.4 ou Opus 4.7.

C’est le cycle de la poule et de l’œuf dont personne au sommet de la hiérarchie ne veut parler. Les laboratoires frontaliers forment un nouveau modèle coûteux. Ils facturent un supplément pour cela, car ils doivent récupérer le coût de la formation et financer la prochaine génération. Les laboratoires à poids ouvert effectuent une rétro-ingénierie des techniques, expédient un modèle dont les performances sont de 90 à 95 % à 1/10th le prix et les itinéraires du marché en conséquence. Au moment où le laboratoire exclusif annonce la version N+1, le modèle à pondération ouverte présente déjà une tarification qui fait disparaître la plupart des opportunités de revenus de la génération précédente.

Ce n'est pas une tendance quinquennale. C'est le cycle dans lequel nous sommes déjà dans.

L'analogie Android iOS et pourquoi ça casse

L’analogie la plus claire que j’ai entendue sur ce qui se passe est la dynamique Android contre iOS des années 2010. AI propriétaire est iOS – contrôlé, raffiné, intégré verticalement, cher. AI à poids ouvert est Android : flexible, modifiable, fragmenté, bon marché. iOS a détenu une prime pendant une décennie parce que l'intégration matériel-logiciel d'Apple a créé un verrouillage que l'ouverture d'Android ne pouvait pas reproduire avec la même barre de qualité.

L’analogie fonctionne, jusqu’à ce que vous remarquiez la partie où elle se brise complètement.

Le fossé iOS d'Apple était le matériel. Vous ne pouviez pas exécuter iOS sur un téléphone Samsung. L'intégration verticale qui a fait de l'iPhone un iPhone haut de gamme était protégée par les puces physiques de l'appareil. Apple contrôlait le Photonic Engine, le Neural Engine, le Secure Enclave – et ce verrouillage matériel est ce qui a permis de maintenir intact le pouvoir de tarification de la plate-forme pendant quinze ans.

Il n’existe pas de fossé équivalent dans l’inférence AI.

Un modèle Kimi K2.6 exécuté sur un Nvidia H200 dans un centre de données de Singapour produit des jetons fonctionnellement identiques à un modèle Kimi K2.6 exécuté sur un Huawei Ascend 950PR à Shenzhen, qui sont fonctionnellement identiques à un modèle Kimi K2.6 exécuté sur n'importe quel cluster OpenRouter qui achemine la demande jusqu'à ce jour. Le « matériel » est fongible. Le « système d'exploitation » – les poids du modèle – est téléchargeable. Le « magasin d'applications » – la passerelle API – est banalisé par des services comme OpenRouter qui regroupent des dizaines de fournisseurs derrière une seule clé.

Si Apple avait été obligé de fournir iOS sous forme d'ISO téléchargeable fonctionnant sur n'importe quel téléphone doté des bonnes spécifications, iOS aurait été très différent d'ici 2015. C'est la position dans laquelle se trouvent aujourd'hui les laboratoires propriétaires AI. La chose pour laquelle ils essaient de facturer un supplément peut être répliquée par un concurrent avec 5,6 millions de dollars en calcul, et le modèle résultant peut être servi par toute personne disposant d'un GPU et d'un point de terminaison API.

C’est pourquoi l’analogie que j’utilise actuellement n’est pas iOS contre Android. C'est Apple contre tout le monde sur le marché des ordinateurs portables de la fin des années 2000. Apple fabriquait encore de belles machines. Apple exigeait toujours une prime. Mais dès que les composants sous-jacents – les puces, les écrans, les systèmes d’exploitation – sont devenus largement disponibles pour d’autres fabricants, la part de marché d’Apple est tombée à un chiffre et y est restée pendant une décennie. Apple a survécu non pas grâce au matériel, mais grâce à l'écosystème d'applications, aux outils de développement, au langage de conception et à l'histoire de la marque. Le matériel est devenu un enjeu de table.

C'est vers cela que se dirigent les laboratoires AI. Le modèle devient un enjeu de table. La question est de savoir ce qui reste après cela.

Où je pense que se trouvent les vraies douves

Voici la partie à laquelle je réfléchis depuis des semaines, car elle détermine ce qui survivra à la transition.

Je vois quatre véritables douves se former, et une seule d'entre elles est celle pour laquelle je paie actuellement.

Le premier fossé est la couche d'application. Il s'agit de Claude Code. Il s'agit de Codex. Il s'agit de l'intégration du modèle dans un flux de travail spécifique avec des outils spécifiques, des décisions UX spécifiques, des choix de conception spécifiques sur le moment où demander une confirmation par rapport au moment où agir de manière autonome. Lorsque je paie 100 $ par mois pour Claude Max, la partie que je ne peux pas reproduire avec une clé DeepSeek API n'est pas le modèle ; ce sont les huit mois de raffinements du flux de travail Claude Code que Anthropic a itérés, l'écosystème compétences d'agent, les commandes slash, la façon dont le harnais d'agent gère les tâches de longue durée. Anthropic ne vend pas de jetons. Ils vendent un environnement de codage qui utilise des jetons.

Cette distinction aura de plus en plus d’importance chaque mois au cours des deux prochaines années.

Le deuxième fossé est l'infrastructure de conformité. Les charges de travail dans les domaines des soins de santé, des finances, du droit et du gouvernement se soucient de choses que DeepSeek et Kimi ne peuvent pas facilement fournir : garanties de résidence des données, pistes d'audit, attestation SOC 2, politiques de sécurité constitutionnelles AI, le genre de documents qui permettent à une équipe d'approvisionnement Fortune 500 de cocher une case. Anthropic a aurait remporté 70 % des confrontations d'entreprise en face-à-face contre OpenAI pour les nouveaux acheteurs de AI, et une part significative de cela est la maturité de la gouvernance, et non la qualité brute du modèle. C’est le fossé qui évolue avec la complexité réglementaire, et c’est celui que les laboratoires ouverts ont le plus de mal à reproduire car le travail de réglementation est fondamentalement orthogonal au travail de modèle.

Le troisième fossé est l'écosystème. Il s'agit du Protocole de contexte modèle. Ce sont les intégrations avec Slack, Notion, Figma, Canva, GitHub, chaque base de données qui compte. Il s'agit de la documentation du développeur, de la qualité du SDK, de la présence à la conférence, de la façon dont les outils tiers s'illuminent autour d'une plateforme. Apple a gagné la guerre des ordinateurs portables contre l'écosystème, pas contre le matériel. Les laboratoires AI qui remporteront la prochaine décennie gagneront sur l'écosystème, pas sur l'intelligence des modèles. Et les écosystèmes prennent des années à se construire, ce qui signifie que les laboratoires propriétaires ont une longueur d’avance réelle mais limitée dans le temps.

Le quatrième fossé est la marque et la confiance. Lorsque je crée quelque chose pour un client payant, j'utilise par défaut Claude ou GPT, non pas parce qu'ils sont nettement meilleurs dans une tâche spécifique, mais parce que si quelque chose ne va pas, je peux défendre mon choix. "J'ai utilisé Claude" est une réponse défendable lors d'une réunion client. "J'ai utilisé DeepSeek" nécessite une explication de quinze minutes sur les raisons pour lesquelles un modèle chinois à poids ouvert est approprié pour leur flux de travail HIPAA. Cette défendabilité vaut de l’argent réel, et c’est un fossé dont les laboratoires exclusifs sous-investissent parce qu’ils le tiennent pour acquis.

Ce pour quoi je paie 100 $ par mois, pour être honnête, ce sont les fossés un et trois. Le modèle n'est plus le produit. Le harnais est le produit, les intégrations sont le produit, l'écosystème est le produit. Tout le reste peut être reproduit par un modèle à poids ouvert à 1/10th le prix.

Il s'agit d'une entreprise fondamentalement différente de celle que Anthropic et OpenAI construisaient en 2024.

Ce que cela signifie pour Anthropic et OpenAI

Les laboratoires frontaliers le savent. Vous pouvez le voir dans leur stratégie produit si vous y prêtez attention.

Anthropic a atteint 30 milliards de dollars de revenus annualisés en mars 2026, en hausse d'environ 1 400 % d'une année sur l'autre. OpenAI représente un ARR d'environ 25 milliards de dollars. Ce sont des chiffres extraordinaires, mais c’est la composition qui compte. Une part croissante des revenus des deux sociétés provient des contrats d'entreprise et des intégrations de plates-formes (couche d'application et couche de conformité) et non des ventes individuelles de jetons API. Anthropic et OpenAI ont tous deux lancé des coentreprises pour les services d'entreprise AI début mai. Aucune de ces entreprises ne consiste à vendre des jetons. Il s'agit de vendre des implémentations.

Le changement stratégique est clair : arrêtez de rivaliser sur l'intelligence brute du modèle, où les laboratoires à poids ouvert peuvent vous égaler pour 1/10th le prix, et commencez à rivaliser sur la couche située au-dessus du modèle où vous pouvez facturer les résultats plutôt que l'inférence. Le prix du Claude Code n'est pas celui du modèle API. Son prix est celui d'un outil de développement. Le prix du Codex n'est pas celui du modèle API. Son prix est identique à celui d'un abonnement de codage. Ce qui devient banalisé, c'est la partie qui est de plus en plus regroupée plutôt que vendue sous forme d'article en ligne.

C’est aussi pourquoi le regroupement est important. Lorsque mes 100 $ par mois m'achètent un accès à Sonnet 4.7 et Opus 4.7 plus Claude Code plus le marché des compétences d'agent plus les intégrations MCP plus l'application de bureau plus le mode vocal et une douzaine d'autres choses, Anthropic ne me facture pas pour le modèle. Anthropic me facture le bundle, et le modèle est la partie du bundle qui devient la moins défendable. Séparez l’ensemble et le modèle à lui seul vaut peut-être 20 $ par mois selon les références actuelles de poids ouvert. Séparez l’ensemble et la couche d’application à elle seule vaut facilement entre 80 et 120 $ par mois. Le regroupement n’est pas accidentel. C'est la stratégie de survie.

Le risque est ce qui se produit lorsqu'un tiers crée une couche d'application suffisamment bonne au-dessus d'un modèle ouvert. Ce n'est plus hypothétique. OpenCode est un concurrent crédible à Claude Code qui s'exécute sur plusieurs backends de modèles. L'abonnement OpenCode Go vous offre quatre agents parallèles et un accès à V4 Pro, V4 Flash et plusieurs autres modèles ouverts pour 5 $ le premier mois et 10 $ par mois par la suite. Cela représente une réduction de 90 % sur une pile qui fait la plupart de ce que fait Claude Code. Le fossé de la couche application est réel, mais il n’est pas infini. L’écosystème open source va le réduire de la même manière qu’il a réduit la couche modèle.

C’est là que ça devient intéressant pour la question existentielle. Si Adobe – pour utiliser l'exemple auquel je reviens sans cesse – intègre un DeepSeek V4 Pro affiné dans Photoshop et le livre sous le nom d'« Adobe Intelligence » avec une intégration complète du système de conception et un UX raffiné, que vend exactement Anthropic que je ne peux pas obtenir d'Adobe ? Qu'est-ce que OpenAI vend que je ne peux pas obtenir d'un concurrent aux motivations similaires et disposant d'une distribution approfondie ? Le modèle devient invisible. La couche application est ce que le client paie. Et chaque société d’applications de la planète a désormais la possibilité de créer la sienne.

Ce que je fais avec ma pile d'abonnements

Permettez-moi d'être précis sur ce qui change dans ma propre configuration, car la vision stratégique n'a d'importance que si elle change réellement le comportement.

Je garde Claude Max pour l'instant. La valeur de la couche d'application est réelle, le goût de conception dans la sortie de l'Opus 4.7 est toujours véritablement meilleur que tout ce que je peux obtenir des modèles à poids ouvert, et le [système de compétences d'agent] de Claude Code (/agent-skills-advanced-claude-code) fait des choses que je ne peux pas reproduire ailleurs. Mais je surveille attentivement les prix. Si Anthropic augmente le niveau Max ou affaiblit la valeur, je rétrograderai vers Pro et acheminerai le travail lourd via OpenRouter.

Je garde Codex Plus pour la même raison. La limite promotionnelle de 25x jusqu'au 31 mai rend le plan à 20 $ absurdement bon pour le moment, et l'efficacité de GPT-5.5 dans la boucle de codage agent est la meilleure de sa catégorie pour le type de travail back-end que je fais. Après le 31 mai, les limites retombent à 5x et je réévaluerai.

J'augmente délibérément mes dépenses OpenRouter et DeepSeek. Je veux suffisamment de maîtrise opérationnelle avec la pile ouverte pour que si les abonnements propriétaires cessent d'avoir du sens, je puisse transférer la majeure partie de ma charge de travail avec un week-end d'effort au lieu d'un quart de douleur de migration. Il s’agit d’une couverture stratégique et non d’une optimisation immédiate des coûts. L'optimisation des coûts est un effet secondaire. J'ai couvert en détail [l'approche proxy Claude Code gratuite] (/free-claude-code-proxy-nvidia-openrouter-ollama) si vous souhaitez configurer la même infrastructure de secours.

J'exécute OpenCode en parallèle pendant au moins un projet par mois. Non pas parce que je désactive Claude Code – ce n’est pas le cas – mais parce que l’écart entre les agents de codage open source et les agents propriétaires se réduit plus rapidement que la plupart des gens ne le pensent, et le jour où un agent tiers se rapproche de 95 % du UX de Claude Code est le jour où une part significative des revenus de Anthropic est en danger. Je veux savoir quand ce jour est, et je préfère le savoir tôt que tard.

Je n'ajoute aucun nouvel abonnement propriétaire jusqu'à ce que je trouve un fossé qui le justifie. Gemini Advanced, Cursor Pro, les différents outils d'entreprise AI — aucun d'entre eux ne m'a montré une couche d'application suffisamment distincte de ce que j'ai déjà. En attendant que cela change, la pile ouverte absorbera toute nouvelle charge de travail qui n’a pas de raison spécifique de vivre sur une plate-forme propriétaire.

C'est la discipline que j'intègre dans mon propre usage. Abonnez-vous là où la couche application crée de la valeur que je ne peux pas obtenir ailleurs. Payez des jetons où le modèle est la seule chose qui compte. Exécutez des modèles ouverts partout où je peux sans sacrifier la qualité de sortie. Et réévaluez l'ensemble de la pile chaque trimestre, car la courbe prix par qualité évolue suffisamment rapidement pour que l'allocation optimale du trimestre dernier corresponde au dépassement des dépenses de ce trimestre.

Ce que cela signifie pour les développeurs solo et les petites équipes

Si vous êtes un développeur solo ou si vous dirigez une petite équipe, voici la version pratique.

Commencez avec un abonnement propriétaire, pas trois. Choisissez la couche d'application dans laquelle vous allez vivre. Pour la plupart des constructeurs, il s'agit actuellement de Claude Code sur le plan Pro à 20 $ ou de Codex sur le plan à 20 $ Plus. Vous n'avez pas besoin des deux. Choisissez celui dont UX correspond à votre façon de travailler, engagez-vous pendant au moins un mois et arrêtez de lancer des comparateurs chaque semaine.

Ajoutez un seul point d’accès à poids ouvert comme solution de secours. OpenRouter est l'entrée la plus propre : un compte, une clé API, des dizaines de modèles, [modèles gratuits pour un travail à faibles enjeux] (/claude-code-openrouter-free-models). Dépensez 20 $ pour charger des crédits et acheminer toute charge de travail qui n'est pas critique en termes de latence ou de qualité via Kimi K2.6 ou DeepSeek V4. Vous serez surpris de voir à quel point votre travail quotidien correspond à ce profil.

Utilisez les économies réalisées pour payer des outils qui composent. La couche d'application est l'endroit où se trouve le fossé, et cela inclut des outils qui ne sont pas des abonnements AI. Une bonne plateforme d'observabilité. Une véritable configuration de test. Une base de données vectorielles avec une recherche hybride appropriée. L'effet de levier que vous obtenez de ces composés, quel que soit le modèle que vous utilisez, et ils ne perdent pas de valeur lorsque la couche de modèle se déplace sous vous.

Surveillez la consolidation. Le prix actuel est instable. D’ici douze mois, je m’attends à ce qu’au moins un laboratoire propriétaire majeur fasse un regroupement agressif, qu’au moins une grande société d’applications livre un produit AI vertical crédible sur une infrastructure ouverte, et qu’au moins un laboratoire ouvert publie un modèle qui comble l’écart restant sur le travail agentique à long contexte. Lorsque l’une de ces choses se produit, la pile d’abonnement optimale change, et la seule façon de le savoir est d’y prêter suffisamment attention pour pouvoir réévaluer l’arrivée des signaux.

Si vous dirigez une équipe de trois à dix personnes, le calcul est différent. Centralisez l'accès à votre modèle via une passerelle unique (OpenRouter ou votre propre couche de routage) afin de pouvoir changer de fournisseur sans toucher au code de l'application. Négociez les tarifs d'entreprise avec le laboratoire qui vous offre la meilleure valeur au niveau de la couche application, car les remises sur volume du côté propriétaire restent significatives. Gardez au moins un modèle ouvert au chaud pendant la production, même s'il ne gère que 10 % du trafic. Le jour où vous devrez y tomber, vous ne voudrez pas faire le travail d'intégration pour la première fois.

Pour les grandes équipes, la réponse est de plus en plus que le modèle est une décision d’approvisionnement et non une décision d’ingénierie. Le travail d’ingénierie se situe dans la couche application. C'est la partie qui crée la différenciation. Celui qui prendra vos décisions d'abonnement à AI en 2026 devrait être la même personne qui prendra vos décisions en matière d'outils de développement, car la frontière entre les deux a effectivement disparu.

Vue d'ensemble

Je ne pense pas que Anthropic ou OpenAI vont disparaître. Les entreprises sont trop bien positionnées, les fossés au niveau de l’application sont trop réels et la prime de la marque est trop précieuse pour s’évaporer rapidement. Mais je pense que l’entreprise qu’ils dirigent en 2027 sera différente de celle qu’ils dirigent aujourd’hui.

Le modèle d'abonnement traditionnel AI – nous payons des frais mensuels fixes pour accéder à notre modèle, et le modèle est le produit – est soumis à de sérieuses pressions. Cela fonctionne actuellement car la couche application est intégrée à l'abonnement et la plupart des utilisateurs ne peuvent pas facilement séparer les deux. Alors que les modèles ouverts continuent de combler l’écart de capacités, l’ensemble va subir des pressions des deux côtés : des tiers construisent des couches d’applications concurrentes au-dessus de modèles ouverts bon marché, et des utilisateurs avisés acheminent les charges de travail vers le fournisseur offrant le meilleur rapport qualité-prix pour une tâche donnée.

Je pense que l’avenir vers lequel nous nous dirigeons est celui de centaines de gagnants, et non de deux ou trois. Différentes couches d'application pour différents secteurs verticaux. Différents modèles à poids ouvert pour différents profils de sensibilité aux coûts. Différents outils d'orchestration qui les acheminent en fonction de la tâche. Les laboratoires pionniers auront toujours leur importance : ils continueront à former les modèles que les laboratoires ouverts effectuent en matière de rétro-ingénierie, ils vendront toujours les couches d'application les plus perfectionnées, ils exigeront toujours des primes dans les secteurs réglementés. Mais ils ne constitueront qu’un segment d’un marché beaucoup plus vaste, et non l’ensemble du marché.

C'est une industrie plus saine, à mon avis. C'est une industrie plus compétitive. C'est une industrie où ce qui compte, c'est ce que vous construisez à partir du modèle, et non pas si vous possédez le modèle. Et c'est un secteur dans lequel la pile d'abonnements que j'utilise aujourd'hui – trois forfaits propriétaires, trois clés API, une demi-douzaine d'outils – ressemblera à un artefact d'une époque antérieure d'ici dix-huit mois.

Je paie aujourd'hui pour des abonnements propriétaires, car la couche d'application est toujours là où se trouve la valeur, et les laboratoires propriétaires continuent de créer les meilleures couches d'application. Je continuerai à payer tant que c'est vrai. Mais je développe les muscles nécessaires pour changer dès que ce n'est pas le cas, car l'alternative - conduire une pile d'abonnements jusqu'à l'obsolescence parce que la changer me semblait trop de travail - est l'erreur la plus coûteuse que je puisse commettre dans un marché qui évolue aussi vite.

Alors regardez votre propre pile. Additionnez ce que vous payez. Demandez-vous quels abonnements vous achètent un modèle et lesquels vous achètent une couche d'application. Annulez ceux qui ne vous achètent qu’un modèle. Utilisez les économies réalisées pour payer celles qui vous achètent un flux de travail que vous ne pourriez réellement pas créer vous-même. Et exécutez un modèle à poids ouvert en parallèle, même si ce n'est que pour une seule charge de travail, même si ce n'est que pour un après-midi par semaine – parce que le jour où les calculs s'inversent, vous voulez déjà savoir comment vivre dans ce monde.

C'est le pari que je fais. Le modèle devient une marchandise. La couche d'application est le produit. Et la pile d'abonnement que vous exécutez le 6 mai 2026 n'est certainement pas la pile d'abonnement que vous devriez exécuter le 6 mai 2027.

Questions fréquemment posées

Les abonnements AI valent-ils toujours le coup en 2026 ?

Oui, mais pour une raison plus précise qu’il y a deux ans. Le modèle lui-même est désormais une marchandise : les options à poids ouvert comme DeepSeek V4 Pro et Kimi K2.6 correspondent à la frontière propriétaire sur la plupart des tests de codage à un coût de 1/10th. Ce que vous payez en réalité à 100 $ /month, c'est la couche d'application : Claude Code, Codex, les compétences d'agent, les intégrations, le UX raffiné. Si la couche application crée une valeur que vous ne pouvez pas reproduire, l'abonnement en vaut la peine. Si ce n’est pas le cas, passez plutôt par OpenRouter.

Qu'est-ce que la couche d'application dans AI ?

La couche d'application est tout enveloppé autour d'un modèle de base AI qui en fait un produit utile : le faisceau d'agents de codage, les intégrations de flux de travail, les décisions UX, les politiques de sécurité, les outils de développement, l'écosystème de plugins tiers. Claude Code et Codex sont des couches d'application construites sur les modèles Claude et GPT. À mesure que l’intelligence des modèles devient banalisée, la couche d’application est l’endroit où réside le fossé durable.

Combien puis-je réellement économiser avec les modèles à poids ouvert ?

Sur les coûts bruts des jetons, environ 4 à 30 fois selon le modèle et la charge de travail. Claude Opus 4.7 coûte environ 4 811 $ pour exécuter la suite Artificial Analysis Intelligence Index, contre 1 071 $ pour DeepSeek V4 Pro. Une charge de travail de 100 millions de jetons par mois s'élève à environ 310 $ sur Kimi K2.6, contre 4 000 $ et plus sur GPT-5.4. Le problème est que vous payez pour des jetons bruts : vous n'obtenez pas la couche d'application (Claude Code, Codex) sans la construire vous-même ou en utilisant quelque chose comme OpenCode.

Dois-je annuler Claude Max ou Codex Plus ?

N'annulez pas les deux, mais vous n'avez probablement pas besoin des deux. Choisissez la couche d'application qui correspond à votre façon de travailler (Claude Max si vous effectuez un travail de conception avant-gardiste et de longue durée, Codex Plus si vous effectuez un travail de backend, de ML et de pipeline de données) et acheminez tout le reste via un modèle ouvert sur OpenRouter. La promotion actuelle 25x Codex jusqu'au 31 mai 2026 confère au plan 20 $ Plus une valeur exceptionnelle si Codex correspond à votre flux de travail.

Qu'est-ce que OpenRouter et comment s'intègre-t-il ?

OpenRouter est un point de terminaison API unique qui vous donne accès à plus de 300 modèles AI (propriétaires et open-weight) sans frais mensuels. Vous ajoutez des crédits et payez par jeton à un prix proche du prix brut du fournisseur. C'est le moyen le plus simple de revenir aux modèles ouverts sans gérer plusieurs clés API, et le niveau gratuit (taux limité à 20 requêtes par minute, 200 par jour) est suffisant pour le travail par lots à faibles enjeux. Je l'utilise comme couche de routage derrière toute charge de travail qui n'a pas besoin de vivre sur une plate-forme propriétaire.

Travaillons ensemble

Vous cherchez à créer des systèmes AI, à automatiser les flux de travail ou à faire évoluer votre infrastructure technologique ? J'aimerais aider.

Fiverr (versions et intégrations personnalisées) : fiverr.com/s/EgxYmWD
Portefeuille : mejba.me
Ramlit Limited (solutions d'entreprise) : ramlit.com
ColorPark (conception et image de marque) : colorpark.io
xCyberSecurity (services de sécurité) : xcybersecurity.io

Pourquoi les abonnements IA deviennent une commodité