Comment Je Teste les Claude Skills Avant qu'Elles Ne Cassent Mon Workflow
J'ai supprimé une skill mardi dernier qui fonctionnait parfaitement depuis six semaines.
Pas parce qu'elle avait cessé de fonctionner. Parce que Claude est devenu plus intelligent. La skill dégradait activement mes résultats — écrasant des comportements que le modèle avait déjà appris à faire nativement. Je ne m'en suis rendu compte que parce que j'ai enfin lancé un vrai test A/B au lieu de me fier à mon intuition.
Ce moment a changé ma façon de penser à chaque skill personnalisée que je construis. Et si vous créez des skills pour Claude Code en vous basant sur des intuitions et des impressions — les envoyant en production après un seul test réussi — vous êtes probablement assis sur la même bombe à retardement que moi.
Voici ce que personne ne vous dit sur les Claude Skills : elles ont une date d'expiration. Et Anthropic vient de sortir un outil qui vous aide à déterminer exactement quand cette date arrive.
La Skill qui M'a Trompé Pendant Six Semaines
J'avais construit une skill de traitement de PDF en janvier. Rien de sophistiqué — elle indiquait à Claude comment extraire des données structurées de factures, gérer les mises en page multi-pages et générer du JSON propre. Quand je l'ai testée pour la première fois, les résultats étaient considérablement meilleurs que Claude sans modification. Victoire facile. En production.
Six semaines plus tard, j'enquête sur pourquoi mon pipeline de factures est plus lent que dans mon souvenir. L'utilisation de tokens avait augmenté progressivement. Les résultats étaient corrects, mais quelque chose clochait. Je n'ai pas pu identifier le problème jusqu'à ce que je fasse quelque chose que j'aurais dû faire des semaines plus tôt.
J'ai lancé les mêmes prompts sans la skill.
Les résultats étaient quasi identiques. Dans certains cas, meilleurs. Claude avait appris à gérer les PDFs plus efficacement grâce aux mises à jour du modèle, et ma skill ajoutait désormais un overhead inutile — des instructions supplémentaires que le modèle suivait déjà, des contraintes rigides qui l'empêchaient d'utiliser ses capacités natives améliorées.
C'est le piège. Les skills n'annoncent pas quand elles deviennent du poids mort. Elles restent simplement là en silence, consommant des tokens et contraignant un modèle qui les a dépassées.
Cette révélation m'a entraîné dans une exploration qui s'est terminée au Skill Creator d'Anthropic — et honnêtement, j'aurais aimé le trouver plus tôt.
Deux Types de Skills (et Pourquoi la Différence Compte Plus que Vous Ne le Pensez)
Avant de vous guider à travers le workflow du Skill Creator, il y a un modèle mental qui a complètement redéfini mon approche du développement de skills. Chaque Claude Skill tombe dans l'une de deux catégories, et comprendre dans laquelle se trouve la vôtre détermine tout sur la façon dont vous la construisez, la testez et la maintenez.
Les skills d'amélioration de capacités comblent les lacunes là où le modèle a actuellement des difficultés. Ma skill de PDF en était une. Tout comme les skills pour gérer la génération de PowerPoint, les patterns de concurrence en Swift ou le formatage complexe de documents. Ces skills ont une date de retraite naturelle — le modèle s'améliore à chaque mise à jour, et finalement votre skill devient des petites roues sur un vélo que le cycliste maîtrise déjà.
Les skills d'encodage de workflows capturent vos processus spécifiques, préférences et règles métier. Pensez aux checklists de révision de NDA, aux flux de code review spécifiques à votre entreprise, aux modèles de rapports hebdomadaires qui extraient des données de Jira et PostHog, au triage des sinistres d'assurance avec des règles internes de conformité. Ces skills encodent votre savoir, pas des capacités générales. Le modèle ne va pas apprendre spontanément les exigences de conformité de votre entreprise via une mise à jour d'entraînement.
Voici ce que la plupart des gens ne voient pas : la stratégie de test est complètement différente pour chaque type.
Pour les skills d'amélioration de capacités, la question critique est « est-ce que cela améliore encore les résultats par rapport à l'absence de skill ? » Vous avez besoin de comparaisons de référence. De tests A/B. De benchmarks quantitatifs. Parce qu'au moment où la réponse bascule vers « non », la skill doit être mise à la retraite.
Pour les skills d'encodage de workflows, la question critique devient « est-ce que cela se déclenche de manière fiable et s'exécute correctement ? » Vous vous souciez moins de savoir si elle surpasse Claude sans modification et plus de savoir si elle se déclenche quand elle le doit, suit votre processus spécifique et ne s'active pas sur des prompts non liés.
Je traitais toutes mes skills comme le second type — vérifiant si elles fonctionnaient, ne vérifiant jamais si elles étaient encore nécessaires. Le Skill Creator corrige cet angle mort.
Installer le Skill Creator (Deux Minutes, Zéro Complication)
Mettre le Skill Creator en route est simple. Vous pouvez le récupérer directement depuis le dépôt de skills d'Anthropic et le placer dans votre répertoire ~/.claude/skills/.
mkdir -p ~/.claude/skills/skill-creator
cd ~/.claude/skills/skill-creator
# Télécharger le fichier principal de la skill
gh api repos/anthropics/skills/contents/skills/skill-creator/SKILL.md \
--jq '.content' | base64 -d > SKILL.md
# Récupérer les répertoires de support (agents, scripts, references, etc.)
# Ou cloner le dépôt entier et copier le dossier skill-creator
La skill est accompagnée de plusieurs éléments de support :
- agents/ — Agents d'évaluation, de comparaison et d'analyse pour l'évaluation automatisée
- scripts/ — Outils Python pour le benchmarking, la génération de rapports et l'optimisation des descriptions
- eval-viewer/ — Interface de révision basée sur HTML pour examiner les résultats de tests
- references/ — Documentation des schémas pour les structures de données d'évaluation
Une fois installée, Claude Code la détecte automatiquement. Vous la verrez listée quand vous vérifierez vos skills disponibles. Pas de configuration, pas de dépendances à gérer — ça fonctionne tout simplement.
Mais l'installer est la partie facile. La vraie valeur réside dans le workflow qu'elle permet, et c'est là que les choses deviennent réellement intéressantes.
Le Workflow de Tests qui a Changé Ma Façon de Livrer des Skills
Le cycle d'évaluation du Skill Creator repose sur une prémisse simple : ne faites pas confiance à votre intuition sur le fonctionnement d'une skill. Prouvez-le.
Voici le processus que je suis maintenant pour chaque skill que je construis ou maintiens. Cela prend environ 30 minutes pour un cycle complet, et cela m'a sauvé de livrer des skills défectueuses plus de fois que je ne suis à l'aise de l'admettre.
Étape 1 : Écrivez des prompts de test réalistes.
Pas des exemples génériques simplistes. Des prompts réels. Le genre de requêtes désordonnées et chargées de contexte que les vrais utilisateurs envoient. Le Skill Creator vous pousse naturellement vers cela — il veut des prompts avec des chemins de fichiers, du contexte personnel, des noms d'entreprises, des valeurs spécifiques de colonnes. Le genre de chose que quelqu'un tape réellement à 14h un mercredi quand il a besoin que quelque chose soit fait.
{
"skill_name": "seo-audit",
"evals": [
{
"id": 1,
"prompt": "ok so my boss just sent me this site ramlit.com and wants a full SEO audit before our board meeting Thursday. Focus on technical stuff and whatever Google cares about now with the AI overview changes",
"expected_output": "Comprehensive SEO audit covering technical, content, and GEO factors"
}
]
}
Mauvais prompts de test : « Fais un audit SEO. » « Vérifie cette URL. » « Analyse la page. »
Les bons prompts de test ressemblent à quelqu'un qui a interrompu son workflow pour taper quelque chose rapidement. Abréviations, indices contextuels, signaux d'urgence. C'est ce que votre skill affronte réellement en production.
Étape 2 : Lancez des tests A/B en parallèle.
C'est là que le Skill Creator brille vraiment. Pour chaque prompt de test, il lance deux exécutions de sous-agents simultanément — une avec votre skill chargée, une sans. Même prompt, mêmes conditions, disponibilité de skill différente.
L'exécution avec skill reçoit votre SKILL.md chargé dans le contexte. L'exécution sans skill opère uniquement avec les capacités natives de Claude. Les deux sauvegardent leurs sorties dans des répertoires organisés du workspace.
Étape 3 : Évaluez les résultats pendant que les exécutions sont en cours.
Voici une bonne optimisation de workflow — pendant que les tests tournent en arrière-plan, vous rédigez vos critères d'évaluation. Quelles choses spécifiques devraient être vraies d'un bon résultat ? Le Skill Creator les appelle des « assertions », et ce sont des vérifications objectivement vérifiables.
Pour ma skill d'audit SEO, les assertions pourraient ressembler à : « Le résultat inclut une analyse des Core Web Vitals », « Le résultat mentionne l'accessibilité pour les crawlers IA », « Le résultat fournit des recommandations actionnables, pas seulement des observations. »
Étape 4 : Passez tout en revue dans le visualiseur d'évaluation.
Le Skill Creator génère une interface de révision en HTML — pas un mur de texte terminal, mais un véritable visualiseur dans le navigateur avec des onglets pour la comparaison qualitative des résultats et les benchmarks quantitatifs. Vous voyez chaque cas de test côte à côte, avec skill versus sans skill, et vous pouvez laisser des commentaires sur chacun.
C'est cette partie qui a détecté le problème de ma skill de PDF. Quand j'ai vu les résultats avec skill et sans skill l'un à côté de l'autre, la différence était... rien de significatif. La skill ajoutait 22% de tokens en plus pour des résultats à peu près équivalents.
Étape 5 : Itérez en vous basant sur des preuves, pas sur des sentiments.
Après la révision, vous renvoyez vos commentaires au Skill Creator. Il lit vos commentaires, analyse les données quantitatives et vous aide à réécrire la skill pour résoudre des problèmes spécifiques. Puis vous relancez tout le cycle.
Le cycle continue jusqu'à ce que les commentaires soient tous positifs, que vous ne fassiez plus de progrès significatif, ou que vous soyez satisfait des résultats. Pour la plupart des skills, je trouve que deux à trois itérations est le point optimal.
Les Chiffres de Benchmark qui Comptent Vraiment
Le Skill Creator génère un rapport de benchmark après chaque itération, et savoir à quels chiffres prêter attention — et lesquels ignorer — c'est la moitié de la bataille.
Voici un exemple réel du benchmarking d'une de mes skills :
| Métrique | Avec Skill | Sans Skill | Delta |
|---|---|---|---|
| Taux de Réussite des Assertions | 87.5% | 74.0% | +13.5% |
| Temps Moyen d'Achèvement | 18.2s | 23.4s | -22% plus rapide |
| Utilisation Moyenne de Tokens | 12,400 | 10,800 | +14.8% |
L'amélioration du taux de réussite est le chiffre principal. Si votre skill n'améliore pas significativement les taux de réussite de vos assertions, elle ne justifie pas son existence.
Mais regardez cette augmentation d'utilisation de tokens. Ma skill utilise 14.8% de tokens en plus. Est-ce que ça vaut une amélioration de 13.5% de la qualité du résultat ? Pour une skill que j'exécute 50 fois par semaine, probablement oui. Pour quelque chose que j'utilise une fois par mois ? Le calcul change.
Le delta du temps d'achèvement est intéressant aussi. Ma skill a en fait rendu Claude plus rapide malgré l'utilisation de plus de tokens. Cela arrive quand une skill donne à Claude une direction plus claire — moins de temps à explorer des impasses, plus de temps à exécuter la bonne approche.
L'agent analyseur va plus loin que ces agrégats. Il recherche les assertions non discriminantes (celles qui passent quelle que soit la présence de la skill — ce qui signifie qu'elles testent des capacités de base, pas la valeur ajoutée par la skill), les résultats à haute variance (possiblement des tests inconsistants) et les patterns entre cas de test que les statistiques résumées pourraient cacher.
L'Astuce d'Optimisation de Description que la Plupart Ignorent
Voici quelque chose que j'ai appris à mes dépens : vous pouvez construire une skill parfaite qui ne se déclenche jamais parce que sa description ne correspond pas à la façon dont les gens demandent réellement de l'aide.
Le Skill Creator inclut un pipeline d'optimisation de description qui fonctionne comme un mini cycle d'entraînement de machine learning. C'est réellement ingénieux.
Vous commencez par créer 20 requêtes d'évaluation — la moitié qui devrait déclencher votre skill, la moitié qui ne devrait pas. L'insight critique : les requêtes « ne devrait pas déclencher » doivent être des quasi-correspondances, pas des prompts évidemment sans rapport. Un test négatif de « écris une fonction fibonacci » pour une skill SEO ne teste rien. Un test négatif de « vérifie si mon site charge vite sur mobile » teste si votre skill SEO cède correctement la place à un outil spécifique de performance.
L'optimiseur divise vos requêtes en ensembles d'entraînement et de test, évalue la précision de déclenchement de la description actuelle, puis réécrit itérativement la description pour améliorer le score. Il exécute chaque requête plusieurs fois pour tenir compte de la variance et sélectionne la meilleure description basée sur les performances de l'ensemble de test retenu — pas les performances d'entraînement — pour éviter le surapprentissage.
Après avoir exécuté cela sur ma skill SEO, la fiabilité de déclenchement est passée d'environ 72% à 94%. La correction principale ? Ma description originale disait « utiliser pour l'analyse SEO. » La version optimisée mentionnait des symptômes spécifiques : « audit de site », « classements de recherche », « Core Web Vitals », « schema markup », « E-E-A-T. » Elle parle le langage que les utilisateurs utilisent réellement.
# Avant l'optimisation
description: Use when performing SEO analysis on websites
# Après l'optimisation
description: Use when analyzing website SEO health, checking search rankings,
auditing technical SEO (Core Web Vitals, crawlability, indexability),
reviewing schema markup, assessing E-E-A-T compliance, or optimizing
for AI search visibility. Triggers on site audits, page analysis,
and structured data validation.
Cette différence — entre comment vous pensez à votre skill et comment les utilisateurs demandent à l'utiliser — c'est là que se cachent la plupart des échecs de déclenchement.
Quand Mettre une Skill à la Retraite (La Conversation que Personne Ne Veut Avoir)
La mise à la retraite de ma skill de PDF n'était pas un cas isolé. J'ai depuis lancé des comparaisons de référence sur toutes mes skills d'amélioration de capacités, et deux autres sont sur la liste d'élimination.
Voici mon framework de retraite. Il est simple, et je l'exécute après chaque mise à jour importante du modèle :
Lancez votre suite de tests standard avec la skill désactivée. Si les résultats sans skill obtiennent un score dans les 5% des résultats avec skill sur vos assertions, la skill fonctionne par inertie. Elle ajoute de la complexité sans ajouter de la valeur.
Vérifiez votre overhead de tokens. Même une skill qui améliore marginalement les résultats pourrait ne pas valoir les tokens supplémentaires si l'amélioration est faible. Calculez le coût mensuel en tokens de la skill sur l'ensemble de votre utilisation et demandez-vous si vous paieriez ce montant pour l'amélioration que vous constatez.
Regardez les transcriptions, pas seulement les résultats. Parfois une skill fait prendre à Claude un chemin plus long et tortueux pour arriver à la même destination. Si vous voyez le modèle passer du temps sur des étapes que votre skill impose mais qui ne contribuent pas à la qualité du résultat, ces instructions sont du poids mort.
Testez avec des prompts NOUVEAUX, pas votre jeu de test original. Vos prompts de test originaux pourraient être accidentellement ajustés aux forces de la skill. Lancez cinq prompts frais et réalistes et voyez si l'avantage de la skill tient sur des cas pour lesquels elle n'a pas été optimisée.
Je sais que mettre une skill à la retraite donne l'impression d'admettre que le temps passé à la construire a été gaspillé. Ce n'est pas le cas. La skill a rempli son rôle pendant une période où le modèle avait besoin de cette guidance. Mais s'accrocher à des skills que le modèle a dépassées, c'est comme garder les petites roues après avoir appris à faire du vélo. Ça n'aide pas, et ça pourrait même vous ralentir.
Construire Votre Première Skill avec le Creator (Un Parcours Réel)
Assez de théorie. Laissez-moi vous guider à travers la construction d'une skill réelle avec le Skill Creator, de bout en bout.
J'avais récemment besoin d'une skill pour générer des rapports hebdomadaires d'ingénierie — extrayant du contexte de multiples sources, formatant de manière consistante et atteignant un ton spécifique que mon équipe attend. Skill classique d'encodage de workflow.
La phase d'interview : Le Skill Creator a commencé par demander ce que la skill devait faire, quand elle devait se déclencher et quel devait être le format de sortie. J'ai décrit la structure du rapport hebdomadaire, les sources de données (logs Git, tickets Jira, registres de déploiement) et le ton (concis, orienté métriques, sans superflu).
Le brouillon : Basé sur mes réponses, il a généré un SKILL.md avec des sections claires — modèle de sortie, instructions de collecte de données, directives de ton et règles de formatage. Le premier brouillon était correct à environ 80%. Les 20% restants étaient la partie intéressante.
Création de cas de test : Le Skill Creator a proposé trois prompts de test :
- « Génère mon rapport hebdomadaire d'ingénierie pour le standup de l'équipe demain »
- « ok faut que j'écrive ce qu'on a livré cette semaine, focus sur la migration auth »
- « rapport hebdomadaire mais cette semaine c'était surtout des corrections de bugs et de la dette technique, pas grand-chose à montrer »
Chacun aborde un scénario différent — demande standard, demande ciblée et la redoutée semaine où « rien d'impressionnant ne s'est passé ». Le troisième est crucial parce qu'il teste si la skill peut rendre une semaine calme substantielle sans fabriquer des accomplissements.
Les résultats A/B : Les résultats avec skill ont respecté le format à chaque fois. Les résultats sans skill étaient corrects mais inconsistants — parfois ils incluaient les bonnes sections, parfois ils omettaient les métriques de déploiement, une fois ils ont complètement ignoré les directives de ton et ont écrit quelque chose qui ressemblait à un communiqué de presse.
L'itération : Basé sur mon feedback que le cas de test de la « semaine calme » semblait encore trop gonflé, le Skill Creator a ajusté la skill pour aborder explicitement les semaines de faible activité : « Quand les accomplissements de la semaine sont principalement de la maintenance, des corrections de bugs ou de la dette technique, présentez-les avec un cadrage honnête. La réduction de la dette technique est précieuse — dites-le directement au lieu de gonfler du travail routinier en récits dramatiques. »
Deux itérations, environ 25 minutes au total, et j'avais une skill qui produit régulièrement des rapports que mon équipe trouve réellement utiles.
Ce que J'aurais Aimé Savoir Il y a Six Mois
Si je pouvais revenir en arrière et me donner un seul conseil sur les Claude Skills, ce ne serait pas sur l'écriture de meilleurs prompts ou l'optimisation des descriptions. Ce serait ceci : traitez les skills comme du code, pas comme de la configuration.
Le code est testé. Le code est versionné. Le code est révisé. Le code est retiré quand quelque chose de mieux arrive.
Les skills méritent la même discipline. Le Skill Creator ne fait pas seulement que faciliter la construction de skills — il rend possible de traiter le développement de skills avec la rigueur qu'il mérite. Tests A/B automatisés, benchmarks quantitatifs, optimisation de déclenchement, boucles de feedback structurées. Ce ne sont pas des luxes optionnels. Pour toute skill sur laquelle vous comptez régulièrement, c'est la différence entre un outil qui aide véritablement et une superstition que vous n'avez jamais pris la peine de vérifier.
Les ingénieurs et les équipes qui obtiennent les plus grands gains de productivité avec Claude ne sont pas ceux qui ont le plus de skills. Ce sont ceux qui savent — avec des preuves — quelles skills justifient leur existence.
Commencez par votre skill la plus utilisée. Lancez une comparaison de référence. Vous pourriez être surpris par ce que vous trouverez. Moi, je l'ai certainement été.
Et cette skill de PDF que j'ai supprimée ? J'en ai reconstruit une version plus légère qui ne gère que les cas limites spécifiques avec lesquels Claude a encore des difficultés — les mises en page de factures multi-colonnes avec des tableaux imbriqués. Elle fait un tiers de la taille originale, ne se déclenche que lorsque ces patterns spécifiques apparaissent, et améliore réellement les résultats de 31% sur son champ d'action étroit.
Parfois la meilleure skill n'est pas la plus complète. C'est celle qui sait exactement quand se manifester — et quand rester en retrait.
Travaillons Ensemble
Vous cherchez à construire des systèmes d'IA, automatiser des workflows ou faire évoluer votre infrastructure technologique ? Je serais ravi de vous aider.
- Fiverr (développements sur mesure et intégrations) : fiverr.com/s/EgxYmWD
- Portfolio : mejba.me
- Ramlit Limited (solutions entreprise) : ramlit.com
- ColorPark (design et branding) : colorpark.io
- xCyberSecurity (services de sécurité) : xcybersecurity.io