Claude Code + Higgsfield : mon workflow de montage YouTube

Avant, je redoutais le jour du montage. Pas la coupe – la coupe que je peux faire pendant mon sommeil. La partie que je redoutais était le b-roll. Quarante minutes de séquences de têtes parlantes sur mon écran, une chronologie attendant des visuels toutes les quinze secondes, et la prise de conscience lente et déchirante que j'étais sur le point de passer les trois heures suivantes à parcourir les bibliothèques de stock à la recherche d'un plan de "mains tapant sur un ordinateur portable" qui ne ressemblait pas exactement à celui que j'avais utilisé dans les six dernières vidéos. J'ai créé un flux de travail vidéo Claude Code Higgsfield spécifiquement parce que ce jour-là dévorait mes mercredis, et la solution s'est avérée plus simple – et plus étrange – que ce à quoi je m'attendais.

Voici la punchline que je veux que vous reteniez pendant les quatre mille prochains mots : le secret n'est pas une meilleure génération d'images AI. Le secret est l'horodatage. Une fois que votre audio a une transcription horodatée, un nom de fichier devient une carte de placement. Une image nommée 00:01:34.png ne décrit pas seulement un moment : elle indique à votre éditeur exactement où sur la timeline déposer le fichier. L'ensemble du flux de travail se résume à "générer les bonnes images avec les bons noms de fichiers, faites glisser le dossier dans CapCut, partez". C'est le déverrouillage. Tout le reste est de la plomberie.

Je vais parcourir le pipeline complet que j'exécute maintenant pour chaque vidéo longue durée : Claude Code en tant qu'orchestrateur, l'ensemble de compétences Higgsfield pour la génération d'images réelle, TurboScribe pour la transcription horodatée et CapCut pour l'assemblage. Je vais vous donner l'invite principale exacte que je colle, les quatre mots de style que je parcours, le calcul du coût d'une vidéo typique de trente minutes et la manière très spécifique dont TurboScribe peut vous trahir si vous cliquez sur le mauvais bouton d'exportation. À la fin de cela, vous serez en mesure d'installer la pile ce soir et d'envoyer samedi une vidéo qui aurait dévoré tout votre week-end précédent.

Le problème du B-Roll de trois heures dont personne ne veut parler

J'ai réalisé beaucoup de vidéos YouTube. Je fais partie de ces personnes qui aiment être honnêtes sur la destination réelle des heures dans le flux de travail d'un créateur, car j'ai regardé trop de didacticiels qui replient les parties douloureuses du processus derrière une coupe fracassante en "et voici le résultat final". Voici donc la répartition réelle de mon temps sur une vidéo tête parlante de trente minutes avant que ce workflow n'existe.

Enregistrement : quarante à quatre-vingt-dix minutes, selon que j'ai bien ouvert le froid. Montage du montage parlé : environ une heure. Couleur, nettoyage audio, sous-titres : encore une heure. Chasse et placement des rouleaux B : trois à cinq heures. Itération de vignette et de titre : trente minutes. Écran de fin et téléchargements : quinze minutes.

Notez quelle catégorie est la plus longue. Ce n'est même pas proche. La ligne B-roll fait plus de dégâts à mes mercredis que tous les autres éléments de campagne combinés, et la raison est structurelle. B-roll est un problème de recherche déguisé en problème créatif. Vous savez à peu près ce que vous voulez à chaque battement – « quelque chose de visuel qui dit « calcul des coûts » ici » – mais exécuter cette décision signifie ouvrir une bibliothèque de stock, taper une requête, parcourir les aperçus, choisir un clip, le télécharger, le faire glisser, couper, puis réaliser que les couleurs ne correspondent pas au plan précédent. Multipliez par soixante coupures visuelles dans une vidéo de trente minutes et vous avez perdu l'après-midi.

La première chose que j'ai essayée était un b-roll généré par AI directement dans un éditeur. Il existe désormais des plug-ins pour cela. Ils vont bien. Ils sont également lents, coûteux par plan et déconnectés de votre transcription – vous devez toujours décider manuellement quel visuel va où, ce qui est la partie la plus longue de tout cela. Je veux être clair à ce sujet, car de nombreux pitchs "AI video b-roll" résolvent toujours la mauvaise moitié du problème. La génération n’est pas le goulot d’étranglement. La décision de placement est le goulot d'étranglement. Et le placement est résolu au moment où un horodatage devient un nom de fichier.

Cette idée est celle que je veux que vous emportiez avec vous même si vous ignorez le reste de cet article.

Pourquoi un nom de fichier horodaté change les mathématiques

Arrêtez-vous et réfléchissez à ce que fait réellement un éditeur vidéo lorsque vous déposez un dossier d'images dans un projet. CapCut, Premiere, DaVinci Resolve, tous les éditeurs modernes — ils importent les fichiers et les trient par défaut par ordre alphabétique. Les noms de fichiers commençant par 00:00:14, 00:00:31, 00:01:02, 00:01:47 se trient automatiquement par ordre chronologique. Si ces horodatages correspondent à des moments de votre audio, l'ordre de tri est également l'ordre de la chronologie. Vous n’avez pas besoin de placer quoi que ce soit manuellement. Vous faites glisser le dossier sur la chronologie, les images atterrissent en séquence et un rapide instantané vers l'audio aligne chacune d'elles avec le moment auquel elle est destinée.

L’ensemble du flux de travail vit ou meurt de ce détail. Si votre transcription comporte des horodatages et que votre générateur d'images conserve ces horodatages sous forme de noms de fichiers, vous disposez d'une carte de placement. Si l’une ou l’autre pièce se brise, vous devez décider manuellement où va chaque image – ce qui signifie que vous pourriez tout aussi bien ne pas avoir automatisé du tout la génération.

C'est exactement pourquoi TurboScribe se trouve au milieu de cette pile. TurboScribe vous donne des horodatages au niveau de la phrase dans un format que vous pouvez copier directement dans une invite. Ce n'est pas le seul outil qui fait cela - Whisper le fait, Descript le fait, et beaucoup d'autres le font - mais TurboScribe est celui auquel je reviens sans cesse car le format de sortie est le plus propre à coller dans Claude Code, et parce que le niveau gratuit résiste étonnamment bien au volume auquel la plupart des créateurs indépendants fonctionnent. Plus d’informations sur ces calculs de tarification dans quelques sections, car c’est important.

L'autre moitié de l'équation est Claude Code elle-même. L'agent est le seul élément de la pile capable d'effectuer les quatre tâches en une seule session : lire une longue transcription, décider quelle image générer à chaque horodatage, appeler Higgsfield pour la générer réellement et nommer le fichier de sortie avec l'horodatage. Aucun autre outil en préparation ne peut faire les quatre. C'est pourquoi la couche d'orchestration est aussi importante que la couche de génération.

La pile : ce que possède chaque couche

Avant la procédure d'installation, voici l'image complète afin que vous puissiez voir comment les pièces s'emboîtent. J'expliquerai chacun en détail dans les sections suivantes.

Claude Code est le cerveau. Il s'exécute localement sur mon Mac en tant qu'application de bureau, conserve la transcription dans son contexte, sélectionne un concept visuel pour chaque horodatage, crée l'invite pour Higgsfield, appelle la compétence, nomme le fichier de sortie et enregistre l'intégralité du lot dans un dossier. Si vous n'avez jamais installé Claude Code auparavant, l'application de bureau est le point d'entrée le plus simple en 2026 : connectez-vous avec votre compte Anthropic et l'agent est en direct.

Higgsfield est le générateur d'images. Higgsfield regroupe plus de trente modèles d'images et de vidéos sous un seul abonnement — Soul 2.0, Sora 2, Veo 3.1, Kling 3.0, Seedance 2.0, Nano Banana 2, Flux 2, GPT Image 2 et bien d'autres — et les expose via un ensemble de compétences Claude Code. L’ensemble des compétences est l’élément qui compte ici. Une fois installé, « générer une image » devient une commande CLI que Claude Code peut appeler en ligne. J'ai écrit sur l'installation plus large de Higgsfield CLI dans mon journal de construction Higgsfield CLI Claude Code et sur l'installation à saveur MCP dans mon panne du système d'exploitation du contenu, mais pour ce flux de travail, j'utilise spécifiquement l'ensemble de compétences.

TurboScribe est la couche de transcription. Téléchargez votre fichier audio (pas un script – votre audio réellement enregistré), attendez deux ou trois minutes et récupérez une transcription entièrement horodatée que vous pouvez copier hors du navigateur. Le niveau gratuit couvre trois fichiers par jour de trente minutes chacun. Le niveau payant est de vingt dollars par mois ou dix dollars par mois par an pour une durée et un volume illimités. J'expliquerai dans une section ci-dessous celui dont vous avez réellement besoin en fonction de votre cadence de sortie.

CapCut est l'assembly. Déposez le dossier généré sur la chronologie, les noms de fichiers trient les images par ordre chronologique, s'alignent sur la forme d'onde audio et vos visuels sont alignés sur les moments pour lesquels ils ont été générés. Les superpositions, masques, textures de papier et modes de fusion facultatifs viennent en haut.

C'est toute la pile. Quatre outils. L’un est votre cerveau. L’un est votre moteur d’image. L’une est votre couche de transcription. L'un est votre éditeur. Rien de personnalisé. Rien d'exotique. Chaque pièce est quelque chose qu'un débutant peut installer aujourd'hui.

Installation de Claude Code et de la compétence Higgsfield

Je souhaite parcourir l'installation en détail, car la plupart des articles passent sous silence la seule décision qui compte réellement : la portée de l'installation. Si vous vous trompez, vous réinstallerez la compétence dans chaque dossier de projet pour le reste de votre vie.

Première étape : Claude Code. Téléchargez l'application de bureau depuis Anthropic, connectez-vous avec votre compte Claude et confirmez que l'agent est en cours d'exécution. Si vous préférez la version CLI dans un terminal, cela fonctionne également : les deux routes accèdent au même environnement d'exécution d'agent. Les nouvelles installations en 2026 seront effectuées par défaut sur l'application de bureau, car il s'agit du point d'entrée le plus convivial, mais le système de compétences fonctionne de la même manière dans les deux cas.

Deuxième étape : un compte Higgsfield. Inscrivez-vous sur higgsfield.ai. Les forfaits 2026 de la plateforme vont d'un niveau Starter à quinze dollars à un niveau Ultra à quatre-vingt-quatre dollars par mois, avec des packs de crédits disponibles pour la génération en rafale. Pour une seule vidéo de trente minutes, vous brûlerez entre quarante et cent crédits selon le nombre de rythmes visuels que vous générez. Le plan Starter est largement suffisant pour tester le workflow de bout en bout.

Troisième étape : l'installation des compétences. C'est le moment où le flux de travail se connecte réellement. Dans n'importe quel terminal (VS Code, Cursor, Ghostty, l'application macOS Terminal, quoi que vous ayez), exécutez la commande suivante :

npx skills add higgsfield-ai/skills -a claude-code -g

Cette invocation npx skills correspond aux compétences Vercel Labs CLI. Il récupère l'ensemble de compétences officiel Higgsfield sur GitHub, le copie dans votre répertoire de compétences Claude Code et l'enregistre auprès de l'agent. L'indicateur -a claude-code lie les compétences à Claude Code comme environnement d'exécution. L'indicateur -g s'installe globalement plutôt que par projet. Choisissez mondial. L'intérêt d'une compétence créative comme celle-ci est de la rendre disponible dans n'importe quel dossier de projet dans lequel vous vous trouvez ce soir à minuit, et non enfouie dans un seul référentiel.

L'installateur posera quelques questions de suivi. La première est la question du lien symbolique. Par défaut, Vercel Labs CLI installe les compétences dans ~/.agents/skills/ et crée un lien symbolique à partir de ~/.claude/skills/ pointant vers les mêmes fichiers. Le lien symbolique est ce qui rend la compétence détectable par Claude Code sans dupliquer les fichiers sur chaque agent que vous pourriez utiliser. Dites toujours oui au lien symbolique. Si vous l'ignorez, la compétence s'installera mais Claude Code ne la trouvera pas au lancement, ce qui est exactement le genre d'erreur qui vous coûte une heure de débogage avant de réaliser que le lien symbolique est le problème.

L’autre question est de savoir quelles sous-compétences activer. Le pack Higgsfield est livré avec environ une douzaine d'entre eux : génération d'images, génération de vidéos, séance photo de produits, studio de marketing, Soul ID pour les personnages verrouillés par identité et quelques autres. Pour le flux de travail B-roll, la seule dont vous avez strictement besoin est la compétence générale de génération d’images. Je les installe tous car chacun ajoute quelques commandes CLI et le coût de stockage est insignifiant, mais si vous êtes soucieux de l'espace ou de la surcharge de compétences, seul le générateur d'images convient.

Temps d'installation total sur une machine propre : environ quatre-vingt-dix secondes, dont la plupart consistent à extraire des dépendances par npm.

Vérifier l'installation sans gaspiller de crédits

Une fois l’installation terminée, ne lancez pas immédiatement un lot de cent images. Gravez d'abord une image comme test de fumée. C'est la partie ignorée par la plupart des didacticiels et c'est l'habitude la plus ennuyeuse qui vous évitera de publier une vidéo où la moitié du rouleau B est revenue cassée.

Ouvrez Claude Code et demandez, en langage clair :

Higgsfield est-il installé et prêt ? Générez une seule image de test 16:9 – La Terre depuis l'espace, photoréaliste – et enregistrez-la dans ./test-output/.

Si l'installation est correcte, Claude Code reconnaîtra la compétence Higgsfield, acheminera l'invite vers le modèle approprié, générera l'image et l'enregistrera dans le dossier. L'ensemble du trajet aller-retour prend environ trente à quatre-vingt-dix secondes selon le modèle choisi par la compétence. Ouvrez le fichier. Confirmez qu'il ressemble réellement à la Terre vue de l'espace et non à un PNG corrompu.

Si quelque chose ne va pas, le mode de défaillance est généralement l’un des trois éléments suivants. Soit la compétence n'est pas dans le bon répertoire (vérifiez ~/.claude/skills/ et recherchez higgsfield-generate ou similaire), soit votre compte Higgsfield n'a plus de crédits (vérifiez le tableau de bord), soit la question du lien symbolique a été ignorée lors de l'installation (réexécutez le programme d'installation et dites oui cette fois). Chacun d’entre eux constitue une solution de trente secondes une fois que vous savez de laquelle il s’agit.

Pourquoi cette étape de vérification est-elle importante ? Parce que l'invite principale que vous êtes sur le point d'envoyer va demander à Claude Code de générer quarante à cent images en un seul lot. Si la compétence est mal configurée, vous ne le saurez pas à partir d’une seule image défaillante – vous le découvrirez à partir de quarante images ratées, sans aucun rapport clair indiquant quelle invite a produit quelle sortie cassée. Testez d'abord la fumée. Toujours.

L'étape TurboScribe où la plupart des gens perdent leur horodatage

C'est ici que je veux planter un drapeau d'avertissement, car j'ai vu deux amis se tirer une balle dans le pied exactement au même endroit et je ne veux pas que cela vous arrive.

Téléchargez votre audio enregistré sur TurboScribe – pas votre script écrit, votre enregistrement vocal réel. L’intérêt des horodatages est de les mapper à des moments parlés, ce qui signifie que la source doit être audio. Si vous téléchargez un script, les horodatages seront relatifs au script, ce qui ne signifie rien une fois que vous ouvrez l'éditeur. Commencez toujours par le fichier audio que vous avez exporté lorsque vous avez terminé l'enregistrement.

TurboScribe traitera le fichier en quelques minutes pour un enregistrement de trente minutes. Une fois terminé, vous verrez la transcription présentée avec des horodatages au niveau de la phrase dans la marge de gauche. Chaque segment ressemble à peu près à ceci :

[00:00:14] Bon retour sur la chaîne.
[00:00:18] Aujourd'hui, je veux parler d'une chose que j'évite depuis six mois.
[00:00:25] Laissez-moi vous montrer ce que j'ai construit la semaine dernière.

Voici la partie où les gens perdent leur horodatage sans s'en rendre compte : ne cliquez pas sur « Exporter le PDF ». L'export PDF supprime les horodatages dans certaines versions et reformate le texte dans d'autres, et vous vous retrouverez avec un mur de paragraphes non annotés inutiles pour l'étape suivante.

Ce que vous voulez, c'est la bascule "Afficher les horodatages" dans le navigateur. Cliquez dessus, sélectionnez l'intégralité de la transcription avec cmd-A, copiez-la avec cmd-C et collez-la dans un fichier texte brut ou directement dans Claude Code. L’opération de copie préserve proprement les horodatages au format crochet. Ce format correspond exactement à ce qu’attend l’invite principale.

Pendant que nous parlons spécifiquement de TurboScribe, un petit mot sur les calculs de tarification, car ils sont importants pour l'économie du flux de travail. Le niveau gratuit vous offre trois transcriptions par jour, chacune limitée à trente minutes. Si vous réalisez une vidéo longue durée par semaine, le niveau gratuit dure indéfiniment. Si vous réalisez une vidéo longue et des courts métrages et que vous souhaitez transcrire chacune d'elles, vous atteindrez probablement le plafond quotidien et aurez besoin du forfait payant. Le forfait Illimité coûte vingt dollars par mois, facturé mensuellement, ou dix dollars par mois si vous vous engagez annuellement. Dix dollars par mois pour des transcriptions horodatées illimitées, c'est vraiment bon marché compte tenu de ce que fait le reste de cette pile.

Si vous disposez d'un budget plus serré, vous pouvez remplacer Whisper par une exécution locale - il produit le même format horodaté et est gratuit - mais la surcharge de configuration est réelle et l'application Web TurboScribe est plus rapide à utiliser avec désinvolture. Je garde les deux disponibles et j'utilise TurboScribe quatre-vingt-dix pour cent du temps.

L'invite principale : le modèle prêt à copier-coller

C'est la partie du flux de travail qui m'a demandé le plus d'itérations pour réussir, je souhaite donc vous donner l'invite exacte que j'utilise maintenant comme référence de copier-coller. Vous devrez adapter le style et le concept visuel à votre propre chaîne, mais la structure est la partie qui compte.

Collez ce qui suit dans Claude Code, puis collez votre transcription TurboScribe en dessous :

Vous avez installé la skill de génération d'images Higgsfield. Je vais coller un transcript horodaté d'une vidéo que j'ai enregistrée. Pour chaque marqueur temporel du transcript, générez UNE image 16:9 qui représente visuellement le sens de ce qui a été dit à ce moment-là.

Règles :
- Ratio 16:9 pour chaque image
- Style : [MOT DE STYLE] — appliquez ce style de façon cohérente sur tout le lot
- Enregistrez chaque image dans ./broll-output/
- Nommez chaque fichier avec le timestamp du transcript, au format HH-MM-SS.png (utilisez des tirets, pas des deux-points — les deux-points cassent les noms de fichiers sur certains systèmes d'exploitation)
- Générez dans l'ordre, ne sautez aucun timestamp
- Si un moment est abstrait (mot de transition, phrase de remplissage), choisissez une métaphore visuelle — ne le sautez pas

Avant de commencer, confirmez le nombre d'images que vous allez générer et estimez les crédits Higgsfield que cela consommera. Attendez mon feu vert avant de générer.

Le transcript suit ci-dessous.

Quelques points à noter à propos de cette invite et pourquoi ils sont importants.

La règle de substitution des deux-points est importante car macOS, Windows et la plupart des fournisseurs de stockage cloud rejettent les noms de fichiers comportant des deux-points. Si vous laissez Claude Code enregistrer des fichiers sous 00:01:34.png, vous obtiendrez des erreurs énigmatiques. Les traits d'union corrigent le problème.

La ligne « confirmer avant de commencer » est importante en raison des crédits. Higgsfield facture par génération, et un lot de cinquante images correspond à cinquante événements facturables distincts. Vous souhaitez vérifier la cohérence du numéro avant de dépenser les crédits. Claude Code respecte bien ce transfert - il répondra par quelque chose comme "Je suis sur le point de générer 47 images à environ 5 à 8 crédits chacune, coût total estimé entre 235 et 376 crédits" et attendra que vous tapiez "go". Ce transfert fait la différence entre une brûlure contrôlée et une fonte accidentelle de crédit de trois heures.

L'emplacement de mots de style est l'endroit où le flux de travail devient amusant, et c'est la section suivante.

Si vous préférez que quelqu'un crée l'intégralité de ce pipeline en tant que compétence réutilisable sur votre machine au lieu de le découvrir vous-même, c'est le genre de travail d'automatisation que j'effectue dans le cadre de mes projets Fiverr : je vous remettrai la pile installée, une invite principale personnalisée adaptée à la voix de votre chaîne et une commande sur une seule ligne pour exécuter le tout.

Les quatre styles que j'utilise réellement et à quoi chacun sert

Le mot de style dans l’invite principale est le levier le plus puissant de l’ensemble du flux de travail. Changez un mot et la même transcription produit une identité visuelle totalement différente pour la vidéo. Je me suis installé dans une rotation de quatre styles après en avoir testé des dizaines, et je veux être précis sur celui que je recherche dans quelle situation.

Photo standard. C'est la valeur par défaut. Éclairage photoréaliste et épuré, moderne mais pas fantaisiste. Je l'utilise pour des vidéos de style didacticiel où le travail visuel consiste à montrer clairement le concept sans détourner l'attention de l'audio. Présentations techniques, critiques de produits, tout ce pour quoi je souhaite que le rouleau B prenne en charge le contenu parlé plutôt que de le concurrencer. La compétence Higgsfield utilise par défaut un modèle photoréaliste puissant pour ce style, et le résultat ressemble à de la photographie éditoriale plutôt qu'à l'esthétique de photo sursaturée qui hante la plupart des générateurs d'images AI génériques.

** Croquis de Da Vinci. ** Celui-ci est celui que je recherche lorsque la vidéo parle d'idées : analyse, théorie, tout ce qui bénéficie d'une sensation de "cahier du penseur". Le style Da Vinci produit des textures de papier vieilli, des lignes anatomiques, des vibrations schématiques mécaniques, l'apparence du journal de travail d'un mathématicien de la Renaissance. Il fait quelque chose d'intéressant sur YouTube en particulier : il arrête le défilement. Dans un flux rempli de vignettes brillantes et de têtes parlantes graduées en couleurs, une vidéo avec des croquis de la Renaissance aux tons sépia ressemble à une catégorie de contenu totalement différente. J'ai publié deux vidéos avec ce style et toutes deux ont largement surpassé la moyenne de ma chaîne.

Cinéma aquarelle. C'est celui que je garde pour les vidéos de narration. Essais personnels, journaux de construction, tout ce qui a un arc narratif plutôt qu'une structure de didacticiel. L'aquarelle adoucit les visuels sans perdre de détails, le préfixe cinématographique indique au modèle de composer comme un film plutôt que comme une photo d'archives, et la combinaison produit un rouleau B qui est émotionnellement chaleureux. Je n'utiliserais pas ce style pour une analyse approfondie des réseaux Kubernetes. Je l'utiliserais absolument pour une vidéo expliquant pourquoi j'ai arrêté de facturer toutes les heures.

Rendu 3D. C'est le choix du futuriste. 3D façon Octane, éclairage volumétrique doux, matériaux aux propriétés physiques réelles, révélation de l'esthétique d'un produit haut de gamme. Je l'utilise pour tout ce qui concerne les outils, l'infrastructure ou le contenu sur l'avenir du travail AI. Il signale "il s'agit d'une vidéo prospective sur la prochaine chose" avant même que l'audio ait commencé.

Voici le tour de magie permis par le système de style : une fois que vous avez généré un lot complet dans un style, vous pouvez réinviter Claude Code avec un mot de style différent et le lot entier se régénère. Mêmes horodatages. Mêmes noms de fichiers. Identité visuelle différente. La transcription est le contrat ; le style est la couche du dessus. J'ai expédié deux versions de la même vidéo sur deux plates-formes différentes – une en photo standard pour YouTube, une en croquis Da Vinci pour une sortie de style Substack – en utilisant exactement la même transcription et un changement d'un mot dans l'invite.

Il s’agit de la partie du flux de travail qui transforme un seul enregistrement en contenu multiformat sans refaire aucun travail de création.

CapCut Assembly : où le dossier devient une vidéo

Une fois que Claude Code a fini de générer le lot, vous aurez un dossier nommé broll-output/ (ou quel que soit le nom que vous lui avez donné dans l'invite principale) contenant quarante à cent fichiers PNG nommés par horodatage. Les noms de fichiers ressembleront à :

00-00-14.png
00-00-31.png
00-01-02.png
00-01-47.png
...

Ouvrez CapCut sur le bureau. Créez un nouveau projet. Déposez votre fichier audio original sur la timeline. Faites ensuite glisser l'intégralité du dossier broll-output/ dans le panneau multimédia.

C’est à ce moment-là que l’astuce de l’horodatage porte ses fruits. CapCut importe les images et les trie par ordre alphabétique par nom de fichier – ce qui, étant donné que les noms de fichiers commencent par des horodatages, est également un ordre chronologique. Sélectionnez-les tous. Faites glisser la sélection sur la piste vidéo au-dessus de votre audio. Chaque image atterrit en séquence et un rapide passage du globe oculaire sur la forme d'onde audio vous indique si les timings sont à peu près alignés.

Le travail restant est le snap-to-audio. La fonction « Snap » de CapCut aligne les bords du clip sur les pics de forme d'onde et les marqueurs de la chronologie à proximité. Activez le snap. Parcourez les premiers clips et ajustez-les légèrement s’ils ont dérivé d’une demi-seconde. Une fois que vous confirmez que le snap respecte les horodatages, le reste du lot se met généralement en place sans intervention.

Quelques mouvements facultatifs que j'ajoute par-dessus une fois l'alignement de base terminé.

Superposez la vidéo originale de la tête parlante sur une sous-piste avec une opacité de quarante à soixante pour cent, afin que le spectateur voie à la fois vous et le rouleau B. C'est le look qui est venu définir le contenu des créateurs éducatifs en 2026, et CapCut le fait proprement avec le menu déroulant Mode de fusion sur la piste supérieure.

Déposez une subtile superposition de texture de papier sur toute la vidéo avec une faible opacité pour ajouter une sensation tactile qui manque aux séquences numériques pures. La plupart des bibliothèques de ressources en stock incluent des textures de papier gratuites. La propre bibliothèque d'effets de CapCut en compte une demi-douzaine.

Appliquez une seule LUT (qualité de couleur) sur toute la piste du rouleau B pour unifier l'apparence. Les images générées dérivent parfois en température de couleur entre les prises de vue, et une LUT appliquée à l'ensemble de la pile élimine ces incohérences.

Le temps total de montage pour une vidéo de trente minutes, une fois le lot de rouleaux B prêt, est d'environ dix minutes. Comparez cela aux trois à cinq heures que je passais à rechercher et à placer manuellement des séquences d'archives. C'est le chiffre qui compte.

Le calcul du coût et du temps sur une vraie vidéo de trente minutes

Permettez-moi de vous donner les chiffres réels de la vidéo la plus récente que j'ai envoyée à l'aide de ce flux de travail, car l'argument abstrait « économiser du temps et de l'argent » n'a aucun sens sans détails.

L’enregistrement était une vidéo de trente-deux minutes sur une présentation d’outils technologiques. TurboScribe a traité l'audio en deux minutes et demie. La transcription est revenue avec soixante-trois segments horodatés, ce qui signifie soixante-trois moments b-roll à générer.

J'ai collé l'invite principale avec standard photo comme mot de style. Claude Code a confirmé qu'il était sur le point de générer soixante-trois images et a estimé entre 315 et 504 crédits Higgsfield en fonction des modèles choisis par la compétence pour chaque invite. J'ai tapé "go". La génération du lot complet a pris environ quarante-cinq minutes, principalement parce que le débit Higgsfield limite le nombre de générations simultanées qu'un compte peut exécuter.

Une fois le lot terminé, le coût réel du crédit était de 387, soit bien en deçà de l'estimation. Sur mon forfait Higgsfield de niveau Pro, ce lot ne représentait qu'une petite fraction de l'allocation mensuelle. Si j'avais bénéficié du forfait Starter à quinze dollars par mois, j'aurais utilisé environ un tiers des crédits mensuels sur cette seule vidéo, ce qui me permettrait quand même d'avoir deux vidéos supplémentaires avant de recharger.

Assemblage CapCut : onze minutes incluant la passe instantanée, la superposition de la tête parlante, la texture du papier et la LUT. Export : encore quatre minutes pour le rendu.

Temps de travail total, du « fichier audio exporté » à la « vidéo téléchargée sur YouTube » : environ trente minutes de mon temps, plus environ une heure de traitement en arrière-plan sur TurboScribe et Higgsfield que j'ai consacrée à d'autres choses. Le flux de travail manuel équivalent représentait environ cinq heures de temps d’écran ciblé.

Si vous évaluez votre temps à trente dollars de l'heure, ce flux de travail vous permet d'économiser environ cent vingt dollars d'attention par vidéo. Le coût de la pile – TurboScribe annuel à dix dollars par mois plus Higgsfield Starter à quinze – est de vingt-cinq dollars par mois tout compris. Vous atteignez le seuil de rentabilité dès la première vidéo et tout ce qui suit n'est qu'un pur effet de levier.

Je voudrais souligner une nuance à propos de ces chiffres. Ils supposent que vous savez déjà ce que vous faites avec l'invite principale et l'éditeur. La première vidéo que vous envoyez avec ce flux de travail vous prendra probablement deux fois plus de temps, car vous êtes encore en train d'apprendre la structure des invites, les bizarreries d'installation et le rythme d'assemblage de CapCut. Dans la troisième vidéo, les temps ci-dessus sont réalistes. Au dixième, vous serez probablement plus rapide que mes chiffres car vous aurez construit votre propre bibliothèque de mots de style et vos propres variations d'invites principales.

Ce que ce workflow ne remplace pas

Je veux être honnête sur les limites, car j'ai vu trop de didacticiels vanter les pipelines automatisés en les qualifiant de « fin de l'édition manuelle », ce qui n'est pas vrai et n'a jamais été le cas.

Ce flux de travail ne remplace pas les images de la tête parlante. Vous vous enregistrez toujours. Le rouleau B est la couche visuelle de support au-dessus de votre audio, et ne remplace pas l'affichage de votre visage devant la caméra. Si votre stratégie de contenu est YouTube sans visage, cette pile peut probablement gérer l'intégralité de la vidéo, mais pour le contenu dirigé par le créateur, la tête parlante ancre toujours l'attention du spectateur et le rouleau B AI est la texture au-dessus.

Ce flux de travail ne remplace pas les photos de produits. Si votre vidéo passe en revue un produit physique spécifique, vous avez besoin du produit réel devant la caméra. Higgsfield peut générer de superbes photographies de produits, mais le spectateur saura immédiatement si le produit à l'écran est le produit réel que vous avez testé ou une version générée, et les séquences de produits générées par AI dans un contexte de révision sont le moyen le plus rapide de perdre la confiance du spectateur en 2026. Enregistrez le rouleau B du produit réel séparément et intercalez-le.

Ce flux de travail ne gère pas les plans de mouvement qui nécessitent une continuité. Si vous avez besoin d'un clip d'une personne marchant de gauche à droite à travers le cadre, alors la même personne se tournant et regardant la caméra, le rouleau B généré produira deux images sans rapport qui ne semblent pas connectées. Le Soul ID de Higgsfield peut contribuer à la cohérence des personnages, mais pour les séquences d'action, de véritables séquences vidéo restent la bonne réponse.

Et enfin, ce workflow ne remplace pas le goût. Le modèle décide de ce qu'il doit générer à chaque horodatage, mais les goûts du modèle sont moyennés sur l'ensemble d'Internet. Votre goût est spécifiquement le vôtre. Le premier lot aura généralement parcouru quatre-vingts pour cent du chemin, et vous souhaiterez échanger les cinq ou six images que le modèle a mal lu ou rendues ennuyeuses. Vingt minutes de travail gustatif une fois la génération automatique terminée, c'est la différence entre une vidéo qui ressemble à la vôtre et une vidéo qui semble générique. Ne sautez pas cette passe.

Le cadrage honnête est que cette pile réduit la partie mécanique, de recherche et de placement du travail du rouleau B de trois heures à dix minutes, et vous rend ces heures pour les décisions créatives qui nécessitent réellement votre jugement. C'est un excellent métier. Ce n'est pas le même métier puisque "AI fait tout maintenant".

Le diagramme de flux de travail dans votre tête

Voici l'ensemble du pipeline compressé dans le modèle mental que je garde en tête lorsque je l'exécute un mercredi matin.

Enregistrez du son. Téléchargez sur TurboScribe. Cliquez sur "Afficher les horodatages". Sélectionnez tout, copiez. Collez dans Claude Code sous l'invite principale. Choisissez un mot de style. Confirmez l’estimation de crédit. Attendez. Déposez le dossier dans CapCut. Accrochez-vous à l'audio. Superposez la tête parlante à cinquante pour cent. Exporter.

C'est toute la vidéo. À partir du moment où l’enregistrement s’arrête jusqu’au moment où le téléchargement commence, vous avez peut-être deux heures d’horloge et trente à quarante-cinq minutes d’attention pratique. Le reste, c'est la machine qui travaille en arrière-plan pendant que vous faites autre chose.

La raison pour laquelle cela est important n’est pas le gain de temps en isolation. C’est ce que débloque le gain de temps. J'avais l'habitude d'expédier une vidéo longue durée tous les dix à quatorze jours parce que la taxe de montage constituait le plafond strict de ma production. Maintenant, j'en expédie deux à trois par semaine sans m'épuiser, car la partie qui prenait cinq heures auparavant prend trente minutes. Le déverrouillage de la fréquence est plus précieux que n'importe quelle heure individuelle économisée, car la fréquence est ce qui compose YouTube et pas le temps passé sur la tâche.

Si vous êtes un créateur qui vous dit depuis un an que vous publieriez davantage si l'édition ne gênait pas votre week-end, c'est le flux de travail qui résout cette excuse. Installez-le ce soir. Envoyez une vidéo samedi. Dis-moi sur X comment ça s'est passé.

Il y a un dernier détail sur lequel je veux vous laisser, car c'est ce qui m'a le plus surpris lorsque j'ai commencé à utiliser ce stack au volume.

Chaque image générée par Higgsfield est enregistrée de manière permanente sur votre tableau de bord sur higgsfield.ai. Cela signifie qu'une fois que vous avez créé un lot pour une vidéo, vous avez également constitué une archive de visuels de marque que vous pouvez réutiliser indéfiniment dans les vignettes, les courts métrages, les en-têtes d'articles de blog et les graphiques des réseaux sociaux. Le B-roll que vous générez aujourd’hui devient la bibliothèque visuelle dans laquelle vous puisez pour toujours. Après trois mois d'exécution de ce flux de travail, j'avais un tableau de bord avec plus de huit cents images générées, chacune étiquetée avec l'invite qui l'avait produite, chacune étant téléchargeable à nouveau à la demande. Ces archives constituent désormais leur propre actif, distinct des vidéos pour lesquelles elles ont été générées, et sans doute plus précieux à long terme.

L'astuce de l'horodatage est le déverrouillage. Les archives visuelles sont le bonus. Les trente heures par mois que vous récupérez sont le point important.

Questions fréquemment posées

Comment automatiser le b-roll YouTube avec Claude Code et Higgsfield ?

Installez l'ensemble de compétences Higgsfield dans Claude Code avec npx skills add higgsfield-ai/skills -a claude-code -g, transcrivez votre audio dans TurboScribe avec les horodatages activés, collez la transcription dans une invite principale qui demande à Claude Code de générer une image 16:9 par horodatage et déposez le dossier résultant dans CapCut où les noms de fichiers sont automatiquement triés par ordre chronologique. Pour le modèle d'invite principale complet, consultez la section ci-dessus intitulée L'invite principale.

Pourquoi utiliser TurboScribe au lieu d'un script pour l'étape de transcription ?

La transcription doit provenir de votre audio enregistré réel, et non de votre script écrit, car les horodatages doivent correspondre aux moments parlés. Une transcription basée sur un script n'a pas d'horodatage réel, seulement l'ordre des mots. TurboScribe traite l'audio en texte avec des horodatages au niveau de la phrase en deux ou trois minutes pour un fichier de trente minutes.

L'offre gratuite de TurboScribe fonctionne-t-elle pour les créateurs de YouTube ?

Le niveau gratuit couvre trois transcriptions par jour de trente minutes chacune, ce qui est suffisant pour une vidéo longue durée plus une ou deux courtes par jour. Si vous publiez un long métrage ainsi que plusieurs courts métrages et que vous souhaitez transcrire chacun séparément, le forfait illimité à dix dollars par mois par an est la mise à niveau la moins chère.

Puis-je changer le style visuel de toutes les images b-roll en même temps ?

Oui. Réexécutez l'invite principale avec un mot de style différent : "Croquis Da Vinci", "Cinéma aquarelle", "Rendu 3D" ou toute description de style personnalisée. La transcription reste la même, les horodatages restent les mêmes et Claude Code régénère l'intégralité du lot dans le nouveau style. Cela vous permet de diffuser la même vidéo avec différentes identités visuelles pour différentes plates-formes.

Combien coûte le flux de travail vidéo complet Claude Code Higgsfield par mois ?

Une configuration de niveau créateur coûte environ vingt-cinq dollars par mois tout compris : Higgsfield Starter à quinze dollars par mois plus TurboScribe Unlimited à dix dollars par mois par an. Claude Code nécessite un abonnement Anthropic, que vous possédez probablement déjà pour d'autres travaux. Une seule vidéo de trente minutes brûle environ trois cents à quatre cents crédits Higgsfield en fonction du nombre de moments b-roll.

Travaillons ensemble

Vous cherchez à créer des systèmes AI, à automatiser les flux de travail ou à faire évoluer votre infrastructure technologique ? J'aimerais aider.

Fiverr (versions et intégrations personnalisées) : fiverr.com/s/EgxYmWD
Portefeuille : mejba.me
Ramlit Limited (solutions d'entreprise) : ramlit.com
ColorPark (conception et image de marque) : colorpark.io
xCyberSecurity (services de sécurité) : xcybersecurity.io

Claude Code + Higgsfield : mon workflow de montage YouTube