Comment j’ai automatisé le montage vidéo avec Claude Code

Pendant six mois, je me suis menti à moi-même.

Chaque fois que quelqu’un me demandait combien de temps il me fallait pour monter l’une de mes vidéos, je répondais « deux heures » d’un ton désinvolte, comme si je n’étais pas en train de me noyer. La vérité était plus proche de quatre. Parfois six. Les mauvaises semaines, je commençais à monter un enregistrement du lundi le mercredi soir, pour finir le vendredi à 1h du matin, un café froid sur le bureau et la conviction qu’il fallait que j’arrête de faire ça moi-même.

Le point de rupture n’a rien eu de spectaculaire. C’était un mardi de mars. J’avais trois enregistrements bruts en attente, une échéance client dans l’onglet d’à côté, et une vieille timeline Adobe ouverte avec 74 coupes faites dans l’après-midi. J’ai regardé la barre de progression — 23 % du premier montage — et j’ai fait le calcul. Trois vidéos. Six heures chacune. Dix-huit heures à déplacer des formes d’onde audio et à couper des mots parasites avant de pouvoir en livrer une seule.

J’ai fermé la timeline. J’ai ouvert Claude Code. Et je me suis juré de ne pas revenir en arrière.

Ce qui est sorti de cette semaine-là, c’est le workflow que je vais vous détailler. Ce n’est pas un pipeline théorique griffonné sur un tableau blanc. C’est la stack réelle que j’utilise désormais pour transformer des enregistrements bruts de 30 minutes en vidéos peaufinées, sous-titrées et habillées de musique, en moins de dix minutes de travail manuel. L’idée clé — celle qui a tout changé — c’est que Claude Code n’est pas le monteur. C’est le chef d’orchestre. Tout le reste du pipeline, ce sont des instruments, et ces instruments sont déjà excellents. Il leur manquait juste une partition.

Voici la partie inconfortable que je préfère évacuer tout de suite : ce workflow ne remplacera pas votre sens du goût. Au contraire, il le met en valeur. Les aspects du montage où le goût compte — le rythme, l’accentuation, le ton, ce moment de trois secondes qui fait décoller toute la vidéo — sont plus importants que jamais. Ce que le pipeline élimine, c’est la corvée mécanique autour de ces choix. Les clics. Le scrubbing. La fatigue auditive. La 45e fois où vous coupez manuellement un « euh » que personne ne regrettera.

Laissez-moi vous montrer comment ça fonctionne, en commençant par l’élément que personne ne m’avait dit être le plus crucial.

La Partie Que La Plupart des Gens Se Trompent d’Emblée

Lorsque les développeurs tentent pour la première fois d’automatiser le montage vidéo avec l’IA, ils utilisent presque toujours le même outil : « Je vais écrire un script Python qui utilise FFmpeg pour couper les silences et générer un best-of. » J’ai essayé. Le résultat ? Des vidéos qui semblaient montées par un robot en pleine crise d’épilepsie. Les coupes tombaient sur des consonnes. Les pauses importantes étaient supprimées. La personnalité de l’enregistrement disparaissait.

La leçon à retenir : l’automatisation au niveau audio, ce n’est pas du montage. Le montage est une tâche sémantique, pas acoustique. On ne coupe pas en fonction de la présence de silence — on coupe en fonction de la signification de ce qui a été dit. Et jusqu’à cette année, cette distinction rendait l’automatisation complète pratiquement impossible.

Ce qui a changé, c’est que nous disposons désormais d’outils opérant à trois niveaux d’abstraction différents, et Claude Code peut orchestrer les trois simultanément :

La couche sémantique — le montage basé sur le texte dans Descript, où la transcription est la timeline
La couche de précision — des transcriptions Whisper horodatées qui indiquent à la milliseconde près quand chaque mot a été prononcé
La couche de rendu — Remotion, un framework React où animations et incrustations sont du code générable de façon programmatique

La magie ne réside dans aucun de ces outils pris isolément. Elle tient au fait que Claude Code peut lire la sortie de l’un, raisonner dessus, puis l’injecter dans le suivant — tout en gardant le contexte de ce que la vidéo entière doit devenir. C’est ce que je veux dire quand j’affirme que Claude Code est le chef d’orchestre.

Mais avant d’aborder l’orchestration, il faut voir le pipeline brut, couche par couche. Car si vous ne comprenez pas ce que fait chaque outil et pourquoi, les prompts que je vous donnerai à la fin n’auront aucun sens.

Le pipeline complet, couche par couche

Je vais vous guider à travers le processus dans l’ordre exact où la vidéo circule dans le système. Sept étapes. Chacune résout un problème spécifique qui me prenait des après-midis entiers.

Étape 1 : Enregistrement brut dans Descript

Dès que j’ai terminé l’enregistrement, les fichiers MOV vont directement dans Descript. Pas dans Final Cut. Pas dans Premiere. Pas dans un dossier où ils dorment trois jours pendant que je me motive à les monter.

Descript est l’outil le plus incompris de la stack moderne des créateurs. Beaucoup pensent que c’est un « Google Docs pour la vidéo », ce qui est mignon mais très réducteur. Ce que fait réellement Descript, c’est transformer votre vidéo en un objet texte de première classe. La transcription devient la timeline. Supprimez une phrase de la transcription, et la section vidéo correspondante disparaît. Réorganisez des paragraphes, et la vidéo se réordonne d’elle-même.

La première passe que je fais dans Descript est impitoyable. Je scanne la transcription à la recherche de trois choses :

Phrases répétées — les moments où j’ai dit quelque chose, fait une pause, puis répété la phrase de façon légèrement meilleure. Je garde la deuxième prise. Je surligne, je supprime.
Digressions sans issue — les endroits où j’ai commencé à expliquer quelque chose, réalisé que ce n’était pas la bonne approche, et bifurqué. Le paragraphe entier saute.
Mauvaises prises — des passages entiers où l’énergie n’y était pas ou j’ai perdu le fil. Éliminés.

C’est la partie du montage où le goût est non négociable. Je ne veux pas que Claude Code prenne ces décisions. Je veux un cerveau humain qui lit la transcription et décide quelle version de moi sera diffusée. Cela prend environ 8 minutes pour un enregistrement brut de 30 minutes.

Avec le plan Creator de Descript, à 24 $/mois en facturation annuelle (avril 2026), vous bénéficiez de 30 heures de traitement média et 800 crédits IA — largement suffisant pour publier chaque semaine. Le forfait gratuit est limité à 60 minutes par mois, idéal pour tester le montage textuel sans engagement.

À la fin de l’étape 1, la vidéo est propre sur le plan sémantique. Chaque phrase de la transcription est une phrase que je veux vraiment dans la version finale. Mais le rythme reste étrange. Ce qui nous amène à la seconde passe.

Étape 2 : Raccourcissement des silences avec l’IA de Descript

C’est ici que l’outil justifie son prix. Descript propose une fonctionnalité appelée « Shorten Word Gaps » qui analyse l’audio et détecte chaque pause entre les mots supérieure à un seuil que je définis. Je le règle à 0,2 seconde. Tout ce qui dépasse est automatiquement resserré.

La première fois que j’ai utilisé cette fonction, j’ai failli ne pas publier le résultat, pensant que le rendu serait haché. Ce ne fut pas le cas. On aurait dit que j’avais passé vingt minutes par vidéo à peaufiner le rythme — chaque pause semblait intentionnelle. Sur un enregistrement de 30 minutes, cette seule étape retire environ 2 minutes de temps d’antenne, mais surtout, elle élève la qualité perçue d’un cran. On m’a dit que mon énergie semblait plus élevée. Elle n’avait pas changé. C’est juste que le silence entre mes mots avait été réduit de moitié.

Note au passage — j’ai testé des seuils de 0,15 à 0,35 seconde. En dessous de 0,2, l’audio devient compressé et nerveux. Au-dessus de 0,25, l’amélioration du rythme devient imperceptible. 0,2 est le point idéal pour mon débit. Le vôtre peut varier de quelques centièmes de seconde. Testez trois seuils sur le même extrait et choisissez à l’oreille — ne déléguez pas cette décision.

Il y a une option supplémentaire ici : Descript propose aussi un outil « Remove Filler Words » qui supprime automatiquement les « euh », « hum », « genre » et autres tics verbaux. Je l’utilise avec discernement. Pour les explications techniques, je le laisse tourner à plein régime. Pour les moments narratifs, je le désactive — les hésitations font partie du rythme humain, et tout supprimer donne un rendu synthétique. Question de goût.

À la fin de l’étape 2, l’audio est resserré. Ce que j’exporte de Descript est un MP4 propre — sans graphismes, sans musique, sans sous-titres. Juste l’orateur, qui parle, au rythme que je veux. Ce fichier est la couche de base sur laquelle tout le reste va s’empiler.

Étape 3 : Musique depuis Epidemic Sound

Je choisis la musique de fond sur Epidemic Sound pour une raison qui n’a rien d’esthétique : la sécurité des droits d’auteur. Chaque piste de la plateforme est licenciée pour les créateurs de contenu sur des chaînes monétisées, sans risque de réclamation. J’ai vu des amis perdre des mois de revenus publicitaires à cause d’un seul morceau non déclaré dans une intro. Ça n’en vaut jamais la peine.

Mes critères de sélection :

Instrumental uniquement (les paroles se battent avec la voix, c’est épuisant à écouter)
Tempo entre 80 et 110 BPM (assez rapide pour donner de l’énergie, assez lent pour ne pas concurrencer la voix)
Tonicité harmonique qui ne jure pas avec mon registre vocal
Durée d’au moins 90 secondes de plus que la vidéo, pour avoir de la marge sur les fondus

Je télécharge le WAV, je le place dans mon dossier projet, et je passe à la suite. Cette étape prend 90 secondes une fois que vous avez constitué votre playlist « maison » de cinq ou six morceaux à alterner.

Étape 4 : Extraction audio avec FFmpeg

C’est ici que le pipeline devient programmatique. Je dois faire deux choses : mixer la musique sous la voix, et générer une transcription parfaite avec timecodes pour l’étape d’overlay.

D’abord, j’extrais l’audio de la voix depuis l’export Descript avec FFmpeg :

ffmpeg -i descript-export.mp4 \
  -vn \
  -acodec pcm_s16le \
  -ar 16000 \
  -ac 1 \
  speaker.wav

Cela me donne un WAV mono 16 kHz, le format préféré de Whisper. Ensuite, je construis le master audio mixé — voix à 0 dB, musique atténuée à -18 dB sous la voix, avec un fondu d’entrée de 2 secondes et un fondu de sortie de 3 secondes :

ffmpeg -i speaker.wav -i music.wav \
  -filter_complex "[1:a]volume=0.13,afade=t=in:st=0:d=2,afade=t=out:st=VIDEO_END-3:d=3[music]; \
                   [0:a][music]amix=inputs=2:duration=first:dropout_transition=2[out]" \
  -map "[out]" master-audio.wav

Avant, j’écrivais ces chaînes filter_complex à la main et je les déboguais pendant vingt minutes. Maintenant, je colle les métadonnées audio et le mix souhaité dans Claude Code et je lui demande la commande. À chaque fois, c’est correct du premier coup. À chaque fois.

Étape 5 : Transcription horodatée avec Whisper

Descript m’a déjà donné une transcription, alors pourquoi en refaire une ? Parce que la transcription de Descript est faite pour l’édition humaine. Celle de Whisper est faite pour la composition machine.

Quand j’envoie speaker.wav à l’API OpenAI Whisper à 0,006 $ la minute (avril 2026), je ne reçois pas juste du texte — chaque mot est accompagné d’un timecode de début et de fin, précis à la milliseconde. Pour une vidéo de 10 minutes, l’appel API coûte 6 centimes et prend environ 40 secondes. Pour le prix d’un café, je peux transcrire plus de 500 minutes d’audio avec une précision image par image.

Voici le script Python que j’utilise — rien de sophistiqué, c’est littéralement ce qui tourne :

from openai import OpenAI
import json

client = OpenAI()

with open("speaker.wav", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        response_format="verbose_json",
        timestamp_granularities=["word"]
    )

with open("transcript.json", "w") as f:
    json.dump(transcript.model_dump(), f, indent=2)

Le paramètre timestamp_granularities=["word"] fait toute la différence. Sans lui, vous n’obtenez que des timecodes par phrase, inutiles pour des sous-titres animés. Avec, chaque mot du JSON a un champ start et end. Ce fichier devient l’entrée qui pilote chaque overlay à l’étape suivante.

Si l’optimisation des coûts vous intéresse, GPT-4o Mini Transcribe tourne à 0,003 $ la minute — moitié prix de Whisper — mais la précision des timecodes mot à mot varie. Pour mon usage (sous-titres animés où chaque mot doit s’afficher à la milliseconde près), Whisper reste la référence. Pour de la transcription de masse de podcasts, Mini suffit.

Étape 6 : Remotion pour les graphismes programmatiques

C’est ici que Claude Code cesse d’être un assistant et devient le moteur. Remotion est un framework React pour générer des vidéos en code, et la dernière version (4.0.448 début avril 2026) intègre Claude Code, ce qui rend la création de compositions aussi naturelle que le prompt d’une landing page.

Le principe Remotion : chaque frame de votre vidéo est un composant React. Les animations sont des fonctions d’interpolation du numéro de frame courant. Les overlays texte sont du JSX. Une vidéo de 60 secondes à 30 fps, c’est 1 800 rendus d’un arbre de composants, assemblés en MP4 à la fin. Ça peut sembler beaucoup d’ingénierie pour un overlay texte, mais voici ce que vous y gagnez :

Overlays de sous-titres pilotés directement par le JSON Whisper. Plus de timing manuel. Plus de keyframes à déplacer. Le mot « automatisation » apparaît à l’écran exactement quand il est prononcé, car le composant lit transcript.json et fait correspondre la frame courante aux timecodes des mots.
Graphismes cohérents avec la marque sur chaque vidéo. Mes cartouches, mon intro, mon outro CTA — tout est composant React à props. Nouvelle vidéo ? Nouvelles props. Même design system. Je ne les refais jamais.
Un vrai contrôle de version. Toute la vidéo est un repo Git. Les diffs montrent ce qui a changé. Les branches isolent les essais. Les pull requests relisent les changements visuels comme du code.

Le composant qui m’a bluffé la première fois, c’est le sous-titre animé. J’ai demandé à Claude Code de le générer en un prompt : « Crée un composant Remotion qui lit transcript.json, affiche chaque mot en overlay dans le tiers inférieur de l’écran, et met en surbrillance le mot prononcé dans la couleur de la marque. Typo : Inter, 56px, 800. Contour : 3px noir. Couleur active : #8B5CF6. »

Quarante-cinq secondes plus tard, j’avais un composant fonctionnel. Il a rendu parfaitement du premier coup. Je l’ai peaufiné depuis — meilleures courbes d’animation, ombres, pop subtil sur le changement de mot — mais la base produite par Claude Code porte toutes mes vidéos depuis.

Il y a une boucle ouverte que je veux refermer ici, car c’est ce qui a failli me faire abandonner Remotion. Le piège : la première fois que vous ouvrez un projet Remotion avec une longue vidéo et une grosse transcription, l’aperçu dans Remotion Studio saccade. Fort. Les fps chutent, la timeline rame, et vous pensez avoir tout cassé. Ce n’est pas le cas. Remotion rend l’aperçu en temps réel sur un seul thread, et dès que la composition devient complexe, ce thread ne suit plus. La solution est contre-intuitive : rendez un court segment du rendu final, regardez le MP4, puis revenez au code. Ne faites pas confiance à l’aperçu live pour juger du rythme au-delà de 60 secondes.

Étape 7 : Remotion Studio + Claude Code pour l’aperçu et le rendu final

La dernière étape se fait avec deux fenêtres ouvertes : Remotion Studio à gauche, Claude Code à droite. C’est là que la métaphore du chef d’orchestre devient littérale.

Ma boucle ressemble à ceci :

Aperçu dans Remotion Studio. Je parcours la composition. Je cherche des problèmes de timing, de graphisme, tout ce qui cloche.
Je décris la correction à Claude Code. « Le logo de la marque dans l’intro apparaît à la frame 12 mais doit tomber sur le beat à la frame 18. » « La couleur du surlignage des sous-titres est trop pâle — passe-la à #A78BFA. » « Ajoute un fondu croisé de 0,5 seconde entre la carte d’intro et le contenu principal. »
Claude Code édite le composant. Comme les compositions Remotion sont du React, chaque changement est une édition de code. Claude Code fait l’édition, Remotion Studio recharge à chaud, et je vois le résultat en quelques secondes.
Je répète jusqu’à ce que l’aperçu soit bon.
Je rends le MP4 final depuis le terminal. npx remotion render. Je m’éloigne. Je reviens 3 à 5 minutes plus tard avec une vidéo terminée.

C’est cette boucle qui change tout. C’est là que les 3 à 6 heures de montage se réduisent à quelques minutes de travail effectif. Parce qu’à partir du moment où je décris ce qui ne va pas au lieu de le manipuler à la souris, le multiplicateur s’active. Dix passes de révision en une heure, c’était une bonne après-midi. Maintenant, c’est juste l’échauffement.

Si vous préférez éviter la construction complète Claude Code + Remotion et simplement générer des vidéos par prompt, j’ai écrit un article compagnon sur les skills agents de Remotion pour Claude Code qui détaille une approche plus légère. Mais si vous publiez chaque semaine, investir dans le pipeline complet est rentabilisé dès le premier mois.

La vérification humaine finale que je refuse de zapper

Voici la leçon que j’ai apprise à la dure : une seule phrase dupliquée par inadvertance suffit à ruiner la confiance dans tout le workflow.

La première vidéo que j’ai publiée avec la chaîne automatisée complète comportait un moment où je prononçais une phrase, faisais une pause pour boire une gorgée de café, puis répétais exactement la même phrase, légèrement différemment. La transcription générée par l’IA de Descript l’a détectée au second passage, mais pas au premier — ma cadence pendant la pause a trompé le détecteur de « phrase répétée ». La vidéo finale rendue contenait donc la phrase deux fois de suite, avec un étrange jump cut d’une demi-seconde entre les deux.

Je ne l’ai remarqué que lorsqu’un spectateur m’a envoyé un message privé à ce sujet, quatre heures après la publication. Ce fut la dernière vidéo que j’ai publiée sans une ultime vérification humaine.

Désormais, chaque vidéo bénéficie d’un dernier visionnage en accéléré (1,5x), le doigt sur la barre d’espace. Je ne cherche pas les micro-corrections — tout cela est déjà géré. Je traque les défaillances spécifiques que la chaîne automatisée peut laisser passer :

Phrases répétées lorsque j’ai fait une pause entre deux prises et que le silence a masqué la duplication
Sous-titres qui écorchent un terme technique (Whisper écrit parfois « react » quand j’ai dit « React »)
Repères musicaux qui ne coïncident pas avec les transitions de sections
Tout moment où les éléments graphiques rendus ne correspondent pas à mon intention

Cette vérification prend 4 à 6 minutes pour une vidéo de 10 minutes. C’est non négociable. J’ai tenté de la sauter deux fois, et je l’ai regretté à chaque fois.

Ce qui m’a réellement surpris

Je m’attendais à ce que le principal avantage soit « moins de temps passé ». Ce que j’ai obtenu était tout autre.

La cohérence m’a bluffé. Quand chaque vidéo est produite par le même pipeline avec les mêmes composants, elles commencent à ressembler à des épisodes d’une même série, et non plus à des uploads aléatoires d’une personne fatiguée. Les abonnés l’ont remarqué avant moi. Le commentaire « tes vidéos sont vraiment soignées en ce moment » a commencé à apparaître, alors qu’en réalité, j’y passais moins de temps, pas plus.

La rapidité des révisions a changé ce que j’ose tenter. Quand une passe d’édition prend deux minutes au lieu de deux heures, on expérimente. On tente une musique inhabituelle. On ajoute la blague risquée. On avance le hook. Le coût d’un « oups, on annule » est si faible que l’ambition créative s’étend pour occuper le temps qu’on passait avant sur des tâches mécaniques.

La capacité d’orchestration de Claude Code m’a le plus surpris. Je savais qu’il pouvait écrire des composants Remotion. Je ne savais pas qu’il pouvait garder l’état entier du pipeline en mémoire — lire l’export Descript, savoir que la sortie Whisper attend, générer la commande FFmpeg, structurer la composition Remotion, et déboguer les erreurs de rendu — tout cela dans une seule session. C’est précisément ce que les « éditeurs vidéo IA » génériques ne savent pas faire. Ils avancent étape par étape. Claude Code joue toute la partition.

Et pour être honnête sur l’aspect créateur non technique : vous n’avez pas besoin de connaître React pour utiliser ce workflow. Vous devez savoir décrire ce que vous voulez. La complexité de la configuration réside dans le premier prompt, pas dans le CLI. Si vous pouvez dire à Claude Code « je veux un composant de sous-titres animés qui lit transcript.json et surligne le mot en cours en violet », vous pouvez exécuter ce pipeline sans écrire de JSX vous-même. Claude Code l’écrira. Vous l’exécuterez. Le MP4 sera généré.

Le plafond est plus haut si vous comprenez le code. Mais le plancher, lui, est plus bas que ce que la plupart des tutoriels pour développeurs veulent bien admettre.

Où je me heurte encore à des obstacles

Je veux vous donner la carte honnête, pas la version touristique.

La synchronisation musicale reste manuelle. Je n’ai pas trouvé de moyen fiable pour caler automatiquement les transitions vidéo sur les temps forts de la musique. Je fais ça à l’oreille, en ajustant les temps de départ des Sequence dans Remotion jusqu’à ce que les transitions soient naturelles. Peut-être qu’une future version de Claude Code saura lire les formes d’onde audio et suggérer des points de coupe. Pour l’instant, c’est mon oreille qui tranche.

Whisper écorche le jargon. Chaque vidéo sur Claude Code, Remotion, TypeScript ou tout terme technique de marque nécessite un passage de recherche-et-remplacement sur le JSON de transcription avant l’import dans Remotion. J’ai écrit un petit script Python avec un dictionnaire de corrections courantes, et Claude Code maintient ce dictionnaire pour moi. Mais je relis toujours les sous-titres avant le rendu.

Le temps de rendu dépend de la complexité de la composition. Une vidéo de 10 minutes avec des sous-titres simples se rend en 3 minutes sur mon MacBook Pro M2. Ajoutez des effets de particules, des courbes d’accélération complexes et du compositing multi-couches, et cette même vidéo prend 12 à 15 minutes. Ce n’est pas un défaut du workflow — c’est la physique. Mais si vous visez le rêve du « rendu en dix minutes », gardez vos effets au strict nécessaire.

L’aperçu dans Remotion Studio rame, comme je l’ai déjà mentionné. Au-delà de 60 à 90 secondes de composition, ça saccade. Travaillez par segments plus courts, rendez des aperçus en MP4, et ne faites pas confiance au scrubber temps réel pour caler le rythme sur de longues vidéos.

Le Changement Mesurable

J’utilise ce pipeline complet depuis huit semaines, à compter d’avril 2026. Voici les chiffres, issus de mes propres journaux et non de benchmarks inventés :

Temps moyen de montage manuel par vidéo : Passé d’environ 4 heures à environ 25 minutes — et la majeure partie de ces 25 minutes concerne l’étape 1 (édition impitoyable de la transcription) et l’étape 7 (vérification humaine). Les étapes intermédiaires automatisées nécessitent à peine 6 à 8 minutes d’attention active.
Rythme de publication : Je publie désormais 2 à 3 vidéos par semaine, contre 1 lors des meilleures semaines auparavant. Le goulot d’étranglement est passé du temps de montage au temps d’enregistrement, ce qui est un problème bien plus agréable à gérer.
Cohérence entre les vidéos : Chaque vidéo utilise désormais le même style de sous-titres, le même bandeau, la même carte d’intro et le même appel à l’action final. Avant, chaque vidéo présentait de légères variations visuelles parce que je recréais les éléments graphiques à la main. Cette dérive a disparu.

Je choisis délibérément de ne pas avancer de chiffres précis du type « revenus en hausse de X % », car je n’ai pas d’attribution fiable et je ne vais pas l’inventer. Ce que je peux dire, c’est que publier trois fois plus de contenu sans sacrifier la qualité a produit l’effet cumulatif attendu. La chaîne a grandi. Les demandes entrantes ont augmenté. Les études de cas pour Ramlit ont commencé à attirer des conversations avec des entreprises, car je pouvais enfin montrer le travail au lieu de simplement le décrire.

La seule chose que je me dirais il y a six mois

Commencez par la pipeline, pas par les outils.

L’erreur que j’ai commise le premier mois a été d’essayer de maîtriser Descript, puis Remotion, puis Whisper — comme si chaque outil était une compétence distincte. Le déclic est venu lorsque j’ai arrêté de les considérer comme des outils individuels et que j’ai commencé à les voir comme des étapes d’une seule et même pipeline, orchestrée par Claude Code.

Une fois que vous faites ce changement de perspective, la question n’est plus « comment apprendre Remotion ? » mais « comment décrire ce que je veux que cette étape produise, et comment cette sortie alimente-t-elle l’étape suivante ? » C’est une question à laquelle vous pouvez répondre en une après-midi, avec Claude Code de l’autre côté de la conversation, itérant avec vous jusqu’à ce que la pipeline s’enchaîne.

Il y a six mois, je traînais des clips sur une timeline à 1h du matin un vendredi, épuisé et frustré par mon propre contenu. Ce soir, j’ai écrit cet article, enregistré une vidéo de 28 minutes sur le même sujet, et au moment où vous lisez ceci, cette vidéo est déjà en ligne — traitée par la pipeline exacte que je viens de vous décrire. Temps total passé, de l’enregistrement brut à la publication du MP4 : probablement 40 minutes, dont la plupart à regarder et approuver, pas à cliquer.

Les vidéos qui me coûtaient des week-ends sont désormais celles que je publie pendant que le café est encore chaud. Les heures qui disparaissaient dans le nettoyage de la timeline sont des heures que je consacre désormais au travail qui compte vraiment — réfléchir, écrire, livrer, construire. C’est l’échange que j’ai toujours voulu. Finalement, l’outil qu’il me fallait n’était pas un meilleur éditeur. C’était un meilleur chef d’orchestre.

Si vous avez un disque dur rempli de rushs et un agenda rempli de deadlines, voici mon défi : choisissez une vidéo. Une seule. Faites-la passer de bout en bout dans cette pipeline ce week-end. Pas parfaitement — vous raterez le premier rendu, les sous-titres seront décalés, la musique se battra avec la voix. Ce n’est pas grave. Dès la deuxième vidéo, la pipeline commence à s’adapter à votre main. À la cinquième, vous vous demanderez comment vous faisiez autrement.

La timeline ne reviendra pas. Et honnêtement ? Elle ne me manque pas.

Foire Aux Questions

Dois-je connaître React pour utiliser Claude Code avec Remotion ?

Non — vous pouvez exécuter toute la chaîne sans écrire de JSX vous-même. Claude Code génère les composants Remotion à partir de descriptions en anglais simple, et Remotion Studio vous permet de prévisualiser le résultat. Connaître React augmente le niveau de personnalisation possible, mais ce n’est pas nécessaire pour publier votre première vidéo. Pour un guide détaillé sur l’association Claude Code + Remotion, consultez la section du workflow Remotion + Claude Code ci-dessus.

Combien coûte cette chaîne complète par vidéo ?

Pour une vidéo finalisée de 10 minutes, comptez environ 0,06 $ pour la transcription via l’API Whisper, une part au prorata de l’abonnement Creator de Descript à 24 $/mois, un abonnement Epidemic Sound à partir de 15 $/mois, et votre abonnement Claude Code. Pour une publication hebdomadaire, prévoyez 40 à 60 $/mois d’outils, quel que soit le nombre de vidéos produites — c’est tout l’intérêt d’une chaîne à coût fixe.

Claude Code peut-il monter des vidéos sans Remotion ?

Claude Code peut piloter FFmpeg directement pour des coupes simples, des concaténations et du mixage audio — ce qui est déjà très utile pour des montages basiques. Remotion intervient lorsque vous souhaitez des graphismes programmatiques, des sous-titres animés ou des habillages de marque qui se mettent à jour automatiquement d’une vidéo à l’autre. Pour un workflow de découpe brute sans graphismes, vous pouvez totalement vous passer de Remotion et gagner tout de même des heures par vidéo.

Quel est le principal point d’échec d’un workflow de montage vidéo automatisé ?

Les phrases répétées qui échappent au nettoyage de la transcription. L’IA de Descript pour le raccourcissement des silences et l’éditeur basé sur le texte en attrapent la plupart, mais des enregistrements avec de longues pauses café entre les prises peuvent tromper le détecteur de doublons. La solution : une vérification humaine obligatoire à vitesse 1,5x avant publication — 4 à 6 minutes de visionnage, doigt sur la barre d’espace, pour attraper les erreurs que la chaîne ne peut pas détecter.

Whisper ou GPT-4o Mini Transcribe : lequel est le meilleur pour les sous-titres ?

Whisper à 0,006 $/minute est le meilleur choix pour des sous-titres animés nécessitant une précision de synchronisation au mot près. GPT-4o Mini Transcribe à 0,003 $/minute est excellent pour la transcription en masse quand seul le texte exact compte, mais la synchronisation mot à mot varie. Pour le workflow de superposition de sous-titres Remotion en particulier, restez sur Whisper et utilisez le paramètre timestamp_granularities=["word"].

Travaillons ensemble

Vous souhaitez créer des systèmes d’IA, automatiser vos workflows ou faire évoluer votre infrastructure technologique ? Je serais ravi de vous accompagner.

Fiverr (développements et intégrations sur mesure) : fiverr.com/s/EgxYmWD
Portfolio : mejba.me
Ramlit Limited (solutions pour entreprises) : ramlit.com
ColorPark (design & branding) : colorpark.io
xCyberSecurity (services de sécurité) : xcybersecurity.io

Comment j’ai automatisé le montage vidéo avec Claude Code