Le rendu s’est terminé à 3h47 du matin. Je le sais parce que le ventilateur de mon ordinateur portable s’est arrêté si brusquement que cela m’a réveillé. Je me suis traîné jusqu’au bureau, j’ai lancé le fichier de sortie, et j’ai regardé une version de moi-même que je n’avais pas enregistrée délivrer une leçon de 9 minutes que je n’avais jamais prononcée. La synchronisation labiale était impeccable. Les gestes semblaient naturels. La voix était la mienne — sauf que ce n’était pas le cas.
Je m’étais couché à 23h30 après avoir déposé un script dans Google Drive. Pendant mon sommeil, Claude Code a découpé le script, envoyé chaque segment à 11 Labs pour la synthèse vocale, transmis l’audio à HeyGen pour animer un avatar entraîné sur 15 secondes de ma webcam, contourné une restriction de l’API HeyGen avec Playwright, puis tout assemblé dans Remotion avec du texte à l’écran. Coût total pour la vidéo finale de 10 minutes : environ 50 $. Temps de travail humain après avoir cliqué sur « lancer » : zéro.
C’est la chaîne de production vidéo IA que je teste discrètement depuis deux mois. Ce n’est pas un gadget. Elle franchit la vallée de l’étrange avec suffisamment de réalisme pour que trois personnes à qui j’ai montré le résultat m’aient demandé quand je l’avais enregistré. Et le plus intéressant, ce n’est pas l’avatar — c’est que le goulet d’étranglement de la production vidéo vient de changer. Définitivement.
Pipeline vidéo IA : HeyGen, 11 Labs et Claude Code
Depuis deux ans, chaque leçon de cours, chaque vidéo explicative, chaque tutoriel que je publiais suivait le même rituel. Installer la caméra. Régler l’éclairage. Enregistrer une prise. Bafouiller une phrase. Recommencer. Transmettre les rushs à un monteur. Attendre trois à cinq jours. Relire. Demander des modifications. Attendre encore deux jours. Publier.
Chaque vidéo finale de 10 minutes me coûtait environ 300 $ en frais de montage, plus environ quatre heures de mon temps pour le tournage et les cycles de validation. Pour un cours de 40 leçons, cela représente 12 000 $ et un mois entier avant que quelqu’un ne clique sur « s’inscrire ».
C’est ce calcul qui m’a poussé à tester sérieusement cette chaîne. Je ne cherchais pas la nouveauté. Je cherchais un moyen de livrer l’équivalent vidéo d’un cours en une semaine au lieu d’un trimestre, sans sacrifier la qualité. Ce que j’ai découvert était plus étrange et plus utile que prévu.
Avant de vous présenter la configuration, il y a une chose à préciser d’emblée : cette chaîne est conçue pour du contenu à grande échelle. Leçons de cours. Formations internes. Conversion d’articles de blog en vidéo. Elle ne remplace pas les vidéos que je tourne pour ma chaîne YouTube personnelle, et j’expliquerai exactement pourquoi dans la section « retour d’expérience ». L’outil compte moins que de savoir quand l’utiliser.
Les quatre outils et leur rôle précis
Le pipeline repose sur quatre composants. Chacun d’eux remplit une fonction spécifique, et comprendre cette division du travail fait toute la différence entre un workflow qui tient la route et un autre qui s’effondre dès qu’un maillon flanche discrètement.
HeyGen gère le visuel. Leur modèle Avatar 5 — lancé fin 2025 et continuellement amélioré jusqu’à la version de novembre 2025 — est celui qui a enfin permis aux avatars IA de franchir la vallée de l’étrange. Le modèle est entraîné sur environ 10 millions de points de données d’expressions faciales et construit un jumeau numérique à partir de seulement 15 secondes de vidéo webcam. Pour ma configuration, j’ai téléchargé environ 10 Go de vidéos existantes de moi-même, à différents niveaux d’énergie, car je voulais que l’avatar reproduise mon vocabulaire gestuel, pas seulement mon visage. Selon la page de recherche Avatar V de HeyGen, le modèle reproduit désormais les mouvements de tête caractéristiques, le rythme gestuel et les micro-expressions — ce que j’ai effectivement constaté dans les rendus. Seule contrainte : Avatar 5 est limité à des segments de 3 minutes par génération. Cette limite conditionne presque toutes les décisions architecturales en aval.
11 Labs gère la voix. J’ai alimenté leur système de clonage vocal avec environ deux heures d’audio propre — enregistrements de podcasts, voix-off de tutoriels, quelques screencasts narrés — bien au-delà des 30 minutes minimales recommandées dans leur documentation, mais dans la fourchette de plus de 2 heures qu’ElevenLabs préconise pour le clonage vocal professionnel. Les quatre curseurs importants sont la vitesse, la stabilité, la similarité et l’exagération du style. Après tests, je me suis arrêté sur une stabilité autour de 0,7 et une similarité autour de 0,8, ce qui correspond quasiment au consensus de leur communauté pour un rendu voix de présentateur. Détail moins évident : la qualité vocale se dégrade visiblement au-delà d’une minute de génération continue. Des artefacts apparaissent. Le rythme devient monotone. Chaque script est donc découpé en segments de 45 à 60 secondes avant d’être envoyé à l’API.
Claude Code est la couche d’orchestration. C’est là que tout se joue. Claude Code récupère les scripts sur Google Drive, les découpe aux frontières de phrases en segments de 45 à 60 secondes, envoie chaque segment à 11 Labs avec ma voix et les paramètres intégrés, collecte l’audio retourné, transmet chaque fichier audio à HeyGen avec l’ID avatar correspondant, surveille les rendus, télécharge les sorties et range tout dans le bon dossier pour l’étape suivante. Il gère aussi une opération plus atypique sur laquelle je reviendrai — l’automatisation d’un contournement via Playwright, car HeyGen n’a pas encore ouvert Avatar 5 à leur API publique.
Remotion gère le montage. L’audio est transcrit, les mots sont synchronisés avec le texte à l’écran, les clips sont assemblés aux frontières de phrases où ils ont été initialement découpés, et les motion graphics ainsi que les sous-titres sont ajoutés. Si vous voulez comprendre en profondeur pourquoi les vidéos-en-composants-React changent tout à la vidéo programmatique, j’ai détaillé ce point dans mon analyse de comment je crée des vidéos promotionnelles avec du code, pas des éditeurs — cet article complète parfaitement celui-ci.
Voilà la stack. Quatre outils, chacun excellent dans son domaine, avec Claude Code comme tissu conjonctif qui transforme l’ensemble en un pipeline unifié, et non en quatre SaaS isolés.
À l’intérieur du pipeline : ce qui se passe réellement entre 23h30 et 3h47
Voici le flux de bout en bout pour un seul script. Je vais le détailler depuis « Mejba dépose un fichier .md dans Drive » jusqu’à « un MP4 rendu atterrit dans mon dossier de sortie ».
Étape 1 : Ingestion du script. J’écris ou modifie un script de leçon dans un Google Doc, je le mets en forme en markdown, puis je le dépose dans un dossier Drive spécifique. Ce dossier est surveillé par un watcher Claude Code. Dès qu’un nouveau fichier apparaît, Claude le lit, normalise la mise en forme, retire les notes du présentateur et enregistre une version propre en local.
Étape 2 : Découpage sémantique. Claude Code divise le script en segments de 45 à 60 secondes. Les coupures se font aux limites de phrases, et Claude évite soigneusement de couper une idée ou un exemple en deux. Un segment qui se termine sur « …voici pourquoi » avec la suite dans le segment suivant crée un bug audible, donc le découpeur privilégie les points de pause naturels — fin de paragraphe, fin d’une étape numérotée, avant un mot de transition comme « mais » ou « donc ». Cette simple règle fait la différence entre une vidéo fluide et une vidéo qui semble assemblée à partir de fiches.
Étape 3 : Synthèse vocale par segment. Chaque segment est envoyé à 11 Labs avec ma voix clonée, stabilité 0,7, similarité 0,8, vitesse 1,0, exagération du style faible. L’audio revient au format MP3. Claude Code chronomètre chaque fichier — si un segment dépasse 60 secondes d’audio, il le signale pour un nouveau découpage. Cette boucle de détection et de réessai a déjà permis d’éviter qu’un rendu complet ne se dégrade silencieusement à mi-parcours.
Étape 4 : Rendu de l’avatar par segment. Chaque fichier audio est envoyé à HeyGen avec mon identifiant d’avatar. HeyGen génère un clip vidéo de l’avatar prononçant précisément cet audio. Comme chaque segment fait moins de 60 secondes, chaque clip reste largement sous la limite de 3 minutes de l’Avatar 5. Le temps de rendu varie, mais il faut prévoir 2 à 4 fois la durée de l’audio.
Étape 5 : Le contournement Playwright. C’est la partie qui m’a semblé un peu borderline la première fois. Au moment d’écrire ces lignes, l’API publique de HeyGen attribue par défaut les nouveaux rendus à l’Avatar 4, pas à l’Avatar 5. L’Avatar 4 est correct. L’Avatar 5 franchit la vallée de l’étrange. Claude Code pilote donc un script Playwright qui se connecte à HeyGen, ouvre chaque rendu en attente et clique pour le passer sur l’Avatar 5 avant la finalisation. C’est moche. Mais ça marche. HeyGen finira par ouvrir cette option dans son API — les notes de version de novembre 2025 annoncent déjà de gros investissements sur Avatar V — et toute cette étape disparaîtra. D’ici là, Playwright fait le pont.
Étape 6 : Assemblage Remotion. Tous les clips d’avatar sont déposés dans un dossier. Remotion les récupère dans l’ordre, effectue la transcription sur la piste audio, place les sous-titres et titres de section à la bonne seconde, ajoute des transitions entre les segments (mini crossfades de 200 ms aux limites de phrase où ont eu lieu les coupures — ils sont littéralement invisibles), puis rend le MP4 final composite.
Étape 7 : Livraison. La vidéo finale est déposée dans le dossier de sortie. Claude Code l’étiquette avec le nom du script, rédige un résumé du rendu (nombre de segments, durée totale, éventuels réessais), et — si je l’ai configuré — envoie un message Slack pour signaler que le rendu est prêt.
Sept étapes. Zéro intervention humaine entre les étapes 1 et 7. Je lance le pipeline avant d’aller me coucher, et le petit-déjeuner arrive avec une vidéo terminée.
La règle unique qui sauve toute la chaîne
Si je pouvais revenir en arrière et me donner un seul conseil avant le premier échec d’un run nocturne, ce serait celui-ci : tout le plafond de qualité de la chaîne est déterminé par la façon dont vous segmentez le script.
Ce n’est pas la qualité de l’avatar. Ce n’est pas le modèle vocal. Ce n’est pas le code d’orchestration. C’est le découpage.
Des segments qui s’arrêtent au milieu d’une idée produisent des discontinuités audibles. Des segments de plus de 60 secondes font exploser la qualité de 11 Labs. Des segments qui commencent par une conjonction (« Mais voilà le truc… ») perdent leur rythme contextuel et tombent à plat. J’ai passé tout un après-midi à affiner le prompt du découpeur avant d’obtenir un rendu nocturne cohérent. La version finale traite le découpeur comme un mini-éditeur : il doit produire des segments qui tiennent debout comme des phrases livrables, tout en s’enchaînant naturellement à la lecture.
Si vous construisez cette chaîne, prévoyez plus de temps pour le découpeur que vous ne l’imaginez. C’est ce qui fait la différence entre « ah, c’est impressionnant » et « attends, tu n’as pas filmé ça ? »
Ce que cela coûte réellement de faire tourner cette solution
Voici le calcul mensuel pour la stack que j’ai décrite, basé sur les paliers tarifaires actuels auxquels je suis abonné :
| Service | Coût | Ce que cela couvre |
|---|---|---|
| HeyGen Creator | 30 $/mois | 5 générations d’avatar limitées |
| Crédits API HeyGen | ~4 $/min de clip | Rendus d’avatar supplémentaires au-delà du forfait |
| 11 Labs Creator | 22 $/mois | Environ 100 minutes d’audio généré |
| Claude Code | 20–200 $/mois | Orchestration, selon le niveau d’utilisation |
| Remotion | Gratuit (auto-hébergé) | Le rendu s’effectue sur ma machine |
Pour une vidéo finalisée de 10 minutes, le coût marginal tourne autour de 50 $ — principalement dû au temps d’API HeyGen. À comparer aux ~300 $ que je payais à un monteur freelance par vidéo, c’est une réduction de coût par 6. Sur un cours de 40 leçons, c’est la différence entre une facture de production de 12 000 $ et une de 2 000 $.
L’économie la plus subtile, c’est le temps. Avant, je passais environ 4 heures de mon temps par vidéo pour le tournage, la relecture et les cycles de révision. Désormais, je consacre environ 20 minutes à écrire le script et lancer le processus. Si vous valorisez votre temps à 50 $/heure, cela représente 190 $ de temps récupéré par vidéo. On peut donc estimer l’économie totale à plus de 400 $ par leçon finalisée de 10 minutes, et le calcul pour un cours entier devient franchement impressionnant.
Un bémol honnête sur ces chiffres : je ne compte pas le temps de mise en place. J’ai probablement passé 15 heures à construire et affiner l’orchestrateur sur deux week-ends. Si vous voulez une solution opérationnelle de bout en bout, prévoyez cet investissement initial, peu importe la rapidité des modèles. Le pipeline est peu coûteux à faire tourner mais cher à construire — exactement la configuration idéale.
Parlons franchement : où cette pipeline échoue et où elle ne devrait pas être utilisée
Je veux être direct sur les limites ici, car il y a trop de contenu vidéo IA en ligne qui fait croire que tout cela est abouti. Ce n’est pas le cas.
Avatar 5 présente encore des artefacts d’occlusion. Lorsque je fais un geste avec la main qui passe devant mon visage, l’avatar produit parfois une légère ondulation à la limite de l’occlusion. Ce n’est pas flagrant à moins de le chercher, mais un œil averti le remarque. Pour un travail de qualité broadcast, c’est rédhibitoire. Pour du contenu de formation, c’est invisible pour les apprenants.
La solution de contournement Playwright est fragile. Tout changement dans l’interface de HeyGen casse l’automatisation, et j’ai dû réenregistrer le flux Playwright deux fois en deux mois. C’est actuellement le plus gros risque opérationnel de la stack, et ce sera le cas tant que HeyGen n’aura pas publié une API Avatar 5. Si vous construisez cette solution aujourd’hui, prévoyez que la partie Playwright nécessitera occasionnellement 30 minutes de maintenance.
Je n’utiliserai pas cela pour ma chaîne YouTube personnelle. C’est ce que la plupart des créateurs ne comprennent pas. Ma chaîne YouTube personnelle est une chaîne relationnelle — les gens viennent parce qu’ils me connaissent, pas parce qu’ils cherchent une information. Un avatar IA serait ressenti comme une trahison de ce contrat, même s’il était parfait. Le vrai modèle mental n’est donc pas « la vidéo IA remplace le tournage ». C’est « la vidéo IA permet de produire à grande échelle le contenu où la présence n’a pas d’importance, afin d’investir le temps économisé dans le contenu où la présence est essentielle ». Leçons de cours, formations internes, vidéos explicatives — pipeline. Chaîne personnelle, appels clients, keynotes — c’est toujours moi, en vrai, devant la caméra.
L’objection du “déluge de contenu IA” est surestimée. Oui, plus de gens peuvent produire plus de vidéos aujourd’hui. Et alors ? Plus de gens pouvaient publier des articles de blog quand WordPress est arrivé, et les meilleurs se sont toujours démarqués. La qualité reste la clé. Le goulot d’étranglement est passé de la production à l’idéation, et les créateurs avec les meilleures idées vont passer une très bonne année.
Les monteurs ne disparaissent pas — leur rôle se transforme. Le monteur que je payais 300 $ par vidéo peut désormais me facturer 100 $ pour contrôler et peaufiner la sortie IA, et produire cinq fois plus de vidéos par semaine. Ceux qui comprennent la nouvelle pipeline deviennent des spécialistes IA dans leur domaine. Ceux qui refusent de s’y intéresser vont avoir du mal. C’est exactement le même schéma que dans tous les autres secteurs créatifs touchés par l’automatisation avant celui-ci.
Ce qui change lorsque le goulot d’étranglement se déplace
Voici la véritable leçon à retenir, et elle dépasse largement le cadre des outils spécifiques.
Depuis vingt ans, l’économie de la production vidéo était dictée par le coût du tournage et du montage. Les idées étaient bon marché. L’exécution était coûteuse. Ce rapport explique pourquoi le contenu vidéo a longtemps été dominé par des professionnels et des chaînes bien financées — le fossé de l’exécution tenait les amateurs à l’écart.
Ce pipeline inverse ce rapport. L’exécution devient bon marché et quasi instantanée. Les idées deviennent le goulot d’étranglement. Les créateurs qui domineront le prochain cycle seront ceux capables de générer, tester et livrer dix fois plus de concepts vidéo par semaine qu’auparavant, car le coût d’une erreur de concept vient de s’effondrer. Tournez une vidéo de 10 minutes à l’ancienne, détestez le résultat, et vous venez de brûler 300 $ et une semaine. Générez-la via le pipeline, détestez le résultat, et vous n’aurez perdu que 50 $ et six heures de temps machine. La révision devient concrète. L’itération devient possible. Le volume devient une stratégie.
Si vous créez des formations, formez des équipes internes, proposez des contenus éducatifs pour développeurs ou produisez des vidéos explicatives répétables, ce pipeline vaut bien deux week-ends de mise en place. Si vous êtes un créateur dont l’audience paie pour votre présence — votre visage, votre voix, vos réactions en direct — continuez à filmer et utilisez ce pipeline pour les contenus d’accompagnement que vous ne produisiez pas de toute façon.
Foire aux questions
Ai-je besoin de compétences en codage pour construire ce pipeline ?
Vous devez être à l’aise avec Claude Code et avoir des bases en scripting pour connecter les services, mais il n’est pas nécessaire d’être un ingénieur senior. La plupart de l’orchestration repose sur des prompts, Claude générant le code d’intégration. Pour un aperçu détaillé de la façon dont Claude Code gère l’orchestration multi-outils, consultez la décomposition du pipeline ci-dessus.
De combien de données vocales ElevenLabs a-t-il réellement besoin pour un bon clonage ?
ElevenLabs recommande au moins 30 minutes d’audio propre, et plus de 2 heures pour le clonage vocal professionnel, selon leur documentation officielle. J’ai utilisé 2 heures et la qualité était nettement supérieure à celle du clone de test de 45 minutes que j’avais réalisé au départ.
HeyGen Avatar 5 est-il disponible via l’API publique ?
Pas encore en avril 2026. L’API publique de HeyGen utilise par défaut Avatar 4 pour les nouveaux rendus. Les générations Avatar 5 nécessitent actuellement le tableau de bord web, c’est pourquoi mon pipeline utilise Playwright pour automatiser le clic de mise à niveau. Attendez-vous à ce que cette solution de contournement devienne inutile lorsque HeyGen proposera l’accès à l’API Avatar 5.
Pourquoi découper les scripts en segments de 45 à 60 secondes au lieu d’envoyer le script complet d’un coup ?
Deux raisons. La qualité vocale d’ElevenLabs se dégrade au-delà d’environ 60 secondes de génération continue, avec apparition d’aplatissements et d’artéfacts. HeyGen Avatar 5 limite également les segments à 3 minutes. Découper aux limites naturelles des phrases reste dans les deux seuils et permet un assemblage plus propre dans Remotion.
Quel est le coût de production d’une vidéo IA de 10 minutes avec cette stack ?
Environ 50 $ par vidéo finale de 10 minutes, principalement pour le temps d’API HeyGen, contre environ 300 $ pour un monteur freelance. Consultez la section sur la ventilation des coûts ci-dessus pour le calcul complet, y compris les niveaux d’abonnement.
Travaillons ensemble
Vous souhaitez créer des systèmes d’IA, automatiser des workflows ou faire évoluer votre infrastructure technologique ? Je serais ravi de vous accompagner.
- Fiverr (développements sur mesure & intégrations) : fiverr.com/s/EgxYmWD
- Portfolio : mejba.me
- Ramlit Limited (solutions pour entreprises) : ramlit.com
- ColorPark (design & branding) : colorpark.io
- xCyberSecurity (services de cybersécurité) : xcybersecurity.io