De render was klaar om 3:47 uur ’s nachts. Ik weet het omdat de ventilator van mijn laptop zo hard afsloeg dat ik ervan wakker werd. Half slaperig liep ik naar mijn bureau, drukte op play bij het outputbestand, en keek naar een versie van mezelf die ik niet had opgenomen, die een les van negen minuten gaf die ik niet had uitgesproken. De lip-sync was strak. De gebaren voelden natuurlijk aan. De stem was de mijne — maar toch ook weer niet.
Ik was om 23:30 uur naar bed gegaan, nadat ik een script in Google Drive had gezet. Terwijl ik sliep, verdeelde Claude Code het script in stukken, stuurde elk stuk door 11 Labs voor stemsynthetisatie, gaf de audio door aan HeyGen om een avatar aan te sturen die getraind was op 15 seconden webcambeelden van mij, automatiseerde een beperking van de HeyGen API met Playwright, en zette alles in elkaar met Remotion inclusief tekst op het scherm. Totale kosten voor de uiteindelijke video van 10 minuten: ongeveer $50. Totale menselijke arbeid na het indrukken van “start”: nul.
Dit is de AI-videoproductie-pijplijn die ik de afgelopen twee maanden stilletjes heb getest. Het is geen speeltje. Het passeert de uncanny valley zo overtuigend dat drie mensen aan wie ik het resultaat liet zien vroegen wanneer ik het had opgenomen. En het interessante zit niet in de avatar — het is dat de bottleneck in videoproductie definitief is verschoven.
AI-videopipeline: HeyGen, 11 Labs en Claude Code
De afgelopen twee jaar vereiste elke cursusles, uitlegvideo en tutorial die ik maakte hetzelfde ritueel. Camera opzetten. Belichting goed zetten. Een take opnemen. Een zin verprutsen. Opnieuw opnemen. De beelden naar een editor sturen. Drie tot vijf dagen wachten. Reviewen. Aanpassingen aanvragen. Nog eens twee dagen wachten. Publiceren.
De output kostte me ongeveer $300 per afgewerkte video van 10 minuten aan editorkosten, plus zo’n vier uur van mijn eigen tijd voor filmen en reviewrondes. Voor een cursus van 40 lessen is dat $12.000 en een maand aan kalenderdagen voordat iemand op “inschrijven” klikt.
Die rekensom was wat me ertoe aanzette deze pijplijn serieus te testen. Ik was niet op zoek naar iets nieuws. Ik zocht een manier om in een week een hele cursus aan videocontent te leveren in plaats van in een kwartaal, zonder dat de kwaliteit keldert. Wat ik vond was vreemder en nuttiger dan ik had verwacht.
Voor ik je meeneem door de setup, is er één ding dat ik vooraf wil zeggen: deze pijplijn is gebouwd voor schaalbare content. Cursuslessen. Interne trainingen. Omgezette blog-naar-video’s. Het vervangt niet de video’s die ik maak voor mijn persoonlijke YouTube-kanaal, en ik leg straks precies uit waarom in het eerlijke gedeelte. Het gereedschap is minder belangrijk dan weten wanneer je het moet inzetten.
De Vier Tools en Wat Ze Eigenlijk Doen
De pipeline bestaat uit vier componenten. Elk van deze onderdelen heeft een specifieke taak, en het begrijpen van deze taakverdeling is het verschil tussen een workflow die daadwerkelijk oplevert en een die instort zodra een onderdeel stilletjes faalt.
HeyGen verzorgt het visuele aspect. Hun Avatar 5-model — gelanceerd eind 2025 en continu verbeterd tot en met de release van november 2025 — is wat AI-avatars eindelijk over de uncanny valley heeft getrokken. Het model is getraind op ongeveer 10 miljoen datapunten van gezichtsuitdrukkingen en bouwt een digitale dubbelganger op basis van slechts 15 seconden webcambeelden. Voor mijn setup heb ik ongeveer 10 GB aan bestaand videomateriaal van mezelf geüpload, waarin ik op verschillende energieniveaus praatte, omdat ik wilde dat de avatar niet alleen mijn gezicht, maar ook mijn gebarenrepertoire zou overnemen. Volgens HeyGen’s Avatar V research page reproduceert het model nu karakteristieke hoofdbewegingen, gebarenritme en micro-expressies — wat overeenkomt met wat ik in de output zag. Eén kanttekening: Avatar 5 is beperkt tot segmenten van maximaal 3 minuten per generatie. Die beperking bepaalt vrijwel elke architecturale keuze verderop in het proces.
11 Labs verzorgt de stem. Ik heb hun voice cloning-systeem ongeveer twee uur aan schone audio gevoed — podcastopnames, tutorial-voice-overs, een paar ingesproken screencasts — ruim boven het minimum van 30 minuten dat hun documentatie aanbeveelt, maar comfortabel binnen de 2+ uur die ElevenLabs aanraadt voor Professional Voice Cloning. De vier schuifregelaars die ertoe doen zijn snelheid, stabiliteit, gelijkenis en stijl-overdrijving. Na testen kwam ik uit op stabiliteit rond 0,7 en gelijkenis rond 0,8, wat vrijwel exact overeenkomt met wat hun community als de sweet spot voor presentatiestemmen beschouwt. Hier is het niet-voor-de-hand-liggende: de stemkwaliteit gaat merkbaar achteruit na ongeveer 1 minuut aaneengesloten generatie. Artefacten sluipen erin. Het ritme wordt vlakker. Dus elk script wordt in stukken van 45-60 seconden gehakt voordat het de API bereikt.
Claude Code is de orkestratielaag. Hier valt of staat alles. Claude Code haalt scripts uit Google Drive, splitst ze op zinsgrenzen in stukken van 45-60 seconden, stuurt elk stuk naar 11 Labs met mijn stem en ingestelde parameters, verzamelt de teruggestuurde audio, geeft elk audiobestand aan HeyGen met het bijbehorende avatar-ID, monitort de renderopdrachten, downloadt de outputs en zet alles in de juiste map voor de volgende fase. Het regelt ook iets vreemders waar ik zo op terugkom — het gebruikt Playwright om een browser-workaround te automatiseren omdat HeyGen Avatar 5 nog niet via hun publieke API aanbiedt.
Remotion verzorgt de montage. Audio wordt getranscribeerd, woorden worden gesynchroniseerd met on-screen tekst, clips worden aan elkaar gezet op de natuurlijke zinsgrenzen waar ze oorspronkelijk gesplitst zijn, en motion graphics en ondertitels worden toegevoegd. Als je de diepere techniek wilt weten van waarom video’s-als-React-componenten alles veranderen aan programmatische video, lees dan mijn uiteenzetting over hoe ik promotievideo’s bouw met code, niet met editors — dat artikel sluit goed aan bij dit stuk.
Dat is de stack. Vier tools, elk met een eigen specialisatie, met Claude Code als het verbindende weefsel dat het geheel laat functioneren als één pipeline in plaats van vier losstaande SaaS-producten.
In de pijplijn: Wat gebeurt er eigenlijk tussen 23:30 en 3:47?
Hier volgt de end-to-end flow voor één script. Ik neem je mee van "Mejba zet een .md-bestand in Drive" tot "een gerenderde MP4 verschijnt in mijn outputmap."
Stap 1: Script-inname. Ik schrijf of bewerk een les-script in een Google Doc, formatteer het in markdown en plaats het in een specifieke Drive-map. Op die map staat een Claude Code-watcher gericht. Zodra er een nieuw bestand verschijnt, leest Claude het in, normaliseert de opmaak, verwijdert presentatornotities en slaat een schone versie lokaal op.
Stap 2: Semantisch opdelen. Claude Code splitst het script in stukken van 45-60 seconden. De splitsingen gebeuren op zinsgrenzen, en Claude vermijdt bewust het breken midden in een gedachte of voorbeeld. Een chunk die eindigt op “…hierom” met de clou in het volgende stuk, veroorzaakt een hoorbare hapering, dus de splitter krijgt de instructie om natuurlijke pauzepunten te verkiezen — einde van een alinea, einde van een genummerde stap, vóór een overgangswoord als "maar" of "dus." Deze ene regel maakt het verschil tussen een video die vloeiend aanvoelt en een video die klinkt alsof hij uit cue cards is opgebouwd.
Stap 3: Stemsynthetisatie per chunk. Elke chunk gaat naar 11 Labs met mijn gekloonde stem, stabiliteit 0,7, gelijkenis 0,8, snelheid 1,0, stijl-overdrijving laag. De audio komt terug als een MP3. Claude Code meet de lengte van elk bestand — als een chunk langer dan 60 seconden audio oplevert, wordt die chunk gemarkeerd voor her-splitsing. Deze vang-en-herprobeer-lus heeft minstens één volledige render gered van ongemerkt halverwege te degraderen.
Stap 4: Avatar-rendering per chunk. Elk audiobestand gaat naar HeyGen, gekoppeld aan mijn avatar-ID. HeyGen genereert een videofragment van de avatar die exact die audio uitspreekt. Omdat elke chunk onder de 60 seconden blijft, blijft elk fragment ruim onder de 3-minutenlimiet van Avatar 5. De rendertijd varieert, maar reken op 2-4x de audiolengte.
Stap 5: De Playwright-workaround. Dit is het deel dat de eerste keer bijna illegaal aanvoelde. Op het moment van schrijven stelt de publieke API van HeyGen nieuwe renders standaard in op Avatar 4, niet Avatar 5. Avatar 4 is prima. Avatar 5 is degene die de uncanny valley overbrugt. Dus laat Claude Code een Playwright-browserscript draaien dat inlogt op HeyGen, elke openstaande render opent en doorklikt om deze te upgraden naar Avatar 5 voordat de generatie wordt afgerond. Het is lelijk. Het werkt. HeyGen zal dit uiteindelijk via hun API beschikbaar maken — de release notes van november 2025 geven al aan dat er zwaar wordt geïnvesteerd in Avatar V — en deze hele stap zal dan verdwijnen. Tot die tijd is Playwright de brug.
Stap 6: Remotion-stitching. Alle avatarclips komen in een map terecht. Remotion haalt ze in de juiste volgorde op, draait transcriptie over het audiotrack, plaatst ondertitels en sectietitels op het juiste moment in beeld, voegt overgangen toe tussen de chunks (kleine crossfades van 200 ms op de zinsgrenzen waar de splitsingen plaatsvonden — je ziet ze letterlijk niet), en rendert de uiteindelijke samengestelde MP4.
Stap 7: Oplevering. De definitieve video wordt in de outputmap geplaatst. Claude Code tagt het bestand met de scriptnaam, schrijft een samenvatting van de renderjob (aantal chunks, totale duur, eventuele herhalingen), en — als ik het heb ingesteld — stuurt een Slack-bericht dat de render klaar is.
Zeven stappen. Nul menselijke tussenkomst tussen stap 1 en 7. Ik start de pijplijn voor het slapengaan, en bij het ontbijt staat er een afgewerkte video klaar.
De Enige Regel Die de Hele Pipeline Redt
Als ik terug kon gaan en mezelf één ding kon vertellen vóór de eerste mislukte nachtrun, zou het dit zijn: het volledige kwaliteitsplafond van de pipeline wordt bepaald door hoe goed je het script opdeelt.
Niet door de kwaliteit van de avatar. Niet door het stemmodel. Niet door de orkestratiecode. Door het opdelen.
Chunks die midden in een gedachte worden afgebroken, veroorzaken hoorbare onderbrekingen. Chunks die langer dan 60 seconden duren, verpesten de kwaliteit van 11 Labs. Chunks die beginnen met een voegwoord ("Maar hier is het punt…") verliezen hun contextuele tempo en komen vlak over. Ik heb een hele middag besteed aan het afstemmen van de chunker-prompt voordat ik consistente resultaten kreeg tijdens nachtruns. De uiteindelijke versie behandelt de splitter als een mini-editor: deze moet chunks produceren die zelfstandig als leverbare zinnen kunnen staan, maar toch vloeiend in elkaar overlopen wanneer ze achter elkaar worden afgespeeld.
Als je deze pipeline bouwt, reserveer dan meer tijd voor de chunker dan je denkt. Dit is het onderdeel dat het verschil maakt tussen "huh, dat is indrukwekkend" en "wacht, je hebt dit niet gefilmd?"
Wat Kost Het Nu Echt Om Dit Te Draaien
Hier is de maandelijkse rekensom voor de stack die ik heb beschreven, gebaseerd op de huidige prijsniveaus waar ik op zit:
| Service | Kosten | Wat het dekt |
|---|---|---|
| HeyGen Creator | $30/maand | Beperkt tot 5 avatar-generaties |
| HeyGen API-credits | ~$4/minuut clip | Extra avatar-renders buiten het abonnement |
| 11 Labs Creator | $22/maand | Ongeveer 100 minuten gegenereerde audio |
| Claude Code | $20-$200/maand | Orkestratie, afhankelijk van gebruiksniveau |
| Remotion | Gratis (self-hosted) | Rendering draait op mijn eigen machine |
Voor een afgewerkte video van 10 minuten komt de marginale kostprijs uit op ongeveer $50 — vooral door HeyGen API-tijd. Ter vergelijking: ik betaalde ongeveer $300 per video aan een freelance editor, dus dat is een kostenreductie van 6x. Over een cursus van 40 lessen is dat het verschil tussen een productierekening van $12.000 en $2.000.
De subtielere besparing is tijd. Voorheen besteedde ik ongeveer 4 uur per video aan filmen, reviewen en revisierondes. Nu besteed ik ongeveer 20 minuten aan het schrijven van het script en het starten van de run. Als je je eigen tijd waardeert op $50/uur, koop je zo nog eens $190 per video terug. Reken de totale besparing op ruim $400 per afgeronde les van 10 minuten, en de rekensom voor een hele cursus wordt echt absurd.
Eén eerlijke kanttekening bij deze cijfers: ik tel de opstarttijd niet mee. Ik heb waarschijnlijk zo’n 15 uur besteed aan het bouwen en afstemmen van de orkestrator, verspreid over twee weekenden. Wil je dit end-to-end werkend krijgen, reken dan op die investering vooraf — ongeacht hoe snel de modellen worden. De pipeline is goedkoop om te draaien en duur om te bouwen, en dat is precies de verhouding die je wilt.
Eerlijk verhaal: Waar deze pipeline faalt en waar je hem niet moet gebruiken
Ik wil hier direct zijn over de beperkingen, want er is te veel AI-videocontent online die doet alsof dit allemaal af is. Dat is het niet.
Avatar 5 heeft nog steeds occlusie-artefacten. Wanneer ik met mijn hand voor mijn gezicht gebaar, produceert de avatar soms een subtiele rimpeling aan de rand van de occlusie. Het valt niet op tenzij je ernaar zoekt, maar een geoefend oog ziet het meteen. Voor werk van uitzendkwaliteit is dit een dealbreaker. Voor cursusmateriaal is het voor de meeste leerlingen onzichtbaar.
De Playwright-workaround is fragiel. Elke wijziging in de HeyGen-UI breekt de automatisering, en ik heb de Playwright-flow in twee maanden tijd al twee keer opnieuw moeten opnemen. Dit is momenteel het grootste operationele risico in de stack, en dat blijft zo totdat HeyGen een Avatar 5 API uitbrengt. Als je dit vandaag bouwt, houd er dan rekening mee dat het Playwright-gedeelte af en toe 30 minuten onderhoud nodig heeft.
Ik gebruik dit niet voor mijn persoonlijke YouTube-kanaal. Dit is wat de meeste creators over het hoofd zien. Mijn persoonlijke YouTube is een relatiekanaal — mensen komen omdat ze mij kennen, niet omdat ze informatie nodig hebben. Een AI-avatar zou voelen als verraad aan dat contract, zelfs als het er perfect uitziet. Het echte mentale model is dus niet "AI-video vervangt filmen." Het is: "AI-video maakt het mogelijk om content te schalen waar aanwezigheid niet uitmaakt, zodat je de bespaarde tijd kunt investeren in content waar aanwezigheid alles is." Cursuslessen, interne trainingen, uitlegvideo’s — pipeline. Persoonlijk kanaal, klantgesprekken, keynotes — nog steeds ik, voor de camera, echt.
De bezorgdheid over een 'AI-contentvloed' is overdreven. Ja, meer mensen kunnen nu meer video’s maken. En dan? Meer mensen konden meer blogposts maken toen WordPress uitkwam, en de goede vielen nog steeds op. Kwaliteit wint nog altijd. De bottleneck is verschoven van productie naar ideeën, en de makers met de beste ideeën gaan een heel goed jaar tegemoet.
Editors verdwijnen niet — hun rol verandert. De editor aan wie ik $300 per video betaalde, kan me nu $100 rekenen om de AI-output te controleren en te polijsten, en vijf keer zoveel video’s per week doen. Degenen die de nieuwe pipeline begrijpen, worden domeinspecialisten in AI. Degenen die weigeren ermee te werken, krijgen het moeilijk. Dit is hetzelfde patroon dat elke creatieve sector heeft geraakt waar automatisering zijn intrede deed.
Wat Verandert Er Wanneer de Bottleneck Verschuift
Hier ligt de echte les, en die gaat verder dan de specifieke tools.
De afgelopen twintig jaar werden de economische verhoudingen in videoproductie bepaald door de kosten van filmen en monteren. Ideeën waren goedkoop. Uitvoering was duur. Die verhouding verklaart waarom videocontent werd gedomineerd door professionals en goed gefinancierde kanalen — de uitvoeringsdrempel hield amateurs buiten de deur.
Deze pipeline keert die verhouding om. Uitvoering is nu goedkoop en kan ’s nachts gebeuren. Ideeën zijn de bottleneck geworden. De makers die de volgende cyclus winnen, zijn degenen die tien keer zoveel videoconcepten per week kunnen genereren, testen en publiceren als voorheen, omdat de kosten van een verkeerd concept dramatisch zijn gedaald. Film je een video van tien minuten op de oude manier, vind je hem niks, dan ben je $300 en een week kwijt. Genereer je hem via de pipeline, vind je hem niks, dan ben je $50 en zes uur machine-tijd kwijt. Revisie wordt realistisch. Iteratie wordt mogelijk. Volume wordt strategie.
Bouw je cursussen, train je interne teams, verzorg je developer-educatie of produceer je herhaalbare uitlegcontent, dan is deze pipeline de twee weekenden opzetten meer dan waard. Ben je een maker wiens publiek betaalt voor jouw aanwezigheid — jouw gezicht, jouw stem, jouw live-reacties — blijf dan filmen en gebruik deze pipeline voor de ondersteunende content die je anders toch niet zou produceren.
Veelgestelde Vragen
Heb ik programmeervaardigheden nodig om deze pipeline te bouwen?
Je moet voldoende vertrouwd zijn met Claude Code en basis scripting om de diensten aan elkaar te koppelen, maar je hoeft geen senior engineer te zijn. Het grootste deel van de orkestratie is prompt-gedreven, waarbij Claude de verbindende code schrijft. Voor een diepgaandere uitleg over hoe Claude Code multi-tool orkestratie aanpakt, zie de pipeline-analyse hierboven.
Hoeveel stemdata heeft ElevenLabs echt nodig voor een goede clone?
ElevenLabs raadt minimaal 30 minuten aan schone audio aan, en 2+ uur voor Professionele Voice Cloning, volgens hun officiële documentatie. Ik gebruikte 2 uur en de kwaliteit was aanzienlijk beter dan de 45 minuten durende testclone die ik eerst maakte.
Is HeyGen Avatar 5 beschikbaar via de publieke API?
Nog niet, per april 2026. HeyGen's publieke API rendert standaard met Avatar 4. Generaties met Avatar 5 vereisen momenteel het webdashboard, daarom gebruikt mijn pipeline Playwright om de upgrade-knop te automatiseren. Verwacht dat deze workaround overbodig wordt zodra HeyGen API-toegang voor Avatar 5 uitrolt.
Waarom scripts opdelen in stukken van 45-60 seconden in plaats van het volledige script in één keer te sturen?
Twee redenen. De stemkwaliteit van ElevenLabs neemt af na ongeveer 60 seconden continue generatie, wat leidt tot vlakheid en artefacten. HeyGen Avatar 5 heeft bovendien een limiet van 3 minuten per segment. Door op natuurlijke zinsgrenzen te chunkeren blijf je binnen beide limieten en krijg je schonere overgangen in Remotion.
Wat kost het om een AI-video van 10 minuten te produceren met deze stack?
Ongeveer $50 per voltooide video van 10 minuten, voornamelijk HeyGen API-tijd, vergeleken met circa $300 voor een freelance editor. Zie de kostenanalyse hierboven voor de volledige berekening inclusief abonnementsniveaus.
Laten We Samenwerken
Wil je AI-systemen bouwen, workflows automatiseren of je technische infrastructuur opschalen? Ik help je graag.
- Fiverr (maatwerk & integraties): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (enterprise-oplossingen): ramlit.com
- ColorPark (design & branding): colorpark.io
- xCyberSecurity (beveiligingsdiensten): xcybersecurity.io