Zo automatiseerde ik videobewerking met Claude Code
Zes maanden lang hield ik mezelf voor de gek.
Elke keer als iemand vroeg hoe lang het duurde om een van mijn video's te monteren, zei ik nonchalant "een paar uurtjes", alsof ik niet op dat moment aan het verzuipen was. De waarheid lag dichter bij vier uur. Soms zes. In slechte weken begon ik op woensdagavond aan de montage van een opname van maandag, en was ik pas klaar op vrijdag om 1 uur 's nachts, met koude koffie op mijn bureau en de overtuiging dat ik hiermee moest stoppen.
Het breekpunt was niet dramatisch. Het was een dinsdag in maart. Ik had drie ruwe opnames opgestapeld, een klantdeadline in het volgende tabblad, en een oude Adobe-tijdlijn open met 74 knipjes die ik die middag had gemaakt. Ik keek naar de voortgangsbalk — 23% van de eerste video — en deed het rekensommetje. Drie video's. Zes uur per stuk. Achttien uur aan audiogolven slepen en stopwoordjes knippen voordat ik er één kon afleveren.
Ik sloot de tijdlijn. Ik opende Claude Code. En ik beloofde mezelf dat ik niet meer terug zou gaan.
Wat er die week uitkwam, is de workflow die ik je nu ga laten zien. Dit is geen theoretische pipeline die ik op een whiteboard heb geschetst. Het is de daadwerkelijke stack die ik nu gebruik om ruwe opnames van 30 minuten om te zetten naar gepolijste, ondertitelde, met muziek verrijkte video's — in minder dan tien minuten hands-on tijd. Het belangrijkste inzicht — het inzicht dat alles veranderde — is dat Claude Code niet de editor is. Het is de dirigent. Alles in de pipeline is een instrument, en die instrumenten zijn al uitstekend. Ze hadden alleen iemand nodig die ze de bladmuziek aanreikte.
Hier is het ongemakkelijke deel dat ik meteen uit de weg wil ruimen: deze workflow vervangt je smaak niet. Sterker nog, het vergroot die juist. De onderdelen van montage waar smaak telt — tempo, nadruk, toon, dat ene 3-secondenmoment waardoor de hele video werkt — zijn nu belangrijker dan ooit. Wat de pipeline wegneemt, is het mechanische geploeter rondom die beslissingen. Het klikken. Het scrubben. De oorsuizen. De 45e keer dat je handmatig een "uhm" knipt die niemand zal missen.
Laat me je laten zien hoe het werkt, te beginnen met het onderdeel waarvan niemand me vertelde dat het het belangrijkst was.
Het Deel Waar De Meesten Eerst De Mist In Gaan
Wanneer ontwikkelaars voor het eerst proberen videobewerking te automatiseren met AI, grijpen ze bijna altijd naar dezelfde hamer: "Ik schrijf een Python-script dat FFmpeg gebruikt om stiltes te knippen en een highlight-reel te genereren." Dat heb ik ook geprobeerd. Het leverde video's op die aanvoelden alsof ze waren gemaakt door een robot met een aanval. Cuts vielen midden in medeklinkers. Pauzes die ertoe deden werden weggeknipt. De persoonlijkheid van de opname verdampte.
De les: automatisering op audioniveau is geen bewerken. Bewerken is een semantische taak, geen akoestische. Je knipt niet op basis van de aanwezigheid van stilte — je knipt op basis van de betekenis van wat er gezegd is. En tot dit jaar maakte dat onderscheid volledige automatisering in feite onmogelijk.
Wat er veranderd is, is dat we nu tools hebben op drie verschillende abstractieniveaus, en Claude Code kan ze alle drie tegelijk aansturen:
- De semantische laag — tekstgebaseerd editen in Descript, waar het transcript de tijdlijn is
- De precisielaag — getimede Whisper-transcripten die tot op de milliseconde aangeven wanneer elk woord werd uitgesproken
- De renderlaag — Remotion, een React-framework waarbij animaties en overlays code zijn die je programmatisch kunt genereren
De magie zit niet in één van die tools afzonderlijk. Het zit in het feit dat Claude Code de output van de ene tool kan lezen, erover kan redeneren, en het kan doorgeven aan de volgende — met de context van wat de hele video uiteindelijk moet worden. Dat bedoel ik als ik zeg dat Claude Code de dirigent is.
Maar voordat we bij de orkestratie komen, moet je de ruwe pipeline laag voor laag zien. Want als je niet begrijpt wat elke tool doet en waarom, zullen de prompts die ik je aan het einde geef geen betekenis hebben.
De Volledige Pipeline, Laag voor Laag
Ik neem je mee door het proces in dezelfde volgorde als waarin de video daadwerkelijk door het systeem beweegt. Zeven fasen. Elke fase lost een specifiek probleem op dat vroeger mijn middagen opslokte.
Fase 1: Ruwe Opname in Descript
Zodra ik klaar ben met opnemen, gaan de MOV-bestanden direct naar Descript. Niet naar Final Cut. Niet naar Premiere. Niet naar een map waar ze drie dagen blijven liggen terwijl ik mezelf moed in praat om te gaan editen.
Descript is het meest verkeerd begrepen gereedschap in de moderne creator stack. Mensen denken dat het "Google Docs voor video" is, wat schattig is maar het tekortdoet. Wat Descript werkelijk doet, is je video omzetten in een volwaardig tekstobject. Het transcript wordt de tijdlijn. Verwijder een zin uit het transcript, en het bijbehorende videofragment verdwijnt. Herschik paragrafen, en de video ordent zichzelf opnieuw.
De eerste bewerking in Descript is meedogenloos. Ik scan het transcript op drie dingen:
- Herhaalde zinnen — de momenten waarop ik iets zei, pauzeerde, en het daarna net iets beter opnieuw zei. Ik bewaar de tweede poging. Selecteren, verwijderen.
- Doodlopende zijsporen — plekken waar ik iets begon uit te leggen, besefte dat het de verkeerde invalshoek was, en van koers veranderde. Hele paragraaf eruit.
- Slechte takes — volledige stukken waar de energie weg was of ik mijn plek kwijt was. Weg ermee.
Dit is het deel van editen waar smaak niet onderhandelbaar is. Ik wil niet dat Claude Code deze keuzes maakt. Ik wil een menselijk brein dat het transcript leest en beslist welke versie van mij de uiteindelijke wordt. Dit kost ongeveer 8 minuten bij een ruwe opname van 30 minuten.
Met het Descript Creator-abonnement, dat $24/maand kost bij jaarlijkse betaling (april 2026), krijg je 30 uur mediaverwerking en 800 AI-credits — ruim voldoende voor een wekelijkse publicatiecyclus. De gratis versie is beperkt tot 60 minuten per maand, ideaal om tekstgebaseerd editen uit te proberen zonder verplichtingen.
Aan het einde van Fase 1 is de video semantisch schoon. Elke zin in het transcript is een zin die ik daadwerkelijk in de eindmontage wil. Maar het ademt nog vreemd. Dat brengt ons bij de tweede bewerking.
Fase 2: Descript's AI Gap Shortening
Hier verdient de tool zijn prijskaartje. Descript heeft een functie genaamd "Shorten Word Gaps" die het audiobestand scant en elke pauze tussen woorden detecteert die langer is dan een door mij ingestelde drempel. Ik zet hem op 0,2 seconden. Alles langer wordt automatisch ingekort.
De eerste keer dat ik dit draaide, twijfelde ik of ik het resultaat wel moest publiceren omdat ik dacht dat het hakkelend zou klinken. Dat was niet zo. Het klonk alsof ik twintig minuten per video had besteed aan het zorgvuldig afstemmen van het tempo — alsof elke pauze bewust was. Bij een opname van 30 minuten scheelt dit alleen al zo’n 2 minuten aan zendtijd, maar belangrijker: het verhoogt de waargenomen productiekwaliteit met ongeveer een hele klasse. Mensen zeiden dat mijn energie hoger klonk. Mijn energie was niet veranderd. De stilte tussen mijn woorden was gewoon gehalveerd.
Terzijde — ik heb drempels getest van 0,15 tot 0,35 seconden. Onder 0,2 klinkt het audio gecomprimeerd en nerveus. Boven 0,25 is het tempoverbetering niet meer merkbaar. 0,2 is de sweet spot voor mijn spreektempo. Die van jou kan een paar honderdsten verschillen. Probeer drie drempels op dezelfde clip en kies op gehoor — besteed deze keuze niet uit.
Er is hier een optionele zijstap: Descript heeft ook een "Remove Filler Words"-tool die "eh", "uh", "like" en soortgelijke stopwoorden automatisch verwijdert. Ik gebruik hem selectief. Bij technische uitleg laat ik hem volledig draaien. Bij storytelling zet ik hem uit — stopwoorden horen bij het menselijke ritme, en alles verwijderen laat je klinken als een TTS-engine. Smaakzaak.
Aan het einde van Fase 2 is het audio strak. Wat ik exporteer uit Descript is een enkele schone MP4 — geen graphics, geen muziek, geen ondertitels. Alleen de spreker, pratend, op het tempo dat ik wil. Dit bestand is de basislaag waarop alles verder wordt gestapeld.
Fase 3: Muziek van Epidemic Sound
Ik haal achtergrondmuziek van Epidemic Sound om één reden die niets met esthetiek te maken heeft: copyright-veiligheid. Elke track op het platform is gelicentieerd voor content creators om te gebruiken op gemonetiseerde kanalen zonder claimgeschillen. Ik heb vrienden maanden aan advertentie-inkomsten zien verliezen door één niet-gelicentieerde track in een intro. Nooit waard. Echt nooit.
Mijn selectiecriteria:
- Alleen instrumentaal (zang concurreert met spraak op een vermoeiende manier)
- Tempo tussen 80-110 BPM (snel genoeg voor energie, langzaam genoeg om niet te concurreren)
- Harmonische toonsoort die niet botst met mijn spreekregister
- Duur minstens 90 seconden langer dan de video, zodat ik ruimte heb voor een fade
Ik download de WAV, zet hem in mijn projectmap, en ga verder. Deze fase duurt hooguit 90 seconden als je eenmaal je eigen "go-to" playlist van vijf à zes tracks hebt opgebouwd.
Fase 4: FFmpeg Audio Extractie
Nu wordt de pipeline programmatisch. Ik moet twee dingen doen: de muziek onder het spraakaudio mixen, en een perfecte transcriptie met tijdstempels genereren voor de overlay-fase.
Eerst extraheer ik het spraakaudio uit de Descript-export met FFmpeg:
ffmpeg -i descript-export.mp4 \
-vn \
-acodec pcm_s16le \
-ar 16000 \
-ac 1 \
speaker.wav
Dit levert een mono 16kHz WAV op, het favoriete inputformaat van Whisper. Vervolgens bouw ik de gemixte master audio — spreker op 0 dB, muziek onderdrukt tot -18 dB onder de spreker, met een fade-in van 2 seconden en fade-out van 3 seconden:
ffmpeg -i speaker.wav -i music.wav \
-filter_complex "[1:a]volume=0.13,afade=t=in:st=0:d=2,afade=t=out:st=VIDEO_END-3:d=3[music]; \
[0:a][music]amix=inputs=2:duration=first:dropout_transition=2[out]" \
-map "[out]" master-audio.wav
Vroeger schreef ik deze filter_complex-chains handmatig en was ik twintig minuten aan het debuggen. Nu plak ik de audio-metadata en de gewenste mix in Claude Code en vraag ik om het commando te genereren. Elke keer klopt het direct. Elke keer.
Fase 5: Whisper Voor Transcriptie met Tijdstempels
Descript heeft me al een transcript gegeven, dus waarom heb ik er nog een nodig? Omdat het transcript van Descript bedoeld is voor menselijke bewerking. Het transcript van Whisper is bedoeld voor machine-compositie.
Als ik speaker.wav naar de OpenAI Whisper API stuur voor $0,006 per minuut (april 2026), krijg ik niet alleen tekst terug — maar elk woord met een start- en eindtijd tot op de milliseconde nauwkeurig. Voor een video van 10 minuten kost de API-call 6 cent en duurt het ongeveer 40 seconden. Voor de prijs van één Starbucks latte kan ik ruim 500 minuten audio transcriberen met frame-nauwkeurige timing.
Hier is de Python die ik gebruik — niets bijzonders, dit draait letterlijk zo:
from openai import OpenAI
import json
client = OpenAI()
with open("speaker.wav", "rb") as audio_file:
transcript = client.audio.transcriptions.create(
model="whisper-1",
file=audio_file,
response_format="verbose_json",
timestamp_granularities=["word"]
)
with open("transcript.json", "w") as f:
json.dump(transcript.model_dump(), f, indent=2)
De parameter timestamp_granularities=["word"] is allesbepalend. Zonder krijg je tijdstempels op zinsniveau, wat waardeloos is voor geanimeerde ondertitels. Met deze parameter krijg je een JSON-object waarin elk woord een start en end veld heeft. Dit bestand wordt de input die elke overlay in de volgende fase aanstuurt.
Als je op kosten wilt optimaliseren: GPT-4o Mini Transcribe draait op $0,003 per minuut — de helft van Whisper — maar de precisie van tijdstempels op woordniveau varieert. Voor mijn use case (geanimeerde ondertitels waarbij elk woord exact op het juiste milliseconde moet oplichten) is Whisper nog steeds de juiste keuze. Voor bulktranscriptie van podcasts is Mini prima.
Fase 6: Remotion Voor Programmatische Graphics
Hier verandert Claude Code van assistent in motor. Remotion is een React-gebaseerd framework om video’s als code te renderen, en de nieuwste release (momenteel versie 4.0.448, begin april 2026) heeft een Claude Code-integratie waardoor het samenstellen van een video aanvoelt als het prompten van een landingspagina.
Hoe Remotion werkt: elk frame van je video is een React-component. Animaties zijn interpolatiefuncties van het huidige framenummer. Tekstoverlays zijn JSX. Een video van 60 seconden op 30 fps is gewoon 1.800 renders van een component tree, aan het eind samengevoegd tot een MP4. Klinkt als veel engineering voor een tekstoverlay, en dat is het — maar dit krijg je ervoor terug:
- Ondertitel-overlays direct aangestuurd door de Whisper JSON. Geen handmatige timing. Geen keyframes slepen. Het woord "automatisering" verschijnt exact op het scherm wanneer het wordt uitgesproken, omdat de component
transcript.jsonleest en het huidige frame vergelijkt met de woord-tijdstempels. - Consistente branding in elke video. Mijn lower-thirds, introkaart, outro-CTA — allemaal React-componenten die props accepteren. Andere video? Andere props. Zelfde design system. Ik hoef ze nooit opnieuw te maken.
- Versiebeheer dat echt werkt. De hele video is een Git-repo. Diffs tonen wat er is veranderd. Branches isoleren experimenten. Pull requests reviewen visuele wijzigingen net als codewijzigingen.
De component die me de eerste keer omver blies was de geanimeerde ondertitel. Ik vroeg Claude Code om hem te bouwen met één prompt: "Bouw een Remotion-component die transcript.json leest, elk woord als overlay onderin het scherm toont, en het huidige woord in de merk-kleur highlight. Typografie: Inter, 56px, 800 gewicht. Omtrek: 3px zwart. Huidige woordkleur: #8B5CF6."
Vijfenveertig seconden later had ik een werkende component. Hij renderde direct perfect. Ik heb hem sindsdien verfijnd — betere easing curves, schaduw-aanpassingen, een subtiele pop-animatie bij woordwissel — maar de basis die Claude Code leverde, draagt elke video die ik sindsdien heb gemaakt.
Er is één open eindje dat ik hier wil oplossen, want het was bijna de reden dat ik Remotion opgaf. Het probleem: de eerste keer dat je een Remotion-project opent met een lange video en een groot transcript, hapert de preview in Remotion Studio. Hard. De fps zakt, de tijdlijn loopt vast, en je denkt dat je iets vreselijk fout hebt gedaan. Dat is niet zo. Remotion rendert de preview realtime op één thread, en als je compositie complex wordt, kan die thread het niet bijbenen. De oplossing is contra-intuïtief — render een kort segment van de uiteindelijke output, bekijk de MP4, en ga dan terug naar het editen van code. Vertrouw niet op de live preview voor tempo-beslissingen bij alles langer dan 60 seconden.
Fase 7: Remotion Studio + Claude Code Voor Preview en Finale Render
De laatste fase speelt zich af met twee vensters open op mijn desktop: Remotion Studio links, Claude Code rechts. Hier wordt de dirigent-metafoor letterlijk.
Mijn loop ziet er zo uit:
- Preview in Remotion Studio. Doorloop de compositie. Zoek naar timingproblemen, grafische glitches, alles wat niet goed voelt.
- Beschrijf de oplossing aan Claude Code. "Het merklogo in de intro verschijnt op frame 12 maar moet op de beat landen bij frame 18." "De highlightkleur van de ondertitels is te flets — maak er #A78BFA van." "Voeg een crossfade van 0,5 seconde toe tussen de introkaart en de hoofdcontent."
- Laat Claude Code de component aanpassen. Omdat Remotion-composities React zijn, is elke wijziging een code-edit. Claude Code voert de wijziging uit, Remotion Studio hot-reloadt, en ik zie het resultaat in seconden.
- Herhaal tot de preview klopt.
- Render de uiteindelijke MP4 vanuit de terminal.
npx remotion render. Loop weg. Kom 3-5 minuten later terug met een afgewerkte video.
Dit is de kern. Hier stort de 3-6 uur durende edit in tot minuten aan hands-on tijd. Want zodra ik beschrijf wat er mis is in plaats van het te slepen, komt de multiplier in beeld. Tien revisierondes in een uur was vroeger een goede middag. Nu is het een warming-up.
Wil je liever de volledige Claude Code + Remotion-setup overslaan en direct video’s prompten? Ik heb een begeleidend artikel geschreven over Remotion’s agent skills voor Claude Code als lichtgewicht instap. Maar als je wekelijks video’s maakt, verdient de investering in de volledige pipeline zichzelf binnen een maand terug.
De menselijke verificatiepass die ik nooit oversla
Dit is het onderdeel dat ik op de harde manier heb geleerd: één verdwaalde dubbele zin ondermijnt het vertrouwen in de hele workflow.
De eerste video die ik met de volledige pipeline publiceerde, bevatte een moment waarop ik een zin uitsprak, pauzeerde voor een slok koffie, en vervolgens exact dezelfde zin iets anders herhaalde. De door Descript gegenereerde AI-transcriptie ontdekte het duplicaat pas bij de tweede controle — omdat mijn spreektempo tijdens de pauze de “herhaalde zin”-detector misleidde. De uiteindelijke gerenderde video bevatte de zin twee keer achter elkaar, met een vreemde halve seconde jump cut ertussen.
Ik merkte het pas op toen een kijker me er vier uur na publicatie over DM’de. Dat was de laatste video die ik zonder een laatste menselijke verificatiepass heb gepubliceerd.
Nu krijgt elke video een laatste kijkbeurt op 1,5x snelheid, met mijn vinger op de spatiebalk. Ik let niet op kleine edits — die zijn allemaal al afgehandeld. Ik let specifiek op de faalmodi die de pipeline kan missen:
- Herhaalde zinnen waarbij ik tussen takes pauzeerde en de stilte de duplicatie verborg
- Ondertitels die een technische term verkeerd spellen (Whisper schrijft soms “react” als ik “React” zei)
- Muziekfragmenten die niet synchroon lopen met sectieovergangen
- Elk moment waarop de gerenderde graphics niet overeenkomen met mijn bedoeling
Deze controle kost 4-6 minuten bij een video van 10 minuten. Het is niet onderhandelbaar. Ik heb geprobeerd het twee keer over te slaan en daar beide keren spijt van gehad.
Wat Mij Echt Verraste
Ik verwachtte dat de grootste winst “minder tijd” zou zijn. Maar wat ik kreeg, was iets anders.
Consistentie verbaasde me. Wanneer elke video wordt geproduceerd door dezelfde pipeline met dezelfde componenten, beginnen ze te lijken op afleveringen van dezelfde show in plaats van willekeurige uploads van een vermoeide maker. Abonnees merkten het op voordat ik het zelf doorhad. De opmerking “je video’s zien er de laatste tijd echt strak uit” begon te verschijnen, en de waarheid is dat ik er minder tijd aan besteedde, niet meer.
De snelheid van revisies veranderde wat ik durfde te proberen. Als een edit-ronde twee minuten duurt in plaats van twee uur, ga je experimenteren. Je probeert die ongewone muziekkeuze. Je voegt die gewaagde grap toe. Je verplaatst de hook naar voren. De kosten van “oeps, terugdraaien” zijn zo laag dat je creatieve ambitie zich uitbreidt tot de tijd die je vroeger kwijt was aan mechanisch werk.
Claude Code’s orkestratievermogen verraste me het meest. Ik wist dat het Remotion-componenten kon schrijven. Ik wist niet dat het de hele pipeline-status in zijn hoofd kon houden — de Descript-export lezen, weten dat de Whisper-output klaarstaat, het FFmpeg-commando genereren, de Remotion-compositie opzetten, en de renderfouten debuggen — allemaal in één sessie. Dit is iets wat generieke “AI-videobewerkers” niet kunnen. Die werken stap voor stap. Claude Code speelt het hele nummer.
En het niet-technische creator-perspectief waar ik eerlijk over wil zijn: je hoeft geen React te kennen om deze workflow te draaien. Je moet alleen kunnen beschrijven wat je wilt. De complexiteit zit in de eerste prompt, niet in de CLI. Als je tegen Claude Code kunt zeggen: “Ik wil een geanimeerde ondertitelcomponent die transcript.json leest en het huidige woord paars markeert,” kun je deze pipeline draaien zonder zelf JSX te schrijven. Claude Code schrijft het. Jij voert het uit. De MP4 wordt gerenderd.
Het plafond ligt hoger als je de code begrijpt. Maar de drempel ligt lager dan de meeste ontwikkelaarstutorials zullen toegeven.
Waar Ik Nog Steeds Tegen Grenzen Aanloop
Ik wil je de eerlijke kaart geven, niet de glossy brochureversie.
Muzieksynchronisatie is nog steeds handmatig. Ik heb nog geen betrouwbare manier gevonden om automatisch sectie-overgangen in de video te timen op beat drops in de muziek. Dit doe ik op gehoor, waarbij ik de Sequence starttijden in Remotion aanpas tot de overgangen goed aanvoelen. Misschien leest een toekomstige versie van Claude Code audiogolven uit en stelt hij knippunten voor. Voor nu beslissen mijn oren.
Whisper spelt jargon verkeerd. Elke video over Claude Code, Remotion, TypeScript, of andere merkgebonden technische termen vereist een zoek-en-vervang-ronde op het transcript-JSON voordat het in Remotion gaat. Ik heb een klein Python-script geschreven met een woordenboek van veelvoorkomende correcties, en Claude Code onderhoudt dat woordenboek voor mij. Maar ik controleer de ondertitels nog steeds handmatig voor het renderen.
De rendertijd schaalt mee met de complexiteit van de compositie. Een video van 10 minuten met simpele ondertitels rendert in 3 minuten op mijn M2 MacBook Pro. Voeg partikeleffecten, complexe easing-curves en multi-layer compositing toe, en diezelfde video duurt 12-15 minuten. Dit is geen workflow-fout — het is natuurkunde. Maar als je droomt van een "tien-minuten-turnaround", houd je effectenbudget dan bescheiden.
De Remotion Studio-preview hapert, zoals ik eerder noemde. Alles langer dan 60-90 seconden aan compositielengte begint te stotteren. Werk in kortere segmenten, render previews als MP4’s, en vertrouw niet op de real-time scrubber voor timingbeslissingen bij lange video’s.
De Meetbare Verschuiving
Ik draai deze volledige pipeline nu acht weken, gerekend vanaf april 2026. Dit zijn de cijfers, gebaseerd op mijn eigen logs en niet op verzonnen benchmarks:
- Gemiddelde hands-on bewerkingstijd per video: Gedaald van ongeveer 4 uur naar zo’n 25 minuten — en het grootste deel van die 25 minuten zit in Fase 1 (meedogenloos transcript bewerken) en Fase 7 (menselijke verificatie). De machinaal aangestuurde tussenstappen vragen misschien 6-8 minuten actieve aandacht.
- Publicatiefrequentie: Ik publiceer nu 2-3 video’s per week, waar dat eerder 1 per goede week was. De bottleneck is verschoven van bewerkingstijd naar opnametijd, wat een veel prettiger probleem is om te hebben.
- Consistentie tussen video’s: Elke video gebruikt nu exact dezelfde ondertitelstijl, lower-third, introkaart en outro-CTA. Voorheen had elke video lichte visuele afwijkingen omdat ik de graphics handmatig opnieuw bouwde. Die afwijking is nu verdwenen.
Ik geef bewust geen specifieke “omzet omhoog met X%”-cijfers, omdat ik geen zuivere attributie heb en die niet ga verzinnen. Wat ik wel kan zeggen, is dat drie keer zoveel content publiceren zonder kwaliteitsverlies het verwachte compounding effect heeft gehad. Het kanaal groeide. De instroom groeide. De casestudy’s voor Ramlit begonnen enterprise-gesprekken aan te trekken omdat ik het werk daadwerkelijk kon laten zien in plaats van het alleen te beschrijven.
Het Ene Ding Dat Ik Mezelf Zes Maanden Geleden Zou Vertellen
Begin met de pipeline, niet met de tools.
De fout die ik in de eerste maand maakte, was proberen Descript te beheersen, daarna Remotion, daarna Whisper — alsof elke tool een aparte vaardigheid was. De doorbraak kwam toen ik stopte met ze als losse tools te zien en ze begon te behandelen als fases in één enkele pipeline die door Claude Code werd aangestuurd.
Zodra je die mentale switch maakt, verandert de vraag van "hoe leer ik Remotion?" naar "hoe beschrijf ik wat ik wil dat deze fase oplevert, en hoe voedt die output de volgende fase?" Dat is een vraag die je in één middag kunt beantwoorden met Claude Code aan de andere kant van het gesprek, die samen met jou blijft itereren tot de pipeline soepel loopt.
Zes maanden geleden sleepte ik clips in een tijdlijn om 1 uur ’s nachts op een vrijdag, opgebrand en gefrustreerd door mijn eigen content. Vanavond schreef ik deze post, nam ik een video van 28 minuten op over hetzelfde onderwerp, en tegen de tijd dat jij dit leest, staat die video live — verwerkt via precies de pipeline die ik hierboven heb uitgelegd. Totale hands-on tijd van ruwe opname tot gepubliceerde MP4: waarschijnlijk 40 minuten, waarvan het grootste deel bestond uit kijken en goedkeuren, niet klikken.
De video's waar ik vroeger hele weekenden aan kwijt was, zijn nu het werk dat ik aflever terwijl de koffie nog heet is. De uren die vroeger verdwenen in het doorspoelen van de tijdlijn, besteed ik nu aan het werk dat er echt toe doet — denken, schrijven, publiceren, bouwen. Dat is de ruil waar ik al die tijd naar op zoek was. Het blijkt dat de tool die dit mogelijk maakte geen betere editor was. Het was een betere dirigent.
Als je een harde schijf vol ruwe beelden hebt en een agenda vol deadlines, is dit mijn uitdaging: kies één video. Slechts één. Laat die dit weekend van begin tot eind door deze pipeline lopen. Niet perfect — je zult de eerste render verpesten, de ondertitels zullen niet kloppen, de muziek zal botsen met de spreker. Dat is prima. Bij de tweede video begint de pipeline te passen als een handschoen. Bij de vijfde vraag je je af hoe je ooit anders hebt gemonteerd.
De tijdlijn komt niet terug. En eerlijk? Ik mis hem niet.
Veelgestelde Vragen
Moet ik React kennen om Claude Code met Remotion te gebruiken?
Nee — je kunt de volledige pipeline draaien zonder zelf JSX te schrijven. Claude Code genereert de Remotion-componenten op basis van beschrijvingen in gewoon Engels, en met Remotion Studio kun je het resultaat direct bekijken. Kennis van React vergroot de mogelijkheden voor maatwerk, maar is niet vereist om je eerste video te publiceren. Voor een diepgaandere uitleg over de combinatie Claude Code + Remotion, zie het gedeelte Remotion + Claude Code workflow hierboven.
Wat kost deze volledige pipeline per video?
Voor een afgewerkte video van 10 minuten betaal je ongeveer $0,06 voor Whisper API-transcriptie, een evenredig deel van Descript’s Creator-abonnement van $24/maand, een Epidemic Sound-abonnement vanaf circa $15/maand, en je Claude Code-abonnement. Alles bij elkaar, bij een wekelijkse publicatiefrequentie, kom je uit op $40-60/maand aan toolkosten — ongeacht hoeveel video’s je maakt. Dat is precies het voordeel van deze vaste-kosten-pipeline.
Kan Claude Code video’s bewerken zonder Remotion?
Claude Code kan FFmpeg direct aansturen voor eenvoudige knip- en plakbewerkingen en audiomixage — en dat is al erg handig voor basisbewerkingen. Remotion komt in beeld wanneer je programmatische graphics, geanimeerde ondertitels of branded overlays wilt die automatisch updaten over meerdere video’s. Voor een workflow met alleen ruwe knipbewerkingen zonder graphics kun je Remotion volledig overslaan en toch uren per video besparen.
Wat is de grootste faalmodus van een geautomatiseerde video-editing workflow?
Herhaalde zinnen die door de transcriptieopschoning heen glippen. Descript’s AI-gap-shortening en tekstgebaseerde editor vangen de meeste gevallen, maar opnames met lange koffiepauzes tussen takes kunnen de duplicaatdetector misleiden. De oplossing is een verplichte menselijke controle op 1,5x snelheid vóór publicatie — 4-6 minuten geconcentreerd kijken met de spatiebalk paraat, waarmee je de fouten opvangt die de pipeline niet kan detecteren.
Is Whisper of GPT-4o Mini Transcribe beter voor ondertitels?
Whisper à $0,006/minuut is de betere keuze voor geanimeerde ondertitels die woordnauwkeurige tijdscodes vereisen. GPT-4o Mini Transcribe à $0,003/minuut is uitstekend voor bulktranscriptie waarbij alleen nauwkeurige tekst nodig is, maar de timing op woordniveau varieert. Voor de Remotion-caption-overlay-workflow kun je het beste bij Whisper blijven en de parameter timestamp_granularities=["word"] gebruiken.
Laten We Samenwerken
Wil je AI-systemen bouwen, workflows automatiseren of je technische infrastructuur opschalen? Ik help je graag.
- Fiverr (maatwerk & integraties): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (enterprise-oplossingen): ramlit.com
- ColorPark (design & branding): colorpark.io
- xCyberSecurity (beveiligingsdiensten): xcybersecurity.io