So habe ich die Videobearbeitung mit Claude Code automatisiert

Sechs Monate lang habe ich mich selbst belogen.

Jedes Mal, wenn mich jemand fragte, wie lange ich für den Schnitt eines meiner Videos brauche, antwortete ich mit dem lockeren Tonfall eines Menschen, der gerade nicht untergeht: „Ein paar Stunden.“ Die Wahrheit lag eher bei vier. Manchmal sechs. In schlechten Wochen begann ich, eine Montagsaufnahme erst am Mittwochabend zu schneiden und beendete sie am Freitag um 1 Uhr nachts – mit kaltem Kaffee auf dem Schreibtisch und der festen Überzeugung, dass ich das nicht länger selbst machen konnte.

Der Wendepunkt war unspektakulär. Es war ein Dienstag im März. Drei unbearbeitete Aufnahmen stapelten sich, eine Kunden-Deadline lauerte im nächsten Tab, und eine alte Adobe-Timeline war offen, in der ich an diesem Nachmittag bereits 74 Schnitte gesetzt hatte. Ich sah auf den Fortschrittsbalken – 23 % beim ersten Video – und rechnete nach. Drei Videos. Jeweils sechs Stunden. Achtzehn Stunden Audiospuren ziehen und Füllwörter trimmen, bevor ich überhaupt eines davon veröffentlichen konnte.

Ich schloss die Timeline. Ich öffnete Claude Code. Und ich schwor mir, nicht zurückzugehen.

Was in dieser Woche entstand, ist der Workflow, den ich dir jetzt Schritt für Schritt zeige. Es ist keine theoretische Pipeline, die ich auf ein Whiteboard gekritzelt habe. Es ist der tatsächliche Stack, mit dem ich heute rohe 30-Minuten-Aufnahmen in weniger als zehn Minuten Hands-on-Zeit in fertig geschnittene, untertitelte, mit Musik versehene Videos verwandle. Die zentrale Erkenntnis – die alles verändert hat – ist: Claude Code ist nicht der Editor. Es ist der Dirigent. Alles andere in der Pipeline ist ein Instrument, und die Instrumente sind bereits exzellent. Sie brauchten nur jemanden, der ihnen die Noten reicht.

Hier kommt der unangenehme Teil, den ich gleich zu Beginn aus dem Weg räumen möchte: Dieser Workflow ersetzt nicht deinen Geschmack. Im Gegenteil, er verstärkt ihn. Die Aspekte des Schnitts, bei denen Geschmack zählt – Timing, Betonung, Tonalität, welcher 3-Sekunden-Moment das ganze Video trägt – sind jetzt noch wichtiger, nicht weniger. Was die Pipeline entfernt, ist die mechanische Plackerei rund um diese Entscheidungen. Das Klicken. Das Scrubben. Die Ohrenmüdigkeit. Das 45. Mal, wenn du ein „ähm“ manuell schneidest, das niemand vermissen würde.

Ich zeige dir jetzt, wie das funktioniert – beginnend mit dem Teil, von dem mir niemand gesagt hat, dass er der wichtigste ist.

Der Teil, den die meisten zuerst falsch machen

Wenn Entwickler zum ersten Mal versuchen, die Videobearbeitung mit KI zu automatisieren, greifen sie fast immer zum gleichen Werkzeug: „Ich schreibe ein Python-Skript, das mit FFmpeg Pausen herausschneidet und ein Highlight-Video generiert.“ Das habe ich auch probiert. Das Ergebnis waren Videos, die wirkten, als hätte ein Roboter einen Anfall. Schnitte landeten mitten auf Konsonanten. Bedeutende Pausen wurden entfernt. Die Persönlichkeit der Aufnahme war dahin.

Die Lektion: Automatisierung auf Audio-Ebene ist keine Bearbeitung. Bearbeitung ist eine semantische Aufgabe, keine akustische. Man schneidet nicht basierend auf der Anwesenheit von Stille – man schneidet basierend auf der Bedeutung dessen, was gesagt wurde. Und bis zu diesem Jahr machte genau dieser Unterschied eine vollständige Automatisierung praktisch unmöglich.

Was sich geändert hat: Wir verfügen jetzt über Werkzeuge auf drei verschiedenen Abstraktionsebenen, und Claude Code kann alle drei gleichzeitig orchestrieren:

Die semantische Ebene — textbasierte Bearbeitung in Descript, bei der das Transkript die Timeline ist
Die Präzisionsebene — mit Zeitstempeln versehene Whisper-Transkripte, die auf die Millisekunde genau angeben, wann jedes Wort gesprochen wurde
Die Rendering-Ebene — Remotion, ein React-Framework, bei dem Animationen und Overlays als Code vorliegen, den man programmatisch generieren kann

Die Magie steckt nicht in einem dieser Tools allein. Sie liegt darin, dass Claude Code das Ergebnis eines Tools lesen, darüber nachdenken und es dem nächsten zuführen kann – mit dem Kontext, was aus dem gesamten Video werden soll. Das meine ich, wenn ich sage, Claude Code ist der Dirigent.

Doch bevor wir zur Orchestrierung kommen, musst du die rohe Pipeline Ebene für Ebene sehen. Denn wenn du nicht verstehst, was jedes Tool macht und warum, werden die Prompts, die ich dir am Ende gebe, keinen Sinn ergeben.

Die vollständige Pipeline, Schicht für Schicht

Ich führe dich jetzt Schritt für Schritt durch den Ablauf – in der Reihenfolge, in der das Video tatsächlich durch das System läuft. Sieben Stufen. Jede löst ein spezifisches Problem, das mir früher regelmäßig die Nachmittage geraubt hat.

Stufe 1: Rohaufnahme in Descript

Sobald ich mit der Aufnahme fertig bin, landen die MOV-Dateien direkt in Descript. Nicht in Final Cut. Nicht in Premiere. Nicht in irgendeinem Ordner, wo sie drei Tage liegen, während ich mich zum Schneiden motiviere.

Descript ist das wohl am meisten unterschätzte Tool im modernen Creator-Stack. Viele halten es für „Google Docs für Video“ – eine nette, aber viel zu knappe Beschreibung. Was Descript wirklich macht: Es verwandelt dein Video in ein erstklassiges Textobjekt. Das Transkript wird zur Timeline. Löschst du einen Satz aus dem Transkript, verschwindet der entsprechende Videoteil. Verschiebst du Absätze, wird das Video neu angeordnet.

Mein erster Durchgang in Descript ist gnadenlos. Ich scanne das Transkript nach drei Dingen:

Wiederholte Sätze – Momente, in denen ich etwas gesagt, pausiert und dann etwas besser wiederholt habe. Ich behalte den zweiten Versuch. Markieren, löschen.
Sackgassen-Tangenten – Stellen, an denen ich etwas erklären wollte, aber merkte, dass es die falsche Richtung ist, und dann abgebrochen habe. Ganzer Absatz raus.
Schlechte Takes – komplette Abschnitte, in denen die Energie nicht stimmte oder ich den Faden verloren habe. Weg damit.

Das ist der Teil des Editings, bei dem Geschmack nicht verhandelbar ist. Hier will ich keine Entscheidungen von Claude Code. Ich will ein menschliches Gehirn, das das Transkript liest und entscheidet, welche Version von mir ins finale Video kommt. Für eine 30-minütige Rohaufnahme brauche ich dafür etwa 8 Minuten.

Im Descript Creator-Plan, der im April 2026 bei jährlicher Abrechnung 24 $/Monat kostet, bekommst du 30 Stunden Medienverarbeitung und 800 AI-Credits – mehr als genug für einen wöchentlichen Veröffentlichungsrhythmus. Das kostenlose Paket ist auf 60 Minuten pro Monat begrenzt – ideal, um den textbasierten Editing-Flow ohne Verpflichtung zu testen.

Am Ende von Stufe 1 ist das Video semantisch sauber. Jeder Satz im Transkript ist einer, den ich wirklich im finalen Schnitt haben will. Aber der Rhythmus ist noch seltsam. Zeit für den zweiten Durchgang.

Stufe 2: Descripts KI-Lückenverkürzung

Hier zeigt das Tool, warum es seinen Preis wert ist. Descript bietet die Funktion „Shorten Word Gaps“, die das Audio scannt und jede Pause zwischen Wörtern erkennt, die länger als ein von mir gesetzter Schwellenwert ist. Ich stelle ihn auf 0,2 Sekunden. Alles, was länger ist, wird automatisch gestrafft.

Beim ersten Test dachte ich, das Ergebnis würde abgehackt klingen. Tat es nicht. Es klang, als hätte ich pro Video zwanzig Minuten investiert, um das Timing zu perfektionieren – als wäre jede Pause absichtlich gesetzt. Bei einer 30-minütigen Aufnahme spart das allein etwa 2 Minuten Sendezeit, aber noch wichtiger: Die wahrgenommene Produktionsqualität steigt um eine ganze Stufe. Leute sagten, meine Energie wirke höher. Dabei hatte sich meine Energie nicht verändert – nur die Stille zwischen meinen Worten wurde halbiert.

Nebenbei: Ich habe Schwellenwerte von 0,15 bis 0,35 Sekunden getestet. Unter 0,2 klingt das Audio gehetzt und gepresst. Über 0,25 verschwindet der Effekt. 0,2 ist für meinen Sprechstil das Optimum. Deiner kann um ein paar Hundertstel abweichen. Teste drei Werte am selben Clip und entscheide nach Gehör – diese Entscheidung solltest du nicht abgeben.

Optional: Descript hat auch ein Tool „Remove Filler Words“, das „äh“, „hm“, „sozusagen“ und ähnliche Füllwörter automatisch entfernt. Ich nutze es selektiv. Bei technischen Erklärungen lasse ich es voll laufen. Bei erzählerischen Passagen schalte ich es ab – Füllwörter gehören zum menschlichen Rhythmus, und wenn sie komplett fehlen, klingt es wie eine TTS-Engine. Geschmackssache.

Nach Stufe 2 ist das Audio straff. Was ich aus Descript exportiere, ist eine einzige saubere MP4 – ohne Grafiken, Musik oder Untertitel. Nur der Sprecher, mit dem gewünschten Timing. Diese Datei ist die Basisschicht, auf der alles Weitere aufbaut.

Stufe 3: Musik von Epidemic Sound

Ich ziehe Hintergrundmusik von Epidemic Sound aus einem einzigen Grund, der nichts mit Ästhetik zu tun hat: Urheberrechtssicherheit. Jeder Track auf der Plattform ist für Content Creator lizenziert, um auf monetarisierten Kanälen ohne Streitigkeiten verwendet zu werden. Ich habe Freunde gesehen, die durch einen einzigen nicht geklärten Track im Intro monatelange Werbeeinnahmen verloren haben. Das ist es nie wert.

Meine Auswahlkriterien:

Nur instrumental (Gesang konkurriert mit Sprache und ist anstrengend)
Tempo zwischen 80–110 BPM (schnell genug für Energie, langsam genug, um nicht zu stören)
Harmonische Tonart, die nicht mit meiner Sprechstimme kollidiert
Länge mindestens 90 Sekunden länger als das Video, damit genug Raum zum Ausblenden bleibt

Ich lade die WAV herunter, lege sie im Projektordner ab und mache weiter. Dieser Schritt dauert vielleicht 90 Sekunden, sobald du dir eine eigene „Go-to“-Playlist aus fünf, sechs Tracks angelegt hast.

Stufe 4: FFmpeg Audio-Extraktion

Jetzt wird die Pipeline programmatisch. Ich muss zwei Dinge tun: Die Musik unter das Sprecher-Audio mischen und ein perfektes Transkript mit Zeitstempeln für die Overlay-Stufe erzeugen.

Zuerst extrahiere ich das Sprecher-Audio aus dem Descript-Export mit FFmpeg:

ffmpeg -i descript-export.mp4 \
  -vn \
  -acodec pcm_s16le \
  -ar 16000 \
  -ac 1 \
  speaker.wav

Das ergibt eine Mono-16kHz-WAV, das bevorzugte Eingabeformat für Whisper. Dann baue ich das gemischte Master-Audio – Sprecher auf 0 dB, Musik auf -18 dB unter dem Sprecher, mit 2 Sekunden Fade-in und 3 Sekunden Fade-out:

ffmpeg -i speaker.wav -i music.wav \
  -filter_complex "[1:a]volume=0.13,afade=t=in:st=0:d=2,afade=t=out:st=VIDEO_END-3:d=3[music]; \
                   [0:a][music]amix=inputs=2:duration=first:dropout_transition=2[out]" \
  -map "[out]" master-audio.wav

Früher habe ich diese filter_complex-Ketten von Hand geschrieben und zwanzig Minuten lang debuggt. Jetzt kopiere ich die Audio-Metadaten und die gewünschte Mischung in Claude Code und lasse mir den Befehl generieren. Jedes Mal ist er beim ersten Versuch korrekt. Jedes Mal.

Stufe 5: Whisper für Transkription mit Zeitstempeln

Descript hat mir schon ein Transkript geliefert – warum brauche ich noch eins? Weil das Descript-Transkript für menschliches Editing gedacht ist. Das Whisper-Transkript ist für maschinelle Komposition.

Wenn ich speaker.wav an die OpenAI Whisper API schicke (0,006 $ pro Minute, Stand April 2026), bekomme ich nicht nur Text zurück – sondern jedes Wort mit Start- und Endzeit, millisekundengenau. Für ein 10-Minuten-Video kostet der API-Call 6 Cent und dauert etwa 40 Sekunden. Für den Preis eines Starbucks-Latte kann ich über 500 Minuten Audio mit framegenauer Zeitinformation transkribieren.

Hier das Python-Skript – nichts Besonderes, genau so läuft es bei mir:

from openai import OpenAI
import json

client = OpenAI()

with open("speaker.wav", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        response_format="verbose_json",
        timestamp_granularities=["word"]
    )

with open("transcript.json", "w") as f:
    json.dump(transcript.model_dump(), f, indent=2)

Der Parameter timestamp_granularities=["word"] ist das ganze Geheimnis. Ohne ihn bekommst du nur Satz-Zeitstempel – für animierte Untertitel nutzlos. Mit ihm erhältst du ein JSON-Objekt, in dem jedes einzelne Wort ein start- und end-Feld hat. Diese Datei ist die Grundlage für alle Overlays im nächsten Schritt.

Wer auf Kostenoptimierung achtet: GPT-4o Mini Transcribe läuft mit 0,003 $ pro Minute – halb so teuer wie Whisper – aber die Präzision der Wort-Zeitstempel schwankt. Für meinen Anwendungsfall (animierte Untertitel, bei denen jedes Wort auf die Millisekunde genau erscheinen muss) ist Whisper weiterhin die beste Wahl. Für Massen-Transkription von Podcasts reicht Mini.

Stufe 6: Remotion für programmatische Grafiken

Hier wird Claude Code vom Assistenten zum Motor. Remotion ist ein React-basiertes Framework, mit dem sich Videos als Code rendern lassen. Die aktuelle Release-Linie (Version 4.0.448, Stand Anfang April 2026) bietet eine Claude-Code-Integration, mit der sich eine Komposition so prompten lässt wie eine Landingpage.

So funktioniert Remotion: Jeder Frame deines Videos ist eine React-Komponente. Animationen sind Interpolationsfunktionen der aktuellen Frame-Nummer. Text-Overlays sind JSX. Ein 60-Sekunden-Video bei 30 fps sind einfach 1.800 Renderings eines Komponentenbaums, die am Ende zu einer MP4 zusammengefügt werden. Klingt nach viel Engineering für ein Text-Overlay – aber das bekommst du dafür:

Untertitel-Overlays direkt aus dem Whisper-JSON. Kein manuelles Timing. Kein Keyframe-Geschiebe. Das Wort „Automation“ erscheint genau dann auf dem Bildschirm, wenn es gesprochen wird, weil die Komponente transcript.json liest und den aktuellen Frame mit den Wort-Zeitstempeln abgleicht.
Markenkonsistente Grafiken für jedes Video. Meine Lower-Thirds, meine Intro-Card, mein Outro-CTA – alles React-Komponenten mit Props. Anderes Video? Andere Props. Gleiches Designsystem. Ich muss sie nie neu bauen.
Versionskontrolle, die wirklich funktioniert. Das gesamte Video ist ein Git-Repo. Diffs zeigen, was sich geändert hat. Branches isolieren Experimente. Pull Requests prüfen visuelle Änderungen genauso wie Code.

Die Komponente, die mich beim ersten Mal umgehauen hat, war das animierte Caption. Ich habe Claude Code mit einem einzigen Prompt gebeten: „Baue eine Remotion-Komponente, die transcript.json liest, jedes Wort als Overlay im unteren Drittel des Bildschirms rendert und das aktuell gesprochene Wort in der Markenfarbe hervorhebt. Typografie: Inter, 56px, 800 Gewicht. Kontur: 3px schwarz. Aktuelle Wortfarbe: #8B5CF6.“

45 Sekunden später hatte ich eine funktionierende Komponente. Sie lief beim ersten Versuch perfekt. Ich habe sie seitdem weiterentwickelt – bessere Easing-Kurven, Schatten, ein dezentes Pop-Animation beim Wortwechsel – aber das Fundament, das Claude Code gebaut hat, trägt jedes Video, das ich seitdem veröffentliche.

Ein offener Punkt, den ich hier auflösen will, weil er mich fast dazu gebracht hätte, Remotion aufzugeben: Beim ersten Öffnen eines Remotion-Projekts mit langem Video und großem Transkript ruckelt die Vorschau in Remotion Studio. Deutlich. Die fps brechen ein, die Timeline hängt, und man denkt, man hätte etwas falsch gemacht. Hat man nicht. Remotion rendert die Vorschau in Echtzeit auf einem Thread, und bei komplexen Kompositionen reicht das nicht mehr. Die Lösung ist kontraintuitiv: Einen kurzen Ausschnitt des finalen Outputs rendern, die MP4 anschauen, dann weiter am Code arbeiten. Vertraue bei allem über 60 Sekunden nicht auf die Live-Vorschau für Timing-Entscheidungen.

Stufe 7: Remotion Studio + Claude Code für Vorschau und Final-Render

Der letzte Schritt läuft mit zwei Fenstern auf meinem Desktop: Remotion Studio links, Claude Code rechts. Hier wird die Dirigenten-Metapher wörtlich.

Mein Loop sieht so aus:

Vorschau in Remotion Studio. Durch die Komposition scrubben. Nach Timing-Problemen, Grafikfehlern, allem, was nicht passt, suchen.
Die Korrektur an Claude Code beschreiben. „Das Markenlogo im Intro erscheint bei Frame 12, soll aber auf den Beat bei Frame 18 landen.“ „Die Caption-Highlight-Farbe ist zu blass – auf #A78BFA erhöhen.“ „Füge einen 0,5-Sekunden-Crossfade zwischen Intro-Card und Hauptinhalt ein.“
Claude Code die Komponente editieren lassen. Da Remotion-Kompositionen React sind, ist jede Änderung ein Code-Edit. Claude Code macht die Änderung, Remotion Studio lädt neu, und ich sehe das Ergebnis in Sekunden.
Wiederholen, bis die Vorschau passt.
Das finale MP4 aus dem Terminal rendern. npx remotion render. Weggehen. Nach 3–5 Minuten mit einem fertigen Video zurückkommen.

Dieser Loop ist der Gamechanger. Hier schrumpft der 3–6-Stunden-Schnitt auf Minuten Hands-on-Zeit. Denn sobald ich beschreibe, was falsch ist, statt es zu ziehen, setzt der Multiplikator ein. Zehn Revisionen in einer Stunde waren früher ein guter Nachmittag. Jetzt ist das das Warm-up.

Wenn du den kompletten Claude Code + Remotion-Workflow überspringen und Videos direkt prompten willst, habe ich einen Begleitartikel zu Remotions Agenten-Skills für Claude Code geschrieben – der leichtere Einstieg. Aber wenn du wöchentlich Videos veröffentlichst, amortisiert sich die Investition in die volle Pipeline schon im ersten Monat.

Die menschliche Kontrollrunde, auf die ich niemals verzichte

Hier kommt der Teil, den ich auf die harte Tour gelernt habe: Ein einziger doppelter Satz zerstört das Vertrauen in den gesamten Workflow.

Beim ersten Video, das ich mit der vollständigen Pipeline veröffentlicht habe, gab es einen Moment, in dem ich einen Satz sagte, eine Pause für einen Schluck Kaffee machte und dann denselben Satz leicht anders wiederholte. Das von Descript KI-generierte Transkript erkannte das Duplikat beim zweiten Durchlauf, aber nicht beim ersten – weil mein Sprechrhythmus während der Pause den „wiederholte Sätze“-Detektor ausgetrickst hat. Im finalen gerenderten Video war der Satz dann zweimal direkt hintereinander zu hören, mit einem seltsamen halben Sekunden Jump Cut dazwischen.

Ich habe es erst bemerkt, als mich ein Zuschauer vier Stunden nach der Veröffentlichung per DM darauf hingewiesen hat. Das war das letzte Video, das ich ohne eine abschließende menschliche Kontrollrunde veröffentlicht habe.

Jetzt bekommt jedes Video einen letzten Durchlauf bei 1,5-facher Geschwindigkeit, mit dem Finger auf der Leertaste. Ich suche nicht nach Feinschliff – das ist alles schon erledigt. Ich achte gezielt auf die Fehlerquellen, die die Pipeline übersehen kann:

Wiederholte Sätze, bei denen ich zwischen den Takes pausiert habe und die Stille das Duplikat verdeckt hat
Untertitel, die einen Fachbegriff falsch schreiben (Whisper schreibt manchmal „react“, wenn ich „React“ gesagt habe)
Musik-Cues, die nicht mit den Abschnittswechseln übereinstimmen
Jeder Moment, in dem die gerenderten Grafiken nicht meiner Intention entsprechen

Dieser Durchgang dauert bei einem 10-Minuten-Video 4–6 Minuten. Er ist nicht verhandelbar. Ich habe zweimal versucht, ihn zu überspringen, und es jedes Mal bereut.

Was mich wirklich überrascht hat

Ich bin mit der Erwartung herangegangen, dass der größte Vorteil „weniger Zeitaufwand“ sein würde. Was ich bekam, war jedoch etwas anderes.

Die Konsistenz hat mich schockiert. Wenn jedes Video durch die gleiche Pipeline mit denselben Komponenten produziert wird, sehen sie plötzlich wie Episoden derselben Show aus – und nicht mehr wie zufällige Uploads einer erschöpften Person. Die Abonnenten haben das bemerkt, bevor ich es tat. Kommentare wie „Deine Videos wirken in letzter Zeit richtig professionell“ tauchten auf, und die Wahrheit ist: Ich habe weniger Zeit investiert, nicht mehr.

Die Geschwindigkeit bei Überarbeitungen hat meine Experimentierfreude verändert. Wenn ein Bearbeitungsdurchlauf zwei Minuten statt zwei Stunden dauert, probiert man mehr aus. Man testet ungewöhnliche Musik. Man fügt den riskanten Witz ein. Man verschiebt den Hook nach vorne. Die Kosten für „Ups, doch zurücknehmen“ sind so gering, dass die kreative Ambition den Raum füllt, den früher mechanische Arbeit beansprucht hat.

Am meisten hat mich Claudes Code-Orchestrierung beeindruckt. Ich wusste, dass es Remotion-Komponenten schreiben kann. Ich wusste aber nicht, dass es den gesamten Pipeline-Status im Kopf behalten kann – den Descript-Export lesen, wissen, dass das Whisper-Ergebnis bereitsteht, den FFmpeg-Befehl generieren, die Remotion-Komposition aufsetzen und die Renderfehler debuggen – alles in einer Session. Das ist etwas, was generische „KI-Videoeditoren“ nicht können. Sie arbeiten Schritt für Schritt. Claude Code spielt das ganze Lied.

Und noch ein ehrlicher Punkt aus der Sicht von Nicht-Technikern: Man muss kein React können, um diesen Workflow zu nutzen. Man muss nur beschreiben können, was man möchte. Die Komplexität steckt im ersten Prompt, nicht im CLI. Wenn du Claude Code sagen kannst: „Ich möchte eine animierte Untertitel-Komponente, die transcript.json liest und das aktuelle Wort lila hervorhebt“, kannst du diese Pipeline nutzen, ohne selbst JSX zu schreiben. Claude Code schreibt es. Du führst es aus. Das MP4 wird gerendert.

Das Potenzial ist größer, wenn man den Code versteht. Die Einstiegshürde ist jedoch niedriger, als die meisten Entwickler-Tutorials zugeben würden.

Wo ich immer noch an Grenzen stoße

Ich möchte dir die ehrliche Landkarte zeigen, nicht die Hochglanzbroschüre.

Musik-Synchronisation ist weiterhin Handarbeit. Ich habe noch keinen zuverlässigen Weg gefunden, um automatisch die Abschnittswechsel im Video mit den Beat-Drops der Musik zu synchronisieren. Das mache ich nach Gehör, indem ich die Sequence-Startzeiten in Remotion so anpasse, bis die Übergänge stimmig wirken. Vielleicht liest eine zukünftige Version von Claude Code die Audiowellenformen aus und schlägt Schnittpunkte vor. Bis dahin entscheidet mein Gehör.

Whisper schreibt Fachbegriffe falsch. Jedes Video über Claude Code, Remotion, TypeScript oder andere markenspezifische technische Begriffe erfordert eine Suchen-und-Ersetzen-Runde im Transkript-JSON, bevor es in Remotion landet. Ich habe ein kleines Python-Skript mit einem Wörterbuch für gängige Korrekturen geschrieben, und Claude Code pflegt dieses Wörterbuch für mich. Trotzdem prüfe ich die Untertitel vor dem Rendern noch einmal per Hand.

Die Renderzeit steigt mit der Komplexität der Komposition. Ein zehnminütiges Video mit einfachen Untertiteln rendert in 3 Minuten auf meinem M2 MacBook Pro. Füge Partikeleffekte, komplexe Easing-Kurven und Multi-Layer-Compositing hinzu, dauert dasselbe Video 12–15 Minuten. Das ist kein Workflow-Fehler – das ist Physik. Wenn du also vom „Zehn-Minuten-Turnaround“ träumst, halte dein Effektbudget überschaubar.

Die Remotion Studio-Vorschau ruckelt, wie bereits erwähnt. Alles, was länger als 60–90 Sekunden Kompositionslänge ist, wird stockend. Arbeite in kürzeren Segmenten, rendere Vorschauen als MP4s und verlasse dich bei langen Videos nicht auf den Echtzeit-Scrubber für Timing-Entscheidungen.

Die messbare Veränderung

Ich betreibe diese vollständige Pipeline nun seit acht Wochen, Stand April 2026. Hier sind die Zahlen, basierend auf meinen eigenen Protokollen und nicht auf erfundenen Benchmarks:

Durchschnittliche aktive Schnittzeit pro Video: Von etwa 4 Stunden auf rund 25 Minuten gesunken – und der Großteil dieser 25 Minuten entfällt auf Stufe 1 (rigoroses Transkript-Editing) und Stufe 7 (menschliche Überprüfung). Die maschinengesteuerten Zwischenstufen erfordern vielleicht 6–8 Minuten aktive Aufmerksamkeit.
Veröffentlichungsfrequenz: Ich veröffentliche jetzt 2–3 Videos pro Woche, vorher war es in guten Wochen eines. Der Engpass hat sich von der Schnittzeit zur Aufnahmezeit verschoben – ein deutlich angenehmeres Problem.
Konsistenz über alle Videos hinweg: Jedes Video verwendet jetzt denselben Untertitelstil, das gleiche Lower-Third, Intro-Card und Outro-CTA. Früher gab es bei jedem Video leichte visuelle Abweichungen, weil ich die Grafiken manuell neu erstellt habe. Diese Abweichungen sind jetzt verschwunden.

Ich nenne bewusst keine konkreten „Umsatzsteigerung um X %“-Zahlen, weil ich keine saubere Attribution habe und nichts erfinden werde. Was ich sagen kann: Drei Mal so viel Content zu veröffentlichen, ohne Qualitätsverlust, hat genau den erwarteten Ketteneffekt ausgelöst. Der Kanal ist gewachsen. Die Anfragen sind gestiegen. Die Case Studies für Ramlit haben plötzlich Enterprise-Gespräche angestoßen, weil ich die Arbeit tatsächlich zeigen konnte – statt sie nur zu beschreiben.

Die eine Sache, die ich mir vor sechs Monaten gesagt hätte

Beginne mit der Pipeline, nicht mit den Tools.

Mein Fehler im ersten Monat war, dass ich zuerst Descript meistern wollte, dann Remotion, dann Whisper – als wären die einzelnen Tools jeweils eine eigene Fähigkeit. Der Durchbruch kam, als ich aufhörte, sie als einzelne Werkzeuge zu betrachten, und stattdessen als aufeinanderfolgende Stufen einer einzigen Pipeline, die von Claude Code orchestriert wird.

Sobald du diesen mentalen Wechsel vollziehst, stellt sich nicht mehr die Frage „Wie lerne ich Remotion?“, sondern „Wie beschreibe ich, was diese Stufe produzieren soll, und wie speist dieses Ergebnis die nächste Stufe?“ Das ist eine Frage, die du an einem einzigen Nachmittag mit Claude Code auf der anderen Seite des Gesprächs beantworten kannst – gemeinsam iterierend, bis die Pipeline fließt.

Vor sechs Monaten habe ich freitags um 1 Uhr nachts noch Clips auf einer Timeline hin- und hergezogen, ausgebrannt und genervt von meinen eigenen Inhalten. Heute Abend habe ich diesen Beitrag geschrieben, ein 28-minütiges Video zum selben Thema aufgenommen, und während du das hier liest, ist dieses Video bereits online – verarbeitet durch genau die Pipeline, die ich dir gerade vorgestellt habe. Die gesamte Hands-on-Zeit vom Rohmaterial bis zur veröffentlichten MP4: wahrscheinlich 40 Minuten, von denen die meiste Zeit fürs Anschauen und Freigeben draufging, nicht fürs Klicken.

Die Videos, für die ich früher ganze Wochenenden geopfert habe, sind jetzt das, was ich verschicke, solange der Kaffee noch heiß ist. Die Stunden, die früher beim Timeline-Scrubbing verschwanden, verbringe ich jetzt mit der Arbeit, die wirklich zählt – denken, schreiben, veröffentlichen, bauen. Genau diesen Tausch wollte ich immer. Es stellte sich heraus: Das Tool, das das möglich macht, war kein besserer Editor. Es war ein besserer Dirigent.

Wenn du auf einer Festplatte voller Rohmaterial und einem Kalender voller Deadlines sitzt, habe ich eine Herausforderung für dich: Nimm dir ein Video vor. Nur eins. Lass es dieses Wochenende einmal komplett durch diese Pipeline laufen. Nicht perfekt – beim ersten Render wirst du Fehler machen, die Untertitel werden nicht stimmen, die Musik wird mit dem Sprecher konkurrieren. Das ist okay. Beim zweiten Video passt sich die Pipeline schon deiner Arbeitsweise an. Beim fünften fragst du dich, wie du je anders gearbeitet hast.

Die Timeline kommt nicht zurück. Und ehrlich? Ich vermisse sie nicht.

Häufig gestellte Fragen

Muss ich React kennen, um Claude Code mit Remotion zu nutzen?

Nein — du kannst die gesamte Pipeline ausführen, ohne selbst JSX zu schreiben. Claude Code erstellt die Remotion-Komponenten aus einfachen englischen Beschreibungen, und mit Remotion Studio kannst du das Ergebnis direkt ansehen. React-Kenntnisse erweitern zwar die Möglichkeiten zur Anpassung, sind aber nicht erforderlich, um dein erstes Video zu veröffentlichen. Eine ausführlichere Anleitung zur Kombination von Claude Code und Remotion findest du im Abschnitt Remotion + Claude Code Workflow weiter oben.

Was kostet diese komplette Pipeline pro Video?

Für ein fertiges 10-Minuten-Video kannst du mit etwa $0,06 für die Whisper API-Transkription rechnen, einem anteiligen Anteil am Descript Creator-Plan für $24/Monat, einem Epidemic Sound-Abo ab ca. $15/Monat und deinem Claude Code-Abo. Insgesamt liegst du bei einer wöchentlichen Veröffentlichungsfrequenz bei $40–60/Monat an Tool-Kosten – unabhängig davon, wie viele Videos du produzierst. Genau das ist der Vorteil der Fixkosten-Pipeline.

Kann Claude Code Videos auch ohne Remotion bearbeiten?

Claude Code kann FFmpeg direkt für einfache Schnitte, Zusammenfügungen und Audiomischungen steuern – das allein ist schon für grundlegende Bearbeitungen nützlich. Remotion kommt ins Spiel, wenn du programmatische Grafiken, animierte Untertitel oder gebrandete Overlays möchtest, die sich automatisch über mehrere Videos hinweg aktualisieren. Für einen reinen Rohschnitt-Workflow ohne Grafiken kannst du Remotion komplett weglassen und trotzdem pro Video Stunden sparen.

Was ist der häufigste Fehler in einem automatisierten Video-Editing-Workflow?

Wiederholte Sätze, die beim Transkript-Bereinigen durchrutschen. Descripts KI-gestützte Lückenverkürzung und der textbasierte Editor fangen die meisten davon ab, aber Aufnahmen mit langen Kaffeepausen zwischen den Takes können den Duplikat-Detektor austricksen. Die Lösung ist ein verpflichtender menschlicher Kontrollgang mit 1,5-facher Geschwindigkeit vor der Veröffentlichung – 4–6 Minuten aufmerksames Zuschauen mit der Leertaste, um Fehler zu erwischen, die die Pipeline nicht erkennt.

Ist Whisper oder GPT-4o Mini Transcribe besser für Untertitel?

Whisper für $0,006/Minute ist die bessere Wahl für animierte Untertitel, die Wort-für-Wort-Zeitstempel-Präzision benötigen. GPT-4o Mini Transcribe für $0,003/Minute ist hervorragend für Massen-Transkriptionen, bei denen nur der Text stimmen muss, aber die Wort-Timing-Genauigkeit schwankt. Für den Remotion-Workflow mit Untertitel-Overlays solltest du bei Whisper bleiben und den Parameter timestamp_granularities=["word"] verwenden.

Lassen Sie uns zusammenarbeiten

Möchten Sie KI-Systeme entwickeln, Workflows automatisieren oder Ihre technische Infrastruktur skalieren? Ich unterstütze Sie gerne dabei.

Fiverr (individuelle Lösungen & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Enterprise-Lösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienstleistungen): xcybersecurity.io

So habe ich die Videobearbeitung mit Claude Code automatisiert