Claude Code + Higgsfield: mein YouTube-Editing-Workflow

Früher hatte ich Angst vor dem Bearbeitungstag. Nicht das Schneiden – das Schneiden, das ich im Schlaf machen kann. Der Teil, vor dem ich mich gefürchtet habe, war die B-Rolle. Vierzig Minuten Talking-Head-Filmmaterial auf meinem Bildschirm, eine Zeitleiste, die alle fünfzehn Sekunden auf Bilder wartet, und die langsame, herzzerreißende Erkenntnis, dass ich die nächsten drei Stunden damit verbringen würde, in den Bibliotheken nach einer Aufnahme von „Händen, die auf einem Laptop tippen“ zu suchen, die nicht ganz so aussah wie die, die ich in den letzten sechs Videos verwendet hatte. Ich habe speziell deshalb einen Claude Code Higgsfield Video-Workflow erstellt, weil dieser Tag meine Mittwoche bei lebendigem Leibe verschlang und sich die Lösung als einfacher – und seltsamer – herausstellte, als ich erwartet hatte.

Hier ist die Pointe, an der ich Sie für die nächsten viertausend Wörter festhalten möchte: Das Geheimnis liegt nicht in der besseren Bildgenerierung. Das Geheimnis ist der Zeitstempel. Sobald Ihr Audio über ein Transkript mit Zeitstempel verfügt, wird ein Dateiname zu einer Platzierungskarte. Ein Bild mit dem Namen 00:01:34.png beschreibt nicht nur einen Moment – es teilt Ihrem Editor auch genau mit, wo auf der Zeitleiste die Datei abgelegt werden soll. Der gesamte Arbeitsablauf lässt sich wie folgt zusammenfassen: „Generieren Sie die richtigen Bilder mit den richtigen Dateinamen, ziehen Sie den Ordner in CapCut und gehen Sie weg.“ Das ist die Freischaltung. Alles andere ist Klempnerarbeit.

Ich werde die gesamte Pipeline durchgehen, die ich jetzt für jedes Langformvideo ausführe – Claude Code als Orchestrator, das Higgsfield-Skill-Bundle für die eigentliche Bildgenerierung, TurboScribe für das zeitgestempelte Transkript und CapCut für die Assembly. Ich gebe Ihnen den genauen Master-Prompt, den ich einfüge, die vier Stilwörter, die ich durchgehe, die Kostenberechnung für ein typisches dreißigminütiges Video und die ganz konkrete Art und Weise, wie TurboScribe Sie verraten kann, wenn Sie auf die falsche Schaltfläche „Exportieren“ klicken. Am Ende können Sie den Stapel heute Abend installieren und am Samstag ein Video versenden, das zuvor Ihr ganzes Wochenende verschlungen hätte.

Das Drei-Stunden-B-Roll-Problem, über das niemand reden möchte

Ich habe viele YouTube-Videos gemacht. Ich gehöre zu den Leuten, die gerne ehrlich sagen, wo die Stunden in einem Creator-Workflow tatsächlich hingehen, weil ich zu viele Tutorials gesehen habe, in denen die schmerzhaften Teile des Prozesses hinter einem Smash Cut zusammengefasst werden, um „Und hier ist das Endergebnis.“ Hier ist also die tatsächliche Verteilung meiner Zeit auf ein 30-minütiges Talking-Head-Video, bevor es diesen Workflow gab.

Aufnahme: vierzig bis neunzig Minuten, je nachdem, ob ich die Erkältung richtig aufgemacht habe. Bearbeitung des gesprochenen Ausschnitts: etwa eine Stunde. Farbe, Audiobereinigung, Untertitel: noch eine Stunde. B-Roll-Suche und Platzierung: drei bis fünf Stunden. Miniaturbild- und Titeliteration: 30 Minuten. Endbildschirm und Uploads: fünfzehn Minuten.

Beachten Sie, welche Kategorie die längste ist. Es ist nicht einmal annähernd so weit. Die B-Roll-Linie fügt meinen Mittwochen mehr Schaden zu als alle anderen Werbebuchungen zusammen, und der Grund dafür ist struktureller Natur. B-Roll ist ein als kreatives Problem getarntes Suchproblem. Sie wissen bei jedem Schlag ungefähr, was Sie wollen – „etwas Visuelles, das hier „Kostenberechnung“ sagt“ – aber um diese Entscheidung umzusetzen, müssen Sie eine Bestandsbibliothek öffnen, eine Abfrage eingeben, Vorschauen durchsuchen, einen Clip auswählen, ihn herunterladen, ihn hineinziehen, zuschneiden und dann feststellen, dass die Farben nicht mit der vorherigen Aufnahme übereinstimmen. Multiplizieren Sie das Ganze mit sechzig visuellen Schnitten in einem 30-minütigen Video und Sie haben den Nachmittag verloren.

Das erste, was ich ausprobiert habe, war ein mit AI generiertes B-Roll direkt in einem Editor. Dafür gibt es mittlerweile Plug-Ins. Es geht ihnen gut. Außerdem sind sie langsam, teuer pro Aufnahme und haben keine Verbindung zu Ihrem Transkript – Sie müssen immer noch manuell entscheiden, welches Bildmaterial wohin geht, was der zeitaufwändigste Teil der ganzen Sache ist. Ich möchte das klarstellen, denn viele „AI Video-B-Roll“-Pitches lösen immer noch die falsche Hälfte des Problems. Die Generation ist nicht der Flaschenhals. Die Platzierungsentscheidung ist der Flaschenhals. Und die Platzierung wird in dem Moment gelöst, in dem ein Zeitstempel zu einem Dateinamen wird.

Ich möchte, dass Sie diese Einsicht mitnehmen, auch wenn Sie den Rest dieses Beitrags ignorieren.

Warum ein mit einem Zeitstempel versehener Dateiname die Mathematik ändert

Halten Sie inne und denken Sie darüber nach, was ein Videoeditor tatsächlich tut, wenn Sie einen Ordner mit Bildern in ein Projekt einfügen. CapCut, Premiere, DaVinci Resolve, jeder moderne Editor – sie importieren die Dateien und sortieren sie standardmäßig alphabetisch. Dateinamen, die mit 00:00:14, 00:00:31, 00:01:02, 00:01:47 beginnen, werden automatisch in chronologischer Reihenfolge sortiert. Wenn diese Zeitstempel Momenten in Ihrem Audio entsprechen, entspricht die Sortierreihenfolge auch der Timeline-Reihenfolge. Sie müssen nichts manuell platzieren. Sie ziehen den Ordner auf die Timeline, die Bilder landen der Reihe nach und ein schnelles Snap-to-Audio richtet jedes einzelne auf den Moment aus, für den es bestimmt war.

Der gesamte Arbeitsablauf hängt von diesem Detail ab. Wenn Ihr Transkript Zeitstempel hat und Ihr Bildgenerator diese Zeitstempel als Dateinamen beibehält, verfügen Sie über eine Platzierungskarte. Wenn eines der Teile kaputt geht, müssen Sie wieder manuell entscheiden, wo jedes Bild hingehört – was bedeutet, dass Sie die Generierung genauso gut überhaupt nicht automatisieren können.

Genau aus diesem Grund befindet sich TurboScribe in der Mitte dieses Stapels. Mit TurboScribe erhalten Sie Zeitstempel auf Satzebene in einem Format, das Sie direkt in eine Eingabeaufforderung kopieren können. Es ist nicht das einzige Tool, das dies tut – Whisper tut es, Descript tut es, viele andere tun es –, aber ich greife immer wieder auf TurboScribe zurück, weil sich das Ausgabeformat am saubersten in Claude Code einfügen lässt und weil sich die kostenlose Stufe überraschend gut bei der Lautstärke hält, mit der die meisten unabhängigen Entwickler arbeiten. Mehr zu dieser Preisberechnung in ein paar Abschnitten, denn sie ist wichtig.

Die andere Hälfte der Gleichung ist Claude Code selbst. Der Agent ist der einzige Teil des Stapels, der alle vier Dinge in einer Sitzung tun kann: ein langes Transkript lesen, entscheiden, welches Bild zu jedem Zeitstempel generiert werden soll, Higgsfield aufrufen, um es tatsächlich zu generieren, und die Ausgabedatei mit dem Zeitstempel benennen. Kein anderes Tool in der Pipeline kann alle vier Funktionen. Deshalb ist die Orchestrierungsschicht genauso wichtig wie die Generierungsschicht.

Der Stapel: Was jede Schicht besitzt

Vor der Installationsanleitung sehen Sie hier das vollständige Bild, damit Sie sehen können, wie die Teile passen. In den folgenden Abschnitten werde ich jedes einzelne im Detail erläutern.

Claude Code ist das Gehirn. Es läuft lokal auf meinem Mac als Desktop-App, hält das Transkript im Kontext, wählt ein visuelles Konzept für jeden Zeitstempel, erstellt die Eingabeaufforderung für Higgsfield, ruft den Skill auf, benennt die Ausgabedatei und speichert den gesamten Stapel in einem Ordner. Wenn Sie Claude Code noch nie zuvor installiert haben, ist die Desktop-App der einfachste Einstiegspunkt im Jahr 2026 – melden Sie sich mit Ihrem Anthropic-Konto an und der Agent ist live.

Higgsfield ist der Bildgenerator. Higgsfield bündelt mehr als dreißig Bild- und Videomodelle in einem Abonnement - Soul 2.0, Sora 2, Veo 3.1, Kling 3.0, Seedance 2.0, Nano Banana 2, Flux 2, GPT Image 2 und viele mehr - und stellt sie über ein Claude-Code-Skill-Bundle bereit. Dieses Skill-Bundle ist hier der entscheidende Teil. Sobald es installiert ist, wird "generate an image" zu einem CLI-Befehl, den Claude Code inline aufrufen kann. Über die breitere Higgsfield-CLI-Installation habe ich in meinem Higgsfield CLI Claude Code Build Log geschrieben, und die MCP-nahe Installation habe ich in meinem Content Operating System Breakdown behandelt. Für diesen Workflow nutze ich aber gezielt das Skill-Bundle.

TurboScribe ist die Transkriptebene. Laden Sie Ihre Audiodatei hoch (kein Skript, sondern Ihr tatsächlich aufgenommenes Audio), warten Sie zwei oder drei Minuten und erhalten Sie ein vollständig mit Zeitstempel versehenes Transkript zurück, das Sie aus dem Browser kopieren können. Das kostenlose Kontingent umfasst drei Dateien pro Tag zu je 30 Minuten. Die kostenpflichtige Stufe beträgt zwanzig Dollar pro Monat oder zehn Dollar pro Monat pro Jahr bei unbegrenzter Länge und unbegrenztem Volumen. Ich werde in einem Abschnitt unten erklären, welches Sie basierend auf Ihrer Ausgabefrequenz tatsächlich benötigen.

CapCut ist die Baugruppe. Legen Sie den generierten Ordner auf der Timeline ab, die Dateinamen sortieren die Bilder in chronologischer Reihenfolge, richten sich nach der Audiowellenform und Ihre Bilder werden an den Momenten ausgerichtet, für die sie generiert wurden. Darüber hinaus werden optionale Überlagerungen, Masken, Papiertexturen und Mischmodi hinzugefügt.

Das ist der ganze Stapel. Vier Werkzeuge. Eine davon ist Ihr Gehirn. Eine davon ist Ihre Bild-Engine. Eine davon ist Ihre Transkriptebene. Einer ist Ihr Redakteur. Nichts Brauchbares. Nichts Exotisches. Jedes Stück ist etwas, das ein Anfänger heute installieren kann.

Claude Code und den Higgsfield-Skill installieren

Ich möchte die Installation im Detail durchgehen, da die meisten Artikel die einzige Entscheidung beschönigen, die wirklich wichtig ist – und das ist der Installationsumfang. Wenn Sie das falsch machen, werden Sie den Skill für den Rest Ihres Lebens in jedem Projektordner neu installieren.

Schritt eins: Claude Code. Laden Sie die Desktop-App von Anthropic herunter, melden Sie sich mit Ihrem Claude-Konto an und bestätigen Sie, dass der Agent ausgeführt wird. Wenn Sie die CLI-Version innerhalb eines Terminals bevorzugen, funktioniert das auch – beide Routen erreichen dieselbe Agentenlaufzeit. Bei Neuinstallationen im Jahr 2026 wird standardmäßig die Desktop-App verwendet, da diese der benutzerfreundlichere Einstiegspunkt ist, aber das Skills-System funktioniert bei beiden identisch.

Schritt zwei: ein Higgsfield-Konto. Registrieren Sie sich bei higgsfield.ai. Die 2026-Pläne der Plattform reichen von einer Starter-Stufe für fünfzehn Dollar bis zu einer Ultra-Stufe für vierundachtzig Dollar pro Monat, wobei Credit-Pakete für die Burst-Generierung verfügbar sind. Für ein einzelnes dreißigminütiges Video verbrennen Sie zwischen vierzig und hundert Credits, je nachdem, wie viele visuelle Beats Sie generieren. Der Starter-Plan ist mehr als ausreichend, um den Workflow durchgängig zu testen.

Schritt drei: die Skill-Installation. Dies ist der Moment, in dem der Workflow tatsächlich in Gang kommt. Führen Sie in jedem Terminal – VS Code, Cursor, Ghostty, der macOS-Terminal-App, was auch immer Sie haben – den folgenden Befehl aus:

npx skills add higgsfield-ai/skills -a claude-code -g

Dieser npx skills-Aufruf ist der Vercel Labs-Skills CLI. Es ruft das offizielle Higgsfield-Skill-Bundle von GitHub ab, kopiert es in Ihr Claude Code-Skills-Verzeichnis und registriert es beim Agenten. Das Flag -a claude-code bindet die Skills an Claude Code als Laufzeit. Das -g-Flag wird global und nicht pro Projekt installiert. Wählen Sie global. Der Sinn einer kreativen Fähigkeit wie dieser besteht darin, sie in jedem Projektordner verfügbar zu haben, in dem Sie sich heute Abend um Mitternacht befinden, und nicht in einem Repository vergraben zu sein.

Der Installer wird einige Folgefragen stellen. Eine davon ist die Symlink-Frage. Standardmäßig installiert Vercel Labs CLI Fähigkeiten in ~/.agents/skills/ und erstellt einen Symlink von ~/.claude/skills/, der auf dieselben Dateien verweist. Durch den Symlink ist der Skill für Claude Code erkennbar, ohne dass Dateien auf jedem von Ihnen verwendeten Agenten dupliziert werden. Sagen Sie immer „Ja“ zum Symlink. Wenn Sie es überspringen, wird der Skill installiert, aber Claude Code findet ihn beim Start nicht. Dies ist genau die Art von Fehler, die Sie eine Stunde Debugging kostet, bevor Sie erkennen, dass der Symlink das Problem ist.

Die andere Frage ist, welche Teilkompetenzen aktiviert werden sollen. Das Higgsfield-Paket wird mit etwa einem Dutzend davon geliefert – Bildgenerierung, Videogenerierung, Produktfotoshooting, Marketingstudio, Soul ID für identitätsgesperrte Charaktere und einige andere. Für den B-Roll-Workflow benötigen Sie lediglich die allgemeine Fähigkeit zur Bildgenerierung. Ich installiere sie alle, weil jeder ein paar CLI-Befehle hinzufügt und die Speicherkosten trivial sind, aber wenn Sie platzbewusst sind oder sich der Überlastung Ihrer Fähigkeiten bewusst sind, ist nur der Bildgenerator in Ordnung.

Gesamtinstallationszeit auf einer sauberen Maschine: etwa neunzig Sekunden, wovon der größte Teil auf das Abrufen von Abhängigkeiten durch NPM entfällt.

Überprüfen der Installation, ohne Credits zu verschwenden

Starten Sie nach Abschluss der Installation nicht sofort einen Stapel mit hundert Bildern. Brennen Sie zunächst ein Bild als Rauchtest. Dies ist der Teil, den die meisten Tutorials überspringen, und es ist die langweiligste Angewohnheit, die Sie davor bewahrt, ein Video zu veröffentlichen, bei dem die Hälfte der B-Rolle kaputt zurückkommt.

Öffnen Sie Claude Code und fragen Sie im Klartext:

Ist Higgsfield installiert und bereit? Erzeugen Sie ein einzelnes 16:9-Testbild – Erde aus dem Weltraum, fotorealistisch – und speichern Sie es unter ./test-output/.

Wenn die Installation korrekt ist, erkennt Claude Code den Higgsfield-Skill, leitet die Eingabeaufforderung an das entsprechende Modell weiter, generiert das Bild und speichert es im Ordner. Die gesamte Hin- und Rückfahrt dauert etwa dreißig bis neunzig Sekunden, je nachdem, welches Modell der Skill gewählt hat. Öffnen Sie die Datei. Bestätigen Sie, dass es tatsächlich wie die Erde aus dem Weltraum aussieht und kein beschädigtes PNG ist.

Wenn etwas schief geht, ist der Fehlermodus normalerweise einer von drei Faktoren. Entweder befindet sich der Skill nicht im richtigen Verzeichnis (überprüfen Sie ~/.claude/skills/ und suchen Sie nach Bei jeder davon handelt es sich um eine 30-Sekunden-Lösung, sobald Sie wissen, um welche es sich handelt.

Warum ist dieser Verifizierungsschritt wichtig? Denn die Master-Eingabeaufforderung, die Sie senden möchten, wird Claude Code auffordern, vierzig bis hundert Bilder in einem einzigen Stapel zu generieren. Wenn der Skill falsch konfiguriert ist, können Sie dies nicht anhand eines einzigen fehlgeschlagenen Bildes herausfinden, sondern anhand von vierzig fehlgeschlagenen Bildern, ohne klares Protokoll darüber, welche Eingabeaufforderung welche fehlerhafte Ausgabe erzeugt hat. Zuerst Rauchtest. Stets.

Der TurboScribe-Schritt, bei dem die meisten Menschen ihre Zeitstempel verlieren

Dies ist der Teil, an dem ich eine Warnflagge aufstellen möchte, denn ich habe gesehen, wie sich zwei Freunde auf genau derselben Stufe in den Fuß geschossen haben, und ich möchte nicht, dass Ihnen das passiert.

Laden Sie Ihr aufgenommenes Audio auf TurboScribe hoch – nicht Ihr geschriebenes Skript, sondern Ihre eigentliche Sprachaufnahme. Der Sinn von Zeitstempeln besteht darin, sie gesprochenen Momenten zuzuordnen, was bedeutet, dass die Quelle Audio sein muss. Wenn Sie ein Skript hochladen, sind die Zeitstempel relativ zum Skript, was keine Bedeutung hat, sobald Sie den Editor öffnen. Beginnen Sie immer mit der Audiodatei, die Sie exportiert haben, wenn Sie mit der Aufnahme fertig sind.

TurboScribe verarbeitet die Datei in wenigen Minuten für eine 30-minütige Aufnahme. Wenn es fertig ist, sehen Sie am linken Rand das Transkript mit Zeitstempeln auf Satzebene. Jedes Segment sieht ungefähr so aus:

[00:00:14] Willkommen zurück auf dem Kanal.
[00:00:18] Heute möchte ich über etwas sprechen, das ich seit sechs Monaten vor mir herschiebe.
[00:00:25] Lassen Sie mich zeigen, was ich letzte Woche gebaut habe.

Hier kommt der Punkt, an dem Menschen ihre Zeitstempel verlieren, ohne es zu merken: Klicken Sie nicht auf „PDF exportieren“. Beim PDF-Export werden in einigen Versionen die Zeitstempel entfernt und in anderen der Text neu formatiert. Am Ende erhalten Sie eine Wand aus nicht kommentierten Absätzen, die für den nächsten Schritt unbrauchbar ist.

Was Sie wollen, ist der Schalter „Zeitstempel anzeigen“ im Browser. Klicken Sie darauf, wählen Sie das gesamte Transkript mit cmd-A aus, kopieren Sie es mit cmd-C und fügen Sie es in eine Nur-Text-Datei oder direkt in Claude Code ein. Beim Kopiervorgang bleiben die in Klammern formatierten Zeitstempel sauber erhalten. Dieses Format entspricht genau dem, was die Master-Eingabeaufforderung erwartet.

Während wir speziell über TurboScribe sprechen, ein kurzes Wort zur Preisberechnung, da diese für die Wirtschaftlichkeit des Workflows von Bedeutung ist. Mit dem kostenlosen Kontingent erhalten Sie drei Transkriptionen pro Tag, jeweils auf 30 Minuten begrenzt. Wenn Sie pro Woche ein Langvideo erstellen, bleibt das kostenlose Kontingent unbegrenzt bestehen. Wenn Sie ein langes Video plus Kurzfilme erstellen und jedes einzelne transkribieren möchten, werden Sie wahrscheinlich die Tagesobergrenze erreichen und den kostenpflichtigen Plan benötigen. Der Unlimited-Plan kostet zwanzig Dollar pro Monat, die monatlich in Rechnung gestellt werden, oder zehn Dollar pro Monat, wenn Sie sich jährlich verpflichten. Zehn Dollar pro Monat für unbegrenzte Transkripte mit Zeitstempel sind wirklich günstig, wenn man bedenkt, was der Rest dieses Stapels leistet.

Wenn Sie ein knapperes Budget haben, können Sie Whisper durch die lokale Ausführung ersetzen – es erzeugt das gleiche zeitgestempelte Format und ist kostenlos – aber der Einrichtungsaufwand ist real und die TurboScribe-Web-App lässt sich bei gelegentlicher Verwendung schneller verwenden. Ich halte beides verfügbar und greife neunzig Prozent der Zeit nach TurboScribe.

Die Master-Eingabeaufforderung: Die zum Kopieren und Einfügen bereite Vorlage

Dies ist der Teil des Arbeitsablaufs, für den ich am meisten Iterationen benötigt habe, um ihn richtig hinzubekommen. Deshalb möchte ich Ihnen genau die Eingabeaufforderung geben, die ich jetzt als Basis für Kopieren und Einfügen verwende. Sie müssen den Stil und die visuelle Konzeptführung an Ihren eigenen Kanal anpassen, aber die Struktur ist der entscheidende Teil.

Fügen Sie Folgendes in Claude Code ein und fügen Sie dann Ihr TurboScribe-Transkript darunter ein:

Sie haben den Higgsfield-Skill für Bildgenerierung installiert. Ich werde gleich ein zeitgestempeltes Transkript eines von mir aufgenommenen Videos einfügen. Erzeugen Sie für jede Zeitstempelmarke im Transkript EIN 16:9-Bild, das die Bedeutung dessen visuell darstellt, was in diesem Moment gesagt wurde.

Regeln:
- 16:9-Seitenverhältnis für jedes Bild
- Stil: [STILWORT] — diesen Stil über den gesamten Stapel hinweg konsistent anwenden
- Jedes Bild in ./broll-output/ speichern
- Jede Datei mit dem Zeitstempel aus dem Transkript benennen, im Format HH-MM-SS.png (Bindestriche verwenden, keine Doppelpunkte — Doppelpunkte beschädigen Dateinamen auf manchen Betriebssystemen)
- Der Reihe nach generieren, keinen Zeitstempel überspringen
- Wenn ein Moment abstrakt ist (ein Übergangswort, eine Füllphrase), wählen Sie eine visuelle Metapher — nicht überspringen

Bestätigen Sie vor dem Start, wie viele Bilder Sie generieren werden, und schätzen Sie, wie viele Higgsfield-Credits verbraucht werden. Warten Sie auf mein Okay, bevor Sie generieren.

Das Transkript folgt unten.

Ein paar Dinge, die Sie bei dieser Eingabeaufforderung beachten sollten und warum sie wichtig sind.

Die Doppelpunkt-Ersetzungsregel ist wichtig, da macOS, Windows und die meisten Cloud-Speicheranbieter Dateinamen mit Doppelpunkten ablehnen. Wenn Sie Claude Code Dateien als 00:01:34.png speichern lassen, erhalten Sie kryptische Fehler. Bindestriche beheben das Problem.

Die Zeile "Bestätigen Sie, bevor Sie beginnen" ist wegen der Credits wichtig. Higgsfield berechnet pro Generation, und ein Stapel mit fünfzig Bildern besteht aus fünfzig separaten abrechenbaren Ereignissen. Sie möchten eine Plausibilitätsprüfung der Zahl, bevor Sie Credits ausgeben. Claude Code respektiert diese Übergabe gut - es antwortet etwa mit "Ich werde 47 Bilder mit ungefähr 5-8 Credits pro Bild generieren, geschätzte Gesamtkosten 235-376 Credits" und wartet, bis Sie "go" eingeben. Diese Übergabe ist der Unterschied zwischen einer kontrollierten Verbrennung und einer versehentlichen dreistündigen Credit-Schmelze.

Der Stilwort-Slot ist der Punkt, an dem der Workflow Spaß macht, und er ist der nächste Abschnitt.

Wenn Sie es vorziehen, dass jemand diese gesamte Pipeline als wiederverwendbaren Skill auf Ihrem Computer erstellt, anstatt es selbst herauszufinden, ist dies die Art von Automatisierungsarbeit, die ich im Rahmen meiner Fiverr-Projekte übernehme – ich gebe Ihnen den installierten Stack, eine benutzerdefinierte Master-Eingabeaufforderung, die auf die Stimme Ihres Kanals abgestimmt ist, und einen einzeiligen Befehl, um das Ganze auszuführen.

Die vier Stile, die ich tatsächlich verwende, und wofür jeder einzelne gut ist

Das Stilwort im Master-Prompt ist der stärkste Hebel im gesamten Workflow. Ändern Sie ein Wort und dasselbe Transkript erzeugt eine völlig andere visuelle Identität für das Video. Nachdem ich Dutzende getestet habe, habe ich mich für eine Rotation von vier Stilen entschieden und möchte genau sagen, zu welchem ich in welcher Situation greife.

Standardfoto. Dies ist die Standardeinstellung. Fotorealistisch, klare Beleuchtung, modern, aber nicht aufdringlich. Ich verwende es für Videos im Tutorial-Stil, bei denen die visuelle Aufgabe darin besteht, das Konzept klar zu zeigen, ohne vom Ton abzulenken. Technische Anleitungen, Produktrezensionen, alles, wo ich möchte, dass die B-Rolle den gesprochenen Inhalt unterstützt, anstatt mit ihm zu konkurrieren. Der Higgsfield-Skill verwendet standardmäßig ein starkes fotorealistisches Modell für diesen Stil, und die Ausgabe sieht eher wie redaktionelle Fotografie aus als wie die übersättigte Stockfoto-Ästhetik, die die meisten generischen AI-Bildgeneratoren heimsucht.

Da-Vinci-Skizze. Zu dieser greife ich, wenn es in dem Video um Ideen geht – Analyse, Theorie, alles, was von der Atmosphäre eines „Notizbuchs eines Denkers“ profitiert. Der Da Vinci-Stil erzeugt Texturen aus gealtertem Papier, anatomische Linienführung, mechanische, schematische Schwingungen und das Aussehen des Arbeitstagebuchs eines Renaissance-Universalgelehrten. Insbesondere bei YouTube bewirkt es etwas Interessantes: Es stoppt den Bildlauf. In einem Feed voller glänzender Miniaturansichten und farblich abgestufter Talking Heads fühlt sich ein Video mit sepiafarbenen Renaissance-Skizzen wie eine ganz andere Inhaltskategorie an. Ich habe zwei Videos mit diesem Stil verschickt und beide haben den Durchschnitt meines Kanals deutlich übertroffen.

Aquarell-Filmsequenz. Dies ist das Bild, das ich mir für Storytelling-Videos aufbewahre. Persönliche Aufsätze, Build-Protokolle, alles mit einem Erzählbogen statt einer Tutorialstruktur. Aquarell macht die Bilder weicher, ohne dass Details verloren gehen, das filmische Präfix sagt dem Model, dass es eher wie ein Filmstandbild als wie ein Archivfoto komponieren soll, und die Kombination erzeugt einen B-Roll, der sich emotional warm anfühlt. Ich würde diesen Stil nicht für einen tieferen Einblick in Kubernetes-Netzwerke verwenden. Ich würde es unbedingt für ein Video darüber verwenden, warum ich aufgehört habe, stündlich zu laden.

3D-Rendering. Dies ist die Wahl des Futuristen. 3D im Octane-Stil, sanfte volumetrische Beleuchtung, Materialien mit tatsächlichen physikalischen Eigenschaften, die Ästhetik eines High-End-Produkts offenbart. Ich verwende dies für alles, was mit AI-Tools, Infrastruktur oder Inhalten zur Zukunft der Arbeit zu tun hat. Es signalisiert „Dies ist ein zukunftsweisendes Video über das Nächste“, noch bevor der Ton überhaupt begonnen hat.

Hier ist der Zaubertrick, den das Stilsystem ermöglicht: Sobald Sie einen vollständigen Stapel in einem Stil generiert haben, können Sie Claude Code erneut mit einem anderen Stilwort aufrufen und der gesamte Stapel wird neu generiert. Gleiche Zeitstempel. Gleiche Dateinamen. Andere visuelle Identität. Das Transkript ist der Vertrag; Der Stil ist die oberste Ebene. Ich habe zwei Versionen desselben Videos auf zwei verschiedenen Plattformen veröffentlicht – eine als Standardfoto für YouTube, eine als Da-Vinci-Skizze für ein Outlet im Substack-Stil – und dabei genau das gleiche Transkript und eine Änderung um ein Wort in der Eingabeaufforderung verwendet.

Das ist der Teil des Workflows, der eine einzelne Aufnahme in Multiformat-Inhalte umwandelt, ohne dass die kreative Arbeit noch einmal erledigt werden muss.

CapCut Assembly: Wo der Ordner zu einem Video wird

Sobald Claude Code mit der Generierung des Stapels fertig ist, verfügen Sie über einen Ordner mit dem Namen broll-output/ (oder wie auch immer Sie ihn in der Master-Eingabeaufforderung benannt haben), der vierzig bis einhundert PNG-Dateien enthält, die nach Zeitstempel benannt sind. Die Dateinamen sehen folgendermaßen aus:

00-00-14.png
00-00-31.png
00-01-02.png
00-01-47.png
...

Öffnen Sie CapCut auf dem Desktop. Erstellen Sie ein neues Projekt. Legen Sie Ihre Original-Audiodatei auf der Timeline ab. Ziehen Sie dann den gesamten Ordner broll-output/ in das Medienfenster.

Das ist der Moment, in dem sich der Zeitstempel-Trick auszahlt. CapCut importiert die Bilder und sortiert sie alphabetisch nach Dateinamen – was, da die Dateinamen mit Zeitstempeln beginnen, auch chronologisch ist. Wählen Sie alle aus. Ziehen Sie die Auswahl auf die Videospur über Ihrem Audio. Jedes Bild landet nacheinander, und ein schneller Blick auf die Audiowellenform verrät Ihnen, ob die Zeitabläufe ungefähr übereinstimmen.

Der verbleibende Job ist Snap-to-Audio. Die „Snap“-Funktion von CapCut richtet Clipkanten an nahegelegenen Wellenformspitzen und Timeline-Markern aus. Snap einschalten. Gehen Sie die ersten paar Clips durch und passen Sie sie leicht an, wenn sie um eine halbe Sekunde verschoben sind. Sobald Sie bestätigen, dass der Snap die Zeitstempel berücksichtigt, wird der Rest des Stapels normalerweise ohne Eingreifen erledigt.

Ein paar optionale Bewegungen füge ich oben hinzu, sobald die Basisausrichtung abgeschlossen ist.

Überlagern Sie das ursprüngliche Talking-Head-Video auf einer Unterspur mit einer Deckkraft von 40 bis 60 Prozent, damit der Betrachter sowohl Sie als auch die B-Rolle sieht. Dies ist der Look, der Bildungsinhalte im Jahr 2026 definiert, und CapCut schafft dies sauber mit dem Dropdown-Menü „Mischmodus“ auf der oberen Leiste.

Legen Sie eine subtile Papiertextur-Überlagerung mit geringer Deckkraft über das gesamte Video, um ein taktiles Gefühl zu erzeugen, das reinem digitalem Filmmaterial fehlt. Die meisten Stock-Asset-Bibliotheken enthalten kostenlose Papiertexturen. Die eigene Effektbibliothek von CapCut umfasst ein halbes Dutzend.

Wenden Sie eine einzige LUT (Farbkorrektur) auf die gesamte B-Roll-Spur an, um den Look zu vereinheitlichen. Die Farbtemperatur der erzeugten Bilder schwankt zwischen den Aufnahmen manchmal, und eine LUT, die auf den gesamten Stapel angewendet wird, beseitigt diese Inkonsistenzen.

Die gesamte Montagezeit für ein 30-minütiges Video beträgt, sobald der B-Roll-Stapel fertig ist, etwa zehn Minuten. Vergleichen Sie das mit den drei bis fünf Stunden, die ich früher mit der manuellen Suche und Platzierung von Archivmaterial verbracht habe. Das ist die Zahl, die zählt.

Claude Code + Higgsfield: mein YouTube-Editing-Workflow