Como automatizei a edição de vídeo com Claude Code

Durante seis meses, eu estava mentindo para mim mesmo.

Sempre que alguém me perguntava quanto tempo eu levava para editar um dos meus vídeos, eu respondia “umas duas horas” com o tom casual de quem não está se afogando no momento. A verdade era mais próxima de quatro. Às vezes seis. Em semanas ruins, eu começava a editar uma gravação feita na segunda-feira só na noite de quarta e terminava na sexta, à 1h da manhã, com um café frio na mesa e a convicção de que precisava parar de fazer isso com as próprias mãos.

O ponto de ruptura não foi dramático. Foi numa terça-feira de março. Eu tinha três gravações brutas acumuladas, um prazo de cliente aberto na aba ao lado e uma timeline antiga do Adobe aberta com 74 cortes feitos naquela tarde. Olhei para a barra de progresso — 23% do primeiro vídeo — e fiz as contas. Três vídeos. Seis horas cada. Dezoito horas arrastando formas de onda de áudio e cortando palavras de preenchimento antes de conseguir entregar um único vídeo.

Fechei a timeline. Abri o Claude Code. E prometi a mim mesmo que não voltaria atrás.

O que saiu daquela semana é o fluxo de trabalho que vou te mostrar agora. Não é um pipeline teórico que desenhei num quadro branco. É o stack real que uso hoje para transformar gravações brutas de 30 minutos em vídeos polidos, legendados e com trilha sonora em menos de dez minutos de trabalho manual. O principal insight — aquele que mudou tudo — é que o Claude Code não é o editor. Ele é o maestro. Todo o resto do pipeline é instrumento, e os instrumentos já são excelentes. Só precisavam de alguém para entregar a partitura.

Aqui vai a parte desconfortável que quero tirar do caminho logo: esse fluxo de trabalho não vai substituir o seu gosto. Na verdade, ele o amplifica. As partes da edição em que o gosto importa — ritmo, ênfase, tom, aquele momento de 3 segundos que faz o vídeo funcionar — são ainda mais importantes agora, não menos. O que o pipeline elimina é o trabalho mecânico em torno dessas decisões. O clicar. O arrastar. A fadiga auditiva. A quadragésima quinta vez que você corta manualmente um “uhm” que ninguém sentiria falta.

Deixe-me mostrar como funciona, começando pela peça que ninguém me contou ser a mais importante.

A Parte Que a Maioria Erra Primeiro

Quando desenvolvedores tentam automatizar a edição de vídeo com IA pela primeira vez, quase sempre recorrem ao mesmo martelo: “Vou escrever um script em Python que usa o FFmpeg para cortar silêncios e gerar um vídeo de destaques.” Eu tentei isso. O resultado foram vídeos que pareciam feitos por um robô tendo uma convulsão. Os cortes caíam em consoantes. Pausas importantes eram eliminadas. A personalidade da gravação evaporava.

A lição: automação em nível de áudio não é edição. Edição é uma tarefa semântica, não acústica. Você não corta com base na presença de silêncio — você corta com base no significado do que foi dito. E até este ano, essa distinção tornava a automação completa praticamente impossível.

O que mudou é que agora temos ferramentas atuando em três diferentes camadas de abstração, e o Claude Code pode orquestrar todas elas ao mesmo tempo:

A camada semântica — edição baseada em texto no Descript, onde a transcrição é a linha do tempo
A camada de precisão — transcrições do Whisper com marcação de tempo que informam, no milissegundo, quando cada palavra foi dita
A camada de renderização — Remotion, um framework React onde animações e overlays são código que você pode gerar programaticamente

A mágica não está em nenhuma dessas ferramentas isoladamente. Está no fato de que o Claude Code pode ler a saída de uma, raciocinar sobre ela e alimentar a próxima — com o contexto do que o vídeo inteiro deve se tornar. É isso que quero dizer quando digo que o Claude Code é o maestro.

Mas antes de chegarmos à orquestração, você precisa ver o pipeline bruto, camada por camada. Porque se você não entender o que cada ferramenta faz e por quê, os prompts que vou te entregar no final não farão sentido.

O Pipeline Completo, Camada por Camada

Vou explicar tudo na ordem em que o vídeo realmente percorre o sistema. Sete etapas. Cada uma resolve um problema específico que costumava consumir minhas tardes.

Etapa 1: Gravação Bruta no Descript

Assim que termino de gravar, os arquivos MOV vão direto para o Descript. Nada de Final Cut. Nada de Premiere. Nada de deixar numa pasta por três dias enquanto crio coragem para editar.

O Descript é a ferramenta mais subestimada do stack moderno de criadores. As pessoas acham que é um “Google Docs para vídeo”, o que é simpático, mas diminui seu valor. O que o Descript realmente faz é transformar seu vídeo em um objeto de texto de primeira classe. A transcrição vira a linha do tempo. Apague uma frase da transcrição e a seção correspondente do vídeo desaparece. Reorganize parágrafos e o vídeo se reordena sozinho.

O primeiro corte que faço no Descript é impiedoso. Vasculho a transcrição em busca de três coisas:

Frases repetidas — aqueles momentos em que falei algo, pausei e repeti de forma um pouco melhor. Fico com a segunda tentativa. Seleciono, deleto.
Tangentes sem saída — quando comecei a explicar algo, percebi que era o caminho errado e mudei de assunto. O parágrafo inteiro vai embora.
Takes ruins — blocos inteiros em que a energia estava baixa ou perdi o fio da meada. Fora.

Essa é a parte da edição em que o gosto é inegociável. Não quero o Claude Code tomando essas decisões. Quero um cérebro humano lendo a transcrição e decidindo qual versão de mim vai para o mundo. Leva cerca de 8 minutos para uma gravação bruta de 30 minutos.

No plano Creator do Descript, que custa US$ 24/mês no faturamento anual em abril de 2026, você tem 30 horas de processamento de mídia e 800 créditos de IA — mais do que suficiente para uma cadência semanal de publicação. O plano gratuito limita a 60 minutos por mês, o que é ótimo para testar o fluxo de edição baseada em texto sem compromisso.

Ao final da Etapa 1, o vídeo está semanticamente limpo. Cada frase na transcrição é uma frase que realmente quero no corte final. Mas ainda respira de forma estranha. O que nos leva ao segundo corte.

Etapa 2: Encurtando Pausas com a IA do Descript

Aqui é onde a ferramenta justifica o preço. O Descript tem um recurso chamado “Shorten Word Gaps” que escaneia o áudio e detecta cada pausa entre palavras maior que um limite que eu defino. Eu configuro para 0,2 segundos. Qualquer coisa maior é automaticamente ajustada.

Na primeira vez que usei, quase não publiquei o resultado porque achei que soaria picotado. Não soou. Parecia que eu tinha passado vinte minutos por vídeo ajustando o ritmo — como se cada pausa fosse intencional. Em uma gravação de 30 minutos, só isso já reduz cerca de 2 minutos do tempo total, mas, mais importante, eleva a percepção de qualidade de produção em um nível inteiro. Pessoas disseram que minha energia parecia maior. Minha energia não mudou. O silêncio entre minhas palavras foi cortado pela metade.

Observação — testei limites de 0,15 a 0,35 segundos. Abaixo de 0,2, o áudio começa a soar comprimido e ansioso. Acima de 0,25, a melhoria no ritmo fica invisível. 0,2 é o ponto ideal para meu ritmo de fala. O seu pode variar alguns centésimos de segundo. Teste três limites no mesmo clipe e escolha pelo ouvido — não terceirize essa decisão.

Há um desvio opcional aqui: o Descript também tem uma ferramenta “Remove Filler Words” que elimina automaticamente “é”, “ah”, “tipo” e outros cacoetes verbais. Uso de forma seletiva. Em explicações técnicas, deixo rodar no máximo. Em momentos de storytelling, desligo — os fillers fazem parte do ritmo humano, e tirar todos faz você soar como um TTS. Questão de gosto.

Ao final da Etapa 2, o áudio está enxuto. O que exporto do Descript é um MP4 limpo — sem gráficos, sem música, sem legendas. Só o apresentador, falando, no ritmo que quero. Esse arquivo é a base sobre a qual tudo será empilhado.

Etapa 3: Música do Epidemic Sound

Busco música de fundo no Epidemic Sound por um motivo que não tem nada a ver com estética: segurança de direitos autorais. Todas as faixas da plataforma são licenciadas para criadores usarem em canais monetizados sem disputas de reivindicação. Já vi amigos perderem meses de receita por uma trilha não liberada na introdução. Não vale a pena. Nunca.

Meus critérios de seleção:

Só instrumental (letras competem com a fala de um jeito cansativo)
Tempo entre 80-110 BPM (rápido o suficiente para dar energia, lento o bastante para não competir)
Tom harmônico que não conflite com meu registro de voz
Duração pelo menos 90 segundos maior que o vídeo, para ter espaço de fade

Baixo o WAV, coloco na pasta do projeto e sigo em frente. Essa etapa leva uns 90 segundos depois que você monta sua playlist “coringa” de cinco ou seis faixas para revezar.

Etapa 4: Extração de Áudio com FFmpeg

Agora o pipeline começa a ficar programático. Preciso fazer duas coisas: mixar a música sob o áudio do apresentador e gerar uma transcrição perfeita com timestamps para a etapa de overlay.

Primeiro, extraio o áudio do apresentador do export do Descript usando FFmpeg:

ffmpeg -i descript-export.mp4 \
  -vn \
  -acodec pcm_s16le \
  -ar 16000 \
  -ac 1 \
  speaker.wav

Isso me dá um WAV mono de 16kHz, que é o formato preferido do Whisper. Depois, monto o áudio master mixado — apresentador a 0 dB, música reduzida para -18 dB sob a fala, com fade in de 2 segundos e fade out de 3 segundos:

ffmpeg -i speaker.wav -i music.wav \
  -filter_complex "[1:a]volume=0.13,afade=t=in:st=0:d=2,afade=t=out:st=VIDEO_END-3:d=3[music]; \
                   [0:a][music]amix=inputs=2:duration=first:dropout_transition=2[out]" \
  -map "[out]" master-audio.wav

Eu costumava escrever essas cadeias filter_complex do zero e depurá-las por vinte minutos. Agora, colo os metadados do áudio e o mix desejado no Claude Code e peço para gerar o comando. Toda vez, acerta de primeira. Toda vez.

Etapa 5: Transcrição com Timestamp via Whisper

O Descript já me deu uma transcrição, então por que preciso de outra? Porque a transcrição do Descript existe para edição humana. A do Whisper existe para composição automática.

Quando envio o speaker.wav para a API Whisper da OpenAI a US$ 0,006 por minuto (em abril de 2026), o retorno não é só texto — é cada palavra com início e fim precisos ao milissegundo. Para um vídeo de 10 minutos, a chamada custa 6 centavos e leva cerca de 40 segundos. Pelo preço de um café do Starbucks, posso transcrever mais de 500 minutos de áudio com precisão de quadro.

O Python que uso é esse — nada sofisticado, é literalmente o que roda:

from openai import OpenAI
import json

client = OpenAI()

with open("speaker.wav", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        response_format="verbose_json",
        timestamp_granularities=["word"]
    )

with open("transcript.json", "w") as f:
    json.dump(transcript.model_dump(), f, indent=2)

O parâmetro timestamp_granularities=["word"] é o segredo. Sem ele, você recebe timestamps por frase, o que é inútil para legendas animadas. Com ele, recebe um JSON onde cada palavra tem campos start e end. Esse arquivo vira a entrada que alimenta todos os overlays na próxima etapa.

Se você se preocupa com otimização de custo, o GPT-4o Mini Transcribe custa US$ 0,003 por minuto — metade do preço do Whisper — mas a precisão dos timestamps por palavra varia. Para meu caso (legendas animadas em que cada palavra precisa piscar no milissegundo exato), o Whisper ainda é a melhor escolha. Para transcrição em massa de podcasts, o Mini resolve.

Etapa 6: Remotion para Gráficos Programáticos

Aqui o Claude Code deixa de ser assistente e vira motor. O Remotion é um framework baseado em React para renderizar vídeos como código, e a linha mais recente (atualmente na versão 4.0.448 em abril de 2026) já traz integração com Claude Code, tornando o prompt de uma composição tão natural quanto o de uma landing page.

Como o Remotion funciona: cada frame do seu vídeo é um componente React. Animações são funções de interpolação do frame atual. Overlays de texto são JSX. Um vídeo de 60 segundos a 30 fps são só 1.800 renderizações de uma árvore de componentes, costuradas em um MP4 no final. Parece engenharia demais para overlay de texto? É — mas veja o que você ganha:

Legendas sincronizadas direto do JSON do Whisper. Sem ajuste manual. Sem arrastar keyframes. A palavra “automação” aparece na tela exatamente quando é dita porque o componente lê o transcript.json e compara o frame atual com os timestamps das palavras.
Gráficos consistentes com a marca em todos os vídeos. Meus lower-thirds, intro card, CTA de encerramento — todos são componentes React que recebem props. Vídeo diferente? Props diferentes. Mesmo design system. Nunca refaço.
Controle de versão de verdade. O vídeo inteiro é um repositório Git. Diffs mostram o que mudou. Branches isolam experimentos. Pull requests revisam mudanças visuais como revisam código.

O componente que me surpreendeu na primeira vez foi a legenda animada. Pedi ao Claude Code: “Crie um componente Remotion que leia o transcript.json, renderize cada palavra como overlay no terço inferior da tela e destaque a palavra falada no momento com a cor da marca. Tipografia: Inter, 56px, peso 800. Contorno: 3px preto. Cor da palavra falada: #8B5CF6.”

Quarenta e cinco segundos depois, eu tinha um componente funcional. Renderizou perfeito de primeira. Desde então, fui refinando — curvas de easing melhores, sombras, um pop sutil na troca de palavra — mas a base que o Claude Code produziu sustenta todos os vídeos que lancei desde então.

Tem um ponto em aberto que deixei antes e quero resolver aqui, porque quase me fez desistir do Remotion. O problema: na primeira vez que você abre um projeto Remotion com vídeo longo e transcrição grande, o preview no Remotion Studio engasga. Forte. O fps cai, a timeline trava, e você acha que fez algo muito errado. Não fez. O Remotion renderiza o preview em tempo real em uma thread só, e quando a composição fica complexa, essa thread não aguenta. O conserto é contraintuitivo — renderize um trecho curto do resultado final, assista ao MP4, depois volte a editar o código. Não confie no preview ao vivo para decisões de ritmo em vídeos acima de 60 segundos.

Etapa 7: Remotion Studio + Claude Code para Preview e Render Final

A última etapa acontece com duas janelas abertas na minha área de trabalho: Remotion Studio à esquerda, Claude Code à direita. Aqui a metáfora do maestro vira literal.

Meu loop é assim:

Preview no Remotion Studio. Navego pela composição. Procuro problemas de timing, bugs gráficos, qualquer coisa estranha.
Descrevo o ajuste para o Claude Code. “O logo da marca na intro aparece no frame 12, mas precisa entrar no beat no frame 18.” “A cor do destaque da legenda está muito fraca — mude para #A78BFA.” “Adicione um crossfade de 0,5 segundo entre o intro card e o conteúdo principal.”
Deixo o Claude Code editar o componente. Como as composições Remotion são React, toda mudança é um edit de código. O Claude Code faz o ajuste, o Remotion Studio recarrega, e vejo o resultado em segundos.
Repito até o preview ficar certo.
Renderizo o MP4 final pelo terminal. npx remotion render. Saio. Volto em 3-5 minutos com o vídeo pronto.

Esse loop é o segredo. Aqui o trabalho de 3-6 horas de edição vira minutos de atuação. Porque no momento em que descrevo o problema, em vez de arrastar o problema, o multiplicador entra em ação. Dez revisões em uma hora costumava ser uma boa tarde. Agora é só o aquecimento.

Se preferir pular o build completo Claude Code + Remotion e só promptar vídeos direto, escrevi um post complementar sobre as skills de agente do Remotion para Claude Code cobrindo a entrada mais leve. Mas se você publica vídeos semanalmente, investir no pipeline completo se paga já no primeiro mês.

A Verificação Humana Que Me Recuso a Pular

Aqui está a parte que aprendi do jeito mais difícil: uma única frase duplicada pode destruir a confiança em todo o fluxo de trabalho.

No primeiro vídeo que publiquei usando o pipeline completo, houve um momento em que eu disse uma frase, fiz uma pausa para tomar um gole de café e, em seguida, repeti exatamente a mesma frase, só que de forma um pouco diferente. A transcrição gerada por IA do Descript detectou isso na segunda análise, mas não na primeira — porque meu ritmo durante a pausa enganou o detector de “frase repetida”. O vídeo final renderizado ficou com a frase duas vezes, em sequência, com um corte seco estranho de meio segundo entre elas.

Só percebi o erro quando um espectador me mandou uma mensagem privada quatro horas após a publicação. Esse foi o último vídeo que publiquei sem uma verificação humana final.

Agora, todo vídeo recebe uma última revisão, assistida em 1,5x de velocidade com meu dedo no espaço. Não estou procurando por edições minuciosas — essas já foram resolvidas. Estou atento aos modos de falha específicos que o pipeline pode deixar passar:

Frases repetidas em que fiz uma pausa entre as tomadas e o silêncio escondeu a duplicação
Legendas que escreveram errado um termo técnico (o Whisper às vezes escreve “react” quando eu disse “React”)
Entradas de música que não coincidem com as divisões das seções
Qualquer momento em que os gráficos renderizados não correspondem à minha intenção

Essa etapa leva de 4 a 6 minutos em um vídeo de 10 minutos. É inegociável. Já tentei pular duas vezes e me arrependi em ambas.

O Que Realmente Me Surpreendeu

Eu comecei esse projeto esperando que o principal benefício fosse "menos tempo gasto". O que recebi foi diferente.

A consistência me surpreendeu. Quando cada vídeo é produzido pelo mesmo pipeline com os mesmos componentes, eles começam a parecer episódios de um mesmo programa, em vez de uploads aleatórios de alguém cansado. Os inscritos perceberam antes de mim. O comentário "seus vídeos estão ficando muito mais profissionais ultimamente" começou a aparecer, e a verdade é que eu passei menos tempo neles, não mais.

A velocidade de revisão mudou o que estou disposto a tentar. Quando uma rodada de edição leva dois minutos em vez de duas horas, você experimenta. Você tenta aquela escolha musical incomum. Você adiciona a piada arriscada. Você move o gancho para mais cedo. O custo de "ops, desfaz isso" é tão baixo que a ambição criativa se expande para ocupar o tempo que antes era gasto em tarefas mecânicas.

A capacidade de orquestração do Claude Code foi o que mais me surpreendeu. Eu sabia que ele podia escrever componentes Remotion. Não sabia que ele conseguia manter o estado de todo o pipeline em mente — ler a exportação do Descript, saber que a saída do Whisper está aguardando, gerar o comando FFmpeg, estruturar a composição Remotion e depurar os erros de renderização — tudo em uma única sessão. Isso é algo que os "editores de vídeo com IA" genéricos não conseguem fazer. Eles trabalham etapa por etapa. O Claude Code executa a música inteira.

E um ponto importante para criadores não técnicos: você não precisa saber React para rodar esse fluxo de trabalho. Você precisa saber descrever o que quer. A complexidade da configuração está no primeiro prompt, não no CLI. Se você consegue dizer ao Claude Code "quero um componente de legenda animada que leia o transcript.json e destaque a palavra atual em roxo", você pode rodar esse pipeline sem escrever JSX. O Claude Code vai escrever. Você vai executar. O MP4 será renderizado.

O teto é mais alto se você entende o código. Mas o chão é mais baixo do que a maioria dos tutoriais para desenvolvedores costuma admitir.

Onde Ainda Encontro Barreiras

Quero te mostrar o mapa real, não a versão de folheto.

A sincronização da música ainda é manual. Ainda não encontrei uma forma confiável de sincronizar automaticamente as quebras de seção do vídeo com os momentos de batida da música. Faço isso de ouvido, ajustando os tempos de início das Sequence no Remotion até que as transições fiquem naturais. Talvez uma futura versão do Claude Code leia as formas de onda do áudio e sugira pontos de corte. Por enquanto, é meu ouvido que manda.

O Whisper erra termos técnicos. Todo vídeo sobre Claude Code, Remotion, TypeScript ou qualquer termo técnico de marca exige uma revisão de busca e substituição no JSON da transcrição antes de importar para o Remotion. Escrevi um pequeno script em Python com um dicionário de correções comuns, e o Claude Code mantém esse dicionário para mim. Mas ainda reviso as legendas manualmente antes de renderizar.

O tempo de renderização cresce com a complexidade da composição. Um vídeo de 10 minutos com legendas simples é renderizado em 3 minutos no meu MacBook Pro M2. Adicione efeitos de partículas, curvas de easing complexas e composição em múltiplas camadas, e esse mesmo vídeo leva de 12 a 15 minutos. Isso não é uma falha do fluxo de trabalho — é física. Mas se você busca o sonho do “vídeo pronto em dez minutos”, mantenha o orçamento de efeitos modesto.

O preview do Remotion Studio fica lento, como mencionei antes. Qualquer composição acima de 60-90 segundos começa a travar. Trabalhe em segmentos menores, gere previews em MP4 e não confie no scrubber em tempo real para decisões de ritmo em vídeos longos.

A Mudança Mensurável

Estou rodando esse pipeline completo há oito semanas, desde abril de 2026. Aqui estão os números, baseados nos meus próprios registros e não em benchmarks inventados:

Tempo médio de edição manual por vídeo: Caiu de aproximadamente 4 horas para cerca de 25 minutos — e a maior parte desses 25 minutos está no Estágio 1 (edição rigorosa da transcrição) e no Estágio 7 (verificação humana). Os estágios intermediários, conduzidos pela máquina, exigem talvez 6-8 minutos de atenção ativa.
Cadência de publicação: Agora estou publicando 2-3 vídeos por semana, antes era 1 em uma semana boa. O gargalo passou do tempo de edição para o tempo de gravação, o que é um problema muito melhor de se ter.
Consistência entre os vídeos: Todos os vídeos agora usam o mesmo estilo de legenda, lower-third, cartão de introdução e CTA de encerramento. Antes, cada vídeo apresentava pequenas variações visuais porque eu reconstruía os gráficos manualmente. Esse desvio desapareceu.

Deliberadamente, não estou citando números específicos como “receita aumentou X%” porque não tenho uma atribuição limpa e não vou inventar. O que posso afirmar é que publicar três vezes mais conteúdo sem perder qualidade gerou exatamente o efeito composto esperado. O canal cresceu. O inbound cresceu. Os estudos de caso da Ramlit começaram a atrair conversas com empresas porque eu finalmente podia mostrar o trabalho em vez de apenas descrevê-lo.

A Única Coisa Que Eu Diria Para Mim Mesmo Seis Meses Atrás

Comece pelo pipeline, não pelas ferramentas.

O erro que cometi no primeiro mês foi tentar dominar o Descript, depois dominar o Remotion, depois dominar o Whisper — como se cada ferramenta fosse uma habilidade separada. O avanço aconteceu quando parei de tratá-las como ferramentas individuais e passei a enxergá-las como etapas de um único pipeline que o Claude Code iria orquestrar.

Depois que você faz essa mudança de mentalidade, a pergunta deixa de ser "como eu aprendo Remotion?" e passa a ser "como eu descrevo o que quero que essa etapa produza, e como essa saída alimenta a próxima etapa?" Essa é uma pergunta que você consegue responder em uma única tarde com o Claude Code do outro lado da conversa, iterando com você até o pipeline fluir.

Seis meses atrás, eu estava arrastando clipes numa timeline às 1 da manhã de uma sexta-feira, esgotado e ressentido com o meu próprio conteúdo. Hoje à noite, escrevi este post, gravei um vídeo de 28 minutos sobre o mesmo tema, e quando você estiver lendo isso, esse vídeo já estará no ar — processado exatamente pelo pipeline que acabei de descrever. Tempo total de trabalho manual do bruto ao MP4 publicado: provavelmente 40 minutos, a maior parte assistindo e aprovando, não clicando.

Os vídeos que antes me faziam perder fins de semana agora são o que eu publico enquanto o café ainda está quente. As horas que costumavam sumir em edições de timeline agora são horas que passo fazendo o trabalho que realmente importa — pensando, escrevendo, publicando, construindo. Essa era a troca que eu queria desde o início. No fim das contas, a ferramenta que tornou isso possível não foi um editor melhor. Foi um maestro melhor.

Se você está sentado sobre um HD cheio de gravações brutas e uma agenda cheia de prazos, aqui vai meu desafio: escolha um vídeo. Só um. Passe ele por esse pipeline do início ao fim neste fim de semana. Não precisa ser perfeito — você vai errar no primeiro render, as legendas vão sair erradas, a música vai brigar com a voz. Tudo bem. No segundo vídeo, o pipeline já começa a se encaixar na sua mão. No quinto, você vai se perguntar como já editou de outro jeito.

A timeline não vai voltar. E, sinceramente? Não sinto falta.

Perguntas Frequentes

Preciso saber React para usar o Claude Code com Remotion?

Não — você pode executar todo o pipeline sem escrever JSX. O Claude Code gera os componentes Remotion a partir de descrições em inglês simples, e o Remotion Studio permite que você visualize o resultado. Conhecer React amplia o nível de personalização possível, mas não é obrigatório para publicar seu primeiro vídeo. Para um passo a passo mais detalhado da integração Claude Code + Remotion, confira a seção do fluxo de trabalho Remotion + Claude Code acima.

Quanto custa esse pipeline completo por vídeo?

Para um vídeo finalizado de 10 minutos, espere cerca de US$ 0,06 pela transcrição via Whisper API, uma fração proporcional do plano Creator do Descript a US$ 24/mês, uma assinatura da Epidemic Sound a partir de US$ 15/mês e sua assinatura do Claude Code. Considerando uma publicação semanal, o custo total das ferramentas fica entre US$ 40-60/mês, independentemente de quantos vídeos você produza — que é justamente a proposta do pipeline de custo fixo.

O Claude Code consegue editar vídeos sem o Remotion?

O Claude Code pode operar o FFmpeg diretamente para cortes simples, concatenação e mixagem de áudio — o que já é útil para edições básicas. O Remotion entra em cena quando você precisa de gráficos programáticos, legendas animadas ou sobreposições de marca que se atualizam automaticamente em todos os vídeos. Para um fluxo de trabalho de cortes brutos sem gráficos, você pode pular o Remotion completamente e ainda economizar horas por vídeo.

Qual é o maior ponto de falha em um fluxo de edição de vídeo automatizado?

Frases repetidas que passam despercebidas pela etapa de limpeza da transcrição. O encurtamento de lacunas por IA e o editor baseado em texto do Descript capturam a maioria, mas gravações com longas pausas entre tomadas podem enganar o detector de duplicatas. A solução é uma verificação humana obrigatória em velocidade 1,5x antes da publicação — 4 a 6 minutos assistindo com o dedo no espaço, capturando as falhas que o pipeline não consegue detectar.

Whisper ou GPT-4o Mini Transcribe: qual é melhor para legendas?

O Whisper, a US$ 0,006/minuto, é a melhor escolha para legendas animadas que exigem precisão de timestamp em nível de palavra. O GPT-4o Mini Transcribe, a US$ 0,003/minuto, é excelente para transcrições em massa quando você só precisa do texto fiel, mas o timing palavra a palavra pode variar. Para o fluxo de legendas sobrepostas no Remotion, mantenha o Whisper e use o parâmetro timestamp_granularities=["word"].

Vamos Trabalhar Juntos

Quer construir sistemas de IA, automatizar fluxos de trabalho ou escalar sua infraestrutura tecnológica? Eu adoraria ajudar.

Fiverr (projetos e integrações personalizadas): fiverr.com/s/EgxYmWD
Portfólio: mejba.me
Ramlit Limited (soluções empresariais): ramlit.com
ColorPark (design & branding): colorpark.io
xCyberSecurity (serviços de segurança): xcybersecurity.io

Como automatizei a edição de vídeo com Claude Code