Pipeline de Vídeo com IA: HeyGen, 11 Labs e Claude Code

A renderização terminou às 3h47 da manhã. Sei disso porque o cooler do meu notebook desligou com tanta força que me acordou. Cambaleei até a mesa, dei play no arquivo de saída e assisti a uma versão de mim mesmo que eu não havia gravado, apresentando uma aula de 9 minutos que eu não tinha falado. A sincronização labial estava impecável. Os gestos pareciam naturais. A voz era minha — exceto que não era.

Fui dormir às 23h30 depois de jogar um roteiro no Google Drive. Enquanto eu dormia, o Claude Code dividiu o roteiro em partes, enviou cada trecho para o 11 Labs para síntese de voz, repassou o áudio para o HeyGen comandar um avatar treinado com 15 segundos de imagens da minha webcam, automatizou uma restrição da API do HeyGen com o Playwright e costurou tudo no Remotion com texto na tela. Custo total do vídeo finalizado de 10 minutos: cerca de US$ 50. Trabalho humano após apertar “iniciar”: zero.

Esse é o pipeline de produção de vídeo com IA que venho testando silenciosamente nos últimos dois meses. Não é um brinquedo. Ele atravessa o vale da estranheza de forma tão convincente que três pessoas a quem mostrei o resultado perguntaram quando eu tinha gravado aquilo. E o mais interessante não é o avatar — é que o gargalo da produção de vídeo acabou de mudar. Para sempre.

Pipeline de Vídeo com IA: HeyGen, 11 Labs e Claude Code

Nos últimos dois anos, cada aula de curso, explicação e tutorial que publiquei exigia o mesmo ritual. Montar a câmera. Ajustar a iluminação. Gravar uma tomada. Tropeçar em uma frase. Gravar de novo. Entregar o material para um editor. Esperar de três a cinco dias. Revisar. Pedir ajustes. Esperar mais dois dias. Publicar.

O custo desse processo era de aproximadamente US$ 300 por vídeo finalizado de 10 minutos em taxas de edição, além de cerca de quatro horas do meu próprio tempo entre gravação e revisões. Para um curso com 40 aulas, isso representa US$ 12.000 e um mês inteiro no calendário antes de alguém clicar em “matricular-se”.

Essa matemática foi o que me levou a testar esse pipeline a sério. Não buscava novidade. Procurava uma forma de entregar o conteúdo em vídeo de um curso inteiro em uma semana, em vez de um trimestre, sem que a qualidade despencasse. O que encontrei foi mais estranho e útil do que eu esperava.

Antes de mostrar o passo a passo da configuração, vale dizer uma coisa logo de cara: esse pipeline foi criado para conteúdo escalável. Aulas de cursos. Treinamentos internos. Transformação de blog em vídeo. Ele não substitui os vídeos que gravo para meu canal pessoal no YouTube, e vou explicar exatamente o motivo na seção “real talk”. A ferramenta importa menos do que saber quando usá-la.

As Quatro Ferramentas e o Que Cada Uma Realmente Faz

O pipeline possui quatro componentes. Cada um deles executa uma tarefa específica, e entender essa divisão de trabalho é o que separa um fluxo de trabalho que entrega resultados de outro que desmorona na primeira vez que um bloco falha silenciosamente.

HeyGen cuida do visual. O modelo Avatar 5 deles — lançado no final de 2025 e continuamente aprimorado até a versão de novembro de 2025 — foi o que finalmente arrastou os avatares de IA para além do vale da estranheza. O modelo é treinado com cerca de 10 milhões de pontos de dados de expressões faciais e constrói um gêmeo digital a partir de apenas 15 segundos de gravação de webcam. No meu setup, enviei cerca de 10 GB de vídeos meus já existentes, falando em diferentes níveis de energia, porque queria que o avatar carregasse meu vocabulário gestual, não só meu rosto. Segundo a página de pesquisa do Avatar V da HeyGen, o modelo agora reproduz movimentos de cabeça característicos, ritmo gestual e microexpressões — o que bate exatamente com o que vi nos resultados. Um detalhe: o Avatar 5 é limitado a segmentos de 3 minutos por geração. Essa restrição determina praticamente todas as decisões arquiteturais a jusante.

11 Labs cuida da voz. Alimentei o sistema de clonagem de voz deles com cerca de duas horas de áudio limpo — gravações de podcast, narrações de tutoriais, alguns screencasts narrados — bem acima do mínimo de 30 minutos recomendado na documentação, mas dentro da faixa de 2+ horas que a ElevenLabs destaca para Clonagem de Voz Profissional. Os quatro controles que importam são velocidade, estabilidade, similaridade e exagero de estilo. Após testes, cheguei a estabilidade em torno de 0,7 e similaridade em torno de 0,8, o que coincide quase exatamente com o que a comunidade deles considera o ponto ideal para trabalhos de voz de apresentador. Eis o detalhe menos óbvio: a qualidade da voz se degrada visivelmente após cerca de 1 minuto de geração contínua. Artefatos aparecem. A cadência fica monótona. Por isso, cada roteiro é dividido em blocos de 45-60 segundos antes mesmo de chegar à API.

Claude Code é a camada de orquestração. É aqui que tudo vive ou morre. O Claude Code puxa roteiros do Google Drive, divide-os em blocos de 45-60 segundos nas fronteiras das frases, envia cada bloco para o 11 Labs com minha voz e configurações de parâmetros já embutidas, coleta o áudio retornado, entrega cada arquivo de áudio ao HeyGen com o ID do avatar correspondente, monitora os jobs de renderização, baixa os resultados e coloca tudo na pasta certa para a próxima etapa. Ele também faz algo mais inusitado, que vou explicar em breve — usando Playwright para automatizar uma solução via navegador porque o HeyGen ainda não expôs o Avatar 5 na API pública.

Remotion cuida da edição. O áudio é transcrito, as palavras são sincronizadas com o texto na tela, os clipes são costurados nas fronteiras naturais das frases onde foram originalmente divididos, e motion graphics e legendas são adicionados em camadas. Se quiser entender a fundo por que vídeos-como-componentes-React mudam tudo em vídeo programático, detalhei isso no meu artigo sobre como crio vídeos promocionais com código, não editores — esse texto complementa bem este aqui.

Esse é o stack. Quatro ferramentas, cada uma fazendo uma coisa bem feita, com o Claude Code como o tecido conectivo que faz tudo operar como um pipeline único, e não como quatro SaaS desconectados.

Dentro do Pipeline: O Que Realmente Acontece Entre 23h30 e 3h47

Aqui está o fluxo de ponta a ponta para um único roteiro. Vou detalhar desde “Mejba coloca um arquivo .md no Drive” até “um MP4 renderizado aparece na minha pasta de saída”.

Passo 1: Ingestão do roteiro. Eu escrevo ou edito um roteiro de aula em um Google Doc, formato em markdown e coloco em uma pasta específica do Drive. Essa pasta tem um watcher do Claude Code apontado para ela. No momento em que um novo arquivo aparece, o Claude lê, normaliza a formatação, remove notas do apresentador e salva uma versão limpa localmente.

Passo 2: Segmentação semântica. O Claude Code divide o roteiro em blocos de 45 a 60 segundos. As divisões acontecem nos limites das frases, e o Claude evita especificamente cortar no meio de um raciocínio ou exemplo. Um bloco terminando em “...e aqui está o porquê” com a conclusão no próximo bloco gera um glitch audível, então o splitter é instruído a preferir pontos naturais de pausa — fim de parágrafo, fim de etapa numerada, antes de uma palavra de transição como “mas” ou “então”. Essa única regra é a diferença entre um vídeo que soa contínuo e outro que parece montado a partir de cartões de fala.

Passo 3: Síntese de voz por bloco. Cada bloco vai para o 11 Labs com minha voz clonada, estabilidade 0,7, similaridade 0,8, velocidade 1,0, exagero de estilo baixo. O áudio retorna como MP3. O Claude Code cronometra cada arquivo — se algum bloco ultrapassar 60 segundos de áudio, ele sinaliza o bloco para redivisão. Esse loop de captura e repetição já salvou pelo menos uma renderização completa de degradar silenciosamente no meio do processo.

Passo 4: Renderização de avatar por bloco. Cada arquivo de áudio vai para o HeyGen emparelhado com meu ID de avatar. O HeyGen gera um clipe de vídeo do avatar falando exatamente aquele áudio. Como cada bloco tem menos de 60 segundos, todos os clipes ficam confortavelmente abaixo do limite de 3 minutos do Avatar 5. O tempo de renderização varia, mas planeje de 2 a 4 vezes o tempo do áudio.

Passo 5: O workaround com Playwright. Esta é a parte que pareceu quase criminosa na primeira vez que rodei. No momento em que escrevo, a API pública do HeyGen define novos renders por padrão para o Avatar 4, não o Avatar 5. O Avatar 4 é ok. O Avatar 5 é o que realmente cruza o uncanny valley. Então o Claude Code executa um script de navegador Playwright que faz login no HeyGen, abre cada render pendente e clica para atualizar para o Avatar 5 antes da finalização da geração. É feio. Funciona. O HeyGen eventualmente vai expor isso pela API — as notas de lançamento de novembro de 2025 já sinalizam forte investimento no Avatar V — e todo esse passo vai desaparecer. Até lá, o Playwright é a ponte.

Passo 6: Edição com Remotion. Todos os clipes de avatar vão para uma pasta. O Remotion os puxa na ordem, faz a transcrição do áudio, posiciona legendas e títulos de seção na tela nos timestamps corretos, adiciona transições entre os blocos (pequenos crossfades de 200ms nos limites das frases onde ocorreram as divisões — você literalmente não consegue ver), e renderiza o MP4 final composto.

Passo 7: Entrega. O vídeo final cai na pasta de saída. O Claude Code o marca com o nome do roteiro, escreve um resumo do job de renderização (quantidade de blocos, tempo total, eventuais repetições) e — se eu tiver configurado — envia uma mensagem no Slack avisando que o render está pronto.

Sete passos. Zero intervenção humana entre os passos 1 e 7. Eu inicio o pipeline antes de dormir, e o café da manhã chega com um vídeo pronto.

A Única Regra Que Salva Todo o Pipeline

Se eu pudesse voltar no tempo e dizer uma coisa para mim mesmo antes da primeira execução fracassada durante a noite, seria esta: o teto de qualidade de todo o pipeline é definido por quão bem você fragmenta o roteiro.

Não é pela qualidade do avatar. Não é pelo modelo de voz. Não é pelo código de orquestração. É pela fragmentação.

Fragmentos que quebram no meio de um raciocínio produzem descontinuidades audíveis. Fragmentos com mais de 60 segundos destroem a qualidade do 11 Labs. Fragmentos que começam com uma conjunção ("Mas veja bem...") perdem o ritmo contextual e ficam sem impacto. Passei uma tarde inteira ajustando o prompt do fragmentador até conseguir uma saída consistente durante a noite. A versão final trata o separador como um mini-editor: ele precisa produzir fragmentos que possam ser entregues como sentenças independentes, mas que ainda fluam naturalmente quando reproduzidos em sequência.

Se você está construindo esse pipeline, reserve mais tempo para o fragmentador do que imagina. É isso que separa o "nossa, impressionante" do "espera, você não gravou isso?"

Quanto Realmente Custa Rodar Isso

Aqui está a matemática mensal para o stack que descrevi, com base nos níveis de preços atuais que estou utilizando:

Serviço	Custo	O que cobre
HeyGen Creator	$30/mês	5 gerações de avatar limitadas
Créditos HeyGen API	~$4/minuto de clipe	Renders adicionais de avatar além do plano
11 Labs Creator	$22/mês	Cerca de 100 minutos de áudio gerado
Claude Code	$20-$200/mês	Orquestração, dependendo do nível de uso
Remotion	Gratuito (self-hosted)	Renderização roda na minha máquina

Para um vídeo finalizado de 10 minutos, o custo marginal fica em torno de $50 — principalmente pelo tempo de API do HeyGen. Comparado aos cerca de $300 que eu pagava a um editor freelancer por vídeo, isso representa uma redução de custo de 6x. Em um curso com 40 aulas, é a diferença entre uma conta de produção de $12.000 e uma de $2.000.

A economia mais sutil é de tempo. Eu costumava gastar cerca de 4 horas do meu próprio tempo por vídeo entre gravação, revisão e ciclos de ajuste. Agora gasto cerca de 20 minutos escrevendo o roteiro e iniciando a execução. Se você valoriza seu tempo em $50/hora, isso representa mais $190 de retorno por vídeo. Some tudo e a economia total ultrapassa $400 por lição finalizada de 10 minutos — e a matemática para um curso inteiro fica realmente absurda.

Um aviso honesto sobre esses números: não estou contando o tempo de configuração. Provavelmente gastei 15 horas construindo e ajustando o orquestrador ao longo de dois finais de semana. Se você quiser tudo funcionando de ponta a ponta, espere investir esse tempo inicial, independentemente de quão rápidos os modelos fiquem. O pipeline é barato para rodar e caro para construir — exatamente o formato ideal.

Fala Séria: Onde Este Pipeline Quebra e Onde Não Deve Ser Usado

Quero ser direto sobre os limites aqui, porque há conteúdo demais sobre vídeo com IA na internet fingindo que isso já está pronto. Não está.

O Avatar 5 ainda apresenta artefatos de oclusão. Quando faço um gesto com a mão cruzando o rosto, o avatar às vezes produz uma leve ondulação na borda da oclusão. Não é óbvio, a menos que você esteja procurando, mas um olhar treinado percebe. Para trabalhos de qualidade broadcast, isso é inaceitável. Para conteúdo de cursos, é invisível para os alunos.

O workaround com Playwright é frágil. Qualquer mudança na interface do HeyGen quebra a automação, e já precisei regravar o fluxo do Playwright duas vezes em dois meses. Esse é o maior risco operacional da stack atualmente, e continuará sendo até que o HeyGen lance uma API para o Avatar 5. Se você está construindo isso hoje, planeje que a parte do Playwright ocasionalmente vai exigir 30 minutos de manutenção.

Não vou usar isso no meu canal pessoal do YouTube. Esse é o ponto que a maioria dos criadores ignora. Meu canal pessoal no YouTube é um canal de relacionamento — as pessoas aparecem porque me conhecem, não porque precisam de informação. Um avatar de IA pareceria uma traição desse contrato, mesmo que estivesse perfeito. Então, o modelo mental real não é "vídeo com IA substitui gravação". É "vídeo com IA permite escalar o conteúdo onde a presença não importa, para que você possa investir o tempo economizado no conteúdo onde a presença é tudo". Aulas de cursos, treinamentos internos, vídeos explicativos — pipeline. Canal pessoal, calls com clientes, keynotes — ainda sou eu, na câmera, de verdade.

A objeção do "dilúvio de conteúdo com IA" é superestimada. Sim, mais pessoas podem produzir mais vídeos agora. E daí? Mais pessoas puderam produzir mais posts de blog quando o WordPress foi lançado, e os bons ainda se destacaram. Qualidade ainda vence. O gargalo saiu da produção e foi para a ideação, e os criadores com as melhores ideias estão prestes a ter um ano excelente.

Editores não vão desaparecer — o papel deles está se transformando. O editor a quem eu pagava US$ 300 por vídeo agora pode me cobrar US$ 100 para fazer QA e polir o resultado da IA, e produzir cinco vezes mais vídeos por semana. Os que entendem o novo pipeline se tornam especialistas em IA no domínio. Os que se recusam a mexer com isso vão ter dificuldades. Esse é o mesmo padrão que atingiu todo campo criativo que a automação tocou antes deste.

O que Muda Quando o Gargalo se Move

Aqui está o verdadeiro ponto central, e ele vai além das ferramentas específicas.

Nos últimos vinte anos, a economia da produção de vídeo foi definida pelo custo de filmagem e edição. Ideias eram baratas. Execução era cara. Essa proporção é o motivo pelo qual o conteúdo em vídeo foi dominado por profissionais e canais bem financiados — o fosso da execução mantinha amadores de fora.

Esse pipeline inverte a proporção. A execução agora é barata e acontece da noite para o dia. Ideias são o novo gargalo. Os criadores que vão vencer no próximo ciclo são aqueles capazes de gerar, testar e lançar dez vezes mais conceitos de vídeo por semana do que faziam antes, porque o custo de errar em um conceito simplesmente desabou. Filme um vídeo de 10 minutos do jeito antigo, deteste o resultado, e você queimou US$ 300 e uma semana. Gere pelo pipeline, deteste o resultado, e você queimou US$ 50 e seis horas de tempo de máquina. Revisar se torna real. Iterar se torna possível. Volume vira estratégia.

Se você cria cursos, treina equipes internas, entrega educação para desenvolvedores ou produz conteúdo explicativo repetitivo, esse pipeline vale os dois fins de semana de configuração. Se você é um criador cujo público paga pela presença — seu rosto, sua voz, suas reações ao vivo — continue filmando e use esse pipeline para o conteúdo de apoio que você não produzia de qualquer forma.

Perguntas Frequentes

Preciso de habilidades de programação para montar esse pipeline?

Você precisa ter um certo conforto com o Claude Code e noções básicas de script para conectar os serviços, mas não é necessário ser um engenheiro sênior. A maior parte da orquestração é orientada por prompts, com o Claude escrevendo o código de integração. Para um passo a passo mais detalhado de como o Claude Code gerencia a orquestração entre múltiplas ferramentas, veja a análise do pipeline acima.

De quanto áudio a ElevenLabs realmente precisa para criar uma boa clonagem de voz?

A ElevenLabs recomenda pelo menos 30 minutos de áudio limpo e mais de 2 horas para Clonagem de Voz Profissional, segundo a documentação oficial. Eu usei 2 horas e a qualidade ficou significativamente melhor do que o clone de teste de 45 minutos que fiz primeiro.

O HeyGen Avatar 5 já está disponível via API pública?

Ainda não, até abril de 2026. A API pública do HeyGen gera novos vídeos usando o Avatar 4 por padrão. As gerações com Avatar 5 atualmente exigem o painel web, por isso meu pipeline utiliza o Playwright para automatizar o clique de upgrade. Espere que esse contorno se torne desnecessário assim que o HeyGen liberar o acesso ao Avatar 5 via API.

Por que dividir os roteiros em blocos de 45-60 segundos ao invés de enviar o texto completo de uma vez?

Por dois motivos. A qualidade da voz gerada pela ElevenLabs cai após cerca de 60 segundos de geração contínua, apresentando achatamento e artefatos. O HeyGen Avatar 5 também limita os segmentos a 3 minutos. Dividir nos limites naturais das frases mantém ambos os limites e produz cortes mais limpos na montagem com o Remotion.

Quanto custa produzir um vídeo de 10 minutos com IA usando esse stack?

Aproximadamente US$ 50 por vídeo finalizado de 10 minutos, sendo o principal custo o tempo de API do HeyGen, em comparação com cerca de US$ 300 para um editor freelancer. Veja a seção de detalhamento de custos acima para todos os cálculos, incluindo os diferentes planos de assinatura.

Vamos Trabalhar Juntos

Quer construir sistemas de IA, automatizar fluxos de trabalho ou escalar sua infraestrutura tecnológica? Eu posso ajudar.

Fiverr (projetos sob medida & integrações): fiverr.com/s/EgxYmWD
Portfólio: mejba.me
Ramlit Limited (soluções empresariais): ramlit.com
ColorPark (design & branding): colorpark.io
xCyberSecurity (serviços de segurança): xcybersecurity.io

Pipeline de Vídeo com IA: HeyGen, 11 Labs e Claude Code

Pipeline de Vídeo com IA: HeyGen, 11 Labs e Claude Code

As Quatro Ferramentas e o Que Cada Uma Realmente Faz

Dentro do Pipeline: O Que Realmente Acontece Entre 23h30 e 3h47

A Única Regra Que Salva Todo o Pipeline

Quanto Realmente Custa Rodar Isso

Fala Séria: Onde Este Pipeline Quebra e Onde Não Deve Ser Usado

O que Muda Quando o Gargalo se Move

Perguntas Frequentes

Preciso de habilidades de programação para montar esse pipeline?

De quanto áudio a ElevenLabs realmente precisa para criar uma boa clonagem de voz?

O HeyGen Avatar 5 já está disponível via API pública?

Por que dividir os roteiros em blocos de 45-60 segundos ao invés de enviar o texto completo de uma vez?

Quanto custa produzir um vídeo de 10 minutos com IA usando esse stack?

Vamos Trabalhar Juntos

Gostou deste artigo?

Tópicos Relacionados

Engr Mejba Ahmed

Comments

Leave a Comment

Artigos Relacionados

Agentic OS: A Visual Intelligence Layer for Claude Code

Claude Code Workflows: 41 agentes, 5M tokens, testados

Claude Skills: 10 que uso diariamente para uma operação de conteúdo

Comments

Leave a Comment

Expand Your Knowledge

AI School

Certificates

Learning Flashcards

AI Agent Skills

Pronto para Transformar

Suas Ideias?

Engr Mejba Ahmed

Hey there!