El renderizado terminó a las 3:47 AM. Lo sé porque el ventilador de mi portátil se apagó de golpe y me despertó. Me acerqué tambaleando al escritorio, le di play al archivo de salida y vi una versión de mí mismo que no había grabado, impartiendo una lección de 9 minutos que no había pronunciado. La sincronización labial era impecable. Los gestos se sentían naturales. La voz era la mía — excepto que no lo era.
Me había ido a la cama a las 11:30 PM después de dejar un guion en Google Drive. Mientras dormía, Claude Code fragmentó el guion, envió cada fragmento a 11 Labs para la síntesis de voz, entregó el audio a HeyGen para animar un avatar entrenado con 15 segundos de imágenes de mi webcam, automatizó una restricción de la API de HeyGen con Playwright y ensambló todo en Remotion con texto en pantalla. Costo total del video final de 10 minutos: unos $50. Trabajo humano después de pulsar “go”: cero.
Esta es la pipeline de producción de video con IA que he estado probando en silencio durante los últimos dos meses. No es un juguete. Cruza el valle inquietante lo suficientemente bien como para que tres personas a las que les mostré el resultado me preguntaran cuándo lo grabé. Y lo interesante no es el avatar: es que el cuello de botella en la producción de video acaba de moverse. Para siempre.
Pipeline de vídeo con IA: HeyGen, 11 Labs y Claude Code
Durante los últimos dos años, cada lección de curso, explicación y tutorial que publiqué requería el mismo ritual. Montar la cámara. Ajustar la iluminación. Grabar una toma. Equivocarme en una línea. Grabar de nuevo. Entregar el material a un editor. Esperar de tres a cinco días. Revisar. Pedir cambios. Esperar dos días más. Publicar.
El resultado me costaba aproximadamente $300 por cada video finalizado de 10 minutos en honorarios de edición, más unas cuatro horas de mi propio tiempo entre grabación y revisiones. Para un curso de 40 lecciones, eso son $12,000 y un mes entero en el calendario antes de que alguien haga clic en “inscribirse”.
Esa matemática fue lo que me llevó a probar esta pipeline en serio. No buscaba novedad. Buscaba una forma de lanzar el contenido en video de un curso en una semana en vez de en un trimestre, sin que la calidad se desplomara. Lo que encontré fue más extraño y útil de lo que esperaba.
Antes de mostrarte cómo se configura, hay algo que vale la pena decir desde el principio: esta pipeline está pensada para contenido escalable. Lecciones de cursos. Formación interna. Reciclaje de blogs a video. No está reemplazando los videos que grabo para mi canal personal de YouTube, y explicaré exactamente por qué en la sección de “real talk”. La herramienta importa menos que saber cuándo usarla.
Las cuatro herramientas y lo que realmente hace cada una
El pipeline tiene cuatro componentes. Cada uno cumple una función específica, y entender la división del trabajo es la diferencia entre un flujo de trabajo que se entrega y uno que colapsa la primera vez que un bloque falla silenciosamente.
HeyGen se encarga de lo visual. Su modelo Avatar 5 —lanzado a finales de 2025 y actualizado continuamente hasta la versión de noviembre de 2025— es lo que finalmente arrastró a los avatares de IA a través del valle inquietante. El modelo está entrenado con aproximadamente 10 millones de puntos de datos de expresiones faciales y construye un gemelo digital a partir de tan solo 15 segundos de grabación de webcam. Para mi configuración, subí unos 10 GB de videos existentes míos hablando con diferentes niveles de energía, porque quería que el avatar capturara mi vocabulario gestual, no solo mi rostro. Según la página de investigación de Avatar V de HeyGen, el modelo ahora reproduce movimientos de cabeza característicos, ritmo gestual y microexpresiones, lo cual coincide con lo que observé en los resultados. Un detalle: Avatar 5 está limitado a segmentos de 3 minutos por generación. Esa restricción determina casi todas las decisiones arquitectónicas posteriores.
11 Labs se encarga de la voz. Alimenté su sistema de clonación de voz con unas dos horas de audio limpio —grabaciones de pódcast, locuciones de tutoriales, algunos screencasts narrados—, muy por encima del mínimo de 30 minutos que recomiendan en su documentación, pero dentro del rango de más de 2 horas que ElevenLabs señala para la Clonación de Voz Profesional. Los cuatro deslizadores que importan son velocidad, estabilidad, similitud y exageración de estilo. Tras probar, me quedé con estabilidad en torno a 0,7 y similitud cerca de 0,8, lo que coincide casi exactamente con lo que la comunidad considera el punto óptimo para trabajos de voz de presentador. Aquí va el dato no obvio: la calidad de la voz se degrada visiblemente después de aproximadamente 1 minuto de generación continua. Aparecen artefactos. El ritmo se aplana. Así que cada guion se divide en fragmentos de 45 a 60 segundos antes de llegar a la API.
Claude Code es la capa de orquestación. Aquí es donde todo vive o muere. Claude Code extrae los guiones de Google Drive, los divide en fragmentos de 45 a 60 segundos en los límites de las frases, envía cada fragmento a 11 Labs con mi voz y los parámetros configurados, recoge el audio devuelto, entrega cada archivo de audio a HeyGen con el ID de avatar correspondiente, monitoriza los trabajos de renderizado, descarga los resultados y coloca todo en la carpeta correcta para la siguiente etapa. También gestiona algo más peculiar que explicaré en un momento: utiliza Playwright para automatizar una solución en el navegador porque HeyGen aún no ha expuesto Avatar 5 a través de su API pública.
Remotion se encarga de la edición. El audio se transcribe, las palabras se sincronizan con el texto en pantalla, los clips se unen en los límites naturales de las frases donde originalmente se dividieron, y se añaden gráficos en movimiento y subtítulos. Si quieres profundizar en la mecánica de por qué los videos como componentes de React cambian todo en cuanto a video programático, lo expliqué en mi análisis de cómo creo videos promocionales con código, no con editores; ese artículo complementa bien a este.
Ese es el stack. Cuatro herramientas, cada una haciendo bien una cosa, con Claude Code como el tejido conectivo que permite que funcione como un solo pipeline en lugar de cuatro productos SaaS desconectados.
Dentro del pipeline: Qué sucede realmente entre las 11:30 PM y las 3:47 AM
Aquí tienes el flujo de extremo a extremo para un solo guion. Te lo explico desde “Mejba deja un archivo .md en Drive” hasta “un MP4 renderizado aparece en mi carpeta de salida”.
Paso 1: Ingesta del guion. Escribo o edito un guion de lección en un Google Doc, lo formateo en markdown y lo dejo en una carpeta específica de Drive. Esa carpeta tiene un watcher de Claude Code apuntando a ella. En cuanto aparece un archivo nuevo, Claude lo lee, normaliza el formato, elimina las notas del presentador y guarda una versión limpia localmente.
Paso 2: Segmentación semántica. Claude Code divide el guion en fragmentos de 45-60 segundos. Las divisiones se hacen en los límites de las oraciones, y Claude evita específicamente cortar a mitad de una idea o ejemplo. Un fragmento que termina en “...y aquí está el porqué” con la explicación en el siguiente fragmento produce un salto audible, así que el divisor está programado para preferir puntos de pausa naturales: final de párrafo, final de un paso numerado, antes de una palabra de transición como “pero” o “así que”. Esta única regla es la diferencia entre un video que se siente continuo y uno que suena como si estuviera ensamblado a partir de tarjetas de referencia.
Paso 3: Síntesis de voz por fragmento. Cada fragmento se envía a 11 Labs con mi voz clonada, estabilidad 0.7, similitud 0.8, velocidad 1.0, exageración de estilo baja. El audio regresa como un MP3. Claude Code mide la duración de cada archivo: si algún fragmento supera los 60 segundos de audio, lo marca para volver a dividirlo. Este bucle de detección y reintento ha salvado al menos un render completo de degradarse silenciosamente a mitad del proceso.
Paso 4: Renderizado de avatar por fragmento. Cada archivo de audio se envía a HeyGen junto con mi ID de avatar. HeyGen genera un clip de video del avatar hablando ese audio exacto. Como cada fragmento dura menos de 60 segundos, todos los clips se mantienen cómodamente por debajo del límite de 3 minutos del Avatar 5. El tiempo de renderizado varía, pero calcula entre 2 y 4 veces la duración del audio.
Paso 5: El workaround con Playwright. Esta es la parte que se sintió casi ilegal la primera vez que la ejecuté. Al momento de escribir esto, la API pública de HeyGen asigna por defecto los nuevos renders al Avatar 4, no al Avatar 5. El Avatar 4 está bien. El Avatar 5 es el que realmente cruza el valle inquietante. Así que Claude Code ejecuta un script de navegador con Playwright que inicia sesión en HeyGen, abre cada render pendiente y hace clic para actualizarlo a Avatar 5 antes de que finalice la generación. Es feo. Funciona. Eventualmente HeyGen expondrá esto a través de su API — las notas de la versión de noviembre de 2025 ya anticipan una fuerte inversión en Avatar V — y todo este paso desaparecerá. Hasta entonces, Playwright es el puente.
Paso 6: Ensamblado con Remotion. Todos los clips del avatar llegan a una carpeta. Remotion los toma en orden, ejecuta la transcripción sobre la pista de audio, posiciona los subtítulos y títulos de sección en pantalla en los momentos correctos, añade transiciones entre fragmentos (pequeños crossfades de 200 ms en los límites de las oraciones donde se hicieron los cortes — literalmente no se pueden ver), y renderiza el MP4 final compuesto.
Paso 7: Entrega. El video final cae en la carpeta de salida. Claude Code lo etiqueta con el nombre del guion, escribe un resumen del trabajo de renderizado (cantidad de fragmentos, duración total, reintentos si los hubo) y — si lo tengo configurado — publica un mensaje en Slack avisando que el render está listo.
Siete pasos. Cero intervención humana entre los pasos 1 y 7. Inicio el pipeline antes de dormir y el desayuno llega con un video terminado.
La única regla que salva toda la pipeline
Si pudiera volver atrás y decirme una sola cosa antes del primer fallo en una ejecución nocturna, sería esta: el techo de calidad de toda la pipeline lo determina cómo fragmentas el guion.
No la calidad del avatar. No el modelo de voz. No el código de orquestación. La fragmentación.
Fragmentos que se cortan a mitad de una idea producen discontinuidades audibles. Fragmentos que superan los 60 segundos arruinan la calidad de 11 Labs. Fragmentos que empiezan con una conjunción ("Pero aquí está el asunto…") pierden el ritmo contextual y quedan planos. Pasé toda una tarde ajustando el prompt del fragmentador antes de lograr resultados consistentes durante la noche. La versión final trata al divisor como un mini-editor: debe producir fragmentos que puedan funcionar como oraciones entregables por sí solas, pero que también fluyan juntos al reproducirse en secuencia.
Si vas a construir esta pipeline, reserva más tiempo del que crees para el fragmentador. Es lo que separa un "vaya, eso es impresionante" de un "espera, ¿no grabaste esto?"
Cuánto Cuesta Realmente Ejecutar Esto
Aquí tienes el cálculo mensual para la pila que describí, basado en los niveles de precios actuales en los que estoy:
| Servicio | Costo | Qué cubre |
|---|---|---|
| HeyGen Creator | $30/mes | 5 generaciones de Avatar limitadas |
| Créditos API de HeyGen | ~$4/minuto de clip | Renders adicionales de avatar más allá del nivel |
| 11 Labs Creator | $22/mes | Aproximadamente 100 minutos de audio generado |
| Claude Code | $20-$200/mes | Orquestación, según el nivel de uso |
| Remotion | Gratis (autoalojado) | Renderizado corre en mi máquina |
Para un video terminado de 10 minutos, el costo marginal ronda los $50 — principalmente por el tiempo de API de HeyGen. Comparado con los ~$300 que pagaba a un editor freelance por video, eso es una reducción de costos de 6 veces. En un curso de 40 lecciones, es la diferencia entre una factura de producción de $12,000 y una de $2,000.
El ahorro más sutil es el tiempo. Antes solía invertir unas 4 horas de mi propio tiempo por video en filmación, revisión y ciclos de corrección. Ahora dedico unos 20 minutos a escribir el guion y lanzar la ejecución. Si valoras tu tiempo en $50/hora, eso son otros $190 de retorno por video. Calcula el ahorro total en más de $400 por cada lección terminada de 10 minutos, y los números para un curso completo se vuelven realmente absurdos.
Una advertencia honesta sobre estos números: no estoy contando el tiempo de configuración. Probablemente pasé unas 15 horas construyendo y ajustando el orquestador durante dos fines de semana. Si quieres que esto funcione de punta a punta, espera invertir ese tiempo inicial sin importar cuán rápido sean los modelos. La pipeline es barata de ejecutar y cara de construir, que es exactamente la forma que quieres.
Hablemos Claro: Dónde Falla Este Pipeline y Dónde No Debería Usarse
Quiero ser directo sobre los límites aquí, porque hay demasiado contenido de video con IA en línea que pretende que esto ya está terminado. No lo está.
Avatar 5 todavía tiene artefactos de oclusión. Cuando hago un gesto con la mano cruzando mi cara, el avatar a veces produce una pequeña ondulación en el borde de la oclusión. No es obvio a menos que lo busques, pero un ojo entrenado lo detecta. Para trabajos de calidad de emisión, esto es un factor decisivo. Para contenido de cursos, es invisible para los estudiantes.
El workaround con Playwright es frágil. Cualquier cambio en la interfaz de HeyGen rompe la automatización, y he tenido que volver a grabar el flujo de Playwright dos veces en dos meses. Este es el mayor riesgo operativo de la pila en este momento, y seguirá siéndolo hasta que HeyGen lance una API para Avatar 5. Si vas a construir esto hoy, planea que la parte de Playwright ocasionalmente requerirá 30 minutos de mantenimiento.
No usaré esto para mi canal personal de YouTube. Esto es lo que la mayoría de los creadores pasan por alto. Mi canal personal de YouTube es un canal de relaciones: la gente viene porque me conoce, no porque necesite información. Un avatar de IA se sentiría como una traición a ese contrato, incluso si se viera perfecto. Así que el modelo mental real no es "el video con IA reemplaza la filmación". Es "el video con IA te permite escalar el contenido donde la presencia no importa, para que puedas invertir el tiempo ahorrado en el contenido donde la presencia lo es todo". Lecciones de cursos, capacitación interna, videos explicativos: pipeline. Canal personal, llamadas con clientes, keynotes: sigo siendo yo, en cámara, de verdad.
La objeción de la “inundación de contenido IA” está sobrevalorada. Sí, ahora más personas pueden producir más videos. ¿Y qué? Más personas pudieron producir más blogs cuando salió WordPress, y los buenos siguieron destacando. La calidad sigue ganando. El cuello de botella pasó de la producción a la ideación, y los creadores con las mejores ideas están a punto de tener un año muy bueno.
Los editores no van a desaparecer: su rol está transformándose. El editor al que le pagaba $300 por video ahora puede cobrarme $100 por QA y pulir el resultado de la IA, y hacer cinco veces más videos por semana. Los que entienden el nuevo pipeline se convierten en especialistas en IA de su dominio. Los que se niegan a tocarlo tendrán dificultades. Este es el mismo patrón que ha afectado a todos los campos creativos que la automatización ha tocado antes que este.
Qué cambia cuando el cuello de botella se desplaza
Aquí está la verdadera conclusión, y es más grande que las herramientas específicas.
Durante los últimos veinte años, la economía de la producción de video ha estado determinada por el costo de filmar y editar. Las ideas eran baratas. La ejecución era costosa. Esa proporción es la razón por la que el contenido en video ha estado dominado por profesionales y canales bien financiados: la barrera de la ejecución mantenía alejados a los aficionados.
Este pipeline invierte la proporción. Ahora la ejecución es barata y se realiza de la noche a la mañana. Las ideas son el cuello de botella. Los creadores que triunfarán en el próximo ciclo serán aquellos capaces de generar, probar y lanzar diez veces más conceptos de video por semana que antes, porque el costo de equivocarse con una idea acaba de desplomarse. Filma un video de 10 minutos a la antigua, lo odias, y has quemado $300 y una semana. Genera ese video a través del pipeline, lo odias, y solo has gastado $50 y seis horas de tiempo de máquina. La revisión se vuelve real. La iteración se vuelve posible. El volumen se convierte en estrategia.
Si creas cursos, capacitas equipos internos, desarrollas educación para programadores o produces contenido explicativo repetible, este pipeline vale los dos fines de semana de configuración. Si eres un creador cuya audiencia paga por tu presencia —tu cara, tu voz, tus reacciones en vivo— sigue filmando y utiliza este pipeline para el contenido complementario que de todos modos no estabas produciendo.
Preguntas Frecuentes
¿Necesito habilidades de programación para construir este pipeline?
Necesitas suficiente familiaridad con Claude Code y conocimientos básicos de scripting para conectar los servicios, pero no es necesario ser un ingeniero senior. La mayor parte de la orquestación se basa en prompts, con Claude generando el código de integración. Para una explicación más detallada sobre cómo Claude Code gestiona la orquestación de múltiples herramientas, consulta el desglose del pipeline más arriba.
¿Cuánta voz necesita realmente ElevenLabs para un clon de buena calidad?
ElevenLabs recomienda al menos 30 minutos de audio limpio y más de 2 horas para la clonación profesional de voz, según su documentación oficial. Yo utilicé 2 horas y la calidad fue significativamente mejor que el clon de prueba de 45 minutos que hice primero.
¿Está disponible HeyGen Avatar 5 a través de la API pública?
Todavía no, a abril de 2026. La API pública de HeyGen utiliza por defecto Avatar 4 para los nuevos renders. Actualmente, las generaciones con Avatar 5 requieren el panel web, por eso mi pipeline usa Playwright para automatizar el clic de actualización. Se espera que este método deje de ser necesario cuando HeyGen habilite el acceso a Avatar 5 desde la API.
¿Por qué dividir los guiones en fragmentos de 45-60 segundos en vez de enviar el guion completo de una vez?
Por dos razones. La calidad de voz de ElevenLabs disminuye después de unos 60 segundos de generación continua, apareciendo aplanamiento y artefactos. Además, HeyGen Avatar 5 limita los segmentos a 3 minutos. Dividir en fragmentos en límites naturales de frases mantiene ambos límites y produce una unión más limpia en Remotion.
¿Cuánto cuesta producir un video de IA de 10 minutos con este stack?
Aproximadamente $50 por cada video terminado de 10 minutos, principalmente por el tiempo de API de HeyGen, en comparación con unos $300 para un editor freelance. Consulta la sección de desglose de costos más arriba para ver el cálculo completo, incluyendo los niveles de suscripción.
Trabajemos Juntos
¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudarte.
- Fiverr (desarrollos e integraciones a medida): fiverr.com/s/EgxYmWD
- Portafolio: mejba.me
- Ramlit Limited (soluciones empresariales): ramlit.com
- ColorPark (diseño y branding): colorpark.io
- xCyberSecurity (servicios de seguridad): xcybersecurity.io