Skip to main content
📝 Google Notebook LM

Cómo automaticé la edición de video con Claude Code

Descubre cómo reduje horas de edición de video a minutos usando Claude Code, Descript, Whisper, FFmpeg y Remotion.

26 min

Tiempo de lectura

5,152

Palabras

Apr 10, 2026

Publicado

Engr Mejba Ahmed

Escrito por

Engr Mejba Ahmed

Compartir Artículo

Cómo automaticé la edición de video con Claude Code

Cómo automaticé la edición de video con Claude Code

Durante seis meses, me estuve mintiendo a mí mismo.

Cada vez que alguien me preguntaba cuánto tardaba en editar uno de mis videos, respondía “un par de horas” con el tono casual de quien no se está ahogando en ese momento. La verdad era más cercana a cuatro. A veces seis. En las semanas malas, empezaba a editar una grabación hecha el lunes recién el miércoles por la noche y la terminaba el viernes a la 1 a.m., con el café frío sobre el escritorio y la convicción de que tenía que dejar de hacer esto con mis propias manos.

El punto de quiebre no fue dramático. Fue un martes de marzo. Tenía tres grabaciones sin editar acumuladas, una entrega para un cliente esperando en la siguiente pestaña, y una vieja línea de tiempo de Adobe abierta con 74 cortes que había hecho esa tarde. Miré la barra de progreso —23% del primer video— e hice las cuentas. Tres videos. Seis horas cada uno. Dieciocho horas arrastrando formas de onda de audio y recortando muletillas antes de poder entregar siquiera uno.

Cerré la línea de tiempo. Abrí Claude Code. Y me prometí que no iba a volver atrás.

Lo que surgió de esa semana es el flujo de trabajo que estoy a punto de mostrarte. No es una teoría que dibujé en una pizarra. Es la pila real que ahora utilizo para convertir grabaciones crudas de 30 minutos en videos pulidos, subtitulados y con música en menos de diez minutos de trabajo manual. El descubrimiento clave —el que lo cambió todo— es que Claude Code no es el editor. Es el director de orquesta. Todo lo demás en el flujo es un instrumento, y los instrumentos ya son excelentes. Solo necesitaban que alguien les pusiera la partitura delante.

Aquí va la parte incómoda que quiero dejar clara desde el principio: este flujo de trabajo no va a reemplazar tu criterio. Si acaso, lo magnifica. Las partes de la edición donde el criterio importa —el ritmo, el énfasis, el tono, ese momento de 3 segundos que hace que todo el video funcione— son más importantes ahora, no menos. Lo que elimina el flujo es el trabajo mecánico alrededor de esas decisiones. Los clics. El rebobinado. La fatiga auditiva. La vez número 45 que cortas manualmente un “eh” que nadie va a extrañar.

Déjame mostrarte cómo funciona, empezando por la pieza que nadie me dijo que era la más importante.

La Parte Que Casi Todos Hacen Mal al Principio

Cuando los desarrolladores intentan automatizar la edición de video con IA por primera vez, casi siempre recurren al mismo martillo: "Voy a escribir un script en Python que use FFmpeg para cortar los silencios y generar un video de momentos destacados". Yo también lo intenté. El resultado fueron videos que parecían hechos por un robot teniendo una convulsión. Los cortes caían sobre consonantes. Se recortaban pausas importantes. La personalidad de la grabación desaparecía.

La lección: la automatización a nivel de audio no es edición. Editar es una tarea semántica, no acústica. No cortas en función de la presencia de silencio, sino en función del significado de lo que se dijo. Y hasta este año, esa distinción hacía que la automatización total fuera esencialmente imposible.

Lo que cambió es que ahora tenemos herramientas en tres capas de abstracción diferentes, y Claude Code puede orquestar las tres al mismo tiempo:

  • La capa semántica — edición basada en texto en Descript, donde la transcripción es la línea de tiempo
  • La capa de precisión — transcripciones de Whisper con marcas de tiempo que te indican al milisegundo cuándo se pronunció cada palabra
  • La capa de renderizadoRemotion, un framework de React donde las animaciones y superposiciones son código que puedes generar programáticamente

La magia no está en ninguna de esas herramientas por separado. Está en el hecho de que Claude Code puede leer la salida de una, razonar sobre ella y alimentarla a la siguiente, con el contexto de lo que se supone que debe ser el video completo. Eso es lo que quiero decir cuando digo que Claude Code es el director de orquesta.

Pero antes de llegar a la orquestación, necesitas ver la cadena de procesamiento en bruto, capa por capa. Porque si no entiendes qué hace cada herramienta y por qué, los prompts que te daré al final no tendrán sentido.

El pipeline completo, capa por capa

Voy a recorrer esto en el mismo orden en que el video realmente avanza por el sistema. Siete etapas. Cada una resuelve un problema específico que antes me consumía las tardes.

Etapa 1: Grabación en bruto en Descript

En cuanto termino de grabar, los archivos MOV van directo a Descript. No a Final Cut. No a Premiere. No a una carpeta donde se quedan tres días mientras me mentalizo para editarlos.

Descript es la herramienta más incomprendida en el stack moderno de creadores. La gente piensa que es “Google Docs para video”, lo cual es simpático pero lo subestima. Lo que realmente hace Descript es convertir tu video en un objeto de texto de primera clase. La transcripción se convierte en la línea de tiempo. Si eliminas una frase de la transcripción, la sección correspondiente del video desaparece. Si reorganizas párrafos, el video se reordena solo.

El primer pase que hago en Descript es implacable. Reviso la transcripción buscando tres cosas:

  1. Frases repetidas — esos momentos en los que dije algo, hice una pausa y lo repetí un poco mejor. Me quedo con la segunda toma. Seleccionar, eliminar.
  2. Divagaciones sin salida — lugares donde empecé a explicar algo, me di cuenta de que era el ángulo equivocado y cambié de tema. El párrafo entero se va.
  3. Tomas malas — bloques completos donde la energía estaba baja o perdí el hilo. Fuera.

Esta es la parte de la edición donde el criterio es innegociable. No quiero que Claude Code tome estas decisiones. Quiero un cerebro humano leyendo la transcripción y decidiendo qué versión de mí es la que se publica. Esto me lleva unos 8 minutos en una grabación en bruto de 30 minutos.

En el plan Creator de Descript, que cuesta $24/mes con facturación anual a abril de 2026, tienes 30 horas de procesamiento de medios y 800 créditos de IA — más que suficiente para una cadencia semanal de publicación. El plan gratuito está limitado a 60 minutos al mes, lo cual es una buena forma de probar el flujo de edición basada en texto sin compromiso.

Al final de la Etapa 1, el video está limpio semánticamente. Cada frase que está en la transcripción es una frase que realmente quiero en el corte final. Pero aún respira raro. Lo que nos lleva al segundo pase.

Etapa 2: Acortamiento de pausas con IA de Descript

Aquí es donde la herramienta justifica su precio. Descript tiene una función llamada “Shorten Word Gaps” que escanea el audio y detecta cada pausa entre palabras más larga que el umbral que yo defino. Lo fijo en 0,2 segundos. Todo lo que supere eso se ajusta automáticamente.

La primera vez que lo usé, casi no publiqué el resultado porque pensé que sonaría entrecortado. No fue así. Sonaba como si hubiera pasado veinte minutos por video ajustando cuidadosamente el ritmo — como si cada pausa fuera intencional. En una grabación de 30 minutos, solo esto recorta unos 2 minutos de tiempo de emisión, pero lo más importante es que eleva la percepción de calidad de producción casi un nivel completo. La gente me decía que mi energía sonaba más alta. Mi energía no había cambiado. El silencio entre mis palabras simplemente se había reducido a la mitad.

Nota al margen — probé umbrales de 0,15 a 0,35 segundos. Por debajo de 0,2, el audio empieza a sonar comprimido y ansioso. Por encima de 0,25, la mejora en el ritmo se vuelve invisible. 0,2 es el punto óptimo para mi cadencia al hablar. La tuya puede variar unas centésimas de segundo. Prueba tres umbrales en el mismo clip y elige a oído — no delegues esta decisión.

Aquí hay un desvío opcional: Descript también tiene una herramienta “Remove Filler Words” que elimina automáticamente “eh”, “ah”, “este”, y muletillas similares. La uso selectivamente. En explicaciones técnicas, la dejo a máxima potencia. En momentos narrativos, la apago — los fillers son parte del ritmo humano, y quitarlos todos te hace sonar como un motor TTS. Decisión de gusto.

Al final de la Etapa 2, el audio está ajustado. Lo que exporto de Descript es un solo MP4 limpio — sin gráficos, sin música, sin subtítulos. Solo el hablante, hablando, al ritmo que quiero. Este archivo es la capa base sobre la que se apilará todo lo demás.

Etapa 3: Música de Epidemic Sound

Tomo la música de fondo de Epidemic Sound por una razón que no tiene nada que ver con la estética: seguridad de derechos de autor. Cada pista en la plataforma está licenciada para que los creadores de contenido la usen en canales monetizados sin disputas de reclamaciones. He visto a amigos perder meses de ingresos publicitarios por una sola pista sin licencia en una intro. No vale la pena. Nunca.

Mis criterios de selección:

  • Solo instrumental (las letras compiten con la voz de una forma agotadora)
  • Tempo entre 80-110 BPM (lo bastante rápido para dar energía, lo bastante lento para no competir)
  • Tónica que no choque con mi registro de voz
  • Duración al menos 90 segundos más larga que el video, para tener margen de fundido

Descargo el WAV, lo dejo en mi carpeta de proyecto y sigo adelante. Esta etapa lleva quizá 90 segundos una vez que tienes tu propia playlist de cinco o seis pistas de cabecera.

Etapa 4: Extracción de audio con FFmpeg

Aquí el pipeline empieza a ser programático. Necesito hacer dos cosas: mezclar la música bajo el audio del hablante y generar una transcripción perfecta con marcas de tiempo para la etapa de overlays.

Primero, extraigo el audio del hablante del export de Descript usando FFmpeg:

ffmpeg -i descript-export.mp4 \
  -vn \
  -acodec pcm_s16le \
  -ar 16000 \
  -ac 1 \
  speaker.wav

Eso me da un WAV mono a 16kHz, que es el formato de entrada preferido por Whisper. Luego construyo el master de audio mezclado — voz a 0 dB, música atenuada a -18 dB bajo la voz, con un fundido de entrada de 2 segundos y salida de 3 segundos:

ffmpeg -i speaker.wav -i music.wav \
  -filter_complex "[1:a]volume=0.13,afade=t=in:st=0:d=2,afade=t=out:st=VIDEO_END-3:d=3[music]; \
                   [0:a][music]amix=inputs=2:duration=first:dropout_transition=2[out]" \
  -map "[out]" master-audio.wav

Antes solía escribir estas cadenas de filter_complex desde cero y depurarlas durante veinte minutos cada vez. Ahora pego los metadatos del audio y la mezcla deseada en Claude Code y le pido que genere el comando. Siempre acierta a la primera. Siempre.

Etapa 5: Whisper para transcripción con marcas de tiempo

Descript ya me dio una transcripción, ¿por qué necesito otra? Porque la transcripción de Descript existe para la edición humana. La de Whisper existe para la composición automática.

Cuando envío speaker.wav a la API de OpenAI Whisper a $0.006 por minuto (a abril de 2026), lo que recibo no es solo texto — es cada palabra con su tiempo de inicio y fin, preciso al milisegundo. Para un video de 10 minutos, la llamada a la API cuesta 6 centavos y tarda unos 40 segundos. Por el precio de un café de Starbucks, puedo transcribir más de 500 minutos de audio con precisión de cuadro.

Este es el Python que uso — nada sofisticado, esto es literalmente lo que corre:

from openai import OpenAI
import json

client = OpenAI()

with open("speaker.wav", "rb") as audio_file:
    transcript = client.audio.transcriptions.create(
        model="whisper-1",
        file=audio_file,
        response_format="verbose_json",
        timestamp_granularities=["word"]
    )

with open("transcript.json", "w") as f:
    json.dump(transcript.model_dump(), f, indent=2)

El parámetro timestamp_granularities=["word"] lo es todo. Sin él, obtienes marcas de tiempo por frase, que no sirven para subtítulos animados. Con él, obtienes un objeto JSON donde cada palabra tiene un campo start y end. Este archivo es la entrada que impulsa todos los overlays en la siguiente etapa.

Si te importa optimizar costes, GPT-4o Mini Transcribe cuesta $0.003 por minuto — la mitad que Whisper — pero la precisión de las marcas de tiempo por palabra varía. Para mi caso de uso (subtítulos animados donde cada palabra debe aparecer exactamente en el milisegundo en que se pronuncia), Whisper sigue siendo la mejor opción. Para transcripción masiva de podcasts, Mini es suficiente.

Etapa 6: Remotion para gráficos programáticos

Aquí es donde Claude Code deja de ser un asistente y se convierte en el motor. Remotion es un framework basado en React para renderizar videos como código, y la última versión (actualmente la 4.0.448 a inicios de abril de 2026) incluye integración con Claude Code, haciendo que solicitar una composición sea tan natural como pedir una landing page.

Cómo funciona Remotion: cada frame de tu video es un componente React. Las animaciones son funciones de interpolación del número de frame actual. Los overlays de texto son JSX. Un video de 60 segundos a 30 fps son solo 1.800 renders de un árbol de componentes, ensamblados en un MP4 al final. ¿Suena a mucha ingeniería para un overlay de texto? Lo es — pero esto es lo que obtienes a cambio:

  • Overlays de subtítulos impulsados directamente por el JSON de Whisper. Sin sincronización manual. Sin arrastrar keyframes. La palabra “automatización” aparece en pantalla exactamente cuando se pronuncia porque el componente lee transcript.json y compara el frame actual con los tiempos de cada palabra.
  • Gráficos consistentes con la marca en todos los videos. Mis lower-thirds, mi tarjeta de intro, mi CTA de cierre — todos son componentes React que aceptan props. ¿Video diferente? Props diferentes. Mismo sistema de diseño. Nunca los rehago.
  • Control de versiones real. Todo el video es un repo de Git. Los diffs muestran qué cambió. Las ramas aíslan experimentos. Los pull requests revisan cambios visuales igual que revisan cambios de código.

El componente que me voló la cabeza la primera vez que funcionó fue el subtítulo animado. Le pedí a Claude Code que lo construyera con un solo prompt: “Crea un componente Remotion que lea transcript.json, muestre cada palabra como overlay en el tercio inferior de la pantalla y resalte la palabra pronunciada en el color de la marca. Tipografía: Inter, 56px, peso 800. Trazo: 3px negro. Color de palabra activa: #8B5CF6.”

Cuarenta y cinco segundos después, tenía un componente funcional. Renderizó perfecto a la primera. Desde entonces lo he iterado — mejores curvas de easing, ajustes de sombra, una animación sutil de pop al cambiar de palabra — pero la base que produjo Claude Code ha sostenido todos los videos que he publicado desde entonces.

Hay un cabo suelto que dejé antes y quiero resolver aquí, porque casi me hizo abandonar Remotion. El problema: la primera vez que abres un proyecto Remotion con un video largo y una transcripción grande, la previsualización en Remotion Studio se traba. Fuerte. Los fps caen, la línea de tiempo se ralentiza y piensas que hiciste algo muy mal. No es así. Remotion renderiza la preview en tiempo real en un solo hilo, y cuando la composición se complica, ese hilo no da abasto. La solución es contraintuitiva — renderiza un segmento corto del resultado final, mira el MP4, y luego vuelve a editar el código. No confíes en la preview en vivo para decisiones de ritmo en nada que supere los 60 segundos.

Etapa 7: Remotion Studio + Claude Code para preview y render final

La última etapa ocurre con dos ventanas abiertas en mi escritorio: Remotion Studio a la izquierda, Claude Code a la derecha. Aquí la metáfora del director de orquesta se vuelve literal.

Mi bucle es así:

  1. Previsualiza en Remotion Studio. Navega por la composición. Busca problemas de sincronización, fallos gráficos, cualquier cosa que no encaje.
  2. Describe la corrección a Claude Code. “El logo de la marca en la intro aparece en el frame 12 pero debe entrar al ritmo en el frame 18.” “El color de resalte del subtítulo es muy tenue — súbelo a #A78BFA.” “Agrega un crossfade de 0,5 segundos entre la tarjeta de intro y el contenido principal.”
  3. Deja que Claude Code edite el componente. Como las composiciones de Remotion son React, cada cambio es una edición de código. Claude Code hace el cambio, Remotion Studio recarga en caliente y veo el resultado en segundos.
  4. Repite hasta que la preview se vea bien.
  5. Renderiza el MP4 final desde la terminal. npx remotion render. Me levanto. Vuelvo en 3-5 minutos con el video terminado.

Este bucle es la clave. Aquí es donde la edición de 3-6 horas se reduce a minutos de trabajo real. Porque en el momento en que describo lo que está mal en vez de arrastrar lo que está mal, el multiplicador se activa. Diez rondas de revisión en una hora solían ser una buena tarde. Ahora es solo el calentamiento.

Si prefieres saltarte todo el montaje de Claude Code + Remotion y simplemente generar videos por prompt, he escrito un post complementario sobre las skills de agente de Remotion para Claude Code cubriendo la vía de entrada más ligera. Pero si publicas videos semanalmente, invertir en el pipeline completo se paga solo en el primer mes.

La Revisión Humana Que Me Niego a Omitir

Aquí está la lección que aprendí por las malas: una sola frase duplicada puede destruir la confianza en todo el flujo de trabajo.

El primer video que publiqué usando la pipeline completa tuvo un momento en el que dije una frase, hice una pausa para tomar un sorbo de café y luego repetí exactamente la misma frase, pero ligeramente diferente. La transcripción generada por IA de Descript la detectó en el segundo pase, pero no en el primero, porque mi cadencia durante la pausa engañó al detector de “frases repetidas”. El video final renderizado tenía la frase dos veces, una tras otra, con un extraño corte abrupto de medio segundo entre ambas.

No lo noté hasta que un espectador me envió un mensaje privado unas cuatro horas después de la publicación. Ese fue el último video que publiqué sin una revisión humana final.

Ahora, cada video recibe una última revisión a 1.5x de velocidad con mi dedo en la barra espaciadora. No busco ediciones minuciosas —todo eso ya está resuelto—. Busco los fallos específicos que la pipeline puede pasar por alto:

  • Frases repetidas donde hice una pausa entre tomas y el silencio ocultó la duplicación
  • Subtítulos que escribieron mal un término técnico (Whisper a veces pone “react” cuando dije “React”)
  • Cues musicales que no coinciden con los cortes de sección
  • Cualquier momento en el que los gráficos renderizados no reflejan mi intención

Esta revisión toma entre 4 y 6 minutos para un video de 10 minutos. No es negociable. He intentado saltármela dos veces y me he arrepentido ambas.

Lo que realmente me sorprendió

Entré en esto esperando que la gran ventaja fuera “menos tiempo”. Pero lo que obtuve fue diferente.

La consistencia me dejó boquiabierto. Cuando cada video es producido por el mismo pipeline con los mismos componentes, empiezan a verse como episodios de un mismo programa en lugar de subidas aleatorias de una persona cansada. Los suscriptores lo notaron antes que yo. El comentario “tus videos se ven realmente pulidos últimamente” empezó a aparecer, y la verdad es que pasé menos tiempo en ellos, no más.

La velocidad de revisión cambió lo que estoy dispuesto a probar. Cuando una pasada de edición toma dos minutos en vez de dos horas, experimentas. Pruebas esa elección musical inusual. Añades el chiste arriesgado. Mueves el gancho más temprano. El costo de “ups, deshazlo” es tan bajo que la ambición creativa se expande para llenar el tiempo que antes gastabas en trabajo mecánico.

La capacidad de orquestación de Claude Code fue lo que más me sorprendió. Sabía que podía escribir componentes de Remotion. No sabía que podía mantener el estado de todo el pipeline en su “cabeza”: leer la exportación de Descript, saber que la salida de Whisper está esperando, generar el comando de FFmpeg, estructurar la composición de Remotion y depurar los errores de renderizado, todo en una sola sesión. Esto es lo que los “editores de video con IA” genéricos no pueden hacer. Trabajan paso a paso. Claude Code interpreta toda la melodía.

Y el ángulo para creadores no técnicos sobre el que quiero ser honesto: no necesitas saber React para ejecutar este flujo de trabajo. Necesitas saber cómo describir lo que quieres. La complejidad de la configuración está en el primer prompt, no en la CLI. Si puedes decirle a Claude Code “quiero un componente de subtítulos animados que lea transcript.json y resalte la palabra actual en morado”, puedes ejecutar este pipeline sin escribir JSX tú mismo. Claude Code lo escribirá. Tú lo ejecutarás. El MP4 se renderizará.

El techo es más alto si entiendes el código. Pero el suelo, eso sí, es más bajo de lo que la mayoría de los tutoriales para desarrolladores admitirán.

Donde Todavía Encuentro Obstáculos

Quiero darte el mapa honesto, no la versión de folleto.

La sincronización de la música sigue siendo manual. No he encontrado una forma fiable de sincronizar automáticamente los cortes de sección en el video con los cambios de ritmo en la música. Lo hago de oído, ajustando los tiempos de inicio de las Sequence en Remotion hasta que las transiciones se sienten correctas. Quizá en el futuro Claude Code lea las formas de onda de audio y sugiera puntos de corte. Por ahora, deciden mis oídos.

Whisper escribe mal la jerga técnica. Cada video sobre Claude Code, Remotion, TypeScript o cualquier término técnico de marca requiere una pasada de búsqueda y reemplazo en el JSON de la transcripción antes de llevarlo a Remotion. Escribí un pequeño script en Python con un diccionario de correcciones habituales, y Claude Code mantiene ese diccionario por mí. Pero aún reviso los subtítulos manualmente antes de renderizar.

El tiempo de renderizado escala con la complejidad de la composición. Un video de 10 minutos con subtítulos simples se renderiza en 3 minutos en mi MacBook Pro M2. Si agregas efectos de partículas, curvas de easing complejas y composición multicapa, ese mismo video tarda entre 12 y 15 minutos. Esto no es un fallo del flujo de trabajo: es física. Pero si buscas el sueño del “video listo en diez minutos”, mantén tu presupuesto de efectos bajo control.

La previsualización en Remotion Studio se ralentiza, como mencioné antes. Cualquier composición que supere los 60-90 segundos empieza a ir a trompicones. Trabaja en segmentos más cortos, renderiza previsualizaciones como MP4 y no confíes en el scrubber en tiempo real para tomar decisiones de ritmo en videos largos.

El Cambio Medible

He estado ejecutando toda esta canalización durante ocho semanas, hasta abril de 2026. Estos son los números, basados en mis propios registros y no en benchmarks inventados:

  • Tiempo promedio de edición manual por video: Bajó de aproximadamente 4 horas a unos 25 minutos — y la mayor parte de esos 25 minutos corresponde a la Etapa 1 (edición implacable del guion) y la Etapa 7 (verificación humana). Las etapas intermedias, impulsadas por la máquina, suman quizá 6-8 minutos de atención activa.
  • Cadencia de publicación: Ahora publico 2-3 videos por semana, frente a 1 en una buena semana. El cuello de botella pasó de ser el tiempo de edición al tiempo de grabación, lo cual es un problema mucho más deseable.
  • Consistencia entre videos: Ahora, cada video utiliza el mismo estilo de subtítulos, lower-third, tarjeta de introducción y CTA de cierre. Antes, cada video tenía pequeñas variaciones visuales porque reconstruía los gráficos manualmente. Esa variación ha desaparecido.

Deliberadamente no incluyo cifras específicas de “ingresos aumentaron X%” porque no tengo una atribución limpia y no voy a inventarla. Lo que sí puedo decir es que publicar tres veces más contenido sin perder calidad generó el efecto compuesto que cabría esperar. El canal creció. Las oportunidades entrantes aumentaron. Los casos de estudio para Ramlit empezaron a atraer conversaciones con empresas porque ahora podía mostrar el trabajo en vez de solo describirlo.

Lo único que me diría a mí mismo hace seis meses

Empieza por el pipeline, no por las herramientas.

El error que cometí en el primer mes fue intentar dominar Descript, luego dominar Remotion, luego dominar Whisper, como si cada herramienta fuera una habilidad separada. El avance llegó cuando dejé de tratarlas como herramientas individuales y empecé a verlas como etapas de un solo pipeline que Claude Code orquestaría.

Una vez que haces ese cambio mental, la pregunta deja de ser “¿cómo aprendo Remotion?” y pasa a ser “¿cómo describo lo que quiero que produzca esta etapa, y cómo ese resultado alimenta la siguiente etapa?” Esa es una pregunta que puedes responder en una sola tarde con Claude Code al otro lado de la conversación, iterando contigo hasta que el pipeline fluya.

Hace seis meses, arrastraba clips en una línea de tiempo a la 1 a.m. de un viernes, agotado y resentido con mi propio contenido. Esta noche, escribí este post, grabé un video de 28 minutos sobre el mismo tema, y para cuando leas esto, ese video ya estará publicado — procesado a través del pipeline exacto que acabo de mostrarte. Tiempo total de trabajo manual desde la grabación bruta hasta el MP4 publicado: probablemente 40 minutos, la mayoría de los cuales fueron viendo y aprobando, no haciendo clics.

Los videos a los que antes les perdía fines de semana ahora son lo que publico mientras el café sigue caliente. Las horas que antes desaparecían revisando la línea de tiempo ahora las dedico a lo que realmente importa: pensar, escribir, lanzar, construir. Ese es el intercambio que siempre quise. Resulta que la herramienta para lograrlo no era un mejor editor. Era un mejor director de orquesta.

Si tienes un disco duro lleno de material en bruto y una agenda llena de plazos, aquí va mi reto: elige un video. Solo uno. Pásalo por este pipeline de principio a fin este fin de semana. No perfectamente — vas a equivocarte en el primer render, los subtítulos estarán desincronizados, la música peleará con la voz. No pasa nada. Para el segundo video, el pipeline empezará a adaptarse a tu mano. Para el quinto, te preguntarás cómo editabas de otra manera.

La línea de tiempo no va a volver. Y sinceramente, no la extraño.

Preguntas Frecuentes

¿Necesito saber React para usar Claude Code con Remotion?

No — puedes ejecutar toda la cadena de trabajo sin escribir JSX tú mismo. Claude Code genera los componentes de Remotion a partir de descripciones en inglés sencillo, y Remotion Studio te permite previsualizar el resultado. Saber React amplía el nivel de personalización posible, pero no es necesario para publicar tu primer video. Para una explicación más detallada de la integración Claude Code + Remotion, consulta la sección del flujo de trabajo Remotion + Claude Code más arriba.

¿Cuánto cuesta este pipeline completo por video?

Para un video final de 10 minutos, calcula aproximadamente $0.06 por la transcripción con la API de Whisper, una parte prorrateada del plan Creator de Descript a $24/mes, una suscripción a Epidemic Sound desde unos $15/mes y tu suscripción a Claude Code. En total, para una frecuencia de publicación semanal, el coste de las herramientas ronda los $40-60/mes, independientemente de cuántos videos produzcas — que es precisamente la ventaja de un pipeline de coste fijo.

¿Puede Claude Code editar videos sin Remotion?

Claude Code puede controlar FFmpeg directamente para cortes simples, concatenaciones y mezcla de audio — y eso ya es útil para ediciones básicas. Remotion entra en juego cuando quieres gráficos programáticos, subtítulos animados u overlays de marca que se actualicen automáticamente en todos los videos. Si tu flujo de trabajo es solo de cortes sin gráficos, puedes omitir Remotion por completo y aun así ahorrar horas por video.

¿Cuál es el mayor punto de fallo de un flujo de edición de video automatizado?

Frases repetidas que se cuelan tras la limpieza de la transcripción. La reducción de huecos por IA y el editor basado en texto de Descript detectan la mayoría, pero grabaciones con largas pausas entre tomas pueden engañar al detector de duplicados. La solución es una verificación humana obligatoria a 1.5x de velocidad antes de publicar — 4-6 minutos de revisión con la barra espaciadora lista para detectar los fallos que el pipeline no puede corregir.

¿Es mejor Whisper o GPT-4o Mini Transcribe para subtítulos?

Whisper, a $0.006/minuto, es la mejor opción para subtítulos animados que requieren precisión de marcas de tiempo a nivel de palabra. GPT-4o Mini Transcribe, a $0.003/minuto, es excelente para transcripciones masivas donde solo necesitas texto preciso, pero la temporización palabra por palabra varía. Para el flujo de overlays de subtítulos en Remotion específicamente, quédate con Whisper y usa el parámetro timestamp_granularities=["word"].

Trabajemos Juntos

¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudarte.


Coffee cup

¿Te gustó este artículo?

Tu apoyo me ayuda a crear más contenido técnico detallado, herramientas de código abierto y recursos gratuitos para la comunidad de desarrolladores.

Temas Relacionados

Engr Mejba Ahmed

Sobre el Autor

Engr Mejba Ahmed

Engr. Mejba Ahmed builds AI-powered applications and secure cloud systems for businesses worldwide. With 10+ years shipping production software in Laravel, Python, and AWS, he's helped companies automate workflows, reduce infrastructure costs, and scale without security headaches. He writes about practical AI integration, cloud architecture, and developer productivity.

Discussion

Comments

0

No comments yet

Be the first to share your thoughts

Leave a Comment

Your email won't be published

5  +  13  =  ?

Seguir Aprendiendo

Artículos Relacionados

Ver Todos

Comments

Leave a Comment

Comments are moderated before appearing.

Learning Resources

Expand Your Knowledge

Accelerate your growth with structured courses, verified certificates, interactive flashcards, and production-ready AI agent skills.

Sample Certificate of Completion

Sample certificate — complete any course to earn yours

Engr Mejba Ahmed

Engr Mejba Ahmed

Claude Code Expert · Online

👋

Hey there!

Quick Actions

WhatsApp Instant reply

Chat on WhatsApp

+880 1723 741224 · Instant reply

Popular Questions

Engr Mejba Ahmed is connected
Engr Mejba Ahmed is typing...
Engr Mejba Ahmed avatar

✉ Want me to follow up? Drop your email

Engr Mejba Ahmed avatar

📞 Connect Directly

Choose how you'd like to reach me

WhatsApp

+880 1723 741224

Email

[email protected]

✓ Details sent! I'll get back to you shortly.

Powered by OpenAI

335+

Blog Posts

25

AI Courses

63

Projects

Services & Expertise

Pricing & Process

Learning & Resources

Connect & Support