Cómo construí animaciones 3D de scroll estilo Apple con IA

La página de aterrizaje cargó y comencé a hacer scroll. Un teclado estaba centrado sobre un fondo oscuro — negro mate, iluminación nítida, el tipo de foto de producto que esperarías en una keynote de Apple. Entonces, cuando mi rueda de scroll se movió, el teclado comenzó a desmontarse. Teclas elevándose. Circuitos internos revelándose. Un efecto de rayos X lento y elegante que seguía perfectamente mi posición de scroll — no reproduciendo un video, sino respondiendo a mi dedo como si la página misma estuviera viva.

Dejé de hacer scroll a mitad de camino, volví a subir y vi cómo el teclado se reensamblaba. Bajé de nuevo, más rápido esta vez. La animación mantuvo el ritmo. Sin temblores. Sin frames cargando. Sin indicador de buffering. Solo un movimiento suave como la mantequilla, perfecto frame a frame, vinculado directamente a la barra de scroll.

Esta no era una página construida por una agencia de diseño que cobra seis cifras. Fue construida en aproximadamente una hora usando tres herramientas de IA y Claude Code. Y la técnica detrás — animación de scroll frame a frame — es la misma que Apple usa en sus páginas de producto para AirPods, MacBook Pro e iPhone.

Lo que me tomó por sorpresa: la parte más difícil de todo este flujo de trabajo no fue la animación en sí. No fue la programación. Ni siquiera fue ajustar el timing. La parte más difícil fue saber que esta combinación de herramientas existía en primer lugar. Una vez que ves el pipeline, todo encaja — y nunca volverás a ver una página web genérica generada por IA de la misma manera.

Voy a guiarte a través del proceso exacto, herramienta por herramienta, frame por frame. Pero primero, necesitas entender por qué esta técnica de animación específica funciona mucho mejor que lo que la mayoría de los desarrolladores usan por defecto.

Por qué los videos incrustados matan la sensación premium (y qué hace Apple en su lugar)

La mayoría de los desarrolladores que quieren animación activada por scroll en un sitio web recurren a uno de dos enfoques: animaciones CSS controladas por scroll o un video incrustado con listeners de scroll en JavaScript. Ambos funcionan. Ninguno se siente premium.

Las animaciones CSS controladas por scroll — las que construyes con @keyframes y animation-timeline: scroll() — son geniales para efectos parallax, apariciones graduales y transformaciones de elementos. Son ligeras, performantes y nativas del navegador desde 2024. Pero no pueden hacer lo que acabo de describir. No puedes animar con CSS un teclado que se desmonta en una vista de rayos X. Eso requiere renderizado 3D fotorrealista, y CSS no renderiza objetos 3D.

Los videos incrustados se acercan más. Puedes usar la API Intersection Observer para reproducir un video basado en la posición de scroll, y muchas bibliotecas lo hacen sencillo. Pero la reproducción de video durante el scroll tiene un problema fundamental: la búsqueda. Cuando navegas un video cambiando currentTime en respuesta a eventos de scroll, le estás pidiendo al decodificador de video del navegador que busque frames arbitrarios en tiempo real. El resultado es entrecortado, inconsistente y notablemente diferente de dispositivo a dispositivo. Mobile Safari lo maneja diferente a Chrome. Los dispositivos de baja potencia tartamudean. Y el archivo de video en sí — incluso un clip corto de 5 segundos — puede pesar 3-8MB, lo que arruina tus Core Web Vitals.

El enfoque de Apple es diferente. Si inspeccionas una página de producto de MacBook Pro o AirPods, no encontrarás una etiqueta <video> impulsando esas animaciones de scroll. Encontrarás un elemento <canvas>. Y lo que alimenta ese canvas es una secuencia de frames de imagen pre-extraídos — típicamente 60 a 180 imágenes individuales — cargadas progresivamente y dibujadas en el canvas mientras el usuario hace scroll.

Funciona como un flipbook. Cada posición de scroll se mapea a un número de frame específico. El navegador dibuja ese frame en el canvas. Como estás dibujando una imagen estática (no buscando en un flujo de video comprimido), el renderizado es instantáneo. Sin retardo del decodificador. Sin búsqueda de keyframes. Sin buffering. La animación se siente bloqueada a la posición de scroll del usuario porque literalmente lo está — no hay motor de reproducción de video entre el evento de scroll y la salida visual.

¿El inconveniente? Crear 180 frames de producto fotorrealistas tradicionalmente requería un artista 3D, un pipeline de renderizado (Blender, Cinema 4D, Houdini) y días de trabajo. Exactamente por esto esta técnica permaneció encerrada dentro del presupuesto de Apple hasta ahora.

Aquí es donde el pipeline de IA cambia la ecuación por completo.

El pipeline de tres herramientas que hace esto posible

El flujo de trabajo que voy a explicar usa tres herramientas de IA en secuencia, cada una manejando una parte específica del proceso. Aquí está la visión general antes de profundizar en cada una:

Herramienta 1: Nano Banana 2 (el modelo de generación de imágenes de Google en Higgsfield) genera los keyframes de inicio y fin — dos imágenes de alta calidad que representan el estado inicial y final de la animación.

Herramienta 2: Kling 3.0 (el modelo de generación de video IA de Kuaishou) toma esos dos keyframes y genera un video de transición suave entre ellos — la animación real, renderizada como MP4.

Herramienta 3: Claude Code toma ese MP4, extrae frames individuales usando FFMPEG, los convierte a WEBP y construye todo el sitio web de animación controlada por scroll usando Next.js y Tailwind CSS.

Tiempo total de trabajo desde el primer prompt hasta el sitio web desplegado: aproximadamente 45-90 minutos dependiendo de cuánto personalices. Y el resultado parece algo que una agencia creativa pasó semanas produciendo.

Permíteme desglosar cada paso. Los detalles importan — especialmente los prompts de generación de imágenes, porque equivocarse en estos propaga problemas a través de todo el pipeline.

Paso 1: Generando tus keyframes con Nano Banana 2

Nano Banana 2 es el modelo Gemini 3.1 Flash Image de Google, lanzado el 26 de febrero de 2026. Está disponible en Higgsfield, una plataforma de creación de contenido con IA que agrupa generación de imágenes, generación de video y herramientas de edición en un solo lugar.

¿Por qué Nano Banana 2 específicamente? Tres razones que importan para este flujo de trabajo:

Resolución 2K nativa. La mayoría de los generadores de imágenes producen a 1024x1024 o requieren escalado. Nano Banana 2 renderiza en 2K nativamente, lo que significa que tus frames de animación permanecen nítidos incluso en pantallas de escritorio grandes. Dado que Kling 3.0 produce video a 1080p, quieres que tus imágenes fuente al menos igualen esa resolución — 2K te da margen.

Iluminación físicamente precisa. El modelo planifica escenas antes de renderizar, lo que significa que las fuentes de luz, reflejos y sombras se comportan consistentemente. Cuando generas dos imágenes que necesitan parecer de la misma escena (un teclado ensamblado vs. desmontado), la consistencia de iluminación no es negociable. Sombras no coincidentes entre tus frames de inicio y fin harán que el video de transición se vea mal de maneras difíciles de articular pero inmediatamente obvias.

Renderizado de texto que realmente funciona. Si tu producto tiene texto — un logotipo, una etiqueta de tecla, una pantalla — Nano Banana 2 trata el texto como un elemento de primera clase en lugar de una textura visual. Esto importa más de lo que esperarías cuando la cámara hace zoom en un detalle del producto.

Aquí está el proceso real:

Generando la imagen inicial

Abre Higgsfield y selecciona Nano Banana 2 como tu modelo. Tu prompt necesita lograr tres cosas simultáneamente: describir el producto, establecer el ángulo de cámara y — este es el que la mayoría no nota — especificar el color de fondo para que coincida con tu sitio web.

A premium mechanical keyboard, matte black finish, centered on a pure
#0F172A dark background. Studio lighting from above-right creating subtle
highlights on keycaps. Photorealistic product photography style. Sharp
focus. 2K resolution. No additional objects or surfaces — just the
keyboard floating against the dark background.

Ese código hex — #0F172A — es el color de fondo del sitio web que estoy construyendo. Esto es crítico. Si tu imagen generada tiene un tono de oscuro ligeramente diferente (digamos, puro #000000 o un gris oscuro #1a1a1a), verás un borde rectangular visible alrededor de la imagen cuando se coloque en el sitio web. El producto no parecerá que está flotando en la página. Parecerá una imagen pegada en una página. La diferencia entre "premium" y "amateur" vive en este único detalle.

Generando la imagen final

La imagen final representa dónde aterriza la animación cuando el usuario ha hecho scroll completamente a través de la sección. Puede ser cualquier cosa — una vista explosionada, una perspectiva de rayos X, un cambio de color, una transformación. La libertad creativa aquí es genuinamente amplia.

El truco con el prompt de la imagen final: puedes hacer referencia a la imagen inicial directamente. Higgsfield te permite subir una imagen de referencia, lo que significa que tu prompt puede ser más simple porque el modelo ya tiene contexto sobre el producto, la iluminación y el fondo.

The same keyboard from the reference image, now deconstructed — keys
floating slightly above the board, internal PCB circuitry visible,
transparent casing revealing RGB LED components underneath. Same studio
lighting. Same #0F172A background. X-ray effect showing the engineering
beneath the surface. Photorealistic. 2K resolution.

Al hacer referencia a la imagen inicial, no necesitas re-describir cada propiedad del material. El modelo transfiere la identidad del producto, el ángulo de iluminación y el color de fondo — y solo necesitas describir lo que es diferente.

Una nota sobre la complejidad: Mantén el estado final relativamente simple en términos de implicación de movimiento. Le estás pidiendo a un modelo de video que genere la transición entre estos dos estados, y estados finales demasiado complejos (como "el teclado se derrite en metal líquido que se reforma como un portátil") producirán video desordenado con artefactos. Los mejores resultados vienen de transiciones con una lógica física clara — ensamblaje/desensamblaje, rotación, zoom, revelación de transparencia, cambio de color.

Paso 2: Generando el video de transición con Kling 3.0

Con ambos keyframes en mano, necesitas un modelo de video IA para generar la transición suave entre ellos. Usé Kling 3.0, que Kuaishou lanzó el 4 de febrero de 2026. También podrías usar Veo 3.1, el modelo de generación de video de Google — ambos soportan generación de imagen a video con frames de inicio y fin.

Por qué Kling 3.0 funciona bien para esto

La simulación de física de Kling 3.0 es la más realista de cualquier modelo de video actual. Para animaciones de productos específicamente, esto significa que los materiales se comportan correctamente — el metal refleja la luz al rotar, el plástico refracta adecuadamente, los elementos transparentes interactúan con las fuentes de luz detrás de ellos. El modelo produce a 1080p a hasta 60fps, y puedes generar clips de hasta 15 segundos.

Para propósitos de animación de scroll, quieres un clip de 3-5 segundos. Clips más cortos significan menos frames para extraer y cargar, lo que impacta directamente el rendimiento de la página. Un clip de 5 segundos a 30fps te da 150 frames — son 150 imágenes individuales que el navegador necesita precargar. Un clip de 3 segundos a 30fps te da 90 frames. Ambos funcionan. El clip más corto carga más rápido; el más largo permite una sensación de animación más gradual y prolongada.

El proceso de generación de video

En Kling 3.0 (o Veo 3.1), selecciona el modo de imagen a video. Sube tu imagen inicial como el primer frame y tu imagen final como el último frame. Luego escribe un prompt describiendo la transición:

Smooth transition from assembled keyboard to deconstructed X-ray view.
Keys lift gradually, casing becomes transparent, internal components
reveal. Steady camera position. Even, unhurried motion. Studio lighting
maintained throughout.

Dos configuraciones críticas a vigilar:

NO actives la auto-mejora del prompt. Tanto Kling como Veo ofrecen mejora de prompt por IA que reescribe tu entrada para ser "más detallada". Para este caso de uso, esa mejora tiende a agregar adornos creativos — movimientos de cámara, cambios dramáticos de iluminación, efectos de partículas — que arruinan la transición limpia y controlada que necesitas. Mantenlo simple. Cuanto más simple el prompt, más suave la salida.
Haz coincidir la relación de aspecto con tus imágenes. Si generaste imágenes 16:9, genera un video 16:9. Relaciones no coincidentes significan que el modelo de video recortará o rellenará tus keyframes, lo que mata la alineación perfecta que necesitas.

Genera el video. Revísalo. Si la transición tiene artefactos, interpolación de frames extraña o no aterriza limpiamente en tu imagen final, regenera. Kling 3.0 es bastante consistente, pero los modelos de generación de video son inherentemente probabilísticos — a veces el segundo o tercer intento es notablemente mejor.

Una vez que tengas un MP4 limpio de la transición, comienza la parte divertida.

Paso 3: De video a flipbook — Claude Code hace el trabajo pesado

Aquí es donde el flujo de trabajo cambia de trabajo creativo asistido por IA a ingeniería asistida por IA. Y aquí es donde Claude Code se gana su reputación.

El objetivo: tomar ese archivo MP4 y convertirlo en una animación controlada por scroll lista para producción incrustada en un sitio web Next.js. Eso significa extraer frames, convertirlos a un formato optimizado, construir el listener de scroll, gestionar la precarga y envolver todo en una landing page pulida.

Aquí va paso a paso.

3a: Extracción de frames con FFMPEG

FFMPEG es el caballo de batalla aquí. Si no lo tienes instalado, Claude Code normalmente te pedirá que lo instales (brew install ffmpeg en macOS, apt install ffmpeg en Ubuntu). El comando de extracción se ve así:

ffmpeg -i keyboard-transition.mp4 -vf "fps=30" -c:v libwebp -quality 85 frames/frame_%04d.webp

Desglosándolo:

-i keyboard-transition.mp4 — tu video de entrada
-vf "fps=30" — extraer a 30 frames por segundo (coincidiendo con la tasa de frames nativa del video)
-c:v libwebp — codificar cada frame como WEBP (no JPEG, no PNG)
-quality 85 — configuración de calidad WEBP; 85 es el punto óptimo entre calidad visual y tamaño de archivo
frames/frame_%04d.webp — salida al directorio frames/ con numeración rellenada con ceros

¿Por qué WEBP en lugar de JPEG? Tamaño de archivo. Las imágenes WEBP son aproximadamente 25-35% más pequeñas que JPEGs de calidad equivalente, y cuando estás cargando 90-180 frames, esa ventaja de compresión se acumula rápidamente. Una secuencia de frames que pesa 12MB en JPEG podría ser 8MB en WEBP. En una conexión móvil, esa es la diferencia entre una experiencia fluida y un indicador de carga.

Para un clip de 5 segundos a 30fps, obtendrás aproximadamente 150 frames. Cada frame WEBP a 1080p calidad-85 típicamente pesa 30-60KB, poniendo tu secuencia total en 4,5-9MB. Eso es manejable — especialmente con precarga, que configuraremos a continuación.

3b: Usando prompts con Claude Code para construir la animación de scroll

Aquí es donde se pone bueno. No necesitas escribir el listener de scroll, la lógica de renderizado del canvas, el sistema de precarga o el layout de la página a mano. Le das el prompt a Claude Code con el contexto correcto y construye todo.

El prompt que usé:

Build a product landing page for a premium mechanical keyboard called
"Void MK1" using Next.js and Tailwind CSS. The hero section features a
scroll-driven frame animation.

Technical requirements:
- Load WEBP frames from /public/frames/ directory (frame_0001.webp through
  frame_0150.webp)
- Use a <canvas> element to render frames
- Map scroll position to frame number (scroll 0% = frame 1, scroll 100% =
  frame 150)
- Pre-load all frames on page mount before enabling scroll animation
- Show a subtle loading indicator until all frames are loaded
- The animation section should be pinned (position: sticky) while the user
  scrolls through it
- Use requestAnimationFrame for smooth rendering
- Background color: #0F172A

Design requirements:
- Dark, premium aesthetic
- Product title and tagline overlay on the animation
- Feature cards below the animation section
- Smooth transitions between sections

Claude Code toma esto y construye la aplicación completa. Las piezas técnicas clave que genera:

El precargador de frames — una función que crea objetos Image para cada frame, los carga en paralelo y rastrea el progreso. La animación no comienza hasta que cada frame está cacheado en memoria. Esto es lo que previene esa experiencia entrecortada de "cargar frames bajo demanda".

const preloadFrames = async (frameCount) => {
  const frames = [];
  let loaded = 0;

  const promises = Array.from({ length: frameCount }, (_, i) => {
    return new Promise((resolve) => {
      const img = new Image();
      img.src = `/frames/frame_${String(i + 1).padStart(4, '0')}.webp`;
      img.onload = () => {
        frames[i] = img;
        loaded++;
        setLoadProgress(Math.round((loaded / frameCount) * 100));
        resolve();
      };
    });
  });

  await Promise.all(promises);
  return frames;
};

El mapeador de scroll a frame — calcula qué frame mostrar basado en la posición de scroll del usuario dentro de la sección de animación. La sección está fijada con position: sticky, y la distancia de scroll se divide uniformemente entre el conteo total de frames.

const handleScroll = () => {
  const scrollTop = window.scrollY;
  const sectionTop = sectionRef.current.offsetTop;
  const sectionHeight = sectionRef.current.offsetHeight - window.innerHeight;

  const scrollProgress = Math.max(0, Math.min(1,
    (scrollTop - sectionTop) / sectionHeight
  ));

  const frameIndex = Math.round(scrollProgress * (totalFrames - 1));

  requestAnimationFrame(() => {
    const ctx = canvasRef.current.getContext('2d');
    ctx.clearRect(0, 0, canvas.width, canvas.height);
    ctx.drawImage(frames[frameIndex], 0, 0, canvas.width, canvas.height);
  });
};

El renderizador de canvas — dibuja el frame actual en un elemento <canvas> dimensionado para coincidir con la resolución nativa del video. Usar requestAnimationFrame asegura que la llamada de dibujo esté sincronizada con el ciclo de actualización del navegador, eliminando el desgarro visual.

Claude Code envuelve todo esto en un componente React limpio con gestión adecuada del ciclo de vida — estado de carga, manejo de errores, limpieza al desmontar y listeners de redimensionamiento para mantener el canvas responsivo.

3c: El archivo Markdown de mejores prácticas

Una técnica que mejoró dramáticamente la salida de Claude Code: le proporcioné un archivo markdown con mejores prácticas para animaciones de scroll antes de dar el prompt de construcción. Piensa en ello como una inyección de contexto estilo CLAUDE.md, pero enfocada específicamente en el dominio de animación.

El archivo cubría cosas como:

Usar will-change: transform en el canvas para composición GPU
Limitar los listeners de scroll a 60fps usando requestAnimationFrame — nunca vincular directamente al evento de scroll sin limitación
Establecer las dimensiones del canvas vía JavaScript, no CSS, para evitar escalado borroso
Precargar frames en lotes de 10-20 para mostrar feedback de carga progresivo
Usar decoding: async en objetos Image para evitar bloquear el hilo principal
Mantener la altura de la sección fijada en 100vh * (totalFrames / 30) para una velocidad de scroll natural

Alimentar a Claude Code con mejores prácticas específicas del dominio antes del prompt de construcción produce consistentemente mejores resultados en el primer intento que depender solo de su conocimiento general. He escrito antes sobre este enfoque con archivos CLAUDE.md — funciona aquí por la misma razón.

Paso 4: Personalización y pulido

La salida cruda de Claude Code es funcional y sorprendentemente pulida. Pero aquí es donde la haces tuya.

Ajustando la velocidad de scroll

La velocidad de scroll de la animación se controla por la altura de la sección fijada. Una sección más alta significa más distancia de scroll para recorrer el mismo número de frames, lo que significa animación más lenta. Una sección más corta significa más rápido.

El valor por defecto que Claude Code genera es usualmente height: 300vh (tres alturas de viewport de distancia de scroll para la animación completa). Típicamente ajusto esto basado en el contenido de la animación:

Revelaciones rápidas (rotación o zoom simple): 200vh se siente natural
Transiciones complejas (desmontaje, rayos X): 400vh da al usuario tiempo para absorber el detalle
Efectos dramáticos (construcción desde cero): 500vh crea un ritmo cinematográfico

Dile a Claude Code: "Haz que la sección de animación tenga scroll más lento — aumenta la altura fijada a 400vh." Lo ajustará y asegurará que las matemáticas de mapeo de frames sigan funcionando correctamente.

Resolución y nitidez

Kling 3.0 produce a 1080p. En una pantalla de 1920x1080, eso llena la pantalla perfectamente. En una pantalla de 2560x1440 o 4K, la animación se verá ligeramente suave si la escalas a ancho completo.

Dos soluciones:

Restringe el área de animación. No hagas el canvas a ancho completo. Un max-width: 1080px con margin: auto mantiene cada frame pixel-perfecto y se ve intencional — como una vitrina de producto en un viewport definido.
Escala antes de extraer. Si necesitas animación a sangre completa en pantallas grandes, usa un escalador IA (Topaz Video AI, o incluso el filtro scale integrado de FFMPEG) en el video antes de extraer frames. Esto aumenta el tamaño de archivo, así que equilibra nitidez contra tiempo de carga.

Usualmente elijo la opción 1. Restringir el área de animación en realidad se ve más premium — le da al producto espacio visual para respirar, y el fondo oscuro que lo rodea refuerza la estética de flotando-en-el-espacio que usan las páginas de producto de Apple.

Ajustando el diseño

Aquí es donde brilla el flujo de trabajo iterativo de Claude Code. Una vez que la página base está construida, puedes dar prompts de refinamiento conversacionalmente:

"Agrega una superposición de gradiente sutil en la parte superior e inferior de la sección de animación"
"Haz que el título del producto aparezca gradualmente en el frame 30 y suba desde abajo"
"Agrega una barra de progreso debajo de la animación que se llene mientras el usuario hace scroll"
"Cambia las tarjetas de características a un diseño de dos columnas con estilo glassmorphism"

Cada prompt refina sin reconstruir. Claude Code entiende la estructura de componentes existente y hace cambios dirigidos. Aquí es donde pasas de "demo técnicamente impresionante" a "página que realmente le entregaría a un cliente."

Si prefieres que alguien construya toda esta configuración desde cero para tu producto o marca, acepto este tipo de proyectos personalizados. Puedes ver lo que he construido en fiverr.com/s/EgxYmWD.

Lo que hice mal la primera vez (y lo que deberías saltarte)

Quiero ser honesto sobre los errores que cometí, porque te ahorrarán tiempo real.

Error 1: Usar JPEG para los frames. Mi primer intento extrajo frames como JPEGs de alta calidad. La animación pesaba 14MB en total. Después de cambiar a WEBP con calidad 85, bajó a 8,2MB sin diferencia visible. Esa no es una optimización menor — es la diferencia entre una carga inicial de 2 y 4 segundos en una conexión móvil típica.

Error 2: No hacer coincidir los colores de fondo exactamente. Mis primeras imágenes generadas usaron un fondo que describiría como "oscuro" sin especificar un código hex. Las imágenes volvieron en aproximadamente #111111. Mi sitio web era #0F172A — el slate-900 de Tailwind. La discrepancia era sutil pero inmediatamente visible: un borde rectangular tenue alrededor de la animación donde el fondo de la imagen encontraba el fondo de la página. Regeneré las imágenes con el código hex exacto en el prompt y el problema desapareció.

Error 3: Generar un video de 10 segundos. Más frames no es mejor. Mi primer video fue de 10 segundos de transición lenta y dramática. Extraído a 30fps, eso me dio 300 frames. El tiempo de precarga era doloroso, el tamaño total de archivo era enorme, y la animación se arrastraba tanto que los usuarios hacían scroll pasándola por impaciencia. Lo reduje a 4 segundos (120 frames) y la experiencia mejoró dramáticamente. La animación se sentía más ajustada, la carga era más rápida, y los usuarios realmente interactuaban con ella.

Error 4: Dejar que Kling auto-mejorara mi prompt. La función de auto-mejora reescribió mi prompt de transición simple en algo con "cambios dramáticos de iluminación cinematográfica, efectos etéreos de partículas y dolly de cámara dinámico." El video resultante era visualmente impresionante — como video. Pero como animación de scroll, todos esos movimientos dinámicos de cámara y cambios de iluminación hacían que el scrubbing frame a frame se sintiera caótico. Prompts simples producen transiciones simples, y transiciones simples producen las mejores animaciones de scroll.

Error 5: Canvas a ancho completo en un monitor 4K. Los frames de 1080p se veían bien en mi portátil. En mi monitor externo, se veían como si hubiera hecho zoom en un JPEG comprimido. Restringir el canvas a max-width: 1080px arregló esto inmediatamente y en realidad mejoró el diseño.

Cada uno de estos errores me costó 15-30 minutos de depuración y regeneración. Sáltatelos y ya habrás reducido tu tiempo total de construcción a la mitad.

Las posibilidades creativas son más amplias de lo que piensas

Usé un desmontaje de teclado para este recorrido porque es visual y limpio. Pero el mismo pipeline funciona para cualquier producto y cualquier concepto de transición. Aquí hay enfoques que he probado o visto a otros ejecutar:

Construcción desde cero: Empieza con un fondo oscuro vacío. Termina con el producto completamente ensamblado. El video genera el producto materializándose pieza por pieza — casi como un timelapse de impresión 3D. Increíble para lanzamientos de productos.

Transición de material: Empieza con un render de arcilla o wireframe del producto. Termina con la versión final texturizada e iluminada. La animación de scroll revela gradualmente los materiales premium del producto. Funciona hermosamente para productos de lujo.

Cambio de entorno: Empieza con el producto en un entorno de estudio. Termina con él en un contexto de estilo de vida (en un escritorio, en una mano, en una habitación). La transición mezcla los entornos de forma seamless.

Cambio de color: Empieza en monocromo. Termina con color completo. El scroll revela progresivamente la paleta de colores del producto. Simple de generar, sorprendentemente efectivo visualmente.

Cambio de escala: Empieza con una vista completa del producto. Termina con una toma de detalle macro — una textura, un botón, un primer plano de material. El video genera un zoom suave que el scroll controla.

La limitación es tu imaginación y la capacidad del modelo de video para generar una transición limpia entre tus dos keyframes. Mientras la transición tenga una lógica física clara, Kling 3.0 y Veo 3.1 lo manejan bien.

Cifras de rendimiento que vale la pena conocer

Ejecuté Lighthouse y WebPageTest en la página desplegada. Aquí están los números:

Carga total de frames (120 frames, WEBP, calidad 85): 6,4MB
Carga inicial de página (antes de los frames): 0,8 segundos en una conexión de 50Mbps
Tiempo de precarga de frames: 2,1 segundos en 50Mbps, 4,8 segundos en una conexión 3G limitada
Puntuación de Rendimiento Lighthouse: 91 (escritorio), 78 (móvil)
Largest Contentful Paint: 1,2s escritorio, 2,8s móvil
Total Blocking Time: 12ms — la carga de frames ocurre de forma asíncrona y no bloquea el hilo principal

La puntuación móvil de 78 es el punto débil. Esos 120 frames WEBP siguen sumando en conexiones lentas. Para sitios mobile-first, recomendaría uno de dos enfoques: reducir a 60 frames (extrayendo cada otro frame del video) para dispositivos móviles usando una verificación responsiva, o implementar un fallback de animación CSS más simple para conexiones por debajo de un umbral de velocidad.

Para landing pages enfocadas en escritorio y vitrinas de productos — que es donde estas animaciones brillan más — el rendimiento es excelente.

Cómo se compara con los métodos tradicionales

Para poner el pipeline de IA en perspectiva:

Enfoque tradicional de renderizado 3D (Blender/Cinema 4D):

Modelar el producto en 3D (4-8 horas para un producto detallado)
Configurar materiales, iluminación y cámara (2-4 horas)
Animar la transición (2-4 horas)
Renderizar 120-180 frames a 1080p (1-3 horas de tiempo de cómputo)
Construir la animación de scroll en código (2-4 horas)
Total: 11-23 horas de trabajo especializado

Enfoque de pipeline IA (Nano Banana 2 + Kling 3.0 + Claude Code):

Generar imágenes keyframe (10-15 minutos incluyendo iteraciones)
Generar video de transición (5-10 minutos incluyendo regeneración)
Extraer frames y construir sitio web con Claude Code (20-40 minutos)
Personalizar y pulir (15-30 minutos)
Total: 50-95 minutos

Esa no es una diferencia menor. Es aproximadamente una reducción de 10-15x en tiempo, y no requiere experiencia en modelado 3D, una granja de renderizado, ni un desarrollador frontend senior que entienda la optimización de rendimiento del canvas.

La compensación es el control. Con Blender, controlas cada polígono, cada rayo de luz, cada frame de la animación. Con el pipeline de IA, controlas el inicio, el final y el prompt que guía la transición — y el modelo de video decide lo que hay en medio. Para la mayoría de las landing pages de productos y sitios de marketing, ese nivel de control es más que suficiente. Para trabajo de marca pixel-perfecto donde cada frame necesita aprobación de un director creativo, seguirás queriendo el pipeline tradicional.

¿Pero para el 90% de los sitios web que construyo? El pipeline de IA gana por mucho. Y la brecha entre estos dos enfoques se cierra con cada actualización de modelo.

Lo que viene después para esta técnica

Estoy observando tres desarrollos que llevarán esto aún más lejos.

Modelos de video de mayor resolución. Kling 3.0 llega como máximo a 1080p. En el momento en que estos modelos ofrezcan salida nativa 4K — y Kling ha insinuado que esto viene — el techo de calidad de frames desaparece por completo. Animaciones de scroll a sangre completa en pantallas 4K sin escalado.

Generación de video coherente más larga. Los modelos actuales producen 5-15 segundos de video coherente. A medida que eso se extienda a 30-60 segundos, podrás construir animaciones de scroll multi-sección desde un solo video — una página entera que cuenta la historia de un producto a través del scroll, no solo una sola sección hero.

Mejoras nativas del navegador para animaciones controladas por scroll. La especificación CSS animation-timeline: scroll() aún está evolucionando. A medida que los navegadores agreguen soporte para animaciones más complejas impulsadas por timeline — incluyendo enfoques basados en canvas — la sobrecarga de JavaScript se reducirá. La técnica de frames-en-canvas seguirá siendo el estándar dorado para animaciones fotorrealistas, pero el código circundante se simplificará.

Por ahora, el pipeline funciona. Funciona hoy, con herramientas a las que puedes acceder hoy, produciendo resultados que parecen haber costado cinco cifras. Y cada pieza — la generación de imágenes, la generación de video, la extracción de frames, el código de animación de scroll — es manejada por IA.

Eso no es un vistazo al futuro. Es lo que está sentado en tu navegador, esperando a que lo pruebes.

Una acción específica que puedes tomar en la próxima hora: ve a Higgsfield, genera dos imágenes de cualquier producto — estado inicial y estado final — con el código hex exacto del fondo de tu sitio web en el prompt. Solo esas dos imágenes. Una vez que las veas lado a lado y empieces a imaginar la transición entre ellas, entenderás visceralmente por qué este pipeline funciona. El resto de la construcción sigue naturalmente de esa única decisión creativa.

La web controlada por scroll no está viniendo. Ya está aquí. La única pregunta es si tu próxima landing page la usa — o compite contra alguien que sí lo hace.

Preguntas frecuentes

¿Cuántos frames necesito para una animación de scroll suave?

Entre 90 y 150 frames ofrece el mejor equilibrio entre suavidad y rendimiento. Por debajo de 60 frames, la animación se siente entrecortada durante el scroll lento. Por encima de 180, estás agregando peso de archivo sin mejora visible. Para la mayoría de las animaciones de productos, extrae un video de 3-5 segundos a 30fps.

¿Funciona esto en dispositivos móviles?

Sí, pero con salvedades. El renderizado del canvas y el mapeo de scroll funcionan en todos los navegadores móviles modernos. El cuello de botella de rendimiento es precargar las imágenes de frames — en conexiones lentas, considera servir menos frames (60 en lugar de 120) a usuarios móviles mediante una verificación de breakpoint responsivo.

¿Puedo usar esta técnica con WordPress en lugar de Next.js?

Absolutamente. El plugin Xplode Motion y Scrollsequence ambos soportan animaciones de scroll basadas en frames en WordPress sin código personalizado. Para una implementación personalizada, el mismo enfoque de canvas + frames funciona en cualquier framework — la lógica de JavaScript es agnóstica al framework.

¿Qué pasa si mi video generado por IA tiene artefactos o glitches?

Regenera. Los modelos de generación de video son probabilísticos — el mismo prompt produce diferentes resultados en cada intento. Si obtienes artefactos consistentemente, simplifica tu prompt de transición. Las transiciones complejas (múltiples movimientos simultáneos, cambios dramáticos de iluminación) producen más artefactos que las simples (rotación de un solo eje, revelación gradual, zoom lento).

¿Cuánto cuesta este flujo de trabajo?

Nano Banana 2 en Higgsfield ofrece acceso gratuito para generación básica de imágenes. Los precios de Kling 3.0 comienzan en aproximadamente $0,10-0,30 por generación de video de 5 segundos dependiendo de tu plan. Claude Code requiere una suscripción Pro o Team. Gasto total para una sola animación: menos de $5 en la mayoría de los casos, excluyendo la suscripción de Claude Code que probablemente ya tienes.

Trabajemos juntos

¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudar.

Fiverr (builds e integraciones personalizadas): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io