La herramienta Gemini Ask de YouTube me ahorró horas esta semana
Llevaba diecisiete minutos de un tutorial de cuarenta y tres minutos sobre configuraciones de servidores MCP cuando me di cuenta de que solo necesitaba una cosa específica: cómo manejar la autenticación para plugins personalizados. Diecisiete minutos de contextualización, secuencias de introducción y explicación de fondo — todo para llegar a la parte que realmente importaba para mi problema.
Eso fue el martes pasado. Para el miércoles, había descubierto una función que YouTube lanzó discretamente y que me habría ahorrado esos diecisiete minutos — y, sinceramente, ha cambiado por completo la forma en que consumo contenido en video.
Justo ahí, en la interfaz de YouTube, al lado del botón de "me gusta" y el botón de compartir, hay un pequeño botón que dice "Ask." Al hacer clic, se abre un panel en el lado derecho del video. Arriba: "Ask about this video." Debajo, un botón de "Summarize the video." Y más abajo, un campo de texto donde puedes escribir literalmente cualquier pregunta sobre el contenido del video.
Funciona con Gemini. Y funciona sorprendentemente bien.
Lo descubrí por accidente — noté el panel mientras veía un video sobre los nuevos plugins Co-work de Claude. Hice clic en "Summarize the video" principalmente por curiosidad. En unos cuatro segundos, tenía un desglose estructurado de cada punto importante que el creador cubría, organizado por tema, con suficiente detalle para saber exactamente qué secciones necesitaba ver y cuáles podía saltarme.
Cuatro segundos contra cuarenta y tres minutos. Esas cuentas me impactaron.
Desde entonces he usado esta herramienta en probablemente sesenta o setenta videos durante la última semana. Videos de investigación, tutoriales de programación, reseñas de productos, charlas de conferencias. Y he desarrollado un conjunto de técnicas que exprimen significativamente más valor que simplemente presionar el botón de resumen. Déjame mostrarte cómo la uso realmente — y por qué creo que la mayoría de las personas que descubran esta función la van a subutilizar enormemente.
Cómo funciona realmente el panel Gemini Ask
La función aparece en muchos videos de YouTube como un panel en el lado derecho del reproductor. Lo verás etiquetado como "Ask about this video" con el icono de destello de Gemini. No todos los videos lo tienen todavía — Google aún lo está desplegando — pero la cobertura se está expandiendo rápidamente. Yo estimaría que alrededor del 70-80% del contenido tecnológico en inglés que veo ahora tiene el panel disponible.
Cuando lo abres, tienes tres modos de interacción.
Botones predefinidos aparecen primero. "Summarize the video" siempre está ahí. Debajo, YouTube genera sugerencias específicas basadas en el contenido del video. En un tutorial de programación, podrías ver "What tools are mentioned?" o "Explain the main concept." En una reseña de producto, podrías ver "What are the pros and cons?" Estas sugerencias son sorprendentemente relevantes — Gemini claramente analiza la transcripción del video y genera preguntas que un espectador realmente querría que le respondieran.
El campo de texto en la parte inferior es donde reside el verdadero poder. Puedes preguntar cualquier cosa sobre el contenido del video en lenguaje natural. "What are the main steps?" funciona. También funciona "Explain the authentication section in simple terms" o "What did the presenter say about pricing?" o "Give me a one-paragraph summary focused only on the technical implementation."
Las preguntas de seguimiento también funcionan. El panel mantiene el contexto de la conversación, así que puedes profundizar. "Summarize the video" → "Tell me more about the third point" → "What specific tools did they recommend for that?" Cada respuesta se construye sobre la anterior.
Las respuestas llegan en segundos — típicamente de dos a cinco segundos para un resumen, un poco más para preguntas detalladas. Se generan a partir de la transcripción del video, lo que significa que Gemini tiene acceso a todo lo que dijo el presentador, no solo al título y la descripción. La precisión ha sido sólida en mis pruebas. No perfecta — llegaré a las limitaciones — pero lo suficientemente sólida como para confiar en ella para la evaluación inicial y la toma de notas.
Algo que no esperaba: las respuestas incluyen marcas de tiempo. Cuando Gemini hace referencia a un punto específico del video, a menudo te dice aproximadamente en qué parte del video aparece ese tema. Así que la herramienta no solo reemplaza ver el video — te ayuda a navegar exactamente a la parte que necesitas ver.
Eso cambia toda la propuesta de valor. No es "ver el video O leer el resumen." Es "leer el resumen, identificar lo que importa, y luego ver solo esas secciones." La combinación es más rápida que cualquiera de los dos enfoques por separado.
Los cinco prompts que cambiaron mi forma de aprender con videos
Después de una semana de uso intensivo, me he quedado con cinco prompts que producen consistentemente los resultados más útiles. No son los obvios — "summarize the video" funciona bien, pero estos van más profundo.
Prompt 1: "Turn this video into a checklist of action steps"
Este es mi prompt más usado, y funciona mejor en tutoriales, videos de instrucciones y recorridos de procesos. En lugar de un resumen narrativo, obtienes una lista numerada de cosas específicas por hacer.
Lo usé en un video de treinta minutos sobre cómo configurar un pipeline de CI/CD con GitHub Actions. La respuesta: doce pasos de acción claros, en orden, con los detalles clave de configuración de cada paso incluidos. Seguí la lista mientras construía el pipeline, volviendo al video solo cuando un paso necesitaba confirmación visual. Lo que habría sido un ciclo de "ver cinco minutos, pausar, implementar, volver a ver, implementar" se convirtió en una ejecución fluida y lineal.
El formato de lista de verificación también genera notas de estudio increíbles. Si estás aprendiendo con YouTube — y en 2026, ¿quién no lo hace? — pedir una lista de verificación convierte la visualización pasiva en material de implementación activa.
Prompt 2: "What does the presenter say about [tema específico] and do they recommend for or against it?"
Este es mi prompt de investigación. Cuando estoy evaluando una tecnología o enfoque y veo múltiples videos sobre el tema, no necesito resúmenes completos. Necesito la posición específica de cada presentador sobre lo que estoy investigando.
Lo usé en ocho videos sobre React Server Components versus renderizado tradicional del lado del cliente. En lugar de ver ocho horas de contenido, le hice a cada video la misma pregunta. En unos tres minutos en total, tenía ocho perspectivas de expertos diferentes con sus argumentos específicos a favor y en contra. Uno de ellos planteó una preocupación de rendimiento que ninguno de los otros mencionó — un detalle que fácilmente habría pasado por alto si hubiera estado revisando los videos a velocidad 2x.
Prompt 3: "List every tool, library, framework, or service mentioned in this video with a one-line description of how it's used"
Los videos para desarrolladores son minas de oro de recomendaciones de herramientas, pero están dispersas a lo largo de conversaciones de treinta minutos. Este prompt extrae cada una de ellas.
Lo probé en una charla de conferencia sobre stacks modernos de desarrollo web. La respuesta listó catorce herramientas con contexto: no solo "Tailwind CSS" sino "Tailwind CSS — used for utility-first styling, presenter recommends v4 for the new architecture." Ese nivel de extracción contextual con un solo prompt es algo que antes tenía que hacer tomando notas manualmente.
Prompt 4: "What are the three strongest arguments and the three weakest points in this video?"
Este es mi prompt de pensamiento crítico, y se ha vuelto esencial para evaluar contenido cargado de opiniones. El YouTube tecnológico está lleno de posiciones fuertes — "este framework está muerto," "esta herramienta reemplaza todo" — y este prompt fuerza una perspectiva equilibrada.
En un video que argumentaba que la programación tradicional es obsoleta, Gemini identificó los tres argumentos de apoyo más fuertes (presiones económicas, crecimiento de capacidades de la IA, paralelos históricos con la automatización) y tres debilidades (sesgo de supervivencia en los ejemplos, falta de distinción entre prototipado y producción, y ausencia de discusión sobre la complejidad del mantenimiento). Ese análisis tomó cuatro segundos y me habría tomado diez minutos de visualización crítica activa producirlo.
Prompt 5: "Give me bullet points I can send to a colleague who needs the key takeaways but won't watch the video"
Probablemente mi prompt más práctico para el trabajo del día a día. El resultado ya viene formateado para Slack o correo electrónico — conciso, profesional, cubre los puntos clave, omite el relleno. Lo uso dos o tres veces por semana cuando alguien comparte un video en un canal de trabajo y el equipo necesita los puntos destacados.
El truco con estos cinco prompts: sé específico sobre el formato de salida que quieres. "Summarize this" te da un párrafo. "Give me bullet points" te da viñetas. "Turn this into a checklist" te da una lista de verificación. "Give me a one-paragraph summary" te da exactamente eso. Gemini sigue las instrucciones de formato de manera consistente, así que úsalas.
El flujo de trabajo que multiplicó por 10 mi investigación con videos
Los prompts individuales son útiles. Pero el verdadero salto de productividad llegó cuando los encadené en un flujo de trabajo. Este es el proceso que ahora sigo para cada video de investigación:
Paso uno: Evaluación inicial. Haz clic en "Summarize the video." Lee el resumen en cinco segundos. Decide: ¿este video es relevante para lo que estoy investigando? Si no, sigue adelante. Este único paso elimina alrededor del 40% de los videos de mi cola de visualización — videos cuyos títulos prometían relevancia pero cuyo contenido real era demasiado básico, demasiado avanzado o fuera de tema.
Paso dos: Extracción. Si el video es relevante, pide la información específica que necesitas. "What does this video say about [mi tema de investigación]?" o "List the technical recommendations related to [mi problema específico]." Esto te da las ideas concretas sin el contenido circundante.
Paso tres: Evaluación. Si el video hace afirmaciones que quieres evaluar, pide los argumentos fuertes y débiles. Esto toma cuatro segundos y te da una lente crítica antes de haber invertido tiempo en visualización.
Paso cuatro: Profundización selectiva. Basándote en los pasos uno al tres, ahora sabes exactamente qué secciones del video merecen ser vistas. Salta a esas marcas de tiempo, mira a velocidad 1x con atención completa e ignora el resto.
Paso cinco: Exportación. Pide los puntos clave listos para colegas o la lista de verificación de acciones. Copia a tus notas. Listo.
Tiempo total por video: generalmente de dos a cuatro minutos en lugar de la duración completa del video. Para una sesión de investigación típica donde estoy evaluando de diez a quince videos sobre un tema, eso es la diferencia entre un día completo de visualización y unos cuarenta y cinco minutos de extracción dirigida.
Quiero ser claro sobre lo que está pasando aquí. No estoy reemplazando ver videos. Estoy reemplazando las partes ineficientes de ver videos — la evaluación inicial, el escaneo, la evaluación de "¿esto es relevante?" y el revisionado pasivo de secciones que solo absorbí a medias la primera vez. Las partes que realmente requieren video — demostraciones visuales, explicaciones con matices, ver código siendo escrito en tiempo real — esas sí las sigo viendo. Solo llego a ellas más rápido.
Dónde falla esto (porque sí falla)
He sido entusiasta, así que déjame ser honesto sobre los modos de fallo. Hay tres que importan.
El contenido visual se pierde. Gemini trabaja a partir de la transcripción. Si el presentador muestra algo en pantalla sin describirlo verbalmente — un fragmento de código, un diagrama, un recorrido por la interfaz — la herramienta Ask no lo captura. He tenido respuestas que decían "el presentador discute un archivo de configuración" cuando lo que realmente pasó fue que el presentador mostró el archivo en pantalla sin leerlo en voz alta. Para tutoriales de programación donde la mitad del valor está en la pantalla compartida, esta es una limitación real.
Mi solución alternativa: cuando el resumen de Gemini se siente escaso en un video técnico, eso generalmente es una señal de que el video es muy visual y necesita ser visto. Las limitaciones de la herramienta se convierten en una señal útil.
Los matices y el tono se aplanan. Cuando un presentador dice algo de manera sarcástica, o matiza una recomendación con lenguaje corporal sutil y énfasis vocal, Gemini a menudo lo reporta como una declaración directa. Lo noté en un video donde el presentador dijo "claro, podrías usar microservicios para tu app de tareas pendientes" — claramente sarcástico — y Gemini listó "arquitectura de microservicios" como una recomendación. La transcripción literal perdió el tono por completo.
Para contenido cargado de opiniones, esto importa. Siempre verifica las afirmaciones fuertes del resumen viendo la sección relevante. Las marcas de tiempo que proporciona Gemini facilitan esto.
Los videos largos y sin estructura producen resúmenes más débiles. Un tutorial bien estructurado de veinte minutos con secciones claras produce excelentes resúmenes. Un livestream divagante de sesenta minutos con tangentes e interacciones con la audiencia produce resúmenes que pierden puntos clave o atribuyen mal el contexto. La herramienta funciona mejor cuando el video tiene una estructura coherente — lo cual, para ser justos, correlaciona bien con los videos que vale la pena ver en primer lugar.
A pesar de estas limitaciones, me encuentro usando la herramienta en esencialmente cada video que abro. Incluso cuando sé que necesitaré ver el video completo, el resumen de cinco segundos me dice qué esperar y prepara mi cerebro para los puntos clave. Eso solo ya mejora cuánto retengo al ver el video.
La implicación mayor que nadie está discutiendo
Esto es lo que me ha estado rondando la cabeza desde que empecé a usar esta herramienta intensivamente.
YouTube tiene 800 millones de videos. La gran mayoría de la información útil encerrada dentro de esos videos era, hasta ahora, solo accesible viéndolos. No podías buscar dentro del contenido de un video. No podías consultar un momento específico. No podías extraer datos estructurados de las palabras de un presentador. La información existía, pero extraerla requería la misma inversión de tiempo que cuando se grabó el video.
La herramienta Ask de Gemini abre esa puerta. No de manera perfecta, no completamente, pero sí de manera significativa. La información que estaba atrapada en formato de video ahora es consultable en lenguaje natural.
Piensa en lo que eso significa para el aprendizaje. Cada charla de conferencia de los últimos cinco años es ahora una base de conocimiento consultable. Cada tutorial, cada recorrido de código, cada entrevista con expertos — puedes hacer preguntas específicas y obtener respuestas específicas sin ver un solo minuto.
Puse a prueba esta teoría. Tomé un tema complejo que quería entender — protocolos de comunicación entre agentes — y en lugar de mi enfoque habitual (encontrar tres o cuatro buenos videos, verlos todos, tomar notas), usé la herramienta Ask en doce videos en unos veinte minutos. Le hice a cada video las mismas tres preguntas dirigidas. Compilé las respuestas. Tenía una comprensión integral y multiperspectiva del tema con opiniones específicas de expertos y herramientas recomendadas.
Veinte minutos para lo que antes tomaba medio día. Y porque estaba haciendo preguntas enfocadas en lugar de absorber pasivamente, mi retención del material fue notablemente mejor.
Esto no hace que el video sea obsoleto. Los grandes presentadores transmiten comprensión a través de narrativa, ritmo y demostración visual de maneras que la extracción de texto no puede replicar. Lo que sí hace obsoleto es el consumo ineficiente de video — las horas gastadas viendo contenido que es 80% irrelevante para tu necesidad específica.
Cómo he integrado esto en mi flujo de trabajo diario
La integración práctica importa más que la emoción teórica, así que aquí está exactamente cómo esta herramienta encaja en mi día.
Investigación matutina (15 minutos). Reviso mis suscripciones, abro cualquier video nuevo relevante y ejecuto el flujo de trabajo de evaluación en cada uno. Resumir, evaluar relevancia, extraer puntos clave. En quince minutos he procesado lo que antes tomaba noventa minutos de visualización.
Sesiones de aprendizaje profundo. Cuando estoy aprendiendo algo nuevo y tengo de cinco a diez videos en cola, primero extraigo listas de verificación y listas de herramientas de todos ellos. Luego veo solo los uno o dos videos que tienen el mejor recorrido estructural, usando las listas de los demás como material complementario.
Trabajo con clientes. Cuando un cliente envía una referencia en video — "construye algo como lo que esta persona demuestra" — uso la herramienta Ask para extraer los requisitos técnicos específicos, decisiones de arquitectura y detalles de implementación. Luego comparto el desglose estructurado con el cliente para confirmar el alcance antes de escribir una sola línea de código.
Investigación de contenido. Cuando estoy escribiendo sobre un tema y quiero hacer referencia a lo que otros creadores están diciendo, la herramienta Ask me permite revisar de diez a quince videos en treinta minutos. Obtengo afirmaciones específicas, opiniones y recomendaciones de cada uno, dándole a mi escritura una base de evidencia más amplia de la que podría construir viendo todo.
El hilo conductor: la herramienta es más valiosa cuando sabes lo que estás buscando. El "resúmeme todo" sin dirección es útil pero básico. El "dime específicamente sobre X" es donde viven los verdaderos ahorros de tiempo.
Lo que esto significa para cómo deberías usar YouTube
Quiero dejarte con un replanteamiento que me ha sido útil.
Antes de esta herramienta, YouTube era un compromiso. Abrir un video significaba comprometer veinte, treinta, sesenta minutos para averiguar si contenía lo que necesitabas. Ese compromiso creaba fricción. Guardabas videos para "ver después" (lo que significaba nunca). Te saltabas contenido potencialmente útil porque no podías justificar la inversión de tiempo. Veías a velocidad 2x y perdías matices porque la única opción para ahorrar tiempo era la compresión.
Ahora YouTube es una base de datos. La consultas. Obtienes respuestas. Profundizas selectivamente en las partes que merecen atención completa. El compromiso se mide en segundos, no en minutos, y la decisión de invertir más tiempo es informada en lugar de especulativa.
He pasado de ver unas dos horas de contenido de YouTube al día a ver unos cuarenta minutos — mientras extraigo más información útil que antes. El tiempo bruto de visualización bajó dos tercios. La producción de aprendizaje aumentó.
Eso no es un truco de productividad. Es un cambio fundamental en cómo funciona el contenido en video como fuente de conocimiento.
La función se está desplegando ampliamente ahora mismo. La próxima vez que abras un video de YouTube, busca el botón "Ask" debajo del reproductor o el panel a la derecha. Haz clic en "Summarize the video." Observa lo que pasa en cuatro segundos. Luego escribe una pregunta específica sobre algo que realmente quieras saber.
Te garantizo que nunca volverás a ver un video completo solo para encontrar la única parte que importa. Y una vez que ese cambio haga clic, empezarás a preguntarte por qué aceptaste la vieja forma de consumir video durante tanto tiempo.
Yo sé que sí.
Trabajemos juntos
¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudarte.
- Fiverr (builds e integraciones personalizadas): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (soluciones empresariales): ramlit.com
- ColorPark (diseño y branding): colorpark.io
- xCyberSecurity (servicios de seguridad): xcybersecurity.io