Skip to main content
📝 Ferramentas de IA

A Ferramenta "Perguntar" do YouTube com Gemini Me Economizou Horas Esta Semana

A ferramenta Gemini Ask do YouTube encontra a marca de tempo exata em qualquer vídeo. Pule tutoriais de 43 minutos — obtenha respostas em segundos com busca IA.

18 min

Tempo de leitura

3,460

Palavras

Feb 24, 2026

Publicado

Engr Mejba Ahmed

Escrito por

Engr Mejba Ahmed

Compartilhar Artigo

A Ferramenta "Perguntar" do YouTube com Gemini Me Economizou Horas Esta Semana
A Ferramenta "Perguntar" do YouTube com Gemini Me Economizou Horas Esta Semana - Video thumbnail

A Ferramenta "Perguntar" do YouTube com Gemini Me Economizou Horas Esta Semana

Eu estava dezessete minutos dentro de um tutorial de quarenta e três minutos sobre configurações de servidor MCP quando percebi que só precisava de uma coisa específica: como lidar com autenticação para plugins personalizados. Dezessete minutos de contextualização, sequências de introdução e explicação de fundo — tudo para chegar à parte que realmente importava para o meu problema.

Isso foi na terça-feira passada. Na quarta-feira, eu já tinha descoberto uma funcionalidade que o YouTube lançou discretamente e que teria me economizado aqueles dezessete minutos — e, honestamente, mudou completamente a forma como eu consumo conteúdo em vídeo.

Ali mesmo na interface do YouTube, ao lado do botão de curtir e do botão de compartilhar, tem um pequeno botão chamado "Ask." Clique nele e um painel se abre no lado direito do vídeo. No topo: "Ask about this video." Logo abaixo, um botão "Summarize the video." E abaixo disso, um campo de texto onde você pode digitar literalmente qualquer pergunta sobre o conteúdo do vídeo.

É alimentado pelo Gemini. E funciona surpreendentemente bem.

Eu descobri por acaso — notei o painel enquanto assistia a um vídeo sobre os novos plugins Co-work do Claude. Cliquei em "Summarize the video" mais por curiosidade. Em cerca de quatro segundos, eu tinha uma análise estruturada de cada ponto principal que o criador abordou, organizada por tópico, com detalhes suficientes para saber exatamente quais seções eu precisava assistir e quais podia pular.

Quatro segundos contra quarenta e três minutos. Essa conta me impactou forte.

Desde então, usei essa ferramenta em provavelmente sessenta ou setenta vídeos na última semana. Vídeos de pesquisa, tutoriais de programação, reviews de produtos, palestras de conferências. E desenvolvi um conjunto de técnicas que extraem significativamente mais valor do que simplesmente apertar o botão de resumir. Deixa eu te mostrar como eu realmente uso — e por que acho que a maioria das pessoas que descobrirem essa funcionalidade vai subutilizá-la dramaticamente.

Como o Painel "Perguntar" do Gemini Realmente Funciona

A funcionalidade aparece em muitos vídeos do YouTube como um painel no lado direito do player. Você vai ver escrito "Ask about this video" com o ícone de brilho do Gemini. Nem todo vídeo tem ainda — o Google ainda está fazendo o rollout — mas a cobertura está se expandindo rapidamente. Eu estimaria que cerca de 70-80% do conteúdo de tecnologia em inglês que eu assisto agora tem o painel disponível.

Quando você abre, tem três modos de interação.

Botões pré-definidos aparecem primeiro. "Summarize the video" está sempre lá. Abaixo dele, o YouTube gera sugestões específicas com base no conteúdo do vídeo. Em um tutorial de programação, você pode ver "What tools are mentioned?" ou "Explain the main concept." Em um review de produto, você pode ver "What are the pros and cons?" Essas sugestões são surpreendentemente relevantes — o Gemini claramente analisa a transcrição do vídeo e gera perguntas que um espectador realmente gostaria de ter respondidas.

O campo de texto na parte inferior é onde o verdadeiro poder está. Você pode perguntar qualquer coisa sobre o conteúdo do vídeo em linguagem natural. "What are the main steps?" funciona. Assim como "Explain the authentication section in simple terms" ou "What did the presenter say about pricing?" ou "Give me a one-paragraph summary focused only on the technical implementation."

Perguntas de acompanhamento também funcionam. O painel mantém o contexto da conversa, então você pode ir mais fundo. "Summarize the video" → "Tell me more about the third point" → "What specific tools did they recommend for that?" Cada resposta se baseia na anterior.

As respostas voltam em segundos — normalmente de dois a cinco segundos para um resumo, um pouco mais para perguntas detalhadas. Elas são geradas a partir da transcrição do vídeo, o que significa que o Gemini tem acesso a tudo que o apresentador disse, não apenas ao título e à descrição. A precisão tem sido forte nos meus testes. Não perfeita — vou chegar às limitações — mas forte o suficiente para eu confiar nela para triagem inicial e anotações.

Algo que eu não esperava: as respostas incluem timestamps. Quando o Gemini referencia um ponto específico do vídeo, ele geralmente diz aproximadamente onde no vídeo aquele tópico aparece. Então a ferramenta não apenas substitui o ato de assistir — ela te ajuda a navegar exatamente para a parte que você precisa ver.

Isso muda toda a proposta de valor. Não é "assista o vídeo OU leia o resumo." É "leia o resumo, identifique o que importa, e então assista apenas aquelas seções." A combinação é mais rápida do que qualquer uma das abordagens sozinha.

Os Cinco Prompts Que Mudaram a Forma Como Eu Aprendo com Vídeos

Depois de uma semana de uso intenso, me fixei em cinco prompts que consistentemente produzem os resultados mais úteis. Não são os óbvios — "summarize the video" funciona bem, mas esses vão mais fundo.

Prompt 1: "Turn this video into a checklist of action steps"

Esse é meu prompt mais usado, e funciona melhor em tutoriais, vídeos de "como fazer" e walkthroughs de processos. Em vez de um resumo narrativo, você recebe uma lista numerada de coisas específicas para fazer.

Usei isso em um vídeo de trinta minutos sobre como configurar um pipeline CI/CD com GitHub Actions. A resposta: doze passos de ação claros, em ordem, com os detalhes de configuração chave de cada passo incluídos. Segui o checklist enquanto construía o pipeline, voltando ao vídeo apenas quando um passo precisava de confirmação visual. O que seria um ciclo de "assista cinco minutos, pause, implemente, reassista, implemente" se tornou uma execução suave e linear.

O formato de checklist também gera anotações de estudo incríveis. Se você está aprendendo pelo YouTube — e em 2026, quem não está? — pedir um checklist converte a visualização passiva em material de implementação ativa.

Prompt 2: "What does the presenter say about [tópico específico] and do they recommend for or against it?"

Esse é meu prompt de pesquisa. Quando estou avaliando uma tecnologia ou abordagem e assistindo múltiplos vídeos sobre o tema, não preciso de resumos completos. Preciso da posição específica de cada apresentador sobre aquilo que estou pesquisando.

Usei isso em oito vídeos sobre React Server Components versus renderização tradicional no lado do cliente. Em vez de assistir oito horas de conteúdo, fiz a mesma pergunta para cada vídeo. Em cerca de três minutos no total, tinha oito perspectivas diferentes de especialistas com seus argumentos específicos a favor e contra. Um deles levantou uma preocupação de performance que nenhum dos outros mencionou — um detalhe que eu teria facilmente perdido se estivesse passando os vídeos em velocidade 2x.

Prompt 3: "List every tool, library, framework, or service mentioned in this video with a one-line description of how it's used"

Vídeos de desenvolvimento são minas de ouro de recomendações de ferramentas, mas elas ficam espalhadas por conversas de trinta minutos. Esse prompt extrai cada uma delas.

Testei em uma palestra de conferência sobre stacks modernas de desenvolvimento web. A resposta listou catorze ferramentas com contexto: não apenas "Tailwind CSS", mas "Tailwind CSS — usado para estilização utility-first, o apresentador recomenda a v4 pela nova arquitetura." Esse nível de extração contextual a partir de um único prompt é algo que eu antes precisava anotar manualmente.

Prompt 4: "What are the three strongest arguments and the three weakest points in this video?"

Esse é meu prompt de pensamento crítico, e se tornou essencial para avaliar conteúdo com muitas opiniões. O YouTube de tecnologia é cheio de opiniões fortes — "esse framework morreu," "essa ferramenta substitui tudo" — e esse prompt força uma perspectiva equilibrada.

Em um vídeo argumentando que a programação tradicional está obsoleta, o Gemini identificou os três argumentos mais fortes a favor (pressões econômicas, crescimento da capacidade da IA, paralelos históricos com automação) e três fraquezas (viés de sobrevivência nos exemplos, nenhuma distinção entre prototipagem e produção, e falta de discussão sobre complexidade de manutenção). Essa análise levou quatro segundos e teria me tomado dez minutos de visualização crítica ativa para produzir.

Prompt 5: "Give me bullet points I can send to a colleague who needs the key takeaways but won't watch the video"

Provavelmente meu prompt mais prático para o dia a dia de trabalho. A saída já vem formatada para Slack ou email — concisa, profissional, com os pontos principais, sem enrolação. Uso isso duas ou três vezes por semana quando alguém compartilha um vídeo em um canal de trabalho e a equipe precisa dos destaques.

O truque com todos os cinco prompts: seja específico sobre o formato de saída que você quer. "Summarize this" te dá um parágrafo. "Give me bullet points" te dá tópicos. "Turn this into a checklist" te dá um checklist. "Give me a one-paragraph summary" te dá exatamente isso. O Gemini segue instruções de formatação de forma consistente, então use-as.

O Fluxo de Trabalho Que Multiplicou Minha Pesquisa em Vídeo por 10x

Prompts individuais são úteis. Mas o verdadeiro salto de produtividade veio quando os encadeei em um fluxo de trabalho. Aqui está o processo que agora sigo para cada vídeo de pesquisa:

Passo um: Triagem. Clique em "Summarize the video." Leia o resumo em cinco segundos. Decida: esse vídeo é relevante para o que estou pesquisando? Se não, siga em frente. Só esse passo elimina cerca de 40% dos vídeos da minha fila — vídeos cujos títulos prometiam relevância mas cujo conteúdo real era básico demais, avançado demais ou fora do tema.

Passo dois: Extração. Se o vídeo é relevante, pergunte pela informação específica que você precisa. "What does this video say about [meu tópico de pesquisa]?" ou "List the technical recommendations related to [meu problema específico]." Isso te dá os insights direcionados sem o conteúdo ao redor.

Passo três: Avaliação. Se o vídeo faz afirmações que você quer avaliar, peça os argumentos fortes e fracos. Isso leva quatro segundos e te dá uma lente crítica antes de você ter investido qualquer tempo assistindo.

Passo quatro: Aprofundamento seletivo. Com base nos passos um a três, agora você sabe exatamente quais seções do vídeo merecem ser assistidas de verdade. Pule para esses timestamps, assista em velocidade 1x com atenção total e ignore o resto.

Passo cinco: Exportação. Peça os bullet points prontos para colegas ou o checklist de ações. Copie para suas anotações. Pronto.

Tempo total por vídeo: geralmente de dois a quatro minutos em vez da duração completa do vídeo. Para uma sessão de pesquisa típica onde estou avaliando dez a quinze vídeos sobre um tema, essa é a diferença entre um dia inteiro de visualização e cerca de quarenta e cinco minutos de extração direcionada.

Quero deixar claro o que está acontecendo aqui. Não estou substituindo assistir vídeos. Estou substituindo as partes desperdiçadas de assistir vídeos — a triagem, a varredura, a avaliação de "isso é relevante?" e a reassistência passiva de seções que eu só absorvi pela metade na primeira vez. As partes que realmente exigem vídeo — demonstrações visuais, explicações nuançadas, ver código sendo escrito em tempo real — eu ainda assisto. Só chego nelas mais rápido.

Onde Isso Falha (Porque Falha Sim)

Fui entusiasta, então deixa eu ser honesto sobre os modos de falha. Existem três que importam.

Conteúdo visual passa batido. O Gemini trabalha a partir da transcrição. Se o apresentador mostra algo na tela sem descrever verbalmente — um trecho de código, um diagrama, um walkthrough de interface — a ferramenta Ask não captura. Já tive respostas que disseram "o apresentador discute um arquivo de configuração" quando o que realmente aconteceu foi que o apresentador mostrou o arquivo na tela sem lê-lo em voz alta. Para tutoriais de programação onde metade do valor está no compartilhamento de tela, essa é uma limitação real.

Minha solução alternativa: quando o resumo do Gemini parece raso em um vídeo técnico, isso geralmente é um sinal de que o vídeo é muito visual e precisa ser assistido de fato. As limitações da ferramenta se tornam um sinal útil.

Nuance e tom são achatados. Quando um apresentador diz algo sarcasticamente, ou qualifica uma recomendação com linguagem corporal sutil e ênfase vocal, o Gemini frequentemente reporta como uma declaração direta. Percebi isso em um vídeo onde o apresentador disse "claro, você poderia usar microsserviços para seu app de tarefas" — claramente sarcástico — e o Gemini listou "arquitetura de microsserviços" como uma recomendação. A transcrição literal perdeu completamente o tom.

Para conteúdo com muitas opiniões, isso importa. Sempre verifique afirmações fortes do resumo assistindo a seção relevante. Os timestamps que o Gemini fornece tornam isso fácil.

Vídeos longos e desestruturados produzem resumos mais fracos. Um tutorial bem estruturado de vinte minutos com seções claras produz resumos excelentes. Uma live de sessenta minutos com digressões e interações com o público produz resumos que perdem pontos-chave ou atribuem contexto erroneamente. A ferramenta funciona melhor quando o vídeo tem uma estrutura coerente — o que, para ser justo, correlaciona bem com os vídeos que valem a pena assistir em primeiro lugar.

Apesar dessas limitações, eu me pego usando a ferramenta em essencialmente todo vídeo que abro. Mesmo quando sei que vou precisar assistir por completo, o resumo de cinco segundos me diz o que esperar e prepara meu cérebro para os pontos-chave. Só isso já melhora o quanto eu retenho ao assistir.

A Implicação Maior Que Ninguém Está Discutindo

Aqui está o que tem me incomodado desde que comecei a usar essa ferramenta intensivamente.

O YouTube tem 800 milhões de vídeos. A grande maioria da informação útil trancada dentro desses vídeos era, até agora, acessível apenas assistindo a eles. Você não conseguia pesquisar dentro do conteúdo de um vídeo. Não conseguia consultar um momento específico. Não conseguia extrair dados estruturados das palavras de um apresentador. A informação existia, mas extraí-la exigia o mesmo investimento de tempo de quando o vídeo foi gravado.

A ferramenta Ask do Gemini abre essa porta. Não perfeitamente, não completamente, mas de forma significativa. Informação que estava presa em formato de vídeo agora é consultável em linguagem natural.

Pense no que isso significa para o aprendizado. Cada palestra de conferência dos últimos cinco anos agora é uma base de conhecimento consultável. Cada tutorial, cada walkthrough de código, cada entrevista com especialista — você pode fazer perguntas específicas e obter respostas específicas sem assistir um único minuto.

Testei essa teoria. Peguei um tópico complexo que queria entender — protocolos de comunicação entre agentes — e em vez da minha abordagem usual (encontrar três ou quatro bons vídeos, assistir todos, fazer anotações), usei a ferramenta Ask em doze vídeos em cerca de vinte minutos. Fiz a cada vídeo as mesmas três perguntas direcionadas. Compilei as respostas. Tinha um entendimento abrangente e com múltiplas perspectivas do tópico, com opiniões específicas de especialistas e ferramentas recomendadas.

Vinte minutos para o que antes levava meio dia. E porque eu estava fazendo perguntas focadas em vez de absorver passivamente, minha retenção do material foi notavelmente melhor.

Isso não torna o vídeo obsoleto. Grandes apresentadores entregam compreensão através de narrativa, ritmo e demonstração visual de maneiras que a extração de texto não consegue replicar. O que isso torna obsoleto é o consumo ineficiente de vídeo — as horas gastas assistindo conteúdo que é 80% irrelevante para sua necessidade específica.

Como Integrei Isso na Minha Rotina Diária

Integração prática importa mais do que empolgação teórica, então aqui está exatamente como essa ferramenta se encaixa no meu dia.

Pesquisa matinal (15 minutos). Confiro minhas inscrições, abro os novos vídeos relevantes e executo o fluxo de triagem em cada um. Resumir, avaliar relevância, extrair pontos-chave. Em quinze minutos eu processo o que antes levava noventa minutos assistindo.

Sessões de aprendizado profundo. Quando estou aprendendo algo novo e tenho de cinco a dez vídeos na fila, extraio checklists e listas de ferramentas de todos primeiro. Depois assisto apenas os um ou dois vídeos que têm o melhor walkthrough estrutural, usando os checklists dos outros como material complementar.

Trabalho com clientes. Quando um cliente envia uma referência em vídeo — "construa algo como o que essa pessoa demonstra" — uso a ferramenta Ask para extrair os requisitos técnicos específicos, decisões de arquitetura e detalhes de implementação. Depois compartilho a análise estruturada com o cliente para confirmar o escopo antes de escrever uma linha de código.

Pesquisa de conteúdo. Quando estou escrevendo sobre um tema e quero referenciar o que outros criadores estão dizendo, a ferramenta Ask me permite pesquisar de dez a quinze vídeos em trinta minutos. Obtenho afirmações específicas, opiniões e recomendações de cada um, dando à minha escrita uma base de evidências mais ampla do que eu conseguiria construir assistindo tudo.

O fio condutor: a ferramenta é mais valiosa quando você sabe o que está procurando. Um "resuma tudo" sem direção é útil mas básico. Um "me diga especificamente sobre X" direcionado é onde a verdadeira economia de tempo está.

O Que Isso Significa Para Como Você Deveria Usar o YouTube

Quero te deixar com uma reformulação que tem sido útil para mim.

Antes dessa ferramenta, o YouTube era um compromisso. Abrir um vídeo significava se comprometer com vinte, trinta, sessenta minutos para descobrir se ele continha o que você precisava. Esse compromisso criava atrito. Você salvava vídeos para "assistir depois" (o que significava nunca). Você pulava conteúdo potencialmente útil porque não conseguia justificar o investimento de tempo. Você assistia em velocidade 2x e perdia nuances porque a única opção de economizar tempo era a compressão.

Agora o YouTube é um banco de dados. Você faz consultas. Obtém respostas. Mergulha seletivamente nas partes que merecem atenção total. O compromisso é medido em segundos, não em minutos, e a decisão de investir mais tempo é informada em vez de especulativa.

Eu passei de assistir cerca de duas horas de conteúdo no YouTube por dia para assistir cerca de quarenta minutos — enquanto extraio mais informação útil do que antes. O tempo bruto de visualização caiu em dois terços. O resultado de aprendizado aumentou.

Isso não é um hack de produtividade. É uma mudança fundamental em como conteúdo em vídeo funciona como fonte de conhecimento.

A funcionalidade está sendo lançada amplamente agora. Na próxima vez que você abrir um vídeo do YouTube, procure o botão "Ask" abaixo do player ou o painel no lado direito. Clique em "Summarize the video." Veja o que acontece em quatro segundos. Depois digite uma pergunta específica sobre algo que você realmente quer saber.

Eu garanto que você nunca mais vai voltar a assistir um vídeo inteiro só para encontrar a única parte que importa. E uma vez que essa mudança faz clique, você vai começar a se perguntar por que aceitou a forma antiga de consumir vídeo por tanto tempo.

Eu sei que eu estou me perguntando isso.

🤝 Vamos Trabalhar Juntos

Quer construir sistemas de IA, automatizar fluxos de trabalho ou escalar sua infraestrutura tecnológica? Adoraria ajudar.

Coffee cup

Gostou deste artigo?

Seu apoio me ajuda a criar mais conteúdo técnico aprofundado, ferramentas open-source e recursos gratuitos para a comunidade de desenvolvedores.

Tópicos Relacionados

Engr Mejba Ahmed

Sobre o Autor

Engr Mejba Ahmed

Engr. Mejba Ahmed builds AI-powered applications and secure cloud systems for businesses worldwide. With 10+ years shipping production software in Laravel, Python, and AWS, he's helped companies automate workflows, reduce infrastructure costs, and scale without security headaches. He writes about practical AI integration, cloud architecture, and developer productivity.

Discussion

Comments

0

No comments yet

Be the first to share your thoughts

Leave a Comment

Your email won't be published

9  -  8  =  ?

Continue Aprendendo

Artigos Relacionados

Ver Todos

Comments

Leave a Comment

Comments are moderated before appearing.

Learning Resources

Expand Your Knowledge

Accelerate your growth with structured courses, verified certificates, interactive flashcards, and production-ready AI agent skills.

Sample Certificate of Completion

Sample certificate — complete any course to earn yours

Engr Mejba Ahmed

Engr Mejba Ahmed

Claude Code Expert · Online

👋

Hey there!

Quick Actions

WhatsApp Instant reply

Chat on WhatsApp

+880 1723 741224 · Instant reply

Popular Questions

Engr Mejba Ahmed is connected
Engr Mejba Ahmed is typing...
Engr Mejba Ahmed avatar

✉ Want me to follow up? Drop your email

Engr Mejba Ahmed avatar

📞 Connect Directly

Choose how you'd like to reach me

WhatsApp

+880 1723 741224

Email

[email protected]

✓ Details sent! I'll get back to you shortly.

Powered by OpenAI

335+

Blog Posts

25

AI Courses

63

Projects

Services & Expertise

Pricing & Process

Learning & Resources

Connect & Support