5 recursos de edição de vídeo do Gemini Omni que quase ninguém usa (com os prompts exatos)
Aqui está a verdade desconfortável à qual cheguei após uma semana levando o Gemini Omni ao limite: a maioria das pessoas usa cerca de dez por cento do que ele pode fazer.
Elas abrem o app do Gemini, escaneiam um rosto, geram um avatar falante, talvez coloquem um filtro metálico de TikTok e encerram o dia. O que é aceitável. Isso é a superfície. Mas a verdadeira razão pela qual a edição de vídeo do Gemini Omni é interessante não são os avatares — é que o modelo edita filmagens reais que você já gravou. Seus clips do celular. Seus arquivos de drone. O material entediante na sua galeria de fotos. E os prompts que desbloqueiam essa capacidade não estão em lugar nenhum da interface padrão. Você precisa saber o que perguntar.
Então fui procurar. Fiz upload do meu próprio clip de praia, uma foto de paisagem estática, algumas filmagens POV dirigindo, um vídeo dos cachorros do meu amigo dormindo e um punhado de close-ups de flores. Depois passei uma semana executando edições, quebrando coisas, re-executando e anotando cada prompt que realmente funcionou.
Este é o guia de campo que eu gostaria de ter tido no primeiro dia. Cinco recursos dos quais quase ninguém fala, os prompts exatos para ativar cada um, quantas tentativas cada um exigiu, e — a parte que a maioria dos posts de "tutorial Gemini Omni" pula completamente — onde o recurso falha e você deveria devolver o clip a um editor humano. Sem demos impecáveis. Contagens de iteração reais. Vamos começar.
O que a edição de vídeo do Gemini Omni realmente é (e por que a nomenclatura é confusa)
Orientação rápida, porque a nomenclatura em torno do stack de vídeo do Google é uma bagunça e eu quero que você saiba exatamente qual ferramenta faz o quê.
Gemini Omni é o modelo de vídeo multimodal any-to-any do Google. Ficou disponível como Gemini Omni Flash em 19 de maio de 2026 e substituiu a marca independente Veo dentro do app Gemini. Você o acessa de duas formas: diretamente no app Gemini para edições conversacionais rápidas, e no Google Flow — a ferramenta de cinema com IA do Google — quando você quer mais controle sobre a duração dos clips e edição iterativa.
Se você já usou o Veo antes, aqui está o modelo mental: Veo 3.1 era texto-para-vídeo e imagem-para-vídeo, limitado a 8 segundos. O Omni Flash aceita texto, imagens, áudio, e vídeo existente como entrada, edita de forma conversacional e limita clips a 10 segundos. O Google disse no palco que o limite de 10 segundos é uma decisão de lançamento, não um teto arquitetônico — durações mais longas são esperadas de um tier "Omni Pro" futuramente. (Cobri o lado estratégico dessa mudança no meu resumo do Google I/O 2026, se você quiser o panorama maior de por que o Google integrou o Veo ao Gemini.)
Uma coisa embutida em cada clip que você gera: SynthID, a marca d'água de proveniência invisível do Google. Não há botão para desativá-la, e ela sobrevive à recodificação e ao redimensionamento. Leve isso em conta antes de planejar qualquer fluxo de trabalho que dependa de uma saída "limpa" — cada clip do Omni é permanentemente marcado como gerado por IA. Isso é um recurso, não um defeito, mas importa para alguns casos de uso.
Para uma análise completa da configuração de avatares, dos templates integrados e de como o Omni se compara com o Sora e o Kling, veja minha análise prática do Gemini Omni. Este post é a sequência: os recursos de edição para os quais a análise não teve espaço.
Agora — os cinco recursos.
Recurso #1: editar vídeo real, não apenas avatares
Este é o que muda como você pensa sobre a ferramenta. A maioria dos modelos de vídeo com IA gera do nada. O Omni edita o que você já tem.
Você pode fazer upload de um clip que gravou no celular e dizer ao Omni o que mudar. Não gerar uma nova cena que se parece vagamente com a sua — realmente modificar sua filmagem mantendo intactas as partes que você não mencionou. Esse é o salto.
Onde fazer isso: Você pode executar edições rápidas diretamente no app Gemini, mas recomendo fortemente o Google Flow para isso. O Flow permite upload de clips de até 10 segundos e aplica edições escaladas à duração do clip, e o fluxo de trabalho iterativo é muito mais fácil de gerenciar. O app é bom para ajustes pontuais. O Flow é onde você realmente trabalha. (Acompanhei as atualizações aceleradas do Flow quando ele começou a ganhar ritmo em meu resumo semanal de IA sobre a onda do Google Flow — ele amadureceu bastante desde então.)
O teste da multidão
Meu primeiro teste real: eu tinha um vídeo de praia só comigo, sozinho, caminhando perto das falésias. Queria ver se o Omni conseguia povoá-lo.
Prompt: "Edit this video so there's a large crowd on the beach behind me."
Funcionou. De verdade. O modelo adicionou uma multidão convincente no fundo — pessoas a diferentes distâncias, poses variadas, o tipo de densidade espalhada que uma praia real tem — enquanto eu, as falésias e o estacionamento no primeiro plano ficaram exatamente onde estavam. Primeira tentativa. Eu não esperava isso.
Essa é a capacidade principal: o Omni entende a cena, não apenas os pixels. Ele sabia que a praia se estendia atrás de mim, sabia onde o horizonte ficava e colocou a multidão em um espaço plausível.
O truque iterativo que ninguém te conta
Esta é a técnica que me levou algumas horas para descobrir, e é a coisa mais importante em todo este post: edite o vídeo recém-gerado, não o original.
Quando você faz uma mudança e gosta do resultado, pegue aquela saída e alimente-a de volta para a próxima edição. Cada passada é um refinamento da anterior, o que te dá muito mais controle do que tentar enfiar cada instrução em um mega-prompt. Empilhe edições, não as agrupe.
Então, depois do vídeo com multidão, limpei o prompt e fiz uma segunda passada no novo clip:
Prompt: "Make it a sunny day."
O modelo mudou a iluminação, aqueceu a temperatura de cor, deslocou as sombras, iluminou a água. Uma mudança ambiental genuinamente realista — e como estava operando no clip já editado com a multidão, a multidão permaneceu. Essa é a estratificação contextual que você só obtém iterando.
Usei a mesma cadeia para construir uma revelação antes/depois:
Prompt: "Turn this video into a before and after with a 3-second swipe revealing a clear object."
Depois uma passada de acompanhamento para adicionar texto na tela — "before" no primeiro segmento, "edited with Omni" no segundo. Duas passadas, resultado limpo.
Onde falha
Agora a parte honesta. O Omni é poderoso, não perfeito, e edições específicas de tempo são seu ponto fraco.
Tentei ser esperto:
Prompt: "At the 1-second mark, change the water bottle into a rubber chicken."
Não funcionou. A transformação aconteceu desde o início do clip, não na marca de um segundo — o Omni não consegue interpretar instruções precisas de marca de tempo de forma confiável ainda. Executei correções iterativas para ajustar e obtive melhorias marginais, mas nunca a troca cronometrada limpa que eu queria. Se sua edição depende de algo acontecendo em um momento exato, ajuste suas expectativas para baixo e conte com várias tentativas. Às vezes você simplesmente devolve aquela tomada a um editor real com uma timeline real.
Minha regra geral: O Omni é excelente em o que mudar e não confiável em quando mudar. Descreva o estado final, não o momento.
Se você preferir que alguém construa uma pipeline de produção de vídeo completa assistida por IA — Omni para edições, mais o resto da cadeia de produção — esse é exatamente o tipo de trabalho que eu aceito. Você pode ver o que construí em fiverr.com/s/EgxYmWD.
Isso foi editar o conteúdo de uma tomada. O próximo recurso edita a câmera — e é impressionante.
Recurso #2: movimento de câmera em filmagem que nunca se moveu
Você pode adicionar movimento de câmera a um clip que não tinha nenhum. Afastamentos, puxadas de drone, revelações panorâmicas — o Omni simula trabalho de câmera dinâmico em filmagens existentes e também em imagens estáticas.
Transformando um clip plano em tomada de drone
Peguei o mesmo vídeo de praia e pedi um afastamento:
Prompt: "Zoom this out into a wide drone shot."
O Omni expandiu o enquadramento para fora, revelando as falésias e o estacionamento como se um drone estivesse subindo e recuando. Houve pequenos artefatos nos primeiros quadros enquanto ele inventava as bordas recém-reveladas da cena, mas estabilizou rápido e a ilusão se sustentou. Convincente o suficiente para usar em uma edição real.
O truque de drone com setas de referência (este é o bom)
Este é meu recurso favorito em todo o modelo, e quase ninguém o usa.
Você pega uma imagem estática, desenha setas direcionais mostrando a trajetória que quer que a câmera voe, faz upload da imagem anotada, e o Omni gera um POV de drone contínuo que segue suas setas. Você está literalmente desenhando uma rota de voo e recebendo filmagem de volta.
Prompt: "The camera follows the arrows in the reference image. One continuous shot. Remove the arrows in the final video. The POV is of a drone always facing the direction it is flying."
O resultado: uma tomada de drone virtual suave que traçou minha rota desenhada — deslizando entre árvores, passando sob uma ponte, toda a sensação de plano-sequência. Houve uma falha onde parte da ponte desapareceu brevemente quando a câmera passou por baixo, mas a ilusão geral foi forte o suficiente que tive que rever para encontrar o defeito.
Esse prompt de quatro linhas está fazendo muito trabalho, então deixe-me explicar por que cada parte importa:
- "follows the arrows in the reference image" — ancora a trajetória ao seu esboço em vez de um movimento aleatório
- "one continuous shot" — impede que o Omni corte, o que ele faria de outra forma
- "remove the arrows in the final video" — crucial, caso contrário suas setas aparecem na filmagem
- "a drone always facing the direction it is flying" — fixa a orientação para que a câmera não derive lateralmente como um caranguejo
Remova qualquer uma dessas cláusulas e o resultado se degrada. Eu testei. A linha de orientação em particular é a diferença entre uma sensação real de drone e uma câmera flutuante confusa.
Mesmo quando isso não é perfeito — e frequentemente não é — é um ponto de partida que você nunca conseguiria a partir de uma imagem estática. Para planos de estabelecimento e B-roll, é genuinamente útil. Para uma tomada principal em um entregável de cliente pago, eu ainda contrataria um operador de drone real. Conheça o limite.
Controle de câmera é espacial. O próximo recurso é linguístico — e vem com um aviso.
Recurso #3: avatares multilíngues (verifique as traduções)
O Omni pode gerar avatares falando diferentes idiomas, o que torna saudações multilíngues personalizadas realmente fáceis. Mensagens de aniversário, vídeos de boas-vindas, intros de cursos — grave um avatar, faça o script em cinco idiomas, pronto.
Testei saudações de aniversário em cinco "idiomas":
- Francês — preciso (verifiquei com o Google Translate)
- Espanhol — preciso (mesma verificação)
- ASL (Língua de Sinais Americana) — o avatar sinalizou, mas não posso verificar se os sinais estavam corretos
- Latim — gerado, mas inverificável para mim
- "Vulcano" — sim, pedi uma mensagem de aniversário em vulcano como piada. Para ser absolutamente claro: Vulcano é o idioma fictício de Star Trek. O Omni alegremente gerou algo, mas não existe um vulcano real para verificar, então trate essa saída como puro entretenimento, não como tradução.
O fluxo de trabalho é simples: escolha um avatar dos seus assets do app Gemini, escreva a mensagem em cada idioma alvo, gere. A sincronização labial funcionou bem nos idiomas que eu conseguia ler.
Mas aqui está o que você precisa internalizar, porque é onde esse recurso coloca as pessoas em apuros: verifique qualquer tradução que realmente importe.
Francês e espanhol passaram na revisão. ASL, latim e obviamente vulcano eu não pude confirmar. Se você está enviando uma mensagem de aniversário carinhosa para um amigo francês, provavelmente está tudo bem. Se está produzindo marketing voltado ao cliente em um idioma que você não fala, passe o script por um falante nativo antes de gerar, não depois. Tradução por IA dentro de um modelo de vídeo é uma conveniência, não uma garantia — e um erro de tradução embutido em um clip renderizado é muito mais caro de corrigir do que um erro de digitação em texto.
Então: incrível para conteúdo multilíngue casual, pessoal e divertido. Trate com cautela para qualquer coisa profissional. O modelo é confiante em todos os idiomas, incluindo os que não existem.
Isso foram avatares falando. Próximo: avatares ensinando — a partir de quase nada.
Recurso #4: vídeos explicativos a partir de um prompt de uma linha
Este me surpreendeu genuinamente. O Omni pode recorrer ao conhecimento do mundo real e construir um explicativo educacional completo a partir de um prompt mínimo. Sem script, sem storyboard, sem assets enviados. Uma frase.
Prompt: "Create an explainer video that explains how rockets work."
O que voltou: um explicativo cobrindo propulsão de foguetes pela terceira lei de Newton — ação e reação — com um avatar informativo narrando e visuais de apoio. A partir de oito palavras de entrada. O modelo buscou o conceito, estruturou uma explicação e produziu um clip assistível por conta própria.
Executei um segundo para confirmar que não foi coincidência:
Prompt: "Explain how earthquakes work."
Mesmo resultado — placas tectônicas, atividade sísmica, narração e visuais, tudo gerado apenas a partir do tema. O Omni recorre a fatos do mundo real e os transforma em conteúdo sem que você precise soletrar nada.
Para prototipagem rápida de conteúdo educacional, isso é uma economia de tempo real. Você pode obter um explicativo em rascunho em dois minutos que teria levado uma hora para roteirizar e fazer storyboard.
A armadilha que importa mais do que a mágica
A precisão factual deve ser verificada, não presumida.
A física do explicativo de foguetes me pareceu correta. Mas "me pareceu correta" não é verificação de fatos, e um narrador de IA confiante entregando uma explicação errada é mais perigoso do que nenhum vídeo, porque soa com autoridade. Se você está publicando conteúdo educacional sob seu nome ou sua marca, cada afirmação naquele explicativo autogerado é sua responsabilidade. Assista. Verifique a ciência. Pegue os erros sutis antes que sua audiência o faça.
Use este recurso para gerar o rascunho, não o produto final. É um fantástico primeiro passo e uma péssima última palavra.
O truque de troca de localização escondido nesta mesma capacidade
A compreensão do mundo real do Omni também impulsiona algo que eu não esperava: edições POV baseadas em localização.
Fiz upload de filmagens POV dirigindo que eu havia gravado, mais algumas capturas de tela do Google Maps de uma cidade alvo, e pedi ao Omni para recriar a viagem em outro lugar.
Prompt: "POV inside car driving in the location screenshot image, one continuous shot."
Primeiro teste: renderizou minha viagem pelo centro de NYC. Forte precisão de localização, alguns erros menores, mas inconfundivelmente Nova York. Segundo teste, mesmo material fonte: troquei as capturas por pontos turísticos de Londres — e o Omni re-renderizou a mesma viagem passando pelo Big Ben e pela London Eye.
A parte que me convenceu: o interior do carro se manteve consistente. O mesmo painel, os mesmos adesivos, o mesmo enquadramento — apenas o mundo fora das janelas se transformou de uma cidade para outra. Isso é coerência espacial real. O modelo entendeu quais elementos pertenciam ao carro e quais ao ambiente, e só tocou no ambiente.
Essa é uma poderosa capacidade de edição de cenas com usos óbvios para conteúdo de viagem, scouting de locações e pitches de "e se tivéssemos filmado isso em ___". Como sempre: pequenos erros se infiltram, então revise antes de publicar.
Falta um recurso, e é o que silenciosamente mais me impressionou.
Recurso #5: texto ancorado em 3D que fica fixo enquanto a câmera se move
Sobreposições de texto geralmente são planas. Ficam em cima do vídeo como um adesivo, fixas na tela, ignorando tudo o que acontece por trás. O Omni faz algo melhor: texto com consciência espacial ancorado no espaço 3D.
Testei em um vídeo de flores, rotulando as partes de uma orquídea:
Prompt: "Add simple overlaid text labels that describe parts of this flower, AI-styled text."
Os rótulos não apenas flutuaram na superfície 2D — eles se ancoraram às posições no espaço 3D, de modo que cada rótulo ficou preso à sua parte da flor enquanto a câmera se movia. O rótulo "petal" acompanhava a pétala. O rótulo "column" mantinha sua posição. Estável, contextualmente posicionado, e se moviam com a cena em vez de deslizar pelo enquadramento.
Para conteúdo educacional e descritivo, isso é uma verdadeira melhoria. Diagramas de anatomia, destaques de recursos de produtos, vídeos tutoriais onde você precisa apontar para partes em movimento — texto que vive dentro da cena parece muito mais profissional do que texto colado sobre a cena.
Não é perfeito — cenas complexas com muito movimento podem confundir a ancoragem — mas para tomadas limpas e deliberadas, é um recurso ao qual vou recorrer novamente. Combine com o recurso de explicativos e você tem uma pipeline de conteúdo educacional surpreendentemente completa rodando inteiramente dentro de um único modelo.
Esses são os cinco. Agora vou te dar tudo em um bloco só para que você pare de rolar e comece a testar.
Todos os prompts em um bloco de copiar e colar
Aqui está o conjunto completo. Pegue estes, adapte ao seu material e lembre da regra de ouro: edite o vídeo gerado, não o original, e empilhe edições uma de cada vez.
# 1. EDIÇÃO DE VÍDEO REAL (use o Google Flow para melhor controle)
Edit this video so there's a large crowd on the beach behind me.
Make it a sunny day.
Turn this video into a before and after with a 3-second swipe revealing a clear object.
At the 1-second mark, change the water bottle into a rubber chicken. # edições de tempo são pouco confiáveis — espere falhas
# 2. MOVIMENTO DE CÂMERA
Zoom this out into a wide drone shot.
The camera follows the arrows in the reference image. One continuous shot. Remove the arrows in the final video. The POV is of a drone always facing the direction it is flying.
# 3. AVATARES MULTILÍNGUES (verifique qualquer tradução que importe)
Generate a birthday greeting from my avatar, spoken in French.
# substitua "French" por Spanish / ASL / Latin — confirme a precisão com um falante nativo antes de publicar
# 4. VÍDEOS EXPLICATIVOS (sempre verifique os fatos da saída)
Create an explainer video that explains how rockets work.
Explain how earthquakes work.
# 4b. POV COM TROCA DE LOCALIZAÇÃO (envie filmagem POV + capturas do Maps)
POV inside car driving in the location screenshot image, one continuous shot.
# 5. TEXTO ANCORADO EM 3D
Add simple overlaid text labels that describe parts of this flower, AI-styled text.
Quantas tentativas esperar (minhas contagens de iteração honestas)
Os vídeos de hype nunca mostram as tentativas fracassadas. Aqui está aproximadamente o que eu realmente experimentei, para que você possa planejar seu tempo:
- Adições de cena (multidão, clima): geralmente 1-2 tentativas. O Omni é forte aqui.
- Afastamentos de câmera: 1-3 tentativas — artefatos no primeiro quadro às vezes forçam uma nova execução.
- Tomadas de drone com trajetória de setas: 2-4 tentativas — e mantenha todas as quatro cláusulas do prompt toda vez.
- Edições específicas de tempo (o frango de borracha): muitas tentativas, frequentemente sem resultado limpo. Abaixe suas expectativas.
- Avatares multilíngues: 1 tentativa para gerar, mas conte com tempo extra para verificação, não para regeneração.
- Explicativos: 1 tentativa para gerar, mas o trabalho real é a verificação de fatos depois.
- Texto 3D: 1-2 tentativas em tomadas limpas, mais em cenas movimentadas.
A mudança mental que me fez bom nisso: o Omni não é um gerador de uso único, é uma conversa. As pessoas que obtêm resultados dignos de revista não escrevem prompts individuais melhores — executam ciclos iterativos melhores. Gere, avalie, refine a saída, repita. Domine o ciclo e o modelo se abre.
Quando confiar no Omni — e quando chamar um editor real
Deixe-me traçar a linha claramente, porque este é o valor que posso realmente adicionar além de uma lista de recursos.
Confie no Omni para: clips sociais, B-roll, planos de estabelecimento, rascunhos de explicativos, mensagens multilíngues pessoais, pitches de conceito e qualquer edição onde "convincente o suficiente" supera "perfeito ao pixel." O limite de 10 segundos e a marca d'água permanente SynthID não são problemas aqui.
Chame um editor real para: tudo que é crítico em tempo (o Omni não consegue acertar marcas de tempo exatas), entregas a clientes onde artefatos são inaceitáveis, tomadas principais e qualquer filmagem onde a marca d'água SynthID ou a proveniência "gerado por IA" criam um problema. Uma ponte que desaparece brevemente é uma falha de demo divertida e um bug de cliente inaceitável — o mesmo artefato, consequências diferentes.
O resumo honesto: a edição de vídeo do Gemini Omni é o editor de vídeo conversacional mais capaz que já usei, e ainda é uma ferramenta de rascunho, não uma ferramenta final, para trabalho profissional. Isso não é uma crítica. É exatamente onde deveria estar após um lançamento.
A maioria das pessoas vai continuar usando dez por cento. Agora você conhece os outros noventa. Vá fazer upload de algo entediante da sua galeria e veja o que o Omni faz com uma multidão, uma trajetória de drone e um prompt de uma linha. A diferença entre as pessoas que extraem mágica deste modelo e as que obtêm mingau não é o acesso — são os prompts e o ciclo de iteração. Agora você tem ambos.
Então — qual é o clip mais entediante da sua galeria, e como ele ficaria como tomada de drone ao pôr do sol com uma multidão que nunca esteve lá?
Perguntas frequentes
O que é Gemini Omni e como ele difere do Veo?
Gemini Omni é o modelo de vídeo multimodal any-to-any do Google que substituiu a marca Veo no app Gemini em 19 de maio de 2026. Ao contrário do Veo 3.1 (texto e imagem para vídeo, limite de 8 segundos), o Omni Flash também edita vídeo e áudio existentes de forma conversacional, com limite de clip de 10 segundos. Veja a seção de introdução acima para a análise completa.
O Gemini Omni pode editar vídeos que eu já gravei?
Sim — fazer upload e editar filmagens reais é a capacidade mais forte do Omni. Envie um clip (de até 10 segundos no Google Flow) e descreva a mudança, como adicionar uma multidão ou mudar o clima. Para melhor controle, edite o vídeo recém-gerado em vez do original. Veja o Recurso #1 acima.
Onde acesso o Gemini Omni — no app ou no Google Flow?
O Gemini Omni funciona tanto no app Gemini quanto no Google Flow, além das superfícies de criação do YouTube. O app é melhor para edições conversacionais rápidas e pontuais; o Google Flow oferece mais controle sobre duração dos clips e edição iterativa, que é o que recomendo para trabalho sério.
Todo vídeo do Gemini Omni tem marca d'água?
Sim, cada clip que o Gemini Omni produz carrega a marca d'água invisível SynthID do Google, e não há botão para desativá-la. A marca d'água sobrevive à recodificação e ao redimensionamento, então planeje qualquer fluxo de trabalho sabendo que a saída está permanentemente marcada como gerada por IA.
Quantas tentativas uma edição do Gemini Omni leva?
Edições de cena como adicionar uma multidão geralmente funcionam em 1-2 tentativas, enquanto edições específicas de tempo frequentemente nunca produzem um resultado limpo. Trate o Omni como uma conversa iterativa, não como um gerador de uso único — refine a saída ao longo de múltiplas passadas. Veja minha análise completa de contagens de iteração acima.
Vamos trabalhar juntos
Quer construir sistemas de IA, automatizar fluxos de trabalho ou escalar sua infraestrutura tecnológica? Adoraria ajudar.
- Fiverr (soluções personalizadas e integrações): fiverr.com/s/EgxYmWD
- Portfólio: mejba.me
- Ramlit Limited (soluções empresariais): ramlit.com
- ColorPark (design e branding): colorpark.io
- xCyberSecurity (serviços de segurança): xcybersecurity.io