GPT Realtime 2 e Translate: o que muda para builders
O clipe que meu amigo me enviou às 8h14 de ontem tinha 91 segundos de duração. Um falante de francês à esquerda, um falante de inglês à direita, ambos conversando um com o outro como os humanos reais fazem, ambos ouvindo a outra pessoa em seu próprio idioma com talvez meio segundo de atraso. No meio, o falante de francês mudou para o alemão para uma frase completa e depois voltou para o francês. A tradução para o inglês tratou o alemão de maneira limpa, manteve as mesmas características de voz, não gaguejou, não inseriu uma etiqueta esclarecedora "o locutor mudou de idioma" como qualquer outro sistema que testei. Simplesmente continuou.
Assisti novamente três vezes antes de abrir o anúncio OpenAI. Então abri o console API. Então cancelei minhas reuniões matinais.
O que OpenAI foi lançado em 7 de maio de 2026 são duas coisas pelas quais esperei dois anos. GPT Realtime 2 é um modelo de voz para voz com raciocínio de classe GPT-5, chamada de ferramenta paralela e uma janela de contexto de 128K – quatro vezes o que o gpt-realtime original nos deu. GPT Realtime Translate é um modelo de tradução de streaming dedicado que lida com mais de 70 idiomas de entrada, 13 idiomas de saída, custa US$ 0,034 por minuto e espera por verbos antes de se comprometer com uma tradução para que a saída soe como uma pessoa falando, não como uma cadeia de Markov frase por frase.
Passei as últimas 36 horas testando ambos. Tenho um agente de voz em produção para um cliente existente e já migrei metade dele para o novo modelo. A outra metade permanece na pilha mais antiga e explicarei exatamente o porquê em um minuto.
Esta postagem é uma abordagem prática. A parte interessante não é a demonstração que o OpenAI fez no palco - é o que esses modelos significam para todos que atualmente enviam recursos de voz e para todos que estão prestes a começar. No final, você saberá qual modelo adotar, quais migrações fazer esta semana, onde a nova matemática de US$ 0,034 por minuto realmente atinge o ponto de equilíbrio e a única coisa sobre a qual ninguém está falando que muda a forma como você deve projetar fluxos de voz do zero.
A queda de três modelos que torna 7 de maio uma data de redefinição do Voice AI
Antes de entrar no que esses modelos fazem bem, você precisa do formato do lançamento, porque metade das tomadas online estão combinando os três modelos em um produto.
OpenAI lançou um trio: GPT Realtime 2 (o agente de voz de nível de raciocínio), GPT Realtime Translate (o modelo de tradução dedicado) e GPT Realtime Whisper (um streaming de fala para texto rodando a US$ 0,017 por minuto que substitui silenciosamente o encadeado Pipeline STT-LLM-TTS que a maioria dos sistemas de produção ainda usa). Todos os três vivem por trás do Realtime API, todos os três foram anunciados juntos e todos os três têm preços e empregos diferentes.
Aqui está a parte que importa. Até esta queda, construir um agente de voz sério significava fazer um de dois compromissos. Você encadeou ElevenLabs ou Deepgram para transcrição, GPT-4o ou Claude para raciocínio e ElevenLabs novamente para síntese – adicionando 400 a 800 milissegundos de latência de ida e volta a cada salto e rezando para que a camada de orquestração não eliminasse uma transição de estado. Ou você usou o gpt-realtime original, que proporcionou voz a voz abaixo de 500 ms, mas limitou o raciocínio no nível de GPT-4o, engasgou com chamadas de ferramentas paralelas e forçou você a uma janela de contexto de 32K que quebrou assim que a conversa durou cerca de seis minutos.
GPT Realtime 2 fecha ambas as lacunas em um único modelo. Ele atinge latência de estado estacionário de ponta a ponta de 300 a 500 ms, assim como seu antecessor. Mas o contexto saltou para 128K. O raciocínio é a classe GPT-5 com cinco níveis de raciocínio controláveis pelo usuário – minimal, low, medium, high e xhigh. E no benchmark Big Bench Audio, o GPT Realtime 2 com alto raciocínio obteve 96,6%, em comparação com 81,4% do GPT Realtime 1.5. No Audio MultiChallenge – um teste de acompanhamento de instruções de conversação multiturno – a variante xhigh atingiu 48,5% contra 34,7% para 1,5. Essas não são melhorias marginais. Essas são mudanças radicais.
É por isso que reorganizei minha manhã. A era do compromisso acabou.
O que realmente testei em 36 horas
Não vou parafrasear a demonstração do OpenAI para você. A versão do comunicado à imprensa está boa, mas também faltam as partes importantes. Aqui está o que eu realmente executei.
Teste 1: Migrando um agente de cliente real. Tenho um agente de captação de voz em execução para um pequeno cliente SaaS — qualifica solicitações de demonstração de entrada, agenda uma chamada no calendário do fundador, coloca o lead no HubSpot. Ele foi construído há seis semanas no gpt-realtime original com duas chamadas de ferramenta (pesquisa de calendário, webhook de CRM). Migrei-o para GPT Realtime 2 com esforço de raciocínio definido como medium, mantive todo o resto idêntico e executei 23 chamadas simuladas por meio dele. A confiabilidade da chamada de ferramenta passou de "ocasionalmente, precisa de uma nova tentativa" para "Ainda não percebi que errou". O reparo da conversa quando interrompi deliberadamente ("espere, não - terça, não quinta") passou de "às vezes volta à pergunta anterior" para "apenas confirmei a correção e segui em frente".
Teste 2: Tradução ao vivo com troca de código. Não consigo replicar a demonstração OpenAI literalmente porque não tenho os mesmos alto-falantes disponíveis, mas posso recriar a estrutura. Eu tinha uma amiga que falava francês no Zoom, coloquei o áudio dela em uma sessão do Realtime Translate visando a saída em inglês e pedi a ela que fizesse exatamente o que a demonstração OpenAI fez - falar em francês, passar para o alemão para uma frase, passar para um termo técnico em inglês, voltar para o francês. O atraso de tradução caiu cerca de 600 ms atrás do alto-falante, na borda frontal de cada frase. O modelo esperou pelos verbos antes de confirmar – você podia ouvir.
A saída permaneceu coerente em todas as mudanças de idioma com uma bobble: um substantivo composto técnico alemão (Bestandsführungssystem, sistema de gerenciamento de inventário) saiu como "o sistema de inventário" em vez da tradução mais precisa. Aceitável. Melhor do que eu faria ao vivo.
Teste 3: Chamada de ferramenta paralela com preâmbulos. Este foi o que realmente me surpreendeu. Criei um pequeno agente com três ferramentas - uma pesquisa de calendário, uma pesquisa de clima API e uma pesquisa de contato de CRM - e fiz perguntas que exigiam acertar todas as três simultaneamente ("estou livre na sexta à tarde, como está o tempo para o local externo e Sarah da Acme ainda é meu contato principal"). Com os preâmbulos ativados, o agente disse “deixe-me verificar isso para você” em cerca de 200 ms, depois chamou todas as três ferramentas em paralelo e sintetizou uma única resposta coerente. Latência total da pergunta à resposta completa: aproximadamente 2,4 segundos. O gpt-realtime original teria serializado as chamadas de ferramenta (4 a 6 segundos) ou descartado uma.
Teste 4: longa memória de conversa com janela de 128K. Executei uma única sessão Realtime 2 por 47 minutos, uma conversa simulada de suporte ao cliente sobre um problema complicado de cobrança. O modelo manteve o contexto durante todo o processo. Referenciou a frustração declarada do cliente desde o terceiro minuto ao gerar a resolução no minuto 41. A janela original de 32K teria truncado no meio da conversa ou exigiria injeção de memória externa. Isso é o que acho que a maior parte da cobertura está vendendo abaixo do esperado.
Teste 5: O que quebrou. O esforço de raciocínio definido como xhigh em uma pergunta simples aumentou a latência do primeiro token de aproximadamente 300 ms para mais de 1,4 segundos. Esse é o comércio. Um raciocínio mais elevado significa uma pausa mais longa antes do agente começar a falar. Para um agente de vendas que qualifica um lead, essa pausa parece errada. Para um agente de suporte que está resolvendo uma disputa de reembolso, parece deliberado. O esforço de raciocínio não é uma discagem gratuita – é uma escolha de UX. Voltarei a isso na seção de implementação porque acho que é aqui que a maioria dos construtores se queimará.
Essa é a leitura honesta de 36 horas de testes. Agora deixe-me mostrar a arquitetura e os custos.
Falta a maior cobertura da arquitetura real
Cada postagem do blog sobre este lançamento quer dizer que GPT Realtime 2 é um agente de voz. Esse enquadramento está incompleto e levará muitas equipes a construir a coisa errada.
GPT Realtime 2 é um modelo de raciocínio com áudio nativo I/O e primitivas de chamada de ferramentas. A parte da voz não é mais o diferencial. O raciocínio + ferramentas + contexto de 128K é o diferencial. O que significa que o padrão de design vencedor este ano não é o “chatbot de voz” – é a voz como interface primária para um agente que já existe.
Aqui está o que quero dizer. A maioria das equipes que atualmente enviam recursos de voz os construiu como árvores telefônicas. O visitante liga, o agente executa um script, o agente coleta os campos, o agente passa para um humano. Esse padrão está resolvido. Já foi resolvido pela pilha de agentes de voz que documentei há seis meses usando Claude Code e ElevenLabs. A novidade é que o agente do outro lado do canal de voz agora pode raciocinar tão bem quanto o agente de texto da classe GPT-5 que seu concorrente está enviando em seu painel. O mesmo cérebro. Diferente I/O.
Concretamente: uma atualização de CRM baseada em voz não é mais “transcrever a voz do usuário → executar um agente de texto → responder o resultado”. É "enviar o fluxo de áudio para uma única sessão do Realtime 2, definir as ferramentas de CRM como esquemas JSON, deixar o modelo escolher qual ferramenta chamar, explicar seu raciocínio em voz alta por meio de preâmbulos e deixar o usuário interromper ou corrigir no meio do fluxo." Não são três serviços costurados juntos. Esse é um modelo que contém toda a interação.
A implicação é desconfortável para quem investiu pesadamente no pipeline encadeado. Seu fornecedor de STT agora está competindo com um Whisper de nível de streaming por US$ 0,017 por minuto. Seu fornecedor de TTS está competindo com um modelo cuja qualidade de voz não é a melhor da categoria, mas é boa o suficiente para que o ganho de latência geralmente supere. Sua camada de orquestração – LangChain, seu loop de agente interno, qualquer que seja – está competindo com um único API que lida com chamadas de ferramentas, execução paralela e reparo de conversação nativamente.
Não estou dizendo que o ElevenLabs está morto. Explicarei em um minuto por que estou mantendo metade da pilha do meu cliente nisso. Estou dizendo que a matemática mudou o suficiente para que cada equipe de produto de voz deveria repetir a decisão de construir versus costurar esta semana.
A matemática de preços que decide sua arquitetura
Você não pode tomar essa decisão apenas com base nos recursos. Você tem que fazer o trabalho de custo. Eu fiz o trabalho de custo e vou economizar a hora da planilha.
Aqui estão as taxas verificadas no anúncio de 7 de maio de 2026, todas confirmadas na página de preços OpenAI API:
| Componente | GPT Realtime 2 | GPT Realtime Translate | GPT Whisper em tempo real |
|---|---|---|---|
| Entrada de áudio | Tokens de US$ 32/1 milhão | US$ 0,034 por minuto (fixo) | US$ 0,017 por minuto (fixo) |
| Entrada de áudio em cache | $ 0,40 / 1 milhão de tokens | — | — |
| Saída de áudio | Tokens de US$ 64/1 milhão | incluído por minuto | não aplicável (apenas STT) |
| Entrada de texto | Tokens de US$ 4/1 milhão | — | — |
| Saída de texto | Tokens de US$ 16/1 milhão | — | — |
| Janela de contexto | 128 mil tokens | streaming | streaming |
| Níveis de raciocínio | mínimo, baixo, médio, alto, xalto | n/a | n/a |
Agora, a matemática de trabalho por minuto, porque as taxas de token não parecem reais até que você as converta. Uma sessão de voz típica do Realtime 2 usa cerca de 800 a 1.200 tokens de entrada de áudio por minuto de fala do usuário e cerca de 1.500 a 2.500 tokens de saída de áudio por minuto de fala do agente, dependendo de quanto o agente fala. Chame isso de uma conversa bidirecional equilibrada: você está considerando aproximadamente US$ 0,10 a US$ 0,18 por minuto de conversa ativa para Realtime 2 nas configurações padrão, antes de qualquer raciocínio de texto ou chamadas de ferramenta. Aumente o esforço de raciocínio para high e isso aumentará para US$ 0,20-US$ 0,25 por minuto devido aos tokens de raciocínio adicionais consumidos.
Compare isso com a alternativa encadeada. Um pipeline encadeado sério hoje (STT de streaming Deepgram Nova-3 + raciocínio de texto GPT-5 + TTS de streaming ElevenLabs Turbo v3) chega a algo em torno de US$ 0,06 a US$ 0,12 por minuto de voz ativa, mas você come o custo de latência – 400-800ms total de ida e volta, muitas vezes pior em turnos de chamada de ferramenta.
Portanto, o Realtime 2 representa aproximadamente 1,5x a 2x o custo por minuto da abordagem encadeada. A questão é se a latência, o raciocínio e a simplicidade operacional valem esse prêmio. Para um agente de vendas onde a conversão segue a fluidez, sim, facilmente. Para um IVR de alto volume, onde o script é uma árvore telefônica e o custo é o gargalo, provavelmente não.
GPT Realtime Translate é o modelo onde a matemática fica limpa. US$ 0,034 por minuto é insano na direção certa. Compare isso com a abordagem encadeada típica para tradução de streaming – Deepgram ou Whisper para STT, GPT-4o para raciocínio de tradução, ElevenLabs multilíngue para TTS – que custa cerca de US$ 0,10 a US$ 0,15 por minuto e é significativamente mais lento. A US$ 0,034 por minuto com o modelo de atraso com reconhecimento de verbo, esta é a primeira vez que vejo um pipeline de tradução onde você seria louco não se o adotasse como padrão.
GPT Whisper em tempo real a US$ 0,017 por minuto é o mais silencioso dos três. Se você já possui um pipeline encadeado em produção, substituir seu fornecedor STT atual por este é provavelmente a migração mais barata e menos arriscada do menu. Você pode fazer isso em uma tarde.
Como realmente migrar: um plano concreto
Se você tem um produto de voz em produção hoje, aqui está o plano de migração que estou executando para o trabalho do meu próprio cliente, dividido na ordem em que eu realmente o faria.
Etapa 1: audite sua pilha de voz atual e identifique seu gargalo. Seja específico. O gargalo é a latência conversacional? Confiabilidade na chamada de ferramentas? Custo? Qualidade de síntese de voz? Idiomas que você não suporta? Diferentes gargalos justificam diferentes migrações. Se o seu gargalo for a latência de conversação e a confiabilidade da ferramenta, GPT Realtime 2 é o seu alvo de migração. Se for custo e sua qualidade de voz já for adequada, seu alvo de migração pode ser apenas o componente Whisper enquanto você mantém o resto.
Etapa 2: Crie uma implementação paralela em uma ramificação de recursos. Não migre no local. O modelo de sessão Realtime API é semelhante ao gpt-realtime original — WebRTC, WebSocket ou transporte SIP — mas o objeto de configuração possui novos campos para reasoning_effort, preambles e definições de ferramentas paralelas. Você deseja aprender o novo formato de um galho limpo antes de iniciar a produção.
Etapa 3: Defina suas ferramentas como esquemas JSON, incluindo as strings de preâmbulo. Esta é a parte em que você pode realmente moldar o comportamento do agente. Uma definição de ferramenta para o novo modelo é semelhante a:
{
type: "function",
name: "lookup_calendar_availability",
description: "Check the user's calendar for available 30-minute slots in the next 14 days.",
preamble: "Let me check your calendar.",
parameters: {
type: "object",
properties: {
timezone: { type: "string" },
preferred_window: {
type: "object",
properties: {
earliest: { type: "string", format: "date-time" },
latest: { type: "string", format: "date-time" }
}
}
},
required: ["timezone"]
}
}
O campo preamble é novo. É a frase curta que o modelo diz em voz alta enquanto a ferramenta está em execução, que é o que faz com que a experiência da ferramenta paralela pareça responsiva em vez de morta. Trate os preâmbulos como uma parte de primeira classe da voz do seu agente – eles devem corresponder à personalidade do agente.
Etapa 4: Escolha um esforço de raciocínio por caso de uso, não por agente. Essa é a armadilha em que a maioria dos construtores cairá. Eles escolherão medium e esquecerão disso. O padrão correto é definir dinamicamente o nível de raciocínio com base na solicitação do usuário. Pesquisas simples ("qual é minha próxima reunião") são executadas em low. As decisões em várias etapas ("remarcar todas as minhas reuniões de terça-feira sobre o conflito") são executadas em high. Fluxos de agente complexos de várias etapas ("planejar minhas próximas duas semanas de chamadas de clientes e atualizar meu CRM adequadamente") são executados em xhigh e você consome a latência. A configuração da sessão OpenAI oferece suporte à atualização no meio da sessão.
Etapa 5: Conecte a chamada de ferramenta paralela intencionalmente. A chamada paralela é habilitada por padrão, mas você precisa escrever suas ferramentas para que elas sejam realmente paralelizáveis. Se três ferramentas dependerem da saída uma da outra, o modelo as serializará de qualquer maneira. As vantagens são quando você tem três pesquisas independentes que podem se espalhar – calendário + clima + CRM, por exemplo, ou preço das ações + notícias + posição do portfólio.
Etapa 6: teste com o nível de raciocínio um nível mais alto do que você acha que precisa e, em seguida, diminua. Contrariando meu próprio aviso acima, o modo de falha que vejo com mais frequência quando a autoestima das equipes é "Escolhi baixo porque a pergunta era simples, mas na verdade era um fluxo de agente de vários saltos disfarçado". Comece um degrau acima, observe o orçamento de latência e diminua quando tiver os dados.
Etapa 7: verifique se o contexto de 128K está fazendo o que você pensa que está fazendo. O contexto mais longo fica praticamente invisível até que você precise dele. Onde aparece: conversas mais longas de suporte ao cliente, sessões de coaching multivoltas, qualquer coisa em que o usuário faça referência a algo que disse há 20 minutos. Teste esses cenários deliberadamente. Não presuma que o modelo está usando o contexto apenas porque o contexto existe.
Se você quiser uma visão mais aprofundada de como eu estruturo as especificações do agente antes de qualquer código ser escrito, examinei a estrutura em meu manual de criação de agente - essa peça combina bem com esta para qualquer pessoa que esteja migrando o trabalho de voz de produção.
O modelo de tradução merece sua própria conversa
Quase escrevi sobre o Realtime Translate ao mesmo tempo que o Realtime 2 e essa teria sido a decisão errada. São produtos diferentes que resolvem problemas diferentes e os padrões de design de cada um são completamente diferentes.
O Realtime 2 é para uma parte (seu software) conversar com outra parte (seu usuário). O Realtime Translate é para duas partes humanas conversando entre si por meio do seu software. Essa é uma topologia diferente e muda tudo sobre como você constrói.
O modelo é construído em torno de uma bela escolha de design: ele espera pelos verbos antes de realizar uma tradução. Em línguas Sujeito-Verbo-Objeto como o inglês, o verbo é inicial. Em idiomas Sujeito-Objeto-Verbo, como alemão ou japonês, o verbo está no final. Um tradutor ingênuo que emite palavra por palavra produzirá lixo em qualquer direção porque o significado da frase está bloqueado atrás do verbo. O Realtime Translate armazena em buffer apenas o tempo suficiente para encontrar a palavra de ação e, em seguida, confirma a tradução com uma voz fluida e que preserva a prosódia. O resultado é uma voz traduzida que soa como uma pessoa fazendo sentido, e não como um sistema correndo para acompanhar.
A lista de mais de 70 idiomas de entrada e 13 idiomas de saída cobre basicamente todos os idiomas com grande demanda de tradução comercial. A Deutsche Telekom está a utilizá-lo para apoio ao cliente transfronteiriço nos mercados europeus. A Zillow está usando o GPT Realtime 2 (não o Translate) para construir um assistente de compra de casa que agenda passeios de forma autônoma, e a Priceline está construindo um agente de gerenciamento de viagens acionado por voz. O padrão em todos os primeiros pilotos empresariais é o mesmo: a voz como uma camada sobre um agente que já tinha raciocínio, com a tradução como uma camada paralela quando o usuário e o agente não compartilham um idioma.
Os casos de uso que acredito estão prestes a explodir nos próximos 90 dias, com base no que já estou ouvindo dos construtores:
-
Suporte ao cliente em todas as regiões. Uma empresa de SaaS sediada nos EUA agora pode oferecer suporte em 70 idiomas sem contar com 70 falantes nativos. O cliente fala na sua língua, o agente (humano ou AI) ouve em inglês, a resposta volta através do modelo. - Interpretação de eventos ao vivo. Conferências, prefeituras, atendimento interno da empresa. O atual modelo de interpretação humana é caro e lento. A tradução em tempo real a US$ 0,034 por minuto com atraso de meio segundo é mais rápida que os humanos e mais barata que os humanos em uma ordem de magnitude. - Educação e aulas particulares. Os aplicativos de aprendizagem de idiomas já estavam saturados com AI. A próxima onda é a aulas em tempo real em um idioma alvo, com o idioma nativo do aluno disponível como alternativa — instantâneo, sob demanda e sem agendamento.
-
Vendas B2B internacionais. Um vendedor em Berlim agora pode realizar chamadas de descoberta com clientes em potencial em Tóquio, Madri e São Paulo sem fluência em três idiomas. A sobrecarga de tradução costumava ser o assassino do negócio. Acabou de ser removido.
Não creio que nada disso seja especulativo. Acho que são lançamentos de produtos em 2026 por equipes que começaram a construir ontem.
As compensações honestas que ninguém está mencionando
Agora a parte em que digo o que não amo.
A qualidade de voz do GPT Realtime 2 é, caridosamente, a terceira melhor na área em termos de naturalidade crua. Testes independentes de audição cega no primeiro trimestre de 2026 ainda classificam consistentemente o ElevenLabs em primeiro lugar em termos de clareza consonantal, posicionamento da respiração e prosódia de frases longas – as pequenas coisas que fazem uma voz parecer humana em vez de sintetizada. OpenAI Soa em tempo real bom. Não parece melhor. Para produtos onde a fidelidade de voz é o produto real – um narrador de audiolivro de alta qualidade, um clone de voz de celebridade, um IP de entretenimento – você ainda deve usar o ElevenLabs. O custo da latência vale a pena pela qualidade, e o padrão de pipeline encadeado é maduro o suficiente para lidar com isso.
A história da clonagem de voz também não é onde o ElevenLabs está. O Realtime 2 vem com a biblioteca de voz selecionada do OpenAI. Não existe um clone de voz profissional equivalente que permita treinar uma voz personalizada em horas de seu próprio áudio. Se o seu produto precisa da voz real do seu fundador, ElevenLabs é a resposta para o futuro próximo. Essa é a metade da pilha do meu cliente que não estou migrando.
As cargas de trabalho qualificadas para HIPAA ainda são uma consideração real. A modalidade de áudio em tempo real OpenAI, pela minha leitura dos documentos até hoje, não foi certificada para cargas de trabalho HIPAA da mesma forma que o padrão Deepgram + GPT-4 + ElevenLabs encadeado pode ser configurado. Se você estiver criando voz para a área de saúde, faça sua revisão de conformidade antes de migrar e presuma que talvez precise permanecer acorrentado até que a cobertura seja atualizada.
A latência do esforço de raciocínio não é gratuita. Eu disse isso antes, mas vale a pena repetir porque a maioria dos construtores não sentirá isso até o envio. Definir reasoning_effort como high adiciona latência perceptível antes da primeira palavra audível. Para um agente de coaching ou agente de suporte onde a pausa parece considerada, essa latência é considerada consideração. Para um agente de vendas onde o ritmo é importante, isso parece uma falha no sistema. Sintonize de acordo.
E o preço premium é real. 1,5x a 2x o custo do pipeline encadeado não é nada se você estiver executando um produto de voz de alto volume. Anote a economia unitária antes de migrar e observe onde o custo extra se converte em receita extra (melhor conversão, menor tempo de processamento, maior CSAT) e onde ele aparece apenas como compressão de margem.
O que eu construiria esta semana se tivesse uma sexta-feira livre
Se eu estivesse sentado em uma sexta-feira, sem compromissos com o cliente e com os novos modelos em minha mesa, aqui está o que eu realmente construiria.
Um CRM pessoal baseado em voz que fica em meus AirPods. Eu pressiono o botão e digo "marque uma reunião com Sarah da Acme, ela está interessada no pacote de migração do agente, faça o acompanhamento na próxima terça-feira às 10h", e o agente escreve um registro do HubSpot, agenda um lembrete de acompanhamento, rascunha o e-mail de acompanhamento para minha caixa de saída e lê o resumo para que eu possa confirmar. Tudo em uma sessão Realtime 2, com menos de três segundos de ponta a ponta. Tempo total de construção, dado o novo modelo: provavelmente quatro horas. Custo total de operação: talvez US$ 0,25 por interação registrada.
Isso não é uma hipótese. Isso é algo que vou construir no momento em que encerrar este rascunho.
Ou - e esta é a versão que acho que toda empresa de SaaS B2B deveria considerar - um agente de demonstração multilíngue no site de marketing. Um cliente em potencial chega ao site, clica no botão de voz e diz em seu idioma nativo: “mostre-me o que seu produto faz”. O agente, executando o Realtime 2 com o Realtime Translate lidando com a camada de vários idiomas, oferece um passo a passo personalizado de cinco minutos em seu idioma nativo, qualifica seu caso de uso e agenda o acompanhamento humano de vendas em seu fuso horário nativo. O custo por lead qualificado cai em uma ordem de magnitude. A conversão aumenta porque a linguagem não é mais um atrito.
Eu não estou vendendo nada disso para você. Estou apontando para os padrões que os modelos realmente revelam e dizendo, em voz alta, que a lacuna entre “isto é possível” e “isto está construído” simplesmente desmoronou.
O que isso significa para a pilha de voz AI
Diminua o zoom. O lançamento de 7 de maio não é apenas uma atualização de modelo. É um renivelamento de onde o raciocínio acontece nos sistemas de voz.
Durante dois anos, a arquitetura foi: entrada de voz → STT → LLM → TTS → saída de voz. O raciocínio residia no estágio LLM, imprensado entre duas conversões I/O que consomem latência. Cada equipe que construía sistemas de voz estava resolvendo o mesmo problema de orquestração, o mesmo problema de latência, o mesmo problema de reparo de conversação.
GPT Realtime 2 resume isso em: entrada de voz → modelo de raciocínio → saída de voz. Um estágio. Um custo de latência. Uma janela de contexto contendo toda a interação.
Isso não é um refinamento. Essa é uma categoria diferente de sistema. As equipes que reconhecerem a mudança com rapidez suficiente para redesenhar seus produtos de voz em torno dela parecerão gênios em seis meses. As equipes que tratam isso como uma melhoria marginal em seu pipeline encadeado existente ficarão confusas em doze meses, quando seus números de conversão ficarem estagnados e os de seus concorrentes não.
O desbloqueio não é que agora os agentes de voz sejam possíveis. Eles eram possíveis há um ano. A vantagem é que a voz agora pode ser uma modalidade peer I/O junto com o texto – mesmo raciocínio, mesmas ferramentas, mesmo contexto – e é isso que torna a voz viável como interface primária para qualquer agente que já exista. Seu painel. Seu CRM. Seu sistema de suporte. Seu assistente de codificação. Todos eles agora podem desenvolver um modo de voz que não é uma versão pior da experiência de digitação, mas uma forma diferente da mesma inteligência.
O clipe de 91 segundos que meu amigo me enviou às 8h14 não era uma demonstração de tradução. Foi uma prévia de como será a aparência de cada produto de voz. Dois humanos, duas línguas, um modelo, sem atrito. O que levei três rewatches para registrar não foi a qualidade do modelo – foi que a voz parecia um canal normal para falar com o software. Não é uma árvore telefônica. Não é um chatbot fingindo ouvir. Apenas conversando. Com o sistema entendendo e agindo.
É nesse momento que a categoria voz amadurece.
Perguntas frequentes
Qual é a diferença entre GPT Realtime 2 e GPT Realtime Translate?
GPT Realtime 2 é um agente de voz completo com raciocínio de classe GPT-5, chamada de ferramenta paralela e uma janela de contexto de 128K – criado para conversas entre seu software e um usuário. GPT Realtime Translate é um modelo de tradução de streaming dedicado com mais de 70 idiomas de entrada e 13 idiomas de saída — desenvolvido para duas pessoas que falam idiomas diferentes entre si por meio do seu aplicativo. São produtos diferentes para topologias diferentes. Para obter uma análise mais profunda da arquitetura, consulte "A arquitetura real que mais cobertura está faltando" acima.
Quanto custa o GPT Realtime 2 em comparação com o gpt-realtime original?
As taxas de token são idênticas no momento da escrita – US$ 32 por milhão de tokens de entrada de áudio, US$ 64 por milhão de tokens de saída de áudio — portanto, uma conversa bidirecional balanceada típica custa cerca de US$ 0,10 a US$ 0,18 por minuto nas configurações padrão. Com maior esforço de raciocínio ativado, esse valor sobe para US$ 0,20 a US$ 0,25 por minuto. O preço não mudou; as capacidades sim.
Devo migrar de um pipeline STT-LLM-TTS encadeado para o Realtime 2?
Migre se o gargalo for latência de conversação, confiabilidade na chamada de ferramentas ou complexidade operacional. Fique acorrentado se o seu gargalo for a fidelidade de voz (ElevenLabs ainda vence em naturalidade), conformidade com HIPAA ou se você precisar de um clone de voz personalizado. O plano de migração completo está em "Como realmente migrar" acima.
O que significa "preâmbulos" no novo Realtime API?
Preâmbulos são frases curtas que o modelo diz em voz alta antes ou durante uma chamada de ferramenta – coisas como “deixe-me verificar isso” ou “verificando seu calendário”. Eles mantêm o usuário envolvido durante um ou dois segundos em que as ferramentas estão em execução, para que a conversa não fique parada. Os preâmbulos são configurados por ferramenta nas definições de função e devem corresponder à personalidade do seu agente.
O Realtime Translate é bom o suficiente para substituir intérpretes humanos?
Para a maioria dos casos de uso comercial – suporte ao cliente, ligações de vendas B2B, treinamento interno – sim, com a ressalva de que atualmente é melhor em pares de idiomas com dados de treinamento maduros. Para contextos de alto risco, como processos judiciais, tradução diplomática ou consultas médicas ao vivo, os intérpretes humanos continuam a ser a escolha certa. O preço de US$ 0,034 por minuto torna-o uma opção óbvia para a longa cauda de conversas entre idiomas que antes não podiam justificar o custo de um ser humano.
Vamos trabalhar juntos
Procurando construir sistemas AI, automatizar fluxos de trabalho ou dimensionar sua infraestrutura tecnológica? Eu adoraria ajudar.
- Fiverr (compilações e integrações personalizadas): fiverr.com/s/EgxYmWD
- Portfólio: mejba.me
- Ramlit Limited (soluções empresariais): ramlit.com
- ColorPark (design e marca): colorpark.io
- xCyberSecurity (serviços de segurança): xcybersecurity.io