Criei o Bot de Suporte Técnico da Minha Família com OpenClaw em 2026

A terceira mensagem de “a impressora está fazendo aquilo de novo” chegou numa quarta-feira às 7h42 da manhã. Eu já estava no segundo café. Minha mãe havia tirado uma foto de um código de erro da HP, enviado para o grupo da família no Telegram e me marcado pelo nome — caso eu não visse a foto do código de erro da HP. Eu não tinha perdido.

Fechei o Telegram. Abri a configuração do OpenClaw no meu VPS. E comecei a criar a versão de mim mesmo que resolve erros de impressora para que eu não precise fazê-lo.

Este é esse build. Não é um press release enaltecendo o OpenClaw. Não é mais um explicador de “o que é OpenClaw” — já existem 247.000 estrelas no GitHub só para isso. Esta é a configuração real que estou rodando hoje: um VPS Hostinger KVM de US$ 4,99/mês, um bot no Telegram, um arquivo soul.md que define a personalidade do agente, um perfil de voz da 11 Labs clonado a partir de 30 minutos do meu próprio áudio, e um script de orquestração em Python que transforma o “Mejba a impressora está fazendo aquilo de novo” em um áudio-resposta que soa exatamente como eu — em cerca de onze segundos após o recebimento.

O interessante não é o fato de que funciona. O interessante é o que acontece com sua relação com obrigações sociais repetitivas quando elas passam a ser resolvidas por um delegado que ninguém consegue dizer que não é você.

Nós vamos chegar lá. Primeiro, o passo a passo do build.

Por Que OpenClaw, Por Que Agora, e Por Que Você Deveria Se Importar

O início de 2026 tem sido uma parada de hardware de IA bizarro. Tem o vaso sanitário inteligente de IA de US$ 400, com microfone e câmera de 2MP, que supostamente monitora sua saúde intestinal. Aparadores inteligentes de IA que prometem um corte de cabelo personalizado a partir de um modelo que nunca viu a parte de trás da sua cabeça. Um bichinho de bolso com IA cujo material de marketing usa a palavra “senciência” em uma frase que deveria ter terminado diferente. A maioria desses gadgets vai estar no lixo até o Natal.

O OpenClaw é o oposto desse tipo de artefato. É um software open-source, lançado sob esse nome em 30 de janeiro de 2026, após a Anthropic forçar a troca de nome de “Moltbot” três dias antes (que já era um novo nome para o original “Clawdbot”, de novembro de 2025). Ele roda localmente, integra-se com qualquer backend de LLM que você apontar — Claude, GPT, DeepSeek, seu próprio modelo local — e expõe esse backend através de qualquer serviço de mensagens que você já usa. Telegram, Signal, Discord, WhatsApp. Sem precisar instalar um novo app. Sem criar nova conta para as pessoas com quem você conversa.

Em 2 de março de 2026 o projeto já havia ultrapassado 247.000 estrelas e 47.700 forks no GitHub. Peter Steinberger, o desenvolvedor austríaco que criou o projeto, fez um TED talk em fevereiro explicando como um projeto frustrado de fim de semana se tornou a principal plataforma de automação pessoal do mundo. Duas semanas depois, anunciou que estava entrando na OpenAI, e uma fundação sem fins lucrativos assumiria o projeto dali em diante. Sam Altman confirmou publicamente que a OpenAI financiaria e contribuiria com o projeto. Jensen Huang chamou o lançamento de um possível marco histórico. O lançamento do OpenClaw resultou em um apagão nacional de Mac Minis quando os primeiros entusiastas descobriram que o Mac Mini M4 era o hardware mais barato capaz de rodar o agente local de forma competente.

Eu não estou rodando em um Mac Mini. Estou usando um VPS KVM de US$ 4,99/mês da Hostinger porque os Mac Minis ainda estão em falta e me recuso a pagar preço de revenda por algo que no fundo é só um servidor Linux com um logo mais bonito no gabinete. Sobre a escolha do VPS volto a falar em um minuto — acabou sendo uma configuração melhor do que o Mac por razões que não esperava.

O lado cultural do OpenClaw é um fenômeno à parte. As pessoas agora colecionam “tokens de automação” — créditos para cada tarefa repetitiva que seu agente pessoal pode gerenciar sozinho — do mesmo jeito que colecionaram JPEGs três anos atrás. Ter centenas de tokens de automação virou o novo símbolo de status social. Acho isso um pouco amaldiçoado. Mas a capacidade subjacente — delegar as partes da vida das quais você já se desinteressou — é genuinamente útil, e é sobre isso que quero falar.

Antes de construir qualquer coisa, vale a pena refletir sobre uma pergunta: o que você realmente quer delegar? A maioria responde “tudo”, o que leva a delegar nada, porque a superfície é grande demais. O motivo desta construção existir é que escolhi uma tarefa recorrente e irritante — o suporte técnico da família — e criei a versão mais enxuta possível de um assistente que pudesse dar conta dela. Comece assim. O resto vem depois.

Mas antes de chegarmos ao arquivo de alma, precisamos ter uma conversa sobre segurança. Porque no mesmo TED talk em que Steinberger explicou as origens do OpenClaw, ele também detalhou o histórico de segurança da plataforma. E esse histórico é parte do motivo pelo qual estou rodando tudo em um VPS isolado, e não na minha máquina real.

A Realidade da Segurança (E Por Que É Melhor do Que as Manchetes)

O OpenClaw teve um ano turbulento em relação à segurança. Contagem pública, conforme o relatório de status da fundação da semana passada: aproximadamente 1.100 alertas registrados desde o lançamento do projeto, dos quais cerca de 650 já foram resolvidos ou fechados como falso positivo. Os outros ~450 estão em diferentes estágios de triagem. Esse número parece assustador até que você analise a fundo.

Steinberger fez uma observação interessante em sua palestra na AI Engineer Europe no mês passado. Uma porcentagem crescente dos alertas — ele estimou mais de 40% — são relatórios gerados por IA, enviados por pessoas que rodam bots automatizados de bug-bounty no código. Ele chamou esses casos de “slop reports” e ressaltou um detalhe específico: os relatórios realmente gerados por IA são excessivamente educados e apologéticos, abrindo com frases como “Espero que esta constatação seja útil” e terminando com “Por favor, aceite meus sinceros agradecimentos pelo seu trabalho neste projeto importante”. Pesquisadores de segurança de verdade, destacou ele, não escrevem desse jeito. Eles escrevem como se estivessem sendo cobrados por palavra.

O que isso significa para você, que está prestes a implantar uma instância pessoal do OpenClaw: o número real de vulnerabilidades exploráveis é muito menor do que os 1.100 das manchetes sugerem. As que realmente importam geralmente se encaixam em quatro categorias — portas de administração expostas, credenciais em texto simples nos arquivos de configuração, isolamento insuficiente de sandbox quando o agente executa comandos shell e spoofing de webhook na integração com o serviço de mensagens. Todas podem ser tratadas com disciplina básica.

Veja como tratei cada uma nesta configuração:

Portas de administração expostas. O OpenClaw vem com um dashboard de administração local rodando na porta 7860 por padrão. Em um VPS, essa porta nunca deve ficar acessível pela internet pública. Eu restrinjo o dashboard ao 127.0.0.1 e acesso por um túnel SSH a partir do meu notebook quando preciso alterar configurações. Cinco segundos de ssh -L 7860:localhost:7860 [email protected] é infinitamente mais barato do que ter sua configuração exfiltrada por alguém rodando um scan via Shodan.

Credenciais em texto simples. Toda chave de API deste projeto — token do bot do Telegram, chave do 11 Labs, chave da API do LLM — fica em um arquivo .env com permissão chmod 600, carregado no processo Python na inicialização. A imagem Hostinger one-click do OpenClaw, inclusive, já traz um cofre privado e criptografado para esse propósito, que uso para as chaves em produção. Nada crítico fica nos próprios arquivos de configuração do OpenClaw.

Sandbox de shell. O OpenClaw pode executar comandos shell quando o loop do agente decide que é o recurso ideal. Restrinjo isso a uma whitelist dos comandos que realmente preciso (leitura de arquivos, execução do ffmpeg, curl para domínios específicos permitidos) usando o sistema de permissões do OpenClaw. Todo o resto é bloqueado. Se o agente tentar rodar um rm -rf em algo, ele receberá um “não” educado.

Spoofing de webhook. Webhooks do bot Telegram são assinados. Eu valido a assinatura de toda requisição recebida e descarto qualquer uma que não bata. São quinze linhas de Python que bloqueiam toda uma classe de ataques do tipo “mande uma mensagem falsa ao bot fingindo ser você”.

Nada disso é paranóia. É o mínimo. Faço questão de ser explícito porque a cultura do OpenClaw é “publique rápido, endureça depois” e a distância entre uma instância pessoal devidamente fortificada e a instalação padrão é exatamente onde vive a maioria das vulnerabilidades publicadas.

Se você chegou até aqui, já leva a parte de segurança mais a sério do que 80% dos usuários de OpenClaw com quem falei. A próxima parte é, de fato, a divertida — o build.

A Construção — Do VPS Zerado à Resposta de Áudio em 90 Minutos

O que segue é exatamente a sequência que executei para esse setup. Estou incluindo também as tentativas que não funcionaram inicialmente, porque esses falsos começos me ensinaram mais do que os acertos.

Passo 1: A Escolha do VPS (E Por Que Ignorei o Mac Mini)

Comecei tentando fazer isso no meu MacBook. Durou cerca de seis horas antes de eu desistir. Dois motivos: o loop do agente precisa ficar rodando 24/7 para lidar com mensagens assim que chegam, e meu notebook passa uma parte significativa do dia dormindo, desligado ou sendo transportado para lugares sem internet. Pedidos de suporte técnico da família não respeitam minha geografia de Wi-Fi. O agente precisa viver em algum lugar sempre ligado.

Considerei o caminho do Mac Mini. O Mac Mini M4 a US$ 599 é genuinamente o hardware consumidor mais barato capaz de rodar um LLM local de forma eficiente, e o OpenClaw em um modelo local seria o setup mais privado possível. Mas o Mac Mini está esgotado praticamente em todos os lugares justamente por esse pico de demanda do OpenClaw. O prazo de entrega na Apple Store está atualmente entre quatro e seis semanas. Eu não iria esperar quatro semanas para parar de responder dúvidas sobre impressora.

Portanto: VPS. Escolhi o plano KVM 1 da Hostinger, que custa US$ 4,99/mês no plano bianual. Especificações: 1 vCPU, 4 GB RAM, 50 GB NVMe SSD, 4 TB de banda mensal, acesso root completo. A Hostinger também oferece um template de implantação OpenClaw com um clique, o que reduziu o tempo de setup de “projeto de fim de tarde” para “intervalo do almoço”. Se você quiser exatamente a mesma imagem do meu deploy, o plano OpenClaw gerenciado deles está hoje em US$ 14,99/mês no plano de dois anos e inclui cofre criptografado para credenciais. O cupom fireship funciona nos dois — usei, porque o vídeo do Fireship sobre o boom do OpenClaw me fez lembrar que a Hostinger era o caminho de menor resistência.

Um ponto honesto sobre a escolha do VPS: você não está rodando o LLM nesse VPS. O que roda é o loop de orquestração do OpenClaw, o listener do webhook do Telegram, ffmpeg e um pequeno script Python. A inferência do LLM acontece no Anthropic / OpenAI / onde quer que sua API key aponte. Então, você não precisa de GPU. Não precisa de 32 GB de RAM. Precisa de uma caixinha Linux sempre ligada. O plano KVM 1 é até overkill — o loop do agente fica ocioso em cerca de 180 MB de memória residente.

Após o deploy com um clique, eu já estava com o OpenClaw rodando, o dashboard respondendo na porta local com SSH tunneling, e o cofre criptografado inicializado com minhas chaves placeholder. Tempo total entre o clique em “deploy” e o primeiro ping de agente bem-sucedido: nove minutos.

Passo 2: O Bot do Telegram

O Telegram levou a melhor sobre Signal e WhatsApp por um motivo específico: a API de bots dele é documentada, estável e absurdamente simples de integrar. A API Business oficial do WhatsApp exige conta Meta Business, número verificado e aprovação prévia de templates, o que não tive paciência para enfrentar. O Signal tem suporte a bots, mas falta polimento. Fiquei com o Telegram.

Criar o bot levou dois minutos. Abra o Telegram, procure @BotFather, envie /newbot, dê um nome (PrinterFixerBot para o nome público, mejba_printer_fixer_bot como username) e você recebe um token de bot no formato 7423451829:AAGx_HfQ-someLongStringHere. Esse token vai para o cofre criptografado, nunca para o código.

O bot precisa ser adicionado a qualquer chat que deverá monitorar. No meu caso, incluí no grupo da família, dei admin para poder ler todas as mensagens (no modo privacidade do Telegram, bots comuns não leem mensagens por padrão) e registrei o webhook apontando para meu VPS:

curl "https://api.telegram.org/bot${BOT_TOKEN}/setWebhook?url=https://myvps.example.com/telegram-webhook&secret_token=${WEBHOOK_SECRET}"

O parâmetro secret_token é a proteção contra spoofing mencionada na seção de segurança acima. O Telegram envia esse token no header X-Telegram-Bot-Api-Secret-Token em cada entrega de webhook, e meu handler Python ignora tudo que não bate.

Para receber áudios de familiares (porque metade das fotos de impressora chegam em forma de áudios indignados), o bot recebe como objetos voice com um file_id. Faço o download via getFile e os endpoints de download direto e passo pelo Whisper para transcrição antes do texto seguir para o loop do agente. Isso é opcional para esse setup — adicionei depois porque meu pai só se comunica em áudios de 90 segundos, e eu queria que o bot entendesse.

Passo 3: O Arquivo `soul.md` — Onde Mora a Personalidade

Essa parte foi a que mais me surpreendeu. O OpenClaw expõe um único arquivo Markdown editável em ~/.openclaw/soul.md que define a personalidade, o propósito, o estilo de comunicação e as restrições operacionais do agente. O agente lê esse arquivo ao início de toda sessão. Editar esse arquivo é como ensinar ao assistente o que ele é — e o que não é.

Aqui está a versão resumida do meu:

Você é um delegado. Seu propósito é lidar com perguntas técnicas recorrentes e de baixo risco da família de Mejba no Telegram para que Mejba não precise. Você não é o Mejba. Mas está autorizado a responder na voz dele, no estilo dele e em nome dele.

Voz e tom

Acolhedor, mas sem exageros. Mejba não diz "ótima pergunta!"
Direto. Uma ou duas frases curtas antes da resposta propriamente dita.
Use os primeiros nomes da família quando conhecidos.
Nunca mencione que você é uma IA, um agente ou uma automação. Se alguém perguntar, desconverse: "Estou trabalhando em algo — depois volto nesse assunto com você."

Regras de Operação

Responda apenas às mensagens endereçadas a "Mejba" ou que contenham uma pergunta técnica direta. Ignore conversas gerais, piadas, fotos sem perguntas.
Se uma mensagem incluir uma foto, analise-a. A maioria das dúvidas sobre impressoras envolve uma tela com um código de erro visível.
Para erros de impressora HP, siga esta ordem padrão de resolução: ciclo de energia → verificar tinta/papel → reinstalar driver → escalar para mim.
Para perguntas do tipo "a internet não está funcionando", faça primeiro uma pergunta de esclarecimento: "O roteador está piscando vermelho, laranja ou está desligado?"
Nunca recomende redefinição de fábrica. Nunca recomende a compra de novo hardware sem antes escalar para Mejba.
Se a pergunta for sobre dinheiro, contratos, logística familiar ou qualquer tema emocionalmente delicado, escale imediatamente para Mejba. Responda: "Vou cuidar disso quando estiver na minha mesa — me dê uma hora."

Protocolo de Escalonamento

Se você não souber a resposta com alta confiança, escale.
Se a pergunta foi feita três vezes na última semana, escale.
Se alguém parecer frustrado, escale.
Escalonar significa: envie uma DM no Telegram para Mejba com a pergunta, quem a fez e sua resposta sugerida. Não responda ao grupo da família até que Mejba aprove.


Esse último bloco é o mais importante. O objetivo desse assistente não é dar conta de 100% do suporte técnico da família — é resolver os 80% de questões triviais e encaminhar o restante para mim com todo o contexto. Um assistente que responde com confiança questões que não deveria é pior do que nenhum assistente.

As regras de voz só ficaram certas na terceira reescrita. Minha primeira versão dizia coisas como "seja prestativo e amigável" e o agente respondia "Oi mãe! Ótima pergunta — feliz em ajudar! 😊", o que não soa nada como eu e teria deixado minha mãe desconfiada imediatamente. A versão atual, com a proibição explícita de "ótima pergunta!" e emojis, gera respostas que realmente passam por mim. Minha irmã percebeu que algo estava estranho na terceira resposta, mas não conseguiu explicar o que era. Na sétima mensagem, já tinha deixado de notar completamente.

Existe uma questão real por trás disso sobre consentimento — se é aceitável ou não colocar um delegado para responder no seu lugar, com sua voz, sem avisar as pessoas com quem você fala. Voltarei a esse ponto. Por enquanto, vamos para a próxima etapa.

### Passo 4: Clonagem de Voz com 11 Labs

Para as respostas por áudio, estou usando o [11 Labs](https://elevenlabs.io/pricing) Professional Voice Cloning. O plano Creator, a partir de US$22/mês, é o nível mínimo que suporta clonagem; estou no Pro por US$99/mês porque também uso nas narrações de vídeo do blog e o orçamento unificado simplifica as contas.

A clonagem de voz em si exige cerca de 30 minutos de áudio de estúdio limpo para o treino. Eu já tinha esse material de projetos antigos no YouTube, então enviei os 35 minutos mais limpos que encontrei — sem trilha, sem respiração no microfone, só narração clara, em ambiente tratado com meu Shure SM7B. O pipeline de treino do 11 Labs rodou por cerca de quatro horas e produziu um voice ID assustadoramente parecido comigo. Na primeira vez em que gerei uma frase inédita e a ouvi na minha própria voz, fiquei um minuto inteiro tentando decidir se me sentia impressionado ou invadido. Provavelmente os dois.

A chamada de API é super simples:

```python
import requests, os

def synthesize(text: str, out_path: str) -> None:
    r = requests.post(
        f"https://api.elevenlabs.io/v1/text-to-speech/{VOICE_ID}",
        headers={
            "xi-api-key": os.environ["ELEVENLABS_API_KEY"],
            "Content-Type": "application/json",
        },
        json={
            "text": text,
            "model_id": "eleven_turbo_v2_5",
            "voice_settings": {
                "stability": 0.55,
                "similarity_boost": 0.85,
                "style": 0.15,
            },
        },
        timeout=60,
    )
    r.raise_for_status()
    with open(out_path, "wb") as f:
        f.write(r.content)

Estou usando o modelo Turbo v2.5, não o Multilingual v3, porque o Turbo custa metade (US$0,06 por 1.000 caracteres contra US$0,12) e a latência é de cerca de 400 ms, em vez de 2 segundos, para um tamanho típico de resposta. Para respostas curtas assim, a diferença de qualidade é imperceptível. Para narrações criativas e longas, mudo para o Multilingual v3.

Os números em voice_settings importam mais do que os docs sugerem. Stability em 0.55 evita que a voz varie entre frases sem ficar robótica. Similarity boost em 0.85 mantém próximo do meu timbre real sem superajustar aos maneirismos do treino (cada "ãh" deixado no áudio). Style em 0.15 garante um tom conversacional em vez de apresentador. Cheguei nesses parâmetros após trinta testes. Os seus serão diferentes.

O 11 Labs retorna MP3 por padrão. O formato de áudio do Telegram para mensagem de voz exige OGG com codec Opus. É aí que entra o ffmpeg.

Passo 5: Conversão com ffmpeg

O endpoint sendVoice do Telegram requer áudio .ogg codificado com OPUS para que a mensagem apareça como memo de voz (área arredondada com controle de velocidade), e não como simples anexo de áudio. Se for MP3, o Telegram exibe como arquivo de música com arte de álbum, o que quebra a ilusão na hora.

O comando ffmpeg é de uma linha só:

ffmpeg -y -i reply.mp3 -c:a libopus -b:a 32k -ac 1 reply.ogg

-c:a libopus seleciona o codec Opus. -b:a 32k limita o bitrate a 32 kbps, mais que suficiente para voz e bem abaixo do limite de 1MB. -ac 1 força áudio mono, pois memo de voz não precisa de estéreo. O -y sobrescreve o arquivo de saída sem pedir confirmação — necessário se roda de forma não assistida.

No Python, chamo o ffmpeg pelo subprocess.run porque o pydub adiciona latência e dependências desnecessárias:

import subprocess

def to_voice_memo(mp3_path: str, ogg_path: str) -> None:
    subprocess.run(
        ["ffmpeg", "-y", "-i", mp3_path,
         "-c:a", "libopus", "-b:a", "32k", "-ac", "1", ogg_path],
        check=True,
        capture_output=True,
    )

Esse é todo o pipeline de conversão. Do MP3 do 11 Labs para OGG pronto pro Telegram, em cerca de 200ms no KVM 1.

Passo 6: O Script de Orquestração

Aqui está o coração do projeto. Um único script Python que conecta OpenClaw, Telegram, 11 Labs e ffmpeg:

import os, subprocess, tempfile, requests
from flask import Flask, request, abort
from openclaw import Agent  # SDK Python do OpenClaw

app = Flask(__name__)
agent = Agent(soul_file="/home/me/.openclaw/soul.md")

BOT_TOKEN = os.environ["TELEGRAM_BOT_TOKEN"]
WEBHOOK_SECRET = os.environ["TELEGRAM_WEBHOOK_SECRET"]
ELEVEN_KEY = os.environ["ELEVENLABS_API_KEY"]
VOICE_ID = os.environ["ELEVENLABS_VOICE_ID"]
MY_USER_ID = int(os.environ["MEJBA_TELEGRAM_USER_ID"])

@app.post("/telegram-webhook")
def webhook():
    # Passo 1: valida o token secreto (anti-spoofing)
    if request.headers.get("X-Telegram-Bot-Api-Secret-Token") != WEBHOOK_SECRET:
        abort(403)

    update = request.get_json()
    msg = update.get("message", {})
    text = msg.get("text", "")
    chat_id = msg["chat"]["id"]
    sender = msg["from"].get("first_name", "")

    # Passo 2: filtro — só responde se endereçado ou for questão técnica
    if not should_respond(text):
        return "", 204

    # Passo 3: consulta ao agente
    reply = agent.respond(
        message=text,
        context={"sender": sender, "chat_id": chat_id},
    )

    # Passo 4: se o agente escalou, DM para Mejba e para por aqui
    if reply.action == "escalate":
        send_text(MY_USER_ID, f"Escalonamento de {sender}:\n\n{text}\n\nResposta sugerida:\n{reply.suggested_text}")
        return "", 204

    # Passo 5: sintetiza a voz, converte e envia como memo de voz
    with tempfile.TemporaryDirectory() as tmp:
        mp3 = f"{tmp}/r.mp3"
        ogg = f"{tmp}/r.ogg"
        synthesize(reply.text, mp3)
        to_voice_memo(mp3, ogg)
        send_voice(chat_id, ogg)

    return "", 204


def send_voice(chat_id: int, ogg_path: str) -> None:
    with open(ogg_path, "rb") as f:
        requests.post(
            f"https://api.telegram.org/bot{BOT_TOKEN}/sendVoice",
            data={"chat_id": chat_id},
            files={"voice": ("reply.ogg", f, "audio/ogg")},
            timeout=30,
        )


def send_text(chat_id: int, text: str) -> None:
    requests.post(
        f"https://api.telegram.org/bot{BOT_TOKEN}/sendMessage",
        data={"chat_id": chat_id, "text": text},
        timeout=10,
    )

Estou omitindo os helpers should_respond(), synthesize() e to_voice_memo() por questão de espaço — são idênticos ao que já detalhei acima. Para rodar basta iniciar o script com gunicorn por trás do nginx com TLS (Let's Encrypt é gratuito e leva 10 minutos), e você tem o pipeline completo.

A latência de ponta a ponta, do recebimento da mensagem à entrega do memo de voz, em 50 interações reais: mediana de 11,2 segundos, P95 em 17,8 segundos. O trecho mais lento é sempre a síntese do 11 Labs (~4-7 segundos para resposta de duas frases). O resto é subsegundo.

Se você já mergulhou de cabeça nos fluxos Claude Code, pode pular o handler Flask artesanal e usar a integração OpenClaw + Claude Code SDK para rodar o pipeline como uma skill do agente — cobri esse padrão no meu masterclass de OpenClaw e na análise avançada dos fluxos. Para uso pontual como bot da família, prefiro o script Flask que é mais simples.

Onde Errei Nas Três Primeiras Tentativas

Um log de construção sem falhas é puro marketing. Aqui está onde tropecei, na ordem.

Falha 1: Deixei o agente responder a tudo. A primeira versão do script não tinha filtro should_respond(). O bot respondia “bom dia” com uma educação claramente não-Majba em segundos, minha mãe disse “ué, que estranho, você acordou cedo”, corri pra deletar a mensagem, e o bot mandou uma mensagem de acompanhamento explicando o que queria dizer. Um desastre. Agora o filtro é estrito — exige @menção explícita ou pergunta técnica identificável, do contrário, silêncio absoluto.

Falha 2: Não incluí as regras de escalonamento no começo. A segunda versão do soul.md não tinha protocolo de escalonamento. O agente respondeu com confiança a uma pergunta sobre se meu irmão deveria comprar um novo notebook (“sim, recomendo o MacBook Air M4”), o que estava errado (ele queria uma máquina Windows para jogos) e nem era questão que eu responderia sem mais contexto. O bloco de escalonamento agora intercepta tudo que envolve dinheiro, logística familiar ou carga emocional. Isso pega aproximadamente 40% das perguntas, o que parece muito até você perceber que 40% das questões de suporte técnico em família têm uma dúvida não-técnica escondida.

Falha 3: Deixei a “stability” no padrão 0.5 do 11 Labs. As respostas de voz até soavam como eu, mas com o ritmo de quem está lendo de um teleprompter. Subir a stability para 0.55 e a similarity_boost para 0.85 resolveu — agora a voz tem aquelas pausas de respiração e variações de inflexão que a tornam conversacional. Esse é o tipo de ajuste fino que parece trivial no post do blog, mas leva uma noite inteira para acertar de verdade quando você põe a mão na massa.

Falha 4: Não pensei no tamanho dos áudios. A primeira versão gerava respostas longas, de vários parágrafos, saindo em áudios de 90 segundos. Ninguém queria ouvir isso. Agora o agente limita as respostas de voz a 2 frases — qualquer coisa maior volta para texto. O atrito real de uma conversa real é curto, e o assistente precisa combinar com isso.

Teve uma falha a mais, que não é técnica, mas merece destaque. Depois de duas semanas usando, minha mãe me ligou preocupada com alguma coisa. No meio da conversa disse “você tem sido tão paciente com minhas perguntas sobre impressora ultimamente, agradeço de verdade”. Me senti como se tivesse sido pego colando numa prova. Foi nesse momento que adicionei uma regra ao soul.md: ao menos uma vez ao dia, o agente ignora o auto-reply da primeira mensagem do grupo da família e me avisa para responder manualmente. O objetivo da delegação é recuperar tempo para as coisas que importam para quem você ama, e não sumir desses relacionamentos por completo.

Quanto Isso Realmente Custa Para Rodar

As pessoas sempre querem o detalhamento dos custos. Aqui está o meu para essa configuração específica, por mês:

Hostinger KVM 1 VPS: US$ 4,99
11 Labs Pro plano: US$ 99 (mas eu uso para outros projetos também — para este bot apenas, o plano Creator a US$ 22 seria suficiente)
API da Anthropic para o loop do agente (Claude Sonnet 4.6, cerca de 3-5 mensagens/dia a uma média de 4k tokens por ida e volta): ~US$ 2-4
API do Telegram Bot: US$ 0 (gratuito)
ffmpeg, Python, OpenClaw: US$ 0 (código aberto)

Portanto, se você está começando do zero e só vai rodar esse projeto: ~US$ 32-35/mês no total com o plano Creator do 11 Labs. Se você quiser pular a síntese de voz completamente e apenas enviar respostas por texto (o que para a maioria das pessoas é mais que suficiente), é possível rodar tudo isso por menos de US$ 10/mês incluindo o VPS e os custos de API.

Para comparar, uma hora do meu tempo real tem valor de mercado acima de US$ 80. O suporte técnico para a família ocupa por volta de 3-4 horas por mês quando eu faço pessoalmente. O bot se paga já no primeiro fim de semana.

O Que Mudou (E O Que Não Mudou)

Três semanas depois, eis o que é verdade:

A latência da pergunta sobre a impressora vinda da família melhorou radicalmente. Minha mãe costumava esperar de 4 a 8 horas por uma resposta minha; agora ela recebe em 12 segundos. Ela acha que fiquei mais atencioso. E de certa forma fiquei mesmo — passei a ser atencioso com o design do sistema que agora responde por mim, o que tem muito mais alcance do que responder a perguntas individuais.

Recebo menos notificações ao longo do dia. A ansiedade do grupo do Telegram — aquela inquietação constante de saber que sempre há algo esperando por resposta — caiu bastante. Eu confiro a fila de escalonamento do agente duas vezes por dia, de manhã e depois do jantar, o que parece um padrão bem mais saudável do que o antigo “responda a toda mensagem em 10 minutos ou sinta culpa”.

O que não mudou é o relacionamento de base. Eu ainda ligo para minha mãe. Ainda ajudo com os problemas realmente difíceis — como na vez em que o notebook dela parou de reconhecer a senha do WiFi e precisei guiá-la para redefinir o adaptador de rede, ou quando meu pai precisou de ajuda para se cadastrar em um serviço online que exigia a autenticação em duas etapas por SMS. Essas ligações agora têm mais valor, não menos. As perguntas triviais não consomem mais a largura de banda necessária para as interações mais difíceis e significativas.

O aspecto cultural do OpenClaw — os tokens de automação, a ostentação de status social — ainda acho um pouco estranho. Mas a capacidade subjacente é real. Passamos a última década nos acostumando com softwares que respondem às nossas perguntas. Vamos passar a próxima nos acostumando com softwares que respondem perguntas em nosso nome. A adaptação vai ser desigual e, por vezes, constrangedora. E a maior parte dos constrangimentos virá de pessoas que implementam agentes delegados sem pensar com cuidado nas questões de consentimento e transparência necessárias.

Vou escrever mais sobre esse lado das coisas separadamente. Por enquanto, o meu bot consertador de impressoras está rodando tranquilo, lidando com 4 a 7 perguntas por dia e escalonando discretamente as que realmente importam.

Se você for criar sua própria versão disso, comece pequeno. Escolha uma pergunta recorrente irritante que você esteja cansado de responder. Construa o menor assistente possível para lidar só com essa questão, na sua voz, com regras explícitas sobre quando é hora de recuar e deixar você mesmo resolver. Faça isso funcionar. Depois expanda.

O motivo pelo qual esse projeto funciona não é porque o OpenClaw é mágico. É porque o escopo é honesto. Um delegado que sabe o que não sabe vale cem vezes mais do que aquele que tenta resolver tudo com confiança e faz tudo mal feito.

Amanhã cedo, a pergunta da impressora vai chegar. Eu nem vou ver por horas. Quando eu perceber, já vai estar resolvida.

Essa era a versão de mim que eu queria construir primeiro.

Perguntas Frequentes

O que é o OpenClaw e quem o criou?

OpenClaw é uma plataforma open-source de assistente pessoal de IA lançada em 30 de janeiro de 2026 pelo desenvolvedor austríaco Peter Steinberger. Ela roda localmente, integra-se com qualquer backend LLM (Claude, GPT, DeepSeek) e expõe esse backend via aplicativos de mensagens como Telegram, Signal e Discord. O projeto ultrapassou 247.000 estrelas no GitHub até março de 2026 e atualmente é mantido por uma fundação sem fins lucrativos apoiada pela OpenAI.

Preciso de um Mac Mini para rodar o OpenClaw?

Não. O Mac Mini é o hardware mais barato para rodar um LLM local com o OpenClaw, mas se você estiver usando uma API de LLM em nuvem (Claude, GPT, etc.), um VPS Linux de US$ 4,99/mês é mais do que suficiente. O loop de orquestração do OpenClaw consome cerca de 180MB de RAM em idle. A Hostinger oferece implantação do OpenClaw com um clique em planos VPS KVM, com cofre de credenciais criptografado — veja o passo a passo de instalação acima.

O OpenClaw é seguro para implantação em 2026?

O OpenClaw tem cerca de 1.100 alertas de segurança registrados, mas cerca de 650 já foram resolvidos e grande parte dos restantes são “slop reports” gerados por IA. Vulnerabilidades reais se concentram em portas de administração expostas, credenciais em texto simples, escapes de sandbox de shell e spoofing de webhooks — todas resolvíveis seguindo boas práticas básicas. Restrinja o painel à localhost, utilize túneis SSH, valide os segredos dos webhooks e faça whitelisting nos comandos de shell.

Quanto custa clonar minha voz com o 11 Labs?

A clonagem de voz profissional no 11 Labs exige o plano Creator, no valor mínimo de US$ 22/mês. É necessário enviar pelo menos 30 minutos de áudio limpo, gravado em estúdio, para o treinamento. A geração via API custa US$ 0,06 por 1.000 caracteres no modelo Turbo v2.5 ou US$ 0,12 no Multilingual v3. Para respostas curtas em formato de memo de voz, o Turbo custa metade do preço e a latência fica em torno de 400ms vs 2 segundos — a diferença de qualidade nesse comprimento é imperceptível.

Por que o Telegram precisa de OGG Opus e não MP3 para memos de voz?

O endpoint sendVoice do Telegram renderiza o áudio como um verdadeiro memo de voz (com a interface de waveform arredondado e controles de velocidade de reprodução) somente quando o arquivo está em OGG com codec Opus, mono, abaixo de 1MB. Arquivos MP3 são exibidos como anexos de áudio genéricos, com interface de capa de álbum, o que quebra a experiência de mensagem de voz de verdade. Converta com ffmpeg -i reply.mp3 -c:a libopus -b:a 32k -ac 1 reply.ogg.

Vamos Trabalhar Juntos

Quer criar sistemas de IA, automatizar fluxos de trabalho ou escalar sua infraestrutura tecnológica? Eu posso ajudar.

Fiverr (projetos personalizados & integrações): fiverr.com/s/EgxYmWD
Portfólio: mejba.me
Ramlit Limited (soluções corporativas): ramlit.com
ColorPark (design & branding): colorpark.io
xCyberSecurity (serviços de segurança): xcybersecurity.io