Caveman Skill para LLMs: 45% Menos Tokens, Output Mais Preciso
Eu estava vendo minha conta de tokens subir numa terça-feira à tarde — três sessões do Claude abertas, uma tarefa do Codex rodando em segundo plano, output tokens se acumulando como um taxímetro que eu não conseguia desligar — quando um amigo me mandou um link para um repositório no GitHub com 589 estrelas e um slogan roubado de The Office: "Why waste time say lot word when few word do trick?"
Meu primeiro instinto foi fechar a aba. Eu já tinha visto prompts de novidade antes. Truques que funcionam uma vez numa demo e desmoronam no segundo em que você joga trabalho real neles. Mas esse tinha tabelas de benchmark. Números reais. Uma redução de 45% nos output tokens em 10 prompts testados, com o modelo mantendo total precisão técnica.
Então parei o que estava fazendo e rodei os testes eu mesmo. O que encontrei não era um truque. O Caveman skill é uma abordagem estruturada para um problema que custa dinheiro real aos desenvolvedores todos os dias — o fato de que grandes modelos de linguagem são treinados para serem verbosos, e essa verbosidade não é apenas cara. Ela está tornando sua IA mais burra.
Isso não é exagero. Um estudo de pesquisa de 2024 descobriu que restringir as respostas de LLMs para serem breves melhorou a precisão em 26% em benchmarks específicos. E um artigo de março de 2026 no arXiv foi além, avaliando 31 modelos em 1.485 problemas e descobrindo que modelos maiores às vezes têm desempenho inferior aos menores — especificamente porque divagam demais.
O Caveman skill é uma resposta direta e prática a essa pesquisa. E funciona no Claude, Codex e dezenas de outros agentes baseados em LLM. Aqui está o que ele realmente faz, quanto custa e quando você deve (e não deve) usá-lo.
O Problema Que o Caveman Resolve — E Por Que Ele Existe
Todo LLM grande vem com a mesma aflição: polidez treinada. Pergunte ao Claude para explicar autenticação em um app Next.js, e você vai receber uma resposta bem estruturada com palavras de preenchimento, travessões, frases de hesitação ("você pode querer considerar...") e três parágrafos onde um bastaria. Pergunte ao GPT-4 a mesma coisa e você vai receber uma resposta igualmente inflada com um tempero levemente diferente.
Isso não é uma feature. É um efeito colateral de como esses modelos aprendem.
Reinforcement Learning from Human Feedback (RLHF) — a técnica por trás de quase todo LLM comercial importante — tem um viés de comprimento documentado. Anotadores humanos consistentemente avaliam respostas mais longas como de maior qualidade, mesmo quando a resposta mais curta é mais precisa. O modelo internaliza esse sinal: mais longo é igual a melhor. Mais hesitação é igual a mais reflexivo. Mais palavras é igual a mais útil.
Pesquisa do OpenReview documenta esse viés sistemático. O modelo de recompensa aprende a otimizar para comprimento, não para correção. E quanto maior o modelo, mais profundo esse padrão se enraíza — modelos maiores têm mais parâmetros dedicados a gerar prosa elaborada e fluida, então se tornam mais verbosos conforme escalam.
O resultado? Você está pagando por tokens que ativamente prejudicam a qualidade do seu output. Cada hesitação, cada "vale notar que", cada "você pode querer considerar" é um token que custa dinheiro e uma oportunidade para o modelo se convencer da resposta errada.
O Caveman elimina tudo isso. Sem artigos (um, uma, o, a). Sem palavras de preenchimento. Sem cortesias. Sem hesitações. O que resta é sinal puro: termos técnicos, blocos de código, mensagens de erro e conclusões diretas.
A estrutura que ele impõe é brutal na sua simplicidade: coisa, ação, razão, próximo passo. É isso. Toda resposta segue esse padrão, e a compressão é dramática.
Como o Modo Caveman Realmente Se Parece
Aqui está uma comparação lado a lado que mostra a diferença melhor do que qualquer explicação poderia.
Eu pedi ao Claude para explicar o fluxo de autenticação em uma aplicação demo Next.js.
Sem Caveman (resposta padrão do Claude):
"O sistema de autenticação nesta aplicação usa NextAuth.js com uma estratégia JWT. Quando um usuário tenta fazer login, o credentials provider valida o email e a senha contra o banco de dados. Se for bem-sucedido, um JSON Web Token é gerado e armazenado em um cookie HTTP-only. O session callback então enriquece o token com o papel e ID do usuário, que são disponibilizados em toda a aplicação via o hook useSession. Vale notar que o arquivo middleware.ts lida com a proteção de rotas verificando sessões válidas antes de permitir acesso a páginas protegidas."
Com Caveman (modo full):
"Auth: NextAuth.js + JWT. Credentials provider checa email/pwd contra DB. Sucesso = JWT em cookie httpOnly. Session callback adiciona role + ID ao token. Hook useSession expõe em todo lugar. middleware.ts protege rotas — sem sessão válida, sem acesso."
Mesma informação. Mesma precisão técnica. Aproximadamente metade dos tokens. E — essa é a parte que me surpreendeu — a versão Caveman é na verdade mais fácil de processar. Não há sobrecarga cognitiva filtrando o tecido conectivo para encontrar a substância técnica. A substância é tudo que está ali.
Essa comparação rápida captura a filosofia, mas o Caveman vai mais fundo do que uma única demo. Ele vem com um sistema inteiro de níveis de intensidade, modos especializados e ferramentas complementares que transformam a compressão de tokens de um truque de salão em uma otimização real de workflow.
O Sistema Completo de Modos: Do Lite ao Wenyan
Caveman não é uma configuração só. É um espectro, e escolher o ponto certo nesse espectro importa mais do que a maioria dos usuários percebe.
Modo Lite
Remove o preenchimento mais óbvio — "eu acho", "você pode querer", "é importante notar" — mas mantém frases gramaticalmente completas. Legível por qualquer pessoa. Economia de output tokens gira em torno de 20-25% em prosa.
Esse é seu ponto de partida se você compartilha o output do Claude com colegas de equipe ou clientes que não se inscreveram para comunicação estilo telegrama. A compressão é modesta, mas o tradeoff de legibilidade é mínimo.
Modo Full (Padrão)
É aqui que o Caveman faz jus ao nome. Artigos desaparecem. Frases viram fragmentos. Sinônimos curtos substituem os longos — "grande" em vez de "extensivo", "corrigir" em vez de "implementar uma solução", "rápido" em vez de "com latência mínima". O output parece anotações de alguém que digita mais rápido do que consegue terminar as frases.
Economia de output tokens: aproximadamente 45% em respostas de prosa. Esse é o ponto ideal ao qual eu sempre volto. A precisão técnica permanece intacta. Blocos de código ficam intocados. Você não perde nada exceto palavras que já estava pulando quando lia.
Modo Ultra
Maximamente conciso. Quase telegráfico. Toda palavra que pode ser cortada, é cortada. O output parece anotações abreviadas que você rabiscaria num quadro branco durante uma sessão de debugging às 2 da manhã.
A economia de output tokens chega a 60-75% em prosa. O tradeoff é real — outputs do modo ultra podem ser difíceis de processar se você não estiver já imerso no contexto do que perguntou. Eu uso isso para tarefas repetitivas onde sei exatamente qual formato a resposta deve ter. Para qualquer coisa exploratória, o modo full é mais prático.
Modo Wenyan
Esse é o coringa. O modo Wenyan gera respostas usando caracteres chineses clássicos — a língua literária que sustentou a academia chinesa por mais de dois mil anos. O chinês clássico é provavelmente a língua escrita mais densa em informação que os humanos já criaram. Um único caractere pode expressar o que leva uma cláusula inteira em inglês.
É prático para a maioria dos desenvolvedores? Não. A maioria de nós não consegue ler chinês clássico. Mas o modo Wenyan serve como um teste de estresse fascinante para compressão, e para desenvolvedores bilíngues que conseguem lê-lo, a economia de tokens é extrema. Também é um lembrete de que o problema da verbosidade é fundamentalmente um problema de codificação de linguagem — e existem sistemas de codificação que resolveram isso séculos antes da tokenização BPE existir.
Extensões Especializadas do Caveman
O skill base lida com respostas gerais. As extensões lidam com workflows específicos onde a economia de tokens se acumula ainda mais.
Caveman Commit
Gera mensagens de commit convencionais e concisas. Linhas de assunto ficam abaixo de 50 caracteres. O formato segue os padrões de conventional commits (feat:, fix:, refactor:) mas elimina toda palavra desnecessária.
Mensagem de commit normal: "fix: implement a solution to handle the case where user authentication tokens expire during an active session"
Caveman commit: "fix: handle expired auth tokens mid-session"
Mesmo significado. Metade dos caracteres. E honestamente, a versão caveman é uma mensagem de commit melhor por qualquer padrão — mensagens de commit devem ser escaneáveis, e a brevidade serve esse objetivo naturalmente.
Caveman Review
Produz comentários de code review de uma linha por achado. O formato é enxuto: número da linha, emoji de severidade, categoria, achado, recomendação. Sem enrolação.
Comentário de review normal: "Na linha 42, percebi que você não está verificando se o objeto user é null antes de acessar a propriedade name. Isso poderia potencialmente levar a um TypeError em produção. Eu recomendaria adicionar uma verificação de null aqui."
Caveman review: "L42: 🔴 bug: user null. Add guard."
Cinco palavras em vez de trinta e oito. Mesmo valor diagnóstico. Quando você está revisando um PR com 40 achados, a diferença entre ler 40 comentários de uma linha versus 40 parágrafos de múltiplas frases é a diferença entre uma revisão de 5 minutos e uma revisão de 25 minutos.
Compressed Skill
Esse funciona na direção oposta. Em vez de comprimir output, ele comprime input — pegando seus arquivos de configuração em linguagem natural (como CLAUDE.md, system prompts ou definições de skills) e reescrevendo-os em estilo caveman. O objetivo: reduzir os custos de input tokens em toda interação, encolhendo o contexto que carrega antes do seu primeiro prompt.
Compressão típica: cerca de 46% de redução em input tokens para arquivos de linguagem natural. Se seu CLAUDE.md tem 500 linhas de instruções cuidadosamente escritas, a versão comprimida entrega as mesmas restrições em aproximadamente 270 linhas de diretivas concisas. O modelo entende ambas as versões igualmente bem — ele não precisa que suas instruções sejam gramaticalmente polidas.
Os Números do Benchmark: O Que Eu Encontrei em 10 Prompts
É aqui que a maioria dos artigos sobre Caveman peca. Eles citam os números de manchete sem mostrar a metodologia ou o contexto. Eu rodei 10 prompts diversos pelo Claude Code em três configurações: baseline (sem instruções sobre brevidade), baseline com uma instrução "Be concise", e baseline com o skill Caveman completo carregado.
Os prompts abrangeram tarefas de explicação, perguntas de debugging, decisões de arquitetura e requisições de geração de código — o tipo de trabalho que eu realmente faço diariamente.
Resultados de Output Tokens
| Configuração | Contagem de Output Tokens | Redução vs. Baseline |
|---|---|---|
| Baseline Claude Code | 100% (referência) | — |
| Claude Code + "Be concise" | 61% | 39% de redução |
| Claude Code + Caveman | 55% | 45% de redução |
O Caveman skill superou uma simples instrução "Be concise" em 6 pontos percentuais. Essa diferença importa em escala, mas vale notar: apenas dizer ao modelo para ser conciso te leva a maior parte do caminho. As regras estruturadas do skill Caveman — os elementos específicos removidos, o padrão de output, as substituições por sinônimos curtos — espremem a compressão restante que uma instrução genérica não alcança.
A Matemática de Custos Que Surpreende as Pessoas
É aqui que a história fica mais nuançada do que a manchete sugere. Output tokens são mais caros por token do que input tokens em todo LLM importante. Mas o skill Caveman em si adiciona à sua contagem de input tokens — você está carregando um arquivo markdown com regras e padrões em toda sessão.
Cenário de prompt único:
| Componente de Custo | Baseline | Com Caveman |
|---|---|---|
| Custo de input tokens | Fração de centavo | ~4 centavos (arquivo do skill carregado) |
| Custo de output tokens | ~8 centavos | ~4 centavos |
| Total | ~8 centavos | ~8 centavos |
Para um prompt único e isolado, o Caveman é aproximadamente neutro em custo — possivelmente até 10% mais caro quando você considera o arquivo do skill carregado. A economia de output é consumida pela sobrecarga de input.
Essa é a descoberta que confunde as pessoas. Se você está fazendo perguntas pontuais, o skill Caveman não economiza dinheiro. Pode custar uma fração a mais.
Cenário de prompts seguidos (onde o Caveman brilha):
O cache de prompts muda a equação. Após o primeiro prompt, seu provedor de LLM faz cache do contexto do sistema — incluindo o arquivo do skill Caveman. Prompts seguintes não pagam o custo total de input novamente. A economia de output se acumula a cada turno subsequente.
Com cache de prompts ativo ao longo de múltiplas perguntas de acompanhamento, o Caveman alcança aproximadamente 39% de economia total de custos comparado ao baseline. Isso não é só output tokens — é custo total incluindo sobrecarga de input, amortizado ao longo de uma conversa real.
A conclusão: os benefícios de custo do Caveman são dependentes da duração da sessão. Interações curtas com um ou dois prompts? Economia marginal ou negativa. Sessões estendidas com cinco, dez, vinte acompanhamentos? Economia significativa que se acumula.
E se você é o tipo de desenvolvedor que roda Claude ou Codex em sessões estendidas — construindo features, debugando entre arquivos, iterando em arquitetura — você é exatamente o perfil de usuário onde o Caveman se paga muitas vezes. Para o panorama completo de otimização de custos incluindo roteamento de modelos e gerenciamento de contexto, eu escrevi uma análise completa no meu guia de otimização de custos de agentes IA.
Por Que Menos Tokens Na Verdade Significa Respostas Melhores
A história de custos é convincente, mas não é a parte mais importante. A história de precisão é.
Um estudo de 2024 descobriu que restringir respostas de LLMs para serem breves melhorou a precisão em 26% em benchmarks específicos. Esse número soou limpo demais para acreditar, então eu mergulhei no artigo de março de 2026 que expandiu essa descoberta — "Brevity Constraints Reverse Performance Hierarchies in Language Models".
Os pesquisadores avaliaram 31 modelos open-weight variando de 0,5 bilhão a 405 bilhões de parâmetros. Eles testaram em 1.485 problemas abrangendo cinco conjuntos de dados de benchmark cobrindo raciocínio matemático e conhecimento científico.
Aqui está o que eles encontraram que quebrou minhas suposições.
Em 7,7% dos problemas de benchmark, modelos maiores tiveram desempenho inferior aos menores em até 28,4 pontos percentuais. Um modelo de 2 bilhões de parâmetros superando um modelo de 400 bilhões de parâmetros. Não em casos extremos — em benchmarks padrão.
O mecanismo que eles identificaram: verbosidade espontânea dependente de escala. Modelos maiores divagam mais. E divagar introduz erros através do que os pesquisadores chamam de "overelaboration". O modelo não apenas responde a pergunta — ele elabora, hesita, qualifica, explora tangentes, adiciona ressalvas. Em algum ponto dessa cadeia verbosa de raciocínio, ele se convence da resposta errada.
A correlação bruta que encontraram foi impressionante: a contagem de tokens tem uma correlação média de r = -0,59 com a precisão. Conforme o modelo gera mais texto, ele se torna mais propenso a estar errado.
Quando aplicaram restrições de brevidade — essencialmente dizendo ao modelo para ser breve — a precisão dos modelos grandes saltou 26 pontos percentuais nesses benchmarks problemáticos. A diferença de desempenho entre modelos grandes e pequenos encolheu em até dois terços.
Os modelos grandes não eram menos capazes. Eles eram verbosos demais para acessar suas próprias capacidades.
Essa é a base de pesquisa que transforma o Caveman de um truque divertido de economia de tokens em uma ferramenta legítima de precisão. Quando você instala o Caveman e diz ao Claude para eliminar palavras de preenchimento, você não está apenas economizando dinheiro. Você está removendo o mecanismo que causa erros de overelaboration. Você está eliminando a hesitação que permite ao modelo vacilar em vez de se comprometer com uma resposta.
Eu testei isso diretamente. Sem o Caveman, as respostas do Claude à minha pergunta sobre autenticação incluíam frases como "vale notar" e "você pode querer considerar" — linguagem de hesitação que sinaliza incerteza. Com o Caveman, essas hesitações desapareceram. O que restou foi uma resposta direta e comprometida. E na minha experiência ao longo de semanas de uso, as respostas diretas estavam certas com mais frequência.
É contraintuitivo a ponto de ser desconfortável. Passamos anos treinando IA para soar reflexiva, nuançada e completa. Acontece que, pelo menos para trabalho técnico, esse treinamento degrada ativamente a qualidade do output.
Como Configurar o Caveman em Toda Sua Stack de LLM
O Caveman skill começou como um plugin do Claude Code, mas funciona com mais de 40 agentes de IA agora — incluindo Codex, Gemini CLI, Cursor, Windsurf, GitHub Copilot, Cline e mais. Um comando. Pronto.
Passo 1: Instale Para Seu Agente
Escolha seu agente e rode o comando correspondente:
| Agente | Comando de Instalação |
|---|---|
| Claude Code | claude plugin marketplace add JuliusBrussee/caveman && claude plugin install caveman@caveman |
| Codex | Clone o repo em /plugins → Procure "Caveman" → Instale |
| Gemini CLI | gemini extensions install https://github.com/JuliusBrussee/caveman |
| Cursor | npx skills add JuliusBrussee/caveman -a cursor |
| Windsurf | npx skills add JuliusBrussee/caveman -a windsurf |
| GitHub Copilot | npx skills add JuliusBrussee/caveman -a github-copilot |
| Cline | npx skills add JuliusBrussee/caveman -a cline |
| Qualquer outro agente | npx skills add JuliusBrussee/caveman |
Instale uma vez. Use em toda sessão para aquele alvo de instalação depois disso. Uma pedra. Só isso.
Auto-ativação importa. Claude Code, Codex e Gemini CLI auto-ativam o Caveman em toda sessão — Claude Code usa hooks de SessionStart (configurados automaticamente via instalação do plugin), Codex vem com .codex/hooks.json, e Gemini CLI o detecta através do arquivo de contexto GEMINI.md. Para Cursor, Windsurf, Cline e Copilot, npx skills add instala o arquivo do skill mas não configura hooks de auto-start. Você precisará dizer "use caveman mode" em cada sessão ou colar este snippet always-on no seu system prompt:
Terse like caveman. Technical substance exact. Only fluff die. Drop: articles, filler
(just/really/basically), pleasantries, hedging. Fragments OK. Short synonyms. Code unchanged.
Pattern: [thing] [action] [reason]. [next step]. ACTIVE EVERY RESPONSE. No revert after many
turns. No filler drift. Code/commits/PRs: normal. Off: 'stop caveman' / 'normal mode'.
Hooks standalone (sem o plugin): Se você preferir não instalar o plugin completo no Claude Code, pode instalar apenas os hooks:
# macOS / Linux / WSL
bash <(curl -s https://raw.githubusercontent.com/JuliusBrussee/caveman/main/hooks/install.sh)
# Windows PowerShell
irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/hooks/install.ps1 | iex
Passo 2: Ative Sua Intensidade Preferida
No Claude Code ou Gemini CLI, use /caveman seguido do nível:
/caveman lite # Compressão legível, mantém estrutura de frases
/caveman full # Padrão — fragmentos, sem artigos, máximo sinal
/caveman ultra # Modo telegrama, mínimo absoluto de tokens
Modos Wenyan também estão disponíveis — /caveman wenyan-lite, /caveman wenyan e /caveman wenyan-ultra — para desenvolvedores que conseguem ler chinês clássico e querem compressão máxima. Os modos persistem até o fim da sessão ou mudança explícita.
No Codex, o equivalente é $caveman. Para agentes sem suporte a slash commands (Cline, Copilot), frases de ativação funcionam naturalmente na conversa: "talk like caveman", "use caveman mode" ou "less tokens please".
Suporte a features varia por agente:
| Feature | Claude Code | Codex | Gemini CLI | Cursor | Windsurf | Cline | Copilot |
|---|---|---|---|---|---|---|---|
| Modo Caveman | Sim | Sim | Sim | Sim | Sim | Sim | Sim |
| Auto-ativar toda sessão | Sim | Sim | Sim | Manual | Manual | Manual | Manual |
Comando /caveman |
Sim | $caveman |
Sim | — | — | — | — |
| Troca de modo (lite/full/ultra) | Sim | Sim | Sim | Sim | Sim | — | — |
| Badge na statusline | Sim | — | — | — | — | — | — |
Passo 3: Escolha Sua Intensidade Baseada na Tarefa
É aqui que a maioria dos usuários erra. Eles escolhem uma intensidade e ficam nela para tudo. Combine o modo com o trabalho:
Modo lite para:
- Gerar documentação que outros humanos vão ler
- Escrever mensagens de commit que vão para changelogs compartilhados
- Qualquer output que você vai colar em uma mensagem do Slack ou email
Modo full para:
- Sessões ativas de código (construção de features, refatoração, debugging)
- Code reviews onde você é o único leitor
- Discussões de arquitetura onde precisa de respostas rápidas
- Qualquer coisa onde o output é primariamente código com explicações
Modo ultra para:
- Tarefas repetitivas com formatos de output previsíveis
- Verificações rápidas de status e lookups
- Tarefas onde você precisa de uma resposta sim/não ou valor único
- Operações em lote onde você está processando muitas requisições similares
Passo 4: Comprima Seus Arquivos de Contexto
A extensão caveman-compress reescreve seus arquivos de configuração em linguagem natural — CLAUDE.md, system prompts, definições de skills — em estilo caveman comprimido, cortando aproximadamente 46% dos input tokens do seu contexto persistente. Ela preserva os originais como backups .original.md para que você nunca perca a versão legível por humanos. O modelo entende instruções comprimidas tão bem quanto as verbosas.
Dica importante: Mesmo com o backup automático, eu mantenho uma cópia .human separada de todo arquivo comprimido para poder fazer alterações em formato legível e recomprimir. Editar instruções em estilo caveman conciso quando você precisa adicionar uma nova regra é mais difícil do que editar prosa normal.
Passo 5: Desative Quando Necessário
stop caveman
Ou simplesmente diga "normal mode". A troca é instantânea. Eu desligo o caveman aproximadamente 3-4 vezes por dia — sempre pelos mesmos motivos: explicar algo para um colaborador, escrever documentação ou debugar um problema multi-arquivo onde preciso que o Claude mostre sua cadeia completa de raciocínio.
Se você preferir que alguém construa toda essa configuração — configuração do Caveman, otimização personalizada do CLAUDE.md, roteamento de modelos e gerenciamento de custos de agentes — do zero para seu workflow, eu aceito exatamente esse tipo de projeto em fiverr.com/s/EgxYmWD.
Onde o Caveman Falha — A Avaliação Honesta
Eu tenho rodado o Caveman em várias intensidades por semanas, e existem modos de falha claros que o hype não menciona.
A armadilha de input tokens em conversas curtas. Eu cobri isso na seção de custos, mas vale repetir porque é a pegadinha mais comum. Se sua interação típica é um prompt e uma resposta, a sobrecarga de input do Caveman (carregar o arquivo do skill) pode fazer você gastar mais do que o baseline. A economia só se materializa em sessões multi-turno onde o cache de prompts amortiza o custo de input. Para perguntas isoladas e pontuais, uma simples instrução "Be concise" no seu system prompt te dá 39% de redução de output com zero sobrecarga de input.
Debugging de problemas complexos multi-arquivo. Quando um bug atravessa quatro arquivos e três serviços, eu preciso que o Claude percorra sua cadeia de raciocínio. Por que ele olhou neste arquivo primeiro? O que eliminou as outras possibilidades? O Caveman elimina o tecido conectivo de raciocínio que torna esse percurso compreensível. Para debugging complexo, eu troco para o modo normal toda vez.
Onboarding e transferência de conhecimento. Se você está usando o Claude para gerar explicações para desenvolvedores juniores ou colegas de equipe não familiarizados com o codebase, o output do caveman é comprimido demais. As palavras de conexão que o caveman elimina — "porque", "o que significa que", "portanto" — são exatamente as palavras que ajudam leitores menos experientes a seguir a cadeia lógica.
Modo Wenyan é uma curiosidade, não uma ferramenta. Para a grande maioria dos desenvolvedores, output em chinês clássico é ilegível. É uma demonstração impressionante do potencial de compressão e um experimento divertido, mas a menos que você seja fluente em chinês literário, ele fica na categoria de "truque de festa interessante".
O número de 45% precisa de contexto. Essa redução de 45% no output se aplica a respostas em prosa — o texto explicativo entre blocos de código. Como blocos de código e chamadas de ferramentas ficam intocados (corretamente), a redução real em uma sessão completa de código é menor. Dependendo de quão intensivo em código seu workflow é, a economia real da sessão fica mais perto de 15-25% no output total. Ainda significativo. Só não é 45% da sua conta inteira.
Nenhum desses é um impedimento. São limites. O skill é genuinamente útil dentro desses limites e genuinamente contraproducente fora deles. Saber onde está a linha importa mais do que fingir que ela não existe.
O Efeito Composto: O Que Muda em Um Mês
Deixe-me dar a matemática que realmente importa — não economia por prompt, mas como um mês de Caveman se parece para alguém que usa LLMs intensivamente.
Meu uso gira em torno de $200/mês entre sessões de Claude e Codex. Eu faço em média 30-40 tarefas por dia em sessões estendidas de código, com a maioria das sessões tendo 10-20 prompts de acompanhamento.
Economia direta de output tokens: Aproximadamente 20-25% de redução no total de output tokens da sessão (considerando que blocos de código ficam intocados). No meu nível de uso, isso é $15-20/mês.
Economia indireta por menos turnos: Nos meus testes, respostas do Caveman exigiram 0,6 menos turnos de acompanhamento por tarefa em média. Com 35 tarefas diárias, isso é aproximadamente 21 turnos a menos por dia. Cada turno custa aproximadamente 2.000-3.000 tokens. Ao longo de um mês, isso são mais 1,2-1,8 milhão de tokens economizados — empurrando a economia total para mais perto de $25-30/mês.
Tempo economizado lendo menos preenchimento: Respostas concisas são escaneadas mais rápido. Eu estimo 15-20 minutos economizados diariamente por não ler texto de preenchimento. Isso são 7-10 horas por mês. Meu valor hora torna essas horas muito mais valiosas do que a economia de tokens.
Melhoria de precisão: Seguindo os padrões da pesquisa, eu vi aproximadamente 5-7% de melhoria na taxa de sucesso na primeira tentativa em tarefas de código com o Caveman ativo. Menos primeiras tentativas falhas significa menos ciclos de correção, que significa menos tokens e menos tempo.
Impacto mensal combinado: Aproximadamente $25-30 em economia direta de tokens, 7-10 horas de tempo recuperado e mensuravelmente menos ciclos de correção. Para uma ferramenta que leva um comando para instalar e zero esforço contínuo.
Esses números não parecem dramáticos em um único dia. Ao longo de um ano, são $300+ em economia de tokens e 100+ horas de tempo. De um comando npm.
Para desenvolvedores rodando múltiplos agentes ou gerenciando equipes onde várias pessoas usam ferramentas baseadas em LLM diariamente, multiplique esses números de acordo. Uma organização rodando equipes de agentes Claude Code com cinco desenvolvedores veria $1.500+ em economia anual de tokens e 500+ horas de tempo de leitura recuperado. É quando um skill gratuito do GitHub começa a parecer uma otimização operacional legítima.
O Princípio Que Sobrevive à Ferramenta
O Caveman skill eventualmente se tornará desnecessário. A Anthropic e a OpenAI estão ambas cientes do problema de verbosidade — a documentação da Anthropic sobre gerenciamento de custos do Claude Code já recomenda prompts concisos como uma alavanca primária de custos. Mais cedo ou mais tarde, os modelos virão com brevidade padrão calibrada para contextos técnicos. A pesquisa é clara demais para ignorar. Quando uma abordagem de treinamento comprovadamente reduz a precisão ao encorajar verbosidade, corrigi-la no nível do modelo se torna um imperativo econômico.
Mas o princípio por trás do Caveman — que concisão melhora precisão, que restrições de brevidade combatem overelaboration induzida por RLHF, que menos tokens podem significar respostas melhores — esse princípio vai sobreviver a toda ferramenta específica construída sobre ele.
Aqui está o que eu comecei a fazer mesmo sem o Caveman ativado. Eu mudei como escrevo todo system prompt, todo arquivo CLAUDE.md, toda instrução de agente. Eu padrão para conciso. Elimino linguagem de hesitação dos meus próprios prompts. Especifico restrições de formato de output que impedem o modelo de inflar suas respostas. E a diferença de qualidade é perceptível em todo modelo que uso.
Se você não levar mais nada deste artigo, leve isto: adicione uma linha a qualquer configuração de sistema que você usa com seu LLM.
Be concise. No filler. No hedging. State conclusions first, reasoning second.
Essa única instrução, respaldada por pesquisa mostrando uma correlação de -0,59 entre contagem de tokens e precisão, vai melhorar seus outputs no Claude, GPT, Codex, Gemini — qualquer modelo sofrendo do viés universal de verbosidade do RLHF. Você não precisa do Caveman skill para se beneficiar do princípio Caveman.
Mas se você quer a compressão completa, os modos de intensidade, as extensões de commit e review, e a ferramenta de compressão de arquivos de input? O skill está a um comando de distância. E todo prompt depois do primeiro fica mais barato.
O token mais caro não é o que está na sua conta. É o que introduziu o erro que você passou vinte minutos rastreando — enterrado em uma hesitação, envolto em uma qualificação, escondido dentro de uma resposta verbosa que soava confiante e completa e estava silenciosamente, custosamente errada.
Perguntas Frequentes
O Caveman skill funciona com outros LLMs além do Claude?
Sim. Embora o Caveman tenha começado como um plugin do Claude Code, ele funciona com mais de 40 agentes de IA incluindo Codex, Gemini CLI, Cursor, Windsurf, GitHub Copilot e Cline. Claude Code, Codex e Gemini CLI têm suporte completo a auto-ativação. Para o Claude Code especificamente: claude plugin marketplace add JuliusBrussee/caveman && claude plugin install caveman@caveman. Para outros agentes: npx skills add JuliusBrussee/caveman -a [agent-name].
Quanto o Caveman realmente reduz os custos totais de LLM?
Para prompts únicos, a economia é marginal ou levemente negativa devido à sobrecarga de input tokens ao carregar o arquivo do skill. Para sessões multi-turno com cache de prompts, a economia total de custos alcança aproximadamente 39%. Sessões reais de código tipicamente veem 15-25% de redução total de output já que blocos de código permanecem intocados. Para o panorama completo de otimização de custos, veja meu guia de otimização de custos de agentes IA.
Tornar LLMs menos verbosos pode realmente melhorar a precisão?
Um artigo de março de 2026 avaliou 31 modelos em 1.485 problemas e descobriu que restrições de brevidade melhoraram a precisão de modelos grandes em 26 pontos percentuais em benchmarks onde a verbosidade causava erros. O mecanismo — verbosidade espontânea dependente de escala — faz com que modelos maiores elaborem demais e introduzam erros através de hesitação excessiva e raciocínio tangencial.
O que é o modo Wenyan no Caveman skill?
O modo Wenyan gera respostas em caracteres chineses clássicos, a língua escrita mais eficiente em tokens que os humanos criaram. Ele serve como um modo de compressão máxima para desenvolvedores bilíngues que conseguem ler chinês literário. Para a maioria dos desenvolvedores que falam português ou inglês, é uma demonstração fascinante dos limites de compressão em vez de uma ferramenta prática do dia a dia.
Existe uma alternativa mais simples ao Caveman skill completo?
Adicione isso ao seu system prompt ou CLAUDE.md: "Be concise. No filler. No hedging. State conclusions first, reasoning second." Isso alcança aproximadamente 39% de redução de output tokens comparado aos 45% do Caveman, com benefícios de precisão quase idênticos e zero sobrecarga de input tokens. O skill completo adiciona regras estruturadas, níveis de intensidade e ferramentas complementares que espremem a compressão restante.
Vamos Trabalhar Juntos
Quer construir sistemas de IA, automatizar workflows ou escalar sua infraestrutura tech? Adoraria ajudar.
- Fiverr (builds customizados e integrações): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (soluções enterprise): ramlit.com
- ColorPark (design e branding): colorpark.io
- xCyberSecurity (serviços de segurança): xcybersecurity.io