Caveman Skill para LLMs: 45% Menos Tokens, Output Más Preciso
Estaba viendo cómo mi factura de tokens subía un martes por la tarde — tres sesiones de Claude abiertas, una tarea de Codex ejecutándose en segundo plano, los output tokens acumulándose como un taxímetro que no podía apagar — cuando un amigo me envió un enlace a un repositorio de GitHub con 589 estrellas y un eslogan robado de The Office: "¿Para qué perder tiempo decir muchas palabras cuando pocas palabras funcionan?"
Mi primer instinto fue cerrar la pestaña. Ya había visto prompts novedosos antes. Trucos que funcionan una vez en una demo y se desmoronan en cuanto les lanzas trabajo real. Pero este tenía tablas de benchmarks. Números reales. Una reducción del 45% en output tokens en 10 prompts probados, con el modelo manteniendo total precisión técnica.
Así que dejé lo que estaba haciendo y ejecuté las pruebas yo mismo. Lo que encontré no era un truco. El Caveman skill es un enfoque estructurado para un problema que les cuesta dinero real a los desarrolladores cada día — el hecho de que los modelos de lenguaje grandes están entrenados para ser verbosos, y esa verbosidad no solo es cara. Está haciendo que tu IA sea más tonta.
No es una exageración. Un estudio de investigación de 2024 encontró que restringir las respuestas de los LLM a ser breves mejoró la precisión en un 26% en benchmarks específicos. Y un artículo de marzo de 2026 en arXiv fue más allá, evaluando 31 modelos en 1,485 problemas y descubriendo que los modelos más grandes a veces rinden peor que los más pequeños — específicamente porque divagan demasiado.
El Caveman skill es una respuesta directa y práctica a esa investigación. Y funciona en Claude, Codex y docenas de otros agentes impulsados por LLMs. Aquí está lo que realmente hace, lo que cuesta y cuándo deberías (y no deberías) usarlo.
El Problema que Caveman Resuelve — Y Por Qué Existe
Todos los LLM principales vienen con la misma aflicción: cortesía entrenada. Pregúntale a Claude sobre autenticación en una app Next.js, y obtendrás una respuesta bien estructurada con palabras de relleno, guiones largos, frases de cobertura ("podrías considerar..."), y tres párrafos donde uno bastaría. Hazle la misma pregunta a GPT-4 y obtendrás una respuesta igualmente inflada con un sabor ligeramente diferente.
Esto no es una funcionalidad. Es un efecto secundario de cómo aprenden estos modelos.
Reinforcement Learning from Human Feedback (RLHF) — la técnica detrás de casi todos los LLM comerciales importantes — tiene un sesgo documentado hacia la longitud. Los anotadores humanos consistentemente califican las respuestas más largas como de mayor calidad, incluso cuando la respuesta más corta es más precisa. El modelo internaliza esa señal: más largo es igual a mejor. Más cobertura es igual a más reflexivo. Más palabras es igual a más útil.
La investigación de OpenReview documenta este sesgo sistemático. El modelo de recompensa aprende a optimizar por longitud, no por corrección. Y cuanto más grande es el modelo, más profundo es este patrón — los modelos más grandes tienen más parámetros dedicados a generar prosa elaborada y fluida, por lo que se vuelven más verbosos a medida que escalan.
¿El resultado? Estás pagando por tokens que perjudican activamente la calidad de tu output. Cada cobertura, cada "vale la pena señalar que", cada "podrías considerar" es un token que cuesta dinero y una oportunidad para que el modelo se convenza a sí mismo de dar la respuesta equivocada.
Caveman elimina todo eso. Sin artículos (un, una, el, la). Sin palabras de relleno. Sin cortesías. Sin cobertura. Lo que queda es señal pura: términos técnicos, bloques de código, mensajes de error y conclusiones directas.
La estructura que impone es brutal en su simplicidad: cosa, acción, razón, siguiente paso. Eso es todo. Cada respuesta sigue ese patrón, y la compresión es dramática.
Cómo se Ve Realmente el Modo Caveman
Aquí hay una comparación lado a lado que muestra la diferencia mejor que cualquier explicación.
Le pedí a Claude que explicara el flujo de autenticación en una aplicación demo de Next.js.
Sin Caveman (respuesta estándar de Claude):
"El sistema de autenticación en esta aplicación usa NextAuth.js con una estrategia JWT. Cuando un usuario intenta iniciar sesión, el proveedor de credenciales valida el correo electrónico y la contraseña contra la base de datos. Si tiene éxito, se genera un JSON Web Token y se almacena en una cookie HTTP-only. El callback de sesión entonces enriquece el token con el rol y el ID del usuario, que se hacen disponibles en toda la aplicación a través del hook useSession. Vale la pena señalar que el archivo middleware.ts maneja la protección de rutas verificando sesiones válidas antes de permitir el acceso a páginas protegidas."
Con Caveman (modo full):
"Auth: NextAuth.js + JWT. Credentials provider checks email/pwd against DB. Success = JWT in httpOnly cookie. Session callback adds role + ID to token. useSession hook exposes everywhere. middleware.ts guards protected routes — no valid session, no access."
La misma información. La misma precisión técnica. Aproximadamente la mitad de tokens. Y — esta es la parte que me sorprendió — la versión Caveman es realmente más fácil de leer. No hay sobrecarga cognitiva filtrando el tejido conectivo para encontrar la sustancia técnica. La sustancia es todo lo que hay.
Esa comparación rápida captura la filosofía, pero Caveman va más allá de una sola demo. Viene con todo un sistema de niveles de intensidad, modos especializados y herramientas complementarias que convierten la compresión de tokens de un truco de salón en una optimización real de flujo de trabajo.
El Sistema Completo de Modos: De Lite a Wenyan
Caveman no es un solo ajuste. Es un espectro, y elegir el punto correcto en ese espectro importa más de lo que la mayoría de usuarios se dan cuenta.
Modo Lite
Elimina el relleno más obvio — "creo que," "podrías querer," "es importante señalar" — pero mantiene oraciones gramaticalmente completas. Legible por cualquiera. El ahorro en output tokens ronda el 20-25% en prosa.
Este es tu punto de partida si compartes el output de Claude con compañeros de equipo o clientes que no firmaron para comunicación estilo telegrama. La compresión es modesta pero la compensación en legibilidad es mínima.
Modo Full (Predeterminado)
Aquí es donde Caveman se gana su nombre. Los artículos desaparecen. Las oraciones se convierten en fragmentos. Los sinónimos cortos reemplazan a los largos — "grande" en lugar de "extenso", "arreglar" en lugar de "implementar una solución", "rápido" en lugar de "con latencia mínima". El output se lee como notas de alguien que escribe más rápido de lo que puede terminar las oraciones.
Ahorro en output tokens: aproximadamente 45% en respuestas de prosa. Este es el punto óptimo al que sigo volviendo. La precisión técnica se mantiene intacta. Los bloques de código no se tocan. No pierdes nada excepto palabras que ya estabas saltando al leer.
Modo Ultra
Máximamente conciso. Casi telegráfico. Cada palabra que puede eliminarse, se elimina. El output parece notas abreviadas que garabatearías en una pizarra durante una sesión de depuración a las 2 AM.
El ahorro en output tokens empuja hacia el 60-75% en prosa. La compensación es real — los outputs en modo ultra pueden ser difíciles de interpretar si no estás ya inmerso en el contexto de lo que preguntaste. Lo uso para tareas repetitivas donde sé exactamente qué formato debería tener la respuesta. Para cualquier cosa exploratoria, el modo full es más práctico.
Modo Wenyan
Este es el comodín. El modo Wenyan genera respuestas usando caracteres chinos clásicos — el lenguaje literario que impulsó la erudición china durante más de dos mil años. El chino clásico es posiblemente el lenguaje escrito más denso en información que los humanos hayan creado. Un solo carácter puede expresar lo que en español requiere una cláusula entera.
¿Es práctico para la mayoría de los desarrolladores? No. La mayoría de nosotros no podemos leer chino clásico. Pero el modo Wenyan sirve como una prueba de estrés fascinante para la compresión, y para desarrolladores bilingües que pueden leerlo, el ahorro de tokens es extremo. También es un recordatorio de que el problema de la verbosidad es fundamentalmente un problema de codificación del lenguaje — y hay sistemas de codificación que lo resolvieron siglos antes de que existiera la tokenización BPE.
Extensiones Especializadas de Caveman
El skill base maneja respuestas generales. Las extensiones manejan flujos de trabajo específicos donde el ahorro de tokens se acumula aún más.
Caveman Commit
Genera mensajes de commit concisos en formato convencional. Las líneas de asunto se mantienen por debajo de 50 caracteres. El formato sigue los estándares de commits convencionales (feat:, fix:, refactor:) pero elimina cada palabra innecesaria.
Mensaje de commit normal: "fix: implement a solution to handle the case where user authentication tokens expire during an active session"
Caveman commit: "fix: handle expired auth tokens mid-session"
Mismo significado. La mitad de caracteres. Y honestamente, la versión caveman es un mejor mensaje de commit por cualquier estándar — los mensajes de commit deberían poder escanearse rápidamente, y la brevedad sirve a ese objetivo de forma natural.
Caveman Review
Produce comentarios de revisión de código de una línea por hallazgo. El formato es compacto: número de línea, emoji de severidad, categoría, hallazgo, recomendación. Sin preámbulos.
Comentario de revisión normal: "En la línea 42, noté que no estás verificando si el objeto usuario es null antes de acceder a la propiedad name. Esto podría potencialmente llevar a un TypeError en producción. Recomendaría agregar una verificación de null aquí."
Caveman review: "L42: 🔴 bug: user null. Add guard."
Cinco palabras en lugar de treinta y ocho. El mismo valor diagnóstico. Cuando estás revisando un PR con 40 hallazgos, la diferencia entre leer 40 comentarios de una línea versus 40 párrafos de múltiples oraciones es la diferencia entre una revisión de 5 minutos y una de 25 minutos.
Compressed Skill
Este funciona en la dirección opuesta. En lugar de comprimir el output, comprime el input — toma tus archivos de configuración en lenguaje natural (como CLAUDE.md, system prompts o definiciones de skills) y los reescribe en estilo caveman. El objetivo: reducir los costos de input tokens en cada interacción al reducir el contexto que se carga antes de tu primer prompt.
Compresión típica: alrededor de 46% de reducción en input tokens para archivos en lenguaje natural. Si tu CLAUDE.md tiene 500 líneas de instrucciones cuidadosamente escritas, la versión comprimida entrega las mismas restricciones en aproximadamente 270 líneas de directivas concisas. El modelo entiende ambas versiones igual de bien — no necesita que tus instrucciones estén gramaticalmente pulidas.
Los Números del Benchmark: Lo que Encontré en 10 Prompts
Aquí es donde la mayoría de artículos sobre Caveman se ponen descuidados. Citan las cifras del titular sin mostrar la metodología ni el contexto. Ejecuté 10 prompts diversos a través de Claude Code en tres configuraciones: línea base (sin instrucciones de brevedad), línea base con una instrucción "Sé conciso", y línea base con el skill Caveman completo cargado.
Los prompts abarcaron tareas de explicación, preguntas de depuración, decisiones de arquitectura y solicitudes de generación de código — el tipo de trabajo que realmente hago a diario.
Resultados de Output Tokens
| Configuración | Conteo de Output Tokens | Reducción vs. Línea Base |
|---|---|---|
| Claude Code línea base | 100% (referencia) | — |
| Claude Code + "Sé conciso" | 61% | 39% de reducción |
| Claude Code + Caveman | 55% | 45% de reducción |
El skill Caveman superó a una simple instrucción "Sé conciso" por 6 puntos porcentuales. Esa diferencia importa a escala, pero vale la pena señalar: simplemente decirle al modelo que sea conciso te lleva la mayor parte del camino. Las reglas estructuradas del skill Caveman — los elementos específicos eliminados, el patrón de output, los reemplazos de sinónimos cortos — exprimen la compresión restante que una instrucción genérica no alcanza.
Las Matemáticas del Costo que Sorprenden a la Gente
Aquí es donde la historia se vuelve más matizada de lo que sugiere el titular. Los output tokens son más caros por token que los input tokens en todos los LLM principales. Pero el skill Caveman en sí mismo suma a tu conteo de input tokens — estás cargando un archivo markdown con reglas y patrones en cada sesión.
Escenario de un solo prompt:
| Componente de Costo | Línea Base | Con Caveman |
|---|---|---|
| Costo de input tokens | Fracción de centavo | ~4 centavos (archivo del skill cargado) |
| Costo de output tokens | ~8 centavos | ~4 centavos |
| Total | ~8 centavos | ~8 centavos |
Para un prompt único y aislado, Caveman es aproximadamente neutral en costos — posiblemente incluso un 10% más caro cuando consideras el archivo del skill cargado. Los ahorros en output se los come la sobrecarga del input.
Este es el hallazgo que confunde a la gente. Si estás ejecutando preguntas aisladas, el skill Caveman no te ahorra dinero. Podría costar una fracción más.
Escenario de prompts de seguimiento (donde Caveman brilla):
El almacenamiento en caché de prompts cambia la ecuación. Después del primer prompt, tu proveedor de LLM cachea el contexto del sistema — incluyendo el archivo del skill Caveman. Los prompts de seguimiento no pagan el costo total de input nuevamente. Los ahorros en output se acumulan en cada turno subsiguiente.
Con el almacenamiento en caché de prompts activo a lo largo de múltiples preguntas de seguimiento, Caveman logra aproximadamente un 39% de ahorro total en costos comparado con la línea base. Eso no es solo output tokens — es el costo total incluyendo la sobrecarga del input, amortizado a lo largo de una conversación real.
La conclusión: los beneficios de costo de Caveman dependen de la duración de la sesión. ¿Interacciones cortas con uno o dos prompts? Ahorros marginales o negativos. ¿Sesiones extendidas con cinco, diez, veinte seguimientos? Ahorros significativos que se acumulan.
Y si eres el tipo de desarrollador que ejecuta Claude o Codex en sesiones extendidas — construyendo funcionalidades, depurando entre archivos, iterando sobre arquitectura — eres exactamente el perfil de usuario donde Caveman se paga solo muchas veces. Para el panorama completo de optimización de costos incluyendo enrutamiento de modelos y gestión de contexto, he escrito un desglose completo en mi guía de optimización de costos de agentes IA.
Por Qué Menos Tokens Realmente Significa Mejores Respuestas
La historia del costo es convincente, pero no es la parte más importante. La historia de la precisión sí lo es.
Un estudio de 2024 encontró que restringir las respuestas de los LLM a ser breves mejoró la precisión en un 26% en benchmarks específicos. Ese número sonaba demasiado limpio para creerlo, así que investigué el artículo de marzo de 2026 que expandió este hallazgo — "Brevity Constraints Reverse Performance Hierarchies in Language Models".
Los investigadores evaluaron 31 modelos de pesos abiertos que iban desde 0.5 mil millones hasta 405 mil millones de parámetros. Probaron en 1,485 problemas abarcando cinco conjuntos de datos de benchmarks que cubrían razonamiento matemático y conocimiento científico.
Esto es lo que encontraron que rompió mis suposiciones.
En el 7.7% de los problemas del benchmark, los modelos más grandes rindieron peor que los más pequeños por hasta 28.4 puntos porcentuales. Un modelo de 2 mil millones de parámetros venciendo a uno de 400 mil millones. No en casos extremos — en benchmarks estándar.
El mecanismo que identificaron: verbosidad espontánea dependiente de la escala. Los modelos más grandes divagan más. Y divagar introduce errores a través de lo que los investigadores llaman "sobreelaboración". El modelo no solo responde la pregunta — elabora, se cubre, matiza, explora tangentes, agrega descargos de responsabilidad. En algún punto de esa cadena verbosa de razonamiento, se convence a sí mismo de dar la respuesta equivocada.
La correlación bruta que encontraron fue impactante: el conteo de tokens tiene una correlación promedio de r = -0.59 con la precisión. A medida que el modelo genera más texto, se vuelve más probable que esté equivocado.
Cuando aplicaron restricciones de brevedad — esencialmente diciéndole al modelo que lo mantenga corto — la precisión de los modelos grandes aumentó en 26 puntos porcentuales en esos benchmarks problemáticos. La brecha de rendimiento entre modelos grandes y pequeños se redujo hasta en dos tercios.
Los modelos grandes no eran menos capaces. Eran demasiado verbosos para acceder a sus propias capacidades.
Esta es la investigación que respalda la transformación de Caveman de un truco divertido para ahorrar tokens a una herramienta legítima de precisión. Cuando instalas Caveman y le dices a Claude que elimine las palabras de relleno, no solo estás ahorrando dinero. Estás eliminando el mecanismo que causa errores de sobreelaboración. Estás eliminando la cobertura que permite al modelo vacilar en lugar de comprometerse con una respuesta.
Lo probé directamente. Sin Caveman, las respuestas de Claude a mi pregunta sobre autenticación incluían frases como "vale la pena señalar" y "podrías considerar" — lenguaje de cobertura que señala incertidumbre. Con Caveman, esas coberturas desaparecieron. Lo que quedó fue una respuesta directa y comprometida. Y en mi experiencia a lo largo de semanas de uso, las respuestas directas fueron correctas con más frecuencia.
Es contraintuitivo hasta el punto de ser incómodo. Hemos pasado años entrenando a la IA para que suene reflexiva, matizada y exhaustiva. Resulta que, al menos para trabajo técnico, ese entrenamiento degrada activamente la calidad del output.
Cómo Configurar Caveman en Tu Stack de LLMs
El Caveman skill comenzó como un plugin de Claude Code, pero funciona en más de 40 agentes de IA ahora — incluyendo Codex, Gemini CLI, Cursor, Windsurf, GitHub Copilot, Cline y más. Un comando. Listo.
Paso 1: Instala para Tu Agente
Elige tu agente y ejecuta el comando correspondiente:
| Agente | Comando de Instalación |
|---|---|
| Claude Code | claude plugin marketplace add JuliusBrussee/caveman && claude plugin install caveman@caveman |
| Codex | Clonar repo en /plugins → Buscar "Caveman" → Instalar |
| Gemini CLI | gemini extensions install https://github.com/JuliusBrussee/caveman |
| Cursor | npx skills add JuliusBrussee/caveman -a cursor |
| Windsurf | npx skills add JuliusBrussee/caveman -a windsurf |
| GitHub Copilot | npx skills add JuliusBrussee/caveman -a github-copilot |
| Cline | npx skills add JuliusBrussee/caveman -a cline |
| Cualquier otro agente | npx skills add JuliusBrussee/caveman |
Instalar una vez. Usar en cada sesión para ese objetivo de instalación después de eso. Una piedra. Ya está.
La auto-activación importa. Claude Code, Codex y Gemini CLI auto-activan Caveman en cada sesión — Claude Code usa hooks SessionStart (configurados automáticamente vía instalación del plugin), Codex viene con .codex/hooks.json, y Gemini CLI lo detecta a través de su archivo de contexto GEMINI.md. Para Cursor, Windsurf, Cline y Copilot, npx skills add instala el archivo del skill pero no configura hooks de auto-inicio. Necesitarás decir "use caveman mode" en cada sesión o pegar este fragmento siempre-activo en tu system prompt:
Terse like caveman. Technical substance exact. Only fluff die. Drop: articles, filler
(just/really/basically), pleasantries, hedging. Fragments OK. Short synonyms. Code unchanged.
Pattern: [thing] [action] [reason]. [next step]. ACTIVE EVERY RESPONSE. No revert after many
turns. No filler drift. Code/commits/PRs: normal. Off: 'stop caveman' / 'normal mode'.
Hooks independientes (sin el plugin): Si prefieres no instalar el plugin completo en Claude Code, puedes instalar solo los hooks:
# macOS / Linux / WSL
bash <(curl -s https://raw.githubusercontent.com/JuliusBrussee/caveman/main/hooks/install.sh)
# Windows PowerShell
irm https://raw.githubusercontent.com/JuliusBrussee/caveman/main/hooks/install.ps1 | iex
Paso 2: Activa Tu Intensidad Preferida
En Claude Code o Gemini CLI, usa /caveman seguido del nivel:
/caveman lite # Compresión legible, mantiene estructura de oraciones
/caveman full # Predeterminado — fragmentos, sin artículos, máxima señal
/caveman ultra # Modo telegrama, mínimo absoluto de tokens
Los modos Wenyan también están disponibles — /caveman wenyan-lite, /caveman wenyan y /caveman wenyan-ultra — para desarrolladores que pueden leer chino clásico y quieren máxima compresión. Los modos persisten hasta el final de la sesión o un cambio explícito.
En Codex, el equivalente es $caveman. Para agentes sin soporte de comandos slash (Cline, Copilot), las frases de activación funcionan naturalmente en la conversación: "talk like caveman", "use caveman mode" o "less tokens please".
El soporte de funcionalidades varía por agente:
| Funcionalidad | Claude Code | Codex | Gemini CLI | Cursor | Windsurf | Cline | Copilot |
|---|---|---|---|---|---|---|---|
| Modo Caveman | Sí | Sí | Sí | Sí | Sí | Sí | Sí |
| Auto-activar cada sesión | Sí | Sí | Sí | Manual | Manual | Manual | Manual |
Comando /caveman |
Sí | $caveman |
Sí | — | — | — | — |
| Cambio de modo (lite/full/ultra) | Sí | Sí | Sí | Sí | Sí | — | — |
| Insignia en barra de estado | Sí | — | — | — | — | — | — |
Paso 3: Elige Tu Intensidad Según la Tarea
Aquí es donde la mayoría de usuarios se equivocan. Eligen una intensidad y la mantienen para todo. Adapta el modo al trabajo:
Modo Lite para:
- Generar documentación que otros humanos leerán
- Escribir mensajes de commit que van a changelogs compartidos
- Cualquier output que vayas a pegar en un mensaje de Slack o email
Modo Full para:
- Sesiones de codificación activas (construcción de funcionalidades, refactorización, depuración)
- Revisiones de código donde eres el único lector
- Discusiones de arquitectura donde necesitas respuestas rápidas
- Cualquier cosa donde el output es principalmente código con explicaciones
Modo Ultra para:
- Tareas repetitivas con formatos de output predecibles
- Verificaciones rápidas de estado y búsquedas
- Tareas donde necesitas una respuesta sí/no o de un solo valor
- Operaciones por lotes donde estás procesando muchas solicitudes similares
Paso 4: Comprime Tus Archivos de Contexto
La extensión caveman-compress reescribe tus archivos de configuración en lenguaje natural — CLAUDE.md, system prompts, definiciones de skills — en estilo caveman comprimido, eliminando aproximadamente el 46% de los input tokens de tu contexto persistente. Preserva los originales como respaldos .original.md para que nunca pierdas la versión legible por humanos. El modelo entiende las instrucciones comprimidas tan bien como las verbosas.
Consejo crítico: Incluso con el respaldo automático, mantengo una copia separada .human de cada archivo comprimido para poder hacer cambios en formato legible y re-comprimir. Editar instrucciones en estilo caveman conciso cuando necesitas agregar una nueva regla es más difícil que editar prosa normal.
Paso 5: Desactiva Cuando Sea Necesario
stop caveman
O simplemente di "normal mode". El cambio es instantáneo. Desactivo caveman aproximadamente 3-4 veces al día — siempre por las mismas razones: explicar algo a un colaborador, escribir documentación, o depurar un problema multi-archivo donde necesito que Claude muestre su cadena completa de razonamiento.
Si prefieres que alguien construya toda esta configuración — configuración de Caveman, optimización personalizada de CLAUDE.md, enrutamiento de modelos y gestión de costos de agentes — desde cero para tu flujo de trabajo, tomo exactamente ese tipo de proyectos en fiverr.com/s/EgxYmWD.
Donde Caveman Falla — La Evaluación Honesta
He estado ejecutando Caveman en varias intensidades durante semanas, y hay modos de fallo claros que el entusiasmo no menciona.
La trampa de input tokens en conversaciones cortas. Cubrí esto en la sección de costos, pero vale la pena repetirlo porque es el error más común. Si tu interacción típica es un prompt y una respuesta, la sobrecarga de input de Caveman (cargar el archivo del skill) puede hacer que gastes más que la línea base. Los ahorros solo se materializan en sesiones multi-turno donde el almacenamiento en caché de prompts amortiza el costo del input. Para preguntas aisladas de un solo disparo, una simple instrucción "Sé conciso" en tu system prompt te da un 39% de reducción en output con cero sobrecarga de input.
Depuración de problemas complejos multi-archivo. Cuando un bug abarca cuatro archivos y tres servicios, necesito que Claude recorra su cadena de razonamiento. ¿Por qué miró en este archivo primero? ¿Qué eliminó las otras posibilidades? Caveman elimina el tejido conectivo de razonamiento que hace ese recorrido comprensible. Para depuración compleja, cambio al modo normal siempre.
Incorporación y transferencia de conocimiento. Si estás usando Claude para generar explicaciones para desarrolladores junior o compañeros de equipo no familiarizados con el código base, el output de caveman es demasiado comprimido. Las palabras conectoras que caveman elimina — "porque", "lo que significa", "por lo tanto" — son exactamente las palabras que ayudan a los lectores menos experimentados a seguir la cadena lógica.
El modo Wenyan es una curiosidad, no una herramienta. Para la gran mayoría de los desarrolladores, el output en chino clásico es ilegible. Es una demostración impresionante del potencial de compresión y un experimento divertido, pero a menos que domines el chino literario, se queda en la categoría de "truco de fiesta interesante".
El número del 45% necesita contexto. Esa reducción del 45% en output se aplica a respuestas de prosa — el texto explicativo entre bloques de código. Dado que los bloques de código y las llamadas a herramientas no se tocan (correctamente), la reducción real en una sesión completa de codificación es menor. Dependiendo de cuán intensivo en código sea tu flujo de trabajo, los ahorros reales en sesión se acercan más al 15-25% en output total. Sigue siendo significativo. Solo que no es el 45% de toda tu factura.
Ninguno de estos son factores que anulen la herramienta. Son límites. El skill es genuinamente útil dentro de esos límites y genuinamente contraproducente fuera de ellos. Conocer la línea importa más que pretender que no existe.
El Efecto Compuesto: Lo que Cambia en un Mes
Déjame darte las matemáticas que realmente importan — no ahorros por prompt, sino cómo se ve un mes de Caveman para alguien que usa LLMs intensivamente.
Mi uso ronda los $200/mes entre sesiones de Claude y Codex. Promedio 30-40 tareas por día en sesiones de codificación extendidas, con la mayoría de sesiones ejecutando 10-20 prompts de seguimiento.
Ahorros directos en output tokens: Aproximadamente 20-25% de reducción en el total de output tokens de la sesión (contando que los bloques de código no se tocan). A mi nivel de uso, eso son $15-20/mes.
Ahorros indirectos por menos turnos: En mis pruebas, las respuestas de Caveman requirieron 0.6 menos turnos de seguimiento por tarea en promedio. Con 35 tareas diarias, eso son aproximadamente 21 turnos menos por día. Cada turno cuesta aproximadamente 2,000-3,000 tokens. En un mes, eso son otros 1.2-1.8 millones de tokens ahorrados — empujando los ahorros totales más cerca de $25-30/mes.
Tiempo ahorrado al leer menos relleno: Las respuestas concisas se escanean más rápido. Estimo 15-20 minutos ahorrados diariamente al no leer texto de relleno. Eso son 7-10 horas al mes. Mi tarifa por hora hace que esas horas valgan mucho más que los ahorros en tokens.
Mejora en precisión: Siguiendo los patrones de la investigación, vi aproximadamente 5-7% de mejora en la tasa de éxito al primer intento en tareas de codificación con Caveman activo. Menos primeros intentos fallidos significa menos ciclos de corrección, lo que significa menos tokens y menos tiempo.
Impacto mensual combinado: Aproximadamente $25-30 en ahorros directos de tokens, 7-10 horas de tiempo recuperado y mediblemente menos ciclos de corrección. Para una herramienta que toma un comando para instalar y cero esfuerzo continuo.
Esos números no suenan dramáticos en un solo día. En un año, son $300+ en ahorros de tokens y 100+ horas de tiempo. De un solo comando npm.
Para desarrolladores que ejecutan múltiples agentes o gestionan equipos donde varias personas usan herramientas impulsadas por LLM diariamente, multiplica esos números según corresponda. Una organización que ejecute equipos de agentes Claude Code con cinco desarrolladores vería $1,500+ en ahorros anuales de tokens y 500+ horas de tiempo de lectura recuperado. Es ahí cuando un skill gratuito de GitHub empieza a parecer una optimización operacional legítima.
El Principio que Sobrevive a la Herramienta
El skill Caveman eventualmente se volverá innecesario. Anthropic y OpenAI son conscientes del problema de la verbosidad — la documentación de Anthropic sobre gestionar costos de Claude Code ya recomienda el prompting conciso como una palanca principal de costos. Tarde o temprano, los modelos vendrán con brevedad predeterminada calibrada para contextos técnicos. La investigación es demasiado clara para ignorar. Cuando un enfoque de entrenamiento reduce demostrablemente la precisión al fomentar la verbosidad, arreglarlo a nivel de modelo se convierte en un imperativo económico.
Pero el principio detrás de Caveman — que la concisión mejora la precisión, que las restricciones de brevedad combaten la sobreelaboración inducida por RLHF, que menos tokens pueden significar mejores respuestas — ese principio sobrevivirá a cada herramienta específica construida sobre él.
Esto es lo que he empezado a hacer incluso sin Caveman activado. He cambiado cómo escribo cada system prompt, cada archivo CLAUDE.md, cada instrucción de agente. Mi configuración predeterminada es concisa. Elimino el lenguaje de cobertura de mis propios prompts. Especifico restricciones de formato de output que evitan que el modelo rellene sus respuestas. Y la diferencia en calidad es notable en todos los modelos que uso.
Si no te llevas nada más de este artículo, llévate esto: agrega una línea a cualquier configuración de sistema que uses con tu LLM.
Be concise. No filler. No hedging. State conclusions first, reasoning second.
Esa única instrucción, respaldada por investigación que muestra una correlación de -0.59 entre el conteo de tokens y la precisión, mejorará tus outputs en Claude, GPT, Codex, Gemini — cualquier modelo que sufra del sesgo universal de verbosidad por RLHF. No necesitas el skill Caveman para beneficiarte del principio Caveman.
Pero si quieres la compresión completa, los modos de intensidad, las extensiones de commit y revisión, y la herramienta de compresión de archivos de input, el skill está a un comando de distancia. Y cada prompt después del primero se vuelve más barato.
El token más caro no es el que aparece en tu factura. Es el que introdujo el error que pasaste veinte minutos rastreando — enterrado en una cobertura, envuelto en una matización, escondido dentro de una respuesta verbosa que sonaba segura y exhaustiva y estaba silenciosa, costosamente equivocada.
Preguntas Frecuentes
¿El skill Caveman funciona con LLMs que no sean Claude?
Sí. Aunque Caveman comenzó como un plugin de Claude Code, funciona con más de 40 agentes de IA incluyendo Codex, Gemini CLI, Cursor, Windsurf, GitHub Copilot y Cline. Claude Code, Codex y Gemini CLI tienen soporte completo de auto-activación. Para Claude Code específicamente: claude plugin marketplace add JuliusBrussee/caveman && claude plugin install caveman@caveman. Para otros agentes: npx skills add JuliusBrussee/caveman -a [agent-name].
¿Cuánto reduce realmente Caveman los costos totales de LLM?
Para prompts individuales, los ahorros son marginales o ligeramente negativos debido a la sobrecarga de input tokens al cargar el archivo del skill. Para sesiones multi-turno con almacenamiento en caché de prompts, los ahorros totales alcanzan aproximadamente el 39%. Las sesiones de codificación en el mundo real típicamente ven una reducción del 15-25% en output total ya que los bloques de código permanecen intactos. Para el panorama completo de optimización de costos, consulta mi guía de optimización de costos de agentes IA.
¿Hacer que los LLMs sean menos verbosos puede realmente mejorar la precisión?
Un artículo de marzo de 2026 evaluó 31 modelos en 1,485 problemas y encontró que las restricciones de brevedad mejoraron la precisión de los modelos grandes en 26 puntos porcentuales en benchmarks donde la verbosidad causaba errores. El mecanismo — verbosidad espontánea dependiente de la escala — causa que los modelos más grandes sobreelaboren e introduzcan errores a través de cobertura excesiva y razonamiento tangencial.
¿Qué es el modo Wenyan en el skill Caveman?
El modo Wenyan genera respuestas en caracteres de chino clásico, el lenguaje escrito más eficiente en tokens que los humanos crearon. Sirve como un modo de máxima compresión para desarrolladores bilingües que pueden leer chino literario. Para la mayoría de los desarrolladores hispanohablantes, es una demostración fascinante de los límites de compresión más que una herramienta práctica diaria.
¿Hay una alternativa más simple al skill Caveman completo?
Agrega esto a tu system prompt o CLAUDE.md: "Be concise. No filler. No hedging. State conclusions first, reasoning second." Esto logra aproximadamente un 39% de reducción en output tokens comparado con el 45% de Caveman, con beneficios de precisión casi idénticos y cero sobrecarga de input tokens. El skill completo agrega reglas estructuradas, niveles de intensidad y herramientas complementarias que exprimen la compresión restante.
Trabajemos Juntos
¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudar.
- Fiverr (desarrollos personalizados e integraciones): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (soluciones empresariales): ramlit.com
- ColorPark (diseño y branding): colorpark.io
- xCyberSecurity (servicios de seguridad): xcybersecurity.io