18 Trucos de Tokens de Claude Code Que Salvaron Mis Sesiones

Vi cómo el 98,5% de mis tokens desaparecían antes de que Claude Code siquiera empezara a pensar en mi pregunta real.

Ese número no es un error tipográfico. El análisis de un desarrollador sobre el consumo de tokens de Claude Code reveló que en una conversación larga — digamos treinta mensajes de profundidad — casi todos los tokens cobrados se gastan releyendo el historial de chat antiguo. No generando código nuevo. No razonando sobre tu problema. Solo... releyendo la misma conversación una y otra vez, volviéndose más costoso con cada mensaje que envías.

Cuando vi ese desglose por primera vez, me sentí genuinamente mal. Había estado culpando a los límites de velocidad de Anthropic por que mis sesiones murieran después de veinte minutos. Había estado considerando el plan Max20, convencido de que necesitaba una cuota mayor. Resulta que el problema no era el tamaño de mi plan. El problema era yo.

Esto es lo que la mayoría de los usuarios de Claude Code no se dan cuenta: el uso de tokens no escala linealmente. Se acumula. Tu primer mensaje en una sesión puede costar 500 tokens. Para el mensaje treinta, ese mismo intercambio cuesta 15.000 tokens — porque Claude relee todo el historial de conversación en cada turno. Agrega prompts del sistema, definiciones de herramientas de servidores MCP, skills cargadas y archivos que hayas pegado, y estarás perdiendo tokens de fuentes que ni siquiera ves.

¿Las buenas noticias? Una vez que entendí la mecánica, reduje mi desperdicio efectivo de tokens en aproximadamente un 60% — mismo plan, mismos proyectos, sesiones dramáticamente más largas. Lo que sigue son las 18 técnicas específicas que lo hicieron posible, organizadas en tres niveles según cuánto esfuerzo requieren y cuánto impacto generan.

Pero primero, necesitas entender por qué tus sesiones realmente mueren tan rápido.

Por Qué Tus Sesiones de Claude Code Mueren Tan Rápido

El modelo mental que la mayoría de los desarrolladores tienen es incorrecto. Piensan en el uso de tokens como un tanque de gasolina: empiezas lleno, cada mensaje usa una cantidad fija, y eventualmente llegas a vacío. Simple, lineal, predecible.

La realidad se parece más a una bola de nieve rodando cuesta abajo.

Cada vez que envías un mensaje, Claude no solo procesa tu nueva entrada. Relee todo — tu prompt del sistema, las definiciones de herramientas de cada servidor MCP, tu archivo CLAUDE.md, todo el historial de conversación desde el mensaje uno, y luego tu nuevo prompt. La respuesta se agrega a ese historial. ¿Siguiente mensaje? Todo se lee de nuevo, ahora con la respuesta anterior incluida.

Así se ve esto en la práctica:

Mensaje	Costo Aprox. de Tokens (por turno)	Tokens Acumulados de Sesión
1	~500	~500
10	~5.000	~27.000
20	~10.000	~105.000
30	~15.000	~250.000+

Ese trigésimo mensaje te cuesta treinta veces lo que costó el primero. Y el total acumulado ha superado un cuarto de millón de tokens — la mayoría de los cuales se gastaron en relectura, no en razonamiento.

Hay un segundo problema oculto dentro de este. Los investigadores lo llaman "loss in the middle" — cuando el context window se llena, Claude comienza a prestar menos atención a la información enterrada en el medio de la conversación. ¿Tus instrucciones cuidadosamente redactadas del mensaje cinco? Para el mensaje veinticinco, son funcionalmente invisibles. El modelo no solo es caro en ese punto. Está empeorando activamente.

Por eso la higiene de contexto importa más que el tamaño del plan. Un desarrollador en el plan Pro con gestión disciplinada de tokens superará a un suscriptor de Max20 que trata las conversaciones como un diario de flujo de consciencia.

Ahora que entiendes la mecánica, arreglémosla — empezando por los cambios que puedes hacer en los próximos cinco minutos.

Nivel 1: Las Victorias Rápidas (Implementar Hoy)

Estas nueve técnicas requieren cero configuración, cambio mínimo de hábitos y ofrecen resultados inmediatos. Si no haces nada más de este artículo, haz esto.

Inicia Nuevas Conversaciones para Tareas No Relacionadas

Este es el cambio de hábito más impactante de toda esta lista, y no te cuesta nada.

Cuando terminas de depurar un flujo de autenticación y pasas a estilizar un componente del dashboard, esos tokens de autenticación siguen en la conversación. Claude está releyendo todo tu historial de depuración de auth en cada mensaje de estilización del dashboard. Estás pagando por contexto que es activamente irrelevante — y potencialmente confundiendo al modelo.

El comando /clear existe exactamente por esta razón. Úsalo agresivamente. Limpio mi contexto cada vez que cambio a una tarea genuinamente diferente, incluso si está en el mismo proyecto. Los cinco segundos que toma restablecer el contexto no son nada comparados con el ahorro de tokens de no arrastrar veinte mensajes irrelevantes a través de cada turno subsiguiente.

Mi regla general: si la siguiente tarea no se basa directamente en los últimos tres mensajes, /clear primero.

Desconecta Servidores MCP No Utilizados

Este me sorprendió cuando ejecuté /context por primera vez y vi el desglose. Cada servidor MCP conectado carga su esquema completo de definición de herramientas en el context window en cada mensaje. Un MCP de Figma, un MCP de Slack, un MCP de base de datos y un MCP de sistema de archivos ejecutándose simultáneamente pueden consumir miles de tokens por turno — antes de que hayas tecleado un solo carácter.

Si estás escribiendo código y no necesitas Figma, desconéctalo. Si estás diseñando y no necesitas tus herramientas de base de datos, desconéctalas. Mantengo un conjunto mínimo de MCPs activos para mi tarea actual y reconecto otros solo cuando los necesito específicamente.

La diferencia es medible. En un proyecto, desconectar tres MCPs inactivos redujo mi overhead por turno en aproximadamente 4.000 tokens. Durante una sesión de treinta mensajes, eso son 120.000 tokens ahorrados — tokens que fueron hacia trabajo productivo real en lugar de cargar esquemas de herramientas que nunca toqué.

Agrupa Tus Prompts en Mensajes Únicos

Esta es aritmética básica, pero la mayoría la pasa por alto. Si necesitas que Claude cree un componente, le agregue tests y actualice el archivo de importación, eso es un mensaje — no tres.

Tres mensajes separados significan tres relecturas completas del contexto. Un mensaje agrupado significa una relectura para la misma cantidad de trabajo. Los ahorros se acumulan a medida que tu conversación se alarga.

Formateo las solicitudes agrupadas así:

Do these three things in order:
1. Create a UserProfile component in src/components/ with name, email, and avatar props
2. Write tests for it using Vitest — cover the rendering, prop variations, and empty state
3. Update src/components/index.ts to export the new component

Claude maneja bien las instrucciones de múltiples pasos. La clave es ser específico sobre el orden y la salida esperada para cada paso. Los lotes vagos crean confusión; los lotes precisos ahorran tokens.

Usa el Modo Plan Antes de Tareas Complejas

Saltar directamente a la implementación de una función compleja es uno de los errores más costosos que puedes cometer. No porque el primer intento cueste mucho — sino porque un primer intento incorrecto desencadena un ciclo de corrección que duplica o triplica tu gasto total de tokens.

El modo plan le pide a Claude que esboce su enfoque antes de escribir código. Revisas el plan, corriges si es necesario y luego das luz verde. Esto concentra la alineación en un solo intercambio de bajo costo en lugar de descubrir desalineaciones seis mensajes después cuando el context window ya está inflado.

Uso el modo plan para cualquier cosa que toque más de dos archivos o involucre decisiones arquitectónicas. Para cambios simples en un solo archivo, lo omito. La pregunta clave es: "Si Claude se equivoca en el primer intento, ¿qué tan costosa es la corrección?" Si la respuesta es "muy", planifica primero.

Ejecuta `/context` y `/cost` para Ver Adónde Van los Tokens

No puedes optimizar lo que no puedes medir. El comando /context — introducido en Claude Code v1.0.86 — desglosa exactamente dónde se asignan tus tokens: prompt del sistema, definiciones de herramientas, archivos de memoria, skills, historial de conversación y tu prompt actual.

La primera vez que lo ejecuté, descubrí que mi archivo CLAUDE.md consumía el 12% de mi contexto disponible en cada turno. Un archivo que había escrito una vez y olvidado estaba gravando silenciosamente cada interacción. Lo reduje de 400 líneas a 120, y los ahorros por turno fueron inmediatos.

El comando /cost muestra el uso acumulativo de tokens de la API para la sesión. Si estás en un plan de API, te dice tu gasto en tiempo real. Para suscriptores de Max, se trata menos de facturación y más de entender qué tan rápido estás consumiendo tu asignación de uso.

Ejecuta ambos comandos al inicio de cada sesión. Hazlo un reflejo, como revisar los espejos antes de conducir.

Configura una Línea de Estado de Uso de Tokens

Si ejecutar /cost manualmente se siente como demasiada fricción, configura tu línea de estado del terminal para mostrar el uso de tokens continuamente. Verás el porcentaje subir en tiempo real mientras trabajas, lo que crea un ciclo de retroalimentación natural — empiezas a notar qué tipos de mensajes son caros y cuáles son baratos.

Mantengo el porcentaje de tokens visible en mi terminal en todo momento. Es como tener un indicador de combustible en tu tablero. No lo miras fijamente todo el tiempo, pero le echas un vistazo con suficiente frecuencia para evitar quedarte seco inesperadamente.

Mantén el Dashboard Abierto

El dashboard de uso de Anthropic muestra tu consumo entre sesiones. Ábrelo en una pestaña del navegador y revísalo unas cuantas veces durante el día laboral, especialmente durante sesiones de desarrollo intensivas. Si estás consumiendo tu asignación de cinco horas más rápido de lo esperado, lo detectarás lo suficientemente temprano para ajustar tu enfoque en lugar de descubrirlo cuando la sesión te bloquee.

Solo Pega Lo Que Sea Relevante

Cuando necesitas que Claude entienda un archivo, no pegues todo si solo una función importa. He visto a desarrolladores pegar archivos de 800 líneas cuando la sección relevante era de 40 líneas. Eso son 760 líneas de puro desperdicio — cargadas en el contexto en cada mensaje subsiguiente.

Sé quirúrgico. Copia la función específica, el bloque de configuración específico, la salida de error específica. Si Claude necesita más contexto, lo pedirá. Empezar con menos es casi siempre más barato que empezar con todo.

Observa la Salida de Claude en Tiempo Real

Cuando Claude está generando una respuesta larga — construyendo un componente grande, escribiendo tests extensivos — obsérvalo suceder. Si ves que va por el camino equivocado (framework incorrecto, estructura de archivos incorrecta, requisitos malinterpretados), detenlo inmediatamente.

Cada token que Claude genera se agrega al historial de conversación. Una respuesta de 2.000 tokens que no querías son 2.000 tokens que releerás en cada mensaje futuro. Detectar un error después de 200 tokens en lugar de 2.000 te ahorra en el mensaje actual y en cada mensaje que sigue.

He salvado sesiones enteras de esta manera. Una vez Claude comenzó a generar una REST API cuando necesitaba resolvers de GraphQL. Lo detecté en la primera firma de función y lo detuve. Si me hubiera ido y vuelto a una implementación incorrecta completada, el ciclo de corrección habría agotado mi presupuesto de contexto restante.

Eso cubre las victorias rápidas. Si has implementado incluso la mitad de estas, ya estás adelante de la mayoría de los usuarios de Claude Code. Pero las verdaderas ganancias de eficiencia vienen de los cambios estructurales en el siguiente nivel — y uno de ellos cambió completamente cómo pienso sobre el archivo CLAUDE.md.

Nivel 2: Optimizaciones Estructurales (Proyecto de Fin de Semana)

Estas cinco técnicas requieren algo de inversión inicial — reorganizar archivos, cambiar hábitos, ajustar tiempos — pero ofrecen rendimientos compuestos en cada sesión que sigue.

Mantén Tu CLAUDE.md Bajo 200 Líneas

He escrito sobre esto antes en mi guía de 50 tips de Claude Code, pero vale la pena repetirlo porque es muy importante. Tu CLAUDE.md se carga en cada mensaje. No es un costo único — es un impuesto por turno.

Trata CLAUDE.md como un índice, no como una enciclopedia. Debe contener la arquitectura del proyecto de un vistazo, comandos de build, reglas estrictas y punteros a archivos de documentación más largos. No la documentación en sí.

El modelo mental que funciona: tu CLAUDE.md es una tabla de contenidos. Cuando Claude necesita el capítulo real, puede leer el archivo. Pero cargar cada capítulo en memoria en cada mensaje — esa es la parte que te mata.

Reestructuré el mío de un documento de referencia de 400 líneas a un índice de 120 líneas que apunta a docs detallados en un directorio /docs. El ahorro de tokens por turno fue de aproximadamente 3.000 tokens. Durante una sesión típica de 25 mensajes, eso son 75.000 tokens recuperados para trabajo real.

Sé Quirúrgico con las Referencias a Archivos

"Mira mi base de código y sugiere mejoras" es el prompt más caro que puedes escribir. Hace que Claude escanee todo — cada archivo, cada directorio — quemando tokens en código que no tiene nada que ver con lo que realmente quieres mejorar.

En su lugar: "Revisa el manejo de errores en src/services/payment.ts, específicamente la función processRefund en las líneas 45-80." Eso es un bisturí. El primer prompt es un mazo.

He convertido en hábito siempre incluir rutas de archivos y, cuando es posible, números de línea o nombres de funciones en mis prompts. Cuanto más precisamente dirijas la atención de Claude, menos tokens gasta buscando en los lugares equivocados.

Compacta al 60%, No al 95%

Claude Code tiene una función de compactación automática que se activa cuando el context window alcanza aproximadamente el 95% de capacidad. El comando /compact resume el historial de conversación y lo reemplaza con una versión comprimida, liberando espacio.

El problema de esperar hasta el 95%: para ese punto, el modelo ha estado degradándose por un tiempo. El efecto "loss in the middle" significa que la calidad de salida de Claude disminuye mucho antes de que el context window esté técnicamente lleno. Y la compactación en sí es menos efectiva cuando hay más que comprimir — pierdes más matices.

Compacto manualmente alrededor del 60% de capacidad. Antes de lo que la mayoría recomienda, y eso es deliberado. La compactación preserva más detalles relevantes cuando hay menos que resumir, y el 40% restante de contexto limpio me da una buena pista para la siguiente fase de trabajo.

También puedes agregar instrucciones personalizadas para guiar qué se preserva: /compact Enfócate en las decisiones de refactorización de autenticación y las firmas de los endpoints de la API. Esto le dice a Claude qué importa durante la resumención en lugar de dejarlo decidir.

Ten en Cuenta el Timeout de Cache

Este toma a la gente por sorpresa. Claude Code usa prompt caching — cachea contenido repetido frecuentemente (prompts del sistema, definiciones de herramientas, historial de conversación) para evitar reprocesarlo desde cero. Los tokens de entrada cacheados son significativamente más baratos, facturados a aproximadamente el 10% de la tarifa normal.

Pero el cache tiene un timeout. Tómate un descanso de cinco o más minutos — busca café, responde un mensaje de Slack, te arrastran a una reunión — y el cache expira. Tu siguiente mensaje activa un reprocesamiento completo de todo el contexto a costo completo de tokens. Una conversación de 200.000 tokens que estaba siendo cacheada eficientemente se convierte repentinamente en una lectura fría de 200.000 tokens.

Dos estrategias ayudan aquí. Primero, si sabes que te vas por más de unos minutos, /compact antes de irte. Contexto más pequeño significa reprocesamiento más barato cuando regreses. Segundo, si regresas de un descanso largo a una conversación inflada, considera /clear y empezar de nuevo con un breve resumen de dónde te quedaste. Es casi siempre más barato que pagar por una relectura fría completa de un historial largo.

Controla el Bloat de Salida de Comandos

Cuando Claude ejecuta comandos de shell — npm install, git log, suites de tests — la salida completa entra al context window. ¿Un ejecutor de tests verboso que vuelca cientos de líneas de tests pasados? Todo se almacena. ¿Un git log que devuelve cincuenta commits? Cada línea se convierte en contexto que releerás en cada mensaje futuro.

Sé deliberado sobre qué comandos ejecuta Claude. Si necesitas resultados de tests, pide solo los fallos: "Ejecuta la suite de tests y muéstrame solo los tests que fallaron." Si necesitas historial de git, limítalo: "Muéstrame los últimos 5 commits en esta rama." Si Claude sugiere ejecutar un comando que producirá salida masiva, considera si realmente necesitas todo — o solo un resumen.

He comenzado a agregar restricciones de salida a mi CLAUDE.md como regla predeterminada: "Al ejecutar suites de tests, suprimir la salida de tests pasados. Al verificar historial de git, limitar a 10 entradas a menos que se pida específicamente más." Esto previene el token bloat sin requerir que piense en ello en cada comando.

Estos cambios estructurales me tomaron una tarde de sábado para implementarlos completamente. El ROI ha sido enorme — estimo sesiones 40-50% más largas en promedio, y la calidad de las respuestas de Claude en la segunda mitad de sesiones largas mejoró notablemente. El contexto se mantiene más limpio, así que el modelo se mantiene más afilado.

Pero para usuarios que exigen mucho de Claude Code — ejecutando flujos de trabajo multi-agente, construyendo sistemas complejos, o trabajando a través de límites de velocidad en horas pico — el nivel avanzado es donde vive el verdadero dominio.

Nivel 3: Ingeniería Avanzada de Tokens (Para Power Users)

Estas cuatro técnicas requieren un entendimiento más profundo de cómo funciona Claude Code bajo el capó. No son para todos. Pero si eres el tipo de desarrollador que ejecuta sistemas de agentes autónomos o trabaja sesiones de múltiples horas diariamente, aquí es donde se esconden las mayores ganancias.

Elige el Modelo Correcto para Cada Tarea

No toda tarea necesita el modelo más poderoso. Claude Code te da acceso a múltiples modelos, y la economía de tokens varía dramáticamente entre ellos.

Sonnet maneja la gran mayoría de las tareas de codificación — generar componentes, escribir tests, refactorizar funciones, depurar errores. Es rápido, capaz y cuesta significativamente menos tokens por turno que Opus.

Haiku es perfecto para trabajo simple y mecánico: formatear código, renombrar variables, generar boilerplate, procesamiento básico de texto. Usar Haiku para estas tareas en lugar de Sonnet es como ir en bicicleta dos cuadras en lugar de conducir.

Opus es la artillería pesada. Planificación arquitectónica profunda, razonamiento complejo de múltiples sistemas, análisis matizado que requiere mantener muchas restricciones en mente simultáneamente. Uso Opus con moderación — quizás el 15% de mis interacciones totales con Claude Code — y solo para tareas donde la profundidad del razonamiento justifica genuinamente la prima de tokens.

Cubrí la estrategia de selección de modelos en detalle en mi guía de optimización de costos de agentes AI, pero el principio central se aplica directamente aquí: ajusta la capacidad del modelo a los requisitos de la tarea. Usar Opus para renombrar una variable es como contratar a un cirujano para poner una curita.

Si prefieres que alguien construya sistemas de agentes AI optimizados desde cero, acepto proyectos personalizados de automatización e integración. Puedes ver lo que he construido en fiverr.com/s/EgxYmWD.

Usa Sub-Agents Estratégicamente (No Liberalmente)

Los sub-agents son poderosos porque se ejecutan en context windows separados. Tu conversación principal se mantiene limpia mientras el sub-agent maneja una tarea enfocada y devuelve un resumen. En teoría, esto es perfecto para la gestión de tokens.

En la práctica, los sub-agents son caros. Cada uno carga todo el overhead de contexto — prompts del sistema, definiciones MCP, CLAUDE.md — desde cero. Una sesión de sub-agent puede consumir 7-10x más tokens que manejar la misma tarea en tu conversación principal, dependiendo de la complejidad.

Las matemáticas trabajan a tu favor cuando: la tarea agregaría bloat significativo a tu contexto principal (análisis de archivos grandes, generación extensa de código), la tarea es claramente separable, y un resumen del resultado es suficiente.

Las matemáticas trabajan en tu contra cuando: la tarea es pequeña, el resultado necesita discusión extensa, o necesitarías múltiples sub-agents para tareas relacionadas que comparten contexto.

Uso sub-agents para tareas de investigación — "analiza este árbol de dependencias y dime qué paquetes están desactualizados" — y para generación de código que revisaré por separado. Los evito para trabajo iterativo donde necesitaría ir y venir con el agente múltiples veces.

Entiende la Economía de Tokens en Horas Pico vs. Valle

Según la propia documentación de Anthropic, el costo promedio de Claude Code es $6 por desarrollador por día, con el 90% de los usuarios manteniéndose bajo $12 diarios. Pero ese promedio enmascara una varianza significativa basada en cuándo trabajas.

Horas pico — aproximadamente de 8 AM a 2 PM hora del Este en días laborables — coinciden con la máxima demanda en la infraestructura de Anthropic. Durante estas ventanas, el rate limiting es más agresivo, los presupuestos de contexto pueden sentirse más ajustados y las sesiones pesadas se limitan más rápido.

Horas valle — tardes, noches y fines de semana — ofrecen más margen. El mismo plan, los mismos prompts, pero con menos contención por recursos.

Mi ajuste fue simple: trasladé mis sesiones pesadas multi-agente y grandes trabajos de refactorización a horas valle. Las preguntas rápidas y las tareas pequeñas suceden cuando las necesito. Pero las sesiones donde quemo tokens agresivamente — esas ocurren después de las 3 PM hora del Este o en las mañanas del fin de semana.

No se trata de obtener más tokens. Se trata de obtener un rendimiento más consistente de los tokens que tienes. El rate limiting en horas pico puede interrumpir estados de flujo y forzar interrupciones prematuras de sesión que desperdician aún más tokens en la reconstrucción del contexto.

Construye una Constitución del Sistema en Tu CLAUDE.md

Esta es la técnica más sofisticada de la lista, y es la que entregó los mejores resultados a largo plazo.

Una constitución del sistema es una sección de tu CLAUDE.md que captura decisiones arquitectónicas estables, resúmenes de progreso y reglas operativas — no como documentación, sino como instrucciones persistentes que moldean cada interacción.

Esto es lo que va en ella:

Decisiones arquitectónicas que están resueltas. "Este proyecto usa el patrón repository para todo el acceso a base de datos. Nunca sugieras query builders directos en los controladores." Esto evita que Claude vuelva a debatir decisiones que ya has tomado, ahorrando los tokens de ida y vuelta que vienen de corregir sugerencias.

Marcadores de progreso. "Módulo de autenticación: completo y probado. Integración de pagos: en progreso, el handler de webhook de Stripe necesita lógica de reintento ante errores." Esto le da a Claude conciencia instantánea del proyecto sin necesidad de escanear tu base de código o hacer preguntas.

Reglas de ahorro de tokens. "Delega tareas de investigación a sub-agents. Resume los resultados de análisis de archivos en menos de 100 palabras antes de presentarlos. Nunca muestres contenidos completos de archivos cuando un diff bastaría." Estas reglas se acumulan — ahorran tokens en cada interacción automáticamente.

El principio clave: guarda decisiones, no conversaciones. Tu constitución debe capturar las conclusiones de discusiones anteriores, no las discusiones en sí. "Decidimos usar Redis para almacenamiento de sesiones porque PostgreSQL estaba causando problemas de latencia bajo carga" es contexto útil en una línea. ¿La conversación completa donde exploraste esa decisión? Son cincuenta líneas de contexto que no necesitas cargar.

Actualizo mi constitución del sistema al final de cada sesión de desarrollo importante. Toma dos minutos y me ahorra diez minutos de reconstrucción de contexto al inicio de la siguiente sesión. Con el tiempo, los ahorros compuestos son sustanciales.

El Cambio de Mentalidad Que Lo Une Todo

Si has leído hasta aquí, podrías estar pensando que estas 18 técnicas se sienten como mucho overhead. Rastrear porcentajes de tokens, cronometrar tus sesiones, reestructurar tu CLAUDE.md, compactar manualmente al 60%. ¿Es realmente necesario todo esto?

Aquí está mi respuesta honesta: no todo. No todo a la vez.

Empieza con lo básico del Nivel 1. /clear entre tareas no relacionadas, desconectar MCPs inactivos, agrupar tus prompts. Solo estos tres hábitos extenderán tus sesiones notablemente. Una vez que se sientan naturales — dale una semana — incorpora los cambios estructurales del Nivel 2. La reestructuración de CLAUDE.md y el hábito de compactación manual entregarán el siguiente gran salto.

El Nivel 3 es para cuando exiges tanto del herramienta que las ganancias incrementales importan. La mayoría de los desarrolladores no necesitarán las cuatro técnicas avanzadas. Pero la estrategia de selección de modelos y la constitución del sistema valen la pena implementarlas independientemente de tu nivel de uso.

La perspectiva general — lo que desearía que alguien me hubiera dicho hace seis meses — es que alcanzar los límites de tokens no es señal de que tu plan es demasiado pequeño. Es casi siempre señal de que tu higiene de contexto necesita trabajo. Los tokens están ahí. Simplemente los estás gastando en las cosas equivocadas.

Anthropic reconoció a finales de marzo de 2026 que los usuarios estaban alcanzando límites más rápido de lo esperado, y lo han convertido en su máxima prioridad de ingeniería. Las mejoras de infraestructura están en camino. Pero incluso cuando las cuotas aumenten, estas técnicas seguirán importando — porque el contexto limpio no solo ahorra tokens. Produce mejor salida. Un modelo trabajando con 50.000 tokens de contexto enfocado y relevante superará al mismo modelo luchando a través de 200.000 tokens de ruido acumulado.

Piénsalo de esta manera: la gestión de tokens no se trata de ser tacaño con los recursos de AI. Se trata de ser preciso con ellos. De la misma manera que un desarrollador hábil escribe código limpio y enfocado en lugar de spaghetti inflado — no porque esté limitado, sino porque la claridad produce mejores resultados.

Tus sesiones durarán más. Tus salidas serán más precisas. Y dejarás de culpar a la herramienta por un problema que siempre fue sobre el flujo de trabajo.

Qué Hacer en los Próximos Diez Minutos

Cierra este artículo y abre tu sesión activa de Claude Code. Ejecuta /context. Mira el desglose. Te garantizo que algo ahí te sorprenderá — un CLAUDE.md inflado, tres servidores MCP que olvidaste que estaban conectados, un historial de conversación que es 80% irrelevante.

Arregla el mayor infractor. Solo uno. Luego aplica dos o tres de las técnicas del Nivel 1 durante tu próxima sesión de trabajo.

Vuelve a este artículo en una semana e implementa los cambios del Nivel 2. Para entonces, tendrás suficiente experiencia de primera mano con la mecánica de tokens para entender exactamente por qué cada cambio estructural importa — porque habrás sentido los puntos de dolor tú mismo.

Los desarrolladores que dominan Claude Code no son los que tienen los planes más grandes. Son los que desperdician menos tokens en cosas que no importan. Esa es una habilidad que puedes construir, empezando ahora mismo.

Preguntas Frecuentes

¿Cómo verifico mi uso de tokens de Claude Code?

Ejecuta /context para ver un desglose detallado de dónde se asignan los tokens — prompt del sistema, herramientas, archivos de memoria e historial de conversación. Ejecuta /cost para ver el uso acumulativo de tokens de la API para la sesión actual. Ambos comandos están disponibles en Claude Code v1.0.86 y posteriores.

¿Cuál es la diferencia entre /clear y /compact en Claude Code?

/clear borra completamente el historial de conversación y empieza de nuevo. /compact resume la conversación existente y reemplaza el historial completo con una versión comprimida, preservando el contexto clave mientras libera tokens. Usa /clear cuando cambies de tarea completamente; usa /compact cuando continúes la misma tarea pero necesites más espacio.

¿Por qué Claude Code empeora al final de sesiones largas?

El efecto "loss in the middle" causa que Claude preste menos atención a la información enterrada profundamente en el context window. A medida que las conversaciones crecen, las instrucciones y el contexto anteriores se empujan a esta zona de baja atención, reduciendo la calidad de la salida. Compactar al 60% de capacidad — en lugar de esperar al disparador automático del 95% — ayuda a mantener la calidad de respuesta durante toda la sesión.

¿Cuántos tokens usa una sesión típica de Claude Code?

Los costos de tokens se acumulan con la longitud de la conversación. Un primer mensaje cuesta aproximadamente 500 tokens, pero para el mensaje 30, cada turno puede costar 15.000+ tokens debido a la relectura completa del contexto. Según datos de Anthropic, el costo diario promedio es de $6 por desarrollador, con el 90% de los usuarios manteniéndose bajo $12.

¿Los servidores MCP afectan el uso de tokens de Claude Code?

Sí, significativamente. Cada servidor MCP conectado carga su esquema completo de definición de herramientas en el context window en cada mensaje. Ejecutar múltiples servidores MCP simultáneamente puede agregar miles de tokens por turno. Desconecta cualquier servidor MCP que no estés usando activamente para reducir este overhead.

Trabajemos Juntos

¿Buscas construir sistemas de AI, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudar.

Fiverr (builds e integraciones personalizadas): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io