Ejecutar Claude Code en modelos cloud gratuitos (2026)

Uso Claude Code con modelos en la nube gratuitos — así es como lo hago

Mi GPU estaba a 94 grados Celsius, los ventiladores sonaban como un motor a reacción preparándose para despegar, y el modelo de 70B parámetros que ejecutaba localmente llevaba diecinueve segundos generando una sola respuesta.

Diecinueve segundos. Por una llamada API. En un flujo de trabajo agéntico que necesitaría treinta o cuarenta llamadas más para completar la tarea.

Había pasado la mayor parte de un fin de semana intentando que la inferencia local de modelos de código abierto funcionara con Claude Code. La idea era atractiva — descargar modelos de código abierto potentes, ejecutarlos en tu propio hardware a través de Ollama, apuntar Claude Code a un endpoint local y disfrutar de IA ilimitada y gratuita para siempre. Sin costes de API. Sin límites de velocidad. Privacidad total. La configuración soñada para cualquier desarrollador que haya visto crecer su factura de Anthropic.

¿La realidad? Mi M2 MacBook Pro con 32 GB de memoria unificada apenas podía con un modelo cuantizado de 70B. Las respuestas eran lentas. La calidad se degradaba notablemente por la cuantización. Y los modelos que realmente compiten con las ofertas en la nube — las arquitecturas de 120B parámetros, los enormes sistemas mixture-of-experts — ni siquiera cabían en memoria sin mutilarlos hasta dejarlos en una sombra de su capacidad real.

Estaba a punto de abandonar todo el concepto de ejecutar modelos de código abierto con Claude Code cuando un colega dejó un enlace en nuestro chat de equipo. "Olvídate de la configuración local," escribió. "Apunta Claude Code a OpenRouter. Veintinueve modelos gratuitos. Inferencia en la nube. El mismo flujo de trabajo agéntico."

Ocho minutos después, tenía Claude Code funcionando con Nemotron 3 Super de NVIDIA — un modelo de 120B parámetros que ni siquiera podía cargar localmente — generando una landing page SaaS completa a velocidad de nube. Gratis.

Eso fue hace tres semanas. No he vuelto a tocar la inferencia local desde entonces.

Por qué la inferencia local me falló (y probablemente a ti también)

Necesito explicar por qué abandoné los modelos locales, porque si estás leyendo esto, probablemente hayas considerado el mismo camino. O estás actualmente en él, viendo cómo tu portátil se convierte en un calefactor.

Las cuentas simplemente no salen para la mayoría del hardware de consumo.

Los modelos pequeños — 7B y 13B parámetros — funcionan bien localmente. Son rápidos, caben en memoria y no exigen demasiado a tu máquina. Pero su calidad de salida para trabajo de desarrollo real es deficiente. Pídele a un modelo de 7B que refactorice un handler Express.js de 200 líneas en módulos limpios, y obtendrás algo que técnicamente funciona pero estructuralmente se lee como la tarea de un estudiante de primer año de informática. Los nombres de variables son genéricos. El manejo de errores falta o está copiado sin criterio. Las decisiones arquitectónicas son superficiales.

Los modelos que producen código genuinamente útil empiezan en los 70B parámetros. Y 70B es donde el hardware de consumo empieza a sufrir. En mi M2 con 32 GB de memoria unificada, un modelo Llama 3.3 70B cuantizado a 4 bits a través de Ollama me daba tiempos de respuesta de 12-20 segundos por generación. Eso es por una sola respuesta. Los flujos de trabajo agénticos de Claude Code encadenan docenas de estas llamadas — planificación, generación de código, escritura de archivos, ejecución de tests, corrección de errores. A 15 segundos por llamada en 30 llamadas, una tarea que tarda 4 minutos en inferencia en la nube tarda 7-8 minutos localmente. Esa diferencia se acumula a lo largo de un día de trabajo en horas de productividad perdida.

Y ese es el mejor escenario. ¿Los modelos de 120B+ que realmente rivalizan con las ofertas de nube de pago? Mi máquina no puede ejecutarlos en absoluto. Ni en precisión completa. Ni siquiera con cuantización agresiva. Necesitarías un mínimo de 64 GB+ de RAM, e incluso así, estarías sacrificando calidad significativa por el privilegio de ejecutarlo localmente.

Una vez realicé una sesión de programación de cuatro horas con inferencia local, solo para ver cómo se sentía el uso sostenido. Mi batería pasó del 100 % al 12 %. La carcasa del portátil estaba demasiado caliente para apoyarla sobre las piernas. El coste energético probablemente superó lo que me habrían cobrado las llamadas API equivalentes en la nube.

La inferencia local es un ejercicio técnico fascinante. ¿Para trabajo de desarrollo diario con modelos lo suficientemente potentes como para ser útiles? La inferencia en la nube a través de un servicio como OpenRouter es la respuesta práctica.

Qué hace OpenRouter (y por qué existen 29 modelos gratuitos)

OpenRouter es una capa de enrutamiento de API que se sitúa entre tu herramienta de desarrollo y docenas de proveedores de modelos. Una clave API, un endpoint, acceso a más de 400 modelos de OpenAI, Google, Meta, Mistral, NVIDIA, Anthropic y más.

La parte que importa para este artículo: OpenRouter mantiene una colección curada de modelos completamente gratuitos. A marzo de 2026, 29 modelos están disponibles sin coste alguno — sin tarjeta de crédito, sin período de prueba, sin trampa más allá de los límites de velocidad.

¿Por qué alguien ofrecería modelos de 120B parámetros gratis? Dos razones.

Primero, empresas como NVIDIA y Meta lanzan modelos de código abierto como inversiones estratégicas. Nemotron 3 Super de NVIDIA no es gratuito porque NVIDIA sea generosa — es gratuito porque la adopción masiva impulsa la demanda de la infraestructura de entrenamiento y los servicios de computación en la nube de NVIDIA. Los modelos Llama de Meta sirven al mismo propósito para su ecosistema de IA. El modelo es el producto gancho. La infraestructura es el negocio.

Segundo, OpenRouter subsidia el acceso gratuito a modelos como estrategia de crecimiento. Los usuarios gratuitos se convierten en usuarios de pago cuando sus necesidades escalan. Es el mismo playbook que han seguido GitHub, Vercel y todas las herramientas para desarrolladores exitosas — regalar suficiente valor para crear hábito y luego capturar ingresos cuando el uso crece.

El resultado para nosotros: modelos legítimos, alojados en la nube, con precisión completa, ejecutándose en infraestructura GPU profesional, accesibles a través de una API simple — sin pagar un céntimo.

Aquí está la clave que hace esto relevante para Claude Code específicamente: El poder de Claude Code reside en su framework de agentes, no en el modelo. El motor de planificación, el acceso al sistema de archivos, la ejecución de comandos de shell, la coordinación de sub-agentes, la búsqueda web, la exploración de código — todo eso es infraestructura a nivel de framework. Funciona independientemente de qué modelo proporcione el razonamiento. Cambia Opus de Anthropic por Nemotron 3 Super de NVIDIA, y Claude Code sigue leyendo archivos, escribiendo código, ejecutando tests y ejecutando comandos de terminal exactamente de la misma manera.

La inteligencia cambia. Las capacidades no.

Esa separación es la base completa de lo que voy a explicarte a continuación.

La configuración completa: menos de diez minutos, de principio a fin

Te doy los pasos exactos que seguí, incluyendo el error de depuración que me costó diez minutos extra. Si te saltas mi error, estarás funcionando en menos de ocho.

Paso 1: Confirma que Claude Code está instalado

Si ya tienes Claude Code, pasa al Paso 2. Si no:

npm install -g @anthropic-ai/claude-code

O en macOS vía Homebrew:

brew install claude-code

Verifica con claude --version. Si nunca has usado Claude Code, mi guía para principiantes cubre todo desde la instalación hasta tu primer build.

Paso 2: Crea una cuenta gratuita en OpenRouter

Ve a openrouter.ai y regístrate. Email y contraseña — no se necesita tarjeta de crédito para el plan gratuito.

Navega a la sección API Keys en tu panel de control. Haz clic en Create Key. Copia la clave inmediatamente — empieza con sk-or-v1- y OpenRouter no la mostrará de nuevo después de que salgas de la página.

Paso 3: Configura tres variables de entorno

Abre tu archivo de configuración de shell. En macOS (la shell zsh por defecto), es ~/.zshrc. En Linux con bash, ~/.bashrc. Añade estas tres líneas:

export ANTHROPIC_BASE_URL="https://openrouter.ai/api"
export ANTHROPIC_AUTH_TOKEN="sk-or-v1-your-actual-key-here"
export ANTHROPIC_API_KEY=""

Esa tercera línea — el ANTHROPIC_API_KEY vacío — parece innecesaria. La primera vez la omití. Mala decisión.

Esto es lo que pasa sin ella: si previamente autenticaste Claude Code con una cuenta de Anthropic (como la mayoría de usuarios), Claude Code almacena esas credenciales en caché. Cuando coexisten una clave de Anthropic y un token de OpenRouter, Claude Code no sabe cuál priorizar. Las peticiones fallan con errores de autenticación crípticos o — el modo de fallo sigiloso — tienen éxito pero se enrutan a través de la API de pago de Anthropic, quemando silenciosamente tus créditos mientras crees que estás en el plan gratuito.

Establecer ANTHROPIC_API_KEY como cadena vacía le dice explícitamente a Claude Code que ignore cualquier credencial de Anthropic en caché y enrute todo a través de la URL base que especificaste.

Un paso más si estabas conectado previamente: Abre Claude Code y ejecuta /logout dentro de la sesión. Esto borra el token OAuth del flujo de autenticación basado en navegador. Sin esto, el token OAuth en caché puede anular tus variables de entorno.

Paso 4: Elige tu modelo gratuito

Explora la página de modelos gratuitos de OpenRouter y elige un modelo. Te diré cuál elegir en la siguiente sección, pero mecánicamente, así se configura:

Añade esta línea a tu perfil de shell:

export ANTHROPIC_DEFAULT_SONNET_MODEL="nvidia/nemotron-3-super:free"

Esto le dice a Claude Code qué modelo usar para sus tareas principales de razonamiento. Reemplaza el identificador del modelo con cualquier ID de modelo gratuito del catálogo de OpenRouter — cada página de modelo tiene un botón de copiar para la cadena exacta.

Paso 5: Recarga y verifica

Recarga tu perfil actualizado:

source ~/.zshrc

O simplemente abre una nueva ventana de terminal. Luego inicia Claude Code en cualquier directorio de proyecto:

claude

Ejecuta /status dentro de la sesión. Deberías ver tu modelo elegido como activo y el endpoint de la API apuntando a OpenRouter. Si todavía ves un modelo o endpoint de Anthropic, revisa la clave API vacía y el paso de /logout.

Eso es toda la configuración. Cada prompt, cada acción del agente, cada llamada de sub-agente ahora se enruta a través de OpenRouter hacia tu modelo gratuito seleccionado.

¿Qué modelo gratuito deberías usar realmente? Probé cinco.

Aquí es donde la mayoría de las guías de OpenRouter terminan — "así es como te conectas, buena suerte eligiendo modelo." Eso no ayuda. La diferencia entre elegir el modelo gratuito correcto y el incorrecto es la diferencia entre una tarde productiva y una frustrante.

Pasé una semana ejecutando cinco modelos gratuitos a través de la misma batería de tareas de desarrollo reales. No benchmarks sintéticos. Trabajo real que normalmente haría con Opus o Sonnet.

La batería de pruebas:

Generación de landing page SaaS — página completa con hero, grid de características, tabla de precios, footer. Tailwind CSS. Responsive.
Refactorización de código — tomar un handler Express.js de 200 líneas desordenado y refactorizarlo en módulos limpios y separados.
Diagnóstico de bugs — proporcionar logs de error y un fragmento de código con un bug sutil de timing async/await. Encontrarlo y corregirlo.
Tarea agéntica de múltiples pasos — investigar precios actuales de almacenamiento en la nube, crear una tabla comparativa, guardar en un archivo markdown. Esto prueba las llamadas a herramientas, la búsqueda web y las operaciones con archivos.

NVIDIA Nemotron 3 Super — Mi modelo gratuito diario

Este es el elegido. Si solo vas a configurar un modelo gratuito, que sea este.

Nemotron 3 Super es un modelo mixture-of-experts de 120B parámetros que activa solo 12B parámetros por petición. Esa decisión arquitectónica es lo que permite ofrecerlo gratis mientras sigue entregando resultados que compiten genuinamente con modelos de pago. Según el informe técnico de NVIDIA, alcanza hasta 2,2 veces más rendimiento de inferencia que modelos comparables de 120B como GPT-OSS, gracias a su arquitectura híbrida Mamba-Transformer.

La ventana de contexto de 262K tokens es enorme para un modelo gratuito — lo suficientemente grande para contener bases de código sustanciales sin truncamiento.

Prueba de landing page: Generó una página completa y responsive con un esquema de colores coherente, clases Tailwind correctas y texto que no se leía como Lorem Ipsum con delirios de grandeza. La estructura de componentes era lo suficientemente limpia como para incluirla en un proyecto real con ajustes menores de espaciado.

Prueba de refactorización: Aquí es donde Nemotron me sorprendió. Identificó los puntos obvios de extracción — validación separada, extraer consultas a la base de datos — pero también detectó una condición de carrera en el código original que yo había dejado deliberadamente como trampa. La encontró. No todos los modelos lo hacen.

Diagnóstico de bug: Identificó correctamente el problema de timing async en el primer intento, explicó el mecanismo con claridad y proporcionó una solución con manejo de errores adecuado. Sólido.

Tarea agéntica: Funcional pero algo tosca en los detalles. El modelo hizo las llamadas correctas a las herramientas — búsqueda web, creación de archivos — pero el formato de la tabla comparativa necesitó limpieza manual. El contenido de la investigación era preciso.

La velocidad de respuesta promedió 3-4 segundos por generación. Comparado con los 15-20 segundos que obtenía de la inferencia local con un modelo más pequeño, Nemotron alojado en la nube se sentía como pasar de conexión telefónica a banda ancha.

Qwen3 Coder 480B — El especialista en código

Actualmente el modelo gratuito más potente para programación en OpenRouter, con una ventana de contexto de 262K tokens y benchmarks que lo sitúan cerca del primer puesto en tareas de generación de código.

En las pruebas de landing page y refactorización, Qwen3 Coder superó ligeramente a Nemotron — código más conciso, menos comentarios innecesarios, mejores nombres de variables. El diagnóstico de bugs fue comparable. Donde decayó fue en la tarea agéntica de propósito general. Pídele que investigue y sintetice información fuera de la generación de código puro, y la calidad baja notablemente.

Si tu trabajo es 90 %+ generación de código, Qwen3 Coder podría ser la mejor opción por defecto. Para flujos de trabajo mixtos que incluyen investigación, documentación y razonamiento general junto con programación, la versatilidad de Nemotron gana.

Mantengo Qwen3 Coder disponible como modelo secundario:

export CLAUDE_CODE_ALTERNATE_MODEL="qwen/qwen3-coder-480b:free"

Llama 3.3 70B — La alternativa fiable

Llama 3.3 70B de Meta es el Toyota Corolla de los modelos gratuitos. Nada de él te entusiasmará. Nada de él te frustrará tampoco.

Superó las cuatro pruebas de forma adecuada. La landing page era funcional pero visualmente simple. La refactorización fue correcta pero conservadora — no detectó la condición de carrera. El diagnóstico de bug fue preciso pero la explicación careció de profundidad. La tarea agéntica se completó sin problemas.

Si Nemotron 3 Super sale rotado del plan gratuito (los modelos cambian periódicamente), Llama 3.3 70B es mi respaldo inmediato. La consistencia predecible tiene un valor real cuando dependes de un plan gratuito.

GPT-OSS 120B — Brillante e inestable

El modelo de código abierto de 120B de OpenAI produjo la mejor landing page individual de toda mi batería de pruebas. Diseño limpio. Microinteracciones bien pensadas. Texto que realmente resultaba persuasivo.

Luego ejecuté el mismo prompt de nuevo y obtuve una página con flexbox roto, valores de píxeles codificados a fuego y una tabla de precios que se solapaba en móvil.

Esa inconsistencia es un factor eliminatorio para flujos de trabajo agénticos. Una sola respuesta mala en una cadena de agentes puede propagarse — el modelo escribe un archivo con errores, el siguiente paso intenta construir sobre ese archivo defectuoso, y de repente estás tres iteraciones dentro de errores acumulados. Usaría GPT-OSS para generaciones puntuales donde puedo revisar el resultado de inmediato. Para trabajo agéntico de múltiples pasos, la variabilidad es demasiado alta.

openrouter/free (el auto-router) — No te molestes

OpenRouter ofrece una meta-opción llamada openrouter/free que selecciona automáticamente entre los modelos gratuitos disponibles según tu petición. Lo probé durante un día.

El problema: nunca sabes qué modelo está manejando cada petición. Una respuesta viene de Nemotron, la siguiente de algo completamente diferente con diferentes fortalezas, diferentes peculiaridades, diferente formato de salida. Para una pregunta de chat puntual, está bien. Para un flujo de trabajo agéntico coherente de múltiples pasos donde la consistencia entre llamadas importa, crea caos. Pásalo por alto.

Qué funciona realmente en modelos gratuitos (y qué no)

Las capacidades agénticas de Claude Code son funcionalidades a nivel de framework — operan independientemente del modelo backend. Pero la calidad con la que el modelo impulsa esas capacidades varía. Esto es lo que descubrí tras tres semanas de uso diario.

Funciona perfectamente:

Operaciones del sistema de archivos. Leer, crear, editar, eliminar archivos. El modelo decide el contenido; Claude Code maneja la interacción con el sistema de archivos. Sin diferencia respecto a modelos de pago.

Ejecución de comandos de shell. Instalar paquetes, ejecutar scripts de compilación, ejecutar suites de tests, verificar el estado de Git. El modelo decide qué comandos ejecutar; el agente los ejecuta. Los modelos gratuitos manejan tareas bien definidas aquí con la misma fiabilidad que Opus.

Búsqueda web integrada. La búsqueda web de Claude Code funciona a través del framework de agentes independientemente del modelo backend. Usé Nemotron para investigar documentación de APIs, verificar versiones de paquetes npm y consultar datos de precios actuales. Los resultados de búsqueda vuelven idénticos — el modelo solo necesita formular consultas razonables y sintetizar resultados.

Exploración de código y descubrimiento de archivos. Patrones glob, análisis de estructura de proyecto, mapeo de dependencias. Capacidades a nivel de framework que funcionan independientemente de la calidad del modelo.

Prompts programados. Configurar Claude Code para ejecutar tareas recurrentes — informes diarios, verificaciones automatizadas, revisiones de código periódicas — funciona con modelos gratuitos. Aquí es donde el ahorro de costes se vuelve más dramático. Una tarea programada ejecutándose cuatro veces al día sin coste versus $0,30-$0,50 por ejecución en un modelo de pago ahorra $36-$60 al mes en una sola tarea recurrente.

Funciona con matices:

Planificación compleja de múltiples pasos. Los modelos gratuitos manejan planes de 4-5 pasos con limpieza. Más allá de eso, se saltan pasos, la secuenciación se rompe, o el modelo olvida lo que ya ha hecho. La solución: sé más explícito. En lugar de "construye un sistema de autenticación completo," descompón la tarea tú mismo — "Primero, crea el modelo de usuario. Luego construye el endpoint de registro. Luego construye el endpoint de login con JWT." Más estructura en el prompt compensa menos capacidad de planificación en el modelo.

Coordinación de sub-agentes. Claude Code puede crear sub-agentes para tareas paralelas. Con modelos gratuitos, la ejecución funciona pero la síntesis se vuelve desordenada — el agente principal a veces ignora la salida del sub-agente o fusiona resultados de forma incoherente. Evito flujos de trabajo complejos con sub-agentes en modelos gratuitos a menos que las sub-tareas sean verdaderamente independientes.

No funciona bien:

Razonamiento arquitectónico sobre grandes bases de código. A pesar de la ventana de contexto de 262K tokens de Nemotron, la calidad del razonamiento entre archivos es notablemente más débil que Opus. El modelo puede contener el contexto físicamente pero no razona sobre dependencias entre archivos, patrones de diseño e implicaciones arquitectónicas con la misma profundidad. Para trabajo en un solo archivo o proyectos pequeños, la diferencia apenas se nota. Para un monorepo de 50 archivos con cadenas de dependencias complejas, la sentirás inmediatamente.

Manipulación del historial de Git. Las operaciones básicas — commit, push, creación de ramas — funcionan bien. ¿Rebase interactivo, resolución de conflictos de merge, flujos de trabajo de squash de múltiples commits? Los modelos gratuitos luchan con la precisión y el matiz que estos requieren. Lo aprendí por las malas cuando un modelo gratuito intentó un force push mal razonado. Mantén la complejidad de Git en modelos de pago.

Los límites de velocidad: cifras reales y cómo gestionarlos

El plan gratuito te da 200 peticiones al día y 20 peticiones por minuto. Esos números suenan generosos hasta que ves un flujo de trabajo agéntico en acción.

Una sola tarea de Claude Code como "crea un componente React con tests" puede generar 5-30 llamadas API internamente. Llamadas de planificación. Llamadas de generación de código. Llamadas de escritura de archivos. Llamadas de ejecución de tests. Llamadas de corrección de errores. Una tarde de desarrollo activo consume 200 peticiones más rápido de lo que esperarías.

Estrategia 1: Agrupa tu trabajo. En lugar de usar Claude Code esporádicamente a lo largo del día, concentro las sesiones con modelos gratuitos en bloques enfocados. Mañana: crear esqueletos de componentes y escribir tests. Tarde: investigación y documentación. Así me mantengo cómodamente dentro del límite diario.

Estrategia 2: El truco del depósito de $10. OpenRouter tiene un mecanismo ingenioso — mantén al menos $10 de crédito en tu cuenta, y tu límite diario de peticiones sube a 1.000 incluso para modelos gratuitos. No estás gastando esos créditos en peticiones de modelos gratuitos. Simplemente quedan como saldo. Piénsalo como un depósito reembolsable que quintuplica tu capacidad. Con 1.000 peticiones al día, nunca he estado cerca de agotar el límite durante un día de trabajo completo.

Estrategia 3: Enrutamiento híbrido. Mantengo mis credenciales de Anthropic en un perfil de shell separado. Cuando necesito razonamiento a nivel de Opus o cuando me acerco a mi límite gratuito en un día ocupado, cargo el perfil de Anthropic y cambio de vuelta. Escribí sobre este tipo de asignación estratégica de modelos en mi guía de optimización de costes de agentes IA. La clave es decidir antes de empezar una tarea si necesita un modelo de pago o uno gratuito — cambiar a mitad de tarea desperdicia contexto.

Estrategia 4: Monitoreo en tiempo real. El panel de OpenRouter muestra tu contador de peticiones en vivo. Lo reviso a media tarde. Si estoy en 150/200, muevo las tareas restantes a modelos de pago en lugar de arriesgarme a tocar techo durante algo importante.

La prueba que me convenció: una landing page SaaS en seis minutos

La teoría está bien. La prueba es mejor.

Tres días después de comenzar mi experimento con OpenRouter, le di a Nemotron 3 Super una tarea que normalmente reservaría para Sonnet u Opus:

Build a modern SaaS landing page for a project management tool called "FlowBoard."
Include: hero section with gradient background, feature grid with 4 features and icons,
pricing table with 3 tiers, testimonial section, and footer.
Use Tailwind CSS. Make it responsive. Primary color: indigo. Secondary: slate.

Nemotron planificó el enfoque — un solo archivo HTML con Tailwind CDN, generación componente por componente, diseño responsive mobile-first. Luego empezó a construir.

Seis minutos después, una landing page completa estaba abierta en mi navegador.

La sección hero tenía un degradado limpio de índigo a púrpura que no parecía una plantilla por defecto. El grid de características usaba CSS Grid con Heroicons — el modelo eligió una biblioteca de iconos apropiada sin que se lo pidieran. La tabla de precios tenía tres niveles estructurados con el del medio destacado como "recomendado." La sección de testimonios incluía contenido placeholder de aspecto realista con marcos de avatar circulares.

Los defectos eran específicos y menores: padding uniforme py-16 entre secciones en lugar de espaciado variado para ritmo visual. Un borde de un nivel de precios no se alineaba perfectamente en pantallas móviles pequeñas. Los enlaces del footer necesitaban URLs reales.

Son correcciones de cinco minutos. El 95 % del trabajo — arquitectura del layout, comportamiento responsive, estructura de componentes, sistema de colores, jerarquía tipográfica — estaba hecho. Por un modelo gratuito. Ejecutándose en la nube. En seis minutos.

He construido landing pages profesionalmente. Esta salida me habría tomado 2-3 horas manualmente y se vería más o menos igual. Opus habría clavado los matices de espaciado a la primera, pero para prototipado, demos para clientes y herramientas internas, la salida de Nemotron es más que suficiente.

Esa construcción de seis minutos fue cuando dejé de pensar en los modelos gratuitos como un compromiso y empecé a verlos como una herramienta legítima en el stack.

La evaluación honesta: cuándo los modelos gratuitos te cuestan más de lo que ahorran

Voy a ser directo sobre algo que la mayoría de artículos de "usa IA gratis" se saltan.

Hubo un miércoles por la tarde en que intenté construir un componente de formulario Next.js moderadamente complejo con Nemotron 3 Super. Generación dinámica de campos, lógica de visibilidad condicional, validación en tiempo real, panel de vista previa. No trivial, pero el tipo de cosa que Opus maneja en un solo intento.

Nemotron necesitó tres intentos. El primero tenía un bug sutil de gestión de estado. El segundo corrigió ese bug pero introdujo un problema de renderizado con los campos condicionales. El tercer intento funcionó, pero tuve que corregir manualmente dos casos límite que el modelo pasó por alto.

Tiempo total: aproximadamente 40 minutos. Coste total: 0 €.

Al día siguiente, ejecuté la tarea idéntica con Opus. Un intento. Código limpio. Casos límite correctos. Seis minutos. Coste: unos $0,30 en tokens.

Si mi tiempo vale algo — y el tuyo también — gastar 34 minutos extra para ahorrar $0,30 es objetivamente un mal negocio. Eso es una tarifa por hora efectiva de $0,53. Incluso al salario mínimo, perdiste dinero con el modelo "gratuito."

A esto lo llamo la trampa de la falsa economía. El modelo es gratis. Tu tiempo no.

Los modelos gratuitos tienen sentido económico cuando:

La tarea es lo suficientemente simple como para que el modelo acierte al primer intento
Estás experimentando y la calidad de la salida no importa
Estás aprendiendo y el proceso de depuración en sí es educativo
Ejecutas tareas programadas o en masa con prompts estrictamente definidos
Estás prototipando algo que planeas reconstruir de todos modos

Los modelos de pago tienen sentido económico cuando:

La tarea es lo suficientemente compleja como para que los errores cuesten más tiempo de depuración que la llamada API
Estás escribiendo código de producción donde la fiabilidad importa
Tienes una fecha límite y no puedes permitirte ciclos de iteración
Trabajas con código sensible en seguridad
La base de código es grande y requiere razonamiento profundo entre archivos

El punto óptimo al que he llegado: los modelos gratuitos manejan el 60-70 % de mi uso diario de Claude Code — scaffolding, boilerplate, generación de tests, documentación, investigación, tareas programadas. Los modelos de pago manejan el 30-40 % que requiere razonamiento de primer nivel. La calidad general de mi trabajo no ha bajado. Mis costes mensuales de API se han reducido aproximadamente un 60 %.

Cinco trampas en las que caí para que tú no tengas que hacerlo

Tres semanas de uso diario revelaron estos problemas:

Trampa 1: La factura fantasma de Anthropic. Si tus peticiones tienen éxito pero tu panel de Anthropic sigue mostrando cargos crecientes, no vaciaste correctamente la clave API ni borraste la caché OAuth. Este es el modo de fallo más común y el más caro — piensas que estás en el plan gratuito mientras quemas silenciosamente créditos de pago.

Trampa 2: IDs de modelo cambiantes. Los identificadores de modelos gratuitos en OpenRouter pueden cambiar. Tuve nvidia/nemotron-3-super:free en mi configuración durante dos semanas, y una mañana Claude Code empezó a dar errores. El ID del modelo había cambiado ligeramente en el catálogo de OpenRouter. Si algo deja de funcionar de repente, revisa la página de modelos y actualiza la cadena del ID en tu .zshrc.

Trampa 3: Las instrucciones de CLAUDE.md necesitan ajuste. Si usas un archivo CLAUDE.md de proyecto (y deberías), tus instrucciones probablemente están optimizadas para el modelo con el que las escribiste. Los modelos gratuitos responden de manera diferente a las mismas directivas. Tuve que simplificar algunas instrucciones — frases más cortas, estructura paso a paso más explícita — para obtener resultados consistentes de Nemotron.

Trampa 4: Variación de latencia entre días. El rendimiento de los modelos gratuitos fluctúa con la carga del servidor. Algunos días Nemotron responde en 2 segundos; otros días tarda 5-6 segundos. La calidad de la salida se mantiene consistente, pero las oscilaciones de latencia pueden alterar flujos de trabajo sensibles al tiempo. Incorpora manejo de timeouts en cualquier automatización que dependa de modelos gratuitos.

Trampa 5: Depender demasiado de modelos gratuitos para operaciones Git. Los commits y pushes básicos funcionan bien. Los flujos de trabajo Git complejos — rebase interactivo, resolución de conflictos, reescritura de historial — requieren el tipo de precisión que los modelos gratuitos no ofrecen consistentemente. Un rebase mal razonado puede dañar tu historial de commits. Mantén la complejidad de Git en modelos de pago.

Qué viene para la calidad de los modelos gratuitos

Tres tendencias están haciendo esta configuración más poderosa cada trimestre.

La calidad de los modelos de código abierto se está acelerando. Hace seis meses, los modelos gratuitos no podían generar de forma fiable un componente React funcional. Nemotron 3 Super y Qwen3 Coder producen hoy una salida que rivaliza con lo que Sonnet 3.5 ofrecía hace un año. La brecha entre modelos gratuitos y de pago se está comprimiendo rápidamente. NVIDIA, Meta, Alibaba y Mistral están volcando recursos en modelos de código abierto porque la adopción masiva impulsa sus negocios de infraestructura. Según Artificial Analysis, Nemotron 3 Super ya lidera el benchmark de eficiencia de código abierto — y se lanzó en marzo de 2026.

El catálogo de modelos gratuitos sigue expandiéndose. La colección gratuita de OpenRouter creció de alrededor de 20 modelos a finales de 2025 a 29 en marzo de 2026. Cada adición eleva el suelo de lo que está disponible sin coste. Los incentivos económicos que impulsan la disponibilidad de modelos gratuitos — modelos de negocio basados en adopción, crecimiento del ecosistema de desarrolladores — no van a desaparecer.

El framework de agentes de Claude Code sigue mejorando. Cada actualización que Anthropic lanza para la planificación, el uso de herramientas y las capacidades de sub-agentes de Claude Code beneficia a cada modelo que enrutas a través de él — incluyendo los gratuitos. Mejor andamiaje alrededor de un modelo más débil puede producir resultados que igualen a un modelo más fuerte con menos andamiaje. Ese efecto multiplicador se acumula con el tiempo.

La predicción honesta: dentro de un año, los modelos de código abierto gratuitos manejarán el 80-90 % de las tareas de desarrollo típicas a un nivel de calidad indistinguible de lo que los modelos de pago de gama media ofrecen hoy. Las herramientas para alternar entre gratuito y de pago de forma transparente — siendo OpenRouter la opción más madura ahora mismo — se convertirán en infraestructura estándar para desarrolladores.

Todavía no hemos llegado del todo. Pero ocho minutos de configuración te acercan más de lo que esperarías.

La configuración que cambió mis cuentas de flujo de trabajo

Hace tres semanas, ejecutaba cada tarea de Claude Code a través de la API de Anthropic. Cada scaffold de boilerplate. Cada generación de tests. Cada pasada de documentación. Todo facturado a tarifas premium.

Hoy, esas tareas rutinarias van a Nemotron 3 Super de NVIDIA a través de OpenRouter sin coste alguno. El trabajo de arquitectura compleja, la depuración en producción, los proyectos de clientes — esos siguen en Opus, donde la precisión justifica el precio.

El resultado no es solo ahorro de costes, aunque eso es real — aproximadamente un 60 % de reducción en mi gasto mensual en API. El cambio más grande es psicológico. Cuando cada llamada API cuesta dinero, te autocensuras inconscientemente. Dudas antes de ejecutar consultas exploratorias. Te saltas el experimentar con "déjame probar tres enfoques diferentes" que produce las mejores soluciones. Optimizas para menos llamadas en lugar de mejores resultados.

Cuando el 60 % de tus llamadas son gratis, esa fricción desaparece. Experimentas más. Iteras más rápido. Le pides a Claude Code que pruebe el enfoque especulativo porque el riesgo a la baja es cero. Y a veces ese enfoque especulativo resulta ser el correcto.

La configuración de ocho minutos que te mostré no es solo una optimización de costes. Es una estructura de permisos. Permiso para usar la asistencia de IA de la forma en que mejor funciona — con frecuencia, experimentalmente, sin contar tokens.

Tu tarea para esta noche: crea la cuenta de OpenRouter, configura tres variables de entorno, elige Nemotron 3 Super como tu modelo por defecto, y ejecuta la misma tarea que normalmente enviarías a un modelo de pago. Compara la salida lado a lado. La diferencia es menor de lo que piensas — y para las tareas donde apenas importa, acabas de eliminar la factura por completo.

Preguntas frecuentes

¿Puedo usar Claude Code completamente gratis con OpenRouter?

Sí. Crea una cuenta gratuita en OpenRouter, genera una clave API y configura tres variables de entorno para redirigir Claude Code al endpoint de OpenRouter. No se necesita tarjeta de crédito. Obtienes 200 peticiones al día en 29 modelos de código abierto gratuitos con acceso completo a las funciones agénticas de Claude Code — gestión de archivos, comandos de shell, búsqueda web y prompts programados.

¿Cuál es el mejor modelo gratuito para programar con Claude Code en 2026?

NVIDIA Nemotron 3 Super ofrece el mejor rendimiento general para flujos de trabajo de desarrollo mixtos — generación de código, refactorización, investigación y documentación. Para generación de código puro, Qwen3 Coder 480B es la opción gratuita más potente en OpenRouter. Ambos tienen ventanas de contexto de 262K tokens. Para la comparación completa de modelos, consulta la sección de pruebas arriba.

¿Cómo aumento el límite diario de peticiones de OpenRouter para modelos gratuitos?

Deposita $10 en tu cuenta de OpenRouter. Los créditos no se gastan en peticiones de modelos gratuitos — permanecen como saldo. Pero mantener ese saldo desbloquea 1.000 peticiones diarias en lugar de las 200 por defecto. Para desarrolladores que ejecutan flujos de trabajo agénticos que generan docenas de llamadas API por tarea, este límite ampliado cubre un día de trabajo completo.

¿Pierde Claude Code alguna función al usar modelos que no son de Anthropic?

El framework de agentes — operaciones con archivos, comandos de shell, búsqueda web, tareas programadas, exploración de código — funciona de manera idéntica independientemente del modelo backend. Lo que cambia es la calidad del razonamiento del modelo, la profundidad de planificación y la calidad del código generado. Los modelos gratuitos manejan bien las tareas sencillas pero tienen dificultades con la planificación compleja de múltiples pasos y el razonamiento sobre bases de código grandes en comparación con Opus o Sonnet.

¿Por qué Claude Code sigue cobrando en mi cuenta de Anthropic después de configurar OpenRouter?

Dos causas comunes: no configuraste ANTHROPIC_API_KEY="" en tu perfil de shell (lo que deja activas las credenciales en caché), o no ejecutaste /logout dentro de Claude Code para borrar el token OAuth. Ambos pasos son obligatorios. Verifica tu configuración ejecutando /status dentro de Claude Code — debería mostrar tu modelo y endpoint de OpenRouter, no uno de Anthropic.

Trabajemos juntos

¿Quieres construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudarte.

Fiverr (desarrollos personalizados e integraciones): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io