Ejecuta Gemma 4 gratis en Claude Code usando Ollama

El momento en que dejé de pagar por tokens de IA para programación fue una tarde de martes.

Había estado consumiendo créditos de la API de Claude en una canalización de automatización de contenido — nada exótico, solo un flujo de trabajo multiagente que raspaba, resumía y reformateaba datos de cuatro sitios web. El tipo de proyecto en el que no te das cuenta de que has hecho 400 llamadas a la API hasta que el panel de facturación te envía una notificación educada informándote de que has superado tu límite suave. Otra vez.

Ya había revisado todos los modelos Gemma 4 que Google lanzó el 2 de abril de 2026. Los benchmarks eran sólidos. El modelo Mixture of Experts de 26B me impresionó por su relación velocidad-calidad. Pero aún no había integrado ninguno de ellos en mi herramienta diaria real — Claude Code — como reemplazo completo de la inferencia en la nube. Asumí que la diferencia entre un modelo abierto ejecutándose localmente y los servidores de Anthropic haría que la experiencia fuera frustrante.

Me equivoqué en eso. Espectacularmente equivocado.

En menos de una hora después de configurar Ollama para servir el modelo 26B de Gemma 4 a través del endpoint compatible con Anthropic de Claude Code, tenía exactamente el mismo flujo de trabajo de edición de archivos, llamadas a herramientas, ejecución de bash y programación en múltiples pasos por el que había estado pagando — funcionando completamente en mi propio hardware. Sin clave de API. Sin panel de facturación. Sin datos saliendo de mi máquina. Y lo suficientemente rápido como para que dejara de comprobar si las respuestas eran más lentas que la versión en la nube, porque la mayoría de las veces no había diferencia perceptible.

No es una configuración teórica. Llevo más de una semana usándola en proyectos reales. Aquí tienes exactamente cómo construir el mismo flujo de trabajo, qué modelo de Gemma 4 elegir según tu hardware y dónde la experiencia realmente destaca frente a donde aún se queda corta.

Por qué Gemma 4 específicamente — Y no cualquier otro modelo local

He probado muchos modelos locales a través de Claude Code. Qwen 3.5, Llama 4 Scout, variantes de DeepSeek, modelos Phi. Escribí una guía completa sobre cómo ejecutar Claude Code gratis con Ollama que cubre el enfoque general. Entonces, ¿por qué Gemma 4 merece su propio artículo de configuración?

Tres razones, y se potencian entre sí.

La eficiencia de tokens cambia la ecuación. En mi análisis práctico de Gemma 4, medí que el modelo de 26B utiliza aproximadamente 2,5 veces menos tokens de salida que Qwen 3.5 para tareas equivalentes. Cuando ejecutas modelos localmente, menos tokens significa generación más rápida, menor presión de memoria y ventanas de contexto más cortas consumidas por las propias respuestas del modelo. En un bucle de codificación agente donde Claude Code encadena cinco o seis llamadas a herramientas por tarea, esa diferencia de eficiencia marca la diferencia entre un flujo de trabajo que se siente ágil y otro en el que parece que esperas el autobús.

La llamada nativa a herramientas funciona sin malabares. Google entrenó el uso de herramientas directamente en Gemma 4 — no fue un ajuste fino sobre un modelo base. El efecto práctico: cuando Claude Code le pide a Gemma 4 que lea un archivo, edite una función o ejecute un comando de shell, el modelo formatea la llamada a la herramienta correctamente en el primer intento con mucha más frecuencia que otros modelos de tamaño similar que he probado. La integración de Ollama de abril de 2026 confirma que la llamada a herramientas, la lectura de archivos, la edición de archivos y la ejecución de bash funcionan correctamente a través de la capa de compatibilidad con la API de Anthropic Messages.

La arquitectura Mixture of Experts lo hace rápido en hardware modesto. El modelo de 26B solo activa aproximadamente 3,88 mil millones de parámetros por inferencia. El resto permanece inactivo. Eso significa que un modelo con 26 mil millones de parámetros totales funciona a velocidades que esperarías de un modelo de 4B — aproximadamente 300 tokens por segundo en un Mac Studio M2 Ultra, según los benchmarks de Google. Mis propios números fueron inferiores a esa cifra de referencia, pero aún así más rápidos que cualquier modelo de capacidad comparable que haya ejecutado localmente.

La combinación — velocidad, eficiencia, llamadas a herramientas fiables — convierte a Gemma 4 en el primer modelo local que realmente recomendaría para el uso diario de Claude Code sin advertencias del tipo “es bueno para tareas simples”. Maneja trabajo de codificación real.

Pero antes de instalar nada, necesitas averiguar qué modelo se adapta a tu hardware. Equivocarte aquí te hará perder horas.

Elige el modelo Gemma 4 adecuado para tu hardware

Google lanzó cuatro modelos, y elegir el tamaño incorrecto es el error más común que veo en quienes prueban IA local. Si eliges uno demasiado pequeño, te frustrarás con la calidad de las respuestas. Si optas por uno demasiado grande, la inferencia será lentísima o el modelo ni siquiera cargará.

Aquí tienes la alineación con los requisitos de hardware realistas — no los números optimistas del marketing de Google, sino lo que realmente necesitas para una experiencia usable con Claude Code:

Modelo	Parámetros totales	Parámetros activos	Tamaño de descarga	VRAM/RAM mínima	Hardware ideal
gemma4:e2b	2B	2B	~1,5 GB	4 GB	Teléfono, Raspberry Pi
gemma4:e4b	4B	4B	~9,6 GB	8 GB	MacBook Air, GPU básica
gemma4:26b	26B (MoE)	~3,88B	~18 GB	16 GB	MacBook Pro, RTX 3060+
gemma4:31b	31B (Denso)	31B	~20 GB	24 GB	RTX 4090, Mac Studio

Para Claude Code específicamente, recomiendo empezar con el modelo 26B MoE. La razón es la siguiente: Claude Code necesita al menos 64K tokens de contexto para funcionar correctamente — sus funciones agenticas dependen de mantener en memoria el contenido de archivos, el historial de conversación y las salidas de herramientas al mismo tiempo. El modelo 26B cumple con este requisito de contexto y sigue siendo lo suficientemente rápido para codificación interactiva. El modelo E4B funciona, pero alcanza su límite de calidad en tareas más allá de simples ediciones de archivos y generación de código básica.

Cómo comprobar si tu hardware puede con ello. Antes de descargar 18 GB de pesos de modelo y descubrir que tu máquina no puede ejecutarlo, utiliza un verificador de compatibilidad de hardware. Sitios como WillItRunAI y CanIRun.ai te permiten ingresar el tipo de GPU, VRAM, RAM del sistema y núcleos de GPU para obtener una estimación de compatibilidad. Selecciona la variante de Gemma 4 que te interesa, introduce tus especificaciones y la herramienta te dirá si la inferencia será cómoda, posible pero lenta, o inviable.

Algunos datos concretos de mis pruebas en distintos equipos:

MacBook Pro M4 Pro (48 GB de memoria unificada): El modelo 26B genera aproximadamente 51 tokens por segundo. Muy cómodo para trabajo real de programación.
M2 Pro (16 GB): El modelo 26B alcanza entre 20 y 25 tokens por segundo. Es usable, pero notarás pausas en salidas largas.
RTX 4090 (24 GB VRAM): El modelo 31B denso funciona a unos 41 tokens por segundo. El 26B MoE es significativamente más rápido — supera ampliamente los 60 tokens por segundo.
RTX 3060 (12 GB VRAM): El modelo E4B funciona sin problemas. El modelo 26B cargará con cuantización, pero estarás limitado por la memoria.

Si tienes un Mac con Apple Silicon y 16 GB o más de memoria unificada, el modelo 26B con cuantización Q4_K_M es tu objetivo. Si cuentas con una GPU NVIDIA dedicada y 24 GB de VRAM, puedes ejecutar el modelo 31B denso y obtener la máxima calidad de salida.

Ahora que sabes qué modelo elegir, vamos con la configuración real.

Paso 1: Instalar Ollama

Ollama es el servidor local de modelos que hace posible todo este flujo de trabajo. Piénsalo como el Docker de los modelos de lenguaje: descargas imágenes de modelos, Ollama gestiona el runtime y tus aplicaciones se comunican con él a través de un endpoint API local.

En macOS:

Descarga el instalador desde ollama.com o instala usando Homebrew:

brew install ollama

En Linux:

curl -fsSL https://ollama.com/install.sh | sh

En Windows (vía WSL):

Primero instala WSL si aún no lo tienes, luego sigue las instrucciones de Linux dentro de tu distribución WSL. Existe soporte nativo para Windows, pero WSL te ofrece una experiencia más consistente con Claude Code.

Después de la instalación, verifica que Ollama esté en ejecución:

ollama --version

Deberías ver la versión 0.6.x o superior; las versiones anteriores no incluyen la compatibilidad con la API Anthropic Messages que necesita Claude Code.

Inicia el servidor de Ollama si no se ejecuta automáticamente:

ollama serve

Mantén esto abierto en una pestaña de terminal o configúralo como un servicio en segundo plano. Todos los pasos siguientes dependen de que Ollama esté activo y escuchando en localhost:11434.

Paso 2: Descarga tu modelo Gemma 4

Aquí es donde importa la decisión de hardware que tomaste en la sección anterior. Ejecuta el comando correspondiente al modelo que elegiste:

# Para la mayoría de usuarios — el equilibrio ideal entre velocidad y calidad
ollama pull gemma4:26b

# Para hardware de gama alta — máxima calidad
ollama pull gemma4:31b

# Para equipos más ligeros — aún capaz para tareas básicas de programación
ollama pull gemma4:e4b

El modelo 26B ocupa aproximadamente 18 GB. Con una conexión a internet razonable, espera entre 5 y 15 minutos para la descarga. Ollama gestiona automáticamente toda la cuantización y optimización: no necesitas configurar archivos GGUF ni scripts de conversión manualmente.

Una vez que finalice la descarga, verifica que el modelo se haya cargado correctamente:

ollama run gemma4:26b "Write a Python function that reverses a linked list"

Deberías recibir una respuesta coherente de código en pocos segundos. Si el modelo tarda más de 30 segundos en responder, tu hardware podría estar teniendo dificultades; considera cambiar a la variante E4B.

Configuración crítica: establece la ventana de contexto. Claude Code requiere al menos 64K tokens de contexto para funcionar correctamente. Ollama utiliza por defecto una ventana mucho más pequeña. Crea un Modelfile para sobrescribir este valor:

# Crea un Modelfile personalizado
cat <<EOF > Modelfile
FROM gemma4:26b
PARAMETER num_ctx 65536
EOF

# Crea el modelo personalizado
ollama create gemma4-claude -f Modelfile

Esto crea una nueva variante de modelo llamada gemma4-claude con una ventana de contexto de 65,536 tokens. Utiliza esta variante para todo el trabajo con Claude Code. Sin este paso, Claude Code perderá el seguimiento del contenido de los archivos a mitad de edición, olvidará instrucciones anteriores y generará cambios fragmentados. Aprendí esto por las malas cuando mi agente intentó refactorizar una clase de servicio de 200 líneas y se olvidó por completo de que existía la segunda mitad.

Paso 3: Instala Claude Code

Si aún no tienes Claude Code instalado, la configuración es sencilla en todas las plataformas.

Requisitos previos: Debes tener Node.js 18 o superior instalado en tu sistema.

npm install -g @anthropic-ai/claude-code

Esto instala la CLI de Claude Code de forma global. Funciona en macOS, Linux, Windows y WSL.

Verifica la instalación:

claude --version

Si has estado usando Claude Code con una clave API de Anthropic, no hay problema — vamos a redirigirlo a tu instancia local de Ollama en su lugar.

Paso 4: Conecta Claude Code a Ollama

Aquí es donde ocurre la magia. Le estás indicando a Claude Code que envíe sus solicitudes API a tu servidor local de Ollama en lugar de a la nube de Anthropic.

Configura las variables de entorno. El método exacto depende de tu sistema operativo y shell.

Para macOS/Linux (zsh o bash):

export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY="sk-placeholder"

Agrega estas líneas a tu archivo ~/.zshrc o ~/.bashrc para que sean permanentes:

echo 'export ANTHROPIC_BASE_URL="http://localhost:11434"' >> ~/.zshrc
echo 'export ANTHROPIC_AUTH_TOKEN="ollama"' >> ~/.zshrc
echo 'export ANTHROPIC_API_KEY="sk-placeholder"' >> ~/.zshrc
source ~/.zshrc

Para Windows (PowerShell):

$env:ANTHROPIC_BASE_URL = "http://localhost:11434"
$env:ANTHROPIC_AUTH_TOKEN = "ollama"
$env:ANTHROPIC_API_KEY = "sk-placeholder"

Para hacer estas variables permanentes en Windows, agrégalas desde Propiedades del sistema > Variables de entorno o en tu perfil de PowerShell.

¿Qué está sucediendo aquí? Ollama expone un endpoint API que imita la API de Mensajes de Anthropic. Claude Code no nota la diferencia. Envía solicitudes a lo que cree que es el servidor de Anthropic, Ollama las intercepta, las redirige a tu modelo local Gemma 4 y devuelve las respuestas en el formato exacto que espera Claude Code. El valor de ANTHROPIC_API_KEY no importa — solo necesita no estar vacío para que Claude Code no se queje de una clave faltante.

Paso 5: Iniciar y Verificar

Ahora inicia Claude Code con tu modelo local de Gemma 4:

claude --model gemma4-claude

Si creaste el Modelfile personalizado con la ventana de contexto de 65K, utiliza gemma4-claude. Si saltaste ese paso (no lo hagas), usa directamente gemma4:26b.

Deberías ver que se carga la interfaz de Claude Code. Prueba un comando sencillo para verificar que todo está conectado:

> Lee el directorio actual y lista todos los archivos

Claude Code debería usar su herramienta de lectura de archivos, llamar al modelo local Gemma 4 a través de Ollama y devolver un listado de directorio formateado. Si esto funciona, toda tu pila está activa: el kit de herramientas completo de Claude Code funcionando con un modelo gratuito, privado y local.

Solución de problemas comunes:

Error "Connection refused": El servidor de Ollama no está en ejecución. Abre una terminal aparte y ejecuta ollama serve.
Respuestas extremadamente lentas: Tu modelo es demasiado grande para tu hardware. Cambia a una variante más pequeña o aumenta la descarga en GPU con OLLAMA_NUM_GPU=99.
Claude Code se bloquea con archivos largos: La ventana de contexto es demasiado pequeña. Asegúrate de haber creado el Modelfile personalizado con num_ctx 65536.
Fallas en las llamadas a herramientas: Confirma que estás usando Ollama 0.6.x o superior. Las versiones anteriores no soportan completamente el formato de llamadas a herramientas que requiere Claude Code.

Si prefieres que alguien construya esta configuración desde cero — adaptada a tu hardware específico y optimizada para tu flujo de trabajo — me dedico precisamente a este tipo de implementaciones. Puedes ver lo que he hecho en fiverr.com/s/EgxYmWD.

Qué Funciona Realmente — Tareas de Programación Reales que He Ejecutado

Las guías de configuración no sirven de nada sin un reporte honesto de rendimiento. Llevo más de una semana usando este stack de Gemma 4 + Ollama + Claude Code en proyectos reales. Aquí detallo en qué destaca y dónde falla.

Generación de interfaces frontend — sobresaliente. Le pedí al modelo de 26B, a través de Claude Code, que generara la estructura de un dashboard en React con barra lateral, tabla de datos, componente de gráficos y un interruptor de modo oscuro. El resultado fue limpio. Separación adecuada de componentes. Clases de Tailwind bien combinadas. Gestión de estado con hooks de React sin complicaciones innecesarias. Para prototipos y herramientas internas, esto elimina por completo mi necesidad de usar la API.

Edición de archivos múltiples — fiable. El flujo de trabajo de edición multiarchivo de Claude Code — leer un archivo, proponer cambios, aplicarlos, ejecutar pruebas — funciona correctamente a través del puente de Ollama. El modelo Gemma 4 26B formatea bien sus llamadas a herramientas, gestiona rutas de archivos sin confusiones y realiza ediciones precisas en vez de reescribir archivos completos. Lo probé en un proyecto Laravel con más de 40 archivos y navegó por la base de código sin perder contexto.

Refactorización de código — buena, con límites. Le pedí que refactorizara un controlador de 300 líneas en clases de servicio con inyección de dependencias. El modelo de 26B dividió la lógica en tres servicios con interfaces correctas e inyección por constructor. Las convenciones de nombres eran razonables. Donde falló: el archivo de pruebas que generó para uno de los servicios tenía un pequeño error de espacio de nombres. Una corrección de dos segundos, pero vale la pena mencionarlo — Claude Opus en la nube habría acertado a la primera.

Generación y ejecución de comandos Bash — excelente. Una de las funciones más útiles de Claude Code es generar y ejecutar comandos de terminal. Gemma 4 lo gestiona con confianza a través de Ollama. Operaciones Git, comandos npm, gestión de Docker, manipulación del sistema de archivos — el modelo entiende los flujos de trabajo en línea de comandos y genera instrucciones correctas para el sistema operativo en el que se ejecuta.

Flujos de trabajo complejos de agentes multi-paso — aquí está el límite. Cuando configuré un pipeline de cinco pasos — extraer una web, obtener datos estructurados, transformarlos, guardarlos en una base de datos y luego generar un informe resumen — el modelo de 26B completó bien los primeros cuatro pasos, pero se confundió en el informe, refiriéndose a datos del segundo paso en vez del cuarto. Ejecutando el mismo pipeline con el modelo denso de 31B se resolvió el problema. Esto coincide con lo que encontré en mi review completa de Gemma 4: el modelo de 26B es excepcional para tareas de tres o cuatro pasos de razonamiento, pero empieza a perder precisión en cadenas más largas.

Tareas multimodales — una sorpresa genuina. Gemma 4 soporta visión de forma nativa, y esto funciona a través del puente Ollama + Claude Code. Le pasé una captura de pantalla de un diseño de Figma y le pedí que generara el HTML/CSS correspondiente. Identificó la estructura del layout, la paleta de colores y las tipografías con una precisión razonable. No es perfecto a nivel de píxel, pero lo suficientemente cercano como para que el resultado sea un punto de partida útil y no una hoja en blanco.

El patrón que sigo: uso la configuración local de Gemma 4 para el 80% de mis tareas de programación — edición de archivos, scaffolding, refactorización, generación de comandos, prototipos rápidos. Cambio a Claude Opus en la nube para el 20% restante que requiere razonamiento multi-paso profundo, decisiones arquitectónicas complejas o manejo de bases de código con interdependencias intrincadas.

Los compromisos honestos: lo que pierdes al ir local

Te estaría engañando si te dijera que esto es un reemplazo directo del servicio en la nube de Anthropic. No lo es. Esto es lo que sacrificas.

El almacenamiento en caché de prompts no funciona. El almacenamiento en caché de prompts de Anthropic —que acelera drásticamente las conversaciones repetidas al guardar en caché el prompt del sistema y el contexto inicial— no está disponible a través de la capa de compatibilidad de Ollama a abril de 2026. Cada solicitud procesa el contexto completo desde cero. Para interacciones cortas esto no importa. Pero en sesiones largas de codificación donde construyes sobre más de 30 turnos de conversación, notarás el aumento de latencia a medida que crece el contexto.

tool_choice no es compatible. Claude Code a veces utiliza tool_choice para forzar una llamada a una herramienta específica —por ejemplo, insistiendo en que el modelo debe leer un archivo antes de editarlo—. Este parámetro no está soportado en el modo de compatibilidad con la API de Anthropic de Ollama. En la práctica, Gemma 4 sigue llamando a las herramientas correctas voluntariamente la mayoría de las veces, pero ocasionalmente el modelo intentará responder de memoria cuando debería estar leyendo el archivo. Es una molestia menor, no un factor decisivo.

El techo de razonamiento es real. El modelo de 26B de Gemma 4 obtiene una puntuación de 31 en el índice de inteligencia que sigo entre modelos. Qwen 3.5 obtiene 42. Claude Opus puntúa significativamente más alto. En tareas que requieren verdadera novedad —diseñar un algoritmo para un problema único, detectar errores lógicos sutiles en lógica empresarial compleja, tomar decisiones arquitectónicas que consideren ocho restricciones diferentes— notarás la diferencia. El modelo te da un primer borrador sólido. Llevar ese borrador a producción a veces requiere un refinamiento humano que los modelos en la nube manejan automáticamente.

Sin streaming en algunas plataformas. Dependiendo de tu versión de Ollama y sistema operativo, las respuestas en streaming pueden no funcionar perfectamente. Puede que veas toda la respuesta aparecer de golpe en lugar de token por token. Los resultados son funcionalmente idénticos, pero la experiencia se siente menos interactiva.

Tú eres responsable de las actualizaciones. Cuando Anthropic actualiza Claude, recibes las mejoras automáticamente. Con un modelo local, necesitas descargar manualmente las nuevas versiones de Gemma 4 a medida que Google lanza mejoras de cuantización, correcciones de errores y variantes ajustadas. La comunidad es activa, pero sigue siendo un proceso manual.

Ninguno de estos puntos arruinó mi flujo de trabajo. Las ventajas de privacidad, velocidad y coste cero superan las limitaciones para la mayoría de mis tareas diarias de programación. Pero entra con expectativas claras.

Más allá de la programación: Qué más puede hacer este stack

Una vez que tienes Gemma 4 ejecutándose dentro de Claude Code a través de Ollama, no estás limitado a escribir código. El framework agentico admite cualquier flujo de trabajo que puedas expresar como una secuencia de llamadas a herramientas.

Redacción automática de correos electrónicos. Conecta Claude Code a tu sistema de archivos local donde residen las plantillas de correo, describe los emails que necesitas y el agente genera borradores personalizados. Todo local. Ningún contenido de correo electrónico toca servidores externos.

Investigación de leads y scraping. La ejecución de bash en Claude Code combinada con el razonamiento de Gemma 4 te permite construir pipelines de scraping sencillos. Extrae datos de fuentes públicas, obtén información estructurada y formátala para tu CRM. He configurado prompts programados de Ollama dentro de Claude Code que ejecutan este tipo de tareas en intervalos — recolección de datos automatizada sin depender de la nube.

Análisis y resumen de documentos. Pasa PDFs, archivos markdown o documentación de código por el pipeline y obtén resúmenes estructurados. La capacidad multimodal permite incluso procesar capturas de pantalla y diagramas.

Integraciones con Slack y espacios de trabajo. A través de servidores MCP (Model Context Protocol) y el ecosistema de herramientas de Claude Code, puedes conectar tu agente local de Gemma 4 a Slack, Google Workspace y otras herramientas de productividad. El modelo se encarga del razonamiento; las conexiones de herramientas gestionan las acciones. Todo se ejecuta en tu máquina.

El hilo conductor: cualquier flujo de trabajo donde la privacidad de los datos sea importante, donde quieras coste marginal cero por consulta, o donde necesites ejecutar cientos de solicitudes automatizadas sin preocuparte por límites de uso. Aquí es donde los modelos locales no solo igualan a los servicios en la nube — los superan.

Qué Haría Diferente al Configurar Esto por Segunda Vez

Después de una semana de uso diario, aquí van algunas optimizaciones que me habrían ahorrado tiempo desde el primer día.

Establece OLLAMA_NUM_GPU=99 desde el principio. Esto le indica a Ollama que descargue la mayor cantidad posible de capas del modelo en la GPU. Pasé dos días preguntándome por qué mi modelo de 26B era más lento de lo esperado antes de descubrir que Ollama ejecutaba la mitad de las capas en la CPU por defecto. Una sola variable de entorno lo solucionó:

export OLLAMA_NUM_GPU=99

Crea el Modelfile de contexto 65K antes de tu primera sesión con Claude Code. Empecé con la ventana de contexto predeterminada de Ollama — 8K o 16K según el modelo — y no entendía por qué Claude Code perdía el seguimiento de los archivos. El mínimo de 65K no es opcional. Es un requisito para que las funciones agenticas de Claude Code funcionen correctamente.

Mantén una opción de respaldo en la nube configurada. No eliminé mi clave API de Anthropic — creé un simple alias de shell que alterna entre los modos local y en la nube:

alias claude-local='ANTHROPIC_BASE_URL=http://localhost:11434 ANTHROPIC_AUTH_TOKEN=ollama claude --model gemma4-claude'
alias claude-cloud='ANTHROPIC_BASE_URL=https://api.anthropic.com claude'

Cuando el modelo local se queda corto en una tarea compleja, cambio al modo en la nube en dos segundos. Lo mejor de ambos mundos.

Monitorea tu VRAM. Si usas una máquina compartida o ejecutas otras aplicaciones que consumen mucha GPU junto con Ollama, la competencia por la VRAM degradará el rendimiento silenciosamente. En macOS, el Monitor de Actividad muestra el uso de memoria unificada. En Linux con NVIDIA, ejecuta nvidia-smi para comprobar la asignación de memoria de la GPU. Si tu modelo compite por la VRAM con un navegador que reproduce video acelerado por GPU, te preguntarás por qué la inferencia de repente es tres veces más lenta.

El panorama general — Por qué esto importa más allá de las llamadas API gratuitas

Ahorrar dinero en tokens de IA es el beneficio obvio. Pero después de una semana usando este flujo de trabajo, lo que más resalto no es el costo.

Es el control.

Cada línea de código que genero con este stack permanece en mi máquina. Cada proyecto que analizo, cada archivo que leo, cada comando que ejecuto — nada de eso toca un servidor externo. Para trabajos de clientes con acuerdos de confidencialidad, para bases de código propietarias, para cualquier cosa que implique datos sensibles, eso no es una simple comodidad. Es un requisito de cumplimiento que se resuelve con arquitectura, no con acuerdos legales.

La velocidad es el segundo aspecto que me sorprendió. Sin latencia de red —sin viajes de ida y vuelta a un centro de datos, sin hacer cola detrás de las solicitudes de otros usuarios— los tiempos de respuesta dependen únicamente de mi hardware. Durante las horas pico, cuando las APIs en la nube se ralentizan, mi configuración local mantiene la misma velocidad. A las 2 de la mañana, cuando estoy en pleno flujo de código y lanzando prompts sin parar, no hay límites de tasa que me frenen.

Y la lógica de escalabilidad se invierte. Con APIs en la nube, más uso significa más costo. Con inferencia local, el costo es fijo — ya posees el hardware. Hagas 10 consultas o 10,000, tu factura de electricidad apenas varía. Para flujos de trabajo agentivos que encadenan docenas de llamadas a herramientas por tarea, esto hace viables arquitecturas que serían absurdamente costosas con facturación en la nube.

Que Google haya liberado Gemma 4 bajo Apache 2.0 — la licencia open-source más permisiva disponible — elimina la última barrera legal. Sin límites de usuarios activos mensuales como la licencia de Llama de Meta. Sin políticas de uso aceptable que se apliquen. Libertad comercial total. Puedes construir productos sobre esto, enviarlos a clientes y no deberle a nadie una tarifa de licencia ni un informe de uso.

El futuro del desarrollo asistido por IA no es elegir entre la nube y lo local. Es ejecutar ambos — derivando tareas simples a tu instancia local de Gemma 4 para velocidad y privacidad, y escalando razonamientos complejos a Claude Opus o GPT cuando necesitas capacidades de frontera. Esta configuración es ese futuro híbrido, disponible hoy, funcionando ahora mismo.

Un comando para descargar el modelo. Tres variables de entorno para conectarlo. Veinte minutos desde que lees esta frase hasta que tienes un agente de codificación con IA gratuito corriendo en tu propio hardware.

La única pregunta que queda es qué vas a construir con ello.

Preguntas Frecuentes

¿Funciona Gemma 4 con todas las funciones de Claude Code a través de Ollama?

La lectura y edición de archivos, la ejecución de bash y la llamada a herramientas funcionan correctamente a partir de abril de 2026. El almacenamiento en caché de prompts y tool_choice (selección forzada de herramienta) no están soportados a través de la capa de compatibilidad de Ollama. Para una comparación completa de capacidades, consulta la sección de compensaciones más arriba.

¿Qué modelo de Gemma 4 es el mejor para Claude Code?

El modelo 26B MoE ofrece el mejor equilibrio entre velocidad y calidad para la mayoría del hardware. Activa solo 3,88 mil millones de parámetros por inferencia y entrega una calidad de salida cercana a la variante densa de 31B. Necesitas al menos 16 GB de RAM y debes configurar una ventana de contexto de 65K tokens.

¿Qué tan rápido es Gemma 4 ejecutándose localmente comparado con Claude en la nube?

En un MacBook Pro M4 Pro con 48 GB de memoria, el modelo 26B genera aproximadamente 51 tokens por segundo. Una RTX 4090 lleva el modelo 31B a unos 41 tokens por segundo. Claude en la nube suele ser más rápido en rendimiento bruto, pero la inferencia local elimina la latencia de red: el tiempo de respuesta del primer token suele ser comparable.

¿Puedo ejecutar Gemma 4 en un MacBook Air o portátil económico?

El modelo E4B (4 mil millones de parámetros) funciona en máquinas con 8 GB de RAM y maneja tareas básicas de programación. Para flujos de trabajo serios con Claude Code, necesitas el modelo 26B con un mínimo de 16 GB. El modelo E2B funciona prácticamente en cualquier equipo, pero es demasiado limitado para programación agente significativa.

¿Esta configuración es realmente gratuita y sin costes ocultos?

Gemma 4 tiene licencia Apache 2.0 — gratis para cualquier uso, incluido el comercial. Ollama es open source. Claude Code CLI es gratuito para instalar. El único coste es tu hardware y electricidad. Sin claves API, sin suscripciones, sin seguimiento de uso, sin datos saliendo de tu máquina.

Trabajemos Juntos

¿Buscas construir sistemas de IA, automatizar flujos de trabajo o escalar tu infraestructura tecnológica? Me encantaría ayudarte.

Fiverr (desarrollos e integraciones a medida): fiverr.com/s/EgxYmWD
Portafolio: mejba.me
Ramlit Limited (soluciones empresariales): ramlit.com
ColorPark (diseño y branding): colorpark.io
xCyberSecurity (servicios de seguridad): xcybersecurity.io

Ejecuta Gemma 4 gratis en Claude Code usando Ollama