Gemma kostenlos mit Ollama direkt in Claude Code ausführen
Der Moment, in dem ich aufgehört habe, für AI-Coding-Tokens zu bezahlen, war an einem Dienstagnachmittag.
Ich hatte gerade wieder Claude-API-Credits in einer Content-Automation-Pipeline verbrannt – nichts Exotisches, einfach ein Multi-Agent-Workflow, der Daten von vier Websites scrapte, zusammenfasste und neu formatierte. So ein Projekt, bei dem man erst merkt, dass man 400 API-Aufrufe gemacht hat, wenn das Abrechnungs-Dashboard eine höfliche Benachrichtigung schickt, dass man das Soft-Limit überschritten hat. Schon wieder.
Ich hatte bereits jedes Gemma 4 Modell getestet, das Google am 2. April 2026 veröffentlicht hatte. Die Benchmarks waren solide. Das 26B Mixture of Experts-Modell hat mich mit seinem Verhältnis von Geschwindigkeit zu Qualität beeindruckt. Aber ich hatte keines davon als vollständigen Ersatz für Cloud-Inferenz in mein eigentliches tägliches Tool – Claude Code – eingebunden. Ich ging davon aus, dass die Lücke zwischen einem lokal laufenden Open Model und den Servern von Anthropic das Erlebnis frustrierend machen würde.
Ich lag damit falsch. Spektakulär falsch.
Innerhalb einer Stunde, nachdem ich Ollama so konfiguriert hatte, dass es das 26B-Modell von Gemma 4 über den Anthropic-kompatiblen Endpoint von Claude Code bereitstellt, hatte ich denselben Datei-Editor, Tool-Aufrufe, Bash-Ausführung und Multi-Step-Coding-Workflow, für den ich vorher bezahlt hatte – und das komplett auf meiner eigenen Hardware. Kein API-Key. Kein Abrechnungs-Dashboard. Keine Daten verlassen meinen Rechner. Und schnell genug, dass ich aufgehört habe zu prüfen, ob die Antworten langsamer als die Cloud-Version sind, weil sie meistens keinen spürbaren Unterschied machten.
Das ist kein theoretisches Setup. Ich nutze es jetzt seit über einer Woche in echten Projekten. Hier erfährst du genau, wie du denselben Workflow aufbaust, welches Gemma 4 Modell du für deine Hardware wählen solltest und wo das Erlebnis wirklich glänzt – und wo es noch Schwächen gibt.
Warum gerade Gemma 4 — und kein anderes lokales Modell
Ich habe viele lokale Modelle mit Claude Code getestet: Qwen 3.5, Llama 4 Scout, DeepSeek-Varianten, Phi-Modelle. Ich habe einen kompletten Leitfaden zum kostenlosen Einsatz von Claude Code mit Ollama geschrieben, der den allgemeinen Ansatz beschreibt. Warum also verdient Gemma 4 einen eigenen Setup-Artikel?
Drei Gründe, die sich gegenseitig verstärken.
Token-Effizienz verändert die Gleichung. In meinem praktischen Gemma 4-Test habe ich gemessen, dass das 26B-Modell für vergleichbare Aufgaben etwa 2,5-mal weniger Ausgabetokens benötigt als Qwen 3.5. Wenn du lokal arbeitest, bedeuten weniger Tokens schnellere Generierung, geringere Speicherbelastung und kürzere Kontextfenster, die von den Antworten des Modells belegt werden. In einer agentenbasierten Coding-Schleife, in der Claude Code fünf oder sechs Tool-Aufrufe pro Aufgabe verkettet, entscheidet diese Effizienzlücke darüber, ob sich der Workflow reaktionsschnell anfühlt oder ob du das Gefühl hast, auf den Bus zu warten.
Native Tool-Nutzung funktioniert ohne Verrenkungen. Google hat die Tool-Nutzung direkt in Gemma 4 trainiert — sie wurde nicht nachträglich auf ein Basismodell feinjustiert. Das hat zur Folge: Wenn Claude Code Gemma 4 bittet, eine Datei zu lesen, eine Funktion zu bearbeiten oder einen Shell-Befehl auszuführen, formatiert das Modell den Tool-Aufruf beim ersten Versuch deutlich häufiger korrekt als andere Modelle ähnlicher Größe, die ich getestet habe. Ollamas Integration vom April 2026 bestätigt, dass Tool-Aufrufe, Dateilesen, Dateiänderungen und Bash-Ausführungen über die Anthropic Messages API-Kompatibilitätsschicht einwandfrei funktionieren.
Die Mixture-of-Experts-Architektur macht es schnell auf moderater Hardware. Das 26B-Modell aktiviert pro Inferenzaufruf nur etwa 3,88 Milliarden Parameter. Der Rest bleibt inaktiv. Das bedeutet: Ein Modell mit insgesamt 26 Milliarden Parametern läuft mit einer Geschwindigkeit, wie man sie von einem 4B-Modell erwarten würde — laut Googles Benchmarks etwa 300 Tokens pro Sekunde auf einem Mac Studio M2 Ultra. Meine eigenen Werte lagen unter dieser Spitzenzahl, waren aber immer noch schneller als jedes vergleichbar leistungsfähige Modell, das ich lokal getestet habe.
Die Kombination — schnelle, effiziente, zuverlässige Tool-Nutzung — macht Gemma 4 zum ersten lokalen Modell, das ich für den täglichen Einsatz mit Claude Code tatsächlich ohne Einschränkungen empfehlen würde. Es bewältigt echte Programmieraufgaben.
Bevor du jedoch irgendetwas installierst, musst du herausfinden, welches Modell zu deiner Hardware passt. Wenn du hier einen Fehler machst, verschwendest du Stunden.
Wählen Sie das richtige Gemma 4 Modell für Ihre Hardware
Google hat vier Modelle veröffentlicht, und die falsche Modellgröße zu wählen, ist der häufigste Fehler, den ich bei lokalen KI-Setups sehe. Ist das Modell zu klein, frustriert die Output-Qualität. Ist es zu groß, wird die Inferenz quälend langsam oder das Modell lädt gar nicht erst.
Hier die Übersicht mit realistischen Hardware-Anforderungen – nicht Googles optimistische Marketingzahlen, sondern das, was Sie tatsächlich für ein nutzbares Claude Code-Erlebnis brauchen:
| Modell | Gesamt-Parameter | Aktive Parameter | Download-Größe | Mindest-VRAM/RAM | Empfohlene Hardware |
|---|---|---|---|---|---|
| gemma4:e2b | 2B | 2B | ~1,5 GB | 4 GB | Smartphone, Raspberry Pi |
| gemma4:e4b | 4B | 4B | ~9,6 GB | 8 GB | MacBook Air, Einsteiger-GPU |
| gemma4:26b | 26B (MoE) | ~3,88B | ~18 GB | 16 GB | MacBook Pro, RTX 3060+ |
| gemma4:31b | 31B (Dense) | 31B | ~20 GB | 24 GB | RTX 4090, Mac Studio |
Für Claude Code empfehle ich ausdrücklich, mit dem 26B MoE-Modell zu starten. Der Grund: Claude Code benötigt mindestens 64K Token Kontext, um sinnvoll zu funktionieren – die agentischen Features verlassen sich darauf, Datei-Inhalte, Gesprächsverlauf und Tool-Ausgaben gleichzeitig im Speicher zu halten. Das 26B-Modell erfüllt diese Kontext-Anforderung und bleibt dabei schnell genug für interaktives Coding. Das E4B-Modell funktioniert, stößt aber bei allem über einfache Datei-Edits und unkomplizierte Code-Generierung hinaus an Qualitätsgrenzen.
So prüfen Sie, ob Ihre Hardware geeignet ist. Bevor Sie 18 GB Modellgewichte herunterladen und dann feststellen, dass Ihr Rechner es nicht packt, nutzen Sie einen Hardware-Kompatibilitäts-Checker. Seiten wie WillItRunAI und CanIRun.ai erlauben die Eingabe von GPU-Typ, VRAM, System-RAM und GPU-Kernen, um eine Kompatibilitätseinschätzung zu erhalten. Wählen Sie die gewünschte Gemma 4-Variante, geben Sie Ihre Spezifikationen ein, und das Tool sagt Ihnen, ob die Inferenz komfortabel, möglich-aber-langsam oder nicht machbar ist.
Einige konkrete Ergebnisse aus meinen Tests auf verschiedenen Systemen:
- MacBook Pro M4 Pro (48 GB Unified Memory): Das 26B-Modell generiert etwa 51 Token pro Sekunde. Sehr angenehm für echtes Coding.
- M2 Pro (16 GB): Das 26B-Modell schafft 20–25 Token pro Sekunde. Nutzbar, aber bei längeren Ausgaben merkt man die Pausen.
- RTX 4090 (24 GB VRAM): Das 31B Dense-Modell läuft mit etwa 41 Token pro Sekunde. Das 26B MoE ist deutlich schneller – weit über 60 Token pro Sekunde.
- RTX 3060 (12 GB VRAM): Das E4B-Modell läuft flüssig. Das 26B-Modell lädt mit Quantisierung, aber der Speicher wird knapp.
Wenn Sie ein Apple Silicon Mac mit 16 GB oder mehr Unified Memory besitzen, ist das 26B-Modell mit Q4_K_M-Quantisierung Ihre beste Wahl. Mit einer dedizierten NVIDIA-GPU und 24 GB VRAM können Sie das 31B Dense-Modell nutzen und erhalten die höchste Output-Qualität.
Jetzt, da Sie wissen, welches Modell Sie wählen sollten, folgt das eigentliche Setup.
Schritt 1: Ollama installieren
Ollama ist der lokale Modellserver, der diesen gesamten Workflow ermöglicht. Man kann es sich wie Docker für Sprachmodelle vorstellen – Sie laden Modell-Images herunter, Ollama verwaltet die Laufzeitumgebung, und Ihre Anwendungen kommunizieren über einen lokalen API-Endpunkt mit dem Server.
Unter macOS:
Laden Sie das Installationsprogramm von ollama.com herunter oder installieren Sie Ollama über Homebrew:
brew install ollama
Unter Linux:
curl -fsSL https://ollama.com/install.sh | sh
Unter Windows (über WSL):
Installieren Sie zunächst WSL, falls noch nicht geschehen, und folgen Sie dann den Linux-Anweisungen innerhalb Ihrer WSL-Distribution. Es gibt zwar native Windows-Unterstützung, aber WSL bietet eine konsistentere Erfahrung mit Claude Code.
Nach der Installation überprüfen Sie, ob Ollama läuft:
ollama --version
Sie sollten Version 0.6.x oder neuer sehen – frühere Versionen enthalten noch keine Kompatibilität mit der Anthropic Messages API, die Claude Code benötigt.
Starten Sie den Ollama-Server, falls er nicht automatisch läuft:
ollama serve
Lassen Sie diesen Prozess in einem Terminal-Tab laufen oder richten Sie ihn als Hintergrunddienst ein. Jeder weitere Schritt hängt davon ab, dass Ollama aktiv ist und auf localhost:11434 lauscht.
Schritt 2: Lade dein Gemma 4 Modell herunter
Hier kommt deine Hardware-Entscheidung aus dem vorherigen Abschnitt ins Spiel. Führe den Befehl für das von dir gewählte Modell aus:
# Für die meisten Nutzer — das optimale Verhältnis aus Geschwindigkeit und Qualität
ollama pull gemma4:26b
# Für High-End-Hardware — maximale Qualität
ollama pull gemma4:31b
# Für leichtere Setups — immer noch fähig für grundlegendes Coding
ollama pull gemma4:e4b
Das 26B-Modell ist etwa 18 GB groß. Mit einer vernünftigen Internetverbindung dauert der Download etwa 5–15 Minuten. Ollama übernimmt die gesamte Quantisierung und Optimierung automatisch — du musst keine GGUF-Dateien oder Konvertierungsskripte manuell konfigurieren.
Sobald der Download abgeschlossen ist, überprüfe, ob das Modell korrekt geladen wurde:
ollama run gemma4:26b "Write a Python function that reverses a linked list"
Du solltest innerhalb weniger Sekunden eine schlüssige Code-Antwort erhalten. Falls das Modell länger als 30 Sekunden für eine Antwort benötigt, ist deine Hardware möglicherweise überfordert — in diesem Fall solltest du auf die E4B-Variante wechseln.
Kritische Konfiguration: Setze das Kontextfenster. Claude Code benötigt mindestens 64.000 Token Kontext, um korrekt zu funktionieren. Ollama verwendet standardmäßig ein deutlich kleineres Fenster. Erstelle eine Modelfile, um dies zu überschreiben:
# Erstelle eine benutzerdefinierte Modelfile
cat <<EOF > Modelfile
FROM gemma4:26b
PARAMETER num_ctx 65536
EOF
# Erstelle das benutzerdefinierte Modell
ollama create gemma4-claude -f Modelfile
Damit wird eine neue Modellvariante namens gemma4-claude mit einem Kontextfenster von 65.536 Token erstellt. Verwende diese Variante für alle Arbeiten mit Claude Code. Ohne diesen Schritt verliert Claude Code während des Editierens den Überblick über Dateiinhalte, vergisst frühere Anweisungen und produziert fragmentierte Änderungen. Das habe ich schmerzhaft gelernt, als mein Agent versuchte, eine 200-zeilige Service-Klasse zu refaktorisieren und dabei die zweite Hälfte schlicht vergaß.
Schritt 3: Claude Code installieren
Falls Claude Code noch nicht installiert ist, ist die Einrichtung auf allen Plattformen unkompliziert.
Voraussetzungen: Node.js 18+ muss auf deinem System installiert sein.
npm install -g @anthropic-ai/claude-code
Damit wird die Claude Code CLI global installiert. Sie funktioniert auf macOS, Linux, Windows und WSL.
Überprüfe die Installation:
claude --version
Falls du Claude Code bereits mit einem Anthropic API-Schlüssel genutzt hast, ist das kein Problem — wir werden es gleich so konfigurieren, dass es mit deiner lokalen Ollama-Instanz arbeitet.
Schritt 4: Verbinde Claude Code mit Ollama
Hier geschieht die Magie. Du weist Claude Code an, seine API-Anfragen an deinen lokalen Ollama-Server zu senden, statt an die Cloud von Anthropic.
Setze die Umgebungsvariablen. Die genaue Vorgehensweise hängt von deinem Betriebssystem und deiner Shell ab.
Für macOS/Linux (zsh oder bash):
export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_AUTH_TOKEN="ollama"
export ANTHROPIC_API_KEY="sk-placeholder"
Füge diese Variablen deiner ~/.zshrc oder ~/.bashrc hinzu, um sie dauerhaft zu speichern:
echo 'export ANTHROPIC_BASE_URL="http://localhost:11434"' >> ~/.zshrc
echo 'export ANTHROPIC_AUTH_TOKEN="ollama"' >> ~/.zshrc
echo 'export ANTHROPIC_API_KEY="sk-placeholder"' >> ~/.zshrc
source ~/.zshrc
Für Windows (PowerShell):
$env:ANTHROPIC_BASE_URL = "http://localhost:11434"
$env:ANTHROPIC_AUTH_TOKEN = "ollama"
$env:ANTHROPIC_API_KEY = "sk-placeholder"
Für permanente Windows-Variablen füge diese über Systemsteuerung > Umgebungsvariablen oder dein PowerShell-Profil hinzu.
Was hier passiert: Ollama stellt einen API-Endpunkt bereit, der die Messages API von Anthropic nachahmt. Claude Code bemerkt keinen Unterschied. Es sendet Anfragen an das, was es für den Server von Anthropic hält, Ollama fängt sie ab, leitet sie an dein lokales Gemma 4 Modell weiter und liefert Antworten exakt im Format zurück, das Claude Code erwartet. Der Wert von ANTHROPIC_API_KEY ist dabei egal — er muss nur gesetzt sein, damit Claude Code sich nicht über einen fehlenden Schlüssel beschwert.
Schritt 5: Starten und Überprüfen
Jetzt starten Sie Claude Code mit Ihrem lokalen Gemma 4-Modell:
claude --model gemma4-claude
Wenn Sie die benutzerdefinierte Modelfile mit dem 65K-Kontextfenster erstellt haben, verwenden Sie gemma4-claude. Falls Sie diesen Schritt übersprungen haben (überspringen Sie ihn nicht), nutzen Sie direkt gemma4:26b.
Sie sollten sehen, wie die Claude Code-Oberfläche geladen wird. Testen Sie einen einfachen Befehl, um zu überprüfen, ob alles verbunden ist:
> Read the current directory and list all files
Claude Code sollte sein Datei-Lesetool verwenden, das lokale Gemma 4-Modell über Ollama ansprechen und ein formatiertes Verzeichnislisting zurückgeben. Wenn das funktioniert, ist Ihr gesamter Stack einsatzbereit — das komplette Toolkit von Claude Code läuft gegen ein kostenloses, privates, lokales Modell.
Fehlerbehebung bei häufigen Problemen:
- "Connection refused"-Fehler: Der Ollama-Server läuft nicht. Öffnen Sie ein separates Terminal und führen Sie
ollama serveaus. - Extrem langsame Antworten: Ihr Modell ist zu groß für Ihre Hardware. Wechseln Sie auf eine kleinere Variante oder erhöhen Sie das GPU-Offloading mit
OLLAMA_NUM_GPU=99. - Claude Code stürzt bei langen Dateien ab: Das Kontextfenster ist zu klein. Stellen Sie sicher, dass Sie die benutzerdefinierte Modelfile mit
num_ctx 65536erstellt haben. - Tool-Aufrufe schlagen fehl: Vergewissern Sie sich, dass Sie Ollama 0.6.x oder neuer verwenden. Frühere Versionen unterstützen das von Claude Code benötigte Tool-Calling-Format nicht vollständig.
Wenn Sie möchten, dass jemand dieses Setup von Grund auf für Sie aufbaut — abgestimmt auf Ihre Hardware und optimiert für Ihren Workflow — übernehme ich genau solche Projekte. Was ich bisher gemacht habe, finden Sie unter fiverr.com/s/EgxYmWD.
Was tatsächlich funktioniert — Echte Coding-Aufgaben, die ich ausgeführt habe
Setup-Guides sind nutzlos ohne ehrliche Performance-Berichte. Ich habe diesen Gemma 4 + Ollama + Claude Code Stack über eine Woche lang in echten Projekten eingesetzt. Hier zeige ich, was gut läuft und wo die Grenzen liegen.
Frontend-UI-Generierung — stark. Ich habe das 26B-Modell über Claude Code gebeten, ein React-Dashboard mit Sidebar, Datentabelle, Chart-Komponente und Dark-Mode-Umschalter zu erstellen. Das Ergebnis war sauber. Klare Trennung der Komponenten. Tailwind-Klassen, die sinnvoll kombiniert wurden. State-Management mit React Hooks, ohne es zu verkomplizieren. Für Prototyping und interne Tools ersetzt das komplett meinen Bedarf, die API anzusteuern.
Dateibearbeitung über mehrere Dateien — zuverlässig. Der Multi-File-Editing-Workflow von Claude Code — Datei lesen, Änderungen vorschlagen, anwenden, Tests ausführen — funktioniert korrekt über die Ollama-Bridge. Das Gemma 4 26B-Modell formatiert seine Tool-Aufrufe richtig, kommt mit Dateipfaden klar und nimmt chirurgische Änderungen vor, statt ganze Dateien neu zu schreiben. Ich habe es an einem Laravel-Projekt mit über 40 Dateien getestet, und es hat sich ohne Kontextverlust durch den Code bewegt.
Code-Refactoring — gut mit Einschränkungen. Ich habe das Modell gebeten, einen 300-Zeilen-Controller in Service-Klassen mit Dependency Injection zu refaktorisieren. Das 26B-Modell hat die Logik in drei Services mit korrekten Interfaces und Constructor Injection aufgeteilt. Die Namenskonventionen waren sinnvoll. Wo es gestolpert ist: Die generierte Testdatei für einen der Services hatte einen kleinen Namespace-Fehler. Eine Zwei-Sekunden-Korrektur, aber erwähnenswert — das cloud-gehostete Claude Opus hätte das richtig gemacht.
Bash-Befehlsgenerierung und -ausführung — exzellent. Eine der nützlichsten Funktionen von Claude Code ist das Generieren und Ausführen von Shell-Befehlen. Gemma 4 erledigt das souverän über Ollama. Git-Operationen, npm-Befehle, Docker-Management, Dateisystem-Manipulation — das Modell versteht Kommandozeilen-Workflows und generiert korrekte Befehle für das jeweilige Betriebssystem.
Komplexe mehrstufige Agenten-Workflows — hier ist die Grenze. Als ich eine Pipeline mit fünf Schritten aufgesetzt habe — Webseite scrapen, strukturierte Daten extrahieren, transformieren, in eine Datenbank schreiben, dann einen zusammenfassenden Bericht generieren — hat das 26B-Modell die ersten vier Schritte sauber erledigt, sich aber beim Berichtsschritt verwirrt und einen Report erstellt, der sich auf Daten aus Schritt zwei statt Schritt vier bezog. Mit dem 31B Dense-Modell lief die Pipeline fehlerfrei durch. Das bestätigt meine Beobachtungen aus meinem ausführlichen Gemma 4 Test — das 26B-Modell ist hervorragend für Aufgaben mit drei oder vier logischen Schritten, verliert aber bei längeren Ketten an Genauigkeit.
Multimodale Aufgaben — eine echte Überraschung. Gemma 4 unterstützt Vision nativ, und das funktioniert auch über die Ollama + Claude Code Bridge. Ich habe einen Screenshot eines Figma-Designs eingespeist und das Modell gebeten, das entsprechende HTML/CSS zu generieren. Es hat die Layout-Struktur, Farbpalette und Typografie mit ordentlicher Genauigkeit erkannt. Nicht pixelgenau — aber so nah dran, dass das Ergebnis ein brauchbarer Ausgangspunkt war und kein leeres Blatt.
Das Muster, das sich für mich bewährt hat: Für 80 % meiner Coding-Aufgaben — Datei-Edits, Scaffolding, Refactoring, Befehlsgenerierung, schnelle Prototypen — nutze ich das lokale Gemma 4 Setup. Für die restlichen 20 %, die tiefes mehrstufiges Reasoning, komplexe Architekturentscheidungen oder das Handling von Codebasen mit vielen Abhängigkeiten erfordern, wechsle ich zu cloud-gehostetem Claude Opus.
Die ehrlichen Kompromisse — Was Sie beim lokalen Betrieb verlieren
Ich würde Ihnen einen Bärendienst erweisen, wenn ich dies als direkten Ersatz für den Cloud-Service von Anthropic darstellen würde. Das ist es nicht. Hierauf müssen Sie verzichten.
Prompt-Caching funktioniert nicht. Das Prompt-Caching von Anthropic – das wiederholte Konversationen erheblich beschleunigt, indem es den System-Prompt und den frühen Kontext zwischenspeichert – ist über die Ollama-Kompatibilitätsschicht (Stand April 2026) nicht verfügbar. Jede Anfrage verarbeitet den gesamten Kontext von Grund auf neu. Bei kurzen Interaktionen spielt das keine Rolle. Bei langen Codingsessions mit 30+ Gesprächsrunden werden Sie die zunehmende Latenz spüren, je mehr Kontext sich ansammelt.
tool_choice wird nicht unterstützt. Claude Code verwendet gelegentlich tool_choice, um einen bestimmten Tool-Call zu erzwingen – etwa wenn das Modell zwingend eine Datei lesen soll, bevor es sie bearbeitet. Dieser Parameter wird im Anthropic-API-Kompatibilitätsmodus von Ollama nicht unterstützt. In der Praxis ruft Gemma 4 dennoch meist freiwillig das richtige Tool auf, aber gelegentlich versucht das Modell, aus dem Gedächtnis zu antworten, wenn es eigentlich die Datei lesen sollte. Ein kleiner Ärger, aber kein K.-o.-Kriterium.
Die Reasoning-Grenze ist real. Das 26B-Modell von Gemma 4 erreicht auf dem von mir gepflegten Intelligenzindex einen Wert von 31. Qwen 3.5 erzielt 42. Claude Opus liegt deutlich darüber. Bei Aufgaben, die echte Kreativität erfordern – etwa das Entwerfen eines Algorithmus für ein einzigartiges Problem, das Erkennen subtiler Logikfehler in komplexer Business-Logik oder Architekturentscheidungen unter acht konkurrierenden Anforderungen – werden Sie den Unterschied spüren. Das Modell liefert einen starken ersten Entwurf. Um von diesem Entwurf zur Produktion zu gelangen, ist manchmal menschliche Nacharbeit nötig, die Cloud-Modelle automatisch übernehmen.
Kein Streaming auf manchen Plattformen. Je nach Ollama-Version und Betriebssystem funktioniert das Streaming von Antworten möglicherweise nicht perfekt. Es kann sein, dass Sie die gesamte Antwort auf einmal sehen, statt Token für Token. Funktional sind die Ergebnisse identisch – aber das Erlebnis wirkt weniger interaktiv.
Sie sind für Updates verantwortlich. Wenn Anthropic Claude aktualisiert, erhalten Sie die Verbesserungen automatisch. Bei einem lokalen Modell müssen Sie neue Versionen von Gemma 4 manuell ziehen, sobald Google Quantisierungs-Updates, Bugfixes oder feinabgestimmte Varianten veröffentlicht. Die Community ist aktiv, aber es bleibt ein manueller Prozess.
Keiner dieser Punkte hat meinen Workflow ernsthaft beeinträchtigt. Die Vorteile bei Datenschutz, Geschwindigkeit und Nullkosten überwiegen für die meisten meiner täglichen Coding-Aufgaben die Einschränkungen deutlich. Aber gehen Sie mit realistischen Erwartungen an die Sache heran.
Über das Programmieren hinaus — Was dieser Stack sonst noch leistet
Sobald Gemma 4 über Ollama in Claude Code läuft, sind Sie nicht mehr nur auf das Schreiben von Code beschränkt. Das agentenbasierte Framework unterstützt jeden Workflow, den Sie als Abfolge von Tool-Aufrufen ausdrücken können.
Automatisiertes Verfassen von E-Mails. Verbinden Sie Claude Code mit Ihrem lokalen Dateisystem, in dem Ihre E-Mail-Vorlagen liegen, beschreiben Sie die gewünschten E-Mails, und der Agent erstellt personalisierte Entwürfe. Alles lokal. Kein E-Mail-Inhalt verlässt Ihren Rechner.
Lead-Recherche und Scraping. Die Bash-Ausführung von Claude Code in Kombination mit dem logischen Denken von Gemma 4 ermöglicht Ihnen den Aufbau einfacher Scraping-Pipelines. Ziehen Sie Daten aus öffentlichen Quellen, extrahieren Sie strukturierte Informationen und formatieren Sie diese für Ihr CRM. Ich habe geplante Ollama-Prompts in Claude Code eingerichtet, die solche Aufgaben zeitgesteuert ausführen — automatisierte Datenerfassung ganz ohne Cloud-Abhängigkeit.
Dokumentenanalyse und Zusammenfassung. Geben Sie PDFs, Markdown-Dateien oder Code-Dokumentationen in die Pipeline und erhalten Sie strukturierte Zusammenfassungen. Dank der multimodalen Fähigkeiten können sogar Screenshots und Diagramme verarbeitet werden.
Slack- und Workspace-Integrationen. Über MCP-Server (Model Context Protocol) und das Tool-Ökosystem von Claude Code können Sie Ihren lokalen Gemma 4-Agenten mit Slack, Google Workspace und anderen Produktivitätstools verbinden. Das Modell übernimmt die Logik, die Tool-Verbindungen die Aktionen. Alles läuft auf Ihrem eigenen Rechner.
Der gemeinsame Nenner: Jeder Workflow, bei dem Datenschutz zählt, bei dem Sie null Grenzkosten pro Anfrage wollen oder bei dem Sie Hunderte automatisierter Requests ohne Rate-Limits ausführen müssen. Genau hier sind lokale Modelle nicht nur auf Augenhöhe mit Cloud-Diensten — sie übertreffen sie.
Was ich beim zweiten Mal anders machen würde
Nach einer Woche täglicher Nutzung gibt es einige Optimierungen, die mir am ersten Tag viel Zeit gespart hätten.
Von Anfang an OLLAMA_NUM_GPU=99 setzen. Damit weist man Ollama an, so viele Modell-Layer wie möglich auf die GPU auszulagern. Ich habe zwei Tage damit verbracht, mich zu wundern, warum mein 26B-Modell langsamer lief als erwartet, bevor ich herausfand, dass Ollama standardmäßig die Hälfte der Layer auf der CPU ausführt. Eine Umgebungsvariable hat das Problem gelöst:
export OLLAMA_NUM_GPU=99
Die 65K-Kontext-Modelfile vor der ersten Claude-Code-Session erstellen. Ich habe mit Ollamas Standard-Kontextfenster begonnen — 8K oder 16K, je nach Modell — und konnte mir nicht erklären, warum Claude Code ständig den Überblick über Dateien verlor. Das 65K-Minimum ist keine Option, sondern Voraussetzung, damit die agentischen Funktionen von Claude Code korrekt arbeiten.
Eine Cloud-Fallback-Konfiguration bereithalten. Ich habe meinen Anthropic-API-Key nicht gelöscht — stattdessen habe ich ein einfaches Shell-Alias erstellt, um zwischen lokalem und Cloud-Modus zu wechseln:
alias claude-local='ANTHROPIC_BASE_URL=http://localhost:11434 ANTHROPIC_AUTH_TOKEN=ollama claude --model gemma4-claude'
alias claude-cloud='ANTHROPIC_BASE_URL=https://api.anthropic.com claude'
Wenn das lokale Modell bei einer komplexen Aufgabe an seine Grenzen stößt, wechsle ich in zwei Sekunden in den Cloud-Modus. So habe ich das Beste aus beiden Welten.
VRAM überwachen. Wenn du an einem gemeinsam genutzten Rechner arbeitest oder parallel zu Ollama andere GPU-intensive Anwendungen laufen, kann VRAM-Konkurrenz die Performance unbemerkt verschlechtern. Unter macOS zeigt der Aktivitätsmonitor die Nutzung des gemeinsamen Speichers. Unter Linux mit NVIDIA kannst du mit nvidia-smi die GPU-Speicherbelegung prüfen. Wenn dein Modell sich den VRAM mit einem Browser teilt, der GPU-beschleunigtes Video abspielt, fragst du dich schnell, warum die Inferenz plötzlich dreimal langsamer ist.
Das große Ganze — Warum das über kostenlose API-Aufrufe hinaus wichtig ist
Geld bei AI-Tokens zu sparen ist der offensichtliche Vorteil. Aber nach einer Woche mit diesem Workflow ist es nicht die Kostenersparnis, zu der ich immer wieder zurückkehre.
Es ist die Kontrolle.
Jede Codezeile, die ich mit diesem Stack generiere, bleibt auf meinem Rechner. Jedes Projekt, das ich analysiere, jede Datei, die ich lese, jeder Befehl, den ich ausführe — nichts davon verlässt meinen Computer und landet auf einem externen Server. Für Kundenprojekte mit NDAs, für proprietäre Codebasen, für alles, was sensible Daten betrifft, ist das kein Komfort-Feature. Das ist eine Compliance-Anforderung, die durch Architektur gelöst wird, nicht durch juristische Vereinbarungen.
Die Geschwindigkeit war die zweite Überraschung. Ohne Netzwerklatenz — kein Hin und Her zu einem Rechenzentrum, kein Warten hinter den Anfragen anderer Nutzer — werden die Antwortzeiten ausschließlich von meiner Hardware bestimmt. Wenn Cloud-APIs zu Stoßzeiten langsamer werden, bleibt mein lokales Setup gleich schnell. Und wenn ich nachts um 2 Uhr im Coding-Flow bin und Prompts am Fließband raushaue, gibt es keine Rate-Limits, die mich ausbremsen.
Und die Skalierbarkeit rechnet sich umgekehrt. Bei Cloud-APIs bedeutet mehr Nutzung auch mehr Kosten. Bei lokaler Inferenz sind die Kosten fix — die Hardware gehört dir bereits. Ob du 10 oder 10.000 Anfragen stellst, deine Stromrechnung bleibt nahezu unverändert. Für agentische Workflows, die dutzende Tool-Aufrufe pro Aufgabe verketten, werden so Architekturen möglich, die über Cloud-Abrechnung völlig unerschwinglich wären.
Dass Google Gemma 4 unter Apache 2.0 veröffentlicht — der freizügigsten Open-Source-Lizenz überhaupt — beseitigt das letzte rechtliche Hindernis. Keine monatlichen Nutzerobergrenzen wie bei Metas Llama-Lizenz. Keine Durchsetzung von Acceptable-Use-Policies. Volle kommerzielle Freiheit. Du kannst darauf Produkte bauen, sie an Kunden ausliefern und schuldest niemandem Lizenzgebühren oder Nutzungsberichte.
Die Zukunft der KI-gestützten Entwicklung ist nicht die Wahl zwischen Cloud und lokal. Es ist die Kombination aus beidem — einfache Aufgaben laufen lokal auf deiner Gemma 4-Instanz für Geschwindigkeit und Datenschutz, komplexe Reasoning-Aufgaben leitest du an Claude Opus oder GPT weiter, wenn du Spitzenleistung brauchst. Dieses Setup ist genau diese hybride Zukunft, heute schon verfügbar, jetzt schon einsatzbereit.
Ein Befehl, um das Modell zu laden. Drei Umgebungsvariablen, um die Verbindung herzustellen. Zwanzig Minuten von diesem Satz bis zum eigenen kostenlosen KI-Coding-Agenten auf deiner Hardware.
Die einzige offene Frage ist: Was wirst du damit bauen?
Häufig gestellte Fragen
Funktioniert Gemma 4 mit allen Claude Code-Features über Ollama?
Dateilesen, Dateibearbeitung, Ausführung von Bash-Befehlen und Tool-Aufrufe funktionieren Stand April 2026 einwandfrei. Prompt-Caching und tool_choice (erzwungene Tool-Auswahl) werden von Ollamas Kompatibilitätsschicht nicht unterstützt. Einen vollständigen Funktionsvergleich findest du im Abschnitt zu den Trade-offs weiter oben.
Welches Gemma 4-Modell ist am besten für Claude Code geeignet?
Das 26B MoE-Modell bietet das beste Verhältnis von Geschwindigkeit und Qualität für die meisten Hardware-Konfigurationen. Pro Inferenzaufruf werden nur 3,88 Milliarden Parameter aktiviert, während die Ausgabequalität nahezu an die der 31B Dense-Variante heranreicht. Du benötigst mindestens 16 GB RAM und solltest ein Kontextfenster von 65K Token konfigurieren.
Wie schnell läuft Gemma 4 lokal im Vergleich zu Cloud Claude?
Auf einem MacBook Pro M4 Pro mit 48 GB RAM generiert das 26B-Modell etwa 51 Token pro Sekunde. Eine RTX 4090 bringt das 31B-Modell auf rund 41 Token pro Sekunde. Cloud Claude ist in der Regel bei der reinen Durchsatzrate schneller, aber lokale Inferenz eliminiert die Netzwerklatenz – die Antwortzeit für das erste Token ist oft vergleichbar.
Kann ich Gemma 4 auf einem MacBook Air oder günstigen Laptop ausführen?
Das E4B-Modell (4 Milliarden Parameter) läuft auf Geräten mit 8 GB RAM und bewältigt grundlegende Coding-Aufgaben. Für ernsthafte Claude Code-Workflows solltest du das 26B-Modell mit mindestens 16 GB RAM wählen. Das E2B-Modell läuft zwar auf nahezu jeder Hardware, ist aber für sinnvolle agentische Programmierung zu eingeschränkt.
Ist dieses Setup wirklich kostenlos und ohne versteckte Kosten?
Gemma 4 steht unter der Apache 2.0-Lizenz – kostenlos für jegliche Nutzung, auch kommerziell. Ollama ist Open Source. Die Claude Code CLI ist frei installierbar. Die einzigen Kosten entstehen durch deine Hardware und den Stromverbrauch. Keine API-Keys, keine Abos, kein Usage-Tracking, keine Daten verlassen dein Gerät.
Lassen Sie uns zusammenarbeiten
Möchten Sie KI-Systeme entwickeln, Workflows automatisieren oder Ihre technische Infrastruktur skalieren? Ich unterstütze Sie gerne dabei.
- Fiverr (individuelle Lösungen & Integrationen): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (Enterprise-Lösungen): ramlit.com
- ColorPark (Design & Branding): colorpark.io
- xCyberSecurity (Sicherheitsdienstleistungen): xcybersecurity.io