Gemma 4: Kostenlose KI direkt auf Laptop und Smartphone nutzen

Ich habe 200 $ pro Monat für KI-Abos bezahlt. Claude Pro. ChatGPT Plus. Ein paar API-Guthaben, die schneller verschwanden, als ich sie nachverfolgen konnte. Dann hat Google vier Open-Source-Modelle veröffentlicht, die auf Hardware laufen, die ich bereits besitze – keine Internetverbindung, keine monatlichen Kosten, keine Daten, die mein Gerät verlassen. Und eines davon hat ein Kalkül-Problem gelöst, das ich von einem Foto meines Whiteboards gemacht hatte.

Dieses Modell heißt Gemma 4. Und das, was mich am meisten beschäftigt, ist nicht die Mathematik. Es ist die Tatsache, dass ich das Ganze in weniger als zehn Minuten auf einem Laptop eingerichtet habe – und es lief den Rest des Nachmittags offline, während mein WLAN wegen einer Störung beim Anbieter ausgefallen war. Jede Eingabe. Jede Antwort. Jede Bildanalyse. Alles lief auf lokaler Hardware, ohne einen einzigen API-Token zu verbrennen.

Ich habe im letzten Jahr viele Open-Source-Modelle getestet. Bei den meisten hat man das Gefühl, einen Kompromiss einzugehen – man bekommt „kostenlos“, verliert aber an Qualität, Geschwindigkeit oder beidem. Gemma 4 ist das erste Mal, dass sich dieser Kompromiss wirklich klein anfühlt. So klein, dass ich für bestimmte Workflows komplett auf die kostenpflichtigen Modelle verzichte.

Hier ist alles, was ich nach einer Woche mit Gemma 4 auf meinem Laptop und Smartphone herausgefunden habe – vom Setup über die tatsächlichen Fähigkeiten, die Momente, in denen es mich wirklich überrascht hat, bis hin zu den Bereichen, in denen Claude und ChatGPT ihr Abo weiterhin wert sind.

Warum dieses Modell gerade jetzt wichtig ist — und für wen es relevant ist

Die KI-Welt hat ein wachsendes Problem, über das in Silicon Valley niemand ehrlich sprechen will: Kosten und Abhängigkeit. Jedes Mal, wenn du eine Anfrage an Claude oder ChatGPT schickst, wandern deine Daten auf fremde Server. Jeden Monat wird eine weitere Abo-Gebühr von deiner Kreditkarte abgebucht. Und wenn die API ausfällt — was öfter passiert, als die Statusseiten zugeben — steht dein Workflow still.

Google hat Gemma 4 am 2. April 2026 unter einer Apache-2.0-Lizenz veröffentlicht. Das ist nicht „kostenlos mit Haken“. Das ist wirklich offen — du kannst es kommerziell nutzen, verändern, deployen, wie du willst. Die Modelle basieren auf derselben Forschung wie Gemini 3, Googles Flaggschiff-Modell, sind aber so verpackt, dass sie auf Consumer-Hardware statt auf Data-Center-GPUs laufen.

Die Modellreihe umfasst vier Größen, jeweils für unterschiedliche Hardware optimiert:

Modell	Parameter	Kontextfenster	Zielgerät	Benötigter Speicher
E2B	2B	128K Tokens	Smartphones	Unter 1,5 GB
E4B	4B	128K Tokens	Smartphones, Tablets	~3 GB
26B MoE	26B (3,8B aktiv)	256K Tokens	Laptops, Desktops	~18 GB
31B Dense	31B	256K Tokens	Desktops, High-End-Laptops	~20 GB

Die „3,8B aktiv“ beim 26B-Modell sind der entscheidende Punkt. Gemma 4s 26B-Variante nutzt eine Mixture-of-Experts-Architektur — 26 Milliarden Gesamtparameter, aber nur 3,8 Milliarden werden bei einer Inferenz tatsächlich aktiviert. Das praktische Ergebnis? Ein Modell, das auf einem MacBook schnell läuft und eine Qualität liefert, die weit über dem liegt, was man von 3,8 Milliarden aktiven Parametern erwarten würde.

Wenn du als Entwickler Claude Code oder ChatGPT für Coding-Assistenz nutzt, als Student KI für Recherchen einsetzt, als datenschutzbewusster Profi keine sensiblen Dokumente auf Cloud-Server schicken willst oder einfach keine Lust hast, 20 $/Monat für etwas zu zahlen, das lokal laufen könnte — dann ist das für dich relevant.

Aber die technischen Daten sind nur der Appetizer. Was ich dir wirklich zeigen will, ist, was passiert, wenn du dieses Ding installierst und ihm echte Aufgaben gibst.

Gemma 4 auf dem Laptop einrichten — Schneller als gedacht

Ich hatte erwartet, dass die Einrichtung mühsam wird. Lokale KI gilt als Wochenendprojekt — Abhängigkeiten herunterladen, mit Python-Umgebungen kämpfen, CUDA-Treiber konfigurieren. Gemma 4 hat diese Annahme komplett über den Haufen geworfen.

Schritt 1: LM Studio herunterladen

Gehe zu lmstudio.ai und lade den Installer für dein Betriebssystem herunter. Es funktioniert auf Mac, Windows und Linux. Die App ist eine übersichtliche Desktop-Oberfläche, die Modellverwaltung, Inferenz und eine Chat-UI übernimmt — quasi das „Spotify für lokale KI-Modelle“.

Die Installation dauerte bei mir etwa neunzig Sekunden. Keine Terminalbefehle. Kein pip install. Einfach ein ganz normaler Anwendungs-Installer.

Schritt 2: Nach Gemma 4 suchen und herunterladen

Öffne LM Studio und suche im Modell-Browser nach „Gemma 4“. Du siehst verschiedene Quantisierungsoptionen. Hier die passende Auswahl je nach Hardware:

16 GB RAM (M-Serie Mac oder ordentliches Windows-Notebook): Wähle die quantisierte Version Gemma-4-27B-Q4_K_M. Sie ist etwa 16–18 GB groß und läuft auf einem M2 Pro mit ca. 15–20 Tokens pro Sekunde. Das reicht für echte Gespräche ohne frustrierende Pausen.
8 GB RAM: Greife zum E4B-Modell. Es passt bequem und bewältigt trotzdem multimodale Aufgaben — Bilder, PDFs, Code-Generierung.
32 GB+ RAM oder dedizierte GPU: Du kannst das vollständige 31B Dense-Modell ausführen. Das ist das Kraftpaket — auf Platz drei aller Open-Modelle im Arena AI Leaderboard mit einem Score von 1452.

Der Download dauert je nach Verbindung eine Weile. Das 26B-Modell ist etwa 18 GB groß. Ich habe den Download gestartet, mir einen Kaffee gemacht und kam zu einer einsatzbereiten KI zurück.

Schritt 3: Modell laden und loslegen

Klicke im LM Studio auf das Modell, dann auf „Load“, und schon kannst du chatten. Die Oberfläche ist vertraut — ein Chatfenster, in das du Prompts eingibst und Antworten erhältst. Aber hier ist der Unterschied zu browserbasierten KIs: Die Antwort wird komplett vom Prozessor deines Rechners generiert. Kein Internet nötig. Keine Tokens, die gegen ein Abrechnungskonto laufen. Keine Daten, die in ein Rechenzentrum nach Virginia wandern.

Ich habe das getestet, indem ich meinen Laptop direkt nach dem Laden des Modells in den Flugmodus versetzt habe. Jeder Prompt funktionierte. Bild-Uploads funktionierten. PDF-Analyse funktionierte. Das Modell telefoniert nicht nach Hause.

Schritt 4: Multimodale Eingaben ausprobieren

Hier hörte sich Gemma 4 für mich auf, wie ein „lokaler Kompromiss“ zu wirken, und fühlte sich wie ein echtes Werkzeug an. Ich habe ein Foto einer handschriftlichen Analysis-Aufgabe hochgeladen — ein Doppelintegral mit etwas chaotischer Notation. Das 26B-Modell hat das Bild analysiert, die mathematischen Ausdrücke erkannt und die Lösung Schritt für Schritt erklärt. Die Antwort war korrekt. Die Erklärung war klarer als das, was ich von manchen kostenpflichtigen Nachhilfe-Services bekommen habe.

Ich habe außerdem ein 15-seitiges PDF — ein technisches Spezifikationsdokument für eine API, die ich integrierte — hochgeladen und um eine Zusammenfassung nach dem StoryBrand SB7-Framework gebeten. Es hat die wichtigsten Punkte herausgefiltert, sie in die Struktur des Frameworks gebracht und eine Zusammenfassung geliefert, die ich tatsächlich an einen nicht-technischen Stakeholder schicken konnte. Auf einem Laptop. Offline.

Für alle, die neugierig auf lokale KI waren, aber dachten, sie könne keine echten multimodalen Aufgaben bewältigen — diese Annahme ist jetzt überholt.

Gemma 4 auf dem Smartphone einrichten — KI in der Hosentasche, ganz ohne Cloud

Das hat mich ehrlich überrascht. Noch vor zwei Jahren wirkte es wie Science-Fiction, ein leistungsfähiges KI-Modell auf einem Smartphone laufen zu lassen. Heute dauert die Einrichtung keine zehn Minuten.

Schritt 1: Googles Edge Gallery App herunterladen

Google hat eine eigene App namens AI Edge Gallery (früher Edge Gallery) entwickelt, die speziell für das Ausführen von Gemma-Modellen auf Mobilgeräten gedacht ist. Sie ist für Android verfügbar, und Google arbeitet an einer Ausweitung der iOS-Unterstützung. Suche im App Store nach „Google AI Edge Gallery“.

Schritt 2: Das für dein Smartphone optimierte Modell auswählen

Die App bietet die E2B- (2 Milliarden Parameter) und E4B-Modelle (4 Milliarden Parameter) an. Diese sind speziell für mobile Hardware optimiert — sie laufen auf der GPU deines Smartphones, nicht auf der CPU, was die Leistung dramatisch verbessert.

E2B: Unter 1,5 GB. Läuft auf den meisten modernen Smartphones. Schnell — bis zu 30 Tokens pro Sekunde auf aktueller Hardware. Geeignet für schnelle Fragen, Textgenerierung und grundlegende Schlussfolgerungen.
E4B: Rund 3 GB. Benötigt ein Flaggschiff-Smartphone (iPhone 14 Pro oder neuer, aktuelles Samsung Galaxy, Pixel 7+). Bewältigt Bildanalyse, Audiobearbeitung und komplexere Aufgaben. Wenn dein Smartphone es unterstützt, ist das mein Favorit.

Schritt 3: Offline gehen und loslegen

Sobald das Modell heruntergeladen ist, kannst du die Internetverbindung komplett deaktivieren. Das Modell läuft direkt auf dem Gerät und nutzt die neuronale Hardware deines Smartphones. Ich habe es im Flugzeug ohne WLAN getestet — ließ ein Foto einer japanischen Restaurantkarte analysieren, und es übersetzte jedes Gericht samt Beschreibung. Bat um Hilfe beim Formulieren einer E-Mail-Antwort an einen Kunden. Stellte ein Logikrätsel. Alles funktionierte. Alles schnell. Alles im Flugmodus.

Das Kontextfenster der Smartphone-Modelle umfasst 128K Tokens, erweiterbar auf 32K Tokens für spezielle Anwendungsfälle. Das reicht, um ein langes Dokument einzufügen und Fragen dazu zu stellen. Für einen kompletten Codebase-Import reicht es nicht — dafür sind die Laptop-Modelle gedacht.

Ein Detail, das auffällt: Die Smartphone-Modelle zeigen ihren „Denkprozess“ in Echtzeit. Man kann beobachten, wie das Modell ein Problem durchgeht, bevor es die endgültige Antwort liefert. Das ist nicht nur optisch spannend — es hilft auch, zu erkennen, ob das Modell auf dem richtigen Weg ist, bevor die Antwort fertig ist.

Was Gemma 4 tatsächlich kann — Die echten Tests

Setup-Guides sind schön und gut. Aber entscheidend ist, ob das System auch bei echten Problemen funktioniert. Ich habe eine Woche lang Gemma 4 in sechs unterschiedlichen Anwendungsfällen getestet und die Ergebnisse, wo relevant, mit Claude und ChatGPT verglichen.

Logisches Denken und Mathematik

Ich begann mit Logikrätseln – genau die Art von Aufgaben, an denen schwächere Modelle oft scheitern. Ein Klassiker: „Wenn 5 Maschinen 5 Minuten brauchen, um 5 Widgets herzustellen, wie lange brauchen 100 Maschinen für 100 Widgets?“

Gemma 4 hat es auf Anhieb richtig gelöst. Fünf Minuten. Und noch wichtiger: Die Begründung war klar und nachvollziehbar – jede Maschine produziert in fünf Minuten ein Widget, also produzieren 100 Maschinen in denselben fünf Minuten 100 Widgets. Die Schritt-für-Schritt-Erklärung war wirklich gut strukturiert, kein wirres Chain-of-Thought, das die Antwort versteckt.

Ich habe den Schwierigkeitsgrad erhöht: Ein mehrdimensionales Integral aus der Fotografie einer Whiteboard-Notiz. Gemma 4 26B hat die Handschrift erkannt, das Integral korrekt aufgestellt und mit richtiger Notation gelöst. Nicht jede Aufgabe war perfekt – ein besonders komplexes Dreifachintegral mit Variablenwechsel hat das Modell aus dem Tritt gebracht – aber bei etwa 80 % der gestellten Mathematikaufgaben waren die Antworten korrekt und die Erklärungen verständlich.

Zum Vergleich: Claude Sonnet löst diese Aufgaben etwas zuverlässiger, erreicht vielleicht 90 % Genauigkeit bei ähnlichem Schwierigkeitsgrad. Aber Claude kostet pro Prompt, während Gemma 4 diese Aufgaben offline im Café auf meinem Laptop gelöst hat.

Code-Generierung — Hier wird’s spannend

Ich habe Gemma 4 gebeten, drei Dinge zu bauen: eine Visualisierung eines Doppelpendels, ein Snake-Spiel und eine Landingpage mit Hero-Section, Preiskarten und einem Testimonial-Karussell.

Doppelpendel: Gemma 4 lieferte eine Visualisierung, die physikalisch realistischer war als das, was ich mit Claude auf denselben Prompt bekam. Die Pendelbewegungen wirkten natürlich – korrekter Energieerhalt, realistische Dämpfung. Claudes Version funktionierte, aber die Bewegungen wirkten etwas mechanisch. Punkt für das kostenlose Modell.

Snake-Spiel: Hier lag Claude vorn. Das Ergebnis war ein sauberes, spielbares Game mit flüssiger Steuerung und Punktestand. Gemma 4s Version hatte einen Rendering-Bug, bei dem die Schwanzsegmente der Schlange nicht korrekt gelöscht wurden. Erst ein Folgeprompt behob das Problem. Danach war es spielbar, aber Claude hatte es direkt beim ersten Versuch perfekt umgesetzt.

Landingpage: ChatGPT lieferte hier das optisch ansprechendste Ergebnis – bessere Typografie, stimmigeres Farbschema, flüssigere Animationen. Gemma 4s Landingpage war funktional und sah ordentlich aus, aber es fehlte der Design-Feinschliff von ChatGPT. Claude lag irgendwo dazwischen. Für ein kostenloses, lokal laufendes Modell ist Gemma 4s Web-Output beeindruckend. Für ein Kundenprojekt würde ich dennoch zu einem kostenpflichtigen Modell greifen.

Das Muster bei den Code-Generierungstests war eindeutig: Gemma 4 liefert gute bis sehr gute erste Entwürfe, die gelegentlich einen Folgeprompt zur Korrektur brauchen. Bezahlmodelle liefern etwas zuverlässigere Erstversuche. Die Frage ist, ob dieser Zuverlässigkeitsvorsprung $20–200/Monat für den eigenen Anwendungsfall wert ist.

PDF-Zusammenfassung und Dokumentenanalyse

Ich habe das 26B-Modell mit einem dichten technischen Whitepaper gefüttert – 22 Seiten über Microservices-Architektur-Muster. Die Aufgabe: Zusammenfassen nach dem StoryBrand-SB7-Framework (eine Storytelling-Struktur mit Charakter, Problem, Guide, Plan, Call to Action, Erfolg und Scheitern).

Die Zusammenfassung war überraschend gut strukturiert. Das „Charakter“-Element wurde als Entwicklungsteam identifiziert, das „Problem“ als Skalierung monolithischer Anwendungen, der „Guide“ als die im Paper beschriebenen Architektur-Muster. Im Plan-Abschnitt wurden konkrete Umsetzungsschritte direkt aus dem Dokument übernommen. Das war keine generische Zusammenfassung – das Modell hat den Inhalt wirklich verstanden.

Wo es schwächelt: Sehr lange Dokumente (50+ Seiten) stoßen trotz 256K-Token-Fenster an Kontextgrenzen, weil die Aufmerksamkeit des Modells am Ende extrem langer Kontexte nachlässt. Bei Dokumenten unter 30 Seiten war die Zusammenfassungsqualität jedoch so überzeugend, dass ich Gemma 4 als Standard-PDF-Analyzer für Offline-Arbeiten nutze.

Bildanalyse — Das unterschätzte Feature

Das hat mich überrascht. Ich habe ein Foto einer LEGO-Set-Box gemacht und Gemma 4 gebeten, das Set zu identifizieren und den Verkaufspreis zu schätzen. Das Modell erkannte das Set korrekt (LEGO Technic McLaren P1), nannte die ungefähre Teilezahl und schätzte den Preis bis auf $15 genau. Es erwähnte sogar, dass das Set zur Technic-Reihe gehört und auf dem Zweitmarkt meist über dem UVP gehandelt wird.

Ich habe weitere Bilder getestet: Fotos von Leiterplatten (Komponenten wurden erkannt und mögliche Fehlerquellen vorgeschlagen), handschriftliche Meeting-Notizen (transkribiert und in To-Dos organisiert), ein Screenshot eines Fehlerprotokolls (Ursache erkannt und Lösungsvorschlag gemacht).

Die multimodale Fähigkeit in 140 Sprachen zeigt, wie gut Gemma 4 trainiert wurde. Es analysierte eine japanische Restaurantkarte, ein französisches Weinetikett und ein deutsches technisches Handbuch – alles anhand von Fotos, komplett offline. Für alle, die viel reisen oder mit mehrsprachigen Dokumenten arbeiten, könnte allein das den Speicherplatz rechtfertigen.

Audioverarbeitung

Die E2B- und E4B-Modelle unterstützen native Audioeingabe – man kann mit dem Modell sprechen oder Audiodateien einspeisen. Ich habe einen dreiminütigen Mitschnitt eines Meetings getestet und um eine Zusammenfassung mit To-Dos gebeten. Die Transkription war bei klarer Sprache präzise, hatte aber wie die meisten Speech-to-Text-Systeme Probleme mit starkem Akzent und Überschneidungen. Die Zusammenfassung des transkribierten Inhalts war solide.

Das ersetzt keine Tools wie Whisper oder spezialisierte Transkriptionsdienste für den produktiven Einsatz. Aber für schnelle, lokale Audioanalysen – Sprachmemos zusammenfassen, Kernaussagen aus Vorlesungsaufzeichnungen extrahieren – ist das eine wirklich nützliche Ergänzung, die ohne Serverkontakt auskommt.

Agentische Workflows — Das Feature, das die meisten übersehen werden

Gemma 4 unterstützt, was Google „Agent Skills“ nennt – modulare Aufgabenbeschreibungen, mit denen das Modell mehrstufige Workflows autonom ausführen kann. Das Modell unterstützt native Funktionsaufrufe, strukturierten JSON-Output und Systemanweisungen, sodass sich Agenten bauen lassen, die mit lokalen Tools und APIs interagieren.

Ich habe einen einfachen agentischen Workflow getestet: „Lies diese CSV-Datei, identifiziere die fünf umsatzstärksten Kunden, verfasse für jeden eine personalisierte Follow-up-E-Mail und speichere sie als separate Textdateien.“ Das 26B-Modell hat das über die Tool-Use-Oberfläche von LM Studio korrekt ausgeführt. Die CSV wurde geparst, die Analyse durchgeführt, fünf individuelle E-Mails generiert (keine Copy-Paste-Vorlagen, sondern wirklich personalisiert auf Basis der Kundendaten) und der Output für die Dateispeicherung strukturiert.

Ist das so leistungsfähig wie das agentische System von Claude Code? Nein. Claudes Tool-Use ist ausgereifter, geht besser mit Sonderfällen um und fängt Fehler im Workflow eleganter ab. Aber die agentischen Fähigkeiten von Gemma 4 lokal – ohne API-Kosten und ohne dass Daten das eigene Gerät verlassen – eröffnen Anwendungsfälle für sensible Daten, die man nie an eine Cloud-API senden würde. Finanzdaten. Medizinische Informationen. Juristische Dokumente. Proprietäre Geschäftsdaten.

Das ist der eigentliche Gamechanger – und darauf komme ich noch zurück.

Der ehrliche Vergleich — Wo Gemma 4 punktet und wo nicht

Ich schreibe schon lange über KI-Modelle und bin grundsätzlich skeptisch, wenn jemand behauptet, ein kostenloses Tool sei „genauso gut“ wie ein kostenpflichtiges – und zwar in allen Belangen. Das ist selten der Fall, und auch hier stimmt es nicht. Aber das Bild ist differenzierter, als man vielleicht erwartet.

Wo Gemma 4 wirklich überzeugt

Geschwindigkeit der lokalen Ausführung. Auf passender Hardware reagiert Gemma 4 schneller, als wenn man auf eine Cloud-API-Antwort wartet. Das 26B MoE-Modell mit seinen 3,8 Milliarden aktiven Parametern generiert etwa 15–20 Tokens pro Sekunde auf einem M2 Pro. Das ist nicht blitzschnell, aber konstant – keine Latenzspitzen, keine „Server ist ausgelastet“-Fehler zu Stoßzeiten, kein Warten in der Warteschlange.

Datenschutz. Das ist kein Marketing-Slogan, sondern ein grundlegender architektonischer Unterschied. Ihre Daten verlassen niemals Ihr Gerät. Wer mit sensiblen Informationen arbeitet – Gesundheitsdaten, Finanzunterlagen, juristische Dokumente, proprietärer Code – eliminiert damit eine ganze Risikokategorie. Keine Änderungen der Nutzungsbedingungen. Keine Datenlecks auf fremden Servern. Keine Unsicherheit darüber, ob Ihre Prompts fürs Training verwendet werden.

Kosten. Null. Für immer. Die Apache 2.0-Lizenz bedeutet: keine Nutzungsgebühren, kein Tokenzählen, keine überraschenden Rechnungen. Wenn Sie derzeit 20 $/Monat für ChatGPT Plus ausgeben und Ihre Hauptanwendungsfälle Argumentation, Dokumentenanalyse und einfache Codegenerierung sind, erledigt Gemma 4 das ohne Abo.

Offline-Fähigkeit. Das klingt wie ein Nischenvorteil – bis das Internet ausfällt, Sie im Flugzeug sitzen oder an einem Ort mit schlechter Verbindung arbeiten. Ich habe schon produktive Stunden durch API-Ausfälle und instabiles Hotel-WLAN verloren. Gemma 4 interessiert sich nicht für Ihren Verbindungsstatus.

Mehrsprachigkeit. 140 Sprachen direkt ab Werk. Ich habe mit fünf Sprachen über Text- und Bildeingaben getestet. Die Qualität war bei den großen Sprachen (Englisch, Japanisch, Französisch, Deutsch, Spanisch) sehr gut und bei weniger verbreiteten Sprachen brauchbar. Die meisten kostenpflichtigen Modelle unterstützen weniger Sprachen und das weniger konsistent.

Wo kostenpflichtige Modelle weiterhin überlegen sind

Zuverlässigkeit beim ersten Versuch bei komplexen Aufgaben. Claude und ChatGPT liefern bei komplexer Codegenerierung häufiger auf Anhieb korrekte, ausgereifte Ergebnisse. Gemma 4 braucht manchmal eine Korrekturrunde. Wenn Ihr Workflow auf One-Shot-Genauigkeit angewiesen ist – etwa wenn Sie nach Stunden abrechnen und sich keine Iterationsschleifen leisten können – sparen kostenpflichtige Modelle Zeit.

Designqualität bei Web-Generierung. Von ChatGPT generierte Webseiten wirken professioneller gestaltet. Gemma 4 liefert funktionale und ordentliche Ergebnisse, erreicht aber nicht den visuellen Feinschliff kostenpflichtiger Modelle für kundenorientierte Projekte.

Tiefgehende agentische Fähigkeiten. Das Agentensystem von Claude Code bewältigt komplexere, mehrstufige Workflows mit besserer Fehlerbehandlung. Gemma 4 beeindruckt als Open-Source-Modell mit seinen agentischen Features, liegt aber bei der Handhabung von Sonderfällen und beim Kontextmanagement über lange Tool-Ketten hinweg noch zurück.

Qualität bei sehr langen Kontexten. Zwar bietet Gemma 4 Kontextfenster mit 256.000 Tokens, aber die Aufmerksamkeit bei sehr langen Eingaben reicht nicht an das heran, was Claude Opus mit seinem 1M-Kontext liefert. Für Workflows wie „füttere das gesamte Code-Repository“ behalten kostenpflichtige Modelle bei extremen Längen die bessere Kohärenz.

Wenn Sie lieber möchten, dass jemand eine lokale KI-Lösung speziell für Ihren Workflow aufsetzt, übernehme ich auch individuelle KI-Integrationsprojekte. Was ich bereits gebaut habe, sehen Sie unter fiverr.com/s/EgxYmWD.

Das Fazit, zu dem ich immer wieder komme

Gemma 4 ersetzt Claude oder ChatGPT nicht in jedem Anwendungsfall. Es ersetzt vielleicht 60–70 % dessen, wofür die meisten Menschen kostenpflichtige KI nutzen – und diese 60–70 % erledigt es überraschend hochwertig, kostenlos und datenschutzfreundlich.

Der eigentliche Wandel ist nicht die Parität bei den Fähigkeiten. Es ist die Erkenntnis, dass lokale KI einen Wendepunkt überschritten hat. Vor zwei Jahren bedeutete KI auf dem Laptop: miserable Ergebnisse oder Schneckentempo. Vor einem Jahr: akzeptable Resultate bei einfachen Aufgaben. Heute, mit Gemma 4: wirklich nützliche, multimodale KI, die Argumentation, Code, Dokumente, Bilder und Audio verarbeitet – auf dem Handy.

Diese Entwicklung zählt mehr als jede einzelne Benchmark-Zahl.

Was die meisten Menschen an „kostenloser“ KI falsch verstehen

Es gibt ein Missverständnis, das ich immer wieder in Foren und Kommentarspalten sehe: „Wenn es kostenlos ist, muss es schlechter sein.“ Jahrelang stimmte das auch. Open-Source-Modelle hinkten proprietären Modellen Monate oder Jahre hinterher. Man nutzte sie, weil man sich die Alternative nicht leisten konnte – nicht, weil sie konkurrenzfähig waren.

Gemma 4 durchbricht dieses Muster auf eine spezifische, messbare Weise. Das 31B Dense-Modell erzielt 85,2 % auf MMLU Pro und 89,2 % auf AIME 2026 – dem Mathematik-Wettbewerbs-Benchmark, der echtes mathematisches Denken von bloßem Musterabgleich trennt. Laut Googles offiziellem Model Card belegt das 31B aktuell den dritten Platz unter allen offenen Modellen weltweit auf dem Arena AI Leaderboard. Das 26B MoE liegt auf Platz sechs und aktiviert dabei pro Inferenz nur 3,8 Milliarden Parameter.

Das sind keine „gut für ein kostenloses Modell“-Werte. Das sind Werte, die mit kostenpflichtigen Modellen konkurrieren.

Aber hier ist die Nuance, die eine ehrliche Berichterstattung verlangt: Auf dem Intelligenzindex, den ich modellübergreifend verfolge, erzielt Gemma 4 31B einen Wert von 31 im Vergleich zu Qwen 3.5 mit 42. Diese Lücke zeigt sich bei ganzheitlichen Reasoning-Aufgaben – also bei Herausforderungen, bei denen das Modell etwas herausfinden muss, wofür es nicht explizit trainiert wurde. Bei strukturierten, klar definierten Aufgaben (Zusammenfassungen, Übersetzungen, bekannte mathematische Operationen, Standard-Codegenerierung) performt Gemma 4 auf Augenhöhe mit oder sogar besser als kostenpflichtige Alternativen. Bei neuartigen, mehrdeutigen Problemen, die kreative Sprünge erfordern, haben die Bezahlmodelle weiterhin einen Vorsprung.

Das praktische Fazit: Wähle das Modell passend zur Aufgabe. Nutze Gemma 4 für die 70 % deiner KI-Anwendungen, die klar definierte Probleme, Dokumentenverarbeitung, Standardprogrammierung und multimodale Analysen betreffen. Hebe dein kostenpflichtiges Modell-Abo für die 30 % auf, die Spitzen-Reasoning erfordern.

Allein diese Aufteilung könnte deine KI-Kosten mehr als halbieren.

Fünf Dinge, die ich beim Neustart anders machen würde

Nach einer Woche Testen hier, was ich gerne schon am ersten Tag gewusst hätte:

1. Mit dem 26B MoE starten, nicht dem 31B. Ich habe mir anfangs das größte Modell geschnappt, in der Annahme, dass größer gleich besser ist. Für die meisten Aufgaben liefert das 26B MoE jedoch 90 % der Qualität bei deutlich schnellerer Inferenzgeschwindigkeit, dank der sparsamen Aktivierung. Das 31B Dense-Modell lohnt sich für komplexes Reasoning und Coding – aber für den Alltag ist das 26B die bessere Standardwahl.

2. Die Phone-Modelle nicht ignorieren. Ich habe das mobile Setup zunächst als Spielerei abgetan. Falsch. Leistungsfähige KI offline auf dem Handy zu haben, ist eines dieser Tools, von denen ich nicht wusste, dass ich sie brauche, bis ich sie hatte. Schnelle Übersetzungen auf Reisen. E-Mail-Antworten während der Fahrt entwerfen. Fotos direkt vor Ort analysieren. Das E4B-Modell auf einem modernen Smartphone ist überraschend leistungsfähig.

3. Agenten-Skills früh einrichten. Die agentischen Fähigkeiten von Gemma 4 sind nicht nur ein Feature-Häkchen – sie sind ein echter Produktivitäts-Booster, wenn sie richtig konfiguriert werden. Nimm dir dreißig Minuten Zeit, um 3–4 eigene Task-Module zu definieren (Datenanalyse, E-Mail-Entwürfe, Dokumentenzusammenfassungen), und das Modell wird für wiederkehrende Workflows deutlich nützlicher.

4. Quantisierung gezielt einsetzen. Die Q4_K_M-Quantisierung bietet das beste Verhältnis aus Qualität und Geschwindigkeit für das 26B-Modell auf den meisten Geräten. Höhere Stufen (Q5 oder Q6) liefern nur minimal bessere Ergebnisse, laufen aber spürbar langsamer. Niedrigere Stufen (Q3) sparen Speicherplatz, führen aber bei komplexen Reasoning-Aufgaben zu deutlich sichtbaren Qualitätseinbußen. Q4_K_M ist für fast alle der Sweet Spot.

5. Ein kostenpflichtiges Modell als Fallback behalten. Gemma 4 übernimmt inzwischen die meisten meiner täglichen KI-Aufgaben, aber mein Claude-Abo habe ich nicht gekündigt. Für komplexe agentische Coding-Workflows, Analysen ganzer Repositories mit langem Kontext und Aufgaben, bei denen Genauigkeit beim ersten Versuch entscheidend ist, sind kostenpflichtige Modelle ihr Geld weiterhin wert. Ziel ist es nicht, bezahlte KI komplett zu ersetzen – sondern nur für Aufgaben zu bezahlen, die ein lokales Modell nicht genauso gut erledigen kann.

Der Datenschutzaspekt, über den niemand genug spricht

Jede Diskussion über Gemma 4 dreht sich um Benchmarks, Geschwindigkeit und Kosten. Das Thema, das ich immer wieder ansprechen möchte – und das langfristig vielleicht am wichtigsten ist – betrifft die Datensouveränität.

Wenn Sie Claude oder ChatGPT nutzen, wandern Ihre Eingaben durch eine Infrastruktur, die Sie nicht kontrollieren. Die Unternehmen veröffentlichen Datenschutzrichtlinien, und im Allgemeinen vertraue ich ihnen. Aber „Vertrauen“ und „Gewissheit“ sind nicht dasselbe. Nutzungsbedingungen ändern sich. Selbst die sicherheitsbewusstesten Unternehmen können Opfer von Datenpannen werden. Regulatorische Rahmenbedingungen verschieben sich.

Mit Gemma 4, das lokal läuft, ist die Datenarchitektur einfach: Ihre Daten bleiben auf Ihrem Gerät. Punkt. Es gibt keine Richtlinie zu lesen, weil kein Server Ihre Daten empfängt. Es gibt keine Sicherheitslücke, um die Sie sich sorgen müssten, weil die Daten Ihr Gerät nie verlassen. Es gibt keine Frage der regulatorischen Konformität, weil die Verarbeitung vollständig auf Ihrer eigenen Hardware erfolgt.

Für einzelne Entwickler, die an proprietärem Code arbeiten, ist das ein nettes Extra. Für medizinisches Fachpersonal, Juristen, Finanzberater und alle, die mit regulierten Daten arbeiten, ist das potenziell transformativ. Es bedeutet KI-Unterstützung ohne den Compliance-Aufwand, den cloudbasierte Verarbeitung mit sich bringt.

Ich habe dies gezielt mit einem Mock-Szenario getestet: Anonymisierte Patientendaten (synthetische Daten) geladen und Gemma 4 gebeten, Muster zu erkennen und einen zusammenfassenden Bericht zu erstellen. Das Modell hat die Aufgabe kompetent erledigt. Noch wichtiger: Die Daten haben nie eine Netzwerkschnittstelle berührt. In einem HIPAA-regulierten Umfeld eliminiert diese architektonische Einfachheit ganze Kategorien von Compliance-Dokumentation.

Google hat Gemma 4 genau für diesen Anwendungsfall entwickelt. Die On-Device-Verarbeitung ist keine Einschränkung, die sie umgehen müssen – sie ist ein Feature, auf das sie hinarbeiten. Und je stärker die KI-Regulierung weltweit anzieht, desto wertvoller werden Modelle, die lokal ohne Cloud-Abhängigkeit laufen können – nicht weniger.

Was Gemma 4 über die Zukunft der KI verrät

Treten wir einen Schritt zurück vom spezifischen Modell. Was Gemma 4 repräsentiert, ist interessanter als das, was es tut.

Vor achtzehn Monaten war es unmöglich, leistungsfähige multimodale KI auf einem Smartphone auszuführen. Vor einem Jahr war es technisch möglich, aber praktisch nutzlos – zu langsam, zu eingeschränkt. Heute bewältigt ein 4-Milliarden-Parameter-Modell auf einem Handy Bildanalyse, Audiobearbeitung, Codegenerierung und logisches Denken in 140 Sprachen mit 30 Token pro Sekunde.

Extrapolieren Sie diese Entwicklung. Bis 2027 wird KI auf Smartphone-Niveau voraussichtlich das leisten, was heutige Laptop-Modelle können. Bis 2028 könnte Ihr Handy etwas ausführen, das heutigen Spitzenmodellen entspricht. Die Cloud wird nicht verschwinden – manche Aufgaben profitieren immer von massiver Rechenleistung –, aber die Annahme, dass KI eine Internetverbindung und ein Abo erfordert, bröckelt bereits.

Für Entwickler und Macher ist die Konsequenz praktisch: Beginnen Sie, Workflows zu entwerfen, die nicht von Cloud-Konnektivität ausgehen. Bauen Sie Anwendungen, die mit lokaler Inferenz funktionieren. Die Nutzer, die davon profitieren – jene, die offline arbeiten, sensible Daten verarbeiten oder einfach genug von Abo-Müdigkeit haben – stellen einen wachsenden Markt dar, den die meisten KI-Anwendungen ignorieren.

Für Unternehmen, die 20 $/Monat für KI-Zugang verlangen, ist Gemma 4 ein Warnschuss. Kein tödlicher – kostenpflichtige Modelle führen weiterhin bei den Spitzenfähigkeiten. Aber die Lücke schrumpft schneller, als ihre Preismodelle sich anpassen können. Das 200 $/Monat Claude Pro-Abo ergibt Sinn, wenn es der einzige Weg zu hochwertiger KI-Coding-Unterstützung ist. Es ergibt weniger Sinn, wenn ein kostenloses, lokales Modell 70 % Ihrer Prompts abdeckt.

Ich habe über meinen vollständigen Benchmark-Test der Gemma 4-Serie geschrieben, als das Modell erstmals erschien, und dabei die technische Architektur und die Vergleichswerte im Detail behandelt. Was sich seitdem geändert hat, ist einfacher: Ich habe es tatsächlich benutzt. Täglich. Und die Erfahrung, Gemma 4 als tägliches Arbeitswerkzeug – nicht als Benchmark-Objekt – zu verwenden, hat mich überzeugt, dass die Schwelle für lokale KI wirklich überschritten ist.

Die eine Frage, über die es sich nachzudenken lohnt

Ich habe diesen Artikel damit begonnen, dass ich monatlich 200 $ für KI-Abos ausgegeben habe. Ganz auf null bin ich noch nicht – ich nutze Claude weiterhin für komplexe agentenbasierte Aufgaben und lange Coding-Sessions. Aber meine Rechnung ist auf etwa 60 $/Monat gesunken, da Gemma 4 alles andere übernimmt.

Das ist aber nicht der spannende Teil. Der wirklich interessante Punkt ist folgender: In sechs Monaten, wenn die nächste Gemma-Version erscheint und das Open-Source-Ökosystem lokale Modelle noch weiter vorantreibt – was müssen kostenpflichtige Modelle dann bieten, um ihren Preis zu rechtfertigen? Geschwindigkeit allein reicht nicht mehr, wenn lokale Modelle schnell genug sind. Qualität allein überzeugt nicht, wenn lokale Modelle für die meisten Aufgaben gut genug sind. Datenschutz kann kein Premium-Feature mehr sein, wenn lokale Inferenz ihn standardmäßig bietet.

Die Unternehmen, die kostenpflichtige KI-Modelle entwickeln, wissen das. Die Frage ist, ob sie ihre Preisgestaltung anpassen, bevor Nutzer wie ich unsere Workflows so umstellen, dass wir sie immer weniger brauchen.

Für den Moment empfehle ich Folgendes: Lade LM Studio herunter, ziehe dir das Gemma 4 26B-Modell und verbringe einen Nachmittag damit, deine tatsächlichen täglichen Prompts damit auszuführen. Keine Spielereien – deine echte Arbeit. Es könnte dich überraschen, wie viele dieser Prompts deine Maschine nie hätten verlassen müssen.

Häufig gestellte Fragen

Kann Gemma 4 wirklich ohne Internet auf einem Smartphone laufen?

Ja. Die E2B- und E4B-Modelle laufen vollständig lokal auf dem Gerät und nutzen die GPU deines Smartphones über die Google AI Edge Gallery App. Nach dem Download wird keine Internetverbindung mehr benötigt – das Modell verarbeitet alles lokal mit bis zu 30 Tokens pro Sekunde auf moderner Hardware.

Welches Gemma 4 Modell sollte ich zuerst herunterladen?

Beginne mit der 26B MoE-Variante, wenn du einen Laptop mit mindestens 16 GB RAM hast. Sie bietet das beste Verhältnis von Geschwindigkeit und Leistungsfähigkeit, läuft mit 15–20 Tokens pro Sekunde und verwendet dabei nur 3,8B aktive Parameter pro Inferenz. Für Smartphones empfiehlt sich das E4B, sofern dein Gerät es unterstützt.

Wie schneidet Gemma 4 im Vergleich zu ChatGPT und Claude ab?

Gemma 4 bewältigt 60–70 % der üblichen KI-Aufgaben in vergleichbarer Qualität – darunter logisches Schlussfolgern, Dokumentenanalyse, Code-Generierung, Bildanalyse und Übersetzung. Kostenpflichtige Modelle sind weiterhin führend bei komplexen agentenbasierten Workflows, designoptimierter Web-Generierung und Aufgaben mit sehr langem Kontext. Einen detaillierten Benchmark-Vergleich findest du in meinem vollständigen Gemma 4 Serien-Test.

Ist Gemma 4 wirklich kostenlos für die kommerzielle Nutzung?

Ja. Gemma 4 wird unter der Apache 2.0-Lizenz veröffentlicht, die kommerzielle Nutzung, Modifikation und Weiterverbreitung ohne Gebühren erlaubt. Es gibt keine Nutzungslimits, kein Token-Metering und kein Abonnement ist erforderlich.

Welche Hardware benötige ich, um Gemma 4 auf meinem Laptop auszuführen?

Für das 26B MoE-Modell benötigst du etwa 18 GB Speicherplatz und mindestens 16 GB RAM (unified memory bei Apple Silicon oder VRAM auf einer dedizierten GPU). Ein Mac mit M-Serie und 16 GB unified memory läuft die Q4_K_M-quantisierte Version problemlos. Für das 31B Dense-Modell solltest du mindestens 32 GB RAM und eine leistungsfähige GPU einplanen.

Lassen Sie uns zusammenarbeiten

Möchten Sie KI-Systeme entwickeln, Workflows automatisieren oder Ihre technische Infrastruktur skalieren? Ich unterstütze Sie gerne dabei.

Fiverr (individuelle Lösungen & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Enterprise-Lösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io