Google Gemma 4 Getestet: Open Source AI Wird Ernst

Ich Habe Google Gemma 4 Getestet — Open Source AI Wird Ernst

Ich war mitten in einem Prompt für ein Claude Code-Projekt — beim Refactoring einer Agent-Pipeline, die ständig Tool-Aufrufe halluzinierte — als Google etwas veröffentlichte, das ich nicht erwartet hatte. Kein weiteres inkrementelles Gemini-Update. Kein Forschungspapier, das niemand außerhalb von DeepMind lesen würde. Vier Open-Weight-Modelle, aufgebaut auf derselben Forschung hinter Gemini 3, veröffentlicht unter Apache 2.0 am 2. April 2026.

Die Behauptung, die mich aufhorchen ließ? Ein 26-Milliarden-Parameter-Modell, das während der Inferenz nur 3,8 Milliarden Parameter aktiviert und angeblich mit etwa 300 Token pro Sekunde auf einem Mac Studio M2 Ultra läuft. Ein Modell, das so klein und so schnell ist und auf Platz sechs unter allen offenen Modellen im Arena AI-Leaderboard steht.

Ich bin schon früher von Googles Open-Source-AI-Bemühungen enttäuscht worden. Gemma 1 war unterdurchschnittlich. Gemma 2 war anständig, aber nicht besonders einprägsam. Gemma 3 zeigte echte Verbesserungen, konnte aber nicht mit dem mithalten, was Qwen und Meta auslieferten. Als Google also behauptete, Gemma 4 stelle "die größte Verbesserung in einer einzelnen Generation im offenen Modellbereich" dar, war meine Skepsis voll aktiviert.

Aber dann fing ich an zu testen. Und innerhalb der ersten Stunde erkannte ich, dass dieses Release auf eine Art anders ist, die zählt — nicht nur für Benchmark-Leaderboards, sondern für jeden, der AI lokal betreibt oder agentische Workflows baut, die schnell, günstig und tatsächlich zuverlässig sein müssen.

Hier ist alles, was ich in mehreren Tagen praktischer Tests mit allen vier Modellen gefunden habe. Die guten Teile sind wirklich beeindruckend. Die Lücken sind es wert, bekannt zu sein, bevor man sich festlegt.

Was Google Tatsächlich Ausgeliefert Hat — Und Warum die Architektur Wichtig Ist

Gemma 4 ist nicht ein Modell. Es sind vier Modelle, die ein Spektrum abdecken, das von der Ausführung auf dem Handy bis hin zur Konkurrenz mit in der Cloud gehosteten Frontier-Modellen reicht. Das Verständnis des Lineups ist wichtig, denn die falsche Größe für den eigenen Anwendungsfall verschwendet entweder Geld oder Leistungsfähigkeit.

Modell	Parameter	Aktiv bei Inferenz	Kontextfenster	Zielhardware
E2B (Effektiv 2B)	2B	2B	128K Token	Smartphones, Raspberry Pi
E4B (Effektiv 4B)	4B	4B	128K Token	Tablets, Edge-Geräte
26B MoE	26B gesamt	~3,8B	256K Token	Laptops, Mac Mini/Studio
31B Dense	31B	31B	256K Token	Desktop, Cloud, High-End-GPU

Die architektonische Geschichte hier ist der Mixture of Experts (MoE)-Ansatz im 26B-Modell. Ich habe schon früher über MoE geschrieben, als ich GLM5 behandelt habe — die Grundidee ist, dass das Modell viele spezialisierte "Experten"-Netzwerke enthält, aber nur eine kleine Teilmenge für jede gegebene Eingabe aktiviert. Man kann es sich als ein Gebäude voller Spezialisten vorstellen, statt eines überarbeiteten Generalisten.

Was die Gemma 4 26B-Implementierung interessant macht, ist das Verhältnis. Die Aktivierung von 3,8 Milliarden Parametern aus insgesamt 26 Milliarden bedeutet, dass ungefähr 85% des Modells zu jedem Zeitpunkt schläft. Das ist aggressiv. Zum Vergleich: GLM5 aktiviert etwa 44 Milliarden aus 745 Milliarden — ein viel größeres Modell, aber ein ähnlicher philosophischer Ansatz zur Effizienz.

Das praktische Ergebnis? Ein Modell, das auf Consumer-Hardware passt und weit über seiner Parameter-Gewichtsklasse punktet. Das 256K-Token-Kontextfenster der größeren Modelle bedeutet, dass man ganze Codebasen, lange Dokumente oder Multi-Datei-Projekte einspeisen kann, ohne sie aufteilen zu müssen. Und alle vier Modelle unterstützen nativ über 140 Sprachen — was, wenn man etwas für ein globales Publikum baut, eine ganze Kategorie von Kopfschmerzen beseitigt.

Jedes Modell im Lineup unterstützt mehrstufiges Reasoning, strukturierte JSON-Ausgaben, Tool-Nutzung und Programmierung. Dies sind keine Funktionen, die nach dem Training aufgeschraubt wurden. Google hat diese Fähigkeiten nativ trainiert, was — basierend auf meinen Tests — einen echten Unterschied darin macht, wie zuverlässig die Modelle agentische Workflows handhaben.

Aber hier ist der Teil, den ich genauer betrachten möchte: wie all dies tatsächlich funktioniert, wenn man echte Arbeit daran wirft.

Die Benchmarks — Beeindruckende Zahlen Mit Einem Wichtigen Sternchen

Bevor ich meine praktischen Ergebnisse teile, verdienen die offiziellen Zahlen eine Untersuchung. Nicht weil ich Benchmarks für bare Münze nehme — das tue ich nicht, und Sie sollten es auch nicht — sondern weil einige dieser Scores eine spezifische Geschichte darüber erzählen, worauf Google seinen Trainingsaufwand konzentriert hat.

Das 31B Dense-Modell erreicht 85,2 auf MMLU Pro, das breites Wissen und Reasoning über Dutzende akademischer Domänen misst. Für ein 31-Milliarden-Parameter-Modell ist das außergewöhnlich. Es erreicht 89,2% bei AIME 2026 — dem Mathematik-Wettbewerbs-Benchmark, der Modelle mit echtem mathematischem Reasoning von solchen trennt, die sich durch Arithmetik hindurch Pattern-matchen. GPQA Diamond, der Benchmark für Naturwissenschaften auf Graduierten-Niveau, kommt auf 84,3%. Und LiveCodeBench v6, das praktische Programmierfähigkeiten an aktuellen Problemen testet, auf die das Modell nicht trainiert worden sein kann, zeigt 80%.

Benchmark	Gemma 4 31B	Was es misst
MMLU Pro	85,2%	Breites Wissen und Reasoning
AIME 2026	89,2%	Mathematisches Reasoning
GPQA Diamond	84,3%	Naturwissenschaften auf Graduierten-Niveau
LiveCodeBench v6	80,0%	Programmierfähigkeit in der Praxis
Arena AI (Text)	#3 offenes Modell (1452)	Ranking nach menschlicher Präferenz

Das 31B-Modell steht derzeit auf dem dritten Platz unter allen offenen Modellen im Arena AI Text-Leaderboard mit einer Punktzahl von 1452. Das 26B MoE steht auf Platz sechs mit 1441 — denken Sie daran, dass es nur 3,8 Milliarden aktive Parameter verwendet, um seinem viel größeren Geschwistermodell fast gleichzukommen.

Nun, das Sternchen. Laut dem Intelligence Index-Scoring, das ich modellübergreifend verfolge, erreicht das Gemma 4 31B eine 31, während das Qwen 3.5 27B-Modell 42 erreicht. Das ist ein bedeutsamer Abstand bei einer Metrik, die darauf ausgelegt ist, allgemeine Reasoning-Fähigkeit zu messen. Die obigen Benchmark-Zahlen zeichnen Gemma 4 als wettbewerbsfähig in spezifischen Domänen, aber bei holistischer Intelligenz — der Art von "Kann es etwas herausfinden, wofür es nicht speziell trainiert wurde"-Fähigkeit — hat Qwen bei ähnlichen Parameterzahlen noch einen Vorsprung.

Dies ist wichtig für agentische Programmier-Workflows, bei denen das Modell Beurteilungen treffen muss, nicht nur Muster ausführen. Ich werde Ihnen genau zeigen, wo sich dies in meinen Tests gezeigt hat.

Ein Bereich, in dem Gemma 4 wirklich besser abschneidet, ist die Token-Effizienz. In meinen Tests verwendeten Gemma 4-Modelle ungefähr 2,5-mal weniger Ausgabe-Token für vergleichbare Aufgaben im Vergleich zu Qwen 3.5 und Llama 4. Weniger Token bedeuten niedrigere Kosten, schnellere Generierung und weniger Kontextfenster, das von der eigenen Ausgabe des Modells verbraucht wird. Für agentische Workflows, bei denen man mehrere Aufrufe verkettet, summiert sich diese Effizienz schnell.

Gemma 4 Lokal Betreiben — Wo Die Eigentliche Geschichte Liegt

Hier hat sich meine Meinung über Gemma 4 von "interessant" zu "das ändert Dinge" verschoben.

Ich habe das 26B MoE-Modell am ersten Tag über Ollama heruntergeladen — Gemma 4 hatte am ersten Tag Unterstützung für Ollama, Hugging Face, LM Studio und Kaggle. Die Einrichtung war trivial: ollama pull gemma4:26b, OLLAMA_NUM_GPU=99 setzen, um das GPU-Layer-Offloading zu maximieren, und mit dem Prompten beginnen.

Auf meinem Mac-Setup war das 26B-Modell mit Q4_K_M-Quantisierung reaktionsschnell genug für echte Entwicklungsarbeit. Nicht "fünfzehn Sekunden pro Antwort warten"-reaktionsschnell. Tatsächlich nutzbar. Die Art von Geschwindigkeit, bei der man ein Gespräch mit dem Modell führen kann, ohne den Gedankengang zwischen den Antworten zu verlieren.

Google behauptet ungefähr 300 Token pro Sekunde auf einem Mac Studio M2 Ultra für das 26B-Modell. Meine eigenen Tests erreichten diese genaue Zahl nicht — Quantisierungseinstellungen, Prompt-Komplexität und Kontextlänge beeinflussen alle den Durchsatz — aber das Modell war konsistent schneller als jedes andere Modell vergleichbarer Leistungsfähigkeit, das ich lokal betrieben habe. Diese 3,8-Milliarden-aktive-Parameter-Architektur tut, was sie verspricht.

Das 31B Dense-Modell ist schwerer. Es braucht ernsthaftere Hardware — eine Desktop-GPU mit genügend VRAM oder eine gut ausgestattete Apple Silicon-Maschine. Aber für jeden, der diese Hardware bereits unter seinem Schreibtisch stehen hat, betreibt er ein Top-Drei-offenes-Modell, ohne für API-Aufrufe zu bezahlen. Ohne seinen Code an irgendjemandes Server zu senden. Ohne sich um Rate Limits um 2 Uhr nachts zu sorgen, wenn man in der Zone ist und Prompts durchbrennt.

Für die Edge-Modelle — die E2B und E4B — treibt Google On-Device-Inferenz stark voran. Die Android AICore Developer Preview gibt Entwicklern einen Weg, diese Modelle direkt auf Smartphones auszuführen. Ich habe den mobilen Deployment-Pfad nicht selbst getestet, aber die Implikation ist bedeutsam: multimodales AI-Reasoning — Text, Bilder, Audio — das vollständig auf einem Gerät in der Tasche läuft. Kein Cloud-Roundtrip. Keine Daten, die das Gerät verlassen. Für datenschutzsensible Anwendungen ist das kein Nice-to-have. Das ist eine Anforderung.

Die Apache 2.0-Lizenz beseitigt eine weitere Hürde, auf die ich bei anderen offenen Modellen gestoßen bin. Llama 4 verwendet Metas Community-Lizenz mit einer Schwelle von 700 Millionen monatlich aktiven Nutzern — gut für die meisten Entwickler, aber eine echte Einschränkung für schnell skalierende Unternehmen. Qwen 3.5 verwendet ebenfalls Apache 2.0, also besteht dort Parität. Aber im Vergleich zu Gemma 3s restriktiveren Bedingungen ist dies eine bedeutsame Verschiebung in Googles Open-Source-Strategie. Volle kommerzielle Freiheit. Keine Durchsetzung von Nutzungsrichtlinien. Keine Obergrenzen für monatlich aktive Nutzer.

Wenn Sie lieber jemanden hätten, der eine lokale AI-Inferenz-Pipeline von Grund auf einrichtet — Quantisierung konfigurieren, Hardware-Optimierung und agentische Tool-Chains — dann übernehme ich genau diese Art von Projekten. Sie können sehen, was ich gemacht habe unter fiverr.com/s/EgxYmWD.

Der UI-Generierungstest — Mein Standard-Härtetest

Wann immer ein Modell starke Programmierfähigkeiten behauptet, führe ich dieselbe Testreihe durch, die ich bei jeder Bewertung verwende. Der erste ist immer Frontend-Generierung — das Erstellen einer komplexen UI aus einem einzigen Prompt. Es testet Designgefühl, Code-Struktur, Zustandsverwaltung und Liebe zum Detail gleichzeitig.

Ich bat das Gemma 4 31B-Modell, eine macOS-ähnliche Desktop-Oberfläche im Browser zu erstellen. Funktionierende Apps. Ziehbare Fenster. Ein funktionales Dock. Derselbe Prompt, den ich an Qwen 3.6 Plus, Claude Opus und GLM5 gesendet habe.

Was zurückkam, war wirklich gut. Eine Symbolleiste, die aussah, als gehörte sie auf einen echten Mac. Ein funktionierender Taschenrechner. Ein Terminal-Emulator. Einstellungspanels. Das Layout war sauber — nicht die Art von "es funktioniert, aber sieht aus wie ein Prototyp"-Ausgabe, die ich von kleineren Modellen bekommen habe. Die Qualität lag nach meiner subjektiven Bewertung irgendwo bei 7,5 bis 8 von 10.

Wo es nicht reichte: Die Ordnernavigation im Finder-Klon war unvollständig. Einige App-Interaktionen, die Zustandsänderungen hätten auslösen sollen, taten es nicht. Das sind die Art von Feinschliff-Problemen, die einen starken ersten Entwurf von produktionsreifem Code trennen — und sie sind konsistent mit dem, was ich von Modellen in diesem Parameter-Bereich sehe. Claude Opus und Qwen 3.6 Plus handhaben diese Randfälle besser, aber sie sind auch entweder größer, teurer oder beides.

Das 26B MoE-Modell bewältigte eine ähnliche UI-Aufgabe mit kleinen Mängeln — einige Animationen wurden nicht korrekt ausgelöst, und ein paar CSS-Übergänge stimmten nicht. Aber das Geschwindigkeits-Qualitäts-Verhältnis war bemerkenswert. 80% des Weges zu einer ausgefeilten UI in einem Bruchteil der Zeit und Kosten zu schaffen? Für Prototyping, für interne Tools, für Proof-of-Concepts — das ist der Sweet Spot.

Ich testete auch einen stärker eingeschränkten Prompt: Generiere ein bestimmtes UI-Layout mit strengen Design-Token-Anforderungen, definiertem Abstand und einem bestimmten Farbsystem. Dies testet die Befolgung von Anweisungen mehr als rohe Kreativität. Sowohl das 31B- als auch das 26B-Modell bewältigten dies gut — Code auf Produktionsniveau, der die Einschränkungen respektierte. Vergleichbare Qualität zu dem, was ich von Qwen 3.6 und Opus 4.5 bei ähnlichen Aufgaben bekommen habe.

Der Physik-Simulationstest — Wo Die Lücken Sichtbar Werden

Mein zweiter Standardtest schiebt Modelle in ein Gebiet, in dem rohes Reasoning mehr zählt als Mustererkennung: Physik-Simulationen. Ich bat Gemma 4 31B, einen F1-Donut-Simulator zu erstellen — ein Auto, das in engen Kreisen dreht, mit realistischer Reifenphysik, Raucheffekten und 3D-Rendering.

Das Modell zeigte hier echte Kreativität. Es versuchte komplexe physikalische Interaktionen, 3D-Perspektiv-Rendering und Partikeleffekte für Reifenrauch. Der technische Ehrgeiz war beeindruckend für ein 31-Milliarden-Parameter-Modell. Es verstand, wie ein Donut-Manöver physisch aussieht, und traf vernünftige technische Entscheidungen darüber, wie man es simuliert.

Aber die Ausführung blieb hinter dem zurück, was Qwen 3.6 beim selben Prompt geliefert hat. Die Physik fühlte sich leicht daneben an — Reifengrip-Berechnungen erzeugten bei bestimmten Geschwindigkeiten unrealistisches Verhalten. Das 3D-Rendering hatte Tiefensortierungsprobleme. Den Rauchpartikeln fehlte die organische Zufälligkeit, die Simulationen real wirken lässt.

Hier zeigt sich der Intelligence-Index-Unterschied zwischen Gemma 4 (Score 31) und Qwen 3.5 (Score 42) in der Praxis. Aufgaben, die das Modell erfordern, durch neuartige physikalische Interaktionen zu reasonen — Situationen, in denen es sich nicht auf eingeübte Muster aus Trainingsdaten verlassen kann — enthüllen die Obergrenze. Gemma 4 bringt Sie solide 70-75% des Weges. Qwen bringt Sie auf 85-90%. Für viele Anwendungen spielt dieser Unterschied keine Rolle. Für komplexe Simulationen und Spiele schon.

Die Arena-Battle-Tests — Agentische Leistung in der Praxis

Ich verbrachte einen soliden Nachmittag damit, das 31B-Modell durch LM Arenas Battle-Modus zu schicken — Kopf-an-Kopf-Vergleiche gegen anonyme Gegner bei einer Reihe von Aufgaben. Hier sieht man, wie ein Modell abschneidet, wenn es sich nicht auf Benchmark-optimiertes Training verlassen kann.

Interaktive Zustandsverwaltung: Ich bat es, ein Multi-Tab-Dashboard mit gemeinsam genutztem Zustand über Komponenten hinweg zu erstellen. Gemma 4 bewältigte dies sauber — korrektes State Lifting, Kontext-Management, reaktive Updates. Der Code war gut strukturiert und wartbar.

360-Grad-Produktbetrachter: Eine Produktanzeige mit Zoom, Hotspot-Annotationen und sanfter Rotation. Das Modell generierte dies aus einem einzigen Prompt mit funktionierenden Maus-/Touch-Interaktionen. Die Hotspot-Positionierung war genau, und das Zoom-Verhalten fühlte sich natürlich an.

Animierte SVG-Generierung: Ich fragte nach einem animierten Schmetterling — derselbe Test, den ich bei jedem Modell durchführe. Gemischte Ergebnisse. Die Flügelgeometrie war kreativ, aber das Animationstiming fühlte sich mechanisch an. Qwen 3.6 produzierte organischere Bewegung beim selben Prompt. GLM5s Version war noch besser. SVG-Animation scheint eine hartnäckige Schwäche in der Gemma-Linie zu sein.

Website-Klon: Ich fragte nach einer Airbnb-ähnlichen Angebotsseite mit realistisch wirkendem Inhalt, SVG-Icons, korrekter Formatierung und responsivem Layout. Dies war überraschend stark. Das Modell generierte maßgeschneiderte SVG-Icons, die absichtlich gestaltet aussahen, nicht zufällig. Die Typografie und der Abstand zeigten echtes Design-Bewusstsein. Das Layout war responsiv. Ich würde schätzen, dies waren 85% dessen, was ein Mid-Level-Frontend-Entwickler in ein paar Stunden fokussierter Arbeit produzieren würde.

Spiellogik: Ein Kartenspiel mit physikbasiertem Kartenwerfen, Regeldurchsetzung und Punktzählung. Das Modell bewältigte die Spiellogik korrekt — korrekte Zugverwaltung, Punkteberechnung, Regelvalidierung. Die Physik der Kartenwürfe war vereinfacht, aber funktional. Wo es Schwierigkeiten hatte, war beim visuellen Feinschliff der Kartenanimationen.

Über alle diese Battle-Tests hinweg zeichnete sich ein Muster konsistent ab: Gemma 4 31B ist eine ausgezeichnete Erster-Entwurf-Maschine. Die strukturellen Entscheidungen sind solide. Die Code-Architektur ist sauber. Die anfängliche Ausgabe bringt einen 75-85% des Weges zu einem fertigen Produkt. Aber die letzte Meile — der Animations-Feinschliff, die Randfall-Behandlung, die subtilen Interaktionen, die etwas professionell wirken lassen — braucht oft manuelle Verfeinerung oder einen zweiten Durchgang mit einem leistungsfähigeren Modell.

Agentische Fähigkeiten — Die Funktion, Die Google Bemerkt Haben Will

Google macht mit Gemma 4 eine bewusste Wette: Sie wollen, dass diese Modelle die Grundlage agentischer AI-Workflows bilden. Nicht nur Chatbots. Nicht nur Code-Generatoren. Autonome Agenten, die Tools verketten, mehrstufige Pläne ausführen und Ergebnisse über verschiedene Modalitäten hinweg synthetisieren.

Die praktische Umsetzung zeigt sich auf mehrere Arten.

Erstens ist Tool-Nutzung nativ trainiert — nicht auf ein Basismodell feingetunt. Als ich eine einfache Agent-Schleife mit dem 31B-Modell einrichtete — das Web durchsuchen, Daten extrahieren, als JSON formatieren, an den nächsten Schritt weitergeben — bewältigte das Modell die Übergaben sauber. Es wusste, wann es ein Tool aufrufen, wie es die Eingabe formatieren und wie es die Ausgabe interpretieren sollte, ohne umfangreiche Prompt-Engineering. Dies ist die Art von Verhalten, die Modelle, auf denen man tatsächlich Agenten bauen kann, von Modellen trennt, die zehn Seiten System-Prompts brauchen, um einen Taschenrechner zu benutzen.

Zweitens ist strukturierte JSON-Ausgabe zuverlässig. Ich führte fünfzig aufeinanderfolgende Anfragen nach spezifischen JSON-Schemas durch — verschachtelte Objekte, Arrays, optionale Felder, Typ-Einschränkungen — und das 31B-Modell traf das korrekte Format bei 47 von 50 Versuchen. Die drei Fehlschläge waren kleinere Formatierungsprobleme, keine strukturellen Fehler. Für Produktions-Agent-Pipelines, bei denen eine falsch formatierte JSON-Antwort den nächsten Schritt zum Absturz bringt, zählt diese Zuverlässigkeit mehr als jede Benchmark-Zahl.

Drittens bewältigt die mehrstufige Reasoning-Fähigkeit zusammengesetzte Aufgaben gut. Ich gab dem 26B-Modell einen Prompt, der erforderte: einen Screenshot eines Dashboards analysieren, drei UX-Probleme identifizieren, spezifische Lösungen für jedes vorschlagen und den korrigierten Code generieren. Es führte alle vier Schritte kohärent in einer einzigen Antwort aus. Die UX-Kritiken waren spezifisch und umsetzbar. Die Code-Fixes adressierten die tatsächlich identifizierten Probleme. Die Reasoning-Kette driftete nicht ab und verlor den Kontext zwischen den Schritten nicht.

Google hat auch eingeführt, was sie "Agent Skills" innerhalb des Gemini-App-Ökosystems nennen — im Wesentlichen gepackte agentische Verhaltensweisen, die die kleineren Gemma-Modelle auf dem Gerät ausführen können. Die kleineren E2B- und E4B-Modelle können diese Agent Skills vollständig auf einem Smartphone ohne Cloud-Computing ausführen. Mehrere Tools verketten. Mehrstufige Aufgaben ausführen. Ergebnisse kombinieren. Alles lokal.

Diese Vision von On-Device-agentischer AI ist der Punkt, an dem es wirklich interessant wird. Stellen Sie sich ein Smartphone vor, das Ihre Fotos analysieren, Text aus Dokumenten extrahieren, Informationen kreuzverweisen und Aktionen ausführen kann — alles ohne ein einziges Byte an einen Server zu senden. Wir sind mit den Fähigkeiten des E2B-Modells noch nicht ganz dort, aber das architektonische Fundament ist gelegt. Und das 26B-Modell, das auf einem Mac Studio läuft, beweist, dass das Konzept auf höheren Leistungsstufen funktioniert.

Wie Gemma 4 Im Vergleich Zu Qwen 3.5 und Llama 4 Abschneidet

Ich kann diese Bewertung nicht schreiben, ohne die Wettbewerbslandschaft direkt anzusprechen. Der Open-Source-AI-Bereich im April 2026 hat drei große Konkurrenten, und die Wahl zwischen ihnen hängt vollständig davon ab, was man baut.

Dimension	Gemma 4 (31B/26B)	Qwen 3.5 (27B)	Llama 4 Scout
Lizenz	Apache 2.0	Apache 2.0	Meta Community (700M MAU-Obergrenze)
Kontextfenster	256K Token	131K Token	10M Token
Token-Effizienz	~2,5x weniger Ausgabe-Token	Basislinie	Variiert
Mathematik (AIME)	89,2%	Höher	Niedriger
Arena-Ranking	#3 offenes Modell	#1 offenes Modell	Variiert je nach Aufgabe
Mehrsprachig	140+ Sprachen	201 Sprachen	Weniger
On-Device-Modelle	Ja (E2B, E4B)	Begrenzt	Nein
Lokale Inferenzgeschwindigkeit	Ausgezeichnet (MoE)	Gut	Kontextabhängig

Wählen Sie Gemma 4, wenn: Sie lokale Inferenzgeschwindigkeit, On-Device-Deployment oder maximale Token-Effizienz brauchen. Das Geschwindigkeits-Qualitäts-Verhältnis des 26B MoE-Modells ist unübertroffen. Wenn Ihre agentische Pipeline viele Aufrufe verkettet und Sie pro Token bezahlen, summiert sich der 2,5-fache Effizienzvorteil zu echtem gespartem Geld.

Wählen Sie Qwen 3.5, wenn: Rohe Intelligenz pro Parameter Ihre Priorität ist. Qwen gewinnt bei allgemeinem Reasoning, mehrsprachigen Aufgaben und dem gesamten Intelligence Index. Wenn Sie ein Modell brauchen, das neuartige, unvorhersehbare Probleme bewältigt — die Art von Aufgaben, die nicht sauber auf Trainingsdaten abbildbar sind — hat Qwen derzeit den Vorsprung.

Wählen Sie Llama 4 Scout, wenn: Kontextlänge nicht verhandelbar ist. Dieses 10-Millionen-Token-Kontextfenster befindet sich in einem anderen Universum als Gemma 4s 256K. Wenn Sie ganze Codebasen, buchlange Dokumente oder massive Datensätze in einem einzigen Durchgang verarbeiten, ist Llama 4 die einzige Option.

Der Lizenzunterschied ist ebenfalls wichtig. Sowohl Gemma 4 als auch Qwen 3.5 verwenden Apache 2.0 — volle kommerzielle Freiheit ohne Einschränkungen. Llama 4s Community-Lizenz führt eine Schwelle von 700 Millionen monatlich aktiven Nutzern ein, die 99% der Entwickler nicht betreffen wird, aber eine echte Einschränkung wird, wenn man etwas baut, das viral skaliert.

Meine ehrliche Einschätzung: Gemma 4 entthront Qwen 3.5 nicht als das insgesamt beste offene Modell. Aber das muss es auch nicht. Seine Stärke ist die Effizienzgeschichte — 80-90% von dem zu leisten, was Qwen leistet, während es 2,5-mal weniger Token verwendet und schneller auf Consumer-Hardware läuft. Für bestimmte Anwendungsfälle ist dieser Kompromiss der richtige.

Zugang Zu Gemma 4 — Jede Jetzt Verfügbare Option

An diese Modelle heranzukommen ist einfacher als bei jeder früheren Gemma-Veröffentlichung. Google hat diesmal klar die Zugänglichkeit priorisiert.

Google AI Studio — Kostenlos. Keine Kreditkarte erforderlich. Sie können alle vier Modelle direkt im Browser mit multimodalen Eingaben testen. Dies ist der schnellste Weg, um es auszuprobieren. Google bietet $25 an kostenlosen API-Credits für Entwickler, die über den Playground hinausgehen wollen.

Ollama — Unterstützung am ersten Tag. Führen Sie ollama pull gemma4:26b oder ollama pull gemma4:31b aus und Sie laufen lokal in weniger als einer Minute (nach dem Download). Für die Edge-Modelle: ollama pull gemma4:e2b und ollama pull gemma4:e4b.

Hugging Face — Vollständige Modellgewichte zum Download verfügbar. Alle Quantisierungsvarianten. Community-Feinabstimmungen erscheinen bereits.

LM Studio — Point-and-Click lokales Deployment für jeden, der kein Terminal anfassen möchte.

Kaggle — Notebooks und Modellkarten mit Beispielimplementierungen.

API über Googles Gemini API — Für Produktions-Deployments. Die Preise liegen bei etwa $0,14 pro Million Eingabe-Token und $0,40 pro Million Ausgabe-Token bei Routing über Gemma 4 auf Vertex AI. Das ist absurd günstig im Vergleich zu geschlossenen Frontier-Modellen.

OpenRouter — API-Zugang von Drittanbietern mit standardisierten Endpunkten. Gut, wenn Sie bereits OpenRouter für andere Modelle verwenden und eine einheitliche Abrechnungseinrichtung wünschen.

Kilo CLI — Besonders erwähnenswert für agentische Workflows. Das Kilo-Harness ist für Tool-Nutzung und Agent-Schleifen optimiert, und mehrere Entwickler in der Community haben es als die beste Erfahrung speziell für Gemma 4s agentische Fähigkeiten markiert.

Für lokales Deployment scheint der Quantisierungs-Sweet-Spot Q4_K_M für das 26B-Modell zu sein — es bewahrt den Großteil der Qualität und passt gleichzeitig bequem auf Maschinen mit 16GB+ Unified Memory. Das 31B Dense-Modell braucht mehr Spielraum — mindestens 24GB für komfortable Inferenz, und Sie wollen 32GB+, wenn Sie lange Kontext-Prompts schicken.

Worüber Niemand Spricht — Die On-Device-AI-Verschiebung

Die meiste Berichterstattung über Gemma 4 konzentriert sich auf die Benchmark-Scores des 31B-Modells. Fair genug — diese Zahlen sind gut, und Benchmarks erzeugen Schlagzeilen. Aber ich denke, der folgenreichste Teil dieser Veröffentlichung ist das, was am unteren Ende des Modell-Lineups passiert.

Die E2B- und E4B-Modelle repräsentieren etwas, das ich seit Monaten beobachte: den Moment, in dem wirklich nützliche AI aufhört, eine Internetverbindung zu benötigen.

Googles Android AICore Developer Preview erlaubt App-Entwicklern, Gemma 4s Edge-Modelle direkt auf unterstützten Geräten auszuführen. Nicht über eine Cloud-API, die vorgibt, on-device zu sein. Tatsächlich auf dem Silizium im Smartphone. Die Modelle unterstützen multimodales Reasoning — sie können Bilder analysieren, Audio verarbeiten und Erkenntnisse über Modalitäten hinweg kombinieren. Auf einem Smartphone.

Die Datenschutz-Implikationen sind unmittelbar und offensichtlich. Medizinische Apps, die Bilder analysieren, ohne sie hochzuladen. Dokumentenverarbeitung, die niemals das Gerät verlässt. Persönliche Assistenten, die Ihren Kontext verstehen, ohne Ihre Daten an ein Rechenzentrum zu schicken. Für Märkte mit strengen Anforderungen an die Datenspeicherung — Gesundheitswesen, Finanzen, Behörden — ist dies kein Komfort-Feature. Es ist eine Compliance-Anforderung, die auf Modellebene gelöst wird.

Die Leistungsimplikationen sind ebenso interessant. Keine Netzwerklatenz. Keine API-Rate-Limits. Keine Dienstausfälle. Das Modell ist da, wenn man es braucht, laufend auf Hardware, die man bereits besitzt. Für agentische Workflows, die mehrere schnelle Inferenz-Aufrufe verketten müssen, transformiert die Eliminierung des Netzwerk-Roundtrips für jeden Aufruf, was architektonisch möglich ist.

Ich baue hauptsächlich mit in der Cloud gehosteten Modellen — Claude, GPT, Gemini über APIs. Und das werde ich weiterhin tun, weil Frontier-Modelle komplexe Aufgaben immer noch besser bewältigen als alles, was lokal läuft. Aber Gemma 4s Edge-Modelle repräsentieren den Beginn einer glaubwürdigen Alternative für eine bedeutende Kategorie von Aufgaben. Einfache Tool-Nutzung. Strukturierte Datenextraktion. Bildanalyse. Mehrstufiges Reasoning bei eingeschränkten Problemen. Diese brauchen kein Billionen-Parameter-Cloud-Modell. Sie brauchen etwas Schnelles, Privates und Ausreichendes.

Die Zukunft ist nicht Cloud ODER lokal. Es ist eine Routing-Schicht, die einfache Aufgaben an Ihre lokale Gemma 4-Instanz sendet und komplexe Aufgaben an Claude oder GPT über die API. Gemma 4 macht diese Architektur zum ersten Mal realisierbar mit Modellen, die tatsächlich gut genug sind, um ihnen echte Arbeit anzuvertrauen.

Die Ehrliche Bewertung — Wo Gemma 4 Zu Kurz Kommt

Ich habe den größten Teil dieses Artikels damit verbracht, echte Stärken hervorzuheben, also lassen Sie mich direkt zu den Schwächen kommen. Sie verdienen es, diese zu kennen, bevor Sie sich für ein ernsthaftes Projekt auf Gemma 4 festlegen.

Decke bei kreativer Generierung. Bei Aufgaben, die echte Neuartigkeit erfordern — Physik-Simulationen, komplexe Spielmechaniken, kreative SVG-Animationen — landet Gemma 4 konsistent unter Qwen 3.5 und 3.6. Der Abstand ist nicht riesig, aber er ist konsistent. Wenn Ihre Arbeit erfordert, Modelle in unbekanntes Terrain zu drängen, werden Sie diese Decke erreichen.

Die Intelligence-Index-Lücke. Eine Bewertung von 31 gegenüber Qwens 42 auf dem holistischen Intelligence Index übersetzt sich in merkliche Unterschiede bei zusammengesetzten Reasoning-Aufgaben. Wenn eine Aufgabe erfordert, dass das Modell fünf oder sechs Reasoning-Schritte verkettet, wobei jeder Schritt davon abhängt, den vorherigen richtig hinzubekommen, macht Gemma 4 häufiger Fehler. Nicht häufig — aber oft genug, dass man es in agentischen Pipelines bemerkt, die Hunderte von Aufgaben ausführen.

Multimodale Fähigkeiten sind stark, aber nicht erstklassig. Die Vision-Fähigkeiten bewältigen Standard-Aufgaben gut — Screenshots analysieren, Text aus Bildern extrahieren, visuellen Inhalt beschreiben. Aber bei Aufgaben, die tiefes visuelles Reasoning erfordern — komplexe Diagramme verstehen, mehrdeutige visuelle Layouts interpretieren, Erkenntnisse über mehrere Bilder hinweg synthetisieren — fand ich die Ausgabe weniger zuverlässig als das, was ich von Gemini 3 Pro oder Claude Opus über ihre nativen Vision-APIs bekomme.

Die Edge-Modelle sind begrenzt. Die E2B- und E4B-Modelle sind beeindruckend für ihre Größe, aber sie sind immer noch kleine Modelle. Zu erwarten, dass sie komplexe agentische Workflows auf die gleiche Weise bewältigen wie das 31B-Modell, führt zu Frustration. Sie eignen sich am besten für spezifische, gut eingegrenzte Aufgaben — nicht für offenes Reasoning.

Dokumentation und Ökosystem-Reife. Es ist der 3. April 2026 — Gemma 4 ist einen Tag öffentlich. Die Community-Werkzeuge, Feinabstimmungen und Best Practices hatten noch keine Zeit, sich zu entwickeln. Wenn Sie nach produktionsreifen Rezepten und kampferprobten Konfigurationen suchen, müssen Sie geduldig sein oder Ihre eigenen erstellen.

Keines davon sind Dealbreaker. Jedes Modell hat Schwächen. Die Frage ist, ob die Schwächen mit Ihrem spezifischen Anwendungsfall überlappen — und für viele Entwickler werden sie das nicht tun.

Was Ich Tatsächlich Mit Gemma 4 Machen Werde

Ich schreibe diese Bewertungen nicht, um Modelle auf einem Leaderboard zu ranken. Ich schreibe sie, um herauszufinden, welche Werkzeuge einen festen Platz in meinem Workflow verdienen und welche interessant-aber-nicht-für-mich sind.

Hier ist, wo Gemma 4 für mich landet:

Das 26B MoE-Modell geht sofort in mein lokales Inferenz-Setup. Das Geschwindigkeits-Qualitäts-Verhältnis für Prototyping, schnelle Code-Generierung und strukturierte Datenextraktion ist das Beste, das ich von einem lokal ausführbaren Modell gesehen habe. Wenn ich eine schnelle Antwort brauche und keine API-Credits verbrennen will, ist das mein Standard.

Das 31B Dense-Modell wird meine sekundäre Option für Aufgaben, die mehr Reasoning-Tiefe brauchen, aber bei denen ich dennoch lokal bleiben will. Komplexe Code-Reviews. Multi-Datei-Refactoring-Vorschläge. Langkontext-Analyse ganzer Repositories. Alles, wo ich Qualität will, aber auch Privatsphäre.

Das E4B-Modell kommt auf meine Testliste für ein mobiles Projekt, das ich geplant habe — ein On-Device-Dokumentenanalyse-Tool. Wenn es zuverlässig Dokumenteninhalte extrahieren und darüber reasonen kann, ohne Cloud-Konnektivität, löst das eine echte Produktanforderung, mit der ich zu kämpfen hatte.

Für meine primären agentischen Programmier-Workflows — die komplexen, mehrstufigen Agent-Pipelines, die Beurteilungen treffen und unerwartete Situationen bewältigen müssen — bleibe ich bei Claude Opus und Qwen 3.6 Plus. Diese Modelle bewältigen die schwierigen Sachen immer noch besser. Aber Gemma 4 hat gerade reduziert, wie oft ich nach ihnen greifen muss.

Die Effizienzgeschichte ist real. Die lokale Deployment-Geschichte ist real. Die agentischen Fähigkeiten sind wirklich gut, keine Marketing-Behauptungen, die über die Realität hinaus gedehnt wurden. Googles Open-Source-AI-Bemühung hat endlich etwas produziert, das verändert, wie ich arbeite, nicht nur wie ich über Benchmarks denke.

Vor einem Jahr hätte ich Ihnen geraten, Gemma zu ignorieren und sich auf Llama oder Qwen für Open-Source-AI-Arbeit zu konzentrieren. Heute würde ich Ihnen sagen, das 26B-Modell auf Ihrer eigenen Hardware zu testen, bevor Sie diese Entscheidung treffen. Sie könnten überrascht sein, was 3,8 Milliarden aktive Parameter leisten können, wenn es die richtigen 3,8 Milliarden sind.

Häufig Gestellte Fragen

Kann Gemma 4 auf einem Mac Mini oder MacBook Pro laufen?

Das 26B MoE-Modell läuft gut auf Apple Silicon-Maschinen mit 16GB+ Unified Memory bei Q4_K_M-Quantisierung über Ollama oder LM Studio. Das 31B Dense-Modell benötigt mindestens 24GB. Edge-Modelle (E2B, E4B) laufen auf praktisch jeder modernen Hardware.

Ist Gemma 4 wirklich kostenlos für kommerzielle Nutzung?

Ja. Alle vier Modelle werden unter Apache 2.0 ausgeliefert — der freizügigsten verfügbaren Open-Source-Lizenz. Keine Limits für monatlich aktive Nutzer, keine Nutzungseinschränkungen, volle Freiheit für kommerzielle und souveräne Deployments. Siehe die Wettbewerbsanalyse oben für den vollständigen Lizenzvergleich.

Wie schneidet Gemma 4 im Vergleich zu Qwen 3.5 beim Programmieren ab?

Gemma 4 31B erreicht 80% auf LiveCodeBench v6 und generiert sauberen, gut strukturierten Code. Qwen 3.5 schneidet bei allgemeinen Intelligenzmetriken besser ab und bewältigt kreatives Problemlösen besser. Gemma 4s Vorteil ist die Token-Effizienz — es verwendet ungefähr 2,5-mal weniger Token für vergleichbare Aufgaben, was es für Programmier-Workflows mit hohem Volumen deutlich günstiger macht.

Was ist der beste Weg, jetzt auf Gemma 4 zuzugreifen?

Google AI Studio bietet kostenloses Browser-basiertes Testen mit $25 an API-Credits. Für lokale Nutzung bietet Ollama Unterstützung am ersten Tag — führen Sie einfach ollama pull gemma4:26b aus. Produktions-API-Zugang über Vertex AI kostet ungefähr $0,14 pro Million Eingabe-Token. Siehe die vollständige Zugangsbeschreibung oben für jede verfügbare Option.

Sollte ich von Llama 4 zu Gemma 4 wechseln?

Es hängt von Ihren Kontextfenster-Anforderungen ab. Llama 4 Scout bietet 10 Millionen Token Kontext — ungefähr 40-mal mehr als Gemma 4s 256K. Wenn Sie massive Dokumente oder ganze Codebasen in einem einzigen Durchgang verarbeiten, bleibt Llama 4 die bessere Wahl. Für alles andere — Geschwindigkeit, Effizienz, Lizenzfreiheit, On-Device-Deployment — ist Gemma 4 die stärkere Option.

Lassen Sie Uns Zusammenarbeiten

Sie möchten AI-Systeme aufbauen, Workflows automatisieren oder Ihre Tech-Infrastruktur skalieren? Ich helfe gerne.

Fiverr (maßgeschneiderte Projekte & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Unternehmenslösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io

Ich Habe Google Gemma 4 Getestet — Open Source AI Wird Ernst

Ich Habe Google Gemma 4 Getestet — Open Source AI Wird Ernst

Was Google Tatsächlich Ausgeliefert Hat — Und Warum die Architektur Wichtig Ist

Die Benchmarks — Beeindruckende Zahlen Mit Einem Wichtigen Sternchen

Gemma 4 Lokal Betreiben — Wo Die Eigentliche Geschichte Liegt

Der UI-Generierungstest — Mein Standard-Härtetest

Der Physik-Simulationstest — Wo Die Lücken Sichtbar Werden

Die Arena-Battle-Tests — Agentische Leistung in der Praxis

Agentische Fähigkeiten — Die Funktion, Die Google Bemerkt Haben Will

Wie Gemma 4 Im Vergleich Zu Qwen 3.5 und Llama 4 Abschneidet

Zugang Zu Gemma 4 — Jede Jetzt Verfügbare Option

Worüber Niemand Spricht — Die On-Device-AI-Verschiebung

Die Ehrliche Bewertung — Wo Gemma 4 Zu Kurz Kommt

Was Ich Tatsächlich Mit Gemma 4 Machen Werde

Häufig Gestellte Fragen

Kann Gemma 4 auf einem Mac Mini oder MacBook Pro laufen?

Ist Gemma 4 wirklich kostenlos für kommerzielle Nutzung?

Wie schneidet Gemma 4 im Vergleich zu Qwen 3.5 beim Programmieren ab?

Was ist der beste Weg, jetzt auf Gemma 4 zuzugreifen?

Sollte ich von Llama 4 zu Gemma 4 wechseln?

Lassen Sie Uns Zusammenarbeiten

Hat Ihnen dieser Artikel gefallen?

Verwandte Themen

Engr Mejba Ahmed

Comments

Leave a Comment

Verwandte Artikel

Kimi K3 Review: Moonshot's 2.8T Open Model, Tested

GPT-5.6 vs Grok 4.5 vs Fable 5: Der Kreative Test

KI-Modelle und Robotik 2026: Das Rennen Hat Sich Geteilt

Comments

Leave a Comment

Expand Your Knowledge

AI School

Certificates

Learning Flashcards

AI Agent Skills

Bereit, Ihre Ideen zu Verwandeln?

Engr Mejba Ahmed

Hey there!