Ich habe GPT 5.4 Thinking getestet — das hat sich wirklich verändert

Ich habe GPT 5.4 Thinking getestet — Das hat sich wirklich verändert

Ich ließ GPT 5.4 Thinking eine 15-Folien-Präsentation erstellen, ein voll funktionsfähiges Excel-Spreadsheet mit Live-Formeln und einen Forschungsbericht mit Quellenangaben — alles innerhalb derselben Sitzung, alles in unter zehn Minuten. Dann bat ich es, einen YouTube-Hook in meiner Stimme zu schreiben, und es klang wie eine Firmenpressemitteilung mit aufgesetzter Casual-Mütze.

Dieser Widerspruch — verblüffend leistungsfähig in einigen Bereichen, frustrierend tonlos in anderen — ist die ehrlichste Zusammenfassung, die ich dir von OpenAIs neuestem Flaggschiff-Modell geben kann. GPT 5.4 Thinking ist kein kleines inkrementelles Update. Es ist ein echter Sprung in bestimmten Dimensionen und ein seitliches Shuffle in anderen. Nach zwei Tagen intensiven Testens in den Bereichen Coding, Forschung, Dokumentenerstellung und Content-Generierung habe ich ein klares Bild davon, wo dieses Modell glänzt, wo es stolpert und — am wichtigsten — wo es in eine Landschaft passt, in der Anthropics Opus 4.6 und Googles Gemini 3.1 Pro beide um die gleiche Krone kämpfen.

Bevor ich in Benchmarks eintauche, musst du die Modell-Palette verstehen, denn OpenAI hat nicht einfach eine Sache veröffentlicht — sie haben eine ganze Familie veröffentlicht.

Drei Modelle, drei Aufgaben, ein verwirrendes Namensschema

OpenAIs GPT 5.x-Generation hat jetzt drei eigenständige Varianten, und die Unterschiede zwischen ihnen sind größer, als man allein anhand der Namen vermuten würde.

GPT 5.4 Thinking ist das Hauptmodell — dasjenige, das für tiefgreifendes Reasoning und komplexe Aufgaben konzipiert wurde. Wenn du ihm etwas Schwieriges stellst, generiert es nicht einfach eine Antwort. Es tritt in eine sichtbare "Denkphase" ein, in der das Modell verarbeitet, abwägt und das Problem durcharbeitet, bevor es antwortet. Stell es dir als das Modell vor, das innehalten und nachdenken kann, anstatt die erstbeste plausible Antwort herauszuwerfen. Dieser Denkprozess ist der Grund, warum es bei Forschungssynthese, mehrstufiger Analyse und Aufgaben, bei denen die richtige Reasoning-Kette wichtiger ist als reine Geschwindigkeit, hervorragend abschneidet. Die Thinking-Tokens werden anders abgerechnet als Output-Tokens, was die Kosten trotz der zusätzlichen Verarbeitung angemessen hält.

GPT 5.4 Pro ist die Forschungsstufe — dieselbe zugrunde liegende Architektur, aber mit erweiterter Denkzeit, höheren Kontextlimits und Zugang zu mehr Rechenleistung pro Anfrage. OpenAI positioniert dies für professionelle und Unternehmensanwender, die die absolute Obergrenze der Leistungsfähigkeit benötigen und bereit sind, deutlich mehr pro Anfrage zu zahlen. Ich hatte noch nicht genug Zeit mit Pro, um eine abschließende Bewertung abzugeben, aber erste Tests deuten darauf hin, dass der Qualitätsunterschied zum Standard-5.4-Thinking bei sehr langen, sehr komplexen Aufgaben am deutlichsten spürbar ist — Multi-Dokument-Analyse, umfassende Code-Reviews über große Repositories, solche Dinge. Für alltägliche Wissensarbeit ist Standard-5.4-Thinking mehr als ausreichend.

GPT 5.3 Instant verfolgt den entgegengesetzten Ansatz. Geschwindigkeit ist der gesamte Zweck. Es opfert Tiefe für Reaktionsfähigkeit und liefert Antworten in Bruchteilen einer Sekunde statt der 5-15 Sekunden, die der Thinking-Modus manchmal benötigt. Die Qualität ist bei komplexen Aufgaben merklich geringer — man spürt, dass das Modell beim Reasoning Abkürzungen nimmt — aber für schnelle Nachschlagen, Brainstorming, Chat-artige Interaktionen und Aufgaben, bei denen "gut genug in 0,3 Sekunden" besser ist als "exzellent in 12 Sekunden", ist Instant wirklich nützlich. Ich habe angefangen, es als Standard für Schnellfeuer-Fragen während Entwicklungssitzungen zu nutzen, wenn ich einen schnellen Sanity-Check brauche, keine tiefgehende Analyse.

Der Drei-Stufen-Ansatz ergibt strategisch Sinn. OpenAI erkennt an, was Power-User bereits wissen: Verschiedene Aufgaben erfordern unterschiedliche Kompromisse zwischen Geschwindigkeit und Qualität. Aber die Namensgebung ist ein Durcheinander. "GPT 5.4 Thinking" versus "GPT 5.3 Instant" impliziert, dass Instant eine Generation hinterherhinkt, obwohl es tatsächlich ein zeitgleiches Modell ist, das für einen anderen Anwendungsfall optimiert wurde. Ich vermute, dass OpenAI die Namensgebung irgendwann aufräumt, aber merke dir vorerst: Thinking = tief und gründlich, Pro = maximale Leistungsfähigkeit, Instant = schnell und leichtgewichtig.

Nachdem die Modell-Familie kartiert ist, hier ist der Punkt an GPT 5.4s Architektur, der das Spiel verändert — auf eine Weise, über die die meisten Reviewer noch nicht sprechen.

Native Computer-Nutzung verändert das gesamte Wertversprechen

Jedes bisherige GPT-Modell war im Wesentlichen eine Text-rein-Text-raus-Maschine. Klar, du konntest es mit Plugins verbinden, an Browsing-Tools anbinden, Agent-Workflows darum herum bauen. Aber das Modell selbst lebte in einem Chat-Fenster. Es konnte dir sagen, was du auf deinem Computer tun sollst. Es konnte es nicht tun.

GPT 5.4 überschreitet diese Grenze.

Native Computer-Nutzung bedeutet, dass das Modell Web-Aktionen direkt ausführen kann — Dateneingabe, E-Mails verwalten, mit Kalender-Apps interagieren, Formulare ausfüllen. Nicht über eine wackelige Browser-Automatisierungsschicht, die jedes Mal bricht, wenn eine Website ihr CSS ändert. Nativ. Als eingebaute Fähigkeit, die OpenAI in die Kernfunktionalität des Modells integriert hat.

Ich habe diese Fähigkeit im gesamten KI-Landschaft beobachtet. Anthropic führte Computer-Nutzung mit Claude Ende 2024 ein, und Google hat mit ähnlichen Features über Project Mariner und Geminis Agent-Fähigkeiten experimentiert. Aber die Implementierung von GPT 5.4 fühlt sich anders an, weil sie so nahtlos mit dem bestehenden ChatGPT-Ökosystem integriert ist. Du musst keinen separaten Agenten einrichten oder eine Browser-Sandbox konfigurieren. Du bittest es einfach... etwas im Web zu tun, und es tut es.

Die Auswirkungen für Wissensarbeiter sind enorm, und ich werde später einige konkrete Beispiele durchgehen. Aber zuerst — der Teil, den alle wirklich wissen wollen.

Die Benchmarks erzählen nur die halbe Geschichte

OpenAIs Marketingmaterial positioniert GPT 5.4 Thinking als State-of-the-Art und beansprucht einen leichten Vorsprung gegenüber sowohl Opus 4.6 als auch Gemini 3.1 Pro in bestimmten Benchmarks. Nachdem ich meine eigenen Tests durchgeführt habe, ist hier meine ehrliche Einschätzung: Sie haben recht mit "leicht", und sie sind großzügig mit "Vorsprung".

Bei Wissensarbeit-Aufgaben — strukturierte Dokumente erstellen, Forschung synthetisieren, formatierte Outputs erstellen — ist GPT 5.4 wirklich beeindruckend. Es bewältigt komplexe Spreadsheet-Logik, an der GPT 5.2 komplett gescheitert wäre. Die Formeln sind korrekt, die Formatierung ist sauber, und die Diagramme ergeben visuell tatsächlich Sinn. Das ist nicht der "fast richtig"-Output, den wir im letzten Jahr von KI-Dokumentengenerierung toleriert haben. Es ist produktionsreif.

Bei Coding-Aufgaben wird das Bild interessanter. OpenAI behauptet, dass GPT 5.4s Coding-Fähigkeiten nun ihrem spezialisierten GPT 5.3 Codex-Modell entsprechen — der Variante, die speziell für Code-Generierung feingetunt wurde und die Entwickler über die API nutzen. Meine Tests bestätigen das teilweise — einfache bis mittelschwere Coding-Aufgaben werden gut bewältigt, mit verbesserter Genauigkeit gegenüber GPT 5.2, und die Tatsache, dass ein Allzweckmodell nun ein code-spezialisiertes Modell erreicht, ist wirklich beeindruckend. Aber "Codex erreichen" und "das beste verfügbare Coding-Modell sein" sind nicht dieselbe Behauptung. Ich baute eine kleine Web-App mit abgerundeten Karten und einem Hell/Dunkel-Modus-Toggle. GPT 5.4 lieferte eine funktionierende Implementierung, aber einige Links waren nicht funktional und die Filterfunktionen, die ich angefordert hatte, filterten tatsächlich nichts. Brauchbar? Ja. Beeindruckend? Einigermaßen. Besser als das, was ich von Opus 4.6 in Claude Code bekomme? Ehrlich gesagt nein — und das sage ich als jemand, der täglich beide Ökosysteme nutzt.

Hier ist die Vergleichstabelle aus meinen Tests:

Fähigkeit	GPT 5.4 Thinking	Opus 4.6	Gemini 3.1 Pro
Forschungssynthese	Ausgezeichnet — schnell, gut strukturiert, mit Quellen	Sehr gut	Sehr gut
Spreadsheet-/Dokumentenerstellung	Beste seiner Klasse	Gut (via Artifacts)	Gut
Coding (einfach-mittel)	Starke Verbesserung ggü. 5.2	Insgesamt am stärksten	Wettbewerbsfähig
Coding (komplex/interaktiv)	Hat noch Lücken	Am zuverlässigsten	Mal so, mal so
Schreiben (natürlicher Ton)	Schwächstes der drei	Stark	Stark
Native Computer-Nutzung	Eingebaut, nahtlos	Verfügbar, aber in Sandbox	Eingeschränkt verfügbar
Token-Effizienz	Verbessert ggü. 5.2	Effizient	Sehr effizient
Halluzinationsrate	33% Reduktion beansprucht	Niedrig	Niedrig

Die 33% Halluzinationsreduktion gegenüber GPT 5.2 verdient besondere Erwähnung, weil sie eine der hartnäckigsten Kritiken an der GPT-Reihe adressiert. Ich führte mehrere faktische Abruftests durch — technische Spezifikationen, historische Daten, API-Dokumentationsdetails — und GPT 5.4 war merklich vorsichtiger darin, unsichere Antworten zu qualifizieren. Es sagte "Ich bin mir bei dieser spezifischen Versionsnummer nicht sicher" in Situationen, in denen GPT 5.2 selbstbewusst eine plausibel klingende Antwort halluziniert hätte.

Allerdings bedeutet "33% weniger Halluzinationen" immer noch, dass Halluzinationen vorkommen. Vertraue, aber überprüfe bleibt der einzig vernünftige Ansatz. Aber der Trend ist ermutigend.

Was die Benchmarks komplett vermissen, ist das Gefühl bei der Arbeit mit diesen verschiedenen Modellen — und dort liegen meine stärksten Meinungen.

Der Forschungs-Workflow, der mich wirklich beeindruckte

Die meisten KI-Modell-Reviews testen Forschungsfähigkeiten, indem sie eine einzelne Frage stellen und die Antwort bewerten. Das ist ein schlechter Test. Niemand nutzt KI-Forschung so in der Praxis. Echte Forschung ist iterativ — du startest mit einer breiten Frage, bekommst Ergebnisse, verengst deinen Fokus, passt deinen Blickwinkel an, gräbst tiefer in einen bestimmten Strang.

GPT 5.4 Thinking bewältigt diesen iterativen Fluss besser als jedes Modell, das ich getestet habe.

Ich begann mit einer breiten Anfrage: "Analysiere den aktuellen Stand der KI-gestützten Marketing-Automatisierungstools mit Fokus auf Marktführer, Preismodelle und Integrationsfähigkeiten." Das Modell startete seinen Denkprozess, durchsuchte das Web und lieferte eine strukturierte Analyse in etwa 45 Sekunden. Saubere Abschnitte, konkrete Produktnamen mit aktuellen Preisen, Vergleiche der Integrations-Ökosysteme. Gut, aber nicht bemerkenswert — Gemini und Claude können Vergleichbares leisten.

Hier wurde es interessant. Ich sagte: "Eigentlich, begrenze das auf Tools, die spezifisch mit Shopify für E-Commerce-E-Mail-Marketing integrieren, und füge einen Vergleich ihrer KI-Personalisierungsfähigkeiten hinzu."

Mit GPT 5.2 hätte diese Art von Kurswechsel mitten im Prozess im Wesentlichen einen Neuanfang erfordert. Das Modell hätte es als neue Frage behandelt und den Kontext aus dem ersten Forschungsdurchlauf verloren. GPT 5.4 passte seine Suchparameter an, behielt die relevanten Erkenntnisse aus der ersten Anfrage und baute darauf auf. Der verfeinerte Output verknüpfte die ursprüngliche Marktübersicht mit Shopify-spezifischen Integrationsdaten und erzeugte einen Vergleich, der sich anfühlte, als käme er von jemandem, der tatsächlich einen Deep Dive gemacht hatte, statt zwei separater oberflächlicher Suchen.

Die Ausgabe war strukturiert in Erkenntnisse mit Quellenangaben, eine wettbewerbliche Vergleichsmatrix und — das war eine nette Zugabe — eine Checkliste mit Bewertungskriterien für die endgültige Auswahl. Die Art von Deliverable, die mich 2-3 Stunden manueller Recherche gekostet hätte.

Ich trieb es einen Schritt weiter und bat es, die Forschung in eine Präsentation umzuwandeln. Fünfzehn Folien, ordentlich strukturiert, mit einem logischen Erzählfluss von der Marktübersicht zu konkreten Empfehlungen. Das Standard-Design war unternehmens-fade (wie erwartet), aber als ich um ein minimalistisches, modernes Redesign bat, war die zweite Version wirklich brauchbar. Nicht preiswürdig — aber absolut gut genug für ein internes Strategie-Meeting.

Dann bat ich es, ein Excel-Spreadsheet zu erstellen, das die wichtigsten Datenpunkte mit Vergleichsformeln und einem Diagramm zusammenfasst. Es lieferte eine herunterladbare .xlsx-Datei mit funktionierenden VLOOKUP-Formeln, bedingter Formatierung und einem Balkendiagramm, das Preise über Anbieter hinweg verglich. Ich öffnete es in Excel und alles funktionierte. Keine kaputten Referenzen, keine Formelfehler, keine Phantomdaten.

Das ist der Workflow, in dem GPT 5.4 absolut seinen Platz verdient. Forschung → Präsentation → Spreadsheet, alles in einer Konversation, jedes auf den vorherigen Output aufbauend. Für Wissensarbeiter, die ihre Tage damit verbringen, Informationen in Dokumenten zusammenzuführen, ist das ein echter Produktivitätsmultiplikator.

Aber es gibt einen wichtigen Vorbehalt, den ich ansprechen muss, bevor jemand zu begeistert von diesen Spreadsheet-Fähigkeiten wird.

Das Excel-Add-On ist beeindruckend, aber nicht das, was du denkst

OpenAI veröffentlichte das ChatGPT for Excel Add-On zusammen mit GPT 5.4, verfügbar für zahlende Abonnenten. Auf dem Papier klingt es wie das Killer-Feature für Business-Anwender — nahtlose KI-Integration direkt in deinen Spreadsheets.

In der Praxis ist es nützlich, aber enger gefasst als das Marketing suggeriert. Das Add-On lässt dich GPT-Funktionen innerhalb von Excel-Zellen verwenden, was großartig ist für Aufgaben wie das Kategorisieren von Daten, das Extrahieren von Informationen aus Textspalten oder das Generieren von Formeln auf Basis natürlicher Sprachbeschreibungen. Was es nicht tut, ist Excel in eine vollständig KI-gestützte Analyseplattform zu verwandeln. Du arbeitest immer noch innerhalb von Excels Paradigma; die KI hilft nur bei spezifischen Aufgaben auf Zellebene.

Wo ich echten Mehrwert fand, war bei der Formelgenerierung. In einfachem Deutsch beschreiben, was ich wollte — "berechne die Wachstumsrate im Jahresvergleich, indem Spalte C mit Spalte D verglichen wird, aber nur für Zeilen, in denen Spalte A 'Enterprise' enthält" — und sofort eine funktionierende Formel zurückbekommen. Das spart wirklich Zeit, besonders bei komplexen verschachtelten Formeln, die sonst zwanzig Minuten Dokumentations-Durchsuchen erfordern würden.

Wo ich nicht viel Mehrwert fand, waren die breiteren "KI in Excel"-Anwendungsfälle. Für ernsthafte Datenanalyse exportiere ich die Daten lieber und arbeite damit in Claude Code oder einem Python-Notebook. Der Zelle-für-Zelle-KI-Ansatz fühlt sich an wie einen Rennwagen zu benutzen, um zum Briefkasten zu fahren — funktioniert technisch, architektonisch falsch für die Aufgabe.

Die eigentliche Geschichte von GPT 5.4 ist kein einzelnes Feature. Es ist das Muster dessen, wofür OpenAI optimiert — und wofür nicht.

Wo GPT 5.4 schwächelt (und warum das wichtig ist)

Ich bat GPT 5.4 Thinking, fünf YouTube-Video-Hooks in einem lockeren, direkten Ton zu schreiben. "Keine Unternehmenssprache. Keine Gedankenstriche. Schreib so, als würdest du mit einem Freund reden, der dir eine Frage gestellt hat."

Die erste Ausgabe verwendete vier Gedankenstriche in fünf Hooks.

Ich präzisierte: "Null Gedankenstriche. Keine. Nicht einen einzigen."

Die zweite Ausgabe verwendete zwei Gedankenstriche und fügte "darüber hinaus" zu einem der Hooks hinzu.

Das ist keine kleine Beschwerde. Stilgenauigkeit beim Schreiben ist eine der grundlegendsten Fähigkeiten, die Content-Ersteller von einem KI-Modell brauchen, und GPT 5.4 ist darin messbar schlechter als sowohl Claude als auch Gemini. Ich habe genug Zeit mit allen dreien verbracht, um das mit Überzeugung zu sagen: Wenn dein primärer Anwendungsfall das Generieren von Content ist, der zu einer bestimmten Stimme oder einem bestimmten Stil passt, sollte GPT 5.4 nicht deine erste Wahl sein.

Das Problem ist nicht, dass das Modell keinen guten Text generieren kann. Einzelne Sätze sind gut konstruiert. Das Vokabular ist anspruchsvoll. Die Ideen sind relevant. Aber GPT 5.4 hat eine hartnäckige Tendenz, in ein formelles, leicht akademisches Register zurückzufallen, das es selbst mit expliziten Anweisungen nur schwer ablegen kann. Es ist wie die Arbeit mit einem brillanten Berater, der eine Business School besucht hat und nicht aufhören kann "Synergien nutzen" zu sagen, egal wie oft du ihn bittest, normal zu reden.

Claude — insbesondere in der aktuellen Opus 4.6-Iteration — handhabt Stiltreue dramatisch besser. Wenn ich Claude sage "schreib in einem lockeren Ich-Erzähler-Ton", klingt die Ausgabe tatsächlich locker. Wenn ich sage "keine Übergangswörter wie darüber hinaus oder jedoch", verschwinden diese Wörter. Die Lücke bei der Anweisungsbefolgung zwischen GPT 5.4 und Claude bei stilistischen Vorgaben ist breit genug, dass ich nicht in Erwägung ziehen würde, meine Content-Generierungs-Workflows umzustellen.

Gemini 3.1 Pro liegt dazwischen. Besser als GPT 5.4 beim Treffen lockerer Tonalitäten, nicht ganz so flexibel wie Claude bei nuancierten Stilanweisungen, aber generell zuverlässig für unkomplizierte Content-Aufgaben.

Das ist wichtig, weil es offenbart, wofür OpenAI mit der GPT 5.4-Linie optimiert — und was sie herabstufen. Das Modell ist eindeutig für Wissensarbeit konzipiert: Forschung, Analyse, Dokumentenerstellung, strukturierte Outputs. Das sind Enterprise-Anwendungsfälle mit Enterprise-Umsatzpotenzial. Content-Generierung in einer bestimmten Markenstimme ist ein Creator-Economy-Anwendungsfall mit weniger offensichtlichem Enterprise-Wert. Die Optimierungsentscheidungen ergeben geschäftlich Sinn, auch wenn sie Leute wie mich frustrieren, die ein Modell wollen, das alles kann.

Was mich zur Frage bringt, die ich mir nach jedem neuen Modell-Launch immer wieder stelle.

Die Multi-Modell-Realität, die niemand akzeptieren will

Hier ist eine Meinung, die offensichtlich klingen mag, nach der aber fast niemand tatsächlich handelt: Es gibt kein einzelnes bestes KI-Modell. Nicht GPT 5.4. Nicht Opus 4.6. Nicht Gemini 3.1 Pro. Das richtige Modell hängt komplett davon ab, was du damit machst.

Ich weiß, das ist unbefriedigend. Wir wollen einen Gewinner. Wir wollen sagen "nimm dieses" und fertig. Aber nachdem ich alle drei ausgiebig getestet habe — und ich meine echte Projektarbeit, keine Benchmark-Puzzles — ist die ehrliche Antwort, dass ich verschiedene Modelle für verschiedene Aufgaben verwende, und du solltest das wahrscheinlich auch tun.

Meine aktuelle Modell-Zuordnung sieht so aus:

Coding und Softwareentwicklung: Opus 4.6 in Claude Code. Nicht einmal annähernd vergleichbar. Der agentische Workflow, der Dateisystemzugriff, die Fähigkeit, an einer Codebase zu iterieren statt isolierte Snippets zu generieren — nichts kommt diesem Erlebnis derzeit gleich.
Forschung und Dokumentenerstellung: GPT 5.4 Thinking. Die Forschung-zu-Präsentation-zu-Spreadsheet-Pipeline ist unerreicht. Wenn ich ein Strategiedokument, eine Marktanalyse oder einen formatierten Bericht erstellen muss, fange ich hier an.
Content-Generierung und Schreiben: Claude (Opus oder Sonnet, je nach Komplexität). Beste Stiltreue, beste Anweisungsbefolgung für kreative und markenstimmenbasierte Arbeit, natürlichster Konversations-Output.
Schnelle Fragen und Brainstorming: Gemini 3.1 Pro oder GPT 5.3 Instant. Geschwindigkeit ist wichtiger als Tiefe für schnelle Ideenfindung, und beide sind schnell genug, um sich wie ein Echtzeit-Gespräch anzufühlen. Die Sub-Sekunden-Antworten von Instant lassen es sich wie Autocomplete auf Steroiden anfühlen — perfekt für "was ist die Syntax für X" oder "gib mir fünf Namen für Y" Fragen.
Computer-Nutzung und Web-Automatisierung: GPT 5.4 für jetzt, obwohl sich diese Landschaft schnell ändert, da Claude und Gemini ihre Agent-Fähigkeiten ausbauen.

Dieser Multi-Modell-Ansatz fügt Komplexität hinzu. Du brauchst Accounts bei mehreren Anbietern. Du musst ein Gespür dafür entwickeln, welches Modell zu welcher Aufgabe passt. Du musst zwischen verschiedenen Oberflächen und Interaktionsparadigmen wechseln. Es ist unordentlicher als ein Werkzeug für alles.

Aber es ist auch dramatisch effektiver. GPT 5.4 für eine Aufgabe zu nutzen, in der Claude glänzt (oder umgekehrt), bedeutet, dass du 70% der möglichen Qualität bekommst, während du 95% haben könntest. Über Dutzende Aufgaben pro Woche summiert sich diese Qualitätslücke zu einem signifikanten Produktivitätsunterschied.

Die Leute, die den meisten Wert aus GPT 5.4 ziehen werden, sind nicht diejenigen, die exklusiv darauf umsteigen. Es sind diejenigen, die es ihrem Toolkit für die spezifischen Anwendungsfälle hinzufügen, in denen es alles andere übertrifft — und andere Modelle weiterhin dort einsetzen, wo diese stärker sind.

Token-Ökonomie: Die verborgene Geschichte in GPT 5.4s Preisgestaltung

OpenAI traf eine interessante Preisentscheidung bei GPT 5.4. Die Kosten pro Token sind leicht höher als bei GPT 5.2, aber das Modell verwendet weniger Tokens, um dieselben Aufgaben zu erledigen. Das bedeutet, dass die tatsächlichen Kosten pro Aufgabe in den meisten Fällen niedriger sind, obwohl der Listenpreis gestiegen ist.

Ich trackte den Token-Verbrauch über zehn vergleichbare Aufgaben zwischen GPT 5.2 und GPT 5.4. Im Durchschnitt verwendete GPT 5.4 22% weniger Tokens für gleichwertige Outputs. Rechnet man die Preisänderung ein, lagen die Nettokosten pro Aufgabe etwa 15% niedriger. Keine dramatische Ersparnis, aber bedeutsam im großen Maßstab — besonders für Teams, die täglich Hunderte von API-Aufrufen durchführen.

Die Verbesserung der Token-Effizienz bedeutet auch schnellere Antworten. Weniger generierte Tokens bedeuten weniger Wartezeit, was sich summiert, wenn du iterative Workflows durchführst, bei denen jeder Schritt vom vorherigen Output abhängt. Meine Forschung-zu-Präsentation-Pipeline wurde mit GPT 5.4 im Vergleich zu 5.2 etwa 30% schneller fertig, was sich über einen Arbeitstag in echte Zeitersparnis übersetzt.

Für API-Nutzer, die Produkte auf GPT aufbauen, ist dieser Effizienzgewinn wahrscheinlich die praktisch bedeutsamste Verbesserung der gesamten Veröffentlichung. Es ist nicht die Art von Sache, die Schlagzeilen macht, aber es ist die Art von Sache, die auf deiner monatlichen OpenAI-Rechnung auftaucht.

Was das für die nächsten sechs Monate bedeutet

Ich teste jetzt seit über einem Jahr alle paar Wochen neue KI-Modelle, und ein klares Muster hat sich herauskristallisiert. Jede neue Veröffentlichung eines großen Anbieters verkleinert den Abstand zu Wettbewerbern in ihren schwachen Bereichen, während sie in ihren starken Bereichen weiter voranprescht. GPT 5.4 folgt diesem Muster exakt — es holte bei Claudes Coding-Fähigkeiten auf (hat sie aber nicht übertroffen), baute den Vorsprung bei Wissensarbeit und Dokumentenerstellung weiter aus und machte inkrementelle Verbesserungen bei Halluzinationsraten.

Die Wettbewerbsdynamik, die das erzeugt, ist wirklich gut für Nutzer. OpenAI verbessert Coding und treibt damit Anthropic an, ihre Forschungsfähigkeiten zu verbessern. Google verbessert beides und treibt alle an, Token-Effizienz zu optimieren. Niemand kann sich auf einem einzelnen Vorteil ausruhen, weil die anderen Anbieter diese Lücke innerhalb von ein oder zwei Release-Zyklen schließen werden.

Worauf ich in den nächsten sechs Monaten achte:

Von OpenAI: Ein GPT 5.5 oder GPT 6, das endlich die Schreibstil-Genauigkeit knackt. Das ist die offensichtlichste Lücke in ihrem Angebot, und sie wissen es. Die Unternehmenskunden, um die sie werben, brauchen Markenstimmen-Konsistenz genauso sehr wie Forschungsfähigkeiten.

Von Anthropic: Erweiterte Computer-Nutzung und eine robustere Dokumentenerstellungs-Pipeline. Claudes Coding-Dominanz ist vorerst sicher, aber die Lücke zu GPT 5.4 bei Wissensarbeit ist real.

Von Google: Geminis Deep-Think-Fähigkeiten angewendet auf längere, komplexere Aufgaben. Google hat den Datenvorteil (Search, YouTube, Scholar), den keiner der Wettbewerber erreichen kann; die Frage ist, ob sie Datenzugang in Modell-Fähigkeit übersetzen können.

Das Modell, auf das ich am meisten gespannt bin, ist keine bestimmte Veröffentlichung — es ist der Workflow, in dem ich Aufgaben automatisch an das beste verfügbare Modell routen kann, ohne manuelles Wechseln. Wir sind noch nicht da, aber wir kommen mit jeder Veröffentlichung näher.

Hör auf, auf das perfekte Modell zu warten

Ich eröffnete diesen Beitrag mit der Beschreibung, wie GPT 5.4 mir eine Präsentation, ein Spreadsheet und einen Forschungsbericht in unter zehn Minuten erstellte — und dann bei einem simplen Hook ohne Gedankenstriche scheiterte. Dieser Widerspruch hat sich nicht aufgelöst. Er wird sich in dieser Modell-Generation nicht auflösen, und wahrscheinlich auch nicht in der nächsten.

Das perfekte Allround-KI-Modell ist eine Fantasie, die Menschen davon abhält, echten Mehrwert aus den imperfekten Modellen zu ziehen, die jetzt schon existieren. GPT 5.4 Thinking ist das beste Wissensarbeit- und Forschungsmodell, das heute verfügbar ist. Es ist nicht das beste Coding-Modell. Es ist nicht das beste Schreib-Modell. Es ist nicht das beste Irgendwas-anderes-Modell. Und das ist in Ordnung.

Wenn du ein Wissensarbeiter bist, der in Forschung, Berichten und Präsentationen ertrinkt, hat GPT 5.4 dir gerade zehn Stunden pro Woche gespart. Wenn du ein Entwickler bist, der einen besseren Coding-Assistenten sucht, ist Opus 4.6 immer noch deine Antwort. Wenn du ein Content-Ersteller bist, der KI braucht, die tatsächlich so klingt wie du, gewinnt Claude dieses Rennen mit komfortablem Vorsprung.

Die Leute, die gerade echten Wettbewerbsvorteil durch KI gewinnen, sind nicht diejenigen, die debattieren, welches Modell "das beste" ist. Es sind diejenigen, die herausgefunden haben, welches Modell für jede spezifische Sache, die sie tun am besten ist — und Workflows gebaut haben, die entsprechend routen.

GPT 5.4 Thinking hat sich heute einen permanenten Platz in meinem Toolkit verdient. Nicht als Ersatz für irgendetwas. Als Ergänzung. Und ehrlich? Das ist das größte Kompliment, das ich einem KI-Modell im Jahr 2026 machen kann.

Lass uns zusammenarbeiten

Du möchtest KI-Systeme aufbauen, Workflows automatisieren oder deine technische Infrastruktur skalieren? Ich helfe gerne.

Fiverr (individuelle Lösungen & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Enterprise-Lösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io

Ich habe GPT 5.4 Thinking getestet — das hat sich wirklich verändert

Ich habe GPT 5.4 Thinking getestet — Das hat sich wirklich verändert

Drei Modelle, drei Aufgaben, ein verwirrendes Namensschema

Native Computer-Nutzung verändert das gesamte Wertversprechen

Die Benchmarks erzählen nur die halbe Geschichte

Der Forschungs-Workflow, der mich wirklich beeindruckte

Das Excel-Add-On ist beeindruckend, aber nicht das, was du denkst

Wo GPT 5.4 schwächelt (und warum das wichtig ist)

Die Multi-Modell-Realität, die niemand akzeptieren will

Token-Ökonomie: Die verborgene Geschichte in GPT 5.4s Preisgestaltung

Was das für die nächsten sechs Monate bedeutet

Hör auf, auf das perfekte Modell zu warten

Lass uns zusammenarbeiten

Hat Ihnen dieser Artikel gefallen?

Verwandte Themen

Engr Mejba Ahmed

Comments

Leave a Comment

Verwandte Artikel

Claude Code + Notebook LM: Forschungs-Stack ohne Token-Kosten

Cloudflare Hat Next.js in 7 Tagen mit KI Neu Gebaut

Ich Testete CodeBuff: 3x Schneller als Claude Code?

Comments

Leave a Comment

Expand Your Knowledge

AI School

Learning Flashcards

AI Agent Skills

Bereit, Ihre Ideen zu Verwandeln?