KI-Wendepunkt im Mai 2026: worauf ich jetzt setzen würde

Als der Dienstag passierte, hatte ich den Artikel zur Hälfte geschrieben.

Es sollte ein ruhiges Vorschaustück werden. Die Gemini 3.x AB-Testvarianten sickern durch die iOS-App. Ein paar Gerüchte über ein Omni-Videomodell. Standardmäßige Vorfreude vor der Keynote. Ich hatte meinen Kaffee, meine Notizen, meine Gliederung. Und dann, am 5. Mai 2026 – am selben Dienstag – feuerten drei Unternehmen in etwa sechs Stunden drei geladene Waffen ab.

Ein Miami-Startup namens Subquadratic verließ die Tarnung mit einem 12-Millionen-Token-Kontextfenster und der Behauptung, dass seine Architektur weniger als 5 % der von Opus verbrannten Rechenleistung verbraucht. OpenAI hat stillschweigend das Standardgehirn von ChatGPT gegen ein neues Modell ausgetauscht, das bei medizinischen, rechtlichen und finanziellen Fragen 52,5 % weniger halluziniert. Anthropic lieferte zehn produktionsbereite Claude-Finanzagenten und eine vollständige Microsoft 365-Integration. Perplexity startete am selben Tag einen konkurrierenden Finanzagenten mit 35 vorgefertigten Workflows und Live-Datenfeeds von Morningstar, PitchBook, Daloopa und Carbon Arc.

Ich habe den Umriss gestrichen.

Was Sie gleich lesen werden, ist, wie der Mai 2026 vierzehn Tage vor Google I/O tatsächlich aussieht – nicht als Zusammenfassung einer Pressemitteilung, sondern als Erfahrungsbericht von jemandem, der während der Landung produktive AI für tatsächlich zahlende Kunden bereitgestellt hat. Einige dieser Ankündigungen werden die Art und Weise, wie ich baue, in den nächsten zwölf Monaten verändern. Einige davon sind als Nachrichten getarnte Geräusche. Und einer davon – derjenige, über den niemand auf Twitter geschrien hat – ist meiner Meinung nach der bisher wichtigste AI-Moment des Jahres 2026. Es ist nicht das, was Sie denken.

Lassen Sie mich Ihnen erklären, worauf ich wette, wovor ich mich zurückhalte und was jeder Entwickler, der dies liest, diese Woche tun sollte, bevor I/O die Karten noch einmal neu mischt.

Warum dieser besondere Dienstag wichtig war

Ich schreibe seit zwei Jahren über wöchentliche Zusammenfassungen von AI. Die meisten Wochen verschwimmen ineinander. Ein neues Modell. Eine Preisänderung. Ein Feature-Drop. Sie landen, sie bekommen eine Schlagzeile, Sie arbeiten weiter.

Dieser Dienstag war in einer Weise anders, dass ich einen Tag brauchte, um es vollständig zu verarbeiten.

Was am 5. Mai landete, waren nicht drei Produkteinführungen. Es handelte sich um drei architektonische Wetten, die in derselben Woche, vier Tage nach Sonnenuntergang von Google, zusammenkamen. Project Mariner – sein langjähriges Browser-Agent-Forschungsprojekt – und die Technologie in den persönlichen Assistenten Gemini Agent innerhalb der Gemini-App integrierten. Dieser Sonnenuntergang war keine Fußnote. Es signalisierte, dass sich Google vor I/O neu positioniert, weg von „experimentellen Browser-Agenten“ und hin zu „dem 24/7-Agenten, der dort lebt, wo Sie leben“. Zwei Wochen vor der Keynote.

Also jetzt rauszoomen. In einer Woche:

Die Rechenebene hat sich verschoben. Die subquadratische Sparse-Attention-Architektur von SubQ hat Benchmark-Zahlen veröffentlicht, die – wenn sie einer unabhängigen Prüfung standhalten – die Annahme zunichte machen, dass Grenzintelligenz Grenzberechnung erfordert. - Das standardmäßige ChatGPT-Modell ist in den Dingen, die am wichtigsten sind, intelligenter geworden. - Der Krieg im Finanzdienstleistungsbereich AI ging heiß. - Google hat die Landebahn geräumt. Projekt Mariner eingestellt.

Omni-Modell im Gemini UI durchgesickert. I/O 2026 Keynote am 19. Mai mit einer fast allgemein erwarteten Modellenthüllung.

Ich habe mein mentales Modell des Feldes innerhalb von vierzehn Tagen dreimal neu aufgebaut. Wenn Sie AI derzeit in der Produktion ausführen, sollten Sie dies auch tun. Lassen Sie mich mit der Ankündigung beginnen, die meiner Meinung nach am wichtigsten ist – und die fast niemand als Schlagzeile betrachtet.

Subquadratic und die 12-Millionen-Token-Frage

Der Start von Subquadratic wurde im Nachrichtenzyklus GPT-5.5 begraben. Das ist ein Fehler.

Hier ist die Kurzversion. Ein in Miami ansässiges Startup namens Subquadratic verließ Stealth am 5. Mai mit einer Startfinanzierung in Höhe von 29 Millionen US-Dollar, einem Grenzmodell namens SubQ und einem Kontextfenster von 12 Millionen Token, das auf dem basiert, was sie Subquadratic Sparse Attention (SSA) nennen. Laut ihrem technischen Blog erreicht SSA bei 128.000 Token eine 7,2-fache Vorbefüllungsgeschwindigkeit gegenüber dichter Aufmerksamkeit und steigt bei 1 Million Token auf das 52,2-fache, und im vollen 12-Millionen-Token-Kontext verbraucht das Modell weniger als 5 % der Rechenleistung vergleichbarer Grenzsysteme – was sie als eine fast 1.000-fache Reduzierung beschreiben.

Lesen Sie diese Zahlen langsam. Dann lesen Sie sie noch einmal.

Die vorherrschende Annahme seit GPT-3 ist, dass Skalierungskosten bei der Berechnung anfallen und dass die Berechnung Geld kostet und Geld die Intelligenz einschränkt. Jede Veröffentlichung eines Grenzmodells in den letzten drei Jahren hat diese Mauer verstärkt. Opus 4.6 ist ausgezeichnet und teuer. Gemini 3 Pro ist ausgezeichnet und teuer. GPT-5 ist ausgezeichnet und teuer. Die Preisstufen, über die wir gestritten haben, beziehen sich alle auf diese Rechenleistungsuntergrenze.

Wenn die Ansprüche der SSA die Überprüfung durch Dritte überstehen, verschiebt sich diese Untergrenze.

Die von ihnen veröffentlichten Benchmarks sind nicht bescheiden. Auf RULER bei 128K erzielt SubQ 97,1 gegenüber 94,8 von Opus 4.6. Bei SWE-Bench Verified meldet SubQ 82,4 % gegenüber 81,4 % für Opus 4.6 und 80,6 % für Gemini 3.1 Pro. Insbesondere bei Auswertungen mit langem Kontext, den Aufgaben, bei denen die meisten Modelle nach 200.000 Token auseinanderfallen, hält SubQ offenbar bei 12M zusammen.

Ich möchte vorsichtig sein. Die ehrliche Lektüre ist vorsichtiger als die Überschrift.

Das Skeptizismus-Lager hat nicht unrecht. Subquadratic verfügt noch nicht über ein öffentliches technisches Papier, das die Architektur ausführlich genug beschreibt, um sie reproduzieren zu können. Die Benchmark-Zahlen sind Eigenangaben. Die Komplexitätsansprüche wurden nicht unabhängig überprüft. Wir alle haben dieses Muster schon einmal gesehen – ein Labor veröffentlicht magische Zahlen, die Community betreibt die Evaluierungssuite, die Magie schrumpft.

Warum leite ich den Artikel also damit ein und nicht mit GPT-5.5 oder den Finanzagenten? Weil die Richtung der Wette wichtiger ist als die genaue Genauigkeit der Startzahlen.

Nicht nur die Beobachter des Finanzsektors sollten hier aufmerksam sein. Wenn subquadratische Aufmerksamkeit im Grenzbereich funktioniert – sogar mit der halben Effizienz, die sie behaupten –, ändert sich die Möglichkeit, ein Kontextfenster für normale Anwendungen einzufügen. Ein 12M-Kontext ist kein etwas größerer 1M-Kontext. Es handelt sich um die gesamte Codebasis eines mittelgroßen SaaS-Produkts in einer einzigen Eingabeaufforderung zu Rechenkosten, die eher einem aktuellen Flash-Modell als einem aktuellen Opus-Modell ähneln. Das ist eine andere Kategorie von Werkzeugen.

Ich führe diese Woche meinen ersten Produktionstest von SubQ durch. Ich werde mich zu nichts verpflichten, bis ich meine eigenen Zahlen zu meinen eigenen Daten habe. Aber ich wette auch nicht gegen architektonische Innovationen, die bei einer so wettbewerbsfähigen Benchmark-Suite so aggressive Ergebnisse erzielen. Ich habe mich bei dieser Wette schon zu oft geirrt.

Wenn Sie AI im Mai 2026 in der Produktion bereitstellen, ist hier der praktische Schritt: Migrieren Sie noch nicht, sondern planen Sie eine Welt, in der die Preise für Kontextfenster zusammenbrechen. Hören Sie auf, für 200.000-Token-Chunking-Strategien zu optimieren, die davon ausgehen, dass die Obergrenze eingehalten wird. Erstellen Sie Abrufpipelines, die elastisch skaliert werden können, wenn in den nächsten zwölf Monaten die 1M-Kontextschicht in die neue Flash-Ebene umgewandelt wird. (Das praktische Playbook zur heutigen Verwaltung von 1M-Token-Sitzungen finden Sie unter meine Claude Code 1M-Kontextverwaltungshinweise – dieselbe Musterskala.) Die Tooling-Entscheidungen, die Sie jetzt treffen, werden ganz anders aussehen, wenn sich die SSA-Wette auszahlt.

GPT-5.5 Instant und der Quiet Default Switch

Während SubQ den Twitter-Forscher in einen Kampf verwickelte, unternahm OpenAI einen anderen Schritt – einen ruhigeren, eher unternehmensorientierten.

Am 5. Mai führte OpenAI GPT-5.5 Instant als neues Standardmodell für ChatGPT ein und ersetzte damit das GPT-5.3 Instant, das seit Anfang des Jahres Standard war. Die Schlagzeilen im Pressemitteilungsbeitrag des Unternehmens:

52,5 % weniger Halluzinationen bei wichtigen medizinischen, rechtlichen und finanziellen Fragen in internen Bewertungen
37,3 % weniger ungenaue Behauptungen bei einem separaten Satz von Eingabeaufforderungen, die Benutzer zuvor wegen sachlicher Fehler gemeldet hatten
HealthBench-Wert von 51,4 von 100, gegenüber 49,6 (GPT-5.3 Instant)
HealthBench Professional (klinisch) bei 38,4, gegenüber 32,9
AIME 2025 bei 81,2, gegenüber 65,4 für GPT-5.3
MMMU-Pro bei 76,0, gegenüber 69,2

Wenn Sie diese Zahlen überfliegen, verpassen Sie die eigentliche Geschichte.

Die Geschichte ist nicht, dass das Modell besser geworden ist. Modelle werden besser. Die Geschichte ist, auf welchen Achsen es besser geworden ist. OpenAI optimierte GPT-5.5 Instant explizit für die Dinge, die rechtlich und finanziell wichtig sind: medizinische, rechtliche, finanzielle. Das Modell, auf das Millionen von Menschen standardmäßig zugreifen, wenn sie ChatGPT öffnen, ist jetzt bei Fragen, bei denen Unrecht echte Konsequenzen hat, deutlich zuverlässiger.

Das ist eine strategische Entscheidung, kein technischer Unfall. Und es folgt dem breiteren Muster vom 5. Mai. Sowohl OpenAI als auch Anthropic – am selben Dienstag – zeigten ihre Veröffentlichungen mit der höchsten Hebelwirkung auf hochriskante professionelle Domains.

Was das für mich in der Praxis bedeutet, erfahren Sie hier.

Ich habe GPT-5.5 Instant mit den Aufgaben getestet, die ich aus Sicherheitsgründen sonst meist an Opus weiterreiche: juristische Vertragsprüfung für Kundenarbeit, Finanzanalyse für SaaS-Preisaudits und medizinisch angrenzende Basisrecherche, bei der ich ausdrücklich vermeiden will, dass das Modell etwas erfindet. Das frühe Signal ist real. Es ist nicht die Qualität eines Opus im Research-Modus. Aber bei schnellen Antworten auf diesen Domänen ist der Rückgang der Halluzinationsrate spürbar – deutlich stärker als bei GPT-5.3.

Bezahlte Benutzer behalten für die nächsten drei Monate Zugriff auf GPT-5.3 Instant, falls sich die neue Standardeinstellung für ihre spezifischen Arbeitsabläufe anders verhält. Dieses Detail ist wichtig. OpenAI signalisiert, dass sie erwarten, dass einige Benutzer die Änderung als Rückschritt empfinden – wahrscheinlich, weil GPT-5.5 Instant bestimmte stilistische Verhaltensweisen gegen Genauigkeitsgewinne eintauscht. Wenn Ihr Prompt-Gerüst auf die Besonderheiten von GPT-5.3 abgestimmt ist, überprüfen Sie es, bevor das Dreimonatsfenster abläuft.

Die wenig diskutierte Implikation: Dies ist OpenAI, der stillschweigend zugibt, dass das Standardmodell wichtiger ist als das Flaggschiff. Die meisten ChatGPT-Benutzer werden sich niemals für die teuerste Stufe entscheiden. Das Modell, mit dem die meisten AI-Fragen weltweit beantwortet werden, ist das Standardmodell. Die Optimierung für die Genauigkeit bei hohen Einsätzen ist ein viel größerer Hebel für die gesellschaftliche Wirkung als ein weiteres Zehntel Prozent bei AIME.

Ich behalte mein Opus-Abonnement aufgrund des Long-Context-Argumentation und der Agentenintegrationen, die ich rund um Claude Code aufgebaut habe. Aber für einen sinnvollen Teil meiner einmaligen Fragen, insbesondere der Art, bei der ich die Antwort zuvor in einem zweiten Tool noch einmal überprüft hätte, rufe ich jetzt zuerst GPT-5.5 Instant auf. Das gilt seit GPT-4 nicht mehr.

Der Anthropic Finance Agent Drop – und warum Microsoft 365 die wahre Geschichte ist

Die Ankündigung von Anthropic vom 5. Mai war die dichteste der Woche, und der Teil davon, der am meisten Beachtung fand – die zehn Vorlagen für Finanzagenten – war nicht der wichtigste Teil.

Lassen Sie mich zunächst auf die Vorlagen eingehen, da diese real sind. Anthropic hat zehn gebrauchsfertige Agentenvorlagen für Finanzdienstleistungen veröffentlicht, aufgeteilt in zwei Kategorien:

Recherche und Kundenbetreuung (5 Agenten):

Pitch-Builder
Meeting-Vorbereiter
Ergebnisprüfer
Modellbauer
Marktforscher

Finanzen und Betrieb (5 Agenten):

Bewertungsgutachter
Hauptbuchabgleicher
Monatsende näher
Rechnungsprüfer
KYC-Screener (Know Your Customer).

Jeder Agent ist das, was Anthropic eine „Referenzarchitektur“ nennt: eine verpackte Kombination aus Skills (Anweisungen und Domänenwissen für die Aufgabe), Konnektoren (geregelter Zugriff auf die Daten, auf denen die Aufgabe läuft) und Subagenten (zusätzliche Claude-Modelle für Unteraufgaben). Sie können als Plugins innerhalb von Claude Cowork und Claude Code neben menschlichen Analysten laufen oder als von Anthropic verwaltete Agenten bereitgestellt werden, bei denen Anthropic die Produktionsinfrastruktur übernimmt.

Das ist die Art von Veröffentlichung, die einen ernsthaften Absatz von jedem verdient, der sich mit Finanzthemen AI befasst. Aber hier ist, was begraben wurde.

Gleiche Ankündigung. Am selben Tag. Anthropic wurde mit vollständiger Microsoft 365-Integration geliefert – Claude fungiert als einzelner Agent für Excel, PowerPoint, Word und Outlook und überträgt den Kontext gleichzeitig über alle vier Anwendungen hinweg.

Wenn Sie nicht im Finanzbereich arbeiten, wird dieser Satz möglicherweise nicht registriert. Wenn Sie das tun, sollte es wie ein fallendes Klavier landen.

Der Standard-Workflow für Junior-Analysten sieht wie folgt aus: Daten in Excel übertragen, modellieren, eine Präsentation in PowerPoint erstellen, das Titelmemo in Word entwerfen und es mit drei Folge-E-Mails über Outlook senden. Früher bedeutete jede Tool-Unterbrechung eine Kontextunterbrechung – ein Ort, an dem Informationen manuell zwischen Anwendungen übertragen werden mussten, an dem sich Fehler einschlichen und an dem junge Analysten die unspektakulären Stunden verbrachten, die ihr Einstiegsgehalt rechtfertigten.

Ein einzelner Agent, der den Kontext für alle vier Microsoft 365-Apps bereithält, ist kein „AI-Produktivitätstool“. Es handelt sich um das strukturelle Verschwinden einer Einstiegsberufskategorie. In Kombination mit der am selben Tag angekündigten Datenpartnerschaft von Moody's Anthropic ist die Botschaft eindeutig: Anthropic erstellt keine Chat-Begleiter für Analysten. Sie bauen die digitale Belegschaft auf, die früher die Analysten waren.

Als strategische Parallele gehen meine Feldnotizen zum Rollout der verwalteten Agenten von Anthropic tiefer auf das Modell der „sicheren Produktionsinfrastruktur“ ein – genau dieselbe Grundlage treibt jetzt diese Finanzvorlagen an.

Hier kommt auch die Perplexity-Geschichte ins Spiel.

Der perplexe Gegenschlag – und wer tatsächlich gewinnt

Am selben Dienstag startete Perplexity Computer for Professional Finance.

Die strukturelle Ähnlichkeit ist nicht subtil:

35 dedizierte Finanzworkflows, die die Arbeit automatisieren, die Analysten jede Woche wiederholen
Lizenzierte Datenintegrationen mit Morningstar, PitchBook, Daloopa und Carbon Arc
Eine PitchBook Essential MCP-Serverintegration, die Perplexity nativen Zugriff auf die firmografische Intelligenz von PitchBook ermöglicht
Ausgabeformate, die Tearsheets, kommentierte Aktiendiagramme und Aktien-Research-Vergleiche umfassen, wobei jede Zahl mit ihrer Quelle verknüpft ist

Wenn der Vorschlag von Anthropic „eine AI-Belegschaft ist, die innerhalb Ihres bestehenden Microsoft 365-Stacks arbeitet“, lautet der Vorschlag von Perplexity „das Finanzbetriebssystem selbst“ – ein Zieltool, keine Integration. Während Anthropic Unternehmen auffordert, Claude in ihre bestehende Toolchain einzubinden, fordert Perplexity sie auf, auf eine neue Arbeitsoberfläche zu migrieren, auf der die Daten nativ gespeichert sind.

Beide Wetten können gewinnen. Sie werden wahrscheinlich nicht beide mit den gleichen Konten gewinnen.

Meine ehrliche Lektüre: Anthropic hat derzeit die Oberhand, und das aus einem Grund, der nichts mit der Modellqualität zu tun hat. Die Microsoft 365-Integration ist der Burggraben. Die meisten großen Finanzdienstleistungsunternehmen führen ihre Arbeit mit Excel und PowerPoint aus. Sie zu bitten, Analysten-Workflows in ein neues Ziel-Tool zu migrieren, ist problematisch. Sie zu bitten, Claude als Ebene über den Tools hinzuzufügen, die sie bereits verwenden, ist eher kostenlos. Das ist ein struktureller Vorteil, der nicht davon abhängt, welches Modell eine etwas bessere Gewinnübersicht schreibt.

Aber Perplexity hat etwas, was Anthropic nicht hat: native Datenpartnerschaften, die in die Produktoberfläche selbst integriert sind. Insbesondere die PitchBook MCP-Integration ist ein weiterer Vorteil. Wenn die Frage lautet: „Suchen Sie mir jeden SaaS-Deal der Serie B in den letzten 18 Monaten, der mit über dem 12-fachen ARR abgeschlossen wurde“, hat das Modell, in das PitchBook-Daten bereits integriert sind, einen strukturellen Vorteil gegenüber dem Modell, dem gesagt werden muss, wo es suchen soll.

Die ehrliche Prognose ist, dass es sich um eine Aufteilung nach Workflows handeln wird. KYC-Screening und Monatsabschluss gehen aufgrund der operativen Integration an Anthropic. Marktforschung und Deal-Sourcing gehen aufgrund der Datenschicht an Perplexity. In den nächsten 18 Monaten wird um die Erstellung eines Pitchbooks und die Überprüfung der Gewinne gekämpft.

Wenn Sie AI in diesem Quartal in einem Finanzdienstleistungskontext einsetzen, wählen Sie keines aus. Führen Sie beide aus, begrenzt auf bestimmte Arbeitsabläufe. Der Wettbewerbsdruck zwischen beiden wird die Preise und Kapazitäten schneller senken, als dies bei beiden allein der Fall gewesen wäre.

Gemini 3.2 Flash, AB-Tests und das Pre-I/O-Scramble

Nun zu dem Teil, den ich ursprünglich übernehmen wollte – und der durch alles oben Genannte herabgestuft wurde.

Google hat im Vorfeld von I/O. wochenlang **AB mehrere Varianten von Die Varianten scheinen sich zu verändern – ein Reddit-Benutzer berichtete, dass seine iOS-App Gemini innerhalb von 24 Stunden von Gemini 3 Flash auf 3.1 auf 3.2 umgestiegen sei.

Der durchgesickerte Preis für Gemini 3.2 Flash, basierend auf AI Studio API-Protokollen, beträgt 0,25 $ pro 1 Million Eingabe-Tokens und 2 $ pro 1 Million Ausgabe-Tokens. Wenn diese Zahlen bei der Einführung von I/O Bestand haben, erreicht Gemini 3.2 Flash Flash-Tier-Preise mit einer Funktionalität, die nahe an Gemini 3.1 Pro liegt – was den Preis-Leistungs-Vorsprung von Google im mittleren Preissegment ausbauen würde.

Eine wichtige Korrektur, die es wert ist, erwähnt zu werden, da ich sie diese Woche in Zusammenfassungen gesehen habe. Der Wissensgrenzwert für Gemini 3-Modelle ist Januar 2025, nicht Januar 2026. Ich habe die Zahl für 2026 in einigen zusammenfassenden Threads gesehen. Es ist nicht das, was in der Modelldokumentation von Google steht. Es lohnt sich, es richtig zu machen, bevor Sie eine Abruflogik auf der Grundlage einer Annahme entwerfen, die nicht übereinstimmt.

Die größere Google-Geschichte ist der Omni-Modell-Leak. Eine UI-Zeichenfolge, die diese Woche in der Gemini-Videogenerierungsoberfläche entdeckt wurde, zeigt die Zeile „Start with an idea or try a template. Powered by Omni“ neben „Toucan“ – dem internen Namen für den bestehenden Veo-3.1-basierten Videopfad. Die Platzierung von „Omni“ im Consumer-UI, nicht nur in Code-Protokollen, lässt Beobachter denken, dass es sich hierbei um mehr als eine Umbenennung handelt.

Es gibt drei plausible Interpretationen:

Omni ist ein öffentlicher Name für denselben Veo-Pfad. Möglich, aber nicht aufregend.
Omni ist neben Veo ein neues, von Gemini trainiertes Videomodell. Möglich.
Omni ist ein einheitliches Gemini-Omni-Modell, das sowohl Bilder als auch Videos nativ in einem System verarbeitet. Die architektonisch bedeutendste Möglichkeit – und die, die bei I/O. am schwersten landen würde

Wenn Interpretation drei zutrifft, liefert Google das erste Omni-Modell der Spitzenklasse, das Videos und Bilder in einem einzigen einheitlichen System verarbeitet. In Kombination mit dem Project Mariner-Sonnenuntergang am 4. Mai und der Integration in den persönlichen Assistenten des Gemini-Agenten wird die I/O-Erzählung sorgfältig inszeniert: eine Enthüllung des Flaggschiffmodells, ein einheitliches multimodales Generierungssystem und ein 24/7-Agent, der in der Gemini-App lebt und die experimentelle Browser-Agent-Arbeit ersetzt, die Mariner durchgeführt hat.

Drei plausible Modellenthüllungen auf der I/O 2026 (Montag, 19. Mai – Dienstag, 20. Mai):

Gemini 3.5 Pro / 3.5 Flash – höchstwahrscheinlich Form der Schlagzeileneinführung
Gemini 4.0 – Polymarket-Händler sind zu 94,5 % mit „Nein“ für die Veröffentlichung von 4.0 bis zum 30. Juni einverstanden, aber I/O hat bereits zuvor überrascht
Omni als Flaggschiff der multimodalen Generation gepaart mit der neuen Überschrift Gemini

Worauf ich besonders achte: Preise für die neue Flash-Stufe, ob der Agent in der Gemini-App einen separaten Namen und ein anderes Preismodell aus dem Chat-Erlebnis erhält und ob Google etwas ankündigt, das die Agenten-Codierungslücke mit Codex und Claude Code schließt – denn dort hat Google am schnellsten an Boden verloren.

Für den breiteren Rennkontext habe ich letzte Woche über das AI-Superagentenrennen im Mai 2026 berichtet – den direkten Test von Codex, Cowork und Gemini, der damit endete, dass nur einer meine morgendliche Aufgabe sauber erledigte. Spoiler: Es war nicht Gemini. I/O ist die Chance von Google, das zu ändern.

Gemma 4 MTP Drafters – Die nützlichste Veröffentlichung, über die niemand gesprochen hat

Während SubQ die Schlagzeilen beherrschte, hat das Open-Source-Team von

Zuerst eine kurze Klarstellung, da dies in den Quellnotizen, mit denen ich gearbeitet habe, durcheinander geraten ist. Die Multi-Token-Vorhersageentwurfsversion war für Gemma 4 – die Open-Source-Modellfamilie von Google – und nicht für Gemini 4. Zwei verschiedene Produkte, zwei verschiedene Release-Tracks. Gemma 4 ist das, was Sie tatsächlich ausführen können.

Hier ist, was versendet wurde. MTP-Entwickler (Multi-Token Prediction) für die Gemma 4-Familie unter Verwendung einer speziellen spekulativen Decodierungsarchitektur. Der Drafter paart sich mit einem schweren Zielmodell – beispielsweise Gemma 4 31B – und nutzt Leerlauf-Rechner, um mit dem leichtgewichtigen Drafter mehrere zukünftige Token gleichzeitig vorherzusagen, und zwar in kürzerer Zeit, als das Zielmodell für die Verarbeitung eines Tokens benötigt. Das Zielmodell überprüft dann alle Entwurfstoken parallel.

Das Ergebnis: bis zu 3-fache Geschwindigkeitssteigerung ohne Verschlechterung der Ausgabequalität.

Die MTP-Drafter werden unter der gleichen Apache 2.0-Lizenz wie Gemma 4 veröffentlicht, mit Modellgewichtungen, die auf Hugging Face und Kaggle verfügbar sind, und standardmäßiger Unterstützung für Transformers, MLX, vLLM, SGLang und Ollama.

Für Entwickler, die lokale Gemma 4-Modelle auf Consumer-GPUs oder Apple Silicon betreiben, ist dies ein ernsthaftes kostenloses Latenz-Upgrade. Wenn Sie über eine Echtzeit-Chat-Anwendung, einen Agenten-Workflow oder ein Sprachprodukt verfügen, bei dem die vom Benutzer wahrgenommene Latenz eine Rolle spielt, sind MTP-Drafter eine Ein-Abend-Integration, die die Antwortzeiten spürbar verkürzt, ohne das Modell selbst zu ändern.

Dies ist die Art von Veröffentlichung, die keine Diskussionszyklen erzeugt, sondern stillschweigend das Produktionserlebnis für alle verbessert, die offene Modelle betreiben. Es lohnt sich, zehn Minuten Ihrer Woche zu bewerten.

Pomelli-Katalog und das Marketing-Tool AI verschlingen SMB-Workflows leise

Eine weitere Google-Veröffentlichung, die dem Muster „ruhiges Schiff, echte Wirkung“ entspricht.

Pomelli – das AI-Marketingtool von Google Labs und DeepMind für kleine und mittlere Unternehmen – hat eine Funktion namens Pomelli Catalogue hinzugefügt. Der Ablauf ist: Sie laden Ihre Produkte oder Dienstleistungen hoch, Pomelli speichert sie in Ihrem Katalog und das Tool generiert auf Abruf personalisierte Marketingkampagnen und von AI erstellte Produktfotos. Kostenlos, weltweit verfügbar, wo Pomelli eingeführt wird (USA, Kanada, Australien, Neuseeland, mit Erweiterung nach Europa).

Pomelli analysiert Ihre Website, um ein Business-DNA-Profil zu erstellen – Ihren Tonfall, benutzerdefinierte Schriftarten, Bilder, Farbpalette – und generiert dann passende Kampagnen. Mit der Hinzufügung des Katalogs schließt sich der Kreis: Produkte gehen ein, Markenkampagnenkreative kommen heraus und können für Instagram, TikTok, Facebook, YouTube und LinkedIn heruntergeladen werden.

Mit der Ergänzung von Pomelli Animate, powered by Veo 3.1, im Januar 2026 kann das Tool statische Marketinginhalte in markengerechte Videoanimationen umwandeln. In Kombination mit der Fotoshooting-Funktion von Catalog, die mithilfe von Nano Banana 2 jedes Produktfoto in professionelle Bilder in Studioqualität umwandelt, verfügen Sie über einen vollständigen SMB-Marketing-Workflow – Markenfoto, Markenvideo, Markenkampagne – in einem kostenlosen Tool.

Für Einzelunternehmer und KMUs, die E-Commerce betreiben, ist dies die Version der AI-Marketingautomatisierungsgeschichte, von der ich Freunden immer wieder erzähle und die sie immer wieder unterschätzen. Es ist nicht so auffällig wie eine Finanzagenten-Armada. Es ist für mehr Menschen nützlicher. Wenn Sie einen Shopify-Shop mit weniger als fünfzig SKUs betreiben, sollten Sie Pomelli Catalog bis Freitag getestet haben.

Die Seitenleiste von Boston Dynamics, die es wert ist, abgelegt zu werden

Eine Anmerkung, die nicht zur Geschichte der AI-Software passt, aber in das Bild vom Mai 2026 gehört.

Der humanoide Roboter Atlas von Boston Dynamics geht in Produktion. Auf der CES 2026 im Januar stellte das Unternehmen die serienreife Version vor. Ab Mai 2026 sind alle Atlas-Bereitstellungen für 2026 vollständig abgeschlossen. Die Lieferung der Flotten ist an das Robotics Metaplant Application Center von Hyundai und vor allem an Google DeepMind geplant, das seine Gemini Robotics AI-Grundlagenmodelle in das Boston Dynamics-System integriert.

Das relevante Detail sind nicht die Tanzvideos. Es handelt sich um die Partnerschaft mit DeepMind. Dasselbe Unternehmen, das Gemini 3.x-Varianten und ein multimodales Omni-Modell vertreibt, ist auch das Unternehmen, das AI in humanoide Roboter einbaut. Die Konvergenz von Sprachmodellen, multimodaler Generierung und verkörpertem AI findet im Mai 2026 auf der Roadmap von Google mit dem Chassis von Boston Dynamics statt. Legen Sie dies für die Post-I/O-Konversation ab. Wir werden in der zweiten Hälfte des Jahres 2026 noch viel mehr über Gemini Robotics lesen.

Worauf ich tatsächlich wetten würde, wenn ich diesen Monat die Produktion AI einsetzen würde

Nach achttausend Wörtern ist hier die Destillation des Erfahrungsberichts. Wenn Sie im Mai 2026 Produktions-AI-Workflows bereitstellen, würde ich dies diese Woche tatsächlich tun.

Architekt für ein Zusammenklappen des Kontextfensters. Migrieren Sie noch nicht zu SubQ – warten Sie auf die unabhängige Überprüfung – aber hören Sie auf, Chunking-Strategien zu entwickeln, die davon ausgehen, dass 200 KB die Obergrenze sind. In den nächsten zwölf Monaten wird sich der 1-Millionen-Kontext wahrscheinlich zu Tischeinsätzen und 10-Mio.+-Kontexten zu einer realen Möglichkeit entwickeln. Erstellen Sie Abrufpipelines, die sich elastisch skalieren lassen.

Verwenden Sie GPT-5.5 Instant als neuen Standard für einmalige Sachfragen in wichtigen Bereichen. Behalten Sie Ihr Opus-Abonnement für lange Kontextbegründungen und Agentenarbeit. Aber für schnelle medizinische, rechtliche oder finanzielle Nachforschungen ist GPT-5.5 Instant jetzt mein erster Anruf.

Führen Sie sowohl Anthropic Claude Finance Agents als auch Perplexity Computer nebeneinander aus, mit unterschiedlichen Workflows. Wählen Sie keinen aus, bevor der Kampf neunzig Tage gedauert hat.

Warten Sie bis I/O, bevor Sie sich für eine Gemini-Integration entscheiden. Sehen Sie sich die Keynote am 19. Mai an und verpflichten Sie sich dann.

Integrieren Sie Gemma 4 MTP Drafter in jeden lokalen Modell-Workflow, den Sie ausführen. Es ist ein kostenloser Latenzgewinn.

Wenn Sie ein KMU oder E-Commerce-Unternehmen mit weniger als fünfzig SKUs betreiben, testen Sie diese Woche den Pomelli-Katalog. Es handelt sich um die Version der AI-Marketingautomatisierungsgeschichte, die im Verhältnis zu ihrer Bekanntheit durchweg zu viel liefert.

Achten Sie auf Googles Antwort beim agentischen Coding auf der I/O. Das ist die Lücke, die Google schließen muss, und diejenige, die jeden Entwickler hier am direktesten betrifft. Wenn Google etwas liefert, das bei lang laufenden agentischen Coding-Workflows mit Claude Code oder Codex konkurriert – also genau mit den Workflows aus meiner Analyse des Super-Agent-Rennens im Mai –, verändert sich Ihr Toolstack.

Das Einzige, was ich fast verpasst hätte

Ich schreibe schon lange genug AI-Zusammenfassungen, um zu wissen, dass die Ankündigungen, die sich in der ersten Woche am größten anfühlen, oft nicht die sind, die im sechsten Monat wichtig sind. Wenn ich auf die Ankündigungen zurückblicke, die ich vor etwa einem Jahr atemlos geschrieben habe, sind die Hälfte davon mittlerweile Fußnoten. Die gleiche Vorsicht galt für die Branchenumwälzung im April 2026 – die Hälfte dieser Panikmeldungen normalisierte sich innerhalb von dreißig Tagen, und das dauerhafte Signal wurde in den ruhigeren Veröffentlichungen vergraben.

Deshalb habe ich mich gezwungen, jeden Dienstag wie diesen zu fragen: Über welche davon werde ich im November noch sprechen?

GPT-5.5 Instant ist ein leiser, langlebiger Auslöser. Der Halluzinationsrückgang bei High-Stakes-Domains ist die Art von Verbesserung, die für Milliarden von Benutzern jede Woche und für immer von Bedeutung ist. Das ist langlebig.

Der Kampf der Finanzagenten ist hartnäckig. Ganz gleich, ob Anthropic oder Perplexity mehr Workflows gewinnen, das Verschwinden der Einstiegspunkte für Junior-Analysten ist jetzt im Gange. Bis 2027 werden wir darüber sprechen, wie sich dadurch die Einstellung von Mitarbeitern im Finanzdienstleistungssektor verändert hat.

Gemma 4 MTP-Zeichner sind auf langweilige, nützliche Weise langlebig. Eine schnellere lokale Inferenz ist kein Luxus, stellt aber eine echte Verbesserung für jeden dar, der offene Modelle lokal betreibt. Das bleibt in meinem Stapel.

Die Gemini 3.2 Flash AB-Testvarianten – Ajax, Hercules, Hector, Orpheus – sind nicht langlebig. Es handelt sich um Geräusche vor dem Start. Bis Juni wird all dies durch alles ersetzt, was Google tatsächlich auf der I/O. ankündigt. Wenn Sie sich heute Gedanken über die Varianten machen, leiten Sie diese Zyklen auf die I/O-Keynote am 19. Mai um.

Und SubQ. SubQ ist der Platzhalter. Wenn die Architekturansprüche bestehen bleiben, handelt es sich um die bedeutendste Veröffentlichung des Jahres 2026 – größer als alles, was Google meiner Meinung nach unter I/O. ankündigen wird. Wenn sie nicht überleben, reiht sie sich in den langen Friedhof der „magischen Zahlen in Startbeiträgen ein, die sich nicht reproduzierten“. Ich warte darauf, dass in den nächsten zwei Wochen die Benchmark-Replikationsthreads von Drittanbietern landen. Wenn sie mit den Behauptungen des Unternehmens übereinstimmen, befinden wir uns im Herbst in einem neuen Rechensystem. Wenn nicht, bauen wir weiter auf dem Boden auf, den wir haben.

I/O ist in zwei Wochen. Das Bild heute, am 6. Mai 2026, wird bis zum 21. Mai anders aussehen. Aber die Richtung der Wetten – hin zu kontextreicheren, kostengünstigeren Modellen, professioneller Domänengenauigkeit, Finanzdienstleistungsautomatisierung und verkörperten AI-Partnerschaften – wird sich nicht umkehren. Die nächsten zwölf Monate werden davon abhängen, welche dieser Wetten wie schnell ausgezahlt werden.

Der Artikel, den ich geschrieben habe, wäre eine ruhige Vorschau auf Google I/O 2026 gewesen. Das ist nicht mehr der Fall. Es ist eine Momentaufnahme des Moments, in dem sich das Feld unter den Füßen aller wirklich verändert hat – und eine funktionierende Theorie darüber, welchen Stand man zuerst einnehmen sollte.

Wenn Sie nach dem Schließen dieses Tabs nur eines tun: Sehen Sie sich die I/O-Keynote am 19. Mai mit dem obigen Framework im Kopf an. Achten Sie darauf, welche Lücken Google schließt, welche sie schließen und welche Ankündigungen sie machen, die niemand kommen sah. Die Lücke zwischen dem, was sie verschicken, und dem, was im Rest dieser Woche verschickt wird, verrät Ihnen genau, wohin die nächsten zwölf Monate führen.

Ich werde die Keynote live mitverfolgen. Wir sehen uns auf der anderen Seite.

Häufig gestellte Fragen

Was ist subquadratische spärliche Aufmerksamkeit und warum ist sie wichtig?

Subquadratic Sparse Attention (SSA) ist die Architektur hinter SubQ, dem Grenzmodell des in Miami ansässigen Startups, das am 5. Mai 2026 eingeführt wurde. Es berechnet die Aufmerksamkeit selektiv nur für wichtige Token-Positionen, anstatt jeden Token mit jedem anderen Token zu vergleichen. Das Unternehmen behauptet, ein 12-Millionen-Token-Kontextfenster zu haben, das weniger als 5 % der Rechenkosten von Opus ausmacht. Wenn es unabhängig verifiziert wird, widerlegt es die Annahme, dass Grenzintelligenz Grenzberechnungen erfordert.

Wann wurde GPT-5.5 Instant veröffentlicht und was hat sich geändert?

OpenAI veröffentlichte GPT-5.5 Instant am 5. Mai 2026 als neues Standardmodell von ChatGPT. Die wichtigste Änderung ist eine um 52,5 % niedrigere Halluzinationsrate bei medizinischen, juristischen und finanziellen Prompts im Vergleich zu GPT-5.3 Instant. HealthBench stieg von 49,6 auf 51,4 und AIME 2025 von 65,4 auf 81,2. Zahlende Nutzer behalten drei Monate lang Zugriff auf GPT-5.3 Instant.

Was sind die 10 Finanzagenten-Vorlagen von Anthropic?

Anthropic veröffentlichte am 5. Mai 2026 zehn einsatzbereite Claude-Finanzagenten, aufgeteilt in zwei Kategorien: Research/Client Coverage (Pitch Builder, Meeting Preparer, Earnings Reviewer, Model Builder, Market Researcher) und Finance/Operations (Valuation Reviewer, GL Reconciler, Month-End Closer, Statement Auditor, KYC Screener). Sie laufen in Claude Cowork und Claude Code oder als von Anthropic verwaltete Agenten mit vollständiger Microsoft-365-Integration.

Wann findet Google I/O 2026 statt und was wird erwartet?

Google I/O 2026 findet am 19. und 20. Mai 2026 statt, die Keynote ist am 19. Mai. Erwartet werden eine große Gemini-Modellvorstellung (wahrscheinlich Gemini 3.5, möglicherweise Gemini 4.0), das gemunkelte Omni-Modell für multimodale Generierung, Agenten-Updates nach dem Project-Mariner-Aus am 4. Mai sowie wahrscheinlich Updates zu Veo und Nano Banana. Am wichtigsten ist die Frage, ob Google die agentische Coding-Lücke zu Codex und Claude Code schließt.

Was ist der Unterschied zwischen Gemini 4 und Gemma 4?

Es handelt sich um separate Produktlinien. Gemini ist das Flaggschiff der Closed-Source-Modellfamilie von Google. Gemma ist die Open-Source-Modellfamilie von Google. Die Multi-Token-Prediction-Drafter-Version vom Mai 2026, die eine dreifache Inferenzbeschleunigung lieferte, war für Gemma 4 (Open Source, verfügbar auf Hugging Face und Kaggle unter Apache 2.0), nicht für Gemini 4. Die beiden werden oft verwechselt, kommen aber auf unterschiedlichen Wegen.

Lasst uns zusammenarbeiten

Möchten Sie AI-Systeme aufbauen, Arbeitsabläufe automatisieren oder Ihre technische Infrastruktur skalieren? Ich würde gerne helfen.

Fiverr (benutzerdefinierte Builds und Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Unternehmenslösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io

KI-Wendepunkt im Mai 2026: worauf ich jetzt setzen würde