Skip to main content
📝 KI-News

Google IO 2026 Rückblick: Gemini Omni, Spark und der Agent-Schwenk

Meine Feldnotizen von der Google IO 2026 — Gemini Omni, 3.5 Flash, Spark für 100 $, Antigravity 2.0, Audio-Brillen und was ich diese Woche tatsächlich testen würde.

26 min

Lesezeit

5,143

Wörter

May 19, 2026

Veröffentlicht

Engr Mejba Ahmed

Geschrieben von

Engr Mejba Ahmed

Artikel teilen

Google IO 2026 Rückblick: Gemini Omni, Spark und der Agent-Schwenk

Google IO 2026 Rückblick: Das Jahr, in dem Google aufhörte, Chatbots zu verkaufen

Ich habe die IO 2026 Keynote auf einem zweiten Monitor verfolgt, während auf dem ersten ein frisches Terminal offen war — halb erwartend, das meiste davon zu ignorieren.

Das ist keine Arroganz. Das ist einfach das, worauf mich die letzten zwei Jahre an KI-Keynotes konditioniert haben. Marketing-Demos, eine Parade von Modellnamen, die alle ineinander verschwimmen, ein Feature-Reel, das erst „später in diesem Jahr" erscheinen wird. Ich hatte die Lautstärke niedrig. Ich arbeitete an etwas anderem. Und dann, etwa achtzehn Minuten nach Beginn, stand ein DeepMind-Ingenieur namens Varun Mohan auf und sagte beiläufig, sein Team hätte in zwölf Stunden ein funktionierendes Betriebssystem von Grund auf gebaut — mit Gemini 3.5 Flash und Antigravity — 93 Sub-Agenten, 15.000 Modellanfragen, 2,6 Milliarden verarbeitete Tokens, unter 1.000 Dollar an API-Kosten — und dann lud er Doom darauf und fing an zu spielen.

Ich schaltete meine Musik stumm. Ich schloss meinen anderen Tab. Ich nahm ein Notizbuch zur Hand.

Dieser Moment sagte mir alles über Google IO 2026, was die Folienpräsentationen nie vermitteln konnten. Google kam nicht nach Mountain View am 19. Mai 2026, um einen weiteren Chatbot zu verkaufen. Sie kamen, um Agenten zu verkaufen — und dafür haben sie den gesamten KI-Ultra-Preisstack umstrukturiert, ein brandneues „any-to-any" multimodales Modell ausgeliefert, eine Desktop-Anwendung entwickelt, die vollständig auf Multi-Agenten-Orchestrierung ausgerichtet ist, eine 24/7-persönliche KI vorgestellt, die auf einer Google Cloud VM läuft, und leise den Top-Tier-Plan von 250 auf 200 Dollar pro Monat gesenkt, um einen neuen 100-Dollar-Tier darunter einzufügen.

Wenn du ein Builder bist, ist dies die folgenreichste Keynote, die Google seit dem ursprünglichen Gemini-Launch gehalten hat. Ich habe die Tage seitdem damit verbracht, jede Ankündigung durchzuarbeiten, die technischen Behauptungen mit unabhängiger Berichterstattung abzugleichen und herauszuarbeiten, welche Teile ich tatsächlich diese Woche einsetzen würde und welche Demo-Ware sind. Hier ist der Feldbericht — was real war, was Theater war und was ich denke, dass es für jeden bedeutet, der 2026 Software mit KI ausliefert.

Der Paradigmenwechsel, über den niemand spricht

Bevor ich auf spezifische Ankündigungen eingehe, musst du das Framing verstehen, denn jede Produktvorstellung leitet sich daraus ab.

In den letzten drei Jahren war der Chatbot das Gravitationszentrum der KI-Branche. Du tippst eine Frage. Das Modell antwortet. Du bewertest die Antwort. Die Preisgestaltung war um Prompts und Tokens herum strukturiert. Die Benutzererfahrung war um Nachrichten herum strukturiert. Die Benchmarks waren um Einzelanfragen-Qualität herum strukturiert.

Google IO 2026 war der Moment, in dem dieses Paradigma öffentlich zerbrach.

Die Preisänderung ist der Indikator. Googles Gemini-App bewegt sich weg von täglichen Prompt-Limits hin zu einem „verbrauchtes Compute"-Modell, bei dem eine einfache Textantwort nur einen winzigen Bruchteil deines monatlichen Kontingents verbraucht und ein komplexer Videoschnitt oder ein Coding-Agent-Lauf einen viel größeren Teil. Das ist kein Chatbot-Preismodell. Das ist ein Workload-Preismodell. Es ergibt nur Sinn, wenn das Unternehmen erwartet, dass der durchschnittliche zahlende Nutzer anfängt, Dinge auszuführen, die eher Hintergrundaufgaben als Konversationen ähneln.

Und jede andere Ankündigung verstärkt dies. Gemini Spark wird als „24/7-KI-Agent" beschrieben, der in deinem Auftrag lebt — nicht ein Modell, mit dem du sprichst, sondern eines, das läuft, während du schläfst. Antigravity 2.0 wird als „Agent-first" Desktop-Anwendung zur Orchestrierung von Multi-Agenten-Arbeit in Parallelität beschrieben. Die Suche bekommt „autonome Gemini-gesteuerte Agenten, die in der Lage sind, Informationen kontinuierlich zu überwachen und Aktionen im Auftrag der Nutzer auszuführen." Universal Cart ist ein Shopping-Agent, keine Shopping-Suche.

Du wirst mich immer wieder auf diese Perspektive zurückkommen hören, denn sie ist die einzige, die die Keynote sinnvoll macht. Sobald du sie siehst, fügt sich jede Ankündigung zusammen. Lass mich also durchgehen, was sie tatsächlich ausgeliefert haben — und was ich tatsächlich testen würde.

Gemini Omni: Ein Modell, jede Modalität, ein Wasserzeichen

Die größte Modell-Ankündigung des Tages war nicht 3.5 Flash. Es war Gemini Omni, Googles neues „any-to-any" multimodales Modell, das jede Kombination aus Text, Bild, Audio und Video als Eingabe nimmt und jede Kombination als Ausgabe produziert.

Omni Flash — das erste öffentliche Modell, das auf dem Omni-Framework aufgebaut ist — ist dasjenige, das Google tatsächlich ausliefert. Laut Berichten kann es kurze KI-Videoclips aus Textprompts generieren, Standbilder animieren, generierte Szenen konversationell bearbeiten und auf kombinierte Text-, Audio- und Bildeingaben in Echtzeit reagieren. Es wird öffentlich als das nächste Kapitel der Arbeit beschrieben, die Nano Banana (das Bildbearbeitungs-/Generierungsmodell vom letzten Jahr) und Genie (Googles generatives interaktives Weltmodell) hervorgebracht hat.

Was mich an dieser Ankündigung aufhorchen ließ: Google hat es nicht leise in eine Beta geschoben. Sie haben es zusammen mit dem aggressivsten Content-Provenienz-Push ausgeliefert, den ich je von einem großen KI-Labor gesehen habe.

Jedes von Omni generierte Video trägt Googles SynthID-Digitalwasserzeichen. SynthID hat inzwischen mehr als 100 Milliarden KI-generierte Bilder und Videos markiert, und seit IO 2026 übernehmen NVIDIA, OpenAI, ElevenLabs und Kakao den Standard. C2PA Content Credentials werden über Googles generative Tools hinweg erweitert, und es gibt jetzt eine AI Content Detection API auf der Google Agent Platform, die es Unternehmen ermöglicht, KI-generierte Inhalte von Googles Modellen und von anderen populären Modellen zu identifizieren.

Lies diesen Absatz noch einmal. OpenAI übernimmt Googles Wasserzeichen-Standard. Das allein ist die bedeutendste Geschichte der Branchenangleichung seit dem Start der ursprünglichen GPT-API, und sie wurde in der Recap-Berichterstattung kaum erwähnt, weil es keine auffällige Demo ist. Es ist ein Eingeständnis der gesamten Frontier-Modell-Industrie, dass ein Internet mit unmarkierten synthetischen Medien nicht funktioniert, und sie geben kollektiv Boden an einen gemeinsamen technischen Standard ab, um Regulierern zuvorzukommen.

Wenn du irgendetwas baust, das nutzergenerierte Inhalte verarbeitet — Moderation, Werbeplattformen, Journalismus-Tools, Social Media, Markenmonitoring — ist dies die wichtigste entwicklerrelevante Ankündigung der gesamten Keynote. Der C2PA + SynthID-Stack ist jetzt breit genug, dass „Ist das KI-generiert?" zu einem echten, abfragbaren Signal in deiner Datenpipeline wird. Ich habe die KI-Trainingsdaten-Krise Anfang dieses Jahres behandelt, und die offene Frage, die ich ungelöst ließ, war die Provenienz. Omnis Launch ist das erste Mal, dass ich eine glaubwürdige Antwort sehe.

Was ich diese Woche testen würde: Leite einen Teil der von Nutzern eingereichten Medien durch die AI Content Detection API und sieh dir an, wie die False-Positive- und False-Negative-Raten in der Praxis wirklich aussehen. Vertraue nicht den Demo-Zahlen. Teste es mit deinen Daten.

Gemini 3.5 Flash: Das Modell für Agenten gebaut

Gemini 3.5 Flash ist das Modell, das den Doom-auf-einem-neuen-OS-Moment produziert hat, und die technische Geschichte dahinter ist interessanter als die Demo.

Laut Googles eigenen Angaben und unabhängiger Berichterstattung:

  • Gemini 3.5 Flash übertrifft Gemini 3.1 Pro in nahezu jedem Benchmark und läuft dabei etwa viermal schneller als andere Frontier-Modelle bei Output-Tokens pro Sekunde
  • Erreicht 76,2% auf Terminal-bench 2.1 (Coding-Evaluation)
  • Erreicht 1656 auf GDPval-AA (Real-World agentic Benchmark)
  • Ist gemeinsam mit dem Antigravity-Harness optimiert — das bedeutet, Modell und Multi-Agenten-Runtime wurden zusammen trainiert und abgestimmt, nicht erst bei der Veröffentlichung zusammengeschraubt

Der letzte Punkt ist derjenige, den die meiste Berichterstattung übersehen hat. Wenn man ein Frontier-Modell darauf trainiert, gut bei agentischer Arbeit zu sein, und gleichzeitig das Harness trainiert, in dem es läuft, um die richtigen Tool-Calls und Kontextfenster im richtigen Moment bereitzustellen, erhält man ein Verhalten, das nicht reproduzierbar ist, indem man einfach ein anderes Modell einsetzt. Dies ist die gleiche architektonische Erkenntnis, die Anthropic mit Claude Code verfolgt hat — Modell und Runtime sind keine unabhängigen Produkte — und es ist ein großer Teil dessen, warum ich Claude Code als meinen täglichen Begleiter im letzten Jahr eingesetzt habe. Google hat sich jetzt öffentlich zur gleichen Philosophie bekannt.

Die Behauptung der 4-fachen Output-Geschwindigkeit verdient einen eigenen Moment. Wenn Gemini 3.5 Flash tatsächlich viermal so viele Tokens pro Sekunde liefert wie andere Frontier-Modelle bei vergleichbarer Qualität, ändert sich die Mathematik für agentische Workflows grundlegend. Ein Multi-Step-Agent, der 15-20 Tool-Calls pro Aufgabe durchführt, ist ab einem bestimmten Punkt nicht mehr durch die Reasoning-Qualität eingeschränkt — er ist durch die Latenz eingeschränkt. Senke die Latenz signifikant und der Agent kann Fehler korrigieren, neu planen und innerhalb des gleichen Zeitbudgets erneut ausführen, das zuvor nur für den ersten Versuch reichte. Das ist eine andere Obergrenze.

Aber hier möchte ich ehrlich über die Grenzen der Berichterstattung am ersten Tag sein. Die Terminal-bench 2.1 und GDPval-AA Scores sehen auf dem Papier stark aus, aber ich habe 3.5 Flash noch nicht durch mein persönliches Coding-Harness laufen lassen. Als ich Gemini 3 Deepthink getestet habe, Anfang dieses Jahres, hielten die veröffentlichten Benchmarks einigermaßen stand, aber die Fehlermodi wurden erst sichtbar, als ich echte Codebase-Probleme darauf warf. Behandle die Headline-Zahlen also als Richtung, nicht als Evangelium. Ich werde ein separates vollständiges Review haben, nachdem ich meine eigenen Evaluationen durchgeführt habe.

Was ich diese Woche testen würde: Nimm einen echten agentischen Workflow, den du derzeit auf Claude oder GPT ausführst, und führe ihn erneut auf Gemini 3.5 Flash durch das Antigravity-Harness aus. Achte besonders auf das Recovery-Verhalten bei Tool-Call-Fehlern, nicht nur auf den Erstversuch-Erfolg. Dort zeigt sich normalerweise die Ko-Optimierung.

Antigravity 2.0: Die eigenständige Agentenplattform

Ich habe über die ursprüngliche Anti-Gravity IDE vor einigen Monaten geschrieben und durchlaufen, wie ich eine Full-Stack-Finanz-App darin in 47 Minuten ausgeliefert habe. Dieses Produkt war eine IDE — ein Editor, der um KI-Agenten gewickelt war.

Antigravity 2.0, angekündigt auf der IO 2026, ist etwas anderes. Es ist eine eigenständige Desktop-Anwendung, die vollständig um eine agentenoptimierte Erfahrung herum konzipiert ist. Laut den Entwickler-Highlights von Google wird es mit einer CLI, einem SDK, verwalteter Ausführung und Enterprise-Support ausgeliefert. Entwickler können mehrere Agenten parallel orchestrieren und Aufgaben über langlaufende Workflows hinweg ausführen.

Der strukturelle Wandel von 1.x zu 2.0 ist der Teil, der zählt. Das ursprüngliche Anti-Gravity setzte Agenten in einen Editor. Die neue Version kehrt die Beziehung um — die Agentenplattform ist die primäre Oberfläche, und der Editor ist nur eines der Werkzeuge, die ein Agent verwenden kann. Das ist eine bedeutsam andere Designphilosophie.

Die Doom-auf-einem-neuen-OS-Demo war der Beweispunkt. 93 Sub-Agenten, die parallel arbeiten, 15.000 Modellanfragen, 2,6 Milliarden Tokens, 12 Stunden Laufzeit, unter 1.000 Dollar API-Kosten. Wenn du jemals versucht hast, so viele gleichzeitige Agenten von Hand zu orchestrieren, kennst du die Fehlermodi — Agenten, die sich gegenseitig die Dateisystem-Änderungen überschreiben, blockierte Tool-Calls, Kontextfenster, die durch Crosstalk explodieren. Die Tatsache, dass Google es ohne sichtbares Chaos demonstriert hat, deutet darauf hin, dass die Orchestrierungsschicht echte Arbeit leistet, nicht nur Subprozesse startet und hofft.

Die CLI und das SDK sind für ernsthafte Builder noch wichtiger als die Desktop-App. Eine CLI ist das, was man in CI einbindet. Eine CLI ist das, was man scriptet. Eine CLI ist das, was man über Nacht auf einem Server laufen lässt. Eine Desktop-App ist das, was man Führungskräften zeigt. Dass Antigravity 2.0 beides hat, bedeutet, dass Google es ernst meint damit, die Plattform als Produktionsinfrastruktur beizubehalten, nicht nur als Launch-Week-Demo.

Ich habe das letzte Jahr damit verbracht, den Großteil meiner agentischen Arbeit in Claude Code aufzubauen und durch Anthropics Agent SDK zu leiten. Antigravity 2.0 ist die erste konkurrierende Plattform, die ich gesehen habe, die strukturell bereit aussieht, echte Produktions-Workloads zu hosten — nicht weil das Marketing es sagt, sondern weil die Form des Produkts (CLI + SDK + verwaltete Ausführung + Enterprise-Support) die Form ist, die man baut, wenn man erwartet, dass andere Leute deine Plattform in der Produktion betreiben.

Was ich diese Woche testen würde: Führe die gleiche Agentenaufgabe in Antigravity 2.0 und Claude Code parallel aus. Miss nicht nur die Qualität — miss das Failure-Recovery, die Observability und wie der Trace aussieht, wenn ein Agent vom Kurs abkommt. Dort lebt die Produktionsreife.

Gemini Spark: Die 100-Dollar-Wette auf persönliche Agenten

Hier ist die Ankündigung, die die hitzigste Debatte in meinen Gruppenchats ausgelöst hat. Gemini Spark.

Spark ist, in Googles eigenen Worten, ein 24/7-KI-Agent, der auf Google Cloud VMs lebt und kontinuierlich in deinem Auftrag läuft. Er integriert sich mit MCP (Model Context Protocol — dem von Anthropic stammenden Standard, der leise zum Industriestandard für Tool-Calling geworden ist). Er wird eine Chrome-Integration bekommen, die diesen Sommer kommt. Und er ist die Hauptfunktion hinter einer großen Umstrukturierung des KI-Ultra-Preistiers.

Die Preis-Mathematik:

  • Der bisherige Top-Ultra-Plan lag bei 250 Dollar pro Monat. Dieser Tier existiert weiterhin, kostet aber jetzt 200 Dollar pro Monat, mit höheren Nutzungslimits und mehr Speicher.
  • Ein neuer 100-Dollar-pro-Monat Ultra-Tier wurde darunter eingeführt. Der 100-Dollar-Plan beinhaltet 5-mal höhere Nutzungslimits in der Gemini-App im Vergleich zum 20-Dollar-KI-Pro-Tier, 20 Terabyte Cloud-Speicher, YouTube Premium und Beta-Zugang zu Gemini Spark für US-Abonnenten.
  • Spark selbst wird in der Woche nach der Keynote an vertrauenswürdige Tester ausgerollt und in der Woche danach als Beta an Google AI Ultra-Abonnenten in den USA.

Setz die Preisänderungen für einen Moment beiseite. Die interessante Frage ist, was Spark auf architektonischer Ebene tatsächlich ist — denn wenn es das ist, was Google impliziert, ist es eine andere Produktkategorie als alles, was ChatGPT oder Claude derzeit anbieten.

Die meisten aktuellen „KI-Agenten" laufen als Reaktion auf einen Benutzer-Prompt. Du fragst, er handelt, er gibt zurück. Die Sitzung ist durch die Konversation begrenzt. Selbst Claudes Projekte und ChatGPTs GPTs sind im Kern immer noch Request-Response — sie halten Kontext über Sitzungen hinweg, aber sie laufen nicht, wenn du nicht hinschaust.

Spark läuft auf einer VM. Er hat eine kontinuierliche Existenz. Er kann Dinge überwachen, Aktionen durchführen und sich bei dir melden, basierend auf seinem eigenen Zeitplan — nicht weil du die App geöffnet hast, sondern weil sich die Welt verändert hat und er es bemerkt hat.

Wenn das tatsächlich so funktioniert, ist der Nutzen beträchtlich. Die Anwendungsfälle liegen auf der Hand — Flugpreis-Tracking, Nachschub-Benachrichtigungen, Kalender-Babysitting, E-Mail-Triage, Überwachung eines Projektboards, Beobachtung der Preisseite eines Wettbewerbers — aber sie sind auf die gleiche Weise offensichtlich, wie „ein Telefon in der Tasche haben" 2007 offensichtlich war. Die Tatsache, dass man sie auflisten kann, bedeutet nicht, dass wir wissen, wie das Produkt das tägliche Verhalten umgestaltet.

Hier bin ich skeptisch. Der Einstiegspreis von 100 Dollar platziert Spark fest im „Power-User"-Tier — das ist 5-mal der Preis von KI Pro und deutlich über dem, was die meisten Consumer-SaaS-Produkte kosten. Für ein Produkt, das seinen Wert über viele ambienten Aufgaben hinweg demonstrieren muss, ist es mutig, 100 Dollar pro Monat zu verlangen, bevor jemand weiß, ob es funktioniert. Die Senkung von 250 auf 200 Dollar beim Top-Tier mildert es (und signalisiert echten Wettbewerbsdruck von Anthropic und OpenAIs Pro-Plänen), aber Spark selbst ist hinter einem Preis verschlossen, den die meisten Leute nicht zahlen werden, bis der Fall überwältigend klar ist.

Ich werde Spark in der Woche testen, in der es in der US-Beta landet. Die spezifische Frage, die ich mitbringe, ist, ob das 24/7-Framing echtes Produktverhalten oder Marketing-Sprache für „wir haben das Kontextfenster zwischen Sitzungen beibehalten" ist. Es gibt einen Unterschied. Das erste ist eine neue Kategorie. Das zweite ist ein Chatbot mit besserem Gedächtnis.

Wenn du den breiteren Preiskrieg verfolgt hast, wirst du dies als die gleiche Dynamik erkennen, die ich in meinem Beitrag über die Kommodifizierung von KI-Abonnements behandelt habe — die Applikationsschicht ist, wo das Geld liegt, und die Modelllabore rasen, sie zu erobern, bevor die Applikationsschicht sie erobert. Spark ist Googles explizitester Zug in diesem Rennen.

Docs Live, Ask Maps, Ask YouTube: Der Workspace-Pivot

Die Consumer-Oberflächen-Ankündigungen bekamen weniger Keynote-Bühnenzeit, aber sie werden die meisten Menschen erreichen. Drei sind am wichtigsten.

Docs Live ist sprachgesteuertes Google Docs-Editing — du kannst Docs sagen, Abschnitte zu verschieben, Text fett oder kursiv zu formatieren und Dokumente per Sprachbefehle umzustrukturieren. Es wird diesen Sommer für Android und iOS mit Google AI Pro und Ultra auf Englisch weltweit ausgerollt. Das Framing in der Keynote betonte Barrierefreiheit — und der Anwendungsfall für Nutzer mit motorischen oder visuellen Beeinträchtigungen ist tatsächlich bedeutsam — aber der breitere Nutzen ist, dass Sprachbearbeitung endlich präzise genug ist, um eine echte Produktivitätsoberfläche zu sein, kein Gimmick. Apple hat versucht, dies ein Jahrzehnt lang auszuliefern. Google liefert es, weil das zugrunde liegende Speech-to-Intent-Modell endlich die Qualitätsschwelle überschritten hat.

Ask Maps verwandelt Google Maps in eine konversationelle Suchoberfläche. Du kannst Fragen über Orte stellen, wie du einen Einheimischen fragen würdest — nicht nur „Finde mir Kaffee in der Nähe", sondern „Finde mir ein ruhiges Café mit zuverlässigem WLAN und Außensitzplätzen, wo ich einen Videoanruf machen kann." Der gleiche Trick wie ChatGPT-Suche, aber mit Googles Kartendaten darunter, was ein bedeutsamer Wettbewerbsvorteil ist.

Ask YouTube ermöglicht es dir, Videoinhalte konversationell abzufragen. Der Killer-Anwendungsfall hier ist nicht, Videos anders anzuschauen — es ist Recherche. Ich mache das seit Jahren manuell mit einer eigenen Pipeline, die Transkripte zieht und durch Claude laufen lässt. Ask YouTube macht es nativ. Die Implikation für Content-Creator ist bedeutsam: Auffindbarkeit fließt jetzt durch konversationelle Abfragen, nicht nur durch Suchleisten-Keywords, was bedeutet, wie du deine Videoinhalte strukturierst (Kapitel, Transkripte, Erklärungen auf dem Bildschirm) direkt beeinflusst, ob KI sie hervorbringt.

Alle drei dieser Funktionen basieren auf einer architektonischen Tatsache: Googles Trainingsdatenvorteil bei Karten, Video und Dokumentenzusammenarbeit ist enorm, und konversationelle KI ist endlich die richtige Schnittstelle, um diesen Vorteil im großen Maßstab zu monetarisieren. Ich habe das Google-Framework für agentische KI-Transformation im Februar behandelt, und der rote Faden von diesem Beitrag zu IO 2026 ist derselbe — Googles Vorteil ist nicht die Modellqualität, sondern der Datengraph, auf dem das Modell sitzt.

Intelligente Suche, Universal Cart und der Agent in den Suchergebnissen

Dies ist das Ankündigungsbündel, das tatsächlich SEO und E-Commerce umgestalten wird, und es verdient viel mehr Aufmerksamkeit, als es bekommt.

Google Search wird um eine multimodale Suchbox (Text, Bild, Video, Sprache), 24/7-KI-Suchagenten, die Themen überwachen und dich über Änderungen benachrichtigen, und — der Teil, der mich wirklich überrascht hat — agentisches Coding in den Suchergebnissen, das dynamische UIs und Widgets bei Bedarf generieren kann, neu konzipiert. Richtig gehört. Die Suchergebnisseite selbst wird zu einer Runtime, die kleine interaktive Anwendungen basierend auf deiner Abfrage starten kann.

Wenn du heute nach „Vergleiche diese drei Laufschuhe nach Sprengung" suchen würdest, bekämst du Artikel. In der neuen Suche bekommst du ein Vergleichs-Widget, das Live-Daten zieht und als kleine interaktive Tabelle in den Suchergebnissen rendert. Generiert von einem Agenten. Zur Abfragezeit.

Das wird weltweit und kostenlos ab Sommer 2026 verfügbar sein. Dieser Zeitplan ist wichtig, weil es bedeutet, dass sich die SEO-Landschaft innerhalb von Monaten ändert, nicht von Jahren. Ich habe in Einzelteilen über diese Verschiebung geschrieben — Generative Engine Optimization, Passage-Level-Zitierbarkeit, der Tod des Listicles — und IO 2026 ist der Moment, in dem es konkret wird. Die Suchergebnisseite ist keine Linkliste mehr. Sie ist eine Agenten-Runtime.

Universal Cart ist der E-Commerce-Begleiter. Ein Gemini-gesteuerter Warenkorb, der gleichzeitig über Search, YouTube und Gmail funktioniert. Er findet Angebote, verfolgt Preisentwicklungen, benachrichtigt bei Nachschub und — der wirklich nützliche Teil — markiert inkompatible Produktkombinationen. Versuch, ein Motherboard und einen Prozessor hinzuzufügen, die nicht den gleichen Sockel teilen, und Universal Cart bemerkt es.

US-Rollout ist Sommer 2026. Wenn du irgendetwas online verkaufst, ist die Implikation dieselbe wie für Content-Publisher: Deine Produktoberfläche ist nicht mehr eine Website, die Leute besuchen. Sie ist ein strukturierter Datenfeed, den ein Agent im Auftrag des Nutzers liest. Schema, strukturierte Produktdaten, Echtzeit-Inventar und Preistransparenz werden plötzlich zu den Teilen, die bestimmen, ob ein Agent dich empfiehlt. Conversion-Optimierung hört auf, sich um deine Landing Page zu drehen, und dreht sich stattdessen um deine Datenschicht.

Ich habe eine Version dieser These in meinem Beitrag über KI-Agenten, die die Arbeit umgestalten behandelt, aber Universal Cart macht sie im Einzelhandel konkret. Wenn du einen E-Commerce-Shop betreibst und bis Q3 2026 keine sauberen strukturierten Produktdaten hast, wirst du für einen bedeutenden Teil der Kaufabsichten unsichtbar sein.

Audio-Brille, Gemini App Redesign und die Workspace-Schicht

Google hat die Hardware-Enthüllung für das Ende der Keynote aufgehoben, was dir etwas darüber sagt, wie zuversichtlich sie sind, dass Software die Nachfrage treibt. Die Ankündigung der intelligenten Brillen ist real, aber bescheiden: Audio-Brillen mit eingebauten Lautsprechern und Kameras, hergestellt von Samsung und Qualcomm, mit Designs von Gentle Monster und Warby Parker, Auslieferung Herbst 2026, funktionierend auf Android und iOS.

Das sind nicht Metas Ray-Bans mit einem Bildschirm. Das sind Voice-First, freihändige Gemini-Zugang, mit Kameras, die Kontext erfassen und an den Assistenten weitergeben können. Die Demos zeigten Gemini, wie es zu Orten navigiert, die der Nutzer zuvor besucht hatte, und Artikel über integrierte Apps bestellte, während es Nutzerpräferenzen berücksichtigte. Handgelenk-Integration mit der Pixel Watch ist enthalten.

Ich bin kein Brillenmensch und skeptisch, ob reine Audio-KI-Brillen zu einem Massenprodukt werden. Aber die strategische Logik stimmt — Google braucht eine ambienten Hardware-Oberfläche für Gemini, bevor Apple etwas Wettbewerbsfähiges ausliefert, und die Partnerschaftsstruktur (Samsung + Qualcomm + Modemarken) ist der Weg, ein Tech-Produkt in etwas zu verwandeln, das normale Leute tatsächlich tragen werden. Herbst 2026 ist der Zeitpunkt, an dem wir wissen werden, ob der Verbrauchermarkt tatsächlich reagiert.

Die Gemini-App selbst bekommt ein Redesign — Google nennt die neue Designsprache „Neural Expressive" — und ein neues Google Pix-Tool für Bildbearbeitung in Workspace. Flow Music wird als Audio-Generierungsoberfläche ausgeliefert. Nichts davon ist einzeln tragend, aber zusammen sagen sie etwas über Googles Engagement, Gemini zur täglichen Nutzungsoberfläche über Consumer-Produkte hinweg zu machen, nicht nur zu einer API. Ich habe einen Teil dieses Fadens in meinem Beitrag zur NotebookLM und Gemini App Integration verfolgt, und das Muster setzt sich fort — Google behandelt Gemini als die operative Schicht für alles, was sie ausliefern, nicht als Feature in einem einzelnen Produkt.

Code Mender, SynthID-Erweiterung und die stille Sicherheitsgeschichte

Ich möchte einen Absatz den Sicherheitsankündigungen widmen, weil sie unter den Consumer-Enthüllungen begraben wurden und das nicht sollten.

Code Mender ist der Teil, der für Builder am meisten zählt. Es ist ein DeepMind-KI-Agent, der automatisch anfälligen Code erkennt, patcht und umschreibt. Er nutzt einen Debugger, Source-Code-Browser, Fuzzing und Theorem-Prover, um Ursachen zu finden, generiert dann autonom Patches und validiert sie gegen Regressionen und Style-Guidelines, bevor er sie zur menschlichen Überprüfung vorlegt. In den sechs Monaten vor der IO-Ankündigung hat Code Menders Team 72 Sicherheitsfixes in Open-Source-Projekte eingepflegt, darunter Codebases mit bis zu 4,5 Millionen Zeilen.

Lies diese Zahl noch einmal. 72 echte Sicherheitspatches, in echtem Open Source, von Menschen validiert, upstream akzeptiert. Das ist kein Benchmark. Das ist ein eingesetzter Agent, der Security Engineering im Produktionsmaßstab betreibt.

Die Code-APIs für Code Mender sind seit IO im Tester-Preview. Wenn du eine bedeutende Codebasis pflegst — Open Source oder proprietär — ist dies die Ankündigung, die ich im nächsten Quartal am genauesten beobachten würde. Die Ökonomie eines kontinuierlich laufenden Sicherheitsagenten, der an dein Repo angebunden ist, unterscheidet sich grundlegend von periodischen Drittanbieter-Audits. Ich habe über diesen Kategoriewechsel in meinem Beitrag über KI-Zero-Day-Entdeckung geschrieben, und Code Mender ist das konkreteste Produktionsbeispiel, das ich gesehen habe.

Die SynthID-Erweiterung ist die andere Hälfte der Sicherheitsgeschichte. Der Wasserzeichen-Standard umfasst jetzt NVIDIA, OpenAI, ElevenLabs und Kakao, mit über 100 Milliarden markierten Bildern und Videos. C2PA Content Credentials werden über Googles generative Tools erweitert. Die AI Content Detection API ist jetzt auf der Agent Platform verfügbar. Das sind keine glamourösen Ankündigungen. Es sind langsame, infrastrukturelle Standardisierungsbewegungen. Sie sind auch genau das, was eine reifende Branche produziert, wenn Regulierer anfangen, bei Anhörungen aufzutauchen.

Gemini für die Wissenschaft: Die langfristige Wette

Google hat die ambitioniertesten Ankündigungen für die Teile der Keynote aufgehoben, die niemandes Quartalsplanung direkt beeinflussen werden. Gemini for Science umfasst zwei bemerkenswerte Teile.

AlphaEarth Foundations ist jetzt öffentlich als digitaler Zwilling der Erde positioniert — ein virtueller Satellit, der optische Bilder, Radar, LiDAR und Klimadaten aufnimmt und die gesamte Landoberfläche in ein abfragbares Embedding mit 10x10 Meter Zellauflösung komprimiert, jährlich aktualisiert. Das Modell reduziert den Speicherbedarf um den Faktor 16 im Vergleich zu anderen von Google getesteten KI-Systemen. Sie arbeiten mit über 50 Organisationen an realen Anwendungen — Ernährungssicherheit, Entwaldung, Stadtplanung, Wasserressourcen. Die Kombination von AlphaEarth mit Geminis Reasoning-Fähigkeit ist der nächste Schritt, der es Analysten ermöglichen würde, natürlichsprachliche Fragen zu stellen wie „Wo im Amazonasgebiet hat die Ackerlandausbreitung in den letzten drei Jahren zugenommen" und eine datengestützte Antwort zu erhalten.

Isomorphic Labs — Alphabets Wirkstoffentdeckungsunternehmen, aufgebaut auf den Grundlagen von AlphaFold — ist auf dem Weg, seine ersten KI-entwickelten Medikamente bis Ende 2026 in klinische Studien zu bringen. Sie haben Anfang dieses Monats 2,1 Milliarden Dollar in einer Series-B-Finanzierung aufgenommen, um die Isomorphic AI Drug Design Engine zu beschleunigen.

Keines davon wird in den nächsten sechs Monaten in ein Entwickler-SDK einfließen. Aber das Muster — Frontier-KI angewandt auf große physische Welt-Datengraphen (Erde, Biologie) — ist die langfristige Wette, die die gesamte Compute-Investition rechtfertigt, die Alphabet seit 2023 getätigt hat. Das meiste, was Google auf der IO 2026 angekündigt hat, dreht sich darum, die Applikationsschicht zu erobern. AlphaEarth und Isomorphic rechtfertigen die zugrunde liegende Infrastrukturinvestition über einen Zehn-Jahres-Horizont.

Was ich diese Woche tatsächlich mache

Lass mich mit der Praktiker-Perspektive schließen, denn dafür sind die meisten von euch hier.

Von allem, was Google auf der IO 2026 ausgeliefert hat, hier was ich in den nächsten sieben Tagen tatsächlich testen würde, gerankt nach dem, was ich denke, dass es deine tägliche Arbeit beeinflusst:

Führe Gemini 3.5 Flash durch deinen echten agentischen Workflow. Nicht ein Spielzeug-Benchmark. Nimm welche Multi-Step-Agent-Aufgabe auch immer du derzeit auf Claude oder GPT ausführst, portiere sie auf Gemini 3.5 Flash über das Antigravity-Harness und miss Latenz, Recovery-Verhalten und Gesamtkosten pro abgeschlossener Aufgabe. Die 4-fache-Geschwindigkeit-Behauptung ist die am besten testbare Zahl der Keynote. Teste sie.

Installiere Antigravity 2.0 und probiere die parallele Agenten-Orchestrierung. Wenn du bisher sequenzielle Agenten-Ketten ausgeführt hast, ist das Parallel-Modell ein bedeutsam anderes Design-Pattern. Baue etwas Kleines — eine Recherche-Aufgabe mit drei gleichzeitigen Sub-Agenten (Sammeln, Synthetisieren, Formatieren) — und sieh, wie das Trace-Tooling standhält, wenn einer von ihnen scheitert.

Binde SynthID/C2PA-Erkennung in deine Content-Pipeline ein. Wenn du irgendetwas auslieferst, das von Nutzern hochgeladene Medien aufnimmt, ist die AI Content Detection API auf der Agent Platform die wichtigste Infrastrukturankündigung der gesamten Keynote. Sie ist nicht glamourös. Sie ist auch ein Feature, das deine Nutzer und dein Rechtsteam innerhalb eines Jahres interessieren wird. Ich habe das Content-Provenienz-Problem tangential behandelt — dies ist die Antwort.

Zahle nicht für Gemini Spark, bevor du echte Nutzungsdaten gesehen hast. Ich werde es in der Woche testen, in der es in der US-Beta landet. Der Einstiegspreis von 100 Dollar ist eine Wette auf eine Produktkategorie, die noch keine installierte Basis hat. Beobachte unabhängige Reviews. Warte zwei Wochen. Dann entscheide.

Prüfe deine strukturierten Produkt-/Content-Daten, bevor Universal Cart und Intelligente Suche weltweit starten. Sommer 2026 ist näher, als es klingt. Wenn du irgendetwas online verkaufst oder irgendetwas veröffentlichst, das auf Suchtraffic angewiesen ist, liest die Agentenschicht deine strukturierten Daten, nicht deine Marketing-Texte. Stell sicher, dass sie sauber sind.

Überspring die Brille vorerst. Reine Audio-intelligente Brillen werden in der ersten Generation ein Nischenprodukt sein. Herbst 2026 ist der Zeitpunkt, an dem die Kategorie real wird — das ist der Zyklus, den man bewerten sollte, nicht der Launch.

Worum es bei der Keynote wirklich ging

Die einzige Erkenntnis, die ich von Google IO 2026 mitnehmen würde — die, über die ich im nächsten Quartal nachdenken werde — ist, dass die Preisstruktur die ganze Geschichte erzählt.

Wenn ein Unternehmen von Prompt-basierter Preisgestaltung zu Compute-basierter Preisgestaltung wechselt, sagt es dir, dass es erwartet, dass sein durchschnittlicher Nutzer anfängt, Workloads auszuführen, nicht Konversationen. Wenn es den Top-Tier von 250 auf 200 Dollar senkt und einen neuen Tier darunter bei 100 Dollar einführt, sagt es dir, dass die vorherige Preisobergrenze zu hoch war, um die nächste Welle von Nutzern zu rekrutieren. Wenn es einen 24/7-persönlichen Agenten gleichzeitig mit einer Desktop-Anwendung ausliefert, die um Multi-Agenten-Orchestrierung herum gebaut ist, sagt es dir, dass die nächsten zwei Jahre des Wettbewerbs auf der Agentenschicht stattfinden werden, nicht auf der Modellschicht.

Google hat bei IO 2026 keinen smarteren Chatbot ausgeliefert. Sie haben die Infrastruktur für eine Welt ausgeliefert, in der Chatbots nicht mehr das Hauptprodukt sind. Das Modell ist schnell und günstig. Das Harness ist auf Parallelismus ausgelegt. Die Preisgestaltung setzt Hintergrundarbeit voraus. Die Hardware ist ambient. Die Erkennungsschicht geht davon aus, dass synthetische Medien überall sind.

Das ist der Pivot. Und ob du nun irgendetwas mit Googles Stack auslieferst oder nicht, der Rest der Branche wird ihnen in die gleiche Form folgen. Anthropic ist bereits dort. OpenAI bewegt sich. Die Applikationsschicht ist, wo das nächste Jahr des KI-Wettbewerbs entschieden wird, und Google hat gerade erklärt, dass sie es nicht kampflos verlieren werden.

Ich werde ein Deep-Dive über Antigravity 2.0 schreiben, sobald ich ein echtes Projekt damit ausgeliefert habe. Bis dahin ist die Frage, die ich dir mitgeben möchte: Wenn du dir deinen aktuellen KI-Workflow anschaust — deine Prompts, deine Abonnements, deine Tools — wie viel davon geht noch davon aus, dass der Chatbot das Produkt ist? Wenn die Antwort „das meiste" ist, hast du sechs Monate Zeit zum Umbauen, bevor der Rest der Branche zu Googles Perspektive aufschließt.

Die Ära der Agenten hat nicht am 19. Mai 2026 begonnen. Aber das ist das Datum, an dem das größte Softwareunternehmen aufgehört hat, so zu tun, als wäre es anders.

Häufig gestellte Fragen

Was ist Gemini Omni?

Gemini Omni ist Googles neues any-to-any multimodales Modell, das jede Kombination aus Text, Bild, Audio und Video als Eingabe nimmt und jede Kombination als Ausgabe produziert. Omni Flash ist das erste öffentliche Modell auf dem Framework. Jedes von Omni generierte Video trägt Googles SynthID-Wasserzeichen. Für die vollständige Aufschlüsselung siehe den Gemini-Omni-Abschnitt oben.

Wie schnell ist Gemini 3.5 Flash im Vergleich zu anderen Frontier-Modellen?

Gemini 3.5 Flash läuft bei Output-Tokens pro Sekunde etwa viermal schneller als andere Frontier-Modelle und übertrifft dabei Gemini 3.1 Pro in nahezu jedem Benchmark. Es erreichte 76,2% auf Terminal-bench 2.1 und 1656 auf GDPval-AA und wurde gemeinsam mit dem Antigravity-Harness für agentische Workflows optimiert.

Was kostet der neue Google AI Ultra Plan?

Der neue Google AI Ultra Plan beginnt bei 100 Dollar pro Monat und ersetzt den bisherigen 250-Dollar-Top-Tier durch einen 200-Dollar-Tier darüber. Der 100-Dollar-Plan beinhaltet 5-mal höhere Nutzungslimits als AI Pro, 20 Terabyte Cloud-Speicher, YouTube Premium und Beta-Zugang zu Gemini Spark für US-Abonnenten.

Was ist Gemini Spark?

Gemini Spark ist ein 24/7-KI-Agent, der auf Google Cloud VMs im Auftrag eines Nutzers läuft, sich mit MCP (Model Context Protocol) integriert und im Sommer 2026 eine Chrome-Integration erhalten wird. Er wird als Beta für Google AI Ultra-Abonnenten in den USA ab der Woche nach IO 2026 ausgerollt.

Wann starten die Google IO 2026 Features?

Die meisten Consumer-Ankündigungen erscheinen im Sommer 2026 (Docs Live, Universal Cart, Intelligente Suche weltweit, Chrome-Integration für Spark). Die intelligenten Audio-Brillen von Samsung und Qualcomm erscheinen im Herbst 2026. Antigravity 2.0 und Gemini 3.5 Flash sind sofort für Entwickler verfügbar.

Lass uns zusammenarbeiten

Du möchtest KI-Systeme bauen, Workflows automatisieren oder deine technische Infrastruktur skalieren? Ich helfe gerne.

Coffee cup

Hat Ihnen dieser Artikel gefallen?

Ihre Unterstützung hilft mir, mehr tiefgehende technische Inhalte, Open-Source-Tools und kostenlose Ressourcen für die Entwickler-Community zu erstellen.

Verwandte Themen

Engr Mejba Ahmed

Über den Autor

Engr Mejba Ahmed

Engr. Mejba Ahmed builds AI-powered applications and secure cloud systems for businesses worldwide. With 10+ years shipping production software in Laravel, Python, and AWS, he's helped companies automate workflows, reduce infrastructure costs, and scale without security headaches. He writes about practical AI integration, cloud architecture, and developer productivity.

Discussion

Comments

0

No comments yet

Be the first to share your thoughts

Leave a Comment

Your email won't be published

9  x  3  =  ?

Weiter lernen

Verwandte Artikel

Alle anzeigen

Comments

Leave a Comment

Comments are moderated before appearing.

Learning Resources

Expand Your Knowledge

Accelerate your growth with structured courses, verified certificates, interactive flashcards, and production-ready AI agent skills.

Sample Certificate of Completion

Sample certificate — complete any course to earn yours

Engr Mejba Ahmed

Engr Mejba Ahmed

Claude Code Expert · Online

👋

Hey there!

Quick Actions

WhatsApp Instant reply

Chat on WhatsApp

+880 1723 741224 · Instant reply

Popular Questions

Engr Mejba Ahmed is connected
Engr Mejba Ahmed is typing...
Engr Mejba Ahmed avatar

✉ Want me to follow up? Drop your email

Engr Mejba Ahmed avatar

📞 Connect Directly

Choose how you'd like to reach me

WhatsApp

+880 1723 741224

Email

[email protected]

✓ Details sent! I'll get back to you shortly.

Powered by OpenAI

335+

Blog Posts

25

AI Courses

63

Projects

Services & Expertise

Pricing & Process

Learning & Resources

Connect & Support