AI Roundup 9. Mai 2026: Der Wettlauf vom Chatbot zum OS läuft

Freitagmorgen, 6:41 Uhr. Ich hatte vier Browserfenster geöffnet und einen halbfertigen Streit im Kopf.

Codex führte auf meinem linken Monitor eine autonome Aufgabe in Chrome aus – Salesforce öffnen, eine Kontaktliste durchsuchen, Kontaktaufnahme entwerfen. Ich hatte die Tastatur seit elf Minuten nicht berührt. Rechts baute Claude Cowork ein Comp-Modell für die Q2-Berichterstattung einer meiner Marken auf und zog FactSet-Daten über einen Connector, der letzte Woche noch nicht existierte. In der Ecke durchsuchte Grok meinen Notion-Arbeitsbereich auf der Suche nach einem Entwurf, an den ich mich halb erinnerte, ihn im Februar geschrieben zu haben. Und im Hintergrund brannte irgendwo in einem Tab, den ich vergessen hatte, ein durchgesickerter Gerichtstextaustausch zwischen Sam Altman und Mira Murati über X.

So sieht diese AI-Zusammenfassung vom 9. Mai 2026 aus meinem Arbeitsablauf aus: vier Labore, vier völlig unterschiedliche Wetten, die alle auf die gleiche Produktform konvergieren. Die Chatbox stirbt. Die Bedienoberfläche entsteht. Und fast niemand stellt die Frage, auf die es wirklich ankommt – nämlich, ob die Sache, die sie ersetzt, bei den Menschen, deren Arbeit sie ersetzt, irgendeine Legitimität hat.

Das ist es, was ich verfolge, was der Presse meiner Meinung nach fehlt und was ich bis Montag dagegen unternehme.

Wenn Sie einen Kontext dazu benötigen, wie ich Wochen wie diese normalerweise einteile, gibt meine Signal-Rausch-Aufschlüsselung der Startflut im April den Rahmen vor.

Die These: Drei Unternehmen haben einfach aufgehört, so zu tun, als ob es hier um Chatbots ginge

In einem schnelllebigen Markt, in dem jeder Spieler immer wieder die gleiche Art von Funktion im gleichen Rhythmus veröffentlicht, passiert etwas, und von außen sieht es chaotisch aus, aber wenn man genau hinschaut, ist der eigentliche Zug eine große synchronisierte Abweichung.

Das war diese Woche.

OpenAI hat eine Chrome-Erweiterung geliefert, mit der Codex Salesforce-, Gmail- und LinkedIn-Workflows in einer separaten Browserinstanz ausführen kann, die der Agent besitzt. Google, das von der Seitenlinie aus zusah, begann ohne Ankündigung mit dem Feldtest von Gemini 3.2 Flash in iOS. xAI hat Grok-Konnektoren live im Web, iOS und Android eingeführt und in einer Ankündigung eine Verbindung zu Gmail, Drive, Docs, Sheets, Calendar, Notion, GitHub und Linear hergestellt. Und Anthropic – das, wie ich immer mehr davon überzeugt bin, das intelligenteste Langzeitspiel der vier spielt – lieferte zehn einsatzbereite Vorlagen für Finanzdienstleistungsagenten aus, die Claude zu etwas machen, das näher an der Workstation eines Analysten als an einem Chatbot ist.

Vier Unternehmen. Eine Richtung. Hören Sie auf zu versuchen, die Chatbox zu gewinnen. Versuchen Sie, die operative Ebene für die Wissensarbeit zu sein.

Der Grund dafür ist nachgelagert. Wenn Sie Marken betreiben, Code versenden, Inhalte schreiben, ein kleines Team leiten – all das, was ich auf meinen vier Websites mache – sind Ihre Annahmen darüber, wie AI in Ihrer Woche angezeigt wird, bereits überholt. Vor drei Monaten bedeutete „AI agent“ „Ich öffne einen Tab und gebe eine Eingabeaufforderung ein.“ Diese Woche heißt es: „Ein Agent lief vierzig Minuten lang in einer Browserinstanz, die ich nicht sehen kann, griff über meine Anmeldesitzung auf drei SaaS-Tools zu und postete das Ergebnis auf Slack, während ich im Fitnessstudio war.“ Das ist ein anderes Produkt. Es verdient ein anderes mentales Modell.

Der Rest dieses Beitrags besteht darin, herauszufinden, welche dieser Wetten real sind, welche gehänselt werden, welche überbewertet werden und welche eine stille Ankündigung aus Peking wichtiger sein könnte als alle vier zusammen.

Lass es mich dir zeigen.

Codex ist gerade ein Browser geworden

Ich habe darauf gewartet, dass Codex die Browser-Registerkarten im Hintergrund steuert, seit der Befehl /goal in Version 0.128.0 ausgeliefert wurde. Endlich ist es passiert.

Am 7. Mai 2026 hat OpenAI die Chrome-Erweiterung Codex für macOS und Windows gestartet. Es handelt sich nicht um eine Tab-Übernahme. Es handelt sich um eine separate Chrome-Instanz, die der Agent besitzt, mit eigenen Registerkartengruppen, eigenem DevTools-Zugriff und eigener Möglichkeit, Ihre angemeldeten Sitzungen auf Websites wie Salesforce, Gmail, LinkedIn und jedem internen Tool mit einer Browseroberfläche zu verwenden. Du arbeitest weiter. Der Agent arbeitet parallel.

Kombinieren Sie das mit dem In-App-Browser, mehreren Terminal-Registerkarten, SSH-Verbindungen zu Remote-Devboxen (in Alpha) und Chrome DevTools-Integration, die im selben Update gelandet sind, und das Bild wird schnell schärfer. Codex ist kein Codierungsagent mehr. Es ist ein Codierungsagent plus ein Browser plus eine Remote-Shell plus ein langlebiges Zielsystem.

Nach OpenAIs eigenen Zahlen hat Codex inzwischen mehr als 4 Millionen wöchentlich aktive Nutzer - ein 8-faches Wachstum seit Anfang 2026. Dieses Wachstum kommt nicht daher, dass das Modell besser geworden ist. Es kommt daher, dass die Oberfläche größer geworden ist. Menschen nutzen Codex für Arbeit, die nichts mit Code zu tun hat - Outreach-Kampagnen, Research-Scrapes, Dashboard-Updates, Spesenberichte -, weil der Agent endlich die Tools erreichen kann, in denen diese Arbeit stattfindet.

Was ich diese Woche getestet habe. Ich habe Codex drei echte Jobs gegeben.

Aufgabe eins: Jede bezahlte Rechnung der letzten 90 Tage aus meinem Stripe-Dashboard abrufen, mit der erwarteten MRR-Prognose in einer Google-Tabelle vergleichen und die Lücken kennzeichnen. Verstrichene Zeit: 22 Minuten. Es hatte etwa achtzig Prozent des Weges geschafft, bevor ich auf eine Stripe-Erlaubnisaufforderung traf, die ich klären musste, und dann war es fertig. Die Ausgabe war korrekt.

Aufgabe zwei: Lesen Sie die letzten vierzehn Tage meiner Substack-Analyse, ermitteln Sie, welche Beiträge den letzten 90-Tage-Median übertreffen, entwerfen Sie einen Twitter-Thread, in dem Sie die Top Drei mit Zitaten aus den Beiträgen necken. Verstrichene Zeit: 11 Minuten. Die Qualität des Entwurfs war besser als die Version, die ich geschrieben hätte, was ein wenig demütigend ist.

Aufgabe drei: Öffnen Sie Salesforce, finden Sie jeden Kontakt mit dem Tag „Warm Lead Q1 2026“, der seit mehr als 30 Tagen keinen Kontakt mehr hatte, und entwerfen Sie personalisierte E-Mails zur Wiedereingliederung, die auf den letzten Konversationsthread verweisen. Auf dieses hier habe ich gebabysittet. Es hat funktioniert. Ich hätte die E-Mails nicht verschickt, ohne sie gelesen zu haben, aber die Entwurfsebene war echt.

Die ehrliche Einschätzung. Die Chrome-Erweiterung ist das Nützlichste, was OpenAI im Jahr 2026 ausgeliefert hat. Sie ist auch das Gefährlichste, da der Fehlermodus „Agent mit Ihrer Salesforce-Sitzung“ viel schlimmer ist als „Agent, der ein Code-Snippet falsch erhält“. Ich leite es. Ich lese auch das Prüfprotokoll aller durchgeführten Maßnahmen, bevor ich zulasse, dass etwas berührt wird, das Geld kostet oder auf dem der Name eines Kunden steht.

Dann ist da noch die Stimme, die OpenAI in derselben Woche still und leise in eine eigene Agentenoberfläche verwandelte.

GPT-Realtime-2 ist die Sprachebene, die die meisten Entwickler ignorieren werden (und auch nicht sollten)

Am 7. Mai 2026 lieferte OpenAI GPT-Realtime-2 aus, sein erstes Sprachmodell mit dem, was das Unternehmen „GPT-5-Klassenschlussfolgerung“ nennt – was bedeutet, dass das Modell während des Gesprächs eine mehrstufige Anfrage durchdenken kann, während der Audiostream live bleibt.

Die Schlagzeilen. Das Kontextfenster stieg von 32 KB auf 128 KB, was längere Sitzungen und komplexere Agentenabläufe ohne externes State-Stitching bedeutet. Das Modell kann mehrere Tools parallel aufrufen und erzählen, was es tut – „Ihren Kalender überprüfen, das jetzt nachschlagen“ –, während die Arbeit im Hintergrund stattfindet. Der Preis beträgt 32 US-Dollar pro Million Audio-Eingabe-Tokens und 64 US-Dollar pro Million Audio-Ausgabe-Tokens, wobei die zwischengespeicherten Eingaben auf 0,40 US-Dollar pro Million sinken.

OpenAI hat zwei Begleiter mitgeliefert. GPT-Realtime-Translate verarbeitet über 70 Eingabesprachen in 13 Ausgabesprachen für 0,034 $ pro Minute. GPT-Realtime-Whisper überträgt Sprache-zu-Text live für 0,017 $ pro Minute. Ich habe das Übersetzungsmodell und seine Funktionsweise für grenzüberschreitende Sprachagenten Anfang dieser Woche behandelt, aber die meisten App-Entwickler werden das Realtime-2-Basismodell zu schnell verwerfen.

Das sagt niemand laut. „Voice“ ist die nächste Form des Chat-Box-Sterbens. Die meisten AI-Produkte, die ich heute für meine Marken betreibe, sind getippte Gespräche. Das wird in achtzehn Monaten genauso urig aussehen wie IRC heute. Realtime-2 ist das erste Sprachmodell, bei dem die Latenz niedrig genug, die Argumentation tief genug und der Tool-Aufruf zuverlässig genug ist, dass ein Kleinunternehmer ohne Programmierkenntnisse tatsächlich einen Sprachsupport-Agenten auf seiner Website betreiben könnte, ohne dass es wie ein Roboter klingt, der ein Skript liest.

Genau das baue ich diesen Monat für eine meiner Marken auf. Die Wette besteht nicht darin, dass Sprache den Text ersetzt – es geht darum, dass Sprache, Text und Hintergrund-Browseragenten in einer Assistentenoberfläche zusammengefasst werden und derjenige, der auf der Sprachseite die Latenzuntergrenze besitzt, die Oberfläche gewinnt.

OpenAI hat gerade ein echtes Gebot für diese Etage abgegeben.

Anthropics Gegenzug: Tiefe statt Breite

Während OpenAI die Alles-App entwickelte, lieferte Anthropic fast genau das Gegenteil. Und ich denke, es könnte die klügere Wahl sein.

Am 5. Mai 2026 veröffentlichte Anthropic zehn sofort einsatzbereite AI-Agentenvorlagen für Finanzdienstleistungen, verfügbar als Plugins in Claude Cowork und Claude Code sowie als Kochbücher für Claude Managed Agents. Die Liste ist in einer Weise spezifisch, die wichtig ist: ein Pitch-Builder, ein Meeting-Vorbereitungstool, ein Ergebnisprüfer, ein Finanzmodell-Builder, eine Engine für vergleichbare Unternehmen, ein Hauptbuchabgleich, ein Monatsabschluss, ein Abschlussprüfer, ein KYC-Screener und ein Eskalationsbearbeiter.

Das ist kein horizontales Produktspiel. Das ist eine Vertikale, vollständig abgedeckt.

Auf der Datenseite liegt der entscheidende Punkt. Die Anthropic Finance Agents-Ankündigung listet Connector-Partner in FactSet, S&P Capital IQ, MSCI, PitchBook, Morningstar, Chronograph, LSEG, Daloopa sowie neuere Ergänzungen wie Dun & Bradstreet, Fiscal AI, Financial Modeling Prep, Guidepoint, IBISWorld, SS&C IntraLinks, Third Bridge und auf Verisk. Moody's hat eine separate MCP-App eingeführt, die proprietäre Bonitätsbewertungen und Daten von mehr als 600 Millionen öffentlichen und privaten Unternehmen anzeigt. Und in derselben Woche wurde Era [der erste persönliche Finanzkonnektor im Claude-Verzeichnis] (https://ca.finance.yahoo.com/news/era-becomes-first-personal-finance-140000473.html), basierend auf dem offenen MCP-Protokoll.

Ich betreibe keinen Hedgefonds. Nichts davon trifft direkt auf meine Arbeit zu. Warum komme ich dann immer wieder darauf zurück?

Denn die Strategie ist der Teil, der skaliert. Anthropic versucht nicht, alles zu sein. Sie wählen eine Branche aus, sind Eigentümer der Datenpartnerschaften, erstellen die Vorlagen und lassen den Agenten zum intelligentesten Analysten in diesem einen bestimmten Bereich werden. Wenn sie im nächsten Quartal ein ähnliches Paket für die Rechtsabteilung, danach für das Gesundheitswesen und danach für die Fertigung ausliefern – jedes Paket mit seinem eigenen Konnektor-Ökosystem, seinen eigenen Vorlagen, seinen eigenen vertikalen Eingabeaufforderungen – erhalten sie am Ende eine Tiefe, mit der horizontale Akteure nicht mithalten können.

Die Druckmaschine AI betrachtet diese als Unternehmensgewinne für den Umsatz. Ich denke, sie sind etwas anderes. Ich denke, Anthropic hat gerade das Spielbuch veröffentlicht, wie ein Pioniermodellunternehmen einen Generalisten schlägt, indem es eng und tief in eine Branche nach der anderen vordringt. Beobachten Sie, welche Vertikale sie als nächstes treffen. Was auch immer es ist, es wird Ihnen sagen, wo der zweite Graben beginnt.

Wenn Sie für eine bestimmte Branche bauen – und die meisten von uns tun das, auch wenn wir es nicht bemerken – ist dies die Strukturvorlage, die es wert ist, kopiert zu werden. Wählen Sie eine Vertikale aus. Konnektoren bauen. Versenden Sie die Vorlagen. Lassen Sie das Modell intelligent sein, aber lassen Sie die Daten und Arbeitsabläufe spezifisch sein.

Apropos Wassergräben: Eine einzige stille Ankündigung aus Peking könnte sie alle zerstören.

Die wahre Geschichte, über die niemand Schlagzeilen macht: ERNIE 5.1 mit 6 % der Schulungskosten

Wenn ich die folgenreichste Ankündigung der Woche auswählen müsste – diejenige, die die Kostenkurve für die nächsten achtzehn Monate am wahrscheinlichsten verändern wird –, wäre es nicht Codex Chrome und es wäre nicht Claude Finanzagenten. Es wäre eine Modellveröffentlichung aus Baidu, über die die englischsprachige Presse nur zur Hälfte berichtete und die sie dann am Dienstag wieder vergaß.

ERNIE 5.1 Preview gestartet am 30. April 2026. Innerhalb von fünf Tagen kletterte es mit einem Elo von 1.476 auf Platz 13 der Text Arena-Bestenliste von LMArena und belegte Platz 1 unter allen chinesischen AI-Modellen, Platz 1 weltweit in den Kategorien Recht und Regierung, Platz 4 in Unternehmensführung und Finanzbetrieb und Platz 7 in Software und IT-Services.

Diese Zahlen sind gut. Sie sind nicht die Geschichte.

Die Geschichte liegt in der Parametermathematik. ERNIE 5.1 komprimierte die Gesamtparameter auf etwa ein Drittel und die aktiven Parameter auf etwa die Hälfte von ERNIE 5.0. Und es erzielte die führende Basisleistung auf seiner Modellebene mit etwa 6 % der Kosten vor dem Training vergleichbarer Modelle. Sechs Prozent. Nicht sechzig. Sechs.

Wenn Sie ein Bauunternehmer sind, sollte Sie diese Zahl aufhorchen lassen.

Hier erfahren Sie, warum. Die vorherrschende Annahme, die in jede Bewertung eines Grenzlabors, jeden GPU-Vertrag, jeden Ausbau eines Rechenzentrums eingeflossen ist – Stargate, die 500-Milliarden-Dollar-Zusage von Microsoft, die neuen Coreweave-Einrichtungen – ist, dass Grenzfähigkeit Grenzverarbeitung erfordert und Grenzverarbeitung Grenzkapital erfordert. Das ist der Graben. Das ist die Gating-Funktion. Das ist es, was Anthropic und OpenAI sowie Google ihre Preissetzungsmacht verleiht.

Eine Behauptung von 6 % der Vorschulungskosten, wenn man sie verallgemeinert – und das ist ein echtes Wenn –, macht diese Annahme zunichte. Das bedeutet, dass ein kompetent finanziertes Labor in jedem Land erstklassige Textfunktionen für weniger als das Marketingbudget einer einzelnen Super-Bowl-Werbung liefern kann. Das bedeutet, dass die Kosten für Textintelligenz schnell sinken. Das bedeutet, dass der Wassergraben an der Modellschicht undicht ist.

Was das für nachgelagerte Bauherren bedeutet. Ich betreibe kein Modeltraining. Die meisten von Ihnen auch nicht. Aber die Kostenkurve am unteren Ende des Stapels bestimmt die API-Preise in der Mitte des Stapels, die wiederum die Einheitsökonomie am oberen Ende des Stapels bestimmt – dort, wo ich und die meisten von Ihnen leben. Wenn sich Effizienztechniken im ERNIE-Stil in den nächsten zwei Quartalen in der Open-Source-Community verbreiten (und basierend auf dem, was passiert ist, nachdem DeepSeek-V4 Pro im letzten Quartal unter MIT-Lizenz ausgeliefert wurde, gehe ich davon aus, dass dies der Fall sein wird), sinkt die Preis-pro-Million-Token-Kurve um eine weitere Größenordnung.

Das ist die Geschichte, die ich verfolge. Nicht „wer diese Woche die beste Demo verschickt hat.“ Wer beugt die Kostenkurve am schnellsten?

Wenn Sie auf der Anwendungsebene bauen – Apps, Agenten, Content-Systeme, Automatisierungen – lautet Ihre strategische Frage nicht mehr „Auf welches Modell setze ich?“, sondern lautet stattdessen: „Welche Architektur baue ich auf, die alle neun Monate einen 10-fachen Preisverfall des zugrunde liegenden Modells übersteht.“ Das ist eine andere Frage mit einer anderen Antwort.

Nun zu dem Modell, das möglicherweise stillschweigend an Boden verliert.

Geminis seltsame Woche und was zu tun ist, wenn ein Modell, auf das Sie angewiesen sind, abweicht

Diese Woche tauchten Berichte auf, dass Gemini 3 Pro und das unveröffentlichte 3.5 Pro „stark abgeschwächt“ wurden – weniger Follow-throughs bei langen Kontexten, schwächere First-Pass-Codegenerierung, Regressionen bei Argumentationsketten, die vor einem Monat funktionierten. Ob es sich bei diesen Berichten um echte Messungen oder um Benutzerlärm handelt, ist wirklich unklar. Der Community-Thread im Gemini Apps-Supportforum ist voller Beschwerden, und mindestens eine glaubwürdige Stimme auf

Fügen Sie dazu Googles Sunset of Gemini 3 Pro Preview vom 9. März 2026 hinzu – nur vier Monate nach der Einführung des Modells – und Sie haben ein Muster. Modelllebenszyklen werden jetzt in Wochen gemessen. Das Upgrade-Laufband ist echt. Bauherren, die sich Ende 2025 für Gemini für Produktionsabläufe entschieden haben, mussten bereits zweimal migrieren.

Währenddessen tauchte Gemini 3.2 Flash am 5. Mai 2026 still in der iOS-App und in AI Studio auf - ohne Pressemitteilung, aber mit Stärken bei SVG-Generierung, Coding und Animation. Ich habe das Stealth-Upgrade-Muster von Gemini 3 Flash bereits früher in diesem Quartal behandelt, und das Playbook ist identisch. Googles Strategie ist eindeutig der Druck über die günstige, schnelle Tier - nicht die Dominanz über das Premium-Flaggschiff.

Die Lektion für Bauherren ist die, die ich 2025 auf die harte Tour gelernt habe: Verlassen Sie sich nie auf ein einziges Modell für einen Arbeitsablauf, der zuverlässig über ein Quartal hinweg erfolgen muss. Erstellen Sie Ihren Agentenstapel so, dass das Modell eine austauschbare Variable ist. Befestigen Sie Ihre Eingabeaufforderungen am Verhalten und nicht an einem bestimmten Modellnamen. Führen Sie dieselbe Evaluierungssuite für jede neue Version aus, die in Ihrem Stapel landet, damit Sie Regressionen erkennen, bevor Ihre Kunden sie bemerken.

Wenn Gemini 3.1 Pro diese Woche nicht funktioniert, wechseln Sie zu Opus 4.7 oder Sonnet 4.8 und versenden Sie weiter. Wenn Sonnet abweicht, wechseln Sie zu GPT-5.5. Das Modell ist jetzt ein Rohstoff-Input. Behandle es so.

Grok wird zur Produktivitäts-App

xAI hat diese Woche seine Konnektoren ausgeliefert, und oberflächlich betrachtet sieht es wie eine sauberere Version dessen aus, was Codex und Cowork bereits tun. Connectors wurden am 6. Mai 2026 in Betrieb genommen für Web, iOS und Android, mit Anbindung an Google Workspace (Gmail, Drive, Docs, Sheets, Calendar), Notion, GitHub, Linear und jeden benutzerdefinierten Model Context Protocol-Server über „Bring Your Own MCP“.

Ich habe es zwei Tage lang getestet. Der UX ist glatter als ich erwartet hatte. Die Latenz ist gut. Die Möglichkeit, einen benutzerdefinierten MCP-Server in Grok einzufügen und ihn einfach zum Laufen zu bringen, ist wirklich beeindruckend – ich habe einen internen MCP angeschlossen, den ich für eine meiner Agenturen erstellt habe, und Grok hat ihn ohne Reibungsverluste bei der Konfiguration gehandhabt.

Aber hier ist meine ehrliche Meinung. Grok folgt, nicht führt. Jeder Connector auf der Liste wird in Cowork oder Codex oder beiden geliefert. Das einzige Unterscheidungsmerkmal – Grok ist im Haupt-Feed von Die meisten von uns versuchen nicht, mit der X-Viralität zu gewinnen. Wir versuchen zu versenden.

Wenn Sie bereits in X leben, sind Grok-Anschlüsse eine Verbesserung der Lebensqualität. Wenn Sie dies nicht tun, ist dies nicht die Woche für die Migration. Sehen Sie sich an, was xAI im nächsten Quartal macht – wenn sie etwas ausliefern, was Codex und Cowork nicht haben, ändert sich die Berechnung.

Im Moment ist meine Grok-Nutzung unverändert. Ich halte es für einen bestimmten Job offen (kostengünstige Recherche mit Webzugriff), und der Rest meiner Arbeit läuft auf Claude Code und Codex. Ihr Stack sollte widerspiegeln, was jedes Tool am besten kann und nicht, was neu ist.

Ich habe in der Zusammenfassung des letzten Monats behandelt, wo Grok tatsächlich in einen Multi-Agenten-Stack passt, und die Antwort in diesem Monat ist dieselbe. Es ist ein nützliches Nebenwerkzeug, keine primäre Oberfläche.

Die zwei Geschichten, die die AI-Presse untergewichtet

Ich möchte den Rest dieses Beitrags den beiden Geschichten widmen, die es nicht auf die Titelseite geschafft haben, aber das nächste Jahr in dieser Woche mehr als alles andere prägen könnten.

Geschichte eins: Die Gerichtstexte von Mira Murati und was sie tatsächlich bedeuten

Diese Woche wurde im laufenden Prozess Musk gegen Altman ein Textaustausch zwischen Sam Altman und Mira Murati aus der Nacht vom 19. November 2023 zu Protokoll gegeben. Altman, der zwei Tage zuvor frisch vom OpenAI-Vorstand entlassen worden war, pingte Murati an – der an der Vorstandssitzung teilnahm, die über die Ernennung von Emmett Shear als Ersatz-CEO entscheiden sollte –, um Insiderinformationen zu erhalten.

Seine Botschaft: „Können Sie die Richtung gut oder schlecht angeben?“

Ihre Antwort: „Richtungsmäßig sehr schlecht.“

Innerhalb weniger Stunden hatte Altman die Petition organisiert, die 600 OpenAI-Mitarbeiter unterzeichnet hatten, und drohte damit, massenhaft zu Microsoft überzulaufen. Innerhalb weniger Tage wurde er wieder installiert. Innerhalb weniger Wochen waren die Vorstandsmitglieder, die für seine Absetzung gestimmt hatten, verschwunden.

Die neue Enthüllung, die den Leak dieser Woche bedeutungsvoll und nicht nur historisch macht, ist die Berichterstattung, dass Murati wichtige Informationen – Screenshots, Dokumentation von Textnachrichten, Vorwürfe von Missmanagement – an Mitbegründer Ilya Sutskever weitergeleitet hatte, der sie in das 52-seitige Memo einbaute, die die ursprüngliche Aktion des Vorstands auslöste.

Sie war nicht nur die CTO. Sie war eine Hauptzeugin im Verfahren gegen ihn.

Warum das jetzt wichtig ist. Murati verließ OpenAI im September 2024, um Thinking Machines Lab zu gründen, das eine 2-Milliarden-Dollar-Seed-Runde aufnahm, aber im Januar 2026 drei Mitbegründer an OpenAI verlor. Die Lesart, auf die ich immer wieder zurückkomme, ist, dass die gesamte AI-Führungsebene in einen Krieg um denselben schrumpfenden Talentpool verwickelt ist Eine rechtssichere Spur darüber, wer im November 2023 was zu wem gesagt hat, wird in den nächsten achtzehn Monaten weiterhin in Gerichtssälen und Pressezyklen auftauchen.

Für Bauherren ist die Lektion kein Klatsch. Es ist Governance. Die Unternehmen, auf die Sie für die grundlegende Infrastruktur angewiesen sind, werden von Personen geführt, deren private Textnachrichten von vor drei Jahren jetzt als Beweismittel erfasst werden. Das ist eine Erinnerung daran, Ihr Unternehmen niemals auf einen einzigen API zu setzen. Ihr Stapel sollte die Implosion eines dieser Labore überstehen. Bauen Sie entsprechend.

Geschichte zwei: Die Anti-Clanker-Gegenreaktion wird zum Mainstream

Die andere Geschichte, die nicht genug Beachtung fand. Die Beleidigung „Clanker“ – ursprünglich ein Star-Wars-Begriff, der heute als abfällige Bezeichnung für AI und Roboter verwendet wird auf TikTok,

Die Zahlen aus NBCs Berichterstattung und Substack-verfolgten Vorfallprotokollen: Die dokumentierten Anti-Roboter-Vorfälle sind von 16 Großereignissen im Jahr 2023 auf über 40 im Jahr 2026 eskaliert. In San Francisco und London finden reale Kundgebungen statt. Die Lieferroboter von Starship Technologies wurden seit März in Sheffield, Großbritannien systematisch zerstört, wobei Angreifer Maschinen besprühten und Identifikationsstangen verbogen.

Die Umfragewerte der Bewegung sind der Teil, der jeden Gründer in diesem Bereich beunruhigen sollte. Ein Ernst & Young-Bericht vom Juli 2025 ergab, dass 42 % der europäischen Arbeitnehmer befürchten, dass der Arbeitsplatz ihre Arbeitsplätze gefährdet. Eine Gartner-Umfrage ergab, dass 64 % der Kunden es vorziehen, wenn Unternehmen AI nicht für den Kundenservice nutzen, und 53 % würden zu einem Konkurrenten wechseln, der dies nicht tut.

Das ist die Einwilligungslücke. Die Leistungsfähigkeit schreitet voran. Der kulturelle und politische Konsens hinkt hinterher – und die Kluft ist mittlerweile so groß, dass die Ressentiments ihren eigenen Slang, ihre eigenen Straßenkundgebungen und ihre eigenen Angriffsmuster haben.

Der Imbiss für Bauherren. Wenn Ihr Produkt „AI-powered“ ist und Sie auf der Titelseite damit prahlen, befinden Sie sich derzeit auf der falschen Seite der kulturellen Kurve. Die Unternehmen, die in den nächsten 24 Monaten gewinnen werden, sind diejenigen, die offensichtlich nützliche und stillschweigend AI-gesteuerte Produkte liefern, nicht diejenigen, die mit „jetzt powered by GPT-5.5“ führend sind. Sehen Sie sich diese Woche an, wie Anthropic seine Finanzagenten positioniert hat – die Botschaft lautet: „Ihr Team kann jetzt X schneller erledigen.“ Nicht „AI ersetzt Ihren Analysten.“ Diese Formulierung ist kein Zufall. Es ist der einzige erhaltene Rahmen.

Mit dieser Lektion im Hinterkopf ändere ich an diesem Wochenende zwei Produktseiten um. Ich würde vorschlagen, dass Sie Ihre Prüfung prüfen.

Was ich diese Woche als Bauunternehmer tatsächlich mache

Dies ist der Abschnitt, der die Existenz dieses Beitrags rechtfertigen sollte. Fünf konkrete Schritte, die ich bis Montag vornehme, basierend auf dem, was diese Woche verschickt wurde.

Erstens: Ich verschiebe meinen E-Mail-Triage- und Outreach-Entwurfsworkflow auf die Chrome-Erweiterung Codex. Der 22-minütige Stripe-and-MRR-Job war der Beweis dafür. Ich werde dies auf einem Chrome-Profil mit Sandbox ausführen, ohne dass Zahlungsanmeldeinformationen gespeichert sind, und ich werde jedes Prüfprotokoll lesen, bevor ich dem Agenten alles anvertraue, was einen Kunden berührt. Ich gehe davon aus, dass ich innerhalb eines Monats vier bis sechs Stunden pro Woche einsparen kann.

Zweitens: Ich baue einen Sprachagenten auf GPT-Realtime-2 für eine meiner Marken auf. Der 128K-Kontext plus parallele Tool-Aufrufe sind der Schwellenwert, auf den ich gewartet habe. Ich werde es mit einem MCP kombinieren, der das CRM, den Kalender und Stripe der Marke unterstützt. Ziel: Voice-First-Buchung und Support für Kunden, die Formulare hassen. Budget: 200 $ in API Ausgaben für den Test, beenden Sie ihn, wenn die Anrufqualität nicht akzeptabel ist.

Dritten: Ich migriere KEINE mejba.me-Automatisierungen auf Grok-Konnektoren. Die Konnektoren sind nett. Sie sind nicht besser als das, was ich bereits auf Claude Code mit benutzerdefinierten MCP-Servern habe, die ich im letzten Quartal erstellt habe. Die Migrationskosten sind eine Verbesserung um 5 % nicht wert.

Viertens: Ich führe den Anthropic Finance-Agent-Vorlagenstapel für den Rest des Monats Mai mit der Buchhaltung meiner eigenen Marken durch. Nicht, weil ich einen Hedgefonds betreibe. Weil ich sehen möchte, ob ein vertikales Agentenpaket einen Generalisten in einem strukturierten Workflow übertrifft, der tatsächlich zu meinen Markenabläufen passt. Wenn ja, kopiere ich das Template-Pack-Muster für die Inhaltserstellung, meine eigentliche Kernkompetenz.

Fünftens: Ich schreibe die Titelseite von zwei Produktseiten um, um jeden „AI-powered“-Anspruch zu entfernen. Führen Sie mit dem Ergebnis. Begraben Sie die Technologie. Lassen Sie die Arbeit sprechen.

Wenn Sie eine Sache aus diesem gesamten Beitrag übernehmen, dann nehmen Sie die fünfte. Der Markt verändert sich. Die Labore streben nach einem OS-förmigen Produkt. Die Kostenuntergrenze bricht zusammen. Der kulturelle Konsens bröckelt. In diesem Umfeld gewinnen die Gründer, die Werte liefern, die die Menschen spüren und darüber schweigen können, wie sie geschaffen werden.

Das ist es, was ich verfolge. Das ändert sich am Montag. Bis nächste Woche.

Häufig gestellte Fragen

Was ist die wichtigste AI-Ankündigung aus der Woche vom 9. Mai 2026?

Die einflussreichste Veröffentlichung war Baidus ERNIE 5.1, das auf seiner Modellebene eine führende grundlegende Leistung erzielte und dabei etwa 6 % der Vortrainingskosten vergleichbarer Modelle verbrauchte. Es startete am 30. April und kletterte innerhalb einer Woche auf Platz 13 in der Text Arena von LMArena. Die Kostenkomprimierung ist wichtiger als jede einzelne Modelldemo, da sie signalisiert, wohin sich die Preis-pro-Token-Untergrenze in der gesamten Branche entwickelt.

Ist die Verwendung der Chrome-Erweiterung Codex sicher?

Die Chrome-Erweiterung Codex ist technisch sicher, aber betrieblich riskant. Es läuft in einer separaten Chrome-Instanz, die dem Agenten gehört, mit Prüfprotokollen für jede Aktion, kann aber Ihre angemeldeten Sitzungen bei Salesforce, Gmail, LinkedIn und ähnlichen Tools verwenden. Führen Sie es in einem dedizierten Browserprofil aus, speichern Sie niemals Zahlungsanmeldeinformationen in diesem Profil und überprüfen Sie das Prüfprotokoll, bevor Sie ihm kundenbezogene Daten anvertrauen.

Was ist GPT-Realtime-2 und sollte ich damit bauen?

GPT-Realtime-2 ist das Sprachmodell von OpenAI mit Argumentation der GPT-5-Klasse, einem 128K-Kontextfenster und parallelem Tool-Aufruf für 32 US-Dollar pro Million Audio-Eingabe-Tokens und 64 US-Dollar pro Million Audio-Ausgabe-Tokens. Es ist das erste Sprachmodell, bei dem Latenz, Argumentationstiefe und Werkzeugzuverlässigkeit gleichzeitig Produktionsschwellen erreichen. Bauen Sie jetzt darauf auf, wenn die Stimme für Ihr Produkt von zentraler Bedeutung ist. Wenn nicht, beobachten Sie die Preiskurve bis zum dritten Quartal, bevor Sie sich verpflichten.

Wurde Gemini 3 Pro im Mai 2026 wirklich abgeschwächt?

Berichte über eine verminderte Leistung von Gemini 3 Pro kursierten diese Woche weithin, wobei mehrere Benutzer von Ob dies eine tatsächliche RLHF-Tuning-Runde oder eine Drift der Benutzerwahrnehmung widerspiegelt, ist unklar. In jedem Fall ist die Lektion dieselbe: Verlassen Sie sich bei Produktionsabläufen niemals auf ein einziges Modell. Erstellen Sie Ihren Stack so, dass das Modell eine austauschbare Variable ist.

Was bedeutet die Einführung des Finanzdienstleistungsagenten von Anthropic für Bauträger außerhalb des Finanzsektors?

Anthropic lieferte zehn gebrauchsfertige Vorlagen für Finanzdienstleistungsagenten mit umfassenden Datenpartner-Anbindungen (FactSet, S&P Capital IQ, MSCI, Morningstar, Moody's und mehr). Die strategische Vorlage – wählen Sie eine Branche aus, besitzen Sie die Datenpartnerschaften, liefern Sie branchenspezifische Vorlagen – ist wichtiger als die Ankündigung selbst. Erwarten Sie, dass Anthropic dieses Muster in den nächsten beiden Quartalen in den Bereichen Recht, Gesundheitswesen und Fertigung wiederholen wird.

Lasst uns zusammenarbeiten

Möchten Sie AI-Systeme aufbauen, Arbeitsabläufe automatisieren oder Ihre technische Infrastruktur skalieren? Ich würde gerne helfen.

Fiverr (benutzerdefinierte Builds und Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Unternehmenslösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io

AI Roundup 9. Mai 2026: Der Wettlauf vom Chatbot zum OS läuft