Claude Code-Limits verdoppelt: was SpaceX-Compute bedeutet
Ich wollte gerade mit dem Schreiben dieses Beitrags beginnen, als mir in meiner Claude Code-Sitzung etwas Seltsames auffiel. Es war 9:47 Uhr an einem Mittwoch – genau der Zeitpunkt des Tages, an dem meine Agentenpipeline normalerweise schleift. Spitzenzeiten. Das Zeitfenster, in dem ich schon vor langer Zeit akzeptiert hatte, dass mein Fünf-Stunden-Budget auf etwas mehr als dreieinhalb Stunden ausgeweitet werden würde. Ich würde meine Sitzung präventiv in zwei Terminals aufteilen, eines, das Long-Context-Refactoring auf Opus ausführt, und eines, das kleinere Agentenaufgaben auf Sonnet ausführt, beide auf einen Crawl gedrosselt.
Dieses Mal wurde nichts gedrosselt. Aufgaben, die ich auf der langsamen Spur in der Warteschlange angestellt hatte, wurden mit voller Geschwindigkeit erledigt. Um 10:30 Uhr hatte ich getan, was normalerweise bis zur Mittagszeit dauern würde. Ich ging zurück zum Terminal, führte meine Nutzungsprüfung durch und sah dort die neue Decke stehen. Ungefähr doppelt so viel wie am Dienstag.
Folgendes hat sich geändert: Am 6. Mai 2026, am ersten Tag der ersten „Code with Claude“-Entwicklerkonferenz von Anthropic in San Francisco, kündigte das Unternehmen eine strategische Compute-Partnerschaft mit SpaceX an – und schaltete innerhalb weniger Stunden die großzügigste Kapazitätserweiterung frei, die Claude-Nutzer je in einem einzelnen Update gesehen haben. Die Fünf-Stunden-Limits wurden für Pro, Max, Team und sitzplatzbasiertes Enterprise verdoppelt. Die Drosselung zu Spitzenzeiten wurde für Pro und Max beendet. Und die Opus-API-Limits wurden laut Ankündigung um „erhebliche“ Beträge angehoben – unabhängige Berichte bezifferten den Tier-1-Input-Anstieg auf bis zu 1500 % und den Output-Anstieg auf bis zu 900 %.
Wenn Sie im letzten Jahr gegen die Mauer der Claude-Tarifbegrenzungen gekämpft haben, wissen Sie bereits, was diese Zahlen bedeuten. Wenn nicht, bleib bei mir. Denn in der Überschrift geht es nicht wirklich um den SpaceX-Deal und es geht auch nicht wirklich um die Tarifbegrenzungen. Die Schlagzeile lautet, was am Montagmorgen möglich wird, was am Freitagnachmittag nicht möglich war.
Was tatsächlich angekündigt wurde (und was wahr ist)
Lassen Sie mich die Fakten klarstellen, bevor ich zu den Auswirkungen komme, denn die Berichterstattung darüber war etwas uneinheitlich.
Der Deal: Anthropic unterzeichnete einen Vertrag mit SpaceX über die Übernahme der gesamten Rechenkapazität von Colossus 1, dem ursprünglich für xAI gebauten Rechenzentrum. Das sind etwa 300 Megawatt Leistung und über 220.000 Nvidia-GPUs – eine Mischung aus H100-, H200- und GB200-Beschleunigern der nächsten Generation. Die Kapazität wird gemäß der eigenen Ankündigung von Anthropic „innerhalb des Monats“ online geschaltet, d. h. bis Anfang Juni 2026.
Der Science-Fiction-Artikel – der Teil, den die Schlagzeilen gesucht haben – ist die langfristige Vereinbarung zur Entwicklung „mehrerer Gigawatt orbitaler AI-Rechenkapazität“. Das sind GPU-Cluster im Weltraum. Real hat in der Pressemitteilung unterschrieben. Ich werde noch einmal darauf zurückkommen, ob das wichtig ist, denn die Antwort ist interessanter, als entweder die Gläubigen oder die Skeptiker sagen.
Die benutzerseitige Änderung des Versands erfolgt sofort:
- Claude Code Fünf-Stunden-Tariflimits verdoppelt für Pro-, Max-, Team- und platzbasierte Enterprise-Pläne. Dies ist der Grenzwert, der während einer Sitzung alle fünf Stunden zurückgesetzt wird. 2. Drosselung zu Spitzenzeiten wurde für Pro und Max entfernt auf Claude Code. Zuvor galten die Grenzwerte an Wochentagen vormittags. Das ist für diese beiden Ebenen weg. 3. Claude Opus API rate limits raised significantly. Tier 1 input tokens-per-minute reportedly rose from around 30,000 to roughly 350,000+ depending on tier — about a 16x jump. Die Leistung stieg von 8.000 TPM auf 80.000 TPM, eine saubere Verzehnfachung. (Der Eingabemultiplikator ist höher, da die Ausgabe mehr Rechenleistung pro Token kostet; die Asymmetrie ist strukturell.)
Verwaltete Agenten erhalten mehr Spielraum – der im April 2026 eingeführte Produktionsagenten-Harness Anthropic läuft jetzt auch auf der neuen Rechenebene, was wichtiger ist, als den Leuten bewusst ist.
Die Konferenz selbst – Code mit Claude – war so stark ausverkauft, dass Anthropic einen zweiten Tag in San Francisco hinzufügte und Ausgaben in London und Tokio bestätigte. Am Tag vor dem Start kündigte Anthropic außerdem ein Joint Venture mit Blackstone, Hellman & Friedman und Goldman Sachs im Wert von 1,5 Milliarden US-Dollar an, um ein Dienstleistungsunternehmen für Unternehmen zu gründen, das sich an Hunderte mittelständische Unternehmen richtet.
Das sind die Neuigkeiten. Lassen Sie uns nun darüber sprechen, warum es wichtiger ist, als es den Anschein hat.
Warum dies für alle, die bereits bauen, so hart traf
Wenn Sie Claude gelegentlich verwendet haben – es einmal am Tag geöffnet, eine Frage gestellt oder den Tab geschlossen haben – ist der größte Teil dieses Updates unsichtbar. Du bist nicht gegen die Wand gefahren. Die Mauer traf Menschen wie mich.
Ich betreibe eine Mehrmarken-Content-Pipeline über einen Stapel von Claude Code-Agenten. Das System, das Sie gerade lesen? Das ist @aria, ein forschungsorientierter Agent, der Websuchen durchführt, vorhandene Beiträge scannt und Artikel mit mehr als 3.000 Wörtern generiert. Dahinter verbirgt sich eine Gruppe unterstützender Agenten – einer für Bildaufforderungen, einer für SEO-Prüfungen und einer für die Generierung von Vertriebspaketen. An einem normalen Mittwoch verbraucht allein diese Pipeline Opus-Token mit einer Geschwindigkeit, die in den letzten sechs Monaten mindestens zweimal pro Woche an die Ratengrenzen gestoßen ist.
Der Schmerz war real und spezifisch. Drei Muster, gegen die ich gekämpft habe:
Die 9-Uhr-Klippe. Dienstagmorgen, Mittwochmorgen, Donnerstagmorgen – sobald sich die Ostküste der USA und Europa überschneiden, würden meine Claude Code-Sitzungen langsamer. Nicht aufhören. Langsam. Aufgaben, die um 6 Uhr morgens 90 Sekunden dauerten, dauerten um 10 Uhr 4 Minuten. Multiplizieren Sie das mit einem Agentenstapel, der Dutzende Anrufe tätigt, und eine Sitzung, die in zwanzig Minuten abgeschlossen sein sollte, dauert neunzig. Den Ausgleich dafür hatte ich geschaffen, indem ich abends und am Wochenende für schwere Arbeiten in der Warteschlange stand. Das ist eine Problemumgehung, kein Workflow.
Die Obergrenze von fünf Stunden für Max. Ich nutze den Max-Plan, weil mein Agenten-Stack ihn wirklich braucht – die reine Abonnementökonomie bei einem 20x- oder 100x-Plan ist besser als API pro Token für die Art von Volumen, die ich betreibe. Aber die Fünf-Stunden-Grenze bedeutet, dass ich darum herumplanen muss. Ich stapele. Ich bündele die Arbeit. Ich habe meinen Tag in „Claude-Fenster“ und „Nicht-Claude-Fenster“ aufgeteilt. Diese Struktur war für Solo-Codierung gut geeignet. Für autonome Agenten-Pipelines, die nach ihrem eigenen Zeitplan laufen, war das schmerzhaft.
Die Verdopplung behebt die ersten beiden Probleme fast vollständig. Die Erhöhung der Opus-API-Limits – vorausgesetzt, die von 9to5Google und anderen berichteten Zahlen gelten für meine Stufe – macht das dritte Problem praktisch irrelevant. Das verändert strukturell, wie ich Agenten architektieren kann.
Durch die Verdoppelung werden die ersten beiden Probleme fast vollständig behoben. Die Erhöhung des Ratenlimits Opus API – vorausgesetzt, die von 9to5Google und anderen gemeldeten Zahlen sind für meine Stufe korrekt – macht das dritte Problem kein Problem. Das ist eine strukturelle Veränderung in der Art und Weise, wie ich Agenten entwerfen kann.
Wenn Sie noch nicht in diesem Maßstab bauen, denken Sie beim Lesen vielleicht, dass die Grenzen gar nicht so schlimm seien. Für die meisten Benutzer war dies nicht der Fall. Aber sie bildeten die Grenze der nächsten Schicht dessen, was möglich war. Diese Decke hat sich gerade verschoben.
Die Rechenknappheit war die ganze Zeit die eigentliche Geschichte
Lassen Sie die Ratenbegrenzungszahlen für einen Moment hinter sich und stellen Sie die größere Frage: Warum musste Anthropic dies tun?
Die Antwort ist der Teil, der in den meisten Berichten verschwiegen wird. Anthropic leidet seit mindestens einem Jahr unter Rechenleistungsmangel. Ausfälle kamen so häufig vor, dass die Anthropic-Statusseite eine Registerkarte ist, die ich geöffnet halte. Plan-Upgrades wurden zu einem bestimmten Zeitpunkt eingeschränkt – Claude Code war eine Zeit lang nur für den Max-Plan verfügbar, da das System einen breiteren Rollout nicht bewältigen konnte. Zu Spitzenzeiten fühlten sich die Sitzungen langsamer an, nicht weil das Modell dümmer wurde, sondern weil die Inferenzserver ausgelastet waren.
Die Nachfrage übersteigt die Rechenkapazität. Jede Modellveröffentlichung machte es schlimmer. Jeder Claude Code-Rollout machte es noch schlimmer. Sonnet 4.6 erreichte im März 1 Million Kontextfenster; Opus 4.6 folgte; Opus 4.7 wurde Anfang 2026 eingestellt. Jede Generation zog mehr Benutzer in intensivere Arbeitsabläufe und jede Generation erzeugte mehr Druck auf der gleichen eingeschränkten Hardwarebasis.
Die Rechenstrategie von Anthropic war schon immer eine Multi-Vendor-Strategie. AWS Trainium, Google TPUs, benutzerdefiniertes Broadcom-Anthropic-Silizium, Microsoft Azure, Nvidia-direct, Fluid Stack an der Seite. SpaceX ist die neueste Ebene dieser Diversifizierung und bei weitem die größte Einzelerweiterung. Colossus 1 wurde ursprünglich für die Grok-Modelle von xAI gebaut – als diese Kapazität vertraglich verfügbar wurde, übernahm Anthropic die gesamte Kapazität.
Dies ist der Schritt, der den Engpass beseitigt. Nicht „wir bekommen noch mehr GPUs.“ Eher so: „Wir verdreifachen die Anzahl der Spieler mit einer einzigen Unterzeichnung.“
Der Grund, der für Bauherren zählt, ist nicht Großzügigkeit. Es ist Zuverlässigkeit. Die Ratenlimits, die sich heute verdoppelt haben, verdoppeln sich nicht, weil Anthropic plötzlich großherzig war. Sie verdoppeln sich, weil die zugrunde liegende Kapazität endlich mit der Nachfrage mithalten konnte und noch Spielraum übrig blieb. Die gleiche Dynamik, die uns diese höheren Decken beschert hat, macht sie auch nachhaltig. Ich habe im technischen Bereich schon so viele Zyklen erlebt, in denen es darum geht, kostenlose Kontingente zu geben und kostenlose Kontingente wegzunehmen, um zu wissen, dass sich kapazitätsgestützte Erweiterungen weitaus besser behaupten als Werbeerweiterungen.
Der Orbital Compute Angle: Skeptischer Realismus
Jetzt kommt der Teil, nach dem jeder fragen möchte. GPUs im Weltraum. Real oder Marketing?
Hier ist meine ehrliche Meinung: Es ist real, aber nicht so, wie es die Schlagzeilen vermuten lassen. Anthropic und SpaceX haben sich verpflichtet, orbitale Rechenkapazitäten im Multi-Gigawatt-Bereich zu entwickeln. Das ist eine Leistungserklärung, kein Liefertermin. Im nächsten Quartal schickt niemand H200 in die erdnahe Umlaufbahn. Die Physik ist noch nicht da – Strahlungshärtung, Wärmemanagement, Kühlung ohne Atmosphäre, Latenz für terrestrische Benutzer, Markteinführungsökonomie für Hardware, die eine Nutzungsdauer von vielleicht vier Jahren hat. Jedes Problem allein ist eine Forschungslinie im Wert von mehreren Milliarden Dollar.
Aber – und hier halte ich die abweisenden Ansichten für falsch – die Zwänge, die dies antreiben, sind real und werden immer schlimmer. Bei der terrestrischen AI-Rechenleistung gibt es drei Engpässe: Stromerzeugung, Wasser zur Kühlung und Land in der Nähe des Netzes. Die USA stoßen auf alle drei gleichzeitig. Neue Rechenzentrumsprojekte wurden auf lokaler Ebene wegen des Wasserverbrauchs blockiert. Die Stromnetze in Virginia und Texas sind am Rande. Das nächste Gigawatt Rechenkapazität im Jahr 2027 wird schwieriger hinzuzufügen sein als das letzte. Die nächsten zehn Gigawatt im Jahr 2030, noch schwieriger.
Orbit unterliegt diesen Einschränkungen nicht. Die Solarenergie ist ununterbrochen verfügbar. Kühlung ist lediglich Strahlungsableitung in den Weltraum. Land ist kein Ding. Das Problem ist nicht „könnte man eine GPU in den Orbit bringen“, sondern „könnte man das wirtschaftlich machen.“ Da Starship die Startkosten bis zum Ende des Jahrzehnts möglicherweise auf 10 US-Dollar pro Kilogramm steigern könnte, beginnt die Rechnung, einige Arbeitsbelastungen vorzusehen. Insbesondere Batch-Trainings-Workloads, die keine Millisekunden-Latenz für einen Benutzer benötigen.
Wird Orbital-Computing also Ihre Claude Code-Sitzung im Jahr 2027 antreiben? Nein. Wird es bis 2030 einen bedeutenden Anteil an der Rechenleistung für das Grenzmodell-Training ausmachen? Vielleicht. Wahrscheinlich. Die Unternehmen, die gegen diesen Trend wetten, sind diejenigen, über die ich mir Sorgen machen würde. Was heute jedoch wirklich zählt, sind die 300 Megawatt, die diesen Monat in Memphis in Betrieb gehen – und nicht die Gigawatt, die irgendwann in die Umlaufbahn gehen.
Was sich morgen in meinem Workflow ändert
Das ist der Teil, der mir eigentlich am Herzen liegt: Was baue ich jetzt anders?
Am Tag nach der Ankündigung habe ich mich mit meinem eigenen Setup zusammengesetzt und die Projekte in meinem Ordner „Wegen Ratenbegrenzung zurückgestellt“ durchgesehen. Es waren sechs. Drei davon bringe ich zurück. Zwei sind jetzt auf eine Weise interessant, wie sie es gestern nicht waren.
1. Das 1M-Kontextfenster wird endlich zu einem täglichen Treiber
Als Opus 4.6 erschien, schrieb ich einen ganzen Beitrag über den 1M-Token-Kontext von Opus 4.6. Mein ehrliches Urteil war: technisch funktioniert es, aber bei Nutzung im großen Maßstab kostet es echte Zeit und echte Tokens. 800.000 Tokens in eine Sitzung zu schieben, war etwas, das ich für eine einzelne große Codebase-Prüfung tun würde – nicht für einen wiederkehrenden Workflow.
Mit Opus API Ratengrenzen, die durch die gemeldeten Multiplikatoren erhöht werden, ändert sich diese Berechnung. Es ist möglich, eine Million Token in einer engen Schleife durch einen Agenten zu schicken, ohne dabei zusehen zu müssen, wie der Minutenzähler rot aufleuchtet. Für meine Pipeline bedeutet das, dass ein Research-Agent den gesamten Kontext der Posts einer Marke (mehr als 200 Artikel allein für mejba.me) in einer einzigen Sitzung erfassen und über den gesamten Kontext nachdenken kann, ohne sich auf kleinere Aufrufe aufteilen zu müssen. Das ist eine strukturelle Änderung in der Art und Weise, wie aktuelle Autorität in meinem Arbeitsablauf aussieht.
2. Multiagenten-Orchestrierung mit parallelen Unteragenten
Das ist für mich die größere Freischaltung. Meine bestehende Pipeline führt Agenten in den meisten Fällen sequentiell aus – der Rechercheagent wird beendet, dann beginnt der Schreibagent, dann der SEO-Prüfagent, dann der Verteilungsagent. Der Grund liegt nicht darin, dass sequentiell besser ist. Das heißt, dass ihre parallele Ausführung bedeutete, dass genügend Opus API Aufrufe pro Minute aufgefächert wurden, um das Ratenlimit zu ersticken.
Mit einem Ausgabe-TPM von etwa 80.000 statt 8.000 kann ich diese Agenten ohne Drosselung parallel ausführen. Die geschätzte Zeit, einen fertigen Beitrag zu erstellen, sinkt von etwa 18 Minuten auf etwa 6 Minuten auf der Rückseite des Umschlags. Noch wichtiger ist, dass ich mehrere vollständige Pipelines gleichzeitig ausführen kann – fünf Beiträge, zehn Beiträge gleichzeitig, jeder mit seinem eigenen Agentenstapel. Die Art von Agentenschwarmarchitektur, über die ich im März geschrieben habe, wird plötzlich zu einem täglichen Arbeitsablauf und nicht zu einem Wochenendexperiment.
3. Produktionsabläufe auf Claude Code, nicht nur Prototypen
Es gibt eine echte Version davon, wie die meisten von uns Claude Code verwendet haben: als Codierungspartner während der Entwicklung, mit der Annahme, dass Produktionspipelines zum API gehörten. Die Gründe waren die Ratenbegrenzungen und das sitzungsbasierte Modell – das Fünf-Stunden-Budget von Claude Code passte nicht ganz in „Dieses Ding läuft ewig alle fünfzehn Minuten“.
Verdoppelte Ratenlimits + entfernte Spitzendrosselung verändern das Kosten-Nutzen-Verhältnis. Eine Claude Code-Sitzung ohne Peak-Strafe und mit doppeltem Headroom reicht für viele wiederkehrende Produktionsarbeiten aus. Ich habe ein besonderes Auge auf meine SEO-Gesundheitsprüfungsroutine – sie läuft derzeit über API und kostet ca. 11 $ Das ist eine messbare monatliche Kostenverschiebung.
Auch hier ist die Ankündigung der Managed Agents von Bedeutung. Anthropic hat im April Managed Agents mit Webhook-Triggern, persistentem Status und Multi-Agent-Koordination als Kernelemente eingeführt. Das Produkt war real, aber bei der Markteinführung war die Kapazität begrenzt – die meisten Benutzer stießen auf Ratengrenzen, bevor sie auf interessante Anwendungsfälle stießen. Mit der neuen Rechenleistung sind Managed Agents keine Beta-Produkte mehr, sondern etwas, für das ich tatsächlich eine Pipeline bereitstellen würde.
4. Die hackigen Problemumgehungen, mit denen ich aufhören kann
Diese Liste ist zufriedenstellend. Dinge, die ich im letzten Jahr getan habe, nur um Tarifbeschränkungen zu umgehen:
- Aufteilen von Claude Code-Sitzungen auf zwei Terminals zur Verdoppelung des Budgets – Weiterleitung einiger Agentenaufgaben an OpenRouter oder andere Anbieter, wenn Anthropic gedrosselt wurde – Aggressives Vorladen des Kontexts zu Beginn einer Sitzung, da ich wusste, dass das Modell später langsamer werden würde – Verwendung eines lokalen LLM-Proxys, um einige Prototypenarbeiten von der Hauptpipeline fernzuhalten
- Planen Sie die Content-Generierung für Nächte und Wochenenden, um Spitzenzeiten zu vermeiden
Die meisten davon verschwinden. Nicht alle – ich möchte immer noch Anbietervielfalt für die Ausfallsicherheit und lokale LLMs sind immer noch nützlich für die unkritische Vorverarbeitung. Aber die alltäglichen Problemumgehungen, die ich durchgeführt habe, um unter dem Limit zu bleiben? Größtenteils im Ruhestand.
Der Haken, über den niemand spricht
Ich möchte ehrlich zu etwas sein, das in der Ankündigung beschönigt wurde.
Verdoppelte Tariflimits bedeuten nicht unbegrenzte Tariflimits. Sie bedeuten eine höhere Decke. Wenn Ihre Nutzung bereits bei 95 % der alten Obergrenze lag, haben Sie jetzt Spielraum. Wenn Ihre Nutzung linear mit der Obergrenze skaliert – was bei Power-Usern der Fall ist –, finden Sie die neue Obergrenze innerhalb eines Viertels. Das Muster bei jeder vorherigen Kapazitätserweiterung war, dass die Nachfrage den neuen Spielraum schneller absorbierte, als irgendjemand geplant hatte.
Zweiter Haken: Die Ankündigung spezifiziert Pro, Max, Team und sitzbasiertes Enterprise. Wenn Sie einen benutzerdefinierten Unternehmensvertrag oder eine bestimmte Pay-per-Token-Stufe API haben, die nicht in der genannten Liste enthalten ist, sollten Sie Ihr Dashboard überprüfen, bevor Sie davon ausgehen, dass die Grenzwerte für Sie verschoben wurden. Die Erhöhung des Ratenlimits ist umfassender, aber ich würde die neuen TPM-Obergrenzen für Ihr spezifisches Konto überprüfen, bevor ich sie umgebe.
Drittens – und das ist strukturell wichtig – kommt die SpaceX-Rechenkapazität „innerhalb des Monats“. Diese Formulierung ist präzise. Kapazität wird hochgefahren, sie ist nicht sofort vollständig da. Wenn Sie die neuen Limits in der ersten Woche einem Stresstest unterziehen und feststellen, dass sie etwas enger wirken als in der Ankündigung, kann der Grund sein, dass Ihr Traffic noch auf Infrastruktur trifft, die nicht vollständig hochgefahren ist. Planen Sie für den stabilen Zustand, nicht für den Zustand am Tag der Einführung.
Viertens: Die Drosselung zu Spitzenzeiten wurde speziell für Pro und Max auf Claude Code entfernt. Not for the API. Not for Sonnet. Nicht für Team- oder Enterprise-Stufen (obwohl diese unterschiedliche Mechaniken haben). Wenn Ihre Arbeitslast auf einem Nicht-Pro/Max-Plan durch API gesteuert wird, haben Sie dieses besondere Geschenk nicht erhalten. Sie haben die Tariferhöhungen erhalten, aber nicht die Aufhebung der Spitzenzeiten.
Nichts davon ist Kleingedrucktes, das enttäuschen soll. Es ist lediglich der Unterschied zwischen einer Marketing-Überschrift und einer Konfigurationsspezifikation. Lesen Sie die tatsächlichen Limits Ihrer Stufe. Führen Sie am Mittwoch um 10 Uhr Ihren eigenen Test durch, bevor Sie Ihren Stapel anhand der neuen Zahlen neu gestalten.
Was ich als nächstes sehe
Drei Dinge, die ich in den nächsten 30 Tagen verfolge:
Hält die Kapazität unter Last? Der Grund dafür, dass jede vorherige Claude-Erweiterung letztendlich knapp wurde, liegt darin, dass die Nachfrage das Angebot absorbierte. Code mit Claude wird eine Welle neuer Entwickler auslösen. Die Akzeptanz von Managed Agents wird sich beschleunigen. Das Unternehmensprojekt Goldman/Blackstone wird Claude in Hunderte neue Implementierungen im mittleren Marktsegment integrieren. All das wird die neue Rechenleistung erreichen. Bis Juli werden wir wissen, ob 300 MW + 220.000 GPUs eine „angenehme Marge“ oder „kaum genug“ waren.
Versendet Anthropic die nächste Ebene von Orchestrierungsprimitiven? Managed Agents im April war eine Grundlage. Die Konferenz „Code with Da die Ratenbegrenzungsbeschränkungen aufgehoben sind, erwarte ich, dass die nächste Runde an Plattformfunktionen – bessere Webhook-Trigger, länger laufende Agenten, native Multi-Agenten-Koordination – in den nächsten zwei Quartalen zurückgehen wird. Hier liegen die wahren Produktivitätsmultiplikatoren für Bauherren wie mich.
Wie verändert das die Wettbewerbslandschaft? OpenAI kündigte in derselben Woche sein eigenes Enterprise-Services-Joint-Venture an. xAI befindet sich nun in der unbequemen Lage, Kapazität an einen seiner größten Konkurrenten abgegeben zu haben. Microsoft, Google und Meta beobachten die Compute-Dynamik sehr genau. Die Unternehmen, die sich bis 2027 die nächsten 10 GW an Inferenz-Compute sichern, werden prägen, welche Modelle zu Produktionsstandards für Enterprise-Workloads werden. SpaceX-Anthropic hat gerade eine ernsthafte Flagge in den Boden gesteckt.
So ungefähr an diesem Mittwochmorgen
Zurück zum Anfang dieses Beitrags. Ich hatte festgestellt, dass der Gashebel weg war, habe meine Nutzungsprüfung durchgeführt und die doppelte Obergrenze festgestellt. Bis Donnerstag hatte ich drei Projekte aus meinem Ordner im Regal gestartet. Bis Freitag hatte ich einen Teil der @aria-Pipeline umgestaltet, um parallele Subagentenaufrufe auf eine Weise aufzufächern, die eine Woche zuvor unmöglich gewesen wäre.
Das Interessante ist nicht, dass all dies vorher technisch unmöglich war. Die Modellfunktionen haben sich nicht geändert. Opus 4.7 gestern ist Opus 4.7 heute. Das 1M-Kontextfenster funktionierte im April. Die Orchestrierung mit mehreren Agenten war bereits ein Muster.
Was sich geändert hat, ist die Betriebsebene darunter. Erstellen Sie etwas auf Claude, das auf konsistenter, hochvolumiger, paralleler Inferenz basiert, und Sie müssen nicht mehr um die Einschränkung herum entwerfen. Die Einschränkung wurde gerade um etwa eine ganze Größenordnung in der verbindlichsten Richtung aufgehoben.
Das ist es, was Ihnen Compute-Partnerschaften tatsächlich bieten – nicht „mehr Funktionen“, sondern „weniger Dinge, die Sie planen müssen“. Die Denkweise „Grenzen als Architektur“, mit der ich seit einem Jahr arbeite, ist gerade einen Zyklus älter geworden.
Wenn Sie ein Projekt aufgeschoben haben, weil es aufgrund der Ratenbeschränkungen nicht durchführbar war, ist dies die Woche, in der Sie es wieder aus dem Regal nehmen und noch einmal rechnen müssen. Die Wand befindet sich möglicherweise nicht mehr an der Stelle, an die Sie sich erinnern, sie verlassen zu haben.
Häufig gestellte Fragen
Wann wurden die Tariflimits von Claude Code verdoppelt?
Die Ratenlimits für Claude Code wurden am 6. Mai 2026 verdoppelt, wie am ersten Tag der Code with Claude-Entwicklerkonferenz von Anthropic in San Francisco bekannt gegeben wurde. Die Änderung gilt für Pro-, Max-, Team- und platzbasierte Enterprise-Pläne und trat sofort in Kraft. Die Kapazität dahinter stammt aus einer neuen Rechenpartnerschaft mit SpaceX im Rechenzentrum Colossus 1.
Was beinhaltet die Anthropic SpaceX Partnerschaft eigentlich?
Anthropic hat einen Vertrag über die Nutzung der gesamten Rechenkapazität im Rechenzentrum Colossus 1 von Der Deal beinhaltet auch eine langfristige Verpflichtung zur Entwicklung einer Multi-Gigawatt-Orbital-AI-Rechenkapazität, obwohl dieser Teil noch Jahre von einer Implementierung entfernt ist.
Haben sich auch die Ratenlimits für Claude Opus API geändert?
Ja. Claude Opus API Die Grenzwerte für Eingabe-Token pro Minute wurden auf allen Ebenen erheblich angehoben – unabhängige Berichte ergaben einen Anstieg von bis zu 1500 % für Eingabe-Tokens der Stufe 1 und rund 900 % für Ausgabe-Tokens. Überprüfen Sie die neuen Grenzwerte in Ihrem spezifischen Konto-Dashboard, bevor Sie sie umsetzen, da die genauen Multiplikatoren je nach Stufe variieren.
Beeinflusst dies die Drosselung zu Spitzenzeiten?
Die Drosselung zu Spitzenzeiten wurde speziell für Pro- und Max-Benutzer auf Claude Code entfernt. Claude Code-Sitzungen während der Morgenstunden an Wochentagen erhalten nicht mehr die Behandlung mit reduziertem Limit, die diese Stufen früher sahen. Die Team- und Enterprise-Stufen basieren auf unterschiedlichen Mechanismen. Die Änderung der Spitzenzeiten gilt nicht für den eigenständigen API.
Sollte ich meine Agent-Pipeline entsprechend den neuen Grenzwerten neu gestalten?
Wenn Ihre bestehende Pipeline durch Ratenbegrenzungen eingeschränkt war – sequenziell, wo sie parallel sein sollte, gedrosselt zu Spitzenzeiten oder regelmäßig die Fünf-Stunden-Obergrenze Claude Code erreichend – ja. Die strukturellen Veränderungen sind groß genug, um eine Überarbeitung der Architekturentscheidungen zu rechtfertigen, die Sie unter den alten Einschränkungen getroffen haben. Testen Sie die neuen Grenzwerte vor dem Neuaufbau anhand Ihrer tatsächlichen Arbeitslast, da die Kapazität „innerhalb des Monats“ bereitgestellt wird und nicht vom ersten Tag an vollständig verfügbar ist.
Lasst uns zusammenarbeiten
Möchten Sie AI-Systeme aufbauen, Arbeitsabläufe automatisieren oder Ihre technische Infrastruktur skalieren? Ich würde gerne helfen.
- Fiverr (benutzerdefinierte Builds und Integrationen): fiverr.com/s/EgxYmWD
- Portfolio: mejba.me
- Ramlit Limited (Unternehmenslösungen): ramlit.com
- ColorPark (Design & Branding): colorpark.io
- xCyberSecurity (Sicherheitsdienste): xcybersecurity.io