Anthropics Mythos traf auf curl. Der Hype überlebte nicht

Anthropics Mythos traf auf curl. Der Hype überlebte nicht.

Ich war bei meiner zweiten Tasse Kaffee am 11. Mai, als Daniel Stenbergs Blogbeitrag in meinem Feed auftauchte. Der Titel lautete „Mythos finds a curl vulnerability." Das klang unkompliziert genug. Ich klickte, begann zu lesen, und erkannte innerhalb von zwei Absätzen, dass der Beitrag etwas weitaus Interessanteres tat als sein Titel vermuten ließ.

Es war eine höfliche, methodische, eiskalt durchgeführte Demontage einer der aggressivsten KI-Ankündigungen des Jahres 2026.

Zum Kontext: Anthropic verbrachte den April damit, eines der lautesten Sicherheitsnarrative des Jahres aufzubauen. Project Glasswing. Claude Mythos Preview. „Die Ära der Zero Days geht zu Ende." „Verteidiger haben endlich die Chance, entscheidend zu gewinnen." Eine Zusage von 100 Millionen Dollar an Modell-Credits. Partnerlisten, die sich wie ein Who's-Who kritischer Software lesen. Ich behandelte den Launch und die zugrundeliegende Debatte in meiner Analyse zur KI-Zero-Day-Entdeckung und dem Claude Mythos Cybersecurity-Impact-Artikel. Die Rahmung war eindeutig: Anthropic hatte etwas gebaut, das so fähig im Finden von Softwarefehlern war, dass es nicht für die Öffentlichkeit freigegeben werden konnte.

Dann richteten sie es auf curl. Die am meisten geprüfte C-Codebasis im offenen Web. Gepflegt von jemandem, der die letzten achtzehn Monate damit verbracht hat, KI-Sicherheitsberichte öffentlich als Schund zu entlarven.

Das Ergebnis? Mythos lieferte fünf „bestätigte Sicherheitslücken." Stenbergs Team bestätigte eine. Einen Bug mit niedriger Schwere. Gepatcht in curl 8.21.0, geplant für Ende Juni.

Das ist der Datenpunkt, den die Pressemitteilung nicht enthielt. Und es ist der, bei dem es sich lohnt innezuhalten — denn wenn Sie Software beruflich entwickeln, Agents in Produktion betreiben oder sich dafür interessieren, wo KI-gestützte Sicherheit gerade tatsächlich steht (nicht wo das Slide-Deck behauptet, dass sie steht), dann hat die curl-Episode Ihnen gerade eine saubere, gut instrumentierte Messung der Wahrheit geliefert.

Lassen Sie mich durchgehen, was tatsächlich passiert ist, was es bedeutet, und warum ich denke, dass diese einzelne CVE mit niedriger Schwere mehr wert ist als die Pressemitteilung, die sie umgab.

Was Anthropic tatsächlich mit Mythos versprochen hat

Bevor wir zu den curl-Daten kommen, sind die Marketing-Behauptungen relevant — denn die Kluft zwischen ihnen und dem Ergebnis ist die gesamte Geschichte.

Anthropic kündigte Project Glasswing am 7. April 2026 an. Die Schlagzeile war Claude Mythos Preview, beschrieben als „ein allgemein einsetzbares, unveröffentlichtes Frontier-Modell", das „ein Niveau an Programmierfähigkeit erreicht hat, bei dem es alle Menschen außer den fähigsten beim Finden und Ausnutzen von Softwareschwachstellen übertreffen kann." Das sind Anthropics Worte, nicht meine.

Die unterstützenden Belege waren beeindruckend. Mythos hatte Berichten zufolge Tausende schwerwiegende Schwachstellen in großen Betriebssystemen und Webbrowsern identifiziert. Der einzelne Demo-Fall, der die meiste Aufmerksamkeit erhielt: Mythos fand und nutzte autonom eine 17 Jahre alte Remote-Code-Execution-Schwachstelle in FreeBSD aus, die Root-Zugriff auf jede Maschine mit NFS gewährte — eingestuft als CVE-2026-4747. Anthropic beanspruchte außerdem eine Erfolgsquote von 83,1% bei CyberGym, einem Benchmark, der die autonome Entdeckung echter CVEs in echten Codebasen misst. Das vorherige beste Modell lag bei 66,6%.

Soweit beeindruckend. Dann kamen die Marketing-Behauptungen, die jeden arbeitenden Sicherheitsforscher in meinem Netzwerk mit zusammengekniffenen Augen auf seinen Bildschirm starren ließen.

„Die Ära der Zero Days geht zu Ende."

„Verteidiger haben endlich die Chance, entscheidend zu gewinnen."

Das ist die Rahmung, die Anthropic wählte. Nicht „dies ist ein nützliches neues Werkzeug." Nicht „KI-gestützte Code-Analyse ist gerade deutlich besser geworden." Eine kategorische Verschiebung in Cyberangriff und -verteidigung. Eine neue Ära. Eine Waffe so mächtig, dass Anthropic sich weigerte, sie der breiten Öffentlichkeit zugänglich zu machen — stattdessen wurde der Zugang über Project Glasswing an eine kleine Gruppe von Partnern verteilt, mit der Linux Foundation als Kanal für einige Open-Source-Betreuer.

Die strategische Positionierung war klar. Fähigkeit so gefährlich, dass sie nicht offen sein kann. Fähigkeit so notwendig, dass sie eingesetzt werden muss. Vertrauen Sie uns mit den Kontrollen.

Ich bin lange genug dabei, um zu erkennen, wann ein Unternehmen eine echte Sicherheitsmaßnahme durchführt im Vergleich zu einer Positionierungsmaßnahme. Beides kann gleichzeitig zutreffen. Aber der Test, welches dominiert, ist immer derselbe: Was passiert, wenn die Fähigkeit auf einen ernsthaften Benchmark in freier Wildbahn trifft, vor jemandem, der sich nicht schmeicheln lässt?

Dieser Test kam am 6. Mai 2026. Der Benchmark war curl. Der Jemand war Daniel Stenberg.

Warum curl der perfekte Test ist (und der schlimmste für das Marketing)

Wenn Sie Mythos zum Scheitern bringen wollten, würden Sie es auf curl richten. Wenn Sie es ehrlich zum Erfolg führen wollten, würden Sie es ebenfalls auf curl richten. Dieselbe Antwort in beiden Fällen — denn curl ist die sauberste mögliche Testumgebung für einen KI-Schwachstellenscanner, und diese Sauberkeit schneidet in beide Richtungen.

Hier ist der Grund.

Curl umfasst ungefähr 178.000 Zeilen C, gepflegt von einer Gemeinschaft von 573 Mitwirkenden über mehr als zwei Jahrzehnte. Es läuft auf über 110 Betriebssystemen und 28 CPU-Architekturen. Es ist auf mehr als 20 Milliarden Geräten installiert — Telefone, Tablets, Autos, Fernseher, Spielkonsolen, Server, eingebettete Systeme, von deren Existenz Sie nicht einmal wissen. Wenn Ihre Software mit dem Internet kommuniziert, ist curl wahrscheinlich irgendwo in Ihrem Stack.

Das allein macht es zu einem wertvollen Ziel. Aber der Teil, der für diese Diskussion zählt, ist die Sicherheitslage. Curl hat über seine Lebenszeit 188 CVEs veröffentlicht, mit erwarteten ~50 neuen Schwachstellen, die 2026 noch offengelegt werden sollen. Das ist kein Zeichen dafür, dass die Codebasis schlampig ist. Es ist ein Zeichen dafür, dass die Codebasis untersucht wird. Jede CVE stellt eine Schwachstelle dar, die gefunden und behoben wurde, bevor sie ausgenutzt wurde, was genau der Zyklus ist, den man von einem sicherheitskritischen Projekt erwartet.

Die defensive Infrastruktur innerhalb von curl ist nach jedem vernünftigen Maßstab Weltklasse. Begrenzte dynamische Puffer. Explizite Durchsetzung von Maximalwerten bei numerischem Parsing. Overflow-Schutz. Format-String-Durchsetzung, die systematisch ganze Fehlerklassen eliminiert. Kontinuierliches Fuzzing. Statische Analyse. Automatisierte Regressionsabdeckung. Und — entscheidend für diese Geschichte — eine umfangreiche Vorgeschichte KI-gestützter Sicherheitsanalyse durch frühere Tools.

Stenberg selbst war hierbei bemerkenswert transparent. In seinem Blogbeitrag vom 22. April 2026 „High-Quality Chaos" stellte er fest, dass KI-gestützte Berichte endlich den Übergang von überwiegend Schund zu sinnvoll nutzbar geschafft hatten. Er nannte die Tools, die echtes Signal lieferten: AISLE, Zeropath und OpenAI Codex Security. Zusammen hatten diese früheren KI-Tools zwei- bis dreihundert Bugfixes ausgelöst, die in den vorangegangenen 8-10 Monaten in curl zusammengeführt wurden.

Lesen Sie diesen Satz noch einmal. Bevor Mythos jemals curl scannte, hatten KI-Tools der vorherigen Generation bereits Hunderte von Fixes in die Codebasis gepusht. Die einfachen Bugs — die Art, die bei grundlegendem Pattern-Matching auftaucht, die Art, die Fuzzer mit einigen Tausend Iterationen finden, die Art, die jeder „KI-Sicherheitsscanner" in einer Demo fangen kann — waren bereits beseitigt. Was übrig blieb, war die schwierige Schicht: echte Bugs, versteckt in subtilen Code-Pfaden, tiefe Grenzfälle, mehrstufige Vorbedingungen.

Das ist genau die Oberfläche, auf der ein kategorisch besseres Modell überlegen sein sollte. Wenn Mythos wirklich einen Quantensprung in der Schwachstellenforschung darstellt — die Art, die die Rahmung „die Ära der Zero Days geht zu Ende" rechtfertigt — dann ist curl genau der Ort, an dem man den Beweis erwarten würde.

Also, was hat der Test ergeben?

Der tatsächliche Mythos-Bericht: Fünf Berichte, ein echter Bug

Stenbergs Blogbeitrag arbeitet den Bericht durch, den er erhalten hat. Erwähnenswert: Stenberg erhielt nie direkten Zugang zu Mythos. Anthropic hatte ihm Zugang über Project Glasswing über die Linux Foundation versprochen. Dieser Zugang wurde nie realisiert. Stattdessen führte jemand anderes mit Mythos-Zugangsdaten das Modell gegen das curl-Repository aus und mailte Stenberg die Ergebnisse.

Der Bericht enthielt fünf Befunde, die jeweils von Mythos als „bestätigte Sicherheitslücke" gekennzeichnet waren.

Stenbergs siebenköpfiges Sicherheitsteam überprüfte sie alle. Hier ist die Aufschlüsselung dessen, was den Kontakt mit Leuten überlebte, die die Codebasis tatsächlich kennen:

Befund	Mythos-Bewertung	Bewertung des curl-Teams
Issue 1	Bestätigte Schwachstelle	Schwachstelle niedriger Schwere — CVE in 8.21.0
Issue 2	Bestätigte Schwachstelle	Falsch-positiv — dokumentiertes API-Verhalten
Issue 3	Bestätigte Schwachstelle	Falsch-positiv — dokumentiertes API-Verhalten
Issue 4	Bestätigte Schwachstelle	Falsch-positiv — dokumentiertes API-Verhalten
Issue 5	Bestätigte Schwachstelle	Bug, aber kein Sicherheitsproblem

Eins von fünf. Eine True-Positive-Rate von 20% auf dem wichtigsten Label, das Mythos anwendete. Und das eine, das überlebte, wird als CVE mit niedriger Schwere in curl 8.21.0 gepatcht, geplant für Ende Juni.

Lassen Sie mich präzisieren, was „niedrige Schwere" in curls CVSS-Framework bedeutet, denn das Wort kann weicher klingen als es sollte. Niedrige Schwere auf curl-Ebene bedeutet immer noch einen echten Bug, eine echte Offenlegung, einen echten Patch-Zyklus und ein echtes koordiniertes Update über Milliarden von Geräten. Es ist nicht nichts. Es ist auch nicht die Art von Befund, die die Rhetorik „Verteidiger haben endlich die Chance, entscheidend zu gewinnen" rechtfertigt.

Die ergänzenden Ergebnisse sind etwas interessanter. Neben den fünf „Sicherheitslücken" markierte Mythos auch ungefähr 20 kleinere Bugs in der Codebasis. Die meisten davon hielten der Überprüfung stand. Es waren keine Sicherheitsprobleme, aber es waren echte Bugs — Codequalitätsbefunde, an denen das curl-Team seitdem arbeitet. Das ist aufrichtig nützlicher Output. Es ist auch genau das, was ein kompetenter Code-Review-LLM seit mindestens einem Jahr produzieren kann, und was Tools wie AISLE und Zeropath bereits im großen Maßstab liefern.

Stenbergs Schlussfolgerung, in seinen eigenen Worten: „Meine persönliche Schlussfolgerung kann jedoch zu nichts anderem führen als dass der große Hype um dieses Modell bisher in erster Linie Marketing war." Und: „Ich sehe keinen Beweis dafür, dass dieses Setup Probleme auf einem besonders höheren oder fortgeschritteneren Niveau findet als die anderen Tools es vor Mythos getan haben."

Das ist kein beiläufiger Seitenhieb. Das ist ein Open-Source-Betreuer mit jahrzehntelanger Erfahrung, der eine der am stärksten beanspruchten Sicherheits-Pipelines im Internet betreibt und ruhig feststellt, dass das am stärksten beworbene KI-Sicherheitsmodell des Jahres 2026 die bereits verfügbaren Tools nicht übertroffen hat.

Wenn Sie gerade mit KI bauen — Agents, Automatisierungen, Sicherheitstools, was auch immer — ist dieser Datenpunkt mehr wert als die gesamte Pressemitteilung, die ihn umgab. Lassen Sie mich erklären, warum.

Was uns das über den tatsächlichen Stand der KI-Sicherheit verrät

Ich möchte durchgehen, was die curl-Episode meiner Meinung nach tatsächlich beweist, denn es ist nicht die einfache „Mythos ist ein Flop"-Lesart, die einige Kommentatoren verbreiten.

Drei Dinge sind gleichzeitig wahr. Keines davon ist komfortabel für die maximalistische oder minimalistische Position.

Erstens: Mythos ist echt, funktionsfähig und sinnvoll leistungsfähig. Ein Modell, das eine 178.000 Zeilen umfassende C-Codebasis scannt, die von 573 Mitwirkenden gepflegt wird, und eine echte CVE plus 20 kleinere Bugs in einem einzigen Durchlauf aufdeckt, ist nicht nichts. Das ist ein nicht-triviales Ergebnis gegen eine Codebasis, die von jedem Fuzzer, statischen Analyser und jedem KI-Sicherheitstool in Produktion bearbeitet wurde. Das Signal ist echt. Der Output ist brauchbar.

Zweitens: Mythos ist nicht der kategorische Sprung, den das Marketing behauptete. Die 20% True-Positive-Rate auf dem Label mit der höchsten Konfidenz, kombiniert mit der Tatsache, dass KI-Tools der vorherigen Generation bereits Hunderte von Bugfixes durch curl gepusht hatten, lässt die Rahmung „die Ära der Zero Days geht zu Ende" als Marketingtext statt technischer Realität erscheinen. Mythos scheint eine moderate Verbesserung gegenüber bereits eingesetzten Tools zu sein, kein Paradigmenwechsel.

Drittens: Die Kluft zwischen (1) und (2) ist die wichtigste Tatsache im gesamten KI-Sicherheitsnarrativ von 2026. Es ist die Kluft, in der jede Überbehauptung, jede Zugangsbeschränkung, jeder Angstmarketing-Zyklus lebt. Und die Kluft schließt sich — aber nicht in die Richtung, die das Marketing suggeriert. Die Realität sind mäßig nützliche Tools, die von erfahrenen Menschen eingesetzt werden und inkrementelle Sicherheitsgewinne liefern. Das Marketing besteht weiterhin auf Revolution.

Ich bin ehrlich. Ich erwartete, beim Schreiben dieses Beitrags woanders zu landen. Das Narrativ von Anthropic ist in sich konsistent. Die FreeBSD-Demo war bemerkenswert. Die CyberGym-Zahlen, zum Nennwert genommen, sind beeindruckend. Als ich die Recherche begann, erwartete ich halb, dass Stenberg zu streng war, oder dass der curl-Test ein unfaires Terrain war, oder dass die Falsch-Positiv-Rate bei näherer Betrachtung abmildern würde.

Das tat sie nicht. Die Zahlen sind, was sie sind. Eins von fünf beim Sicherheitslabel. Zwanzig kleinere Bugs mit akzeptabler Genauigkeit. Null fortgeschrittene Befunde, die frühere Tools übersehen hatten. Gegen die am umfassendsten voranalysierte Open-Source-C-Codebasis der Welt leistete Mythos wie eine moderat bessere Version dessen, was bereits in Produktion war.

Dies knüpft direkt an eine Perspektive an, auf die ich immer wieder zurückkomme: das Hype-versus-Realität-Kalibrationsproblem in der KI, über das ich bereits geschrieben habe. Marketing-Behauptungen reisen mit Internetgeschwindigkeit. Verifizierung reist mit menschlicher Geschwindigkeit. Das Fenster zwischen Launch und Verifizierung ist genau dort, wo das Narrativ geformt wird — und bis die Verifizierung eintrifft, ist das ursprüngliche Narrativ oft bereits von den Märkten, der Presse und der politischen Diskussion eingepreist worden.

Dies ist keine Anti-KI-Position. Ich betreibe täglich KI-Agents in Produktion. Ich setze meine eigene Zeit und mein eigenes Geld auf diese Tools. Aber gut zu wetten erfordert Kalibrierung, und Kalibrierung erfordert die Beobachtung dessen, was passiert, wenn Fähigkeitsbehauptungen auf die reale Welt treffen.

Der curl-Test ist die reale Welt. Das Ergebnis ist ein Bug mit niedriger Schwere.

Die Reifekurve: Von KI-Schund zu nützlich, in zwei Jahren

Es gibt hier einen längeren Bogen, der es wert ist, herausgezoomt zu werden, denn die curl-Episode ist kein Einzelbild — sie ist ein Bild in einer Sequenz, die vor zwei Jahren begann und sich noch weiterentwickelt.

Betrachten Sie die Zeitleiste:

2. Januar 2024. Daniel Stenberg veröffentlicht „The I in LLM stands for Intelligence." Darin beschreibt er die Flut minderwertiger KI-generierter Fehlerberichte, die curls HackerOne-Programm erreichen. Bis Mitte 2025 schätzte er, dass ungefähr 20% der Einsendungen zum curl-Bug-Bounty das waren, was er „KI-Schund" nannte — Berichte, die technisch klangen, aber nichts Brauchbares enthielten. Die Rate akkurater Berichte fiel auf ungefähr einen von 20 oder einen von 30, und die Triage erschöpfte die Kapazität des siebenköpfigen Sicherheitsteams.

26. Januar 2026. Curl kündigte die Beendigung seines bezahlten Bug-Bounty-Programms an. Der genannte Grund: KI-generierter Schund hatte die Kosten-Nutzen-Rechnung zum Einsturz gebracht. Ein Bounty, das für nützliche Offenlegungen konzipiert war, war zu einem Magneten für niedrigaufwändige, hochvolumige KI-gestützte Einsendungen geworden. Curl war nicht das einzige betroffene Projekt — Nextcloud und mehrere andere unternahmen etwa zeitgleich ähnliche Schritte. Das Open-Source-Sicherheitsökosystem wurde von KI-generierten Berichten regelrecht überschwemmt.

22. April 2026. Stenberg veröffentlicht „High-Quality Chaos." Die Tonverschiebung ist real. Er stellt fest, dass KI-gestützte Berichte — wenn sie von erfahrenen Ingenieuren durchgeführt werden, nicht von anonymen Bounty-Einreichern — nun tatsächlich echtes Signal liefern. Tools wie AISLE, Zeropath und OpenAI Codex Security haben gemeinsam Hunderte von Fixes in curl gepusht. KI hat die Schwelle von netto-negativ zu netto-positiv im curl-Ökosystem überschritten.

6. Mai 2026. Curl empfängt den Mythos-Bericht. Fünf Befunde. Einer übersteht die Überprüfung.

Ende Juni 2026 (geplant). Curl 8.21.0 erscheint mit dem Patch für den einen bestätigten Mythos-Befund.

Dieser zweijährige Bogen ist die eigentliche Geschichte. KI-Sicherheitstools begannen als Ärgernis, wurden bescheiden nützlich und verbessern sich nun inkrementell — Quartal für Quartal, Modellrelease für Modellrelease, wobei jede Generation etwas straffer ist als die vorherige. Mythos ist der neueste Datenpunkt auf dieser Kurve, keine Diskontinuität davon.

Ich denke, dieser Bogen ist die wichtigste Rahmung für jeden Entwickler, der versucht herauszufinden, wo er jetzt seine Einsätze platzieren sollte. Die Reifekurve ist real. Sie zeigt in eine nützliche Richtung. Aber sie ist nicht vertikal. Sie ist nicht einmal besonders steil. Es ist eine normale, etwas-schneller-als-übliche Fähigkeitskurve in einem Bereich, der seit mindestens drei Jahren übermäßig viel versprochen wurde.

Nebenbei — ich testete diese Hypothese letztes Wochenende an meiner eigenen Infrastruktur. Führte eine KI-gestützte Sicherheitsüberprüfung an einer mittelgroßen Laravel-Codebasis durch, die ich für einen Kunden pflege. Die Befunde waren nützlich. Einige standen bereits in unserem Backlog. Einige waren tatsächlich neu. Keiner rechtfertigte eine Neuschreibung der Sicherheitsstrategie. Diese Erfahrung deckt sich genau mit dem, was das curl-Team berichtet. Nützliches Werkzeug. Keine Revolution. Kombinieren Sie es mit erfahrenen Menschen und es verdient seinen Platz. Überlassen Sie ihm das Steuer und es verschwendet Ihre Zeit.

Das Project-Glasswing-Gleichheitsproblem, über das niemand sprechen will

Es gibt einen Teil dieser Geschichte, den die technischen Analysen immer überspringen, und ich möchte etwas Zeit darauf verwenden, weil ich denke, dass es das folgenreichste Langzeitproblem ist.

Mythos ist eingeschränkt. Das Modell ist nicht allgemein verfügbar. Der Zugang wird über Project Glasswing gesteuert, mit einer kuratierten Partnerliste und der Linux Foundation als Kanal für eine kleine Gruppe von Open-Source-Projekten. Anthropics Rahmung ist, dass das Modell zu gefährlich für eine breite Freigabe ist, also richten sie es auf defensive Nutzung bei vertrauenswürdigen Partnern aus und stellen 100 Millionen Dollar an Modell-Credits bereit, um es für diese Partner wirtschaftlich tragfähig zu machen.

Nehmen Sie diese Rahmung einen Moment zum Nennwert. Die strukturelle Konsequenz ist unabhängig von der Absicht dieselbe: Eine kleine Anzahl von Organisationen erhält frühzeitig Zugang zum besten verfügbaren Schwachstellenerkennungsmodell, und der Rest der Welt nicht.

Legen Sie nun zwei Fakten darüber.

Fakt eins: Stenberg, der Betreuer eines der sicherheitskritischsten Teile der Open-Source-Infrastruktur im Internet, wurde über Glasswing Mythos-Zugang versprochen und hat ihn nie erhalten. Er musste warten, bis jemand anderes das Modell ausführte und ihm den Bericht mailte. Wenn curl zu klein ist, um die Zugangsschwelle zu überschreiten, was sagt das über den langen Schwanz weniger berühmter Open-Source-Projekte? Die 90% der Dependencies unter Ihrer Anwendung, die keinen Betreuer mit einem erkennbaren Namen haben?

Fakt zwei: Anthropics eigene interne Bewertung, durchgesickert im Claude-Mythos-Dokumentenleck Anfang dieses Jahres, beschrieb das Modell als das Angriffs-Verteidigungs-Gleichgewicht zugunsten des Angriffs kippend. Ihre Worte, nicht meine. Das Modell ist ein Kraftvervielfacher für jeden, der es besitzt. Zugang durch Vertrauen und Kuratierung zu beschränken bedeutet, dass Verteidiger mit Zugang den Vervielfacher bekommen; Verteidiger ohne Zugang nicht.

Wo das in der Praxis landet: Gut finanzierte Organisationen mit den richtigen Beziehungen werden geschützt. Alle anderen dürfen hoffen, dass das eventuelle öffentliche Modell ankommt, bevor ein Angreifer mit vergleichbarer Fähigkeit es tut. Das ist keine hypothetische Sorge — es ist dasselbe Zugangasymmetrie-Problem, das seit Jahrzehnten ein Merkmal der Cybersicherheitsbranche ist, nur dass die Asymmetrie jetzt auf der Modellebene statt auf der Tooling-Ebene liegt.

Ich behaupte nicht, dass Anthropic die falsche Entscheidung getroffen hat. Das Dual-Use-Problem ist real. Ein breit veröffentlichtes Mythos würde absolut in die Hände von Angreifern gelangen, und das Sicherheitsargument für einen gestuften Rollout hat Berechtigung. Aber es gibt reale Kosten für diesen Ansatz, und diese Kosten werden überproportional von den kleineren Akteuren im Sicherheitsökosystem getragen — den Betreuern, den unabhängigen Sicherheitsforschern, den Open-Source-Projekten, die nicht den institutionellen Einfluss haben, um auf eine Glasswing-Partnerliste zu kommen.

Wenn die Marketing-Rahmung ehrlich wäre, würde sie diese Kosten anerkennen. „Die Ära der Zero Days geht zu Ende" würde zu „die Ära der Zero Days geht zu Ende für unsere Partner; der Rest muss es noch selbst herausfinden." Das ist eine weniger beeindruckende Schlagzeile. Sie ist auch näher an dem, was tatsächlich passiert.

Was das für den Einsatz von KI in Ihrer eigenen Sicherheitsarbeit bedeutet

Lassen Sie mich zur praktischen Frage zurückkommen, denn wenn Sie dies lesen, haben Sie wahrscheinlich bereits KI-Tools irgendwo in Ihrem Sicherheitsstack — oder Sie erwägen es. Die curl-Episode hat spezifische Implikationen dafür, wie Sie diese Tools gut einsetzen.

Dies ist das Framework, mit dem ich jetzt arbeite, basierend auf dem, was uns die curl-Daten sagen.

Nutzen Sie KI als Kraftvervielfacher für den erfahrenen Ingenieur, nicht als Ersatz. Das curl-Team erhielt nützlichen Output von Mythos, weil sie ein siebenköpfiges Sicherheitsteam hatten, das fünf Befunde auf eine Wahrheit triagieren konnte. Ohne diese Triage-Schicht wären alle fünf Befunde entweder als echt behandelt worden (mit Verschwendung nachgelagerter Arbeit) oder alle fünf wären abgelehnt worden (wobei der eine echte Bug übersehen worden wäre). Die Triage-Schicht ist der Wert. KI ohne Expertenüberprüfung ist Schund. Expertenüberprüfung ohne KI ist langsamer als nötig. Zusammen sind sie der aktuelle Stand der Technik.

Erwarten Sie eine True-Positive-Rate von 15-25% bei gemeldeten Sicherheitsproblemen von jedem aktuellen KI-Tool. Das ist ungefähr dort, wo Mythos bei curl landete, und es stimmt mit dem überein, was ich bei Codex-ähnlichen Sicherheitsscannern in der Kundenarbeit gesehen habe. Planen Sie Ihre Überprüfungspipeline um dieses Verhältnis herum. Wenn Ihr Team es sich nicht leisten kann, vier Falsch-Positive für jeden echten Befund zu triagieren, kostet KI-Sicherheitstooling Sie mehr Zeit als es spart.

Behandeln Sie Schweregrad-Labels von KI-Tools als Vorschläge, nicht als Klassifizierungen. Mythos labelte alle fünf curl-Befunde als bestätigte Sicherheitslücken. Die tatsächliche Schweregradeinordnung des curl-Teams für den einen echten Befund war niedrig. Das ist eine mehrstufige Herabstufung — von „Sicherheitslücke" zu „Bug niedriger Schwere." Schweregrad ist eine Beurteilung, die von Bedrohungsmodell, Angriffsfläche und Exploit-Bedingungen abhängt. KI-Tools können diese Beurteilung derzeit nicht gut treffen. Sie markieren Muster. Menschen beurteilen Risiken.

Zahlen Sie nicht für die versionsgebundene Enterprise-Stufe, es sei denn, Sie können den Gewinn verifizieren. Das Mythos-Ergebnis bei curl, verglichen mit Ergebnissen von AISLE und Zeropath in den Monaten zuvor, deutet darauf hin, dass der Abstand zwischen Frontier-Sicherheitsmodellen und der vorherigen Generation geringer ist als das Marketing suggeriert. Bevor Sie einen sechsstelligen Vertrag für „Frontier-Stufe" KI-Sicherheitstools unterzeichnen, führen Sie eine parallele Evaluation gegen die günstigeren Alternativen an einem repräsentativen Ausschnitt Ihres eigenen Codes durch. Die curl-Zahlen deuten darauf hin, dass das Delta den Preis möglicherweise nicht rechtfertigt.

Achten Sie auf Bug-Entdeckung, nicht nur auf Schwachstellen-Entdeckung. Das stärkste Ergebnis von Mythos bei curl waren die ~20 kleineren Nicht-Sicherheits-Bugs, die es aufdeckte. Diese haben echten Wert — Codequalität verbessert sich, zukünftige Bug-Oberfläche schrumpft, Wartung wird einfacher. Wenn Sie KI-Sicherheitstools rein als CVE-Finder rahmen, unterschätzen Sie sie. Wenn Sie sie als „Codequalität und Risikominderungs"-Tool rahmen, sieht die ROI-Rechnung besser aus.

Dieses Framework ist nicht neu. Es ist das, was erfahrene Sicherheitsingenieure in den letzten 18 Monaten über KI-Tools sagen. Die curl-Episode hat es nur schwieriger gemacht, diese Ingenieure als nicht mehr zeitgemäß abzutun.

Die eine Vorhersage, bei der ich zuversichtlich bin

Ich möchte mit einer Vorhersage schließen, weil ich denke, dass die Trajektorie mehr zählt als die Momentaufnahme.

Die Mythos+curl-Episode wird als der Moment zurückblickend betrachtet werden, in dem das KI-Sicherheitsnarrativ von 2026 rekalibrierte. Nicht weil Mythos scheiterte — das tat es nicht — sondern weil die Kluft zwischen Marketing-Behauptungen und verifiziertem Output unmöglich zu ignorieren wurde, als die Verifizierung von einem Betreuer mit einer öffentlichen Plattform und null Anreiz kam, dem Anbieter zu schmeicheln.

Was als Nächstes passiert, da bin ich mir ziemlich sicher, ist eine leisere, ehrlichere zweite Welle von KI-Sicherheitsbehauptungen. Anbieter werden die Rhetorik von „die Ära der Zero Days geht zu Ende" zurückschrauben. Die Rahmung wird sich zu „Kraftvervielfacher"-Sprache, „Mensch-in-der-Schleife"-Architekturen und „inkrementelle Risikominderung" verschieben — dem tatsächlichen Wertversprechen. Die wirklich neue Forschungsrichtung — autonome agentische Sicherheitstools, die Schwachstellen End-to-End finden, validieren und patchen können — wird weiterhin voranschreiten, aber in einem Tempo, das wie normales Fähigkeitswachstum aussieht, nicht wie der diskontinuierliche Sprung, als den Project Glasswing verpackt wurde.

Die Schwachstellen werden weiter kommen. Curl wird CVEs in ungefähr seiner derzeitigen Rate veröffentlichen. Die Pipeline menschlicher Forscher wird die dominante Quelle hochimpactiger Befunde für mindestens die nächsten Quartale bleiben. KI-Tools werden weiterhin in den Randbereichen ihren Nutzen beweisen, Jahr für Jahr besser werden und gelegentlich etwas wirklich Überraschendes zutage fördern. Meist werden sie das tun, was sie begonnen haben zu tun: die Routinearbeit schneller erfassen, damit Menschen sich auf die schwierige Arbeit konzentrieren können.

Das ist die langweilige Version der Geschichte. Es ist zufällig auch die wahre.

Wenn Sie die unspektakuläre Version der Zukunft der KI-Sicherheit wollen, hier ist sie in einem Satz: Bessere Tools, die von erfahrenen Ingenieuren eingesetzt werden, werden weiterhin schlechtere Tools, die von unerfahrenen Ingenieuren eingesetzt werden, schlagen, und der Abstand zwischen beiden wird größer, nicht kleiner. Die Mythos+curl-Episode ist ein Datenpunkt im Dienste dieser These. Das Marketing wird die Realität irgendwann einholen. Das tut es immer. Aber in der Zwischenzeit ist die kalibrierte Wette, davon auszugehen, dass Ihre KI-Sicherheitstools moderat besser sind als das, was Sie letztes Jahr hatten — und die erfahrenen Menschen fest in der Schleife zu halten.

Daniel Stenberg hat das bereits herausgefunden. Die curl-8.21.0-Veröffentlichung erscheint Ende Juni mit einer CVE niedriger Schwere, gepatcht dank eines KI-Scans, der fünf Schwachstellen versprach und eine lieferte. Der Bug wird behoben. Die Codebasis wird etwas stärker. Das Marketing zieht weiter zur nächsten Behauptung.

Und irgendwo im nächsten Sprint wird ein kompetenter Ingenieur ein KI-Tool verwenden, um einen echten Bug in seiner eigenen Codebasis zu finden, ihn vor dem Release zu beheben und wieder an die Arbeit zu gehen. Das ist die Zukunft. Sie ist bereits da. Sie klingt nur nicht so gut in einer Pressemitteilung.

Häufig gestellte Fragen

Was hat Anthropics Mythos tatsächlich in curl gefunden?

Mythos meldete fünf „bestätigte Sicherheitslücken" in curl, aber nur eine überstand die Überprüfung durch das curl-Sicherheitsteam. Der eine bestätigte Befund ist ein Bug niedriger Schwere, der in curl 8.21.0 gepatcht wird, geplant für Ende Juni 2026. Drei der abgelehnten Befunde waren Falsch-Positive, die dokumentiertes API-Verhalten markierten, und einer war ein Nicht-Sicherheits-Bug. Mythos deckte auch ungefähr 20 kleinere Nicht-Sicherheits-Bugs mit guter Genauigkeit auf.

Warum nannte Daniel Stenberg Mythos einen Marketing-Stunt?

Stenberg, curls Hauptbetreuer, folgerte, dass „der große Hype um dieses Modell bisher in erster Linie Marketing war", weil Mythos frühere KI-Tools wie AISLE, Zeropath oder OpenAI Codex Security nicht übertraf — die alle bereits Hunderte von Bugfixes in den vorangegangenen 8-10 Monaten durch curl gepusht hatten. Die 20% True-Positive-Rate auf dem Label mit der höchsten Konfidenz von Mythos war das entscheidende Signal.

Was ist Anthropics Project Glasswing?

Project Glasswing ist Anthropics Programm mit eingeschränktem Zugang zur Verteilung von Claude Mythos Preview an ausgewählte Sicherheitspartner, mit der Linux Foundation als Kanal für einige Open-Source-Projekte. Anthropic stellte 100 Millionen Dollar an Modell-Credits für das Programm bereit. Stenberg wurde Zugang versprochen, erhielt aber nie direkten Zugang — jemand anderes mit Glasswing-Zugangsdaten führte Mythos gegen curl aus und mailte den Bericht.

Sollte ich KI für die Sicherheitsanalyse in meinen eigenen Projekten verwenden?

Ja, mit der richtigen Rahmung. Aktuelle KI-Sicherheitstools — einschließlich Mythos — funktionieren als Kraftvervielfacher für erfahrene Ingenieure, nicht als Ersatz. Erwarten Sie eine True-Positive-Rate von 15-25% bei gemeldeten Sicherheitsproblemen, planen Sie entsprechend eine Triage-Schicht ein, und lagern Sie die Schweregrad-Klassifizierung nicht an das Modell aus. Siehe das vollständige Implementierungs-Framework im Abschnitt „Was das bedeutet" oben.

Wann wird Mythos für die Öffentlichkeit verfügbar sein?

Anthropic hat keine öffentliche Veröffentlichung angekündigt. Das Modell ist derzeit auf Project-Glasswing-Partner unter einem verwalteten Zugangsprogramm beschränkt, mit Verweis auf Bedenken hinsichtlich offensiver Dual-Use-Fähigkeit. Es gibt keinen veröffentlichten Zeitplan für eine breitere Verfügbarkeit, und basierend auf Anthropics Rahmung des Modells als defensives Mittel für kritische Software erscheint eine breite Freigabe kurzfristig unwahrscheinlich.

Lassen Sie uns zusammenarbeiten

Sie möchten KI-Systeme aufbauen, Workflows automatisieren oder Ihre technische Infrastruktur skalieren? Ich helfe gerne.

Fiverr (Maßanfertigungen & Integrationen): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (Enterprise-Lösungen): ramlit.com
ColorPark (Design & Branding): colorpark.io
xCyberSecurity (Sicherheitsdienste): xcybersecurity.io

Anthropics Mythos traf auf curl. Der Hype überlebte nicht