Anthropic's Mythos testte curl. De hype overleefde het niet

Anthropic's Mythos testte curl. De hype overleefde het niet.

Ik was halverwege mijn tweede koffie op 11 mei toen Daniel Stenbergs blogpost in mijn feed verscheen. De titel was "Mythos finds a curl vulnerability." Dat klonk eenvoudig genoeg. Ik klikte, begon te lezen, en realiseerde me binnen twee alinea's dat het bericht iets veel interessanters deed dan de titel suggereerde.

Het was een beleefde, methodische, ijskoude ontmanteling van een van de meest agressief gepromote AI-aankondigingen van 2026.

Voor de context: Anthropic besteedde april aan het opbouwen van een van de luidruchtigste beveiligingsnarratieven van het jaar. Project Glasswing. Claude Mythos Preview. "De zero days zijn geteld." "Verdedigers krijgen eindelijk de kans om beslissend te winnen." Een commitment van $100 miljoen aan modelcredits. Partnerlijsten die lezen als een who's-who van kritieke software. Ik behandelde de lancering en het onderliggende debat in mijn AI zero-day ontdekking analyse en het Claude Mythos cybersecurity impact stuk. De framing was ondubbelzinnig: Anthropic had iets gebouwd dat zo bekwaam was in het vinden van softwarefouten dat het niet kon worden vrijgegeven aan het publiek.

Toen richtten ze het op curl. De meest gecontroleerde C-codebase op het open web. Onderhouden door iemand die de afgelopen achttien maanden publiekelijk AI-beveiligingsrapporten heeft afgebrand als rommel.

Het resultaat? Mythos leverde vijf "bevestigde beveiligingskwetsbaarheden." Het team van Stenberg bevestigde er een. Een bug met lage ernst. Gepatcht in curl 8.21.0, gepland voor eind juni.

Dat is het datapunt dat niet in het persbericht stond. En het is het datapunt waar je even bij stil moet staan — want als je software bouwt voor de kost, agents in productie draait, of geeft om waar AI-ondersteunde beveiliging nu daadwerkelijk staat (niet waar het slidedeck beweert), dan heeft de curl-episode je zojuist een schone, goed geinstrumenteerde aflezing van de waarheid gegeven.

Laat me je door de feiten leiden: wat er werkelijk gebeurde, wat het betekent, en waarom ik denk dat deze ene CVE met lage ernst meer waard is dan het persbericht dat eromheen verscheen.

Wat Anthropic daadwerkelijk beloofde met Mythos

Voordat we bij de curl-data komen, zijn de marketingclaims relevant — want het gat tussen die claims en het resultaat is het hele verhaal.

Anthropic kondigde Project Glasswing aan op 7 april 2026. De kop was Claude Mythos Preview, omschreven als "een algemeen inzetbaar, niet-uitgebracht frontiermodel" dat "een niveau van codeervaardigheid had bereikt waarmee het alle mensen behalve de meest vaardige kan overtreffen bij het vinden en exploiteren van softwarekwetsbaarheden." Dat zijn Anthropics woorden, niet de mijne.

Het ondersteunend bewijs was indrukwekkend. Mythos had naar verluidt duizenden ernstige kwetsbaarheden geidentificeerd in grote besturingssystemen en webbrowsers. De enige democasus die de meeste aandacht kreeg: Mythos vond en exploiteerde autonoom een 17 jaar oude remote code execution-fout in FreeBSD die root-toegang gaf tot elke machine die NFS draaide — getriageerd als CVE-2026-4747. Anthropic claimde ook een slagingspercentage van 83,1% op CyberGym, een benchmark die autonome ontdekking van echte CVE's in echte codebases meet. Het vorige beste model stond op 66,6%.

Tot zover indrukwekkend. Toen kwamen de marketingclaims die elke werkende beveiligingsonderzoeker die ik volg met samengeknepen ogen naar hun scherm deden kijken.

"De zero days zijn geteld."

"Verdedigers krijgen eindelijk de kans om beslissend te winnen."

Dat is de framing die Anthropic koos. Niet "dit is een nuttig nieuw hulpmiddel." Niet "AI-ondersteunde code-analyse is net aanzienlijk beter geworden." Een categoriale verschuiving in cyberaanval en -verdediging. Een nieuw tijdperk. Een wapen zo krachtig dat Anthropic weigerde het breed beschikbaar te maken — in plaats daarvan werd toegang verdeeld via Project Glasswing aan een kleine groep partners, met de Linux Foundation als kanaal voor sommige open-source beheerders.

De strategische positionering was helder. Capaciteit zo gevaarlijk dat het niet open kan zijn. Capaciteit zo noodzakelijk dat het ingezet moet worden. Vertrouw ons met de controles.

Ik ben lang genoeg in het vak om te herkennen wanneer een bedrijf een echte veiligheidsmaatregel neemt versus wanneer ze een positioneringszet doen. Beide kunnen tegelijkertijd waar zijn. Maar de test welke domineert is altijd dezelfde: wat gebeurt er wanneer de capaciteit een serieuze benchmark in het wild ontmoet, ten overstaan van iemand die niet gevleid kan worden?

Die test kwam op 6 mei 2026. De benchmark was curl. Die iemand was Daniel Stenberg.

Waarom curl de perfecte test is (en de slechtste voor de marketing)

Als je Mythos wilde laten falen, zou je het op curl richten. Als je het eerlijk wilde laten slagen, zou je het ook op curl richten. Hetzelfde antwoord in beide gevallen — want curl is de schoonst mogelijke testomgeving voor een AI-kwetsbaarheidsscanner, en die zuiverheid snijdt aan twee kanten.

Dit is waarom.

Curl is ruwweg 178.000 regels C onderhouden door een gemeenschap van 573 bijdragers gedurende meer dan twee decennia. Het draait op meer dan 110 besturingssystemen en 28 CPU-architecturen. Het is geinstalleerd op meer dan 20 miljard apparaten — telefoons, tablets, auto's, tv's, gameconsoles, servers, embedded systemen waarvan je niet eens weet dat ze bestaan. Als jouw software met het internet communiceert, zit curl waarschijnlijk ergens in je stack.

Dat alleen al maakt het een waardevol doelwit. Maar wat voor dit gesprek telt is de beveiligingshouding. Curl heeft 188 CVE's gepubliceerd over zijn levensduur, met een verwachting van circa 50 nieuwe kwetsbaarheden die in 2026 openbaar worden gemaakt. Dat is geen teken dat de codebase slordig is. Het is een teken dat de codebase onderzocht wordt. Elke CVE vertegenwoordigt een kwetsbaarheid die werd gevonden en opgelost voordat deze werd uitgebuit, wat precies de cyclus is die je wilt van een beveiligingskritisch project.

De defensieve infrastructuur binnen curl is, naar elke redelijke maatstaf, van wereldklasse. Gebufferde dynamische buffers. Expliciete handhaving van maximale waarden bij numerieke parsing. Overflow-beveiligingen. Format-string handhaving die systematisch hele bugklassen uitschakelt. Continue fuzzing. Statische analyse. Geautomatiseerde regressiedekking. En — cruciaal voor dit verhaal — een uitgebreide geschiedenis van AI-ondersteunde beveiligingsanalyse door eerdere tools.

Stenberg zelf is opmerkelijk transparant geweest hierover. In zijn blogpost van 22 april 2026 "High-Quality Chaos" merkte hij op dat AI-ondersteunde rapporten eindelijk de overgang hadden gemaakt van voornamelijk rommel naar zinvol bruikbaar. Hij noemde de tools die echt signaal leverden: AISLE, Zeropath en OpenAI Codex Security. Samen hadden die eerdere generatie AI-tools twee- tot driehonderd bugfixes veroorzaakt die in curl waren samengevoegd in de voorgaande 8-10 maanden.

Lees die zin nog eens. Voordat Mythos ooit curl scande, hadden eerdere generatie AI-tools al honderden fixes in de codebase gepusht. De makkelijke bugs — het soort dat verschijnt bij basale patroonherkenning, het soort dat fuzzers vinden met een paar duizend iteraties, het soort dat elke "AI-beveiligingsscanner" kan vangen in een demo — waren al weg. Wat overbleef was de moeilijke laag: echte bugs verborgen in subtiele codepaden, diepe randgevallen, meerstaps-precondities.

Dat is precies het oppervlak waar een categorisch beter model zou moeten presteren. Als Mythos echt een stapsgewijze verandering vertegenwoordigt in kwetsbaarheidsonderzoek — het soort dat de framing "de zero days zijn geteld" rechtvaardigt — dan is curl precies waar je het zou verwachten te zien bewijzen.

Dus wat leverde de test op?

Het daadwerkelijke Mythos-rapport: vijf rapporten, een echte bug

Stenbergs blogpost doorloopt het rapport dat hij ontving. Opvallend: Stenberg kreeg nooit directe toegang tot Mythos. Anthropic had hem toegang beloofd via Project Glasswing via de Linux Foundation. Die toegang is nooit gerealiseerd. In plaats daarvan draaide iemand anders met Mythos-inloggegevens het model tegen de curl-repository en e-mailde Stenberg de output.

Het rapport bevatte vijf bevindingen, elk door Mythos gelabeld als een "bevestigde beveiligingskwetsbaarheid."

Stenbergs zevenpersoonssteam voor beveiliging beoordeelde ze allemaal. Dit is de uitsplitsing van wat het contact met mensen die de codebase daadwerkelijk kennen overleefde:

Bevinding	Mythos-oordeel	Oordeel curl-team
Issue 1	Bevestigde kwetsbaarheid	Kwetsbaarheid lage ernst — CVE in 8.21.0
Issue 2	Bevestigde kwetsbaarheid	Vals positief — gedocumenteerd API-gedrag
Issue 3	Bevestigde kwetsbaarheid	Vals positief — gedocumenteerd API-gedrag
Issue 4	Bevestigde kwetsbaarheid	Vals positief — gedocumenteerd API-gedrag
Issue 5	Bevestigde kwetsbaarheid	Bug, maar geen beveiligingsprobleem

Een op de vijf. Een true-positive percentage van 20% op het belangrijkste label dat Mythos toepaste. En degene die het overleefde wordt gepatcht als een CVE met lage ernst in curl 8.21.0, gepland voor eind juni.

Laat me precies zijn over wat "lage ernst" betekent in curls CVSS-framework, want het woord kan zachter landen dan het zou moeten. Lage ernst op curl-schaal betekent nog steeds een echte bug, een echte openbaarmaking, een echte patchcyclus, en een echte gecoordineerde update over miljarden apparaten. Het is niet niets. Het is ook niet het soort bevinding dat de retoriek "verdedigers krijgen eindelijk de kans om beslissend te winnen" rechtvaardigt.

De aanvullende resultaten zijn iets interessanter. Naast de vijf "beveiligingskwetsbaarheden" markeerde Mythos ook ruwweg 20 kleine bugs in de codebase. De meeste hiervan hielden stand bij beoordeling. Het waren geen beveiligingsproblemen, maar het waren echte bugs — codekwaliteitsbevindingen waar het curl-team sindsdien mee aan de slag is gegaan. Dat is oprecht nuttige output. Het is ook precies wat een competente code-review LLM al minstens een jaar kan produceren, en wat tools als AISLE en Zeropath al op schaal leveren.

Stenbergs conclusie, in zijn eigen woorden: "Mijn persoonlijke conclusie kan echter niet anders eindigen dan dat de grote hype rond dit model tot nu toe voornamelijk marketing was." En: "Ik zie geen bewijs dat deze opzet problemen vindt op een bijzonder hoger of geavanceerder niveau dan de andere tools voor Mythos hebben gedaan."

Dat is geen terloopse sneer. Dat is een open-source beheerder met decennia ervaring die een van de meest belaste beveiligingspijplijnen op het internet beheert, die rustig stelt dat het meest gepromote AI-beveiligingsmodel van 2026 niet beter presteerde dan de tools die al beschikbaar waren.

Als je nu met AI bouwt — agents, automatiseringen, beveiligingstools, wat dan ook — is dat datapunt meer waard dan het volledige persbericht dat eromheen verscheen. Laat me uitleggen waarom.

Wat dit ons vertelt over waar AI-beveiliging werkelijk staat

Ik wil doorlopen wat de curl-episode naar mijn mening daadwerkelijk bewijst, want het is niet de simpele "Mythos is een flop"-lezing waar sommige commentatoren mee komen.

Drie dingen zijn tegelijkertijd waar. Geen ervan is comfortabel voor de maximalistische of minimalistische positie.

Ten eerste: Mythos is echt, werkend en zinvol bekwaam. Een model dat een C-codebase van 178.000 regels scant, onderhouden door 573 bijdragers, en een echte CVE plus 20 kleine bugs naar boven haalt in een enkele doorloop, is niet niets. Dat is een niet-triviaal resultaat tegen een codebase die door elke fuzzer, statische analyser en AI-beveiligingstool in productie is bewerkt. Het signaal is echt. De output is bruikbaar.

Ten tweede: Mythos is niet de categoriale sprong die de marketing claimde. Het true-positive percentage van 20% op het label met de hoogste betrouwbaarheid, gecombineerd met het feit dat eerdere generatie AI-tools al honderden bugfixes door curl pushten, doet de framing "de zero days zijn geteld" landen als marketingtekst in plaats van technische realiteit. Mythos lijkt een gematigde verbetering ten opzichte van reeds ingezette tools, geen paradigmaverschuiving.

Ten derde: het gat tussen (1) en (2) is het belangrijkste feit in het hele AI-beveiligingsnarratief van 2026. Het is het gat waar elke overclaim, elk beperkt-toegangsbeleid, elke angstmarketingcyclus leeft. En het gat sluit zich — maar niet in de richting die de marketing suggereert. De realiteit is gematigd bruikbare tools, gebruikt door ervaren mensen, die incrementele winst in beveiliging opleveren. De marketing blijft aandringen op revolutie.

Ik zal eerlijk zijn. Ik verwachtte ergens anders uit te komen toen ik begon met het schrijven van dit bericht. Het narratief van Anthropic is intern consistent. De FreeBSD-demo was opvallend. De CyberGym-cijfers, op hun nominale waarde genomen, zijn indrukwekkend. Toen ik het onderzoek inging, verwachtte ik half dat Stenberg te streng was, of dat de curl-test een oneerlijke arena was, of dat het vals-positief percentage zou afzwakken bij nadere lezing.

Dat was niet het geval. De cijfers zijn wat ze zijn. Een op de vijf op het beveiligingslabel. Twintig kleine bugs met acceptabele nauwkeurigheid. Nul geavanceerde bevindingen die eerdere tools misten. Tegen de meest uitgebreid voorgeanalyseerde open-source C-codebase ter wereld presteerde Mythos als een gematigd betere versie van wat al in productie was.

Dit sluit rechtstreeks aan bij een frame waar ik steeds op terugkom: het hype-versus-realiteit kalibratieprobleem in AI waarover ik eerder heb geschreven. Marketingclaims reizen met internetsnelheid. Verificatie reist met menselijke snelheid. Het venster tussen lancering en verificatie is precies waar het narratief wordt gevormd — en tegen de tijd dat de verificatie arriveert, is het oorspronkelijke narratief vaak al ingeprijsd door de markten, de pers en het beleidsgesprek.

Dit is geen anti-AI-standpunt. Ik draai dagelijks AI-agents in productie. Ik zet mijn eigen tijd en geld in op deze tools. Maar goed inzetten vereist kalibratie, en kalibratie vereist observeren wat er gebeurt wanneer capaciteitsclaims de echte wereld ontmoeten.

De curl-test is de echte wereld. De score is een bug met lage ernst.

De rijpingscurve: van AI-rommel naar bruikbaar, in twee jaar

Er is een langer verhaal hier dat de moeite waard is om uit te zoomen, want de curl-episode is geen enkelbeeldopname — het is een beeld in een reeks die twee jaar geleden begon en nog steeds evolueert.

Bekijk de tijdlijn:

2 januari 2024. Daniel Stenberg publiceert "The I in LLM stands for Intelligence." Daarin beschrijft hij de vloed aan lage-kwaliteit AI-gegenereerde bugrapporten die curls HackerOne-programma bereiken. Tegen medio 2025 schatte hij dat ruwweg 20% van de inzendingen naar de curl bug bounty wat hij "AI-rommel" noemde — rapporten die technisch klonken maar niets bruikbaars bevatten. Het percentage accurate rapporten daalde tot ruwweg een op de 20 of een op de 30, en triage putte de bandbreedte van het zevenpersoonssteam uit.

26 januari 2026. Curl kondigde de beeindiging van zijn betaalde bug bounty-programma aan. De genoemde reden: AI-gegenereerde rommel had de kosten-batenberekening doen instorten. Een bounty ontworpen om bruikbare onthullingen te belonen was een magneet geworden voor laag-inspanning, hoog-volume AI-ondersteunde inzendingen. Curl was niet het enige project dat getroffen werd — Nextcloud en meerdere anderen namen rond dezelfde tijd vergelijkbare stappen. Het open-source beveiligingsecosysteem werd geDDoS'd door AI-gegenereerde rapporten.

22 april 2026. Stenberg publiceert "High-Quality Chaos." De toonverschuiving is echt. Hij merkt op dat AI-ondersteunde rapporten — wanneer uitgevoerd door ervaren engineers, niet anonieme bounty-indieners — nu oprecht signaal leveren. Tools als AISLE, Zeropath en OpenAI Codex Security hebben gezamenlijk honderden fixes in curl gepusht. AI heeft de drempel overschreden van netto-negatief naar netto-positief in het curl-ecosysteem.

6 mei 2026. Curl ontvangt het Mythos-rapport. Vijf bevindingen. Een overleeft de beoordeling.

Eind juni 2026 (gepland). Curl 8.21.0 verschijnt met de patch voor de ene bevestigde Mythos-bevinding.

Die twee jaar durende boog is het werkelijke verhaal. AI-beveiligingstools begonnen als een ergernis, werden bescheiden bruikbaar, en verbeteren nu incrementeel — kwartaal na kwartaal, modelrelease na modelrelease, waarbij elke generatie iets strakker is dan de vorige. Mythos is het nieuwste datapunt op die curve, geen discontinuiteit ervan.

Ik denk dat die boog de belangrijkste framing is voor elke ontwikkelaar die probeert uit te vogelen waar hij nu zijn inzet moet plaatsen. De rijpingscurve is echt. Ze wijst in een bruikbare richting. Maar ze is niet verticaal. Ze is niet eens bijzonder steil. Het is een normale, enigszins-sneller-dan-gebruikelijke capaciteitscurve in een veld dat al minstens drie jaar teveel is beloofd.

Kanttekening — ik testte deze hypothese afgelopen weekend op mijn eigen infrastructuur. Voerde een AI-ondersteunde beveiligingsreview uit op een middelgrote Laravel-codebase die ik voor een klant onderhoud. De bevindingen waren bruikbaar. Sommige stonden al in onze backlog. Een paar waren oprecht nieuw. Geen ervan rechtvaardigde het herschrijven van de beveiligingsstrategie. Die ervaring sluit precies aan bij wat het curl-team rapporteert. Bruikbaar hulpmiddel. Geen revolutie. Combineer het met ervaren mensen en het verdient zijn plek. Geef het het stuur en het verspilt je tijd.

Het Project Glasswing-gelijkheidsprobleem waar niemand over wil praten

Er is een onderdeel van dit verhaal dat de technische analyses steeds overslaan, en ik wil er wat tijd aan besteden omdat ik denk dat het het meest ingrijpende langetermijnprobleem is.

Mythos is beperkt. Het model is niet breed beschikbaar. Toegang wordt geregeld via Project Glasswing, met een gecureerde partnerlijst en de Linux Foundation als kanaal voor een kleine set open-source projecten. Anthropics framing is dat het model te gevaarlijk is om breed vrij te geven, dus richten ze het op defensief gebruik bij vertrouwde partners en committeren ze $100 miljoen aan modelcredits om het economisch haalbaar te maken voor die partners.

Neem die framing even op nominale waarde. Het structurele gevolg is hetzelfde ongeacht de intentie: een klein aantal organisaties krijgt vroege toegang tot het beste kwetsbaarheidsdetectiemodel dat beschikbaar is, en de rest van de wereld niet.

Leg daar nu twee feiten naast.

Feit een: Stenberg, de beheerder van een van de meest beveiligingskritieke stukken open-source infrastructuur op het internet, was Mythos-toegang beloofd via Glasswing en heeft die nooit gekregen. Hij moest wachten tot iemand anders het model draaide en hem het rapport e-mailde. Als curl te klein is om de toegangsdrempel te halen, wat zegt dat dan over de lange staart van minder beroemde open-source projecten? De 90% van dependencies die onder jouw applicatie zitten die geen beheerder met een herkenbare naam hebben?

Feit twee: Anthropics eigen interne beoordeling, gelekt in het Claude Mythos documentlek eerder dit jaar, beschreef het model als kantelend in het aanval-verdedigingsevenwicht ten gunste van aanval. Hun woorden, niet de mijne. Het model is een krachtversterker voor wie het bezit. Toegang beperken op basis van vertrouwen en curatie betekent dat verdedigers met toegang de versterker krijgen; verdedigers zonder toegang niet.

Waar dit in de praktijk landt: goed gefinancierde organisaties met de juiste relaties worden beschermd. Alle anderen mogen hopen dat het uiteindelijke publieke model arriveert voordat een aanvaller met vergelijkbare capaciteit dat doet. Dat is geen hypothetische zorg — het is hetzelfde toegangsasymmetrieprobleem dat al decennialang een kenmerk van de cyberbeveiligingsindustrie is, behalve dat de asymmetrie nu op de modellaag zit in plaats van de toolinglaag.

Ik beweer niet dat Anthropic de verkeerde keuze heeft gemaakt. Het dual-use probleem is reeel. Een breed uitgebracht Mythos zou absoluut in handen van aanvallers belanden, en de veiligheidsargumentatie voor gefaseerde uitrol heeft verdienste. Maar er is een reele kostprijs voor die aanpak, en die kostprijs wordt onevenredig gedragen door de kleinere spelers in het beveiligingsecosysteem — de beheerders, de indie beveiligingsonderzoekers, de open-source projecten die niet de institutionele invloed hebben om op een Glasswing-partnerlijst te komen.

Als de marketingframing eerlijk was, zou het deze kosten erkennen. "De zero days zijn geteld" zou worden "de zero days zijn geteld voor onze partners; de rest moet het zelf nog uitzoeken." Dat is een minder indrukwekkende kop. Het is ook dichter bij wat er daadwerkelijk gebeurt.

Wat dit betekent voor hoe je AI inzet in je eigen beveiligingswerk

Laat me terugkomen op de praktische vraag, want als je dit leest, heb je waarschijnlijk al AI-tools ergens in je beveiligingsstack — of je overweegt het. De curl-episode heeft specifieke implicaties voor hoe je die tools goed gebruikt.

Dit is het framework waar ik nu mee werk, gebaseerd op wat de curl-data ons vertelt.

Gebruik AI als krachtversterker voor de ervaren engineer, niet als vervanging. Het curl-team haalde bruikbare output uit Mythos omdat ze een zevenpersoonssteam hadden dat vijf bevindingen kon triagen tot een waarheid. Zonder die triagelaag zouden alle vijf bevindingen ofwel als echt zijn behandeld (met verspilling van downstream-inspanning) of alle vijf zouden zijn afgewezen (waardoor de ene echte bug gemist zou zijn). De triagelaag is de waarde. AI zonder expertbeoordeling is rommel. Expertbeoordeling zonder AI is langzamer dan nodig. Samen zijn ze de huidige stand van de techniek.

Verwacht een true-positive percentage van 15-25% op gemarkeerde beveiligingsproblemen van elke huidige AI-tool. Dat is ruwweg waar Mythos landde tegen curl, en het is consistent met wat ik heb gezien bij Codex-achtige beveiligingsscanners in klantwerk. Plan je beoordelingspijplijn rond die verhouding. Als je team het zich niet kan veroorloven om vier vals-positieven te triagen voor elke echte bevinding, kost AI-beveiligingstooling je meer tijd dan het bespaart.

Behandel ernstlabels van AI-tools als suggesties, niet als classificaties. Mythos labelde alle vijf de curl-bevindingen als bevestigde beveiligingskwetsbaarheden. De daadwerkelijke ernsttoewijzing van het curl-team voor de ene echte bevinding was laag. Dat is een meerstaps downgrade — van "beveiligingskwetsbaarheid" naar "bug met lage ernst." Ernst is een oordeelsvorming die afhangt van dreigingsmodel, aanvalsoppervlak en exploitcondities. AI-tools kunnen dat oordeel momenteel niet goed maken. Ze markeren patronen. Mensen beoordelen risico's.

Betaal niet voor de versie-gebonden enterprise-laag tenzij je de winst kunt verifieren. Het Mythos-resultaat tegen curl, vergeleken met resultaten van AISLE en Zeropath in de maanden ervoor, suggereert dat het verschil tussen frontier beveiligingsmodellen en de vorige generatie kleiner is dan de marketing impliceert. Voordat je een zescijferig contract tekent voor "frontier-laag" AI-beveiligingstools, voer een parallelle evaluatie uit tegen de goedkopere alternatieven op een representatief stuk van je eigen code. De curl-cijfers suggereren dat het verschil de prijs mogelijk niet rechtvaardigt.

Let op bugontdekking, niet alleen kwetsbaarheidsontdekking. Het sterkste resultaat van Mythos op curl was de ~20 kleine niet-beveiligingsbugs die het naar boven haalde. Die hebben echte waarde — codekwaliteit verbetert, toekomstig bugoppervlak krimpt, onderhoud wordt eenvoudiger. Als je AI-beveiligingstools puur framet als CVE-vinder, onderwaarder je het. Als je het framet als een "codekwaliteit en risicovermindering"-tool, ziet de ROI-berekening er beter uit.

Dit framework is niet nieuw. Het is wat ervaren beveiligingsingenieurs de afgelopen 18 maanden zeggen over AI-tools. De curl-episode maakte het alleen moeilijker om die ingenieurs als niet meer bij de tijd af te doen.

De ene voorspelling waar ik vertrouwen in heb

Ik wil afsluiten met een voorspelling, want ik denk dat de trajectorie meer uitmaakt dan de momentopname.

De Mythos+curl-episode zal worden terugbeschouwd als het moment waarop het AI-beveiligingsnarratief van 2026 herkalibreerde. Niet omdat Mythos faalde — dat deed het niet — maar omdat het gat tussen marketingclaims en geverifieerde output onmogelijk te negeren werd toen de verificatie kwam van een beheerder met een publiek platform en nul prikkels om de leverancier te vleien.

Wat er vervolgens gebeurt, durf ik te wedden, is een stillere, eerlijkere tweede golf van AI-beveiligingsclaims. Leveranciers zullen de retoriek van "de zero days zijn geteld" terugschroeven. De framing verschuift naar "krachtversterker"-taal, "mens-in-de-loop"-architecturen, en "incrementele risicovermindering" — de werkelijke waardepropositie. De echt nieuwe onderzoeksrichting — autonome agentische beveiligingstools die kwetsbaarheden end-to-end kunnen vinden, valideren en patchen — zal blijven vorderen, maar in een tempo dat lijkt op normale capaciteitsgroei, niet de discontinue sprong waarvoor Project Glasswing werd verpakt.

De kwetsbaarheden blijven komen. Curl blijft CVE's publiceren op ruwweg het huidige tempo. De pijplijn van menselijke onderzoekers blijft de dominante bron van hoog-impact bevindingen voor minstens de komende kwartalen. AI-tools blijven hun nut bewijzen in de marges, worden jaar na jaar beter, en leveren af en toe iets oprecht verrassends op. Meestal doen ze wat ze zijn begonnen te doen: het routinewerk sneller vangen zodat mensen zich kunnen focussen op het moeilijke werk.

Dat is de saaie versie van het verhaal. Het is toevallig ook de ware.

Als je de onsexye versie van de toekomst van AI-beveiliging wilt, hier is het in een zin: betere tools gebruikt door ervaren engineers blijven betere tools gebruikt door onervaren engineers verslaan, en het verschil tussen die twee wordt groter, niet kleiner. De Mythos+curl-episode is een datapunt ten dienste van die stelling. De marketing haalt de realiteit uiteindelijk in. Dat doet het altijd. Maar ondertussen is de gekalibreerde inzet om aan te nemen dat je AI-beveiligingstools gematigd beter zijn dan wat je vorig jaar had — en om de ervaren mensen stevig in de loop te houden.

Daniel Stenberg heeft dit al uitgevogeld. De curl 8.21.0-release verschijnt eind juni met een CVE met lage ernst gepatcht, dankzij een AI-scan die vijf kwetsbaarheden beloofde en er een leverde. De bug wordt opgelost. De codebase wordt iets sterker. De marketing gaat verder naar de volgende claim.

En ergens in de volgende sprint gaat een competente engineer een AI-tool gebruiken om een echte bug in hun eigen codebase te vinden, die te fixen voordat het in productie gaat, en weer aan het werk gaan. Dat is de toekomst. Die is er al. Het klinkt alleen niet zo goed in een persbericht.

Veelgestelde vragen

Wat vond Anthropic's Mythos daadwerkelijk in curl?

Mythos rapporteerde vijf "bevestigde beveiligingskwetsbaarheden" in curl, maar slechts een overleefde de beoordeling door het curl-beveiligingsteam. De ene bevestigde bevinding is een bug met lage ernst die wordt gepatcht in curl 8.21.0, gepland voor eind juni 2026. Drie van de afgewezen bevindingen waren vals-positieven die gedocumenteerd API-gedrag markeerden, en een was een niet-beveiligingsbug. Mythos bracht ook ruwweg 20 kleine niet-beveiligingsbugs naar boven met goede nauwkeurigheid.

Waarom noemde Daniel Stenberg Mythos een marketingstunt?

Stenberg, curls hoofdbeheerder, concludeerde dat "de grote hype rond dit model tot nu toe voornamelijk marketing was" omdat Mythos niet beter presteerde dan eerdere AI-tools als AISLE, Zeropath of OpenAI Codex Security — die allemaal al honderden bugfixes door curl hadden gepusht in de voorgaande 8-10 maanden. Het true-positive percentage van 20% op het label met de hoogste betrouwbaarheid van Mythos was het doorslaggevende signaal.

Wat is Anthropic's Project Glasswing?

Project Glasswing is Anthropics programma met beperkte toegang voor het distribueren van Claude Mythos Preview aan geselecteerde beveiligingspartners, met de Linux Foundation als kanaal voor sommige open-source projecten. Anthropic committeerde $100 miljoen aan modelcredits aan het programma. Stenberg was toegang beloofd maar kreeg nooit directe toegang — iemand anders met Glasswing-inloggegevens draaide Mythos tegen curl en e-mailde het rapport.

Moet ik AI gebruiken voor beveiligingsanalyse in mijn eigen projecten?

Ja, met de juiste framing. Huidige AI-beveiligingstools — inclusief Mythos — werken als krachtversterkers voor ervaren engineers, niet als vervanging. Verwacht een true-positive percentage van 15-25% op gemarkeerde beveiligingsproblemen, plan dienovereenkomstig een triagelaag, en besteed de ernstclassificatie niet uit aan het model. Zie het volledige implementatieframework in het gedeelte "Wat dit betekent" hierboven.

Wanneer wordt Mythos beschikbaar voor het publiek?

Anthropic heeft geen publieke release aangekondigd. Het model is momenteel beperkt tot Project Glasswing-partners onder een beheerd toegangsprogramma, met als reden zorgen over dual-use offensieve capaciteit. Er is geen gepubliceerde tijdlijn voor bredere beschikbaarheid, en op basis van Anthropics framing van het model als een defensief middel voor kritieke software, lijkt brede release op korte termijn onwaarschijnlijk.

Laten we samenwerken

Op zoek naar hulp bij het bouwen van AI-systemen, het automatiseren van workflows of het opschalen van je technische infrastructuur? Ik help graag.

Fiverr (maatwerk & integraties): fiverr.com/s/EgxYmWD
Portfolio: mejba.me
Ramlit Limited (enterprise-oplossingen): ramlit.com
ColorPark (design & branding): colorpark.io
xCyberSecurity (beveiligingsdiensten): xcybersecurity.io

Anthropic's Mythos testte curl. De hype overleefde het niet