Mythos contro curl: quando l’AI “troppo pericolosa” incontra la realtà del codice
Si parla di:
Toggle
Per settimane il nome “Mythos” è stato costruito come un oggetto quasi mitologico. Anthropic lo ha presentato come un modello AI capace di trovare vulnerabilità zero-day a un livello tale da risultare “troppo pericoloso” per una release pubblica. Una narrativa perfetta per il ciclo mediatico dell’AI security nel 2026: modello segreto, capacità offensive avanzate, accesso ristretto, migliaia di vulnerabilità individuate. Il genere di storytelling che nel mondo cyber si propaga in poche ore tra LinkedIn, Twitter/X, keynote e blog enterprise.
Poi però Mythos è stato testato contro uno dei progetti open source più scrutinati del pianeta: curl. E lì il racconto ha iniziato a incrinarsi.
Un software scritto come si deve
A raccontarlo è stato direttamente Daniel Stenberg, storico maintainer di curl e figura ormai centrale nel dibattito sulla collisione tra AI e vulnerability research. Nel suo lungo post pubblicato sul blog personale, Stenberg descrive il risultato dell’analisi effettuata con Mythos sul repository di curl: cinque vulnerabilità segnalate come “confirmed security vulnerabilities”. Dopo il triage umano del team sicurezza di curl, il bilancio finale si è ridotto a una sola vulnerabilità reale, classificata a bassa severità, tre falsi positivi e un semplice bug non-security. (daniel.haxx.se)
Ed è qui che il tema diventa interessante, perché il punto non è tanto “Mythos non funziona”. Anzi. Stenberg stesso riconosce che il report contiene analisi tecniche solide e bug descritti bene, con un numero relativamente basso di falsi positivi rispetto alla media degli scanner AI attuali. Il problema è un altro: il gap enorme tra la narrativa costruita attorno al modello e i risultati concreti osservabili sul campo.
La frase più pesante dell’intero post è probabilmente questa:
“the big hype around this model so far was primarily marketing”
Un software largamente usato
Una dichiarazione che arriva non da un opinionista qualsiasi, ma da uno dei maintainer open source più esposti al fenomeno AI-assisted vulnerability hunting. Negli ultimi mesi Stenberg ha documentato pubblicamente l’esplosione di report generati da AI, il collasso qualitativo di molti bug bounty submission e il nuovo scenario che lui stesso definisce “high-quality chaos”.
Il contesto infatti è fondamentale. curl non è un target qualunque. È software vecchio di decenni, onnipresente, analizzato continuamente da ricercatori, aziende, fuzzing infrastructure, static analyzer, LLM e offensive security team. Il progetto ha già attraversato una vera ondata di AI-powered auditing nel 2025 e 2026, con centinaia di issue segnalate e decine di CVE pubblicate.
In altre parole: Mythos non stava entrando in un territorio inesplorato. Stava arrivando su un codice già passato attraverso un livello di scrutiny estremo.
Ed è qui che la promessa implicita di Anthropic sembra perdere consistenza. Se un modello viene presentato quasi come una svolta paradigmatica nella vulnerability discovery offensiva, ci si aspetta almeno un salto qualitativo evidente rispetto agli strumenti precedenti. Non necessariamente centinaia di 0-day critici, ma almeno pattern nuovi, classi di bug differenti, chaining più sofisticati o insight architetturali difficili da intercettare con gli attuali sistemi AI-assisted SAST.
Secondo Stenberg, questo salto non si è visto.
Anzi, il maintainer di curl arriva a sostenere che altri strumenti AI usati in precedenza avevano già prodotto quantità maggiori di bugfix. Mythos forse è “leggermente migliore”, scrive, ma non abbastanza da cambiare realmente il paradigma della code analysis.
Questa distinzione è cruciale perché separa due fenomeni che oggi vengono continuamente confusi nel marketing AI security.
Il primo fenomeno è reale: i moderni LLM stanno diventando estremamente efficaci nell’analisi del codice. Stenberg lo dice chiaramente. Gli strumenti AI contemporanei trovano vulnerabilità meglio dei tradizionali static analyzer. La differenza rispetto a cinque anni fa è concreta e misurabile.
Il secondo fenomeno invece è narrativo: trasformare questo miglioramento incrementale in una retorica quasi apocalittica, dove ogni nuovo modello viene descritto come un cyber-weapon rivoluzionario capace di destabilizzare l’intero ecosistema software.
Ed è proprio questa seconda parte che il caso Mythos sembra mettere in discussione.
L’hype dell’AI ormai incontrollabile
Perché il rischio, nel settore cybersecurity, è che l’hype finisca per sostituire il metodo. La comunicazione attorno a Mythos ha funzionato perfettamente: accesso ristretto, dichiarazioni sulla pericolosità del modello, riferimenti a migliaia di zero-day trovati internamente, programma limitato a poche organizzazioni strategiche. Tutti elementi che costruiscono scarsità, percezione di superiorità tecnologica e senso di urgenza.
Ma quando il modello viene finalmente osservato in un caso reale e pubblico, il risultato appare molto più ordinario: un buon AI-assisted code analyzer che trova un low severity issue in un progetto maturissimo e già massacrato da anni di auditing.
Non è poco. Ma non è nemmeno la rivoluzione promessa.
La parte forse più interessante dell’intera vicenda è che Stenberg non assume una posizione anti-AI. Al contrario. La sua analisi è molto più sofisticata della solita polarizzazione “AI sì / AI no”. Lui riconosce apertamente che gli LLM stanno cambiando il vulnerability research landscape. Il problema, semmai, è che il settore sta sovrastimando la distanza tra i nuovi modelli “frontier” e ciò che gli strumenti AI moderni già fanno oggi.
Ed è una riflessione che nel mondo offensive security merita attenzione.
Perché se Mythos — il modello presentato come troppo pericoloso per essere rilasciato — produce risultati sostanzialmente comparabili agli strumenti già esistenti, allora forse la vera trasformazione non è l’arrivo di un singolo modello “superiore”, ma la democratizzazione progressiva dell’AI-assisted vulnerability discovery.
Una differenza enorme.
Nel primo scenario, il vantaggio resta concentrato nelle mani di pochi laboratori frontier AI. Nel secondo, invece, la capacità offensiva si distribuisce rapidamente: più ricercatori, più scanner, più auditing, più rumore, più CVE, più triage umano necessario.
Ed è esattamente il futuro che Stenberg sembra vedere arrivare: non una singola AI onnipotente, ma un ecosistema saturo di agenti capaci di produrre contemporaneamente valore tecnico reale e quantità industriali di “security slop”.
Un mondo dove il problema non è più trovare vulnerabilità. È distinguere quelle importanti dal resto.
ozeng
in reply to nest • • •@jdlbt Dunning-Kruger effect is the achilles heel of AI. If you don’t know what to do, just confidently try something. When it doesn’t work, try something else. And so on. When it succeeds, you’re the fuckin genius now.. and you didn’t wreck the planet!*
*depends what sorta things you’re trying tho
Veronica Olsen 🏳️🌈
in reply to ozeng • • •@ozeng @jdlbt
Dunning-Kruger as a Services
Szescstopni
in reply to ozeng • • •@ozeng @jdlbt This is more related to Gell-Mann amnesia effect
en.wikipedia.org/wiki/Michael_…
Michael Crichton - Wikipedia
Contributors to Wikimedia projects (Wikimedia Foundation, Inc.)Gary McGraw
in reply to nest • • •sotolf
in reply to Gary McGraw • • •Mr. Encyclopedia
in reply to nest • • •Mark Gjøl
in reply to Mr. Encyclopedia • • •aoanla
in reply to Mr. Encyclopedia • • •half/byte
in reply to nest • • •Rob Williamson
in reply to nest • • •Wasn't there a study about that?
Naturally, I would ace all challenges in fields I've never studied. It's uncanny how I pick only hard topics to specialise in.
Tim Ward ⭐🇪🇺🔶 #FBPE
in reply to nest • • •A role they've taken over from local newspapers.
A story about people you know frequently gets their age wrong, which is a simple, verifiable, objective fact, leading you to conclude that the rest of the story is also bollocks.
But a story about people you don't know is much more believable because you haven't spotted any errors in it ...
Angie
in reply to nest • • •OddOpinions5
in reply to nest • • •I simply do not understand why 99% of posts about #AI on bluesky are, very roughly, "AI sucks"
while in real life, all the smart hardworking people I know find AI to be a very useful and often very powerful tool that like all tools has uses and mis uses
I do not understand this
and I know for a fact I am not the only person puzzled by this apparent disconnect
Veronica Olsen 🏳️🌈
in reply to nest • • •This is basically what everyone who've used AI critically have said to me in conversation as well. My experience is the same.
I tested a new-to-me AI service a few days ago, and gave it a software exploit to analyse. It was a very mixed result. I had to push it into arriving at the right answers (on one point it even pushed back). It was initially quite wrong about more then half of the important points.
poleguy looking for lost tools
in reply to Veronica Olsen 🏳️🌈 • • •@veronica are you willing to share the name of the service? Or the exploit you were analyzing? Was it a source code based exploit?
I recently tried some reverse engineering using Claude opus 4.7 and the "guard rails" prevented any real work.