Anthropic, Fable 5 e Mythos 5 bloccati dal governo USA per un jailbreak

Poche ore fa, mentre facevo le solite cose del sabato mattina (cioè sistemare la mia codebase, ovviamente), ad Anthropic arrivava una lettera. Non una lettera qualsiasi: una direttiva del governo degli Stati Uniti che, alle 17:21 ora della costa Est, ordinava di spegnere l’accesso a Fable 5 e Mythos 5. Subito. Per tutti i cittadini stranieri, dentro e fuori dagli USA — dipendenti di Anthropic non statunitensi compresi.
Tradotto: se non hai il passaporto americano, quei due modelli per te non esistono più.
E indovina un po’ chi non ha il passaporto americano? Esatto. Io, te, e qualche centinaio di milioni di persone in Europa.
Cosa è successo, in parole povere
Immagina di gestire una pizzeria famosissima. Un giorno il Comune ti manda una raccomandata: “Da stasera non puoi più servire la pizza margherita e la quattro stagioni a nessuno che non sia nato in questo paese. Motivo: sicurezza nazionale”. Tu apri la raccomandata, leggi, sospiri, e stacchi due voci dal menù. Ma intanto pensi: “Ma stiamo scherzando?”.
Ecco, ad Anthropic è successo più o meno questo.
Il governo USA, citando i poteri sul controllo delle esportazioni, ha imposto la sospensione totale dell’accesso ai due modelli. Anthropic ha obbedito — perché è un ordine legale e non hai alternative — ma nel comunicato ufficiale ha fatto capire chiaramente che non condivide nemmeno una virgola della decisione. L’accesso a tutti gli altri modelli, va detto, resta intatto.
La motivazione ufficiale? Il governo sarebbe venuto a conoscenza di un metodo per fare un jailbreak di Fable 5.
Aspetta, cos’è un “jailbreak”?
Se la parola ti suona vagamente come “sbloccare l’iPhone”, non sei lontano. Un jailbreak di un modello AI è quando qualcuno trova il modo di aggirare le regole di sicurezza del modello — quelle che gli impediscono, ad esempio, di darti istruzioni per fare cose pericolose o illegali.
Pensa al modello come a un bibliotecario molto educato e molto rigido. Tu gli chiedi un libro proibito, lui ti dice gentilmente di no. Il jailbreak è l’arte di fargli la domanda in un modo abbastanza contorto da convincerlo a darti il libro lo stesso, senza accorgersene.
Esistono due tipi di jailbreak:
- Non universali: funzionano solo in circostanze specifiche, su casi ristretti. Sono il pane quotidiano di chiunque studi sicurezza dei modelli.
- Universali: la chiave maestra. Un singolo trucco che sblocca tutto. Questi sì che sarebbero un problema serio.
E qui arriva il punto interessante.
La versione di Anthropic: “ma stiamo scherzando?”
Anthropic ha praticamente smontato la motivazione pezzo per pezzo, e devo dire che gli argomenti sembrano inattaccabili.
Primo: il presunto jailbreak non è universale. È una cosa molto circoscritta che, in soldoni, consisteva nel chiedere al modello di leggere un codice sorgente e di sistemare i difetti software che ci trovava. Roba che, parole loro, qualsiasi sviluppatore fa tutti i giorni per tenere i sistemi al sicuro.
Secondo — e qui sorrido — le vulnerabilità individuate erano “relativamente semplici”, al punto che anche altri modelli disponibili pubblicamente le trovano da soli, GPT-5.5 di OpenAI compreso. Quindi il “metodo segreto e pericoloso” sarebbe una cosa che fa pure il modello della concorrenza, senza bisogno di nessun trucco.
Terzo, e questo è l’argomento più forte: prima del lancio, Anthropic dice di aver fatto testare le difese di Fable per migliaia di ore da governo USA, AISI britannico, organizzazioni terze e team interni. Nessuno avrebbe trovato un jailbreak universale. E la loro tesi è semplice: la resistenza perfetta ai jailbreak oggi non esiste per nessun modello, di nessun provider. Se diventasse lo standard ritirare un modello al primo buco minore, dovrebbero chiudere bottega tutti, OpenAI inclusa.
Il loro approccio si chiama defense in depth — difesa a strati. Non puntano a rendere il modello inviolabile (impossibile), ma a rendere i jailbreak o talmente ristretti da essere inutili, o talmente costosi da non valere la pena, il tutto monitorato per beccare e bloccare gli attacchi in tempo reale. È anche il motivo per cui con Fable conservano i dati per 30 giorni: serve a studiare e tappare le falle. Una scelta che, ammettono, ha un costo reale con i clienti.
In sintesi, la posizione di Anthropic è: “Avete preso una pistola ad acqua e l’avete trattata come un’arma di distruzione di massa”.
Non è la prima volta che volano stracci
Qui la faccenda si fa politica, e parecchio.
Non è il primo scontro tra Anthropic e l’amministrazione Trump. A febbraio, dopo che Dario Amodei (CEO e cofondatore) si era opposto all’uso della sua tecnologia per certe finalità di difesa, Trump aveva ordinato alle agenzie federali di smettere immediatamente di usare i prodotti Anthropic. Il tutto condito da un memorabile post su Truth Social in stile “Non ne abbiamo bisogno, non la vogliamo e non faremo più affari con loro!”. Anthropic, in risposta, aveva annunciato azioni legali contro il governo, che nel frattempo l’aveva pure bollata come “rischio per la catena di approvvigionamento”.
Insomma, tra i due non corre buon sangue da un po’. E questo, onestamente, rende difficile prendere la direttiva sulla sicurezza nazionale al 100% per buona, così come rende difficile escludere che Anthropic stia minimizzando per convenienza. La verità, come spesso accade, sta probabilmente da qualche parte in mezzo, in una zona grigia dove tecnica e politica si mescolano fino a diventare indistinguibili.
E noi europei? Una questione di sovranità
C’è un dettaglio in questa storia che dovrebbe farci drizzare le antenne, e l’ha colto bene anche chi commentava la notizia: un modello AI è ormai una questione di sovranità nazionale.
Pensaci. Con un’unica raccomandata, un governo straniero ha spento due strumenti di lavoro per centinaia di milioni di persone fuori dai suoi confini. Non per una guerra, non per una sanzione economica clamorosa: per un presunto bug in un sistema di intelligenza artificiale.
Se basi la tua azienda, il tuo prodotto, il tuo flusso di lavoro su un modello che vive su server americani e dipende dalle scelte di Washington, sei a un comunicato stampa di distanza dal restare a piedi. E non puoi farci niente.
Ecco perché tutta la discussione su Mistral in Francia, sui modelli europei, sull’open source che puoi self-hostare smette di colpo di essere una questione da nerd ideologici e diventa una banale questione di continuità operativa. Non è (solo) patriottismo digitale: è non voler appendere il proprio lavoro a un filo che qualcun altro può tagliare quando gli pare.
Le mie considerazioni
Io con i modelli locali ci smanetto da un pezzo — chi mi segue lo sa, tra Loom, Doc Analyzer e le varie volte che ho installato roba in locale “tanto per non dipendere da nessuno”. E ogni volta che lo facevo, una vocina mi diceva: “Matteo, ma chi te lo fa fare, le API costano due lire e funzionano”.
Bene: questa storia è esattamente il motivo che lo fa fare.
Non perché i modelli locali siano sempre migliori — non lo sono, su molti task un buon modello via API ti stende il tuo gemma4:28b da scrivania in dieci secondi. Ma perché la resilienza è una feature, e non te ne accorgi finché non ti serve. Il giorno in cui il tuo provider sparisce — per una direttiva governativa, per un cambio di prezzi, per una lite politica che non ti riguarda — quel modellino che gira sul tuo server diventa improvvisamente la cosa più preziosa che hai.
C’è anche un secondo livello che mi lascia perplesso, e qui mi tolgo il cappello da fanboy del local-first: chiudere un modello commerciale usato da centinaia di milioni di persone per un jailbreak ristretto, che fanno pure i concorrenti, sembra davvero una reazione spropositata. Se davvero diventasse lo standard, ogni nuovo modello rischierebbe il blocco al primo ricercatore che trova un buco — e i buchi, in questo campo, ci sono sempre. È un po’ come chiudere tutte le autostrade perché qualcuno ha scoperto che si può andare contromano.
Però — e tengo il piede in due scarpe consapevolmente — non sono nemmeno tra quelli che pensano che la sicurezza dei modelli sia un dettaglio trascurabile da liquidare con una scrollata di spalle. Tra l’azienda che minimizza e lo Stato che reagisce in modo opaco, il vero perdente è sempre lo stesso: chi quei modelli li usa per lavorare e si ritrova a leggere comunicati stampa invece di scrivere codice.
Anthropic dice di essere al lavoro per ripristinare l’accesso il prima possibile, e che si tratta di un “malinteso”. Speriamo. Nel frattempo, io vado a controllare che il mio server di casa sia acceso.
Non si sa mai.