La scommessa AI a due binari di Anthropic svela il nuovo campo di battaglia: capacità con un lucchetto sulla porta

10 Giugno 2026 06:10Sicurezza AI e sistemi agenticiNord America / USAINTEGRITYFOX

Un modello per uso generale e un gemello ristretto focalizzato sul cyber mostrano come i vendor di AI di frontiera stiano trasformando la sicurezza in routing, gating e controllo degli accessi - non solo in linguaggio di policy.

Introduzione

Il più recente rilascio del modello di Anthropic non è solo un lancio di una AI più grande. È una prova sul campo di una domanda più difficile: come si diffonde una capacità potente senza consegnare la stessa forza a chiunque la richieda? La risposta, almeno in questo rilascio, è un sistema diviso - un modello per l'uso ampio, un altro per il lavoro cyber e infrastrutturale strettamente verificato, con controlli di sicurezza automatizzati tra i due.

Fatti rapidi

Anthropic ha introdotto Claude Fable 5 per gli utenti generici e Claude Mythos 5 per partner selezionati in ambito cybersecurity e infrastrutture.
L'azienda afferma che Fable 5 supera i modelli Claude precedenti in ingegneria del software, ricerca scientifica, analisi visiva e altri compiti di knowledge work.
Alcune richieste che riguardano cybersecurity, biologia, chimica o distillazione del modello vengono instradate verso Claude Opus 4.8 invece che verso Fable 5.
Rob T. Lee di SANS ha affermato che i test iniziali hanno attivato il fallback anche su lavori di sicurezza ordinari come la risposta agli incidenti e la base forense digitale.
Anthropic ha detto che i test interni ed esterni non hanno trovato un jailbreak efficace in grado di aggirare in modo affidabile le protezioni.

TECHCROOK

La storia tecnica qui riguarda meno un singolo modello che un piano di controllo. Anthropic sta usando il routing basato su classificatori per decidere quando un prompt debba restare sul modello ad alta capacità e quando debba essere declassato a Claude Opus 4.8. Questo è importante perché il rischio moderno dell'AI spesso non riguarda un singolo prompt catastrofico, ma l'accesso ripetuto a un aiuto a lungo orizzonte con codice, analisi o pianificazione operativa.

La stessa logica crea anche un compromesso difensivo. Se il classificatore è tarato in modo troppo permissivo, le richieste rischiose possono passare. Se è tarato in modo troppo aggressivo, il lavoro legittimo può finire nella rete. Il fallback segnalato durante la risposta agli incidenti e la forensica digitale è un buon esempio: sono attività ordinarie da blue team, ma possono assomigliare ad attività a doppio uso in un filtro costruito per essere prudente.

Mythos 5 aggiunge un ulteriore livello al quadro. Viene descritto sostanzialmente come Fable 5 con alcune protezioni rimosse, ma solo per i partecipanti approvati al Project Glasswing. Questo indica la direzione verso cui si sta muovendo l'AI di frontiera: le capacità più sensibili vengono separate dall'accesso di massa e confezionate come infrastruttura a uso fidato per i difensori.

Il rischio più ampio è che la sicurezza dell'AI stia diventando operativa, non teorica. La vera domanda per i team di sicurezza è se questi controlli siano abbastanza precisi da aiutare i difensori senza rallentarli. Allo stesso tempo, le organizzazioni hanno ancora bisogno di controlli familiari - patching, MFA, segmentazione di rete e zero trust - perché nessun modello può sostituire la disciplina di sicurezza di base.

Al momento della scrittura, le informazioni pubbliche supportano un'analisi del rischio, non un giudizio finale sulla qualità del classificatore, sui tassi di falsi positivi o sul fatto che ogni flusso di lavoro difensivo si comporti allo stesso modo sotto carico.

Conclusione

Questo rilascio mostra dove si sta davvero spostando la competizione sulla sicurezza dell'AI: non solo verso modelli più forti, ma verso regole più rigide su chi può toccarli, cosa può chiedere e quando il sistema dovrebbe rifiutare. La lezione per i difensori è semplice ma scomoda - man mano che l'AI diventa più capace, la funzione di sicurezza più importante potrebbe essere quella che decide quando deve fare un passo indietro.

WIKICROOK

Classificatore di sicurezza: Un filtro automatizzato che valuta i prompt alla ricerca di intenzioni rischiose o a doppio uso prima che il modello risponda.
Fallback: Un declassamento integrato che instrada una richiesta verso un modello meno capace quando vengono attivate le regole di sicurezza.
Distillazione del modello: Un metodo per addestrare un modello più piccolo usando gli output di uno più grande, talvolta collegato a preoccupazioni di estrazione del modello.
Jailbreak: Una tecnica di prompt pensata per aggirare le restrizioni di sicurezza di un sistema AI.
Architettura zero trust: Un approccio di sicurezza che non presuppone alcuna fiducia implicita e richiede una verifica continua dell'accesso.

Netcrook

Introduzione

Fatti rapidi

TECHCROOK

Conclusione

WIKICROOK