Dentro la falla di Llama: perché un singolo bug di memoria in Ollama è diventato un’esposizione AI ad alto rischio
Una lettura critica fuori dai limiti in Ollama mostra come le funzionalità di gestione dei modelli possano diventare la vera superficie d’attacco quando un runtime AI locale viene esposto oltre i suoi confini predefiniti.
Esistono bug dell’AI che rompono le risposte, e poi esistono bug dell’AI che possono riversare ciò che il server stava trattenendo in memoria in quel momento. La nuova CVE-2026-7482 resa pubblica in Ollama rientra nella seconda categoria. I ricercatori affermano che la falla è una critica lettura fuori dai limiti, valutata CVSS 9.1 e soprannominata “Bleeding Llama”, con un rischio segnalato di divulgazione di memoria remota e non autenticata.
Questa distinzione è importante. Non si tratta di un problema di prompt per chatbot nel senso consueto; è una debolezza nel percorso di ingestione e gestione del modello, dove artefatti di modello non attendibili possono essere analizzati, creati o ripubblicati. Dal punto di vista difensivo, questo sposta la conversazione da “cosa ha detto il modello?” a “cosa aveva in memoria il runtime quando ha elaborato il file?”.
Fatti rapidi
- CVE-2026-7482 è segnalata come una lettura critica fuori dai limiti in Ollama.
- Il problema è soprannominato “Bleeding Llama” da Cyera.
- Le segnalazioni pubbliche dicono che un attaccante remoto e non autenticato potrebbe esfiltrare la memoria del processo.
- La fonte indica che la stima dell’esposizione è probabilmente superiore a 300.000 server a livello globale.
- Il rischio è maggiore dove Ollama è esposto oltre localhost o incapsulato in proxy e tunnel.
Perché il bug conta
Le letture fuori dai limiti sono un classico fallimento della riservatezza. MITRE classifica questa debolezza come CWE-125: il programma legge oltre il confine previsto e può rivelare ciò che si trova nelle vicinanze della memoria. In un server che gestisce carichi di lavoro AI, quella memoria può essere particolarmente sensibile perché può contenere prompt, system prompt, variabili d’ambiente, dati di sessione o altri segreti operativi, a seconda del deployment.
La lezione più ampia è che i file dei modelli non sono contenuti passivi. Quando un runtime li valida, li converte, li quantizza o li ripubblica, il file diventa un confine di input che richiede la stessa diffidenza che i difensori applicherebbero a qualsiasi altro parser non attendibile. Ecco perché il percorso di gestione di Ollama, più che la sola interfaccia chat, è il punto di controllo importante.
Le segnalazioni pubbliche indicano che il percorso interessato può coinvolgere il flusso di lavoro di creazione e push del modello. Il percorso tecnico esatto resta una questione per il vendor e per le divulgazioni dei ricercatori, ma l’implicazione difensiva è già chiara: qualsiasi servizio che gestisca artefatti di modello dovrebbe essere trattato come un bersaglio di parsing ad alto valore.
Lezioni difensive
Le organizzazioni che eseguono infrastrutture AI locali dovrebbero verificare prima l’esposizione. Se il servizio è vincolato solo a localhost, la raggiungibilità remota è molto più difficile; se invece è esposto tramite un binding di rete, un reverse proxy o un tunnel, il profilo di rischio cambia rapidamente. Gli amministratori dovrebbero anche limitare chi può invocare gli endpoint di gestione dei modelli, controllare i log alla ricerca di attività anomale di creazione o push e ruotare i segreti sugli host che potrebbero aver trattenuto dati sensibili in memoria.
La stima della scala riportata è importante, ma va letta con cautela: si tratta di un’affermazione di probabilità, non di un censimento verificato. Anche così, l’incidente evidenzia uno schema familiare nella sicurezza AI moderna. Il punto più debole spesso non è l’output del modello, ma l’impianto che gli sta attorno.
Conclusione
Bleeding Llama è un promemoria del fatto che i runtime AI ereditano i problemi più antichi della sicurezza del software: sicurezza della memoria, fiducia nei parser e controllo dell’esposizione. In un mondo in cui i file dei modelli passano attraverso API e i server locali possono diventare silenziosamente servizi di rete, i difensori devono pensare meno alla novità e più ai confini. La lezione è semplice: se un sistema AI analizza artefatti non attendibili, merita la stessa hardening che si darebbe a qualsiasi altro server sensibile.
TECHCROOK
Appliance firewall di rete: Un firewall dedicato può aiutare a mantenere i servizi interni fuori da Internet pubblica, a segmentare gli host AI dagli altri sistemi e a darti un controllo più chiaro sulle regole di accesso in ingresso. È particolarmente utile quando una macchina deve essere raggiungibile solo da indirizzi affidabili o reti locali.
WIKICROOK
- Lettura fuori dai limiti: Un bug in cui il software legge oltre il confine di memoria previsto, potenzialmente esponendo dati vicini.
- CVE: Un identificatore standardizzato usato per tracciare vulnerabilità divulgate pubblicamente.
- CWE-125: La classificazione MITRE per le debolezze di lettura fuori dai limiti che possono esporre memoria sensibile.
- Memoria di processo: La memoria attiva di un programma in esecuzione, che può contenere segreti, prompt e dati di runtime.
- Endpoint di gestione del modello: Un percorso API usato per creare, pubblicare o gestire modelli AI invece di rispondere ai prompt degli utenti.




