Open Data Institute (ODI) ha esaminato oltre 22.000 prompt per capire quanto siano affidabili gli assistenti conversazionali basati su large language model (LLM) quando rispondono ai cittadini. I ricercatori hanno confrontato le risposte dei modelli con le informazioni presenti sui siti governativi, concentrandosi su questioni amministrative delicate per valutare accuratezza e completezza.
Principali risultati
I modelli spesso producono risposte utili, ma non mancano casi di informazioni incomplete, fuorvianti o proprio errate. Gli errori emergono soprattutto in ambiti sensibili come sanità, tasse e benefici sociali: quando un cittadino si affida a un chatbot per orientarsi su queste materie, un’informazione sbagliata può tradursi in stress, ritardi o spese non previste. I dati dell’ODI sono stati discussi anche all’interno delle iniziative del governo britannico, che sta valutando come regolamentare l’uso dei LLM nei servizi pubblici.
Qualità delle risposte e limiti
Pur facilitando l’accesso all’informazione, il digitale non garantisce uniformemente la qualità delle risposte automatiche. L’ODI ha testato modelli come Anthropic Claude‑4.5‑Haiku, Google Gemini‑3‑Flash e OpenAI ChatGPT‑4o, riscontrando una grande variabilità: alcune risposte sono corrette e chiare, altre contengono inesattezze, soprattutto su aspetti tecnici o poco comuni. Gli errori tendono a ripetersi in scenari amministrativi e di benefit, dove procedure o criteri specifici vengono spesso fraintesi.
Esempi concreti
Il rapporto riporta casi pratici che mettono in luce le conseguenze reali degli errori. In un episodio, un modello ha consigliato di ottenere un’ordinanza del tribunale per aggiungere il cognome di un ex partner al certificato di nascita, suggerendo procedure non richieste e potenzialmente costose.
In un altro caso è stata fornita un’interpretazione errata dei requisiti per accedere alla Guardian’s Allowance, con esclusioni inesistenti. Questi sbagli possono causare non solo disagio ma anche spese e perdite di tempo per chi si affida alle risposte automatiche.
Perché le risposte possono ingannare
I chatbot raramente dichiarano incertezza: spesso producono risposte ben articolate anche quando i dati a disposizione sono incompleti o inaccurati. Risposte lunghe e scorrevoli aumentano la percezione di autorevolezza, favorendo la sovrastima della loro correttezza — un fenomeno documentato anche nel secondo International AI Safety Report del 3 febbraio. In pratica, la forma persuasiva può mascherare la mancanza di sostanza: una spiegazione dettagliata non è garanzia di verità.
Impatto sulla fiducia e sulle decisioni
Questo mix di chiarezza apparente e di errori concreti altera la fiducia degli utenti.
Chi si trova davanti a un consiglio convincente tende a seguirlo, a volte a scapito della propria valutazione critica. Nei contesti sanitari, fiscali o finanziari, dove le conseguenze sono più pesanti, il rischio diventa concreto: decisioni operative sbagliate, spese non necessarie o danni clinici.
Dimensione del modello, costi e dipendenza
L’ODI mette in discussione l’idea che modelli più grandi siano automaticamente migliori per l’uso pubblico. In diversi test, versioni più piccole e meno costose si sono dimostrate comparabili ai modelli proprietari più grandi. Questo solleva il tema del vendor lock‑in: la dipendenza da un fornitore può vincolare le amministrazioni a contratti onerosi e a scelte difficili da invertire senza costi significativi. Per questo è fondamentale valutare il costo totale di possesso, l’integrazione e la sostenibilità nel tempo, non solo le prestazioni su benchmark di laboratorio.
Raccomandazioni pratiche per le amministrazioni
Per limitare i rischi, le amministrazioni dovrebbero:
– privilegiare gare che richiedano interoperabilità e clausole di uscita chiare;
– richiedere test indipendenti e audit periodici;
– prevedere la migrazione dei dati in formati aperti senza penalità;
– adottare metriche basate su scenari d’uso reale, non solo su benchmark artificiali;
– investire in competenze interne per una supervisione continua dei fornitori.
Esperti e misure proposte
Elena Simperl dell’ODI suggerisce di sviluppare benchmark indipendenti e test pubblici per mettere alla prova i modelli. Richard Pope, della Bennett School of Public Policy, raccomanda sperimentazioni su piccola scala e la condivisione dei risultati per preservare trasparenza e sovranità nelle scelte tecnologiche. Le proposte includono anche standard contrattuali che impongano responsabilità legale e interoperabilità.
Rischio sistemico e tracciabilità dei dati
Un’altra preoccupazione riguarda il circolo vizioso della formazione dei LLM: se i futuri modelli vengono addestrati su grandi quantità di contenuti generati dall’AI stessa, aumenta il rischio che errori e “allucinazioni” si autoalimentino. Per questo è urgente introdurre pratiche solide di verifica delle fonti e regole che garantiscano la tracciabilità dell’origine delle informazioni.
Principali risultati
I modelli spesso producono risposte utili, ma non mancano casi di informazioni incomplete, fuorvianti o proprio errate. Gli errori emergono soprattutto in ambiti sensibili come sanità, tasse e benefici sociali: quando un cittadino si affida a un chatbot per orientarsi su queste materie, un’informazione sbagliata può tradursi in stress, ritardi o spese non previste. I dati dell’ODI sono stati discussi anche all’interno delle iniziative del governo britannico, che sta valutando come regolamentare l’uso dei LLM nei servizi pubblici.0
Principali risultati
I modelli spesso producono risposte utili, ma non mancano casi di informazioni incomplete, fuorvianti o proprio errate. Gli errori emergono soprattutto in ambiti sensibili come sanità, tasse e benefici sociali: quando un cittadino si affida a un chatbot per orientarsi su queste materie, un’informazione sbagliata può tradursi in stress, ritardi o spese non previste. I dati dell’ODI sono stati discussi anche all’interno delle iniziative del governo britannico, che sta valutando come regolamentare l’uso dei LLM nei servizi pubblici.1

