Nel tentativo di trasformare montagne di risposte scritte in informazioni utili, il Dipartimento per i Trasporti del Regno Unito ha adottato un approccio misto che unisce potenza computazionale e giudizio umano. Il sistema, noto come Consultation Analysis Tool (CAT), è stato sviluppato in collaborazione con Google Cloud e l’Alan Turing Institute e si appoggia alla piattaforma Vertex AI utilizzando i modelli Gemini.
Secondo il rapporto dell’Alan Turing Institute pubblicato a dicembre 2026, lo scopo è accelerare l’analisi delle oltre 55 consultazioni annue gestite dal DfT, che generano più di 100.000 risposte in forma libera. Il risultato atteso è combinare velocità—analisi che prima richiedevano mesi ora possono completarsi in ore—with rigore attraverso pratiche di controllo che riducono gli errori e i pregiudizi.
Architettura e logica operativa del sistema
Il CAT funziona come una pipeline dove ogni commento viene valutato da più istanze di LLM. Per ogni risposta il sistema applica una procedura di voto di maggioranza, una tecnica in cui diversi modelli esprimono una classificazione del tema e la scelta finale è quella concordata dalla maggioranza. Questo approccio, definito anche LLM-as-a-judge, mira a creare una mappatura completa tra risposte e temi senza affidarsi a un singolo modello, riducendo così il rischio di errori sistematici dovuti a un modello isolato.
Pipeline LLM e voto di maggioranza
La pipeline sfrutta le potenzialità di Gemini per comprendere il linguaggio naturale e categorizzare argomenti, ma non si limita a un’unica voce automatica. Il voto di maggioranza richiede che diversi modelli raggiungano consenso prima di assegnare un tema; se non si ottiene accordo, la risposta viene segnalata per revisione.
Questo passaggio riduce classificazioni errate dovute a sfumature linguistiche, ambiguità o formulazioni non standard presenti nelle risposte dei cittadini.
Human-in-the-loop e controllo della qualità
Un elemento centrale del progetto è la revisione umana integrata nel processo: il sistema non produce automaticamente report finali senza verifica. Gli esperti del DfT esaminano i temi generati, valutano citazioni rappresentative e correggono eventuali interpretazioni fuorvianti. Questa pratica mette al centro il giudizio umano e consente, come riporta il documento, di avvicinare la probabilità di identificare tutti i principali temi vicina al 100% quando si applica la revisione.
Bias demografico e misure di mitigazione
Il team ha affrontato la questione del bias, riconoscendo che i modelli possono comportarsi peggio su risposte scritte in un inglese meno standard o che includono linguaggi socio-culturali specifici.
Per limitare questi rischi, il sistema esclude variabili demografiche dai prompt e prevede che tutte le assegnazioni tematiche passino dalla revisione umana. Queste contromisure non eliminano il problema ma ne riducono l’impatto operativo, garantendo maggiore equità nell’analisi.
Valutazione della performance e trasparenza
La valutazione del CAT ha indicato misure di accuratezza che arrivano fino al 90% su vari indicatori, permettendo di rispettare l’obiettivo di pubblicare le risposte alle consultazioni entro 12 settimane. Oltre all’aumento di velocità, il DfT ha stimato un risparmio che può raggiungere le 4 milioni di sterline l’anno, derivante dalla riduzione del lavoro manuale e da processi decisionali più rapidi.
Impatto pratico e casi d’uso
Già impiegato per analizzare commenti relativi all’Integrated National Transport Strategy e per migliorare le regole di prenotazione per gli esami di guida, il CAT mostra come l’AI possa trasformare la gestione della partecipazione pubblica.
La combinazione di Vertex AI, infrastrutture cloud e supervisione umana ha ridotto tempi di elaborazione da mesi a poche ore, consentendo al DfT di rispondere più rapidamente ai cittadini mantenendo controllo e responsabilità politica.
Nel complesso, l’esperienza del DfT illustra un approccio bilanciato: sfruttare i vantaggi operativi dei modelli linguistici avanzati senza delegare completamente l’interpretazione dei contenuti. L’integrazione di processi di revisione, l’esclusione delle variabili sensibili dai prompt e l’uso del voto di maggioranza costituiscono un modello replicabile per altre amministrazioni che desiderano adottare l’AI in modo responsabile.


