Il caso che ha coinvolto la società di consulenza Deloitte e il governo australiano si è rapidamente imposto come uno spartiacque nel dibattito sull’uso dell’intelligenza artificiale generativa nella consulenza strategica. Non si tratta di un incidente isolato né di una semplice svista editoriale, ma è un episodio che mostra con chiarezza cosa accade quando strumenti pensati per accelerare il lavoro intellettuale vengono inseriti in contesti ad alta responsabilità senza adeguati presidi di controllo. In gioco non c’è solo la qualità di un report ma la credibilità stessa dei processi decisionali pubblici.
Il documento di ben 237 pagine commissionato a Deloitte dal Department of Workplace Relations (DEWR), con un contratto di 440.000 dollari australiani, doveva analizzare l’efficacia del Targeted Compliance Framework, il sistema che regola la concessione di sussidi e le relative sanzioni nei confronti dei cittadini, ma nelle settimane successive alla pubblicazione del rapporto, Christopher Rudge, ricercatore dell’Università di Sydney
(https://www.sydney.edu.au/law/about/our-people/academic-staff/christopher-rudge.html#collapseprofileresearchinterest), ha dichiarato in un articolo dell’Australian Financial Review (https://www.afr.com/politics/how-one-academic-unravelled-deloitte-s-ai-errors-20251013-p5n224) che il rapporto presentava una serie di criticità tali da mettere in discussione la validità dell’intero documento.
Secondo quanto riportato anche da The Guardian (https://www.theguardian.com/australia-news/2025/oct/06/deloitte-to-pay-money-back-to-albanese-government-after-using-ai-in-440000-report), il ricercatore ha affermato di aver trovato diversi errori nella prima versione del rapporto, dovute alle “allucinazioni” tipiche dei sistemi di intelligenza artificiale generativa che, come noto, tendono a colmare vuoti informativi inventando dati.
“Invece di sostituire semplicemente un riferimento falso e allucinato con un nuovo riferimento ‘reale’, hanno sostituito i riferimenti falsi e allucinati e nella nuova versione ce ne sono cinque, sei, sette o otto al loro posto”, ha riferito Rudge. “Ciò che questo suggerisce è che l’affermazione originale contenuta nel corpo del rapporto non si basava su nessuna fonte probatoria specifica.”
Solo dopo che il governo ha avviato una richiesta di chiarimenti, Deloitte si è trovata costretta non solo ad ammettere l’uso dell’intelligenza artificiale nella stesura di alcune parti del documento, ma anche a restituire l’ultima rata del compenso.
Responsabilità e supervisione umana
L’analisi indipendente che ha smascherato gli errori del rapporto Deloitte ha messo in luce la presenza di studi inesistenti nella bibliografia, la citazione di una falsa sentenza federale e la formulazione di paragrafi costruiti sulla base di informazioni non verificabili, indicando un problema di fondo: l’affidamento eccessivo alle capacità generative del modello linguistico utilizzato senza un filtro umano adeguato.
I modelli di intelligenza artificiale di ultima generazione hanno infatti la capacità di produrre testi coerenti, stilisticamente omogenei e convincenti, ma non possiedono consapevolezza del contenuto né la capacità di verificare l’esistenza reale delle fonti che citano. Come affermato da Rudge, si parla in questi casi di “allucinazioni”.
Sebbene Deloitte abbia successivamente riconosciuto le criticità e nel documento revisionato abbia aggiunto una nota di trasparenza sull’uso di uno strumento generativo (nello specifico GPT-4o su piattaforma Azure), ciò non ha impedito la perdita di credibilità davanti all’opinione pubblica e al governo.
Poiché il controllo delle fonti, la verifica dei riferimenti legislativi e il confronto con documentazione ufficiale richiedono una conoscenza professionale che nessun modello generativo potrà mai replicare, il messaggio che deve passare è chiaro: L’uso di strumenti automatizzati non deve e non può sostituire la competenza umana, soprattutto quando l’oggetto del lavoro è un’analisi che influenzerà decisioni politiche e amministrative a livello nazionale.
Una guida per un uso responsabile dell’IA nei documenti ufficiali
La restituzione del compenso e la revisione del rapporto da parte di Deloitte non ha risolto tutte le implicazioni del caso. Quando un rapporto ufficiale contiene errori così gravi, il rischio non riguarda solo l’affidabilità del documento in sé, ma anche la credibilità dei processi decisionali che si basano su tali analisi. Il caso mostra quindi come l’introduzione dell’IA nei processi istituzionali debba essere accompagnata da una governance chiara che stabilisca regole e responsabilità.
La lezione principale del caso Deloitte è che l’intelligenza artificiale può essere un supporto efficace solo se inserita in un sistema di verifica accurato. La trasparenza inoltre permette di definire le aspettative del lettore e facilita il lavoro dei revisori. È poi essenziale che ogni contenuto generato venga controllato da esperti in grado di verificare l’affidabilità di dati, norme e riferimenti. Un’altra misura fondamentale riguarda l’audit interno. Le organizzazioni dovrebbero dotarsi di procedure che consentano di individuare rapidamente eventuali incongruenze e che prevedano controlli incrociati sui dati generati dall’AI. Il caso Deloitte dimostra che una combinazione equilibrata tra tecnologia e competenza umana rappresenta l’unica via per utilizzare l’intelligenza artificiale senza compromettere l’affidabilità dei documenti ufficiali. È utile pertanto investire nella formazione di chi utilizza l’IA, affinché sia pienamente consapevole dei limiti dello strumento e sia in grado di riconoscere segnali che richiedono una verifica manuale.
Quali implicazioni
Quando un report destinato a orientare politiche pubbliche si rivela inaffidabile, il danno va oltre il singolo documento. Si incrina la fiducia nei confronti dei processi decisionali e degli attori coinvolti. La vicenda ha avuto un’eco significativa nel dibattito politico e accademico australiano. Diversi esponenti istituzionali hanno criticato l’uso superficiale dell’automazione in un ambito così delicato, sottolineando come il problema non sia l’intelligenza artificiale ma la rinuncia al controllo umano. In ambito accademico il caso è stato interpretato come un esempio emblematico dei rischi legati all’adozione non governata dei modelli generativi nei processi decisionali complessi.
Poiché l’intelligenza artificiale sta diventando uno strumento sempre più presente nei flussi di lavoro, dalla redazione di documenti alla sintesi di grandi quantità di dati, il caso Deloitte non riguarda solo una singola organizzazione ma interroga l’intero settore della consulenza globale. Il rischio è quello di confondere la velocità con la qualità. Infatti una consulenza di valore non consiste nella produzione rapida di testi ben scritti ma nella capacità di garantire che ogni affermazione sia fondata, verificabile e contestualizzata.
Tre livelli di analisi complementari
La valutazione di un testo per stabilire se sia stato scritto, in tutto o in parte, con l’ausilio di intelligenza artificiale può essere affrontata in modo efficace attraverso tre livelli di analisi complementari.
Il primo livello è l’analisi interna del testo, che si basa su una lettura critica e qualitativa del contenuto. In questa fase si osservano lo stile, il linguaggio e la struttura argomentativa. I testi generati da modelli di IA tendono spesso a essere formalmente corretti, ma al tempo stesso impersonali, generici e privi di una reale presa di posizione. È frequente riscontrare paragrafi che mantengono una coerenza apparente senza introdurre informazioni verificabili o contributi originali.
Il secondo livello riguarda la verifica delle fonti e delle citazioni, ed è spesso il più rivelatore. In questa fase si controlla l’esistenza e l’accuratezza delle citazioni, dei riferimenti normativi, degli studi o dei dati menzionati nel testo. I sistemi di IA generativa possono produrre riferimenti plausibili ma inesistenti, combinando titoli, autori e contesti in modo credibile ma non verificabile. La presenza di fonti vaghe, non rintracciabili o citate senza riferimenti precisi rappresenta un forte indicatore di generazione automatica o, quantomeno, di assenza di un adeguato controllo umano.
Il terzo livello è l’analisi strumentale e contestuale, che integra l’uso di strumenti automatici e la valutazione del contesto in cui il documento è stato prodotto. I software di rilevazione di testi generati da IA e le tecniche di analisi stilometriche possono offrire indicazioni utili, soprattutto se utilizzate comparando altri testi dello stesso autore o della stessa organizzazione.