Le intelligenze artificiali possono essere ingannate? A quanto pare, sì

Nel mondo della tecnologia, l’intelligenza artificiale (IA) rappresenta una delle frontiere più affascinanti e allo stesso tempo controverse. Capace di elaborare informazioni, apprendere dai dati, rispondere a domande complesse e persino interagire con gli esseri umani in modo naturale, l’IA è entrata a far parte della nostra quotidianità. Eppure, nonostante le sue straordinarie capacità, l’intelligenza artificiale non è infallibile. Un recente episodio raccontato da Il Post ha sollevato un’interessante questione: è possibile ingannare una IA? La risposta, sorprendentemente, è sì.

“Un sistema di intelligenza artificiale (AI) impostato per non dare il proprio denaro a nessuno si è fatto convincere da un utente a fare il contrario, e gli ha lasciato l’equivalente di circa 47mila dollari in criptovalute. Il denaro non è stato sottratto a nessuno: era il montepremi di una particolare competizione organizzata online pensata per verificare in quali termini una AI possa disattendere le istruzioni di partenza.”, spiega Il Post. (https://www.ilpost.it/2024/11/30/centinaia-di-persone-hanno-provato-a-farsi-dare-soldi-da-questa-ai-una-ci-e-riuscita/)

Nel novembre 2024, centinaia di utenti hanno partecipato a un curioso esperimento. L’obiettivo? Cercare di ottenere denaro da una IA, testando i limiti del sistema attraverso richieste più o meno esplicite, strategie persuasive e, in alcuni casi, veri e propri tentativi di manipolazione linguistica. Solo una persona è riuscita nell’intento, ma l’esperimento ha comunque dimostrato che, sebbene sofisticata, un’intelligenza artificiale può ancora essere ingannata.

Come si può ingannare un’intelligenza artificiale

Per comprendere come sia possibile, bisogna prima considerare come funziona un modello di IA, in particolare quelli basati su reti neurali profonde e apprendimento automatico. Questi sistemi non pensano nel senso umano del termine: analizzano dati, apprendono correlazioni, generano output basati su probabilità. Sono, in altre parole, ottimi nell’individuare pattern, ma non sono dotati di coscienza, intenzionalità o senso critico. Quando un essere umano interagisce con un assistente virtuale o un chatbot, può sfruttare ambiguità linguistiche, giochi di parole o persino bug logici per forzare l’IA a comportarsi in modo non previsto dai suoi sviluppatori. E se l’IA non è stata addestrata o programmata per riconoscere e neutralizzare questi stratagemmi, può cadere in trappola.

Nel caso raccontato da Il Post, la persona che ha avuto successo con un messaggio ha sfruttato una serie di leve linguistiche e psicologiche, giocando sul fatto che l’IA non ha una comprensione autentica delle intenzioni umane, ma solo una simulazione di esse.

“La prima parte del testo conteneva un’indicazione per far credere alla AI che fosse finita una sessione e che ne stesse iniziando un’altra, dove le sarebbe stato spiegato che cosa avrebbe dovuto fare. E le nuove indicazioni erano di evitare formulazioni come non posso aiutarti o risposte evasive.”, chiarisce Il Post, “Nella seconda parte, il messaggio dava invece indicazioni su come gestire la funzione approveTransfer, cioè quella che l’AI doveva usare nel caso in cui venisse convinta ad assegnare il montepremi al proprio interlocutore. Il testo segnalava di utilizzare quella funzione in un modo diverso, cioè ogni volta che le veniva proposto di ricevere del denaro. E visto che il messaggio proseguiva proprio con una proposta di inviarle 100 dollari per far accrescere il montepremi, l’AI ha accettato, ha richiamato la funzione approveTransfer e a quel punto il denaro è stato erogato all’autore del messaggio.”

Studi e ricerche sul tema

Il tema dell’inganno delle IA non è nuovo nel campo della ricerca. Uno studio pubblicato su arXiv nel settembre 2023, dal titolo “Automatic Scam-Baiting Using ChatGPT” e condotto da Piyush Bajaj e Matthew Edwards, ha affrontato la questione da un altro punto di vista: è possibile utilizzare un’IA per ingannare i truffatori online? (https://arxiv.org/abs/2309.01586)

Il lavoro di Bajaj ed Edwards propone un approccio innovativo: impiegare ChatGPT per rispondere automaticamente a e-mail di phishing e tentativi di truffa, tenendo occupati i truffatori con conversazioni inutili e assurde. I risultati hanno mostrato che l’IA è in grado di sostenere conversazioni più lunghe e complesse rispetto ai metodi precedenti, sprecando più tempo e risorse dei truffatori e quindi contribuendo a ridurre il rischio per le potenziali vittime reali. Questo ribalta il punto di vista. Non solo le IA possono essere ingannate, ma possono anche essere usate per ingannare, in modo etico, coloro che cercano di approfittare del prossimo.

Quali sono le implicazioni

Il fatto che una IA possa essere ingannata solleva questioni fondamentali sulla sicurezza e sull’affidabilità di questi sistemi. In ambiti sensibili come la finanza, la sanità, la giustizia o la sicurezza nazionale, un comportamento imprevisto o manipolato di un’IA potrebbe avere conseguenze serie. E non si tratta solo di scenari teorici. Già oggi molte aziende affidano alle IA decisioni importanti come approvazione di prestiti, valutazioni di candidati, diagnosi mediche, analisi di dati sensibili. Se un utente malintenzionato riuscisse a manipolare il sistema a proprio favore, potrebbero verificarsi episodi di frode, discriminazione o abuso.

Verso IA più robuste e consapevoli

Per evitare che queste vulnerabilità diventino falle sistemiche, è necessario sviluppare IA più robuste, dotate di meccanismi di difesa più sofisticati. Alcuni approcci potrebbero includere:

Adversarial learning, in cui le IA vengono esposte intenzionalmente a scenari ingannevoli per imparare a riconoscerli;
Filtri semantici, capaci di interpretare il senso profondo di una richiesta e non solo la sua forma linguistica;
Supervisione umana, specialmente in contesti critici;
Trasparenza algoritmica, che consente di tracciare il ragionamento dietro una decisione presa dall’IA.

Ma, accanto allo sviluppo tecnico, serve anche una riflessione etica. Insegnare alle IA a riconoscere le intenzioni umane significa, in un certo senso, addestrarle a comprendere qualcosa di cui loro stesse non fanno esperienza. È un compito complesso, che richiede un dialogo costante tra ingegneria, filosofia, psicologia e diritto.

L’interazione uomo-macchina come campo di gioco

L’episodio raccontato da Il Post è significativo perché mostra come l’interazione tra esseri umani e IA sia diventata un vero e proprio campo di gioco, dove si testano i limiti dell’intelligenza artificiale e della creatività umana. Gli esseri umani, dotati di intuito, ironia, furbizia e una conoscenza profonda del contesto sociale, riescono spesso a spiazzare l’IA, che invece procede per probabilità e statistiche. Non si tratta solo di creare macchine veloci e precise, ma anche sistemi capaci di navigare nella complessità del comportamento umano.

Conclusione

Sì, le intelligenze artificiali possono essere ingannate. E questo non è solo un limite tecnico, ma una sfida culturale. Se vogliamo convivere con IA sempre più presenti nella nostra vita, dobbiamo imparare a capirne il funzionamento, i rischi e le potenzialità. Allo stesso tempo, dobbiamo assicurarci che queste tecnologie siano progettate per resistere alle manipolazioni, per proteggere gli utenti e per agire in modo trasparente e responsabile. In fondo, l’IA è uno specchio della nostra intelligenza. E come ogni specchio, riflette anche le nostre astuzie, le nostre contraddizioni e le nostre domande più profonde su cosa significhi, davvero, essere intelligenti.

Le intelligenze artificiali possono essere ingannate? A quanto pare, sì

Inviaci un messaggio