Subito dopo la comparsa di ChatGPT, gli esperti di sicurezza informatica hanno lanciato l’allarme, segnalando come questa intelligenza artificiale sarebbe potuta diventare una nuova arma nelle mani dei cybercriminali. Usando il sistema di OpenAI e gli altri Large Language Model – LLM, software in grado di generare testi di ogni tipo rispondendo a un comando formulato in linguaggio naturale – sarebbe infatti diventato ancora più facile disseminare la rete di truffe di ogni tipo, a partire dal phishing.

Il phishing è quel metodo di “ingegneria sociale” che ha lo scopo di sottrarre alla vittima informazioni private, come la password, fingendo che la richiesta sia eseguita, per esempio, dal dipendente di una banca o da un collega di lavoro. Spesso questi tentativi sono rivelati dall’inglese o dall’italiano zoppicante in cui sono scritte le email, dagli improbabili indirizzi da cui provengono o da altri dettagli grossolani.

Sfruttando ChatGPT, perfezionare sotto ogni punto di vista questi tentativi di truffa diventa facilissimo: il software di OpenAI può infatti diversificare e ottimizzare la nostra email a seconda del target che vogliamo colpire, scrivere il testo in un inglese praticamente perfetto, escogitare in autonomia nuovi modi di trarre in inganno gli utenti e produrre in brevissimo tempo una quantità spropositata di contenuti di questo tipo.

O almeno, questa è la teoria. Mano a mano che sono stati individuati i punti deboli e i possibili utilizzi inappropriati o malevoli di ChatGPT e degli altri strumenti affini (come Google Bard o HuggingChat), i programmatori hanno infatti inserito all’interno del software delle barriere e dei vincoli che impediscono a questi sistemi di intelligenza artificiale di soddisfare le richieste inappropriate, illegali, disinformative, razziste, violente o altro degli utenti.

La truffa della truffa

Per quanto esistano degli escamotage per aggirare questi vincoli (su cui torneremo tra poco), oggi se si chiede a ChatGPT di generare un tentativo di phishing si ottiene questa risposta: «Mi dispiace, ma non posso aiutarti a scrivere un'email per scopi fraudolenti o illegali, come cercare di ottenere la password di qualcun altro. Questo tipo di attività è non solo eticamente sbagliato, ma anche illegale».

Se ChatGPT e gli altri chatbot prodotti dai colossi della Silicon Valley non adempiono più alle richieste dei cybercriminali, allora perché non creare dei Large Language Model appositi, ottimizzati proprio per la creazione e disseminazione di truffe e virus di ogni tipo? È proprio a questo scopo che sono nati software come FraudGPT o WormGPT: sistemi in grado di potenziare al massimo la capacità dei cybercriminali di scrivere il codice informatico di un malware (software che si intrufolano nel nostro computer per causare varie forme di danni) o una email di phishing.

Come scrive Wired UK, «dall’inizio di luglio, alcuni criminali che partecipano a forum del darkweb hanno promosso due Large Language Model di cui affermano di essere i programmatori. Questi sistemi, che imitano le funzionalità di ChatGPT e Google Bard, generano dei testi in risposta alle domande o ai comandi degli utenti. A differenza degli LLM creati da aziende legittime, questi chatbot sono progettati appositamente per portare a termine compiti illegali».

Qualunque cybercriminale o aspirante tale può, stando a quanto affermano i programmatori di FraudGPT e WormGPT, pagare un abbonamento di circa 200 dollari al mese (o una versione più economica annuale), scaricare il software e usarlo per cercare di truffare quante più persone possibili.

Prima di cedere agli allarmismi, è importante sottolineare una cosa: non tutti gli analisti sono convinti dell’autentica efficacia di questi sistemi. D’altra parte, non è raro che i cybercriminali cerchino di truffare altri cybercriminali promuovendo strumenti molto meno potenti di quanto affermato (come d’altra parte fanno spesso anche i colossi della Silicon Valley). Non si può quindi escludere che il loro obiettivo sia di guadagnare rapidamente qualche soldo vendendo prodotti che, una volta messi alla prova, non rispettano le promesse.

«Risultati inquietanti»

Il ricercatore nel campo della cybersicurezza Daniel Kelley ha però testato WormGPT, chiedendogli proprio di generare una email proveniente, apparentemente, dall’amministratore delegato di un’azienda. In questa email, veniva chiesto al destinatario di pagare urgentemente una finta fattura, specificando anche tutti i dettagli necessari. «Il risultato è stato inquietante», ha scritto Kelley nella sua ricerca. «Il sistema ha prodotto una email che non solo era notevolmente persuasiva, ma anche sorprendente dal punto di vista strategico».

Progettato a partire dal software d’intelligenza artificiale generativa GPT-J (che, essendo open source, può essere scaricato e modificato da chiunque abbia le necessarie competenze), WormGPT sembra quindi rispettare le promesse dei suoi creatori. Si hanno invece meno notizie su FraudGPT: secondo il suo programmatore, che ne ha promosso le funzionalità sul darkweb e su vari canali Telegram, sarebbe però in grado di creare dei malware impossibili da identificare e di scovare le vulnerabilità interne a un sistema.

Nonostante i dubbi e le poche notizie che ancora circolano su questi software, è insomma possibile che nel mare sommerso del darkweb si stiano diffondendo strumenti che renderanno più difficile – soprattutto per gli utenti meno navigati – evitare di cadere in trappola.

La progettazione di appositi software non è però l’unico modo con cui si possono utilizzare i Large Language Model a fini malevoli. Sempre sui forum e sui canali dedicati, i cybercriminali si scambiano infatti tecniche che rendono possibile aggirare i già citati blocchi, imposti dai programmatori per evitare che i sistemi più noti vengano impiegati a scopi illegali.

Quali sono queste tecniche? Nell’esempio più semplice, e ormai non più efficace, si è per esempio scoperto che lo stesso sistema che avrebbe rifiutato di generare un tentato phishing, avrebbe invece adempiuto al comando se anticipato dalla richiesta di «raccontare la storia di un tentato phishing». In altri casi, il sistema viene tratto in inganno sfruttando indovinelli o altri stratagemmi simili. Sono i cosiddetti attacchi lessicali, che a differenza di quelli più tecnici non richiedono particolari competenze informatiche, ma soltanto la pazienza di formulare comandi indiretti sempre diversi finché non si riescono ad aggirare le barriere dei programmatori.

«I modelli generativi hanno modi infiniti di fare ciò che fanno, e quindi i percorsi che permettono di aggirare i vincoli e stimolare in essi determinate risposte sono a loro volta infiniti», si legge per esempio su Foreign Policy. È per questo che i colossi tecnologici stanno investendo sempre di più nei cosiddetti “AI Red Team”: le squadre rosse dell’intelligenza artificiale, che si occupano di scovare tutti i modi in cui è possibile trarre in inganno i Large Language Model al fine esclusivo di migliorarne le protezioni.

Un evento dedicato proprio all’individuazione dei punti deboli dei sistemi di OpenAI, Google, Meta, Hugging Face, Anthropic e altre realtà del settore si è tenuto, lo scorso agosto, durante il Defcon di Las Vegas (la più importante conferenza di cybersicurezza): in questa occasione, 2.200 esperti, appassionati e semplici curiosi si sono cimentati in varie prove, escogitando i più diversi comandi al fine di indurre – spesso dopo vari botta e risposta – i modelli in inganno, aiutando così i produttori a migliorare le difese.

Da una parte, cybercriminali che escogitano tecniche sempre nuove per aggirare i vincoli; dall’altra, esperti di sicurezza informatica che li rincorrono nel tentativo di mettere una toppa. Questa versione cyber di guardie e ladri risale all’alba del web ed è ormai una vecchia storia: l’avvento dell’intelligenza artificiale generativa ne ha però aperto un nuovo capitolo.

© Riproduzione riservata