La voce è una «faccia uditiva». Lo sostiene la psicologa Annett Schirmer che in un articolo pubblicato su Social Cognitive and Affective Neuroscience spiega come sia, al pari del viso, un elemento utile per il riconoscimento di persone familiari. Se, dunque, riconosciamo l’altro anche attraverso la voce, che fine fa la sua identità quando quella voce viene clonata?

Questo dibattito, nonostante possa sembrare un esercizio di stile da aula di filosofia, sta, invece, diventando di grande attualità. Il motivo? La diffusione che sta avendo l’app FakeYou, soprattutto dopo che è stata usata su TikTok per creare alcuni vocali audio con la voce di Giorgia Meloni, la nuova presidente del Consiglio.

Cosa è Fake You?

FakeYou è un convertitore text-to-speech, ossia uno strumento tecnologico che riproduce i suoni dal testo al parlato. In particolare, FakeYou offre un ampio ventaglio di opzioni per la generazione di sintesi vocali. Gli utenti possono infatti scegliere tra oltre duemila opzioni di clonazione vocale per imitare una vasta gamma di voci, spaziando da Donald Trump a papa Francesco, da attori a cartoni animati, non escludendo appunto personaggio politici e altre personalità.

Fra le voci italiane che si possono clonare ci sono quella di Giuseppe Conte e di Silvio Berlusconi. Ma anche Paolo Bonolis, Francesco Totti, Maria De Filippi e Wanna Marchi. Tutti possono partecipare all’ampliamento del catalogo delle voci: le istruzioni per farlo vengono condivise su Discord, un’app di messaggistica. Per ogni voce accettata e inserita nel sistema si possono guadagnare fino a 150 dollari.

Oltre FakeYou

Questo tipo di applicazioni text-to-speech non sono certo una novità, ed esistono molte alternative a FakeYou. Di alcune di queste ci parla Giuseppe Italiano, professore di computer science alla Luiss Guido Carli ed esperto in intelligenza artificiale e machine learning. «Tra le app che effettuano sintesi vocali del tipo text-to-speech, mi vengono in mente TextAloud, SwiftTalker e Speechify», dice. 

TextAloud, ad esempio, è un’app open source che consente di tradurre testi in sintesi vocali. Semplifica l'ascolto di libri, siti web, articoli o altre informazioni che l’utente preferisce fruire in formato audio. «Molto probabilmente è stato pensato proprio per chi desidera ascoltare informazioni invece di leggerle in formato testuale. Possiamo pensare a studenti, professionisti ma anche a persone che vivono con difficoltà di apprendimento che possono rendere difficile la lettura», spiega Italiano. 

SwiftTalker, invece, è un'applicazione di sintesi vocale orientata più al mondo business, che le aziende possono utilizzare per interagire, in modo rapido e conveniente, con i propri clienti. Come FakeYou, SwiftTalker offre opzioni vocali divertenti (come, ad esempio, voci di alieni o di robot), anche se in numero molto limitato rispetto a FakeYou.

Speechify è forse una delle app più utilizzate nel text-to-speech. Offre voci naturali che consentono all’utente di concentrarsi sulle informazioni, piuttosto che sulla voce nel file audio.

I dubbi

Insomma, FakeYou non è nulla di nuovo nel panorama dei sistemi di intelligenza artificiale, ma i dubbi che il suo utilizzo suscita sono molteplici. Innanzitutto, un primo problema è legato al fatto che FakeYou – come il nome stesso suggerisce – è uno strumento che consente di creare dei deepfake audio. 

I deepfake sono media sintetici in cui una persona, o una sua caratteristica, presa da un'immagine, da un video o un audio esistente, viene sostituita con qualcosa o con qualcun altro. Possono essere usati con scopo ludico, come fare uno scherzo a qualcuno, ma possono essere impiegati anche con intenzioni malevole o, nei casi più gravi, criminali. 

È il caso delle truffe amorose, che come testimoniato da donne e uomini che ne sono caduti vittime, si protraggono per mesi e, in alcuni casi, anche per anni proprio per l’utilizzo di audio o video fake. Per aiutare le persone truffate a riconoscere i deepfake e spingerle a denunciare è nata l’associazione Acta

La protezione della Privacy

A far riflettere è anche la possibile violazione della privacy. Non a caso qualche giorno dopo le elezioni politiche del 25 settembre, quando FakeYou è diventato un fenomeno virale per gli audio (falsi) di Giorgia Meloni, il Garante della privacy ha aperto un’istruttoria su questa app. Le preoccupazioni del Garante si sono indirizzate «verso i potenziali rischi che potrebbero determinarsi da un uso improprio di un dato personale, quale è appunto la voce». 

Il Garante per la protezione dei dati personali ha infatti chiesto a The Storyteller Company, la società che produce FakeYou, «di trasmettere con urgenza ogni possibile elemento utile a chiarire l’iniziativa». In particolare, «la società dovrà, tra l’altro, fornire le modalità di “costruzione” della voce dei personaggi famosi, il tipo di dati personali trattati, nonché le finalità del trattamento dei dati riferiti ai personaggi noti e agli utenti che utilizzano l’app».

I dati personali 

A sollevare perplessità sulla protezione dei dati personali era stato, in un articolo apparso sul Washington Post, l’amministratore delegato di SocialProof Security, Rachel Tobac: «Se un criminale informatico può replicare facilmente e in modo credibile la voce di un'altra persona a partire da un piccolo campione vocale, può dunque utilizzare quel campione vocale per impersonare altre persone».

Il commento di Tobac era nato a margine di un’iniziativa intrapresa da Amazon e annunciata da Rohit Prasad, vicepresidente dell’azienda e capo scienziato. Durante re:MARS 2022, Prasad aveva fatto vedere, a scopo dimostrativo, alla platea che lo ascoltava un video in cui un bambino chiedeva all’assistente vocale di Amazon: «Alexa, la nonna può finire di leggermi Il mago di Oz?».

La nonna del bambino era morta ma, nonostante ciò, il bambino aveva potuto ascoltare il seguito della storia con la voce della nonna. Il team di ricercatori di Amazon sta sviluppando una tecnologia che consentirà ad Alexa di imitare la voce di chiunque a partire da frammenti audio di meno di un minuto.

Il caso di Joshua Barbeau

Rimanere in contatto con la voce di una persona cara morta non è una novità e non appartiene neanche all’ambito della fantascienza. A luglio del 2021 il San Francisco Chronicle pubblica un articolo nel quale racconta il caso di Joshua Barbeau, un uomo di 33 anni che servendosi della piattaforma Project December e del sistema GPT-3 ha creato una chatbot che simulava la conversazione con la sua fidanzata defunta, Jessica. 

Il caso di Barbeau aveva aperto una spaccatura tra Jason Rohrer, lo sviluppatore di Project December, e OpenAI perché le linee guida dell'azienda vietano esplicitamente l'uso di GPT-3 per scopi sessuali, amorosi, autolesionistici o bullismo. OpenAI considerava la chatbot di Barbeau una violazione dei suoi principi.

Il problema etico

L’utilizzo della voce di un defunto apre a un altro problema di tipo etico. Come ha scritto su The Conversation la ricercatrice in comunicazione Sara Suárez-Gonzalo, anche dopo morta una persona non è un oggetto di cui si può fare ciò che si vuole.

Far riprodurre la voce di qualcuno da un sistema di intelligenza artificiale implica l’impiego di grandi quantità di informazioni personali come i dati dei social network che hanno dimostrato di rivelare tratti altamente sensibili. «Se accettiamo che non è etico utilizzare i dati delle persone senza il loro consenso mentre sono in vita – scrive Suárez-Gonzalo – perché dovrebbe essere etico farlo dopo la loro morte?». 

© Riproduzione riservata