La voce può essere la cartina di tornasole della personalità, dei punti di forza e delle debolezze delle persone. Non solo per gli analisti di marketing, sempre in cerca di nuovi modi di comprendere il cliente; anche per medici, ricercatori, aziende in cerca di impiegati: il modo in cui emettiamo suoni può fornire una miriade di informazioni utili a classificarci. I programmi di deep learning e intelligenza artificiale applicati all’analisi sonora possono rivelare moltissimo della personalità e delle caratteristiche fisiche di un individuo.

Per il bene: si possono scovare ad esempio indizi di problemi mentali o cardiaci. Per scopi meno nobili: una banca potrebbe negare un mutuo etichettando il cliente al primo ascolto come inaffidabile o un call center dirottare su un binario morto la chiamata di chi è percepito come un “seccatore”.

Le applicazioni sono pressoché infinite. A inizio mese, più di 180 musicisti e appartenenti a organizzazioni per i diritti umani hanno inviato una lettera aperta all’amministratore delegato di Spotify, Daniel Ek, chiedendo che la piattaforma di musica in streaming rinunciasse a usare un suo brevetto per il riconoscimento vocale. Questa tecnologia sarebbe in grado di scandagliare i rumore di fondo e individuare «lo stato emotivo, il genere, l’età e l’accento» di un utente. Sono informazioni che poi verrebbero usate per raccomandare musica in linea con i suoi gusti. Per i firmatari, tutto ciò porrebbe l’azienda in una inaccettabile posizione di potere rispetto all’utente, aprendo la strada a possibili abusi, discriminazioni e manipolazioni emotive.

A pensarla così è anche Joseph Turow, professore all’Università della Pennsylvania. Oltre a sottoscrivere l’appello a Spotify, ha approfondito il tema per il suo libro in uscita The voice catchers: How Marketers Listen In to Exploit Your Feelings, Your Privacy, and Your Wallet. Per Turow, «siamo ai primi stadi della rivoluzione della profilazione vocale». Il perché è presto detto: non ci sono più solo i call center, i dispositivi di ascolto e interazione con la voce sono sempre più capillarmente diffusi. Oltre a telefoni e smartphone, si dialoga con gli smart speaker casalinghi e alcune smart Tv, con i navigatori delle automobili, con i braccialetti connessi come il recente Halo di Amazon, che l’azienda afferma essere in grado di analizzare le emozioni trasmesse quando si comunica con l’esterno.

Al contempo, migliorano le tecniche di analisi dei tracciati vocali, pur con molte preoccupazioni su come questa tecnologia possa intaccare la privacy delle persone e sulla ancora scarsa precisione della stessa. Secondo Sandra Watcher, che insegna etica dell’intelligenza artificiale a Oxford, «il modo con cui usiamo la nostra voce e il linguaggio è fortemente influenzato dalle aspettative sociali, dalla cultura e dalle abitudini. Aspettarsi che un algoritmo sia in grado di leggere e capire tutte queste sottigliezze sembra più che altro un obiettivo a cui puntare». Anche così si possono avere applicazioni interessanti in diversi settori.

PREVENIRE MALATTIE E INCIDENTI

Uno di questi è quello della tutela della salute mentale. Con fondi della Darpa, dell’Istituto nazionale di salute mentale, e del Department of Veterans Affairs, la startup americana CompanionMx ha lanciato un paio di anni fa una app. I pazienti a rischio di depressione, sindrome post-traumatica e altre patologie, possono caricare degli spezzoni sonori. Questi vengono poi analizzati, fornendo ai terapeuti informazioni preziose sulle condizioni di salute degli assistiti (pare che i depressi, fra altre cose, pronuncino meno le vocali degli altri) in modo che si possa intervenire per tempo.

Studiare la voce può aiutare anche a combattere i disturbi cardiaci. Uno studio biennale condotto dalla Mayo Foundation e terminato nel 2018, ha cercato di stabilire se si potessero individuare, tramite l’analisi vocale, segnali di disturbi coronarici. La ricerca, per quanto effettuata su un campione limitato e da approfondire, sembra aver dato esito positivo.

Un altro settore promettente per la profilazione vocale è quello della prevenzione degli incidenti stradali. Gli assistenti vocali, ormai di serie nei display interattivi di molte automobili, potranno essere tarati in modo da individuare nella voce segni di stanchezza e stati di ebbrezza. In combinazione con telecamere che leggono le espressioni facciali, le auto connesse avviseranno il guidatore che è meglio accostare o lo faranno esse stesse, nel caso di un colpo di sonno.

L’esempio di un’auto che legge il tuo stato mentale ed emotivo tramite la voce e ti “libera” dal peso di prendere una decisione o ti induce a prenderla, è utile per iniziare a inquadrare anche il lato oscuro di questi sistemi. Quello che spinge studiosi come Turow a invocare la messa al bando della profilazione vocale da qualsiasi interazione commerciale o a sfondo politico o amministrativo.

MENTIRE NON È CONCESSO

L’analisi della voce potrebbe infatti consentire ai software (e alle aziende che li gestiscono) di conoscere una persona meglio di quanto essa conosca sé stessa, togliendole pure le possibilità di mentire, come accade oggi nei sondaggi di opinione. Per poi sfruttare questa conoscenza per manipolarne il comportamento. Turow cita il caso di alcuni brevetti di aziende tecnologiche. In uno, si illustra come Alexa potrebbe capire dall’analisi vocale di un utente che sta covando un raffreddore e offrirsi di farle spedire dei medicinali. In un altro, di Google, l’idea è quella di piazzare dei microfoni in tutte le stanze di un’abitazione per tracciare gli spostamenti del nucleo familiare, analizzarne le abitudini quotidiane e le interazioni reciproche.

Uno smart assistant, paragonando questi pattern a quelli di altre famiglie, potrebbe poi suggerire dei miglioramenti: consigliare di variare l’orario dei pasti, o di ridurre l’uso dei gadget. Tutto molto bello ma, come dire: leggermente invasivo. Un altro timore è che questo tipo di tecniche di analisi possa soffrire di bias simili a quelli di cui soffre il riconoscimento facciale.

Uno dei massimi esperti di riconoscimento vocale, la professoressa Rita Singh della Carnegie Mellon University, mette in guardia dal trarre conclusioni affrettate sulla psicologia di un individuo, partendo da manifestazioni sonore che possono essere condizionate da aspetti culturali. Singh inoltre teme che la tecnologia di analisi, che pure è promettente, possa essere usata a scopi commerciali da persone prive delle competenze necessarie per interpretarne correttamente i risultati.

LA SORVEGLIANZA SEDUCENTE

Come spesso accade quando spunta una nuova tecnologia, queste e altre innovazioni verrebbero pubblicizzate come sistemi per rendere la vita sempre più comoda, efficiente e organizzata. Come ulteriore incentivo, i dispositivi di ascolto vocale, avverte il professor Turow, verranno venduti a basso costo e introdotti quasi surrettiziamente fino a quando diventeranno quasi ubiqui e sarà molto difficile, se non impossibile rinunciarvi. È la “sorveglianza seducente”.

A quel punto, i giganti tecnologici che raccolgono questi dati avranno un potere di monitoraggio, influsso e persuasione, ancora maggiore di quello che già hanno. E gli utenti avranno ceduto un’altra fetta della loro negletta privacy.

© Riproduzione riservata