Gli etichettatori di dati sono gli operai dell’intelligenza artificiale

Gli addetti al data labeling passano la giornata a guardare immagini catalogando correttamente ciò che appare al loro interno, permettendo così l’addestramento degli algoritmi di deep learning.
Per istruire le intelligenze artificiali a portare a termine un compito è necessario etichettare correttamente le immagini e gli altri dati usati per il loro addestramento. Un compito svolto da milioni di esseri umani in tutto il mondo e che si fa sempre più complesso.
Dalle AI che hanno incorporato i pregiudizi dei loro etichettatori fino alla possibilità che imparino a svolgere anche questo lavoro da sole, nemmeno il data labeling è privo di rischi.

Avvicinandosi alle strisce pedonali, l’auto autonoma si accorge della presenza di una persona e si ferma per lasciarla passare. Ma come faceva a conoscere il significato delle strisce? E come poteva essere certa che la figura nelle vicinanze fosse proprio una persona? Per riuscire in questo compito, l’intelligenza artificiale alla guida dell’auto autonoma (più precisamente, un algoritmo di deep learning) è stata addestrata attraverso centinaia di migliaia di immagini di strisce pedonali e altrettante che raffiguravano persone, biciclette, cartelli stradali, animali e tutto ciò che si può incrociare per strada. Solo dopo questa fase di addestramento – e nonostante le tante difficoltà a cui ancora vanno incontro – le self-driving car imparano a distinguere autonomamente i vari elementi del paesaggio urbano e il loro significato.

Captcha Code

A etichettare le immagini o i video impiegati per l’addestramento delle intelligenze artificiali, segnalando con precisione tutto ciò che si trova al loro interno, non sono però altri algoritmi. Al contrario: sono esseri umani il cui lavoro si trova al livello più basso del processo di creazione dei software di deep learning. Sono le persone che lavorano in quelli che spesso vengono definiti gli scantinati dell’intelligenza artificiale. Scantinati che possono avere l’aspetto di fabbriche specializzate nel data labeling (etichettatura dei dati), di piattaforme che assoldano lavoratori da remoto e di altre per cui, inconsapevolmente, abbiamo lavorato gratuitamente anche noi. Partiamo proprio da quest’ultimo caso: a tutti, per accedere a un qualunque servizio online, è capitato di dover risolvere i cosiddetti Captcha Code. Sono quei puzzle elementari che richiedono, per esempio, di segnalare tutte le immagini in cui compaiono delle strisce pedonali, delle automobili o delle biciclette.

Non è un caso: il più noto di questi strumenti, ReCaptcha, è stato acquistato da Google nel 2009. I puzzle che risolviamo online hanno quindi non solo lo scopo di dimostrare che siamo degli esseri umani e non dei bot, ma anche di etichettare le immagini utilizzate per addestrare gli algoritmi di Waymo, la società di auto autonome di proprietà proprio di Google (Alphabet). Fino a qualche anno fa, questi stessi Captcha chiedevano invece di trascrivere correttamente le parole distorte contenute in un’immagine: un lavoro che ha contribuito alla digitalizzazione automatica dei milioni di libri oggi archiviati in Google Books. In parte, quindi, siamo stati noi a etichettare i dati impiegati per addestrare le intelligenze artificiali.

Dati sempre più complessi

I colossi tecnologici che non hanno modo di usufruire del lavoro gratuito dei loro utenti – e la stessa Google per i suoi altri progetti – si appoggiano invece a piattaforme come Amazon Mechanical Turk o Clickworker. In tutti questi casi, a etichettare i dati sono lavoratori da remoto iscritti alle piattaforme e pagati in base alla quantità di lavoro che riescono a portare a termine. Queste piattaforme sollevano però parecchi problemi: non solo le persone sono spesso sottopagate (in media tra i due e i quattro dollari l’ora), ma la velocità a cui sono costrette a lavorare rischia di rendere la categorizzazione non sufficientemente accurata.

Ciò vale a maggior ragione dal momento che, oggi, non è quasi più necessario etichettare dei semplici gatti o delle case. Al contrario, i dati su cui bisogna lavorare sono sempre più complessi e variegati: dalla categorizzazione dei vari modi in cui si può chiedere a uno smart speaker di accendere le luci, all’ascolto di registrazioni audio per verificare la precisione con cui un algoritmo le ha trascritte, fino al data labeling delle radiografie usate per insegnare alle intelligenze artificiali a diagnosticare determinate malattie (un lavoro per il quale, in Cina, vengono assoldati anche gli studenti di Medicina).

Cina e Stati Uniti

È per questa ragione che il lavoro gratuito svolto tramite i Captcha o quello di piattaforme come Amazon Turk spesso non è più sufficiente. Ed è per questo che negli ultimi anni stanno prosperando le aziende specializzate: vere e proprie fabbriche di dati, spesso situate lontano dall’occidente, che impiegano etichettatori professionisti e che sui loro siti sottolineano l’alta qualità dei dati forniti. In Cina, appena fuori Pechino, si trovano per esempio società come Basic Finder e Mada Code, che – secondo quanto riportato dal South China Morning Post – danno lavoro a circa 10mila persone ciascuna e collaborano con realtà come Microsoft o la prestigiosa università Carnegie Mellon. Altri nomi noti del settore sono UniDT Technology di Shanghai, Ruijin Science and Tech di Taiwan o Global Technology Solution, che ha uffici in Cina e in India.

iMerit dà invece lavoro a 2.200 persone nei suoi otto uffici sparsi per l’India, mentre Samo – i cui impiegati etichettano dati per conto di Microsoft, General Motors, Walmart e Google – è di proprietà statunitense ma con uffici in Kenya e in Uganda. Summa Linguae è una delle realtà più attive in Europa, con sedi sparse tra Polonia, Norvegia, Finlandia, Svezia e non solo. Gli Stati Uniti giocano comunque un ruolo di primo piano, con società come Mighty AI (acquistata da Uber nel 2019), Figure Eight, Scale, CrowdAI e parecchie altre. Nel complesso, le società di data labeling occupano oggi milioni di persone – tra lavoratori dipendenti e collaboratori da remoto – e alimentano un giro d’affari pari a 1,6 miliardi di dollari, destinato a crescere del 25 per cento su base annua fino a superare (secondo i dati di Grand View Research) gli 8 miliardi entro il 2028.

Questa evoluzione dagli scantinati alle boutique dei dati non significa che i problemi siano scomparsi: nel corso del 2019, vari influencer Lgbt hanno fatto causa a YouTube per aver rimosso o penalizzato i loro contenuti, nonostante fossero perfettamente conformi al regolamento della piattaforma di streaming. Come mai allora l’algoritmo li aveva danneggiati? «Scavando sotto la superficie, abbiamo capito che non era l’algoritmo ad avere pregiudizi, ma i lavoratori dietro le quinte, che operano in paesi dove i contenuti Lgbt sono illegali», ha spiegato alla Bbc la direttrice dello Human-Computer Interaction Lab dell’Università della West Virginia. «Le decisioni prese dagli addetti alla categorizzazione dei dati in Africa e altrove, che sono responsabili del data labeling di piattaforme globali, dà forma agli algoritmi con cui gli utenti di internet di tutto il mondo interagiscono ogni giorno».

Aspetti etici

In poche parole, gli addetti alla categorizzazione dei dati usati per addestrare l’algoritmo di YouTube avevano etichettato come “da vietare” dei contenuti che forse avrebbero infranto le norme del loro paese, ma non quelle della piattaforma di streaming. Erano insomma stati vittima dei pregiudizi e delle leggi delle loro nazioni, trasmettendoli all’algoritmo. In prospettiva, si tratta di uno degli ostacoli principali al corretto addestramento di intelligenze artificiali il cui successo dipende interamente dalla bontà dei dati impiegati. Più delicati e di responsabilità diventano i compiti affidati alle intelligenze artificiali – quale candidato assumere, a chi elargire un mutuo o davanti a quali ostacoli un’auto deve frenare o meno – più si fa complesso il lavoro di data labeling.

Al di là di questi cruciali aspetti etici, c’è un altro elemento da prendere in considerazione: a un certo punto, le intelligenze artificiali potrebbero non aver più bisogno di qualcuno che etichetti i dati per loro o potrebbero addirittura diventare in grado di farlo da sole. Il data labeling è una professione destinata ad auto-distruggersi? Un giorno, forse, le intelligenze artificiali diventeranno talmente brave da renderla obsoleta. Per il momento, però, l’unica certezza è che questo lavoro sta diventando sempre più diffuso, delicato e complesso.

Andrea Daniele Signorelli

Milanese, classe 1982, giornalista. Scrive di nuove tecnologie, politica e società. Nel 2017 ha pubblicato Rivoluzione Artificiale: l’uomo nell’epoca delle macchine intelligenti per Informant Edizioni. Nel 2015 Tiratura Illimitata – Dal crowdfunding ai native ads: inchiesta sul giornalismo che cambia per Mimesis Edizioni