Le reti neurali nascono dall’idea di cercare un modello semplificato del funzionamento del nostro cervello. I ricercatori che, intorno alla metà del secolo scorso, hanno avviato questo lavoro pensavano che il nostro cervello fosse in sostanza un sofisticato strumento di riconoscimento e manipolazione di simboli.

La neurobiologia suggeriva che il cervello fosse composto soprattutto da neuroni, cellule capaci di ricevere informazioni attraverso più canali in ingresso, di elaborarle, e di restituire un output attraverso i propri canali in uscita.

L’intelligenza umana poteva essere il risultato dell’interazione dei miliardi di neuroni di cui disponiamo, collegati fra loro in reti complesse? Ed era possibile costruire un modello che riproducesse queste strutture?

Neuroni deterministici

I primi modelli di questo tipo si basavano su neuroni (simulati) deterministici: un neurone riceve segnali di input, rappresentati nel modello attraverso valori numerici, che possono essere “pesati” in funzione della maggiore o minore importanza che il neurone “ricevente” attribuisce loro. Il neurone mette insieme i valori pesati che ha ricevuto, e valuta se superano o no un determinato livello di soglia. Se il livello di soglia è superato, il neurone si attiva. Altrimenti, no.

Già le prime reti di questo tipo – come quelle realizzate alla fine degli anni ’50 da Frank Rosenblatt, psicologo sperimentale statunitense, usando un simulatore di neuroni battezzato “percettrone” – mostravano capacità di apprendimento e riconoscimento delle forme.

E lo stesso Rosenblatt aveva sottolineato un motivo d’interesse delle reti neurali: lavorare su simulatori di neuroni è un metodo più “concreto” e vicino al funzionamento del cervello biologico di quanto non sia lavorare esclusivamente attraverso strumenti di programmazione tradizionale. Su YouTube (l’indirizzo è https://youtu.be/cNxadbrN_aI) potete vedere, in un breve filmato d’epoca, uno di questi simulatori al lavoro, impegnato nel curioso compito di distinguere immagini di volti maschili da immagini di volti femminili.

Un compito che oggi considereremmo probabilmente legato a pregiudizi di genere nella costruzione di rappresentazioni “modello”: e infatti il sistema entrava in crisi davanti alle immagini di capelloni, di giudici con la parrucca o di acconciature non standard.

Un clamoroso fallimento

Pur se basate sulla manipolazione di simboli attraverso modelli che a livello di singolo neurone sono deterministici, dunque, le reti neurali proposte da Rosenblatt mostravano in qualche misura una strada nuova rispetto all’intelligenza artificiale logico-simbolica tradizionale. Nel 1969, però, arrivò un risultato inatteso e scoraggiante, dovuto a Marvin Minsky, che all’epoca era uno dei padri dell’intelligenza artificiale logico-simbolica e che in seguito ne riconoscerà il sostanziale fallimento, e a Seymour Papert, informatico e pedagogista sudafricano che sarà fra i padri della robotica educativa.

In un volumetto intitolato Perceptron, Minsky e Papert sembrano dimostrare che i percettroni non possono simulare alcune operazioni logiche piuttosto semplici, come l’ “o” esclusivo, o “XOR” (vero se e solo se esattamente uno dei disgiunti è vero, e falso se sono tutti e due falsi o tutti e due veri). Non entrerò qui nei dettagli di questa dimostrazione: quel che ci interessa in questa sede è che sembra infliggere un colpo durissimo alle reti neurali.

Se non sono in grado di usare un operatore logico così semplice, come possiamo pensare di usarle per costruire sistemi intelligenti?

In realtà, il risultato di Minsky e Papert è parziale: si riferisce solo alle reti che hanno un singolo strato di percettroni fra l’input e l’output. Ma le reti su cui si lavorava all’epoca erano di questo tipo, e per diversi anni l’idea delle reti neurali sembra condannata all’irrilevanza. Il lavoro in questo campo non sarà mai veramente interrotto, ma fino a verso la metà degli anni ’80 rappresenterà, nel mondo dell’intelligenza artificiale, una nicchia minoritaria.

Molecole di gas e gattini

Progressivamente, però, proprio nel corso degli anni ’80 la situazione cambia.

Si comincia a lavorare sulle reti neurali “profonde”, con diversi strati di neuroni fra l’input e l’output, che permettono di muovere molto più liberamente informazione all’interno della rete e di aggiustare man mano pesi e valori.

Per l’attivazione dei neuroni cominciano a venire utilizzate, al posto dei valori di soglia deterministici, funzioni probabilistiche. E le nuove reti neurali profonde mostrano capacità sempre maggiori.

Uno dei padri di questi sviluppi è Geoffrey Hinton, informatico anglo-canadese che nel 2024 riceverà il premio Nobel per la fisica. Hinton parte dalla meccanica statistica di Boltzmann, in cui le molecole di un gas si muovono in maniera inizialmente disordinata per trovare man mano una configurazione più stabile, quella che richiede meno energia.

E immagina che una rete neurale si comporti un po’ nello stesso modo: i neuroni, collegati fra loro da legami più o meno forti (che corrispondono ai pesi), si attivano e disattivano in maniera inizialmente casuale ma progressivamente più ordinata, man mano che “imparano” a rappresentare efficacemente i dati ai quali sono state esposte.

E imparando a riconoscere strutture nei dati, queste reti diventano capaci non solo di discriminare casi diversi – ad esempio, di classificare correttamente l’immagine di un gatto o di un cane, dopo aver visto molte immagini etichettate di gatti e di cani – ma anche di produrre dati nuovi che “imitino” caratteristiche dei dati su cui sono state addestrate. Possiamo dunque chiedere alla rete, nel nostro esempio, di generare nuove immagini di un gatto o di un cane: immagini diverse da quelle su cui è stata addestrata, ma sufficientemente “simili” a quelle immagini da permetterne il riconoscimento. In altre parole, il processo di apprendimento a cui sono sottoposte queste reti non produce solo capacità discriminative, ma anche capacità generative.

Verso il salto decisivo

Si tratta di un passo decisivo verso l’intelligenza artificiale generativa di oggi. Ma, per arrivarci, servono dei risultati ulteriori: le reti immaginate inizialmente da Hinton – che proprio per il paragone con la meccanica statistica di Boltzmann erano chiamate Boltzmann Machines – non erano infatti prive di problemi: dovendo “provare” molte configurazioni di neuroni accesi e spenti prima di trovare uno stato stabile (“a bassa energia”), richiedevano risorse di computazione assai alte, che crescevano esponenzialmente all’aumento di complessità della rete stessa.

E non c’erano garanzie né sul tempo richiesto per trovare stati a bassa energia, né che gli stati trovati fossero effettivamente quelli ottimali e non solo un “minimo” locale in cui la rete poteva adagiarsi senza trovare le soluzioni effettivamente migliori.

Per una trentina di anni, dunque, fra la metà degli anni ’80 del secolo scorso e la metà degli anni ’10 di questo secolo, la storia delle reti neurali è fatta di continue esplorazioni di architetture diverse e più efficienti.

Fino a quando, nel 2017, un gruppo di ingegneri di Google propone quella che sembra solo una nuova architettura fra tante, e che si rivela invece straordinariamente potente: i modelli basati su Transformer, che saranno alla base di ChatGPT e di moltissimi fra i nuovi sistemi di intelligenza artificiale generativa.

Nel prossimo e ultimo articolo di questa serie esamineremo questo sviluppo, che porta alla rapidissima evoluzione degli ultimi anni, e alle molte domande che questa evoluzione ci pone.

LE LEZIONI PRECEDENTI

© Riproduzione riservata