Le reti neurali rappresentano il cambio di paradigma che condurrà all’Ia di oggi. Dai segnali binari del modello MP a quelli “pesati” del percettrone di Rosenblatt, ecco la loro evoluzione nella storia
I primi ricercatori impegnati nel campo dell’intelligenza artificiale, fra il 1950 e l’inizio degli anni ’70, avevano lavorato usando metodi prevalentemente logico-simbolici. L’idea che li guidava era che la nostra intelligenza fosse legata in primo luogo alla capacità di ragionamento logico e all’uso del linguaggio, visto come un sistema di manipolazione di simboli attraverso regole. E dato che anche i computer funzionano usando regole e simboli, la costruzione di computer intelligenti sembrava a portata di mano.
Questa strada, però, ha portato risultati molto inferiori alle attese. I computer sanno fare calcoli, sanno manipolare simboli in base a regole. Ma se cerchiamo di riprodurre comportamenti intelligenti complessi, ad esempio la capacità di usare il linguaggio nella pluralità di situazioni e contesti propri dell’interazione linguistica umana, i programmi informatici tradizionali sembrano decisamente inadeguati.
Serviva una strada nuova, e questa strada fu trovata in un filone di ricerca che era già presente al tempo dell’intelligenza artificiale delle origini, ma che ha poi mostrato una capacità di evoluzione per molti versi sorprendente: le reti neurali.
La ricerca sui neuroni
Il lavoro sulle reti neurali era iniziato ancor prima che fossero disponibili i primi elaboratori elettronici: l’obiettivo iniziale non era infatti quello di costruire macchine intelligenti, ma quello di capire meglio come lavorava il nostro cervello, fornendo un modello semplificato del funzionamento dei neuroni che lo compongono. Può essere utile, a questo punto, fare un passo indietro. Nel 1873 Camillo Golgi, un medico italiano, aveva inventato un metodo geniale per visualizzare, al microscopio, le singole cellule del sistema nervoso e la loro struttura reticolare: la “reazione nera”, che permette di far risaltare, colorandole di nero, alcune cellule e le loro ramificazioni.
Quella di Golgi è una scoperta che si rivela ben presto importantissima; grazie alla possibilità di visualizzare queste strutture, un altro studioso di medicina, lo spagnolo Santiago Ramón y Cajal, formula alcuni anni dopo la “teoria del neurone”: l’idea che il funzionamento del cervello si basi su miliardi (oggi pensiamo fra 80 e 90 miliardi) di neuroni interconnessi. Per le loro scoperte, Golgi e Cajal vinceranno – insieme – il premio Nobel per la medicina nel 1906, lo stesso anno in cui Carducci vinse quello per la letteratura. Golgi e Carducci sono i primi due premi Nobel italiani, ma il nome di Carducci è molto più noto di quello di Golgi, che meriterebbe almeno la stessa fama.
Il modello logico
Nel 1943 un neurofisiologo, Warren McCulloch, e un logico, Walter Pitts, partono da queste scoperte per proporre un modello “logico” del funzionamento dei neuroni. La loro idea è che si possa spiegare il funzionamento del cervello pensando alla rete di neuroni come a una sorta di rete logica, in cui ogni neurone riceve più segnali in ingresso (da organi sensoriali o da altri neuroni) attraverso i dendriti: fibre che fungono da canali di input verso il corpo del neurone. Il neurone elabora questi segnali in base a proprie regole specifiche ed emette attraverso l’assone un segnale in uscita, a sua volta distribuito ad altri neuroni.
Nel modello di McCulloch e Pitts (il cosiddetto neurone MP, dai nomi dei due ricercatori), sia i segnali in ingresso sia quelli in uscita sono binari (“0” o “1”), e il neurone diventa dunque una sorta di minuscolo circuito logico. L’articolo scritto da McCulloch e Pitts, Un calcolo logico delle idee immanente nell’attività nervosa, mostrava fin dal titolo il forte debito con l’idea che il nostro cervello fosse in fondo basato sull’uso della logica.
Un nuovo modello
Come è facile capire, questo modello andava benissimo ai pionieri dell’intelligenza artificiale logico-simbolica: nel documento preparatorio dell’incontro di Dartmouth del 1956, lo stesso in cui compariva per la prima volta l’espressione intelligenza artificiale, viene citato come una delle strade che si sarebbero potute seguire nella costruzione di sistemi informatici intelligenti.
In che senso, allora, le reti neurali rappresentano un cambiamento di paradigma?
Per capirlo bisogna guardare alle evoluzioni successive di questa idea, che la allontanano parecchio dal “logicismo” iniziale. Nel percettrone, un’evoluzione del neurone MP proposta alla fine degli anni ’50 dallo psicologo sperimentale statunitense Frank Rosenblatt, si rinuncia all’idea che i segnali in ingresso debbano essere necessariamente binari (più tardi si farà lo stesso anche per i segnali in uscita), e si aggiunge un elemento nuovo, il “peso”. L’idea è che il neurone che riceve un segnale non si limiti ad acquisirlo passivamente, ma gli attribuisca invece un’importanza – rappresentata a sua volta da un parametro numerico, il peso (“w”, dall’inglese weight) – maggiore o minore, a seconda dei propri scopi.
Così, ad esempio, i neuroni impegnati quando attraversiamo una strada daranno probabilmente poca importanza, e dunque un peso basso, al cinguettio di un uccello in lontananza, mentre daranno un’importanza decisamente maggiore, e dunque un peso alto, ai segnali visivi che ci informano della presenza di un’auto che si avvicina a gran velocità. Il segnale emesso dal neurone dipenderà allora dai valori (pesati) dei segnali in ingresso: se viene superato un determinato valore di soglia, il neurone si attiverà, altrimenti no.
Questo modello è più complicato del neurone MP, ma è ancora deterministico: se conosciamo valori, pesi e valore di soglia, possiamo prevedere esattamente come si comporterà ogni neurone della rete. Così, ad esempio, un neurone con valore di soglia 0,5 non si attiva mai se la sommatoria pesata degli input è 0,49, e si attiva sempre se è 0,51. Ma… non potrebbe essere più sensato, invece, pensare in termini probabilistici? Pensare, cioè, che l’aumento della sommatoria pesata degli input aumenti la probabilità di attivazione del neurone, senza presupporre un valore di soglia fisso?
La probabilità
Questa evoluzione avviene nel corso degli anni ’80. E il passaggio da neuroni deterministici a neuroni probabilistici, associato alla costruzione di reti sempre più complesse, che comprendono molti strati di neuroni fra l’input e l’output, cambia tutto. Le reti neurali diventano più flessibili: oltre ai pesi e ai valori possiamo sperimentare funzioni (probabilistiche) di attivazione diverse, cercando quelle che funzionano meglio in una determinata situazione.
Inoltre, l’aumento degli strati della rete permette di creare algoritmi che modificano “all’indietro” i parametri, premiando con valori e pesi man mano più alti i neuroni che intervengono in decisioni corrette e “punendo” con valori e pesi più bassi quelli che intervengono in decisioni sbagliate. Tuttavia, in questo modo le reti neurali diventano anche più opache: non sappiamo più prevedere con esattezza neanche il comportamento di un singolo neurone, figuriamoci di una rete che ne comprende decine o centinaia di migliaia.
I sostenitori della “Good, Old-Fashioned Artificial Intelligence”, la buona vecchia intelligenza artificiale logico-simbolica delle origini, avrebbero probabilmente guardato con una certa diffidenza a queste enormi reti fatte di numeri (valori, pesi…) che cambiano continuamente man mano che la rete viene addestrata, e che si comportano in maniera sempre in parte imprevedibile. Dov’è la logica? Dov’è il linguaggio?
Eppure, nel costruire sistemi intelligenti queste reti sembrano funzionare molto meglio della vecchia IA logico-simbolica. E, come vedremo nel prossimo articolo di questa serie, è attraverso queste reti che siamo arrivati all’intelligenza artificiale generativa di oggi.
LE LEZIONI PRECEDENTI
© Riproduzione riservata