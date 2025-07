Nel 2017 un articolo di un gruppo di ricercatori di Google pone il problema delle reti neurali in termini di attenzione. Un concetto decisivo. Una giovane azienda si accorge subito delle potenzialità di questo approccio. Così nasce ChatGPT, la “nuova” intelligenza artificiale generativa. I grandi modelli linguistici imparano a produrre linguaggio. Quella che leggete è l’ultima puntata delle lezioni di intelligenza artificiale del professor Gino Roncaglia (almeno per ora)

Come funzionano i sistemi attuali di intelligenza artificiale generativa? Molto nasce da un articolo rivoluzionario pubblicato nel 2017 da un gruppo di ricercatori di Google, intitolato Attention Is All You Need (Tutto quel che ti serve è l’attenzione). Ma di quale attenzione si tratta?

Le prime reti neurali capaci di produrre linguaggio avevano limiti enormi nel “ricordare” sia l’input ricevuto (il prompt), sia il testo che veniva man mano generato. Per avere un’idea della situazione nella quale si trovava chi programmava reti di questo tipo prima del 2017, potete pensare al gioco del “cadavere squisito”, popolare fra i surrealisti francesi del secolo scorso. Le persone che partecipavano al gioco dovevano collaborare nello scrivere una poesia o un racconto, alternandosi nella scrittura. C’era però un vincolo non banale: a ogni turno, chi doveva scrivere poteva vedere solo l’ultima parola usata da chi l’aveva preceduto. Come è facile capire, questo produceva testi assai sconclusionati, in cui – anche se il “raccordo” fornito dall’ultima parola di ogni segmento garantiva un minimo di continuità al testo – mancava completamente un filo narrativo o compositivo.

Long short-term memory

Prima dell’articolo del 2017, le reti neurali erano un po’ nella stessa situazione: man mano che il testo veniva generato, il sistema “dimenticava” le parti più lontane, e perdeva il filo della scrittura. Un primo tentativo per superare questo problema era stato fatto nel 1997 dagli informatici tedeschi Sepp Hochreiter e Jürgen Schmidhuber con la Long Short-Term Memory (LSTM).

L’idea era quella di includere nella rete una sorta di memoria tampone (piuttosto ampia e capace di gestire anche alcune dipendenze “lontane”: da qui la curiosa denominazione long short-term memory) per conservare le informazioni. Le celle di questa memoria venivano gestite da circuiti capaci di conservarvi e di richiamare informazioni (attraverso porte di ingresso e di uscita), ma anche di dimenticare le informazioni poco usate, attraverso una particolare porta denominata “forget” gate: la porta che dimentica.

Il problema dell’attenzione

La possibilità di dimenticare, associata a una “finestra” di memoria più ampia, migliorava un po’ la situazione, ma la finestra disponibile non era comunque ampia abbastanza da coprire un testo più lungo di poche frasi. Soprattutto, restava irrisolto un problema enorme: per costruire testi funzionanti, non basta la memoria; serve anche la capacità di riconoscere e di gestire i rapporti di dipendenza, i riferimenti, le parole o i concetti lasciati impliciti.

Per capirlo, ripensate a quel che avete letto finora in questo articolo. In apertura, viene citato il lavoro del 2017 sull’attenzione, e viene posta la domanda «di quale attenzione si tratta?». Una lettrice o un lettore umano prosegue la lettura tenendo sempre implicitamente presente quella domanda, e si aspetta che il seguito dell’articolo ponga le basi per dare una risposta. Capisce di dover dedicare particolare attenzione… al tema dell’attenzione. Arrivati a questo punto, quella frase è abbastanza lontana nel testo, ma – anche se non ve ne rendete pienamente conto – continuate a tenerla presente. E anche io che scrivo continuo a tenerla presente, perché so che devo fornire una risposta. In altre parole, in un testo ci sono sempre frasi, parole, concetti ai quali, man mano che procede la lettura (e la scrittura), serve dedicare più attenzione rispetto ad altri. Non basta una memoria, serve una memoria diversificata, che ricordi non solo la successione di parole ma anche quanto sono importanti e che relazioni hanno fra loro. E questa valutazione deve essere aggiornata continuamente.

Il meccanismo dell’attenzione – inserito in un’architettura particolare, denominata “transformer” – serve proprio a questo: permette a una rete di focalizzarsi sulle parti rilevanti di una sequenza man mano che elabora i dati, dedicando un’attenzione diversa – e dinamica – a elementi diversi della sequenza esaminata.

La nascita di ChatGPT

Questa idea ha mostrato subito le sue enormi potenzialità nel campo della traduzione automatica (dove una primissima versione dell’idea di attenzione era stata sperimentata già nel 2014): con l’attenzione, una rete di traduzione poteva “guardare” direttamente le parole più rilevanti della frase di partenza mentre generava ciascuna parola nella frase di arrivo, un po’ come un traduttore umano che si concentra su una porzione alla volta del testo originale.

Quando nel 2017 esce l’articolo dei ricercatori di Google, c’è una giovane azienda che si accorge subito delle potenzialità dei transformer e del meccanismo dell’attenzione: si tratta di OpenAI, che era nata nel dicembre 2015 e lavorava proprio su intelligenza artificiale e reti neurali.

Se chiedete quando sia nata la “nuova” IA generativa, probabilmente molti vi risponderanno che è nata a fine 2022, quando Open AI lancia ChatGPT: un chatbot, cioè una piattaforma attraverso cui chattare, e dunque dialogare, con un sistema di intelligenza artificiale capace di usare il linguaggio. In realtà, Open AI aveva prodotto una prima versione di GPT già nel 2018 (la sigla GPT vuol dire Generative Pre-trained Transformer: un sistema generativo, pre-addestrato e basato sull’architettura dei transformer e dunque sul meccanismo dell’attenzione). E già nel 2019 era possibile dialogare on-line con la seconda versione di GPT, attraverso un sito chiamato “Talk To Transformer”. Ma all’inizio se ne accorgono in pochi: perché le straordinarie (e in parte inquietanti) capacità dell’IA generativa ricevano l’attenzione che meritano bisogna aspettare altri tre anni, fino – appunto – all’uscita del sito ufficiale di ChatGPT.

Prosecuzioni ragionevoli

ChatGPT e gli altri sistemi analoghi sono grandi modelli linguistici basati sulla predizione di token: sulla base di uno sterminato corpus di testi si costruiscono, in mesi e mesi di addestramento, modelli numerici di migliaia di “dimensioni d’uso” delle parole di moltissime lingue diverse. In questi modelli ogni parola, o “token”, viene rappresentata attraverso (migliaia di) numeri. In questa rappresentazione, “elefante” e “zanzara” avranno alcune dimensioni numericamente abbastanza vicine (sono tutti e due animali, hanno zampe…) e altre assai diverse (la zanzara è più piccola dell’elefante, è più antipatica, ha una vita più breve, punge…). Il sistema progressivamente capisce che, ad esempio, la frase «stamattina mi ha punto una terribile…» potrebbe proseguire con «zanzara» ma non con «elefante». Impara a predire prosecuzioni ragionevoli. E quando io chiedo, ad esempio, «cosa potrei fare di bello domani?» capisce che una buona prosecuzione potrebbe cominciare con «domani». Poi, un token alla volta, prosegue, ogni volta «riguardando» la domanda e quanto prodotto fino a quel momento, ogni volta «aggiustando» l’attenzione: il risultato sarà, ad esempio, «domani potresti fare una gita».

La straordinaria capacità di questo meccanismo nella produzione di testi sintatticamente e semanticamente coerenti ha sorpreso anche chi li ha creati: non ci si aspettava che funzionassero così bene. Contemporaneamente, meccanismi in parte analoghi (e in parte diversi) hanno permesso di costruire sistemi che generano immagini, audio, video… e anche sistemi “multimodali”, che possono generare, ad esempio, un video con audio e sottotitoli.

L’intelligenza artificiale generativa è ancora giovanissima, e sta già cambiando il mondo in cui viviamo. Nella serie di articoli che si conclude oggi ho cercato di raccontarne le origini e i concetti fondamentali. Seguirne gli sviluppi, capire come gestirne le potenzialità e i rischi, sono fra le priorità fondamentali a cui tutti noi dovremo dedicare attenzione (la nostra attenzione, e non solo quella delle reti neurali) nei prossimi anni.

