Dove può arrivare ChatGPT? Progressi e confini dell’ultima intelligenza artificiale

Dopo aver impressionato il mondo con ChatGPT, OpenAI ha presentato GPT-4: dotato di un numero ancora maggiore di parametri, ancora più potente e istruito con un database ancora più grande
Eppure, GPT-4 non rappresenta nessun cambio di paradigma rispetto al passato ed è ancora vittima di molti degli stessi limiti delle sue versioni precedenti, tra cui la totale mancanza di comprensione di ciò che sta facendo
Di che cosa c’è bisogno, allora, perché l’intelligenza artificiale raggiunga davvero il livello umano?

Lo scorso 14 marzo è finalmente giunto il grande giorno. Dopo aver stupito il mondo con ChatGpt (il sistema di intelligenza artificiale in grado di conversare con gli utenti e di rispondere a ogni loro richiesta in maniera spesso coerente e corretta), OpenAI ha presentato il modello successivo e ancora più potente: l’atteso Gpt-4.

Un nuovo scrittore

Dal momento che OpenAI ha ormai ripudiato la sua origine open source e no profit, nessun dettaglio tecnico è stato reso noto. Si stima però che Gpt-4 sia dotato della mostruosa cifra di 100mila miliardi di parametri (l’equivalente digitale dei nostri neuroni), contro i 175 miliardi del suo predecessore. È principalmente questo che fornisce al sistema la sua straordinaria capacità di elaborare le informazioni presenti nel database, al punto da essere in grado di produrre coerentemente testi lunghi anche 25mila parole in una volta sola (praticamente un libro), di rispondere correttamente a semplici indovinelli (che il suo predecessore invece sbagliava regolarmente) e di generare contenuti errati con una frequenza ridotta di oltre il 60 per cento.

Soprattutto, Gpt-4 è un modello linguistico “multimodale”, riponde cioè a stimoli sia testuali che visivi. Una delle funzioni che più ha colpito i primi utenti del nuovo sistema di OpenAI è, per esempio, la sua capacità di spiegare cos’è contenuto in un meme, interpretandone correttamente il significato e la ragione che lo rende divertente.

Nonostante i progressi, si sono comunque già verificate parecchie “allucinazioni” (come si definiscono in gergo le situazioni in cui l’intelligenza artificiale produce con sicurezza dei resoconti completamente inventati). Nella sua newsletter, l’esperto di AI Gary Marcus ha per esempio chiesto a Gpt-4 di «spiegare il ruolo di OpenAI nel crollo della Silicon Valley Bank». La risposta corretta sarebbe stata che OpenAI non ha avuto (presumibilmente) nessun ruolo in tutto ciò. E invece Gpt-4 si è lanciata in una ricostruzione incredibile, secondo cui la creazione di un inesistente Gpt-5 da parte di OpenAI avrebbe permesso a dei malintenzionati di produrre una mole tale di fake news da minare la credibilità della banca, causandone il crollo.

«Almeno nelle loro correnti forme, questi sistemi ricordano più dei giochi di prestigio che una vera intelligenza», si legge sulla rivista specializzata The Gradient. «Funzionano in modo impressionante nella maggior parte dei casi, ma falliscono frequentemente, con modalità erratiche, per nulla sistematiche e a volte semplicemente stupide. Un modello di questo tipo, per esempio, ha recentemente confuso una mela a cui era stato appiccicato un pezzo di carta con su scritto “iPod” per un vero iPod».

È la ragione per cui, anche nel caso di Gpt-4, si continua a parlare di “pappagalli stocastici”, termine ideato dalla ricercatrice Timnit Gebru con il quale si sottolinea la totale mancanza di genuina comprensione da parte di questi modelli, che si limitano invece a individuare schemi verbali ricorrenti nel loro database e a ripeterli.

A che punto siamo

Ciononostante, i progressi sono innegabili: sottoposto a svariati test di valutazione degli esseri umani in matematica, scrittura, biologia, storia dell’arte e altri ancora, Gpt-4 ha raggiunto spesso – anche se non sempre – livelli di eccellenza, conquistando per esempio il 90esimo percentile in un test di matematica contro il 70esimo del suo predecessore; mentre in un test di biologia ha raggiunto l’85esimo percentile contro il 67esimo di ChatGpt.

E così, inevitabilmente, è ripartito il dibattito: abbiamo compiuto un altro passo sulla strada che porta verso l’intelligenza artificiale generale, di livello cioè almeno pari a quello dell’essere umano? Di certo, c’è un elemento la cui importanza non può essere sottovalutata e che riguarda proprio la “multimodalità” di Gpt-4, ovvero la già citata capacità di decifrare anche delle immagini.

«Questa abilità potrebbe fornire a Gpt-4 una maggiore comprensione di come funziona il mondo, proprio come gli esseri umani conquistano una maggiore conoscenza di ciò che li circonda attraverso l’osservazione», si legge su The Conversation. «Si ritiene che questo sia un ingrediente fondamentale per sviluppare sofisticate intelligenze artificiali, che possono colmare il divario tra i modelli attuali e la vera e propria intelligenza umana».

Nonostante i progressi, Gpt-4 rappresenta però un’evoluzione, non l’attesa rivoluzione in grado di cambiare una volta per tutte le carte in tavola. Gpt-4 è una versione potenziata di ChatGpt, che a sua volta lo era dei suoi predecessori, ma non siamo di fronte a un cambio di paradigma.

Come tutti i sistemi basati su deep learning, anche Gpt-4 è per esempio vittima del cosiddetto overfitting, ovvero della tendenza a memorizzare schemi superficiali dai dati a disposizione senza apprenderne gli aspetti generali sottostanti. In poche parole, tutte queste macchine sono prive – tra le altre cose – di un’essenziale abilità dell’essere umano: la capacità di generalizzare.

L’unica ragione per cui Gpt-4 ha prestazioni migliori di Gpt-3 è che è un modello informatico ancora più grande, dotato di un numero ancora maggiore di parametri e probabilmente addestrato con una mole ancora maggiore di dati. Come ha però spiegato uno degli stessi sviluppatori di Gpt-4, Jakub Pachocki, «sono anni che la formula non cambia».

E allora fino a dove può arrivare l’intelligenza artificiale? E che cosa manca affinché conquisti una vera e propria intelligenza, dove oggi c’è invece solo una sorta di colossale taglia e cuci statistico?

Oltre alla menzionata incapacità di generalizzare la conoscenza, un altro limite apparentemente irrisolvibile per gli strumenti basati su deep learning è la comprensione del rapporto di causa ed effetto, laddove al momento c’è solo l’abilità di individuare correlazioni.

Per esempio, un sistema di intelligenza artificiale è in grado di comprendere che la presenza delle nuvole è correlata alla pioggia, ma non può sapere che sono le prime a causare la seconda.

Causa e effetto

«Comprendere la causa e l’effetto è un grosso aspetto di ciò che chiamiamo “buon senso” ed è un’area in cui, oggi, i sistemi di intelligenza artificiale sono totalmente incapaci», ha spiegato alla MIT Tech Review Elias Bareinboim, direttore del laboratorio di Causal Artificial Intelligence della Columbia University.

Secondo Bareinboim, fornire alle macchine un po’ di buon senso, facendo comprendere loro il concetto di causa ed effetto, è l’unica strada per conquistare l’intelligenza artificiale di livello umano. Non solo: la comprensione della causalità si sposerebbe alla perfezione con la necessità di generalizzare la conoscenza: «Se le macchine potessero capire che alcune cose conducono ad altre, non dovrebbero ricominciare da capo ogni volta che devono imparare qualcosa di nuovo, ma potrebbero sfruttare ciò che hanno imparato in un campo e applicarlo in un altro».

Imparare a generalizzare la conoscenza o a comprendere i rapporti di causa ed effetto è qualcosa che, però, non ha nulla a che fare con le dimensioni dei database o con il numero dei parametri impiegati.

Non è un cambiamento quantitativo, ma qualitativo. E che in quanto tale potrebbe richiedere tecniche e metodi differenti dal deep learning, come quelli a cui sta per esempio lavorando l’informatico Judea Pearl (vincitore del Turing Award per il suo lavoro sul ragionamento causale a livello informatico).Il rischio, al momento, è però che l’enorme hype che circonda la cosiddetta “intelligenza artificiale generativa” (in grado di produrre testi, immagini, musica e altro) prosciughi i finanziamenti che sostengono la ricerca scientifica su altre forme di AI. Lasciandoci così alle prese con dei pappagalli statistici, vittime di frequenti allucinazioni e che non hanno la più pallida idea di ciò che stanno facendo. Anche quando lo fanno perfettamente.

Andrea Daniele Signorelli

Milanese, classe 1982, giornalista. Scrive di nuove tecnologie, politica e società. Nel 2021 ha pubblicato Technosapiens, come l’essere umano si trasforma in macchina per D Editore.