Intervento di Gino Roncaglia (professore di Editoria digitale, Informatica umanistica e Filosofia dell’informazione presso l’Università Roma Tre) al corso di formazione dal titolo: “Da Internet all’Intelligenza Artificiale Generativa: giornali e giornalisti alla sfida della creatività” organizzato dall’Osservatorio TuttiMedia in collaborazione con l’Ordine dei Giornalisti.
“La componente umana è garanzia della qualità dell’informazione con il compito di sorveglianza nel funzionamento degli strumenti informatici e in questo caso dell’IA. Sono d’accordo con Derrick de Kerckhove sul fatto che si percepisce poco valore nei dibattiti, bisogna approfondire, capire per incidere nel processo innovativo determinato dall’IA.
Parto dal termine stesso IA che usiamo con la certezza di riferisci a qualcosa di ben chiaro e definito ed invece il termine vale per situazioni molto diverse. La priorità è poter alzare la qualità del dibattito dell’AI literacy, parte dell’information literacy. Abbiamo bisogno di alfabetizzazione rispetto ai nuovi strumenti che coinvolgono tutte le professionalità della mediazione informativa, di cui il giornalismo è una componente importante come lo sono le professionalità legate all’istruzione, penso al mondo della scuola e della ricerca universitaria, o a quello delle biblioteche.
Queste professionalità hanno bisogno innanzitutto di conoscenze e competenze solide. Nel mondo dell’IA c’è stato almeno un cambiamento forte di paradigma: nasce con un campo di applicazione nella logica formale e logico deterministica. I linguaggi di programmazione che si usavano allora erano LISP e Prolog, oggi quasi dimenticati. Quando si parla di nascita dell’IA si pensa all’articolo di Touring del 1950 o all’incontro alla conferenza di Dartmouth del 1956 i cui documenti preparatori sono quelli che usano il termine “intelligenza artificiale”. Questi lavori sono ancora fortemente orientati da un forte paradigma logicista e che l’intelligenza sia linguistica e che il linguaggio sia descrivibile e analizzabile attraverso un insieme limitato di regole.
Dunque, se il linguaggio è una costruzione basata su regole e l’IA è soprattutto intelligenza linguistica, lavorando sulle regole si può cercare di costruire macchine che usino in maniera intelligente il linguaggio. La prima IA tra la seconda metà degli anni cinquanta e gli anni settanta era legata a questo paradigma.
Questo paradigma va in crisi verso la fine degli anni settanta, non è così facile, infatti, trovare regole logiche universali per l’uso del linguaggio e non è detto che l’uso dell’intelligenza sia solo linguistico. Si comincia, quindi, a lavorare in campi specifici diversi, ma ancora con un paradigma logicista basato sull’idea di trovare programmi e regole deterministiche. Nel frattempo, in parallelo, scorreva l’alveo delle reti neurali nate prima dell’IA nel 1943 quando McCulloch e Pitts, un neurofisiologo e logico, propongono il primo modello computazionale del neurone: il neurone MP. Quel neurone è una macchina computazionale deterministica. L’idea alla base è che i nostri neuroni funzionino come operatori logici. Nel modello MP i neuroni ricevono degli input 0 o 1 ed emettono un output che può essere 0 o 1. I neuroni diversi si differenziano per le regole che portano da un certo input ad un certo output. Per esempio, se abbiamo un neurone end dà un output 1 solo se tutti gli input sono 1 e via così.
Il cambiamento di paradigma nel campo delle reti neurali avviene quando dal modello deterministico si passa ad un modello probabilistico. Il neurone riceve dunque input che possono variare con continuità e non sono necessariamente 0 o 1. Poi non tutti gli input hanno lo stesso peso, ma ogni neurone da un proprio peso al valore degli input, ed esso è un valore numerico. La soglia di attivazione del neurone che lo porta a emettere il suo segnale è anch’essa probabilistica. C’è una funzione: quando aumenta la sommatoria dei valori pesati aumenta la probabilità che il neurone emetta 1. Le reti neurali di oggi sono costruite secondo metodi statistico-probabilistici per questo è molto oscuro il loro funzionamento interno per le stesse persone che la programmano. All’inizio questo paradigma è frenato da risultati che sembrano limitati dal punto di vista logico. Ci si accorge solo dopo che non è così: basta aumentare gli strati profondi e le reti sono capaci di gestire anche situazioni prima impensabili.
Si avvia così la ricerca su un paradigma diverso da quello dell’IA logicista, ovvero quello statistico- probabilistico. All’interno di questo filone di ricerca si comincia a lavorare su IA e reti neurali prima discriminative, poi generative.
Oggi si parla di intelligenza artificiale generativa sostanzialmente come passo successivo rispetto al lavoro sulle reti neurali discriminative.
E qui c’è una data importante legata a Google: nel 2017 i ricercatori di Google pubblicano un paper “Attention is all you need” che porta all’architettura delle reti neurali generative di oggi. Se vogliamo capire come funzionano questi sistemi è importante entrare nel merito, o è difficile.
Un tema su cui si è molto discusso, ad esempio, riguarda l’apertura dei corpora di addestramento su cui queste reti neurali imparano a generare i loro output, che dovrebbero essere pubblici. Bisognerebbe sapere su quali dati si addestrano queste intelligenze. OpenAI ha reso pubblico il corpus su cui si è addestrato il modello ChatGPT 3, ma non è pubblico il corpus su cui è addestrato GPT 4.
Questo è un grosso problema di trasparenza, ma non facciamo l’errore di pensare che questi corpora costituiscano i database da cui l’IA trae le informazioni.
Quando si discute in generale si ha un po’ l’idea che i corpus di addestramento di questi modelli siano una sorta di database da cui vengono fuori dei dati. Non è così. Il corpus di addestramento è suddiviso
in token, ovvero in unità che sono più piccole di una parola o sono una parola o suoi sottoinsiemi. Alcuni modelli sono addestrati addirittura sui bigrammi o trigrammi, gruppi di due o tre caratteri. E per ogni token si costruiscono un’enorme matrice numerica di valori che cambiano e che non controlliamo pienamente perché se lo costruisce il modello. Questa quantità di numeri che variano in continuazione con l’affinarsi del modello e, che per di più sono usati in maniera probabilistica e, non deterministica, provocano una capacità di produzione in questo caso linguistica delle IA che generano linguaggi. Esse non copiano da qualche parte nel database del sistema, ma producono un token dopo l’altro in base al modello linguistico di uso dei singoli token, che il sistema si è fatto. Il sistema, dunque, non copierà mai. Non troveremo mai la frase del New York Times o del Corriere della Sera copiata, ma usano questi contenuti insieme ad un’infinità di altri contenuti. Va considerato che tutta Wikipedia era il 3% della base di addestramento di GPT 3. La quantità di dati su cui sono addestrati questi sistemi è usata preventivamente per costruire i token.
La cosa sorprendente per gli stessi programmatori è che lavorando un token alla volta, senza un’idea di struttura della frase e senza l’obiettivo di produrre una frase sensata, vengono fuori dei contenuti sintatticamente e semanticamente perfetti. Perché? E qui si aprono le domande difficili. Come è possibile che dei sistemi che lavorano ad un livello così granulare di predizione di un pezzetto di parola dopo l’altro, producano delle frasi perfette?
In parte anche la nostra produzione linguistica funziona in questo modo, ma questo non vuol dire che questi sistemi abbiano coscienza e consapevolezza nel nostro senso. Sono dei sistemi che hanno sicuramente quelle che in ambito filosofico si chiamano “proprietà emergenti”, ovvero proprietà non prevedibili sulla base dei soli ingredienti dai quali non riusciamo a prevedere che piatto verrà fuori. La coscienza è solo una possibile proprietà emergente, come la nostra lo è data l’architettura del nostro cervello, ma difficilmente la possiamo attribuire a questo tipo di sistemi. Ma alcune proprietà emergenti e capacità non prevedibili ci sono.
Lavorare sull’IA oggi vuol dire anche formare a capire questo insieme complesso di problemi per dare risposte che siano adeguate rispetto alle tematiche che abbiamo davanti anche in campi quali la protezione dei diritti e la qualità dell’informazione. Questi sistemi, tra le proprietà emergenti che dimostrano in questo momento, hanno un certo livello di creatività.
Questo non vuol dire che ci sia dietro coscienza o intelligenza in senso umano.
Bisogna lavorare molto per diffondere un po’ di alfabetizzazione su come funzionano e che caratteristiche hanno tutti i sistemi che lavorano con le IA”.