Home Le chiavi dell'oggi Il linguaggio sfidato dagli algoritmi nell’era dell’IA generativa

Le chiavi dell'oggi

Il linguaggio sfidato dagli algoritmi nell’era dell’IA generativa

11 Maggio 2023

Pubblichiamo questo documento di Derrick de Kerckhove che fa il punto su criticità e opportunità dell’evoluzione dell’intelligenza artificiale e propone azioni a supporto dello sviluppo. Questo documento è un manifesto sul quale ruoteranno le iniziative dedicate ai 40 anni di Media Duemila, la nostra rivista nata nel 1983 e che raccoglie la storia dell’innovazione soprattutto italiana ed in particolare del mondo dei media. �

Buona Lettura!

La storia di due fotografie premiate�

La prima, la World Press Photo of the Year di quest’anno, è nella memoria di tutti, quella di Iryna Kalinina che esce di corsa dal reparto maternità dell’ospedale di Mariupol bombardato, dove aspettava il travaglio. I media ufficiali russi hanno immediatamente affermato che si trattava di una foto falsa, ritoccata dagli ucraini.

La seconda è quella del Sony World Photography Award di Boris Eldagsen che ha immediatamente rifiutato il premio, confessando che l’ormai famosa immagine di due donne non era una foto autentica, ma un’immagine inventata da un potente software di creazione di immagini generative. La negazione dell’autenticità della foto di Iryna Kalinina è un comportamento standard da aspettarsi dai media russi. Fa parte del panorama generale delle caotiche fake news e della negazione delle prove a cui il mondo si è abituato da quando i social media sono stati utilizzati per scopi politici e commerciali.

La seconda fotografia è un’altra questione. Il suo autore ha spiegato alla stampa di aver rifiutato il premio, non per il rimorso di aver ingannato la giuria, ma per richiamare l’attenzione sul pericolo di una tecnologia così potente come la fotografia guidata dall’intelligenza artificiale.

L’evento mi ha aperto gli occhi in modo scioccante. Per oltre 70 anni, come la maggior parte dei miei contemporanei, ero stato abituato a dare per scontata la fotografia come riflesso, rappresentazione e garanzia della veridicità di eventi e fisionomie. Certo, come altri studiosi dei media, ero consapevole dei numerosi approcci critici all'”illusione della realtà” grazie ai quali la gente si fida generalmente della fotografia. Ma questa creazione di “realtà” ex nihilo è qualcosa di completamente diverso. La mia fiducia nella fotografia è andata in frantumi per sempre, aggiungendosi ai miei dubbi sui documenti dei miei studenti, sulle notizie che leggevo online o sulla carta stampata, sui video che guardavo, sulla musica che ascoltavo, e così via.

Il punto che voglio sottolineare è che l’approdo della fotografia nella categoria delle prove discutibili, ha fatto crollare l’ultimo muro di difesa che avevo inconsciamente eretto per proteggere l’oggettività da invasioni e distorsioni soggettive. Questa nuova illusione ha semplicemente confermato ciò che da tempo sospettavo essere la grande crisi epistemologica del nostro tempo: l’utile distinzione tra fatti e opinioni. La coraggiosa mossa di Eldagsen dovrebbe essere un monito per i giornalisti di tutto il mondo e l’Unione Europea ha già risposto alla sfida creando l‘ECAT il centro per la trasparenza dell’algoritmo che è già un’oggettiva presa di posizione.

�

2. Taormina “Stato generale della parola dell’editoria e dell’informazione”

Mentre sono a Perugia al Festival internazionale del Giornalismo, invitato dalla Rappresentanza della Commissione Europea di Roma, a Taormina si svolge il convegno sullo “Stato generale della parola dell’editoria e dell’informazione“, cioè un incontro sullo stato della lingua nell’odierna infosfera. Il convegno è documentato da una mostra su “L’eredità di Falcone e Borsellino: crisi e informazione online, quali implicazioni per il giornalismo”. Sarei tentato di aggiungere “quali implicazioni per gli esseri umani?”. Io sono a Perugia, non a Taormina, quindi non posso riferire su ciò che è stato detto in quella sede, ma sento con forza e urgenza che abbiamo tutti bisogno, nell’Unione Europea, di una conferenza intergovernativa sui rischi presentati dall’IA e dagli algoritmi al normale discorso e sul loro rapporto con le nozioni convenzionali di ciò che è “reale”.

C’è una differenza tra le fake news e le notizie create ex-nihilo: le prime sono una mera distorsione dell’evidenza, basata comunque su un contesto esistente a cui si riferisce, mentre le seconde creano anche il contesto, come fa la fotografia premiata. L’una è una questione di “editing”, l’altra di “prompt engineering”.

Lo psicologo ed esperto di IA Gary Marcus, che spesso e in modo persuasivo mette in guardia dai pericoli di un’eccessiva fiducia nei LLM (Large Language Modeling) dice che:

è probabile che alcuni gruppi di potere utilizzino modelli linguistici di grandi dimensioni per produrre disinformazione dal tono autorevole con riferimenti e dati falsi su scala senza precedenti, nel tentativo di influenzare le elezioni e l’opinione pubblica;
la tendenza della ricerca di notizie mediche potrebbe produrre accidentalmente disinformazione nociva alla salute, infatti le content farm che sono indifferenti alla salute dei loro clienti possono generare contenuti medici interessanti, indifferenti alla loro veridicità, per vendere click;
chatbot che offrono supporto emotivo e la prosa generata da LLM ha già disturbato i forum sul web e i processi di peer review, inondandoci di contributi falsi.

Felice di aver la Commissione europea che ha elaborato un barometro dei livelli di rischio, composto da quattro macro categorie in cui dovremmo considerare di aggiungere: “industrializzazione della disinformazione”.

3. La teoria dei sistemi operativi

Il ruolo e le caratteristiche di un sistema operativo (OS) sono centrali per il funzionamento di qualsiasi computer. Comanda tutte le applicazioni. Chiunque, per qualsiasi motivo, sia dovuto passare da Windows a Apple OS o viceversa, sa quanto sia stato noioso, difficile e lungo il passaggio. Immaginate quindi quanto sia più doloroso lo stesso passaggio quando viene imposto a un’intera cultura. Eppure, questo è esattamente ciò che sta accadendo oggi alle varie culture del mondo. Il problema non è solo di software, ma di civiltà. Si tratta di un passaggio rapidamente accelerato dall’alfabetizzazione agli algoritmi.

È giusto suggerire, come fa Yuval Harari (2023), che la lingua è il principale sistema operativo di ogni comunità. È attraverso gli scambi linguistici che una comunità, dalla famiglia al clan e alla tribù, stabilisce standard e regole di comportamento che influenzano la religione, l’istruzione, le pratiche locali, ecc. Non si tratta di una vera e propria novità, perché nessuno metterebbe in dubbio o sminuirebbe il ruolo del linguaggio nell’organizzazione delle società umane. L’attenzione diventa molto più precisa quando la metafora del sistema operativo viene applicata ai sistemi di scrittura. Le differenze tra, ad esempio, i sistemi fonologici, come le letterature occidentali, e quelli iconici, come il cinese, sono ben documentate e il loro impatto sulle visioni del mondo ha un senso intuitivo. Ma un’altra osservazione può spiegare meglio come: leggere l’inglese non richiede altro che conoscere il suono delle lettere e la lingua in cui sono scritte. Per leggere il cinese, invece, potrebbe non essere necessario conoscere la lingua in sé, ma il lettore deve conoscere il contesto delle icone solo per valutare il significato approssimativo di ogni segno in qualsiasi lingua sia rivolto (e ce ne sono più di 80 diverse solo in Cina). Il significato è dato letteralmente nei testi fonologici, ma è sospeso (o rimandato) nelle scritture iconiche. Meno evidenti, ma altrettanto critici, sono i diversi approcci cognitivi per leggere il latino o l’inglese rispetto a quelli per decifrare scritture senza vocali come l’arabo o l’ebraico. Entrambe le categorie sono ovviamente fonologiche, ma per leggere l’arabo, per la mancanza di segni vocalici, anche solo per decifrare il testo, deve venire prima anche il contesto.

La differenza è questa: si tratta di leggere il testo per evocare il contesto o, come fanno i lettori cinesi o ebraici, di conoscere il contesto per poter leggere il testo. Il primo approccio dà autorità al testo, il secondo al contesto. Questa differenza determina due sistemi operativi molto diversi che condizionano i processi cognitivi, le abitudini e gli artefatti culturali del lettore. Una mente allenata da sistemi di lettura iconici probabilmente guarderà al contesto più ampio prima di prendere qualsiasi mossa o decisione. Al contrario, una mente abituata a leggere testi, e quindi abituata a pensare per parole, cercherà un catalogo mentale di soluzioni prima di applicarle alla situazione in corso.La stessa mente vorrebbe anche consultare ciò che è scritto sulla situazione, utilizzando un manuale, sfogliando un libro o studiando la legge pertinente alla situazione.

Una migliore comprensione di queste differenze consentirebbe di spiegare le caratteristiche principali che distinguono le civiltà occidentali e orientali. Ma non è questo lo scopo attuale della teoria. Quello che vogliamo esplorare è quali siano i compromessi epistemologici nel passaggio dall’essere governati da operatori linguistici al delegare i processi decisionali ad algoritmi e IA. Il significato stesso potrebbe essere in perdita perché gli algoritmi non hanno senso per gli esseri umani, ma danno solo indicazioni alle macchine. Il codice è un testo che deve essere interpretato dalle macchine, non dagli esseri umani, ed è per questo che il loro funzionamento, dopo alcune mosse iniziali, sfugge alla comprensione dei programmatori.

La prima e forse più importante modifica della caratteristica è che, mentre tutti i linguaggi, indipendentemente dal loro sistema di scrittura, funzionano con e attraverso il significato, gli algoritmi semplicemente non lo fanno. Il linguaggio produce significato, gli algoritmi producono decisioni. Per giungere a una decisione, la lingua richiede deliberazione e comprensione, gli algoritmi giungono a conclusioni senza comprensione. Chiunque abbia usato la traduzione automatica sa che né Google né Deepl.com (un altro eccellente software di traduzione) conoscono affatto la lingua. È interessante notare che la traduzione digitale opera in modo iconico, ma non attraverso l’interpretazione, come deve fare il lettore cinese, bensì abbinando le risposte alle richieste e selezionando l’opzione migliore mediante una classifica statistica. Questo è più o meno il funzionamento di chatGPT e di tutti gli altri sistemi generativi di lingue, immagini o suoni. Naturalmente, le analisi obbediscono a istruzioni fornite dall’uomo e, all’inizio, supervisionate da scienziati dei dati, ma i progressi fulminei compiuti dalle generazioni successive di GPT derivano dalla possibilità di confidare che le istruzioni siano sufficientemente chiare da consentire all’API di cercare, analizzare e ordinare enormi quantità di dati “senza supervisione”, risparmiando così letteralmente migliaia di anni di lavoro umano. L’attuale salto di qualità dell’IA si deve a questo passo e ai progressi compiuti dall’apprendimento automatico e dalla potenza di calcolo. Tutto questo è positivo? Sì, ma…

Il problema di una macchina che fornisce risposte utilizzabili e circostanziate alle nostre domande non è che non siano abbastanza valide, anzi, potrebbero essere troppo valide per essere ignorate. La tentazione di usare la macchina non diminuirà, visti i progressi fenomenali che i LLM hanno fatto in pochissimo tempo. C’è anche da dire che è evolutivamente sensato che l’umanità sfrutti tutti gli apporti che ha dato all’archivio collettivo dell’intelligenza, della conoscenza e della memoria umana. Finalmente possiamo raccogliere individualmente i benefici di decenni di discorsi umani online, alcuni dei quali banali, inconseguenti o deliberatamente fuorvianti, ma la maggior parte dei quali riempie preziose banche dati. Nel complesso, sembra che ci sia poco di sbagliato e molto di giusto nell’affrontare a pieno ritmo un’opportunità così inaspettata. La domanda allora diventa: siamo davvero pronti a cambiare il nostro sistema operativo da dialettico, deliberativo e riflessivo a un sistema operativo quasi oracolare e poco conosciuto? Siamo pronti a declassare il linguaggio da principale mezzo di comunicazione di massa e a delegare le nostre funzioni e strategie cognitive all’automazione? Possiamo permetterci di lasciare che gli algoritmi diventino l’autorità e rivendichino l’oggettività?

La lingua, prima, e la scrittura, poi, hanno permesso alle persone, per millenni, di gestire una buona parte della loro vita in modo autonomo, a patto di conformarsi alle usanze locali e alle barriere legali e sociali. Le letterature occidentali, in particolare, consentendo alle persone di assumere personalmente il controllo del linguaggio nella lettura silenziosa, hanno promosso il pensiero linguistico ed enfatizzato l’autonomia cognitiva e sociale. Lasciare che le macchine pensino e decidano al nostro posto non garantirà che questa opportunità rimanga aperta per sempre. Il riconoscimento del significato nella lettura dei modelli linguistici potrebbe alla fine portare a una mera sottomissione alla loro autorità. Più i LLM sanno, meno noi facciamo. Alcuni studiosi, come Paolo Benanti (2021), parlano di una prevedibile “perdita di competenze”. Ciò può comportare la perdita di abilità specifiche, a partire dall’uso corretto o pertinente del linguaggio stesso. I giornalisti sono noti per essere tra i principali utilizzatori delle LLM. Questo permette loro di risparmiare tempo e di garantire la correttezza linguistica. Anche prima di qualsiasi intervento diretto da parte delle LLM, abbiamo già osservato una tendenza generale a perdere, sminuire o ignorare le competenze grammaticali e ortografiche a scuola, online e persino nei materiali stampati. L’abbandono della parola giusta o dell’ortografia corretta si traduce in una perdita di potere individuale, per non dire dell’individualità stessa. Infatti, anche se indirizzate a domande individuali, le LLM funzionano come un sistema cognitivo collettivo. Lo stesso vale per il linguaggio, per sua natura, con la differenza che il linguaggio e la scrittura operano all’interno della mente dell’individuo, mentre le LLM operano dall’esterno del corpo umano. C’è poi una questione etica oltre che cognitiva, cioè di responsabilità. I giornalisti si assumono la responsabilità delle loro parole. Se si scopre che non lo fanno, sono chiamati a risponderne per legge ed evitati dai loro colleghi. I giornalisti possono trarre grandi vantaggi dall’uso di LLM per accelerare la produzione di articoli sensibili ai tempi, ma poi la responsabilità dei contenuti passa dall’autore umano alla macchina, o per lo meno è condivisa da entrambi. E se, a posteriori, l’articolo viene letto in modo rapido e superficiale dall’autore umano, la responsabilità viene attribuita principalmente agli algoritmi.

4.Democrazia sotto costrizione

In che modo tutto ciò annuncia una crisi epistemologica? Il linguaggio umano perde la sua autorità e il suo dominio sugli algoritmi. Questa perdita si verifica in due modi convergenti, il primo nella valanga di fake news che porta a un’era di “post-verità” in cui tutti sono in dubbio, il secondo, negli algoritmi che guadagnano più importanza delle dichiarazioni fatte dall’uomo per rivendicare autorità. Che sia parlato o scritto, il linguaggio non è “pensiero” in sé, è solo un codice. Come la fotografia, la scrittura non è “realtà”, ma una rappresentazione parziale di alcuni aspetti di essa. Molte persone, tuttavia, scambiano gli oracoli della GPT per l’espressione del pensiero, così come prendono la fotografia per la rappresentazione della realtà. Naturalmente, le persone informate non commettono questo errore, ma in combinazione con l’assalto alle fake news e alla negazione della scienza prodotte e distribuite industrialmente, il pensiero simulato automatizzato stacca il linguaggio dalla sua associazione con la cronaca autentica. Superato dagli algoritmi come sistema decisionale, il linguaggio viene retrocesso a un ruolo ausiliario. Perde la sua funzione di garantire un tentativo affidabile di presentare la “realtà” nel contesto.

Una caratteristica del testo o dell’immagine generati che li pone al di fuori del regno della “realtà” convenzionale è che non hanno alcun referente nella realtà, il che significa che la relazione tra le affermazioni e il loro significato risponde solo ai suggerimenti, non all’evidenza contestuale “nel mondo”. Quando si utilizzano i LLM per raccontare eventi ampiamente commentati, la cronologia della pubblicazione garantisce di per sé un certo grado di autenticità. Ma, in altre situazioni, anche se il contenuto generato contiene informazioni fattuali supportate da metodi di referenziazione accademica appropriati (supponendo che non siano “inverosimili”, come spesso accade), queste sono parte integrante della simulazione, quindi, in ultima analisi, prive di un referente autentico. Un recente scandalo giornalistico ha riguardato la pubblicazione su Die Aktuelle di una falsa intervista a Michael Schumacher, sette volte campione del mondo di F1, inabilitato da un incidente sugli sci. La sua famiglia ha fatto causa al giornale… il giornalista è stato licenziato, ma il danno, emotivo e sociale, è stato fatto.

In un post ricco di spunti di riflessione, Jaron Lanier, creatore del dataglove e progettista delle prime piattaforme di realtà virtuale, sottolinea un punto debole dei prodotti di intelligenza artificiale che finora è sfuggito all’attenzione:

“Oggi la maggior parte delle persone dà per scontato che il Web, e di fatto l’Internet su cui è costruito, sia per sua natura anticontestuale e privo di provenienza. Si presume che la decontestualizzazione sia intrinseca all’idea stessa di rete digitale. Tuttavia, non è mai stato così: le prime proposte di architettura delle reti digitali, avanzate dal monumentale scienziato Vannevar Bush nel 1945 e dall’informatico Ted Nelson nel 1960, conservavano la provenienza. Ora l’IA sta rivelando i veri costi dell’ignorare questo approccio. Senza la provenienza, non abbiamo modo di controllare le nostre IA o di renderle economicamente eque. E questo rischia di spingere la nostra società sull’orlo del baratro”.

Il pericolo è che un affidamento eccessivo e non regolamentato di LLM trasformi tutto in un falso. In questo fermento sta gradualmente scomparendo una chiara distinzione tra oggettivo e soggettivo. Il risultato è che l’uso di parole, immagini e suoni si trasforma in un sistema di informazione “free-for-all” gestito da chiunque, ovunque e con qualsiasi mezzo. In queste condizioni, il consenso può essere raggiunto solo in “camere d’eco” grandi o piccole, alcune grandi come una nazione, la maggior parte piccole come una singola mente. Tutto ciò è destinato a trasformarsi in caos e a mettere in discussione tutto ciò che possiamo conservare della democrazia, già minacciata sia all’interno che all’esterno dell’UE. La sfida è quindi: come regolarla?

5.Il regolamento

Quali obiettivi dovrebbe perseguire la regolamentazione? Eliminare il pericolo della disinformazione? Proteggere l’utente? Sfidare gli utenti a spiegare in modo chiaro e intelligente il contenuto, lo scopo e lo stile dell’output dell’IA generativa? Questo potrebbe funzionare nell’istruzione, ma non nel giornalismo. Una prima risposta chiave è suggerita da Paolo Benanti, professore di Media Studies all’Università Gregoriana di Roma: “La domanda è: abbiamo il diritto di essere avvertiti che chi interagisce con noi è una macchina e non un essere umano? Soprattutto i più fragili possono essere soggiogati da questi nuovi sistemi che non si stancano mai e sono sempre più invasivi. Se poi entrano nella sfera politica per persuaderci o nella funzione di governo per controllarci, ecco che entriamo nei peggiori incubi distopici della fantascienza. Lo strumento è così potente, ed è per questo che abbiamo bisogno di un’etica per renderlo compatibile con la vita che vogliamo vivere” .

Un suggerimento simile è stato proposto il 28 aprile su The Economist da Yuval Noah Harari:

“Abbiamo appena incontrato un’intelligenza aliena, qui sulla Terra. Non ne sappiamo molto, tranne che potrebbe distruggere la nostra civiltà. Dovremmo porre fine alla diffusione irresponsabile di strumenti di IA nella sfera pubblica e regolamentare l’IA prima che sia lei a regolamentare noi. La prima regolamentazione che suggerirei è quella di rendere obbligatorio che l’IA dichiari di essere un’IA. Se sto conversando con qualcuno e non riesco a capire se si tratta di un umano o di un’IA, è la fine della democrazia”.

Jaron Lanier, computer scientist, indica come la soluzione potrebbe e dovrebbe essere automatizzata:

“Di recente ho tentato un esperimento informale, chiamando i colleghi e chiedendo loro se c’è qualcosa di specifico su cui sembriamo tutti d’accordo. Ho scoperto che c’è una base di accordo. Sembriamo tutti d’accordo sul fatto che i deepfakes – immagini, video e così via falsi ma reali – dovrebbero essere etichettati come tali dai programmi che li creano. Anche le comunicazioni provenienti da persone artificiali e le interazioni automatizzate progettate per manipolare il pensiero o le azioni di un essere umano dovrebbero essere etichettate. Concordiamo anche sul fatto che queste etichette dovrebbero essere accompagnate da azioni che possono essere intraprese. Le persone dovrebbero essere in grado di capire cosa stanno vedendo e dovrebbero avere in cambio scelte ragionevoli”.

Il mio punto è che dobbiamo contrastare le percezioni irrealistiche (demistificazione), investire in un ambiente socio-tecnico facilitante (contestualizzazione), coinvolgere le parti interessate e la società civile (impegno), creare quadri flessibili (regolamentazione) e sviluppare una “diplomazia quantistica” internazionale (posizionamento).

E che abbiamo bisogno di produrre un manuale per elencare e identificare le categorie e le varietà di IA generativa (GAI) senza dimenticare l’arte.