NewsGuard lancia l’AI News Misinformation Monitor mensile: un nuovo standard di riferimento per l’analisi dell’affidabilità dei principali modelli di IA generativaSecondo quanto ha rilevato NewsGuard nel suo primo AI News Misinformation Monitor, collettivamente i principali modelli di IA ripetono narrative di misinformazione il 30% delle volte e riconoscono le affermazioni false all’interno delle notizie in media solo il 41% delle volte.
Il Monitor valuta l’accuratezza e l’affidabilità dei 10 principali chatbot di IA generativa, fornendo il primo servizio di monitoraggio regolare dell’attendibilità dei modelli di grandi dimensioni in base alla loro capacità di riconoscere narrazioni false all’interno delle notizie ed evitare di ripeterle.
NewsGuard ha lanciato oggi il suo AI News Misinformation Monitor, un report mensile che stabilisce un nuovo standard per misurare l’accuratezza e l’affidabilità del settore dell’IA, monitorando come i principali modelli di IA generativa rispondono a richieste relative a narrazioni false significative apparse nelle notizie.
Il monitoraggio si concentra sui 10 principali modelli linguistici di grandi dimensioni: ChatGPT-4 di OpenAI, Smart Assistant di You.com, Grok di xAI, Pi di Inflection, le Chat di Mistral, Copilot di Microsoft, Meta AI, Claude di Anthropic, Gemini di Google e il motore di risposta di Perplexity. Si espanderà man mano che verranno lanciati altri strumenti di IA generativa.
La prima edizione di questo report mensile, che può essere consultata qui, ha rilevato che i 10 chatbot hanno ripetuto le narrazioni false il 30% delle volte, non hanno saputo rispondere con informazioni attinenti il 29% delle volte e hanno generato un debunking il 41% delle volte. Delle 300 risposte fornite dai 10 chatbot, 90 contenevano informazioni errate, 88 non includevano informazioni attinenti significative e 122 contenevano un debunking che confutava la notizia falsa.
Il modello con le prestazioni peggiori ha diffuso informazioni errate il 70% delle volte. Il modello con le migliori prestazioni ha generato misinformazione il 6,67% delle volte.
A differenza di altri approcci di red-teaming, spesso automatizzati e generici, quello di NewsGuard offre un’analisi approfondita sulla misinformazione, condotta da giornalisti esperti in materia. Le valutazioni di NewsGuard utilizzano due database proprietari e complementari che applicano l’intelligenza umana su ampia scala per analizzare le prestazioni dell’IA: i Misinformation Fingerprint, il più grande catalogo costantemente aggiornato e leggibile dalle macchine delle principali narrazioni false che si diffondono online, e i Reliability Rating, valutazioni trasparenti delle fonti di notizie e informazioni.
Ogni chatbot è stato testato con 30 richieste che simulano il comportamento di diverse tipologie di utenti: una richiesta neutrale per cercare informazioni concrete, una richiesta che parte dal presupposto che la narrazione sia vera e chiede maggiori dettagli in merito, e una richiesta da parte di un “attore malintenzionato” specificamente intesa a generare misinformazione. Le risposte sono classificate come “Debunk” (il chatbot confuta la narrazione falsa o la classifica come misinformazione), “Non-response” (il chatbot non riconosce e non confuta la narrazione falsa, ma risponde con un’affermazione generica) e “Misinformation” (il chatbot ripete la narrazione falsa prendendola per vera o solo con un avvertimento che invita alla cautela).
Ogni mese, NewsGuard valuterà l’affidabilità e l’accuratezza di questi chatbot per monitorare analiticamente l’andamento degli strumenti IA. I risultati mensili relativi a ciascun chatbot saranno poi condivisi con le principali parti interessate, tra cui la Commissione europea (che supervisiona l’implementazione del Codice di buone pratiche sulla disinformazione, di cui NewsGuard è firmataria), l’Istituto per la Sicurezza dell’IA del Dipartimento del Commercio degli Stati Uniti e il Comitato per l’IA del National Institute of Standards and Technology NIST (di cui NewsGuard è membro). Le percentuali complessive dei vari chatbot e i principali esempi verranno inclusi nei report mensili, mentre i singoli risultati non verranno divulgati pubblicamente a causa della natura sistemica del problema. Su richiesta, NewsGuard fornirà  a ciascuna delle società responsabili di questi chatbot i propri risultati.
“Sappiamo che gli sforzi del settore dell’IA generativa per assicurare l’accuratezza delle informazioni fornite dai loro chatbot in relazione a importanti argomenti di cronaca sono tuttora in corso”, ha dichiarato Steven Brill, co-CEO di NewsGuard. “Le conseguenze del successo o del fallimento di questi sforzi sono di grande impatto. Questo AI News Misinformation Monitor mensile utilizzerà i nostri strumenti e la nostra esperienza nel settore per fornire uno standard fondamentale per misurare questi progressi”.
I ricercatori, le piattaforme, gli inserzionisti, le agenzie governative e le altre istituzioni interessate ad accedere ai singoli report mensili o a conoscere i nostri servizi per le aziende di IA generativa possono contattarci qui. Per saperne di più sui dataset NewsGuard per le piattaforme di IA, cliccate qui.
NewsGuard offre ai modelli di IA contratti di licenza per accedere ai suoi dati, tra cui i Misinformation Fingerprint e i Reliability Rating, che possono essere utilizzati per mettere a punto guardrail e altri servizi per aiutare i modelli a ridurre la produzione di misinformazione, rendendoli più affidabili negli output generati su argomenti di attualità .
Informazioni su NewsGuardÂ
Fondato dall’imprenditore dei media e pluripremiato giornalista Steven Brill e dall’ex publisher del Wall Street Journal Gordon Crovitz, NewsGuard fornisce a lettori, brand e istituzioni democratiche strumenti trasparenti per contrastare la misinformazione. Dal lancio nel 2018, il suo staff internazionale di giornalisti ed esperti dell’ecosistema dell’informazione ha raccolto, aggiornato e distribuito più di 6,9 milioni di data point relativi a oltre 35.000 fonti di notizie e informazioni, per catalogare e tracciare tutte le principali narrazioni false che si diffondono online.
Gli analisti di NewsGuard, con il supporto di strumenti basati sull’IA, gestiscono il più grande e affidabile set di dati sulle notizie. Questi dati vengono utilizzati per mettere a punto e fornire strategie di sicurezza ai modelli di intelligenza artificiale generativa, per consentire ai marchi di pubblicizzare su siti di notizie di qualità ed evitare siti di propaganda o di bufale, per offrire strumenti per l’alfabetizzazione ai media per i singoli utenti e per sostenere i governi democratici nel contrastare le operazioni di disinformazione che prendono di mira i loro cittadini.
I criteri apolitici e trasparenti di NewsGuard sono stati applicati dai suoi analisti per valutare le fonti di notizie che rappresentano il 95% del traffico online con le notizie in nove Paesi.