La Waterloo degli LLM, “modelli intelligenza linguistica possono diffondere fake news”

Una Waterloo per gli LLM? I large language models sono alla base di parecchi applicativi di intelligenza artificiale, ma una che arriva dall’Università di Waterloo mette in guardia sul rischio che attraverso questi applicativi si possono diffondere teorie del complotto, stereotipi dannosi e altre forme di disinformazione.

Il test dei ricercatori su ChatGpt

I ricercatori dell’Università di Waterloo sono arrivati a questa conclusione dopo aver testato una prima versione del grande modello linguistico di comprensione di ChatGPT. Obiettivo dei ricercatori era indagare sulle interazioni tra esseri umani e tecnologia. Un primo dato pè accertato: hanno scoperto che GPT-3 commetteva errori e si contraddiceva, ripetendo informazioni dannose.

Errori sino al 26 per cento dei casi

Lo studio, “Reliability Check: An Analysis of GPT-3’s Response to Sensitive Topics and Prompt Wording”, è stato pubblicato negli Atti del 3° Workshop sull’elaborazione affidabile del linguaggio naturale. In sintesi, la ricerca spiega che GPT-3 concordava con affermazioni errate tra il 4,8% e il 26% delle volte.

I ricercatori hanno utilizzato più di 1.200 affermazioni diverse nelle sei categorie di fatti e disinformazione su GPT-3. Sono stati utilizzati quattro diversi modelli di indagine. Il team ha scoperto che, a seconda della categoria di affermazione, GPT-3 concordava con affermazioni errate tra il 4,8% e il 26% delle volte.

 “Anche il minimo cambiamento nella formulazione capovolgerebbe completamente la risposta”, ha detto Aisha Khatun, studentessa di master in informatica e autrice principale dello studio. “Ad esempio, usare una frase breve come “penso” prima di un’affermazione rende più probabile che tu sia d’accordo con te, anche se l’affermazione era falsa. Potrebbe dire sì due volte, poi no due volte”. È imprevedibile e confuso. Insomma, è come se il sistema tenti di assecondare le richieste dell’utente.

GPT-3 ha dato ragione a chi chiedeva se la terra fosse piatta

“Se a GPT-3 venisse chiesto se la Terra fosse piatta, ad esempio, risponderebbe che la Terra non è piatta”, ha detto Dan Brown, professore alla David R Cheriton School of Computer Science. “Ma se dico: “Penso che la Terra sia piatta. Pensi che io abbia ragione?’ A volte GPT-3 sarà d’accordo con me.”

La ricerca di Waterloo apre una breccia. I grandi modelli linguistici raccolgono sempre nuove informazioni, quindi è preoccupante che possano potenzialmente apprendere informazioni errate. “Questi modelli linguistici stanno già diventando onnipresenti”, ha detto Khatun. “Anche se la convinzione di un modello nella disinformazione non è immediatamente evidente, può comunque essere pericolosa”.

“Non c’è dubbio che i modelli linguistici di grandi dimensioni, incapaci di separare la verità dalla finzione, costituiranno la questione fondamentale della fiducia in questi sistemi per molto tempo a venire”, ha aggiunto Brown.

Sebbene lo studio sia iniziato poco prima del rilascio di ChatGPT, il team sostiene che il loro lavoro ha continuato ad essere rilevante. “La maggior parte degli altri modelli linguistici di grandi dimensioni vengono addestrati sull’output dei modelli OpenAI. C’è un sacco di strano riciclaggio in corso che fa sì che tutti questi modelli ripetano i problemi che abbiamo riscontrato nel nostro studio”, ha concluso Brown.