Alice nel Paese delle Meraviglie manda in tilt l’intelligenza artificiale. E’ stato sufficiente sottoporre gli algoritmi all’indovinello logico legato al personaggio creato da Lewis Carroll per ottenere risposte completamente sbagliate.
In redazione a Innovation Island abbiamo replicato un test compiuto negli Stati Uniti. Ci riferiamo a uno studio, ancora non sottoposto a revisione, realizzato da Laion e dai ricercatori Marianna Nezhurina, Lucia Cipolina-Kun, Mehdi Cherti e Jenia Jitse. I risultati del test di Laion mettono a nudo le debolezze di una tecnologia sovrastimata: “I modelli vengono valutati con punteggi altissimi, ma nel test abbiamo rilevato dei gravi problemi, dimostrano che c’è ancora molta strada da fare”, spiegano i ricercatori.
L’indovinello che mette in crisi l’AI è il famoso problema di “Alice nel Paese delle Meraviglie”. In realtà si tratta di un indovinello logico piuttosto semplice: “Alice ha 3 fratelli e ha anche 2 sorelle. Quante sorelle ha il fratello di Alice?”. Il test ha mandato in crisi i modelli di linguaggio di grandi dimensioni (LLM). L’intelligenza artificiale (IA) si è bloccata, ha generato risposte sbagliate, anche i sistemi più sofisticati sono inciampati su una domanda banale.
I ricercatori di Laion hanno testato i modelli GPT-3, GPT-4 e GPT-4o di OpenAI, Claude 3 Opus di Anthropic, i modelli Gemini di Google e Meta’s Llama, il Mextral di Mistral AI, il Dbrx di Mosaic e il Comando R+ di Cohere. Nessuno è riuscito a risolvere l’enigma. “Abbiamo analizzato le statistiche di risposta e osservato un forte collasso nel ragionamento, sono incapaci di rispondere alla semplice domanda formulata, nonostante le forti capacità di ragionamento”, hanno spiegato i ricercatori.
In redazione da Innovation Island abbiamo rifatto il test. La prima prova è stata effettuata con Chat Gp4. Il software ha fornito un risposta sbagliata. Abbiamo fatto notare al calcolatore che i dati erano sbagliati ed al secondo tentativo l’algoritmo ha fornito l’informazione corretta.
Abbiamo compiuto il test anche nella versione 3.5 di Chat Gpt. La prima risposta è andata male, come sempre. A richiesta di correzione questa volta l’algoritmo è letteralmente andato in tilt, fornendo una stringa di testo senza alcun senso. (La stringa è visibile nell’immagine di copertina).
Tornando al lavoro dei ricercatori statunitensi, va fatto notare che non solo i modelli hanno dato risposte sbagliate, ma hanno anche cercato di convincere i ricercatori che la soluzione proposta fosse quella corretta. “La situazione è drammatica, l’IA ha fornito spiegazioni alle risposte sbagliate per giustificare e sostenere la validità delle sue soluzioni chiaramente non corrette”, spiegano da Laion.
Il problema era già stato sollevato dall’articolo scientifico intitolato “AI Deceptions: A Study of Examples, Risks and Potential Solutions” e pubblicato sulla rivista Patterns. Secondo lo studio infatti le macchine possono essere bugiarde. Non stiamo parlando delle allucinazioni dell’intelligenza artificiale (quindi gli errori, le ripetizioni, o le frasi inventate dai software), ma di manipolazione.