IA

Cos’è e cosa non sa fare un modello linguistico

modello linguistico

I modelli linguistici di grandi dimensioni (large language model, LLM) come ChatGPT stanno trasformando il modo in cui lavoriamo e con cui ci interfacciamo con il web. E vista anche la velocità con cui si sono imposti come nuovo paradigma, vale la pena fermarsi un secondo a chiedersi cosa sono, cosa possono fare, e cosa invece non possono fare.

Il pappagallo statistico

A un livello molto basilare, possiamo dire che gli LLM funzionano prevedendo, sulla base del loro addestramento, quale prima parola è più probabile sia corretta per rispondere al messaggio che gli inviamo (il prompt). Dopodiché viene calcolata la parola da inserire di seguito alla prima, che più probabilmente soddisfa la nostra richiesta. Quindi prevedono la terza, la quarta e così via. Stanno all’autocompletamento della tastiera di uno smartphone come uno shuttle sta a un areoplanino di carta. In cosa consiste l’addestramento di un LLM? Al modello viene fornita una VASTA quantità di dati (per ChatGPT-3 circa 570 GB di testo. almeno 5 volte tanto per ChatGPT-4, anche se non si hanno dati ufficiali), che viene assimilata e “imparata” per poter generare le predizioni statisticamente più probabili. Ad esempio, se chiediamo a ChatGPT chi ha elaborato la teoria della relatività, ci risponderà “Albert Einstein”, perché nel dataset utilizzato per il suo addestramento vicino alle parole “teoria” “relatività” “scoperta” si trova quasi sempre “Albert” seguita da “Einstein”. Il modello ripete quello che ha trovato nel suo dataset, da cui il nomignolo di “pappagallo statistico”.

Questo però significa anche che gli LLM mancano della componente semantica del linguaggio. Non sanno davvero “cosa” stanno dicendo, ma solo che probabilmente è giusto, cosa che può portare alle cosiddette “allucinazioni”, ovvero le invenzioni che i modelli linguistici a volte ci propinano, e se in alcuni casi si tratta di cantonate eclatanti (nell’immagine sotto alcune allucinazioni di Gemini, l’IA di Google integrata nella funzione di ricerca), in altri casi le invenzioni potrebbero essere più sottili, e difficili da individuare, cosa che spesso rende necessario ricontrollare le risposte date da questi modelli.

modello linguistico
allucinazioni

Come fa a essere così umano?

Un modello linguistico non esiste senza il fattore umano

Questo titolo fa riferimento in realtà a due concetti: l’identità di un LLM e il model collapse. Un modello linguistico, infatti, non possiede un’identità propria e coerente, tra una chat e l’altra non “pensa” a come avrebbe potuto rispondere meglio, allo stesso modo in cui una calcolatrice non pensa alle risposte che ha dato, o se avrebbe potuto calcolare meglio quanto fa 8+4. Non esiste, se non quando risponde al nostro prompt, e ciascuna chat è totalmente indipendente dalle altre (sebbene nelle ultime versioni di ChatGPT sia stata implementata un’opzione di memoria), ed è, a tutti gli effetti, un’altra entità. Quando avviamo una chat, infatti, viene inizializzata una nuova iterazione del modello linguistico, al quale come prima cosa è utile spiegare il “ruolo” da ricoprire. Qualsiasi chat con un LLM infatti produrrà risultati migliori e più in linea con le nostre aspettative se la avviamo chiedendo al chatbot di “rispondere come un esperto in…” o formule simili.

Ma la dipendenza di un LLM dal fattore umano si spinge anche più in là; parliamo di model collapse, la degradazione della qualità di un modello linguistico che si verifica progressivamente quando dati generati a loro volta da IA vengono usati per l’addestramento. Ho chiesto a ChatGPT di generare un’immagine per spiegare questo concetto:

modello linguistico collasso

Chiaro, no?

Ok, forse si può spiegare meglio. Quando un modello viene addestrato, “impara” sia il contenuto del dataset che la forma, come è scritto, che tono viene usato, e così via. Quando poi il modello utilizza questo addestramento per rispondere a un prompt, rielabora, anche in minima parte, il dataset. Questo introduce una piccola fonte di errore. Magari aggiunge un paio di avverbi, o da una maggior enfasi a certi elementi di un discorso. Se il contenuto di questa risposta viene poi utilizzata come parte dell’addestramento di un ulteriore modello, questi piccoli errori, o bias, vengono integrati e, nel tempo, amplificati in una sorta di telefono senza fili. Lo stesso fenomeno avviene nella generazione di immagini, ed è in quel caso forse più immediato da comprendere. Una persona ha, tipicamente, 5 dita. Questa semplice regola è risultata estremamente difficile da implementare e seguire dai modelli di generazione di immagini, pur partendo da milioni di immagini reali. Cosa succederebbe, quindi, se i prossimi modelli di generazione di immagini venissero addestrati su immagini generate di mani con 7, 8 dita, o piegate ad angoli impossibili. Arrivati a questo punto dell’articolo avrete probabilmente intuito che l’immagine di copertina è un esempio di questo concetto, discusso in un recente paper di Conde e colleghi (2025)

Almeno per ora, quindi, i modelli linguistici hanno ancora bisogno di un continuo input umano per poter generare risultati realistici ed affidabili, e con questo augurio chiudiamo questo piccolo viaggio nei meccanismi che sottendono il funzionamento degli LLM, sperando che possa aiutare a migliorarne l’utilizzo e demistificarne le capacità che a volte gli vengono attribuiti.

Bibliografia

  • Wible, David S. & Hui, C. Harry (1985). . Perceived Language Proficiency and Person Perception. Journal of Cross-Cultural Psychology, 16(2), 206-222. https://doi.org/10.1177/0022002185016002005
  • Conde, Javier & Gonzalez, Miguel & Martínez, Gonzalo & Moral-Andrés, Fernando & Merino Gómez, Elena & Reviriego, Pedro. (2025).. Recursive InPainting (RIP): how much information is lost under recursive inferences?. AI & SOCIETY. 1-17. 10.1007/s00146-025-02351-5.