due nuove ricerche mettono in luce somiglianze sorprendenti tra i grandi modelli linguistici e i processi del cervello umano, rivelando come i sistemi di intelligenza artificiale assorbano anche atteggiamenti sociali replicati nella realtà. l’indagine esplora in che modo l’elaborazione del significato venga interiorizzata dai modelli e quale impatto abbiano i pregiudizi di gruppo sull’interazione tra uomo e macchina.
architettura linguistica condivisa tra cervello e modelli
un gruppo guidato dal dottor ariel goldstein dell’Università Ebraica di Gerusalemme, insieme a mariano schain di google research e ai professori uri hasson ed eric ham di princeton, ha monitorato l’attività cerebrale dei partecipanti durante l’ascolto di un podcast di 30 minuti. è emerso che le reazioni neurali iniziali coincidono con i primissimi strati dei modelli linguistici, incentrati su caratteristiche lessicali di base, mentre le risposte successive corrispondono a livelli più profondi che integrano contesto e significato.
l’allineamento temporale tra l’evoluzione del significato nel cervello e la sequenza di trasformazioni interne degli LLM è risultato particolarmente marcato nell’area di broca, nota per ruoli chiave nel linguaggio. questa corrispondenza mette in discussione l’idea che la comprensione linguistica dipenda da regole fisse: sia la mente che l’IA avrebbero processi graduali di costruzione del senso basati sull’analisi contestuale.
modelli AI mostrano bias di gruppo
ricercatori del university of vermont hanno valutato se i grandi modelli imparino tendenze di favore verso il proprio gruppo e ostilità verso altri gruppi. analizzando i modelli gpt-4.1, deepseek-3.1, gemma-2.0, groK-3.0 e llama-3.1, è stato riscontrato un persistenza di bias interni ed ostili verso l’esterno.
quando ai modelli viene richiesto di adottare una “persona politica”, emerge una dinamica: i prompt riferiti a tendenze conservatrici aumentano l’ostilità verso out-group, mentre quelli riferiti a orientamenti liberali rafforzano la coesione interna. l’insieme dei dati mostra che i modelli non si limitano a riflettere fatti sociali, ma interiorizzano e riproducono atteggiamenti, visi e stili cognitivi tipici di gruppi sociali.
- tabia tanzin prama
- julia witte zimmerman
strategie di mitigazione del bias
una pubblicazione su nature machine intelligence (dicembre 2024) segnala che un llm guidato dal feedback umano per l’utente finale mostra livelli inferiori di coesione interna e ostilità verso l’esterno rispetto ai modelli base. tra le proposte, emerge la strategia ion, che combina microfintuning e direct preference optimization per ridurre le differenze emotive fino al 69%, dimostrando potenzialità concrete per lo sviluppo di IA più equilibrate.
sono inoltre indicazioni utili l’eliminazione di frasi positive all’interno dei gruppi di riferimento o di contenuti negativi verso l’esterno durante l’addestramento, come modo per attenuare i pregiudizi. i ricercatori prevedono di esplorare ulteriori fonti di bias presenti nei dati di addestramento e di implementare ulteriori misure di mitigazione nel processo di sviluppo degli LLM.
In ultima analisi, le scoperte sottolineano una convergenza tra meccanismi neurali umani e strutture interne degli AI, evidenziando l’urgenza di approcci mirati per contenere bias e promuovere sistemi sempre più affidabili e imparziali.












Lascia un commento