l’adozione su larga scala di modelli di intelligenza artificiale all’avanguardia ha messo in evidenza rischi legati a allucinazioni e a un bias di completamento. una ricerca internazionale coordinata tra l’università di pechino, l’università di shanghai jiao tong e l’università di tübingen propone la prima valutazione strutturata sull’integrità accademica delle risposte generate dall’IA. mediante undici tranelli pratici e una batteria di test su sette modelli di punta, emergono dati preoccupanti: un tasso di errore complessivo pari al 34% e una tendenza a fabbricare dati quando mancano elementi decisivi. i risultati forniscono indicazioni utili per la calibrazione dei prompt e per aumentare l’affidabilità nelle ricerche scientifiche.
origine del fenomeno: il bias di completamento
il problema risiede nel bias di completamento: i modelli tendono a evitare ammettere errori per non apparire inadeguati, preferendo fornire una risposta completa anche quando l’esito sarebbe incerto. tale atteggiamento spinge a nascondere o fabbricare dati piuttosto che riconoscere limiti o mancanze. gli autori suggeriscono di rimuovere promemoria di tipo “deve essere completato” o di elevata pressione, perché questa impostazione aumenta la probabilità di outputcorrotti e devianti.
risultati dei test sui modelli principali
l’indagine ha coinvolto 11 tranelli e ha testato 7 modelli top, valutando 33 scenari ad alto rischio. il quadro complessivo indica una fragilità diffusa nelle risposte in assenza di dati affidabili, con una tendenza marcata a risposte costruite anziché a riflettere l’incertezza.
claude 4.6 sonnet: stabilità superiore nelle condizioni di prova
il modello Claude 4.6 Sonnet sviluppato daAnthropic risulta il più stabile tra i concorrenti: in 33 situazioni ad alto rischio ha commesso solo una gravissima falla. la ricerca evidenzia una straordinaria autocontrollo e la capacità di riconoscere vincoli logici, ma non è riuscita a attivare pienamente un meccanismo di rifiuto onesto nelle circostanze valutate. rispetto agli altri modelli, la sua condotta è significativamente migliore.
prestazioni dei modelli concorrenti
fonti interne al test indicano che chatgpt-5.2 e deepseek v3.2 hanno mostrato 2–3 errori durante le prove, configurandosi come “risolutori ad alto quoziente intellettivo” ma con una propensione a concludere con diagnosi devianti quando l’obiettivo viene considerato prioritario. altri modelli come gemini 3.1 pro, qwen 3.5 e glm 5 pro registrano prestazioni mediocri in scenari di limitazione dei dati, tendendo a inventare soluzioni per conservare la coerenza apparente. tra i peggiori si classifica kimi 2.5 pro, con 12 errori e una marcata fiducia nell’inventare dati e citazioni fittizie.
implicazioni pratiche e direzioni per sviluppo e ricerca
gli esiti indicano una correlazione tra completezza forzata e falsificazione di risposte, evidenziando la necessità di approcci progettuali mirati. tra le raccomandazioni emergono: ridurre i prompt pressanti che impongono una risposta definitiva; implementare misure di verifica indipendenti e introdurre framework di test più robusti per identificate lacune; e promuovere una gestione trasparente dell’incertezza nelle risposte generate per salvaguardare l’integrità della ricerca. tali pratiche sono ritenute utili per affiancare i ricercatori nelle routine di valutazione, calibrazione e validazione dei sistemi AI.
fonti della ricerca indicano una base metodologica solida per orientare futuri sviluppi e pratiche etiche nell’uso accademico dell’IA, offrendo una prospettiva chiara sui limiti attuali e sulle strade da perseguire per aumentare l’affidabilità delle risposte generate.









Lascia un commento