AI visione artificiale: Gemini 3 Pro e豆包 esplorano il podio globale

SuperCLUE-VLM, piattaforma autorevole nel settore delle valutazioni multimodali, ha pubblicato la classifica aggiornata a dicembre 2025 relativa ai modelli di intelligenza artificiale con capacità visivo-linguistiche. Il modello Google Gemini 3 Pro si è imposto nettamente con un punteggio complessivo di 83,64, dimostrando un vantaggio significativo rispetto ai concorrenti. Anche le realtà cinesi hanno mostrato ottime performance, con SenseNova V6.5 Pro di SenseTime al secondo posto e il modello visivo Doubao di ByteDance terzo, segnando la prima volta per un modello cinese nella top three globale.

valutazione completa delle capacità visive multimodali

L’analisi condotta da SuperCLUE-VLM si basa su tre dimensioni fondamentali per misurare l’effettiva comprensione visiva dei modelli:

cognizione di base: abilità nel riconoscere oggetti, testi e scenari elementari;
ragionamento visivo: capacità di interpretare logiche, relazioni causali e informazioni implicite nelle immagini;
applicazioni visive: competenze nell’esecuzione di attività pratiche come generazione testo-immagine, domande e risposte multimodali e utilizzo di strumenti integrati.

gemini 3 pro domina in tutte le categorie chiave

Gemini 3 Pro, primo classificato, ha ottenuto risultati eccellenti in ogni singolo indicatore: punteggio di base a 89,01, ragionamento visivo a 82,82, applicazioni pratiche a 79,09. Presentato da Google all’inizio di dicembre come il loro sistema multimodale più potente finora sviluppato, questo modello ha stabilito nuovi record nei test avanzati MMMU Pro e Video MMMU. Supporta una finestra contestuale fino a 256K token ed è capace di elaborare contenuti video lunghi fino a due ore.

aumento della competitività dei modelli cinesi nel panorama globale

I modelli cinesi hanno consolidato la propria posizione nella graduatoria mondiale. Il sistema SenseNova V6.5 Pro sviluppato da SenseTime si posiziona saldamente al secondo posto con un totale di75,35 punti. Il modello Doubao vision edition prodotto da ByteDance ha raggiunto invece il terzo posto grazie soprattutto all’eccellente risultato nella cognizione base (82,70 punti) nonostante una performance leggermente inferiore nel ragionamento visivo. Lanciato a settembre del 2025, Doubao rappresenta il primo modello della famiglia dotato di capacità avanzate per l’invocazione degli strumenti integrati e un miglioramento significativo nelle funzioni multimodali generali.

Anche Baidu con ERNIE-5.0-Preview e Alibaba tramite Qwen3-VL figurano tra i primi cinque classificati. Di particolare rilievo è Qwen3-VL che si distingue come primo modello open source nella lista ad aver superato i 70 punti totali evidenziando i progressi della comunità open source nel campo multimodale.

sorprendente posizionamento dei principali modelli internazionali concorrenti

I protagonisti internazionali noti non hanno raggiunto posizioni elevate in questa valutazione: Anthropic Claude Opus 4.5 totalizza71,44 punti, mentre OpenAI GPT-5.2 (high) si attesta a69,16 punti. Questi risultati indicano una ridefinizione del panorama competitivo globale dove il primato tecnologico non è più esclusiva ristretta ma distribuito tra molteplici operatori.

dettagli sui migliori modelli multimodali al dicembre 2025

Gemini-3-pro (Google): Punteggio totale: 83.64; Cognizione base: 89.01; Ragionamento visivo: 82.82; Applicazioni: 79.09; Modello closed source.
SenseNova V6.5 Pro (SenseTime): Punteggio totale: 75.35; Cognizione base: 81.66; Ragionamento visivo: 74.31; Applicazioni: 70.08; Modello closed source.
Doubao-seed-1-6-vision (ByteDance): Punteggio totale: 73.15; Cognizione base: 82.70; Ragionamento visivo: 64.27; Applicazioni: 72.48; Modello closed source.
ERNIE-5.0-Preview (Baidu): Punteggio totale: 72.21; Cognizione base: 82.05; Ragionamento visivo: 70.86; Applicazioni: 63.71; Modello closed source.
Qwen3-vl (Alibaba): Punteggio totale: 71.95; Cognizione base: 79.66; Ragionamento visivo: 71.26; Applicazioni: 64.92; Modello open source.
Claude-opus-4-5 (Anthropic): Punteggio totale: 71.44; Cognizione base: 82.07; Ragionamento visivo: 65.81; Applicazioni: 66.43;
GPT-5.2(high) (OpenAI): Punteggio totale :69 .16 ; Cognizione base :75 .18 ; Ragionamento visivo :67 .35 ; Applicazioni :64 .96 ; Modello closed source .

I dati sono stati raccolti da SuperCLUE-VLM al termine del mese di dicembre del 2025 e tengono conto della variabilità minima considerando pari merito i modelli che differiscono per meno di un punto percentuale.

Continue reading

Potrebbero interessarti

Luca Arnaldi
Instagram reels ridisegno incentrato sui reels potrebbe offrire un feed personalizzabile
l’evoluzione dell’interfaccia di instagram sembra orientarsi verso una forte focalizzazione sui reel, con una possibile riprogettazione che mette l’esperienza video al centro dell’apertura. il presente testo sintetizza le informazioni emerse su una versione in test, descrivendo cosa potrebbe cambiare nella […]
Luca Arnaldi
Febbraio 20, 2026
Ultime novità sul mondo Android
Luca Arnaldi
Telefono galaxy per biglietti di transito con token negli stati uniti
un aggiornamento recente permette a samsung wallet di integrarsi con token transit, centralizzando l’acquisto, la memorizzazione e l’uso dei biglietti di trasporto con pochi tocchi sui dispositivi galaxy. l’obiettivo è semplificare la gestione delle corse e ridurre la necessità di […]
Luca Arnaldi
Febbraio 20, 2026
Ultime novità sul mondo Android
Luca Arnaldi
Onlyoffice documents recensione una potente alternativa gratuita a microsoft office su android
Questo approfondimento esamina ONLYOFFICE, una suite d’ufficio gratuita e open source per dispositivi Android, capace di creare ed editare documenti di testo, fogli di calcolo e presentazioni direttamente nell’app. L’analisi considera funzionalità principali, usabilità e eventuali limitazioni, offrendo una panoramica […]
Luca Arnaldi
Febbraio 20, 2026
Ultime novità sul mondo Android
Luca Arnaldi
Galaxy s26 fotocamere con migliore riduzione del rumore
le indiscrezioni su una possibile evoluzione della fotocamera del Samsung Galaxy S26 indicano interventi mirati sulla gestione del rumore e sulla qualità delle immagini. se confermati, i miglioramenti potrebbero posizionare la serie tra i dispositivi Android di riferimento dell’anno, offrendo […]
Luca Arnaldi
Febbraio 20, 2026
Ultime novità sul mondo Android

Commenti

Lascia un commento Annulla risposta

I più popolari

Instagram reels ridisegno incentrato sui reels potrebbe offrire un feed personalizzabile
l’evoluzione dell’interfaccia di instagram sembra orientarsi verso una forte focalizzazione sui reel, con una possibile riprogettazione che mette l’esperienza video al centro dell’apertura. il presente testo sintetizza le informazioni emerse su una versione in test, descrivendo cosa potrebbe cambiare nella […]
Ultime novità sul mondo Android
Telefono galaxy per biglietti di transito con token negli stati uniti
un aggiornamento recente permette a samsung wallet di integrarsi con token transit, centralizzando l’acquisto, la memorizzazione e l’uso dei biglietti di trasporto con pochi tocchi sui dispositivi galaxy. l’obiettivo è semplificare la gestione delle corse e ridurre la necessità di […]
Ultime novità sul mondo Android
Onlyoffice documents recensione una potente alternativa gratuita a microsoft office su android
Questo approfondimento esamina ONLYOFFICE, una suite d’ufficio gratuita e open source per dispositivi Android, capace di creare ed editare documenti di testo, fogli di calcolo e presentazioni direttamente nell’app. L’analisi considera funzionalità principali, usabilità e eventuali limitazioni, offrendo una panoramica […]
Ultime novità sul mondo Android

Di tendenza

Recensioni
Confronto fotocamere google pixel 10 pro xl e apple iphone 17 pro max
Luca Arnaldi

AI visione artificiale: Gemini 3 Pro e豆包 esplorano il podio globale

valutazione completa delle capacità visive multimodali

gemini 3 pro domina in tutte le categorie chiave

aumento della competitività dei modelli cinesi nel panorama globale

sorprendente posizionamento dei principali modelli internazionali concorrenti

dettagli sui migliori modelli multimodali al dicembre 2025

Continue reading

NEXT

Robot humanoidi in arrivo nel primo negozio di robotica per il pubblico

PREVIOUS

Valhalla: il miglior IEM con 19 driver per orecchio che ti lascerà senza parole

Potrebbero interessarti

Instagram reels ridisegno incentrato sui reels potrebbe offrire un feed personalizzabile

Telefono galaxy per biglietti di transito con token negli stati uniti

Onlyoffice documents recensione una potente alternativa gratuita a microsoft office su android

Galaxy s26 fotocamere con migliore riduzione del rumore