AI visione artificiale: Gemini 3 Pro e豆包 esplorano il podio globale

SuperCLUE-VLM, piattaforma autorevole nel settore delle valutazioni multimodali, ha pubblicato la classifica aggiornata a dicembre 2025 relativa ai modelli di intelligenza artificiale con capacità visivo-linguistiche. Il modello Google Gemini 3 Pro si è imposto nettamente con un punteggio complessivo di 83,64, dimostrando un vantaggio significativo rispetto ai concorrenti. Anche le realtà cinesi hanno mostrato ottime performance, con SenseNova V6.5 Pro di SenseTime al secondo posto e il modello visivo Doubao di ByteDance terzo, segnando la prima volta per un modello cinese nella top three globale.

valutazione completa delle capacità visive multimodali

L’analisi condotta da SuperCLUE-VLM si basa su tre dimensioni fondamentali per misurare l’effettiva comprensione visiva dei modelli:

  • cognizione di base: abilità nel riconoscere oggetti, testi e scenari elementari;
  • ragionamento visivo: capacità di interpretare logiche, relazioni causali e informazioni implicite nelle immagini;
  • applicazioni visive: competenze nell’esecuzione di attività pratiche come generazione testo-immagine, domande e risposte multimodali e utilizzo di strumenti integrati.

gemini 3 pro domina in tutte le categorie chiave

Gemini 3 Pro, primo classificato, ha ottenuto risultati eccellenti in ogni singolo indicatore: punteggio di base a 89,01, ragionamento visivo a 82,82, applicazioni pratiche a 79,09. Presentato da Google all’inizio di dicembre come il loro sistema multimodale più potente finora sviluppato, questo modello ha stabilito nuovi record nei test avanzati MMMU Pro e Video MMMU. Supporta una finestra contestuale fino a 256K token ed è capace di elaborare contenuti video lunghi fino a due ore.

aumento della competitività dei modelli cinesi nel panorama globale

I modelli cinesi hanno consolidato la propria posizione nella graduatoria mondiale. Il sistema SenseNova V6.5 Pro sviluppato da SenseTime si posiziona saldamente al secondo posto con un totale di75,35 punti. Il modello Doubao vision edition prodotto da ByteDance ha raggiunto invece il terzo posto grazie soprattutto all’eccellente risultato nella cognizione base (82,70 punti) nonostante una performance leggermente inferiore nel ragionamento visivo. Lanciato a settembre del 2025, Doubao rappresenta il primo modello della famiglia dotato di capacità avanzate per l’invocazione degli strumenti integrati e un miglioramento significativo nelle funzioni multimodali generali.

Anche Baidu con ERNIE-5.0-Preview e Alibaba tramite Qwen3-VL figurano tra i primi cinque classificati. Di particolare rilievo è Qwen3-VL che si distingue come primo modello open source nella lista ad aver superato i 70 punti totali evidenziando i progressi della comunità open source nel campo multimodale.

sorprendente posizionamento dei principali modelli internazionali concorrenti

I protagonisti internazionali noti non hanno raggiunto posizioni elevate in questa valutazione: Anthropic Claude Opus 4.5 totalizza71,44 punti, mentre OpenAI GPT-5.2 (high) si attesta a69,16 punti. Questi risultati indicano una ridefinizione del panorama competitivo globale dove il primato tecnologico non è più esclusiva ristretta ma distribuito tra molteplici operatori.

dettagli sui migliori modelli multimodali al dicembre 2025

  • Gemini-3-pro (Google): Punteggio totale: 83.64; Cognizione base: 89.01; Ragionamento visivo: 82.82; Applicazioni: 79.09; Modello closed source.
  • SenseNova V6.5 Pro (SenseTime): Punteggio totale: 75.35; Cognizione base: 81.66; Ragionamento visivo: 74.31; Applicazioni: 70.08; Modello closed source.
  • Doubao-seed-1-6-vision (ByteDance): Punteggio totale: 73.15; Cognizione base: 82.70; Ragionamento visivo: 64.27; Applicazioni: 72.48; Modello closed source.
  • ERNIE-5.0-Preview (Baidu): Punteggio totale: 72.21; Cognizione base: 82.05; Ragionamento visivo: 70.86; Applicazioni: 63.71; Modello closed source.
  • Qwen3-vl (Alibaba): Punteggio totale: 71.95; Cognizione base: 79.66; Ragionamento visivo: 71.26; Applicazioni: 64.92; Modello open source.
  • Claude-opus-4-5 (Anthropic): Punteggio totale: 71.44; Cognizione base: 82.07; Ragionamento visivo: 65.81; Applicazioni: 66.43;
  • GPT-5.2(high) (OpenAI): Punteggio totale :69 .16 ; Cognizione base :75 .18 ; Ragionamento visivo :67 .35 ; Applicazioni :64 .96 ; Modello closed source .

I dati sono stati raccolti da SuperCLUE-VLM al termine del mese di dicembre del 2025 e tengono conto della variabilità minima considerando pari merito i modelli che differiscono per meno di un punto percentuale.

Continue reading

PREVIOUS

Valhalla: il miglior IEM con 19 driver per orecchio che ti lascerà senza parole

Thieaudio Valhalla rappresenta un punto di riferimento nel mercato degli auricolari in-ear (IEM) di fascia alta, grazie a una progettazione avanzata e a una qualità sonora senza compromessi. Questo modello, caratterizzato da un prezzo elevato, si rivolge principalmente agli appassionati […]

Potrebbero interessarti

Commenti

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

I più popolari

Di tendenza

Per guestpost o linkbuilding scrivi a [email protected]