Google ha recentemente potenziato il modello audio Gemini 2.5 Flash Native Audio, introducendo miglioramenti significativi nelle capacità conversazionali e nell’interazione con flussi di lavoro complessi. Questa evoluzione interessa diversi servizi, tra cui Gemini Live e Search Live, offrendo un’esperienza utente più fluida e naturale.
gemini 2.5 flash native audio: innovazioni principali
Il nuovo modello Gemini 2.5 Flash Native Audio versione 12-25 si distingue per una qualità superiore nella gestione delle conversazioni multi-turno, mantenendo il contesto delle interazioni precedenti per garantire dialoghi più coerenti e organici. Inoltre, è in grado di integrarsi con sistemi esterni senza interrompere la fluidità della comunicazione vocale, riconoscendo segnali audio per attivare funzioni esterne in tempo reale.
- Miglioramento nella continuità delle conversazioni multi-turno
- Integrazione efficiente con flussi di lavoro esterni
- Risposte vocali arricchite da dati aggiornati in tempo reale
capacità avanzate dei live voice agents basati su gemini
I Live Voice Agents alimentati dal modello aggiornato dimostrano una maggiore affidabilità nel comprendere e eseguire istruzioni complesse, incrementando la soddisfazione degli utenti grazie a risposte più complete e precise. L’adesione alle direttive fornite dagli sviluppatori raggiunge il 90%, superando del 6% la versione precedente del modello (9-25).
- Esecuzione autonoma di compiti multi-step senza necessità di intervento umano
- Aumento dell’affidabilità nell’interpretazione delle richieste vocali
- Migliore gestione delle interazioni complesse e articolate
prestazioni benchmark e disponibilità del modello gemini aggiornato
Nell’ambito del benchmark ComplexFuncBench Audio, Gemini 2.5 Flash Native Audio versione aggiornata ottiene un punteggio del 71,5%, superando sia il proprio predecessore che il modello gpt-realtime di OpenAI. Il rilascio è già avvenuto su piattaforme come Google AI Studio, Vertex AI e tramite API in fase preview.
- Punteggio elevato nei test di performance audio avanzata
- Disponibilità per sviluppatori su Google AI Studio e Vertex AI
- Accesso anticipato tramite Gemini API in preview
- Implementazione pratica in applicazioni come Gemini Live e Search Live su dispositivi Android













Lascia un commento