Google ha introdotto la versione più recente di Gemini 2.5 Flash Native Audio, una tecnologia avanzata che migliora l’esperienza vocale nelle ricerche e nelle traduzioni in tempo reale. Le innovazioni riguardano soprattutto la fluidità delle risposte, la naturalezza delle voci e nuove funzionalità per sviluppatori esterni.
aggiornamenti principali di gemini 2.5 flash native audio
La nuova release potenzia significativamente le capacità di Search Live, migliorando la qualità delle risposte vocali con un tono più espressivo e naturale. Tra le novità figura anche la possibilità di rallentare la velocità della risposta semplicemente richiedendolo verbalmente, rendendo l’interazione più accessibile.
L’aggiornamento sarà distribuito progressivamente agli utenti Android e iOS negli Stati Uniti nel corso della settimana successiva al lancio.
vantaggi per gli sviluppatori di agenti vocali live
- Chiamate a funzione più precise: il modello riconosce con maggiore affidabilità quando attivare funzioni esterne, integrando dati aggiornati senza interrompere il flusso della conversazione.
- Migliore esecuzione delle istruzioni: aumenta la capacità di seguire comandi complessi con un tasso di adesione del 90%, rispetto all’84% della versione precedente, garantendo risposte più complete e soddisfacenti.
- Conversazioni più fluide: si registra un netto miglioramento nella gestione dei dialoghi multi-turno grazie alla migliore memorizzazione del contesto tra i vari scambi.
funzionalità avanzate di traduzione vocale in tempo reale
L’aggiornamento introduce anche il supporto alla traduzione speech-to-speech in diretta, come dimostrato dall’integrazione con Google Translate per cuffie intelligenti. Questo sistema consente una comunicazione bidirezionale automatica tra due lingue, modificando dinamicamente l’output in base all’interlocutore che parla.
Ad esempio, durante una conversazione tra un parlante inglese e uno hindi, ciascuno riceve traduzioni istantanee nella propria lingua tramite cuffie o dispositivo mobile.
I risultati mantengono intonazione, ritmo e tonalità originali del parlante, eliminando rumori ambientali indesiderati. La funzione supporta il riconoscimento automatico della lingua e input multilingue simultanei.
ampia copertura linguistica
Sono disponibili oltre70 lingue diverse, con circa2000 combinazioni linguistiche possibili. Ciò è reso possibile dalla combinazione delle conoscenze globali del modello Gemini con le sue capacità audio native multilingue.













Lascia un commento