Google aggiorna la ricerca con Gemini 2.5 e audio flash nativo

Google ha introdotto la versione più recente di Gemini 2.5 Flash Native Audio, una tecnologia avanzata che migliora l’esperienza vocale nelle ricerche e nelle traduzioni in tempo reale. Le innovazioni riguardano soprattutto la fluidità delle risposte, la naturalezza delle voci e nuove funzionalità per sviluppatori esterni.

aggiornamenti principali di gemini 2.5 flash native audio

La nuova release potenzia significativamente le capacità di Search Live, migliorando la qualità delle risposte vocali con un tono più espressivo e naturale. Tra le novità figura anche la possibilità di rallentare la velocità della risposta semplicemente richiedendolo verbalmente, rendendo l’interazione più accessibile.

L’aggiornamento sarà distribuito progressivamente agli utenti Android e iOS negli Stati Uniti nel corso della settimana successiva al lancio.

vantaggi per gli sviluppatori di agenti vocali live

  • Chiamate a funzione più precise: il modello riconosce con maggiore affidabilità quando attivare funzioni esterne, integrando dati aggiornati senza interrompere il flusso della conversazione.
  • Migliore esecuzione delle istruzioni: aumenta la capacità di seguire comandi complessi con un tasso di adesione del 90%, rispetto all’84% della versione precedente, garantendo risposte più complete e soddisfacenti.
  • Conversazioni più fluide: si registra un netto miglioramento nella gestione dei dialoghi multi-turno grazie alla migliore memorizzazione del contesto tra i vari scambi.

funzionalità avanzate di traduzione vocale in tempo reale

L’aggiornamento introduce anche il supporto alla traduzione speech-to-speech in diretta, come dimostrato dall’integrazione con Google Translate per cuffie intelligenti. Questo sistema consente una comunicazione bidirezionale automatica tra due lingue, modificando dinamicamente l’output in base all’interlocutore che parla.

Ad esempio, durante una conversazione tra un parlante inglese e uno hindi, ciascuno riceve traduzioni istantanee nella propria lingua tramite cuffie o dispositivo mobile.

I risultati mantengono intonazione, ritmo e tonalità originali del parlante, eliminando rumori ambientali indesiderati. La funzione supporta il riconoscimento automatico della lingua e input multilingue simultanei.

ampia copertura linguistica

Sono disponibili oltre70 lingue diverse, con circa2000 combinazioni linguistiche possibili. Ciò è reso possibile dalla combinazione delle conoscenze globali del modello Gemini con le sue capacità audio native multilingue.

Continue reading

NEXT

Apple vince parzialmente contro Epic Games: ecco cosa cambia

Apple ha ottenuto una decisione favorevole nel contenzioso in corso con Epic Games, riguardante le commissioni applicate sugli acquisti in-app effettuati tramite link esterni a metodi di pagamento fuori dall’App Store. La Corte d’Appello del Nono Circuito ha stabilito che […]
PREVIOUS

Kindle Scribe 2024 in offerta: risparmia 140 euro, è davvero un buon affare?

Il nuovo anno si avvicina rapidamente e rappresenta l’occasione ideale per riprendere o consolidare l’abitudine alla lettura. Tra le opzioni tecnologiche più interessanti per chi desidera combinare lettura e produttività spicca il Kindle Scribe 2024, un dispositivo versatile che unisce […]

Potrebbero interessarti

Commenti

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

I più popolari

Di tendenza

Per guestpost o linkbuilding scrivi a [email protected]Segnala a Zazoom - Blog Directory