l’analisi esamina le novità introdotte da gemma 4, i modelli edge ai pensati per l’esecuzione locale su hardware consumer. al centro dell’innovazione vi sono i drafters multi-token prediction (mtp), componenti ausiliari che supportano il modello principale predicendo porzioni della richiesta e operando in parallelo per ottimizzare il carico di lavoro. grazie a questa architettura, la gestione della memoria e della potenza di calcolo risulta più efficiente, offrendo prestazioni velocizzate senza rinunciare al controllo locale.
gemma 4 e i drafters mtp
i drafters (mtp) sono modelli più piccoli che assistono il modello principale predicendo porzioni della richiesta dell’utente. operano in parallelo al sistema centrale, consentendo una gestione del calcolo più fluida e una risposta più rapida alle operazioni complesse.
come funziona la mtp
la tecnica di Speculative Decoding permette ai drafters di anticipare le parole successive prima che il modello principale le legga. mentre il drafter procede con la previsione, il modello principale verifica in tempo reale le parole suggerite. se le previsioni vengono confermate, si passa alla successiva sequenza; in caso di incongruenza, la parola o il segmento corretto viene sostituito.
perché accelera gemma 4
la velocità di elaborazione dipende non solo dall’hardware (tipicamente core GPU), ma soprattutto dalla bandwidth di memoria (VRAM). ragionando su blocchi di più parole, il modello deve essere referenziato una sola volta invece che più volte, spostando parte del carico dalla memoria all’unità di elaborazione.
ottimizzazioni per hardware specifici
google sta lavorando per adattare Gemma 4 a versioni di peso diverso per ambienti hardware mirati, includendo versioni ottimizzate per Apple Silicon e per Nvidia A100.
ecosistema e strumenti disponibili
oltre al modello principale, i drafters mtp possono operare con piattaforme come HuggingFace e Kaggle, strumenti come Ollama, oppure tramite la AI Edge Gallery di Google su dispositivi Android o iOS.










Lascia un commento