google presenta il modello Gemini 2.5 per l’uso del computer
Google ha recentemente avviato la preview del modello Gemini 2.5, concepito per interagire con le interfacce grafiche degli utenti, in particolare con browser e siti web. Questo modello specializzato si distingue per la sua capacità di eseguire una serie di operazioni in un ciclo continuo fino al completamento del compito richiesto.
funzionamento del modello Gemini 2.5
Il processo che guida il funzionamento del modello comprende diversi passaggi:
- Invio della richiesta al modello: Gli input includono la richiesta dell’utente, uno screenshot dell’ambiente e una cronologia delle azioni recenti.
- Analisi degli input: Il modello elabora queste informazioni e genera una risposta, tipicamente una chiamata a funzione che rappresenta un’azione dell’interfaccia utente come cliccare o digitare.
- Ricezione della risposta del modello: Il codice client-side esegue l’azione ricevuta.
- Ciclo di feedback: Dopo l’esecuzione dell’azione, viene inviato un nuovo screenshot della GUI e l’URL corrente al modello come risposta alla funzione, riavviando il ciclo.
azioni aggiuntive supportate dal modello
Oltre alle azioni già menzionate, il modello Gemini 2.5 offre supporto per ulteriori funzioni UI tra cui:
- Tornare avanti/indietro
- Cercare sul web
- Navigare verso URL specifici
- Spostamenti del cursore
- Combinazioni di tasti
- Sfogliamento e trascinamento/drop
Esempi pratici delle funzionalità del modello
Diverse dimostrazioni sono state condivise da Google per illustrare le potenzialità del modello a tre volte la velocità normale. Tra i prompt utilizzati vi sono stati:
“Da https://tinyurl.com/pet-care-signup, ottenere tutti i dettagli per qualsiasi animale domestico residente in California e aggiungerlo come ospite nel mio CRM spa su https://pet-luxe-spa.web.app/. Successivamente, programmare un appuntamento di follow up con lo specialista Anima Lavar per il 10 ottobre dopo le 8:00.”
“Il mio club d’arte ha pianificato attività in vista della fiera. La bacheca è caotica e necessito di aiuto nell’organizzare i compiti nelle categorie create. Visitare sticky-note-jam.web.app e assicurarsi che le note siano chiaramente collocate nelle sezioni corrette.”
basi tecniche e prestazioni generali
Il modello Gemini 2.5 Computer Use è principalmente ottimizzato per browser web; Google ha presentato benchmark “AndroidWorld” che mostrano buone performance nel controllo delle interfacce mobili, anche se non è ancora ottimizzato per il controllo a livello desktop OS.
I risultati ottenuti da Google evidenziano prestazioni elevate nei benchmark relativi al controllo web e mobile rispetto ad altre soluzioni come Claude ed OpenAI, mostrando qualità leader nel controllo dei browser con latenza minima.
sfruttamento interno e accesso anticipato agli sviluppatori terzi
This model is based on the visual understanding and reasoning capabilities of Gemini 2.5 Pro and has been utilized internamente da Google per testare interfacce utente al fine di accelerare lo sviluppo software. È disponibile anche un programma di accesso anticipato rivolto agli sviluppatori esterni impegnati nella creazione di assistenti virtuali e strumenti di automazione dei flussi di lavoro.
L’accesso pubblico alla preview del Gemini 2.5 Computer Use avviene tramite l’API Gemini all’interno di Google AI Studio e Vertex AI.
Prenota ora: In un ambiente demo ospitato da Browserbase.
Nota: utilizziamo link affiliati generanti reddito.
Lascia un commento