Il 7 ottobre, Google ha introdotto il modello Gemini 2.5 Computer Use, un sistema progettato per migliorare le capacità di interazione degli agenti AI con le interfacce utente, rendendo possibile una navigazione simile a quella umana.
funzionamento del modello Gemini 2.5
Questo nuovo modello si basa sulle capacità visive e di ragionamento del Gemini 2.5 Pro e ha dimostrato prestazioni superiori rispetto ad altri modelli concorrenti, come Anthropic Claude Sonnet 4.5 e prodotti di OpenAI, mantenendo al contempo una latenza ridotta. Le funzionalità sono accessibili agli sviluppatori tramite Google AI Studio e l’API Gemini su Vertex AI.
interazione con l’interfaccia utente
Nonostante la possibilità di interagire tramite API strutturate, molte operazioni digitali richiedono un’interazione diretta con elementi grafici, come la compilazione di moduli. Per completare queste attività, gli agenti devono navigare tra pagine web e applicazioni attraverso azioni quali cliccare, digitare e scorrere.
prestazioni nei benchmark
Il modello Gemini 2.5 ha mostrato risultati eccellenti in vari test di controllo delle interfacce web e mobile. I dati riportati indicano che il modello offre una qualità superiore nella gestione dei browser, mantenendo tempi di risposta minimi.
esempi pratici
Nell’ambito delle applicazioni reali, Gemini 2.5 è in grado di svolgere compiti complessi come raccogliere informazioni sui proprietari di animali domestici da siti web specifici e gestire appuntamenti con esperti.
sistemi di sicurezza implementati
Google ha sottolineato l’importanza della responsabilità nello sviluppo degli agenti AI per mitigare i rischi associati all’uso improprio o a comportamenti imprevisti del modello. Sono state integrate misure di sicurezza direttamente nel sistema per affrontare tali problematiche.
- Controllo delle azioni potenzialmente rischiose;
- Sistemi per valutare le richieste prima della loro esecuzione;
- Istruzioni specifiche per rifiutare azioni senza conferma dell’utente.
casi d’uso iniziali
I team Google hanno già implementato questo modello in ambienti produttivi per casi d’uso come i test delle interfacce utente, accelerando significativamente lo sviluppo software. I risultati ottenuti dai primi utenti sono stati promettenti in termini di velocità ed efficienza rispetto ai concorrenti.
- Poke.com: assistente AI con prestazioni superiori;
- Autotab: affidabilità nel riconoscimento del contesto;
- Google Pay: risoluzione rapida dei problemi nelle interfacce utente.
Lascia un commento