Il panorama dell’intelligenza artificiale sta per subire una trasformazione significativa con l’introduzione di un nuovo assistente sviluppato da Google. Questo sistema non si limita a fornire suggerimenti, ma è in grado di eseguire azioni concrete su diverse piattaforme web. Il modello Gemini 2.5 Computer Use è attualmente disponibile in anteprima pubblica per gli sviluppatori attraverso l’API Gemini nel Google AI Studio e Vertex AI.
Evoluzione dell’intelligenza artificiale
Un aggiornamento funzionale significativo
Questo nuovo modello consente agli agenti di navigare nei siti web come farebbe un essere umano, permettendo operazioni quali l’apertura di pagine, la compilazione di moduli e il drag-and-drop degli elementi. A differenza delle interfacce API tradizionali, il Computer Use opera in un ciclo continuo: il codice invia uno screenshot della schermata corrente insieme alle azioni recenti. Gemini analizza la situazione e risponde con comandi come “clicca”, “digita” o “scorri”, che vengono poi eseguiti dal client.
Le prestazioni del Gemini 2.5 sono state testate e mostrano risultati promettenti, specialmente nelle interfacce utente mobili, mentre il controllo a livello di sistema operativo desktop non è ancora una priorità. Questo modello ha superato benchmark recenti nel controllo dei browser ed è stato progettato per operare efficacemente anche in situazioni reali come la navigazione di dashboard o la prenotazione di viaggi.
La sicurezza è considerata fondamentale; ogni azione proposta può essere verificata tramite un servizio dedicato prima della sua esecuzione. Gli sviluppatori possono richiedere conferme per operazioni ad alto rischio, garantendo così una maggiore protezione contro errori indesiderati.
Per coloro che desiderano esplorare le funzionalità del modello, Google offre una demo ospitata tramite Browserbase e documentazione dettagliata per lo sviluppo locale con Playwright. Elementi simili sono già stati utilizzati in progetti precedenti come Project Mariner e alcune caratteristiche della modalità AI nella ricerca.
Conclusione sull’assistente Gemini
Con questa anteprima ora disponibile, Gemini rappresenta un passo avanti significativo verso assistenti capaci di agire autonomamente piuttosto che limitarsi a suggerire opzioni. Per chi opera online, questo potrebbe rivelarsi uno degli sviluppi più interessanti presentati da Google quest’anno.
Lascia un commento