Google ha recentemente introdotto un innovativo modello di intelligenza artificiale, denominato Gemini 2.5 Computer Use, progettato per interagire con l’internet in modo sorprendentemente umano. Questa AI avanzata è in grado di navigare all’interno dei browser web, cliccare su pulsanti, compilare moduli e persino scorrere tra le pagine, tutto grazie a comandi testuali semplici. Si tratta di un passo significativo verso la creazione di agenti intelligenti capaci di svolgere autonomamente compiti digitali complessi.
gemini 2.5 computer model: il nuovo agente ai di google
Il cuore del modello Gemini 2.5 Computer Use si basa su un ciclo di feedback iterativo. Quando viene assegnato un compito all’AI, questa riceve la richiesta insieme a uno screenshot della schermata corrente e alla cronologia delle azioni precedenti. Successivamente, elabora queste informazioni e propone una specifica azione dell’interfaccia utente, come ad esempio cliccare su un link o digitare testo in un campo. L’azione viene eseguita tramite codice client-side e lo schermo si aggiorna, inviando nuovamente uno screenshot all’AI per proseguire il ciclo fino al completamento del compito originale.
Google ha ottimizzato questo modello principalmente per i browser web, ma mostra anche potenzialità per il controllo delle app mobili. Test interni hanno già dimostrato l’utilizzo di versioni di questo modello per attività come il testing delle interfacce utente e l’accelerazione dello sviluppo software.
performance e sicurezza al centro dell’attenzione
Secondo Google, il modello Gemini 2.5 Computer Use supera le alternative più diffuse in diversi benchmark web e mobile con una latenza ridotta. Le dimostrazioni mostrano l’AI capace di gestire compiti come giocare al gioco 2048 o navigare su siti web. È interessante notare che brevi test hanno persino dimostrato la capacità dell’AI di risolvere CAPTCHA di Google, rappresentando una sfida significativa per gli utenti non umani.
Google sta ponendo particolare enfasi sulla sicurezza. L’azienda è consapevole dei rischi associati agli agenti AI che controllano i computer; comportamenti imprevisti potrebbero verificarsi o malintenzionati potrebbero sfruttarli indebitamente. Per questo motivo, sono state integrate funzionalità di sicurezza direttamente nel modello e gli sviluppatori ricevono strumenti per prevenire azioni ad alto rischio da parte dell’AI.
Attualmente, Gemini 2.5 Computer Use è disponibile per gli sviluppatori attraverso l’API Gemini in Google AI Studio e Vertex AI, ma non è ancora accessibile direttamente ai consumatori. Questa tecnologia segna comunque un passo verso un futuro in cui l’intelligenza artificiale gestisce gran parte delle nostre interazioni digitali quotidiane.
Lascia un commento