Recentemente, Google ha lanciato Gemini 2.5 Computer Use, un modello di intelligenza artificiale che si distingue per la sua capacità di navigare nel web con modalità simili a quelle umane. Questo sistema non si limita a richiamare dati tramite API, ma è in grado di interagire con interfacce web progettate per gli utenti. Esegue compiti come la compilazione di moduli o l’aggiunta di articoli a un carrello, operando quasi come se avesse mani virtuali.
Funzionalità e operatività di Gemini 2.5
La vera innovazione di Gemini 2.5 risiede nella sua abilità di comprendere visivamente e ragionare sulle richieste degli utenti, consentendo l’esecuzione di operazioni nel browser. Questa intelligenza artificiale è in grado di testare interfacce utente e navigare su siti web privi di API o connessioni dirette, ampliando così le sue potenzialità.
Attualmente, Gemini alimenta funzionalità in progetti come AI Mode e Project Mariner, dove gli agenti AI svolgono autonomamente compiti, come ordinare ingredienti online in base a una lista della spesa fornita.
Dimostrazioni e prestazioni
Google ha condiviso video dimostrativi di Gemini 2.5 in azione. Tuttavia, è importante notare che queste clip sono state accelerate di tre volte. Ciò implica che l’intelligenza artificiale impiega il triplo del tempo mostrato per completare le sue operazioni.
Osservare Gemini mentre naviga un sito web in tempo reale può richiamare alla mente l’esperienza di vedere qualcuno utilizzare un computer per la prima volta, con ogni clic e scroll accompagnati da un’attenta analisi.
Confronto con concorrenti e limitazioni
Questo annuncio si inserisce in un contesto in cui il panorama dell’intelligenza artificiale è in continua evoluzione.
Solo un giorno prima, OpenAI aveva presentato nuove applicazioni per ChatGPT, mentre Anthropic aveva lanciato la sua versione di Claude AI, dotata di capacità di utilizzo computerizzato. La principale differenza tra Gemini e i suoi concorrenti è che l’AI di Google dispone di accesso esclusivo al browser, limitandosi a 13 azioni fondamentali, come l’apertura di un browser, la digitazione di testo e il trascinamento di elementi.
Strategia di sviluppo
Questa restrizione può essere interpretata come una scelta strategica per minimizzare i rischi, in quanto un controllo limitato riduce le possibilità di causare danni significativi. Tuttavia, essa potrebbe anche indicare che Google sta ancora cercando di recuperare terreno rispetto ai concorrenti nel settore degli agenti autonomi. Attualmente, Gemini 2.5 è accessibile per gli sviluppatori attraverso Google AI Studio e Vertex AI.
Inoltre, è disponibile una demo pubblica su Browserbase, dove gli utenti possono osservare l’intelligenza artificiale impegnata in attività come il gioco 2048 o l’esplorazione di Hacker News.
Il futuro dell’interazione AI e le sfide attuali
La prospettiva di avere agenti AI che svolgono attività online al posto degli esseri umani è di grande interesse. È possibile delegare operazioni come la compilazione di moduli, il confronto di prezzi o la prenotazione di appuntamenti a un’intelligenza artificiale, che non si stanca e non si distrae. Tuttavia, nonostante queste potenzialità, gli agenti AI attuali risultano più lenti rispetto agli esseri umani e necessitano di supervisione per evitare errori significativi.
Il sistema Gemini 2.5 Computer Use rappresenta un passo avanti nel campo dell’intelligenza artificiale. Tuttavia, permangono numerose sfide da affrontare prima che tali sistemi possano operare in modo completamente autonomo ed efficiente. Il percorso verso un’intelligenza artificiale in grado di emulare l’abilità umana di navigare e interagire con il web è lungo e complesso, ma i progressi realizzati fino ad ora sono promettenti.