in

Come Gemini Enterprise e i nuovi TPU ridefiniscono l’intelligenza agentica nelle aziende

Google ridefinisce l'approccio all'AI enterprise con una proposta a più livelli: due chip distinti, un data layer federato e un'attenzione rafforzata alla sicurezza degli agenti

Come Gemini Enterprise e i nuovi TPU ridefiniscono l'intelligenza agentica nelle aziende

All’evento Google Cloud Next 2026 il discorso centrale è stato la transizione verso un’«agentic enterprise», ovvero l’adozione diffusa di agenti autonomi che percepiscono, ragionano e agiscono nei processi aziendali. La strategia annunciata combina innovazioni nell’hardware, nella gestione dei dati e nella sicurezza per affrontare i vincoli pratici che impediscono oggi la messa in produzione degli agenti AI. In questa visione, Google non punta più a una soluzione unica per ogni carico di lavoro, ma a una stack specializzata che ottimizza training, inference e orchestrazione.

Le novità presentate includono la nuova piattaforma Gemini Enterprise, un sistema di governance e runtime per agenti, e la doppia linea di acceleratori denominata TPU 8t e TPU 8i. Sul fronte dei dati è emersa l’idea di un Agentic Data Cloud basato su standard come Apache Iceberg e progettato per consentire interrogazioni e ragionamento su dati distribuiti tra cloud diversi.

Infine, la sicurezza è stata rafforzata con l’integrazione di Wiz e la proposta di uno stack di difesa agentico.

La scelta architetturale: due chip per due problemi

Google ha scelto di separare funzioni che fino a oggi convivevano su un’unica famiglia di acceleratori. Il TPU 8t è ottimizzato per il pre-training su larga scala, con elevate capacità di memoria condivisa e throughput elevato tra migliaia di die; il TPU 8i mira invece alle attività di sampling, serving e reasoning, con SRAM on-chip maggiorata e motori di collettive che riducono la latenza nelle operazioni di decoding. Questa biforcazione nasce dall’osservazione che i colli di bottiglia e l’economia unitaria cambiano radicalmente quando l’inference a bassa latenza e milioni di agenti concorrenti diventano il centro dei costi.

Implicazioni tecniche e operative

Dividere le famiglie di chip significa anche ripensare la collocazione dei dati e delle cache: mantenere i key-value cache vicino al silicio e ridurre la latenza delle riduzioni durante il decoding sono priorità per i casi d’uso agentici. Google mette in evidenza miglioramenti di performance per dollaro fino all’80% per l’inference sui carichi più sensibili, mentre il TPU 8t promette guadagni significativi nel training su superpod di larga scala. Per le aziende la scelta pratica sarà mappare i workload su silicon specifico, evitando il compromesso di un die progettato per fare tutto.

Il dato come fondamento: Agentic Data Cloud e federazione

Una componente cruciale dell’offerta è il nuovo Agentic Data Cloud, che evolve catalog e metadati in un knowledge catalog capace di mappare semantiche di business su dati strutturati e non strutturati.

L’obiettivo è ridurre il rischio di hallucination degli agenti fornendo contesti verificati, glossari e pattern SQL generati e validati automaticamente. Parallelamente, la strategia cross-cloud si concretizza con un lakehouse federato basato su Apache Iceberg per permettere query su dati che restano in AWS, Azure o altrove senza migrazioni massicce.

Integrazioni e limiti attuali

Tra le integrazioni in preview figurano collegamenti con fornitori come Databricks, Snowflake e servizi SaaS tradizionali, ma molte funzionalità chiave sono ancora in anteprima. La fattibilità operativa dipenderà dall’adozione reale di standard neutrali come Iceberg e dalla stabilità delle API di catalogo tra fornitori che hanno incentivi commerciali a differenziarsi. Per questo motivo le aziende dovranno valutare attentamente quali elementi sono già GA e quali restano a rischio di cambiamento.

Sicurezza, go-to-market e raccomandazioni per i leader IT

La dimensione della sicurezza è stata rafforzata con l’integrazione dello specialista Wiz nella proposta di Agentic Defense, unendo intelligence sulle minacce e operazioni di security per proteggere agenti a lunga esecuzione. Al contempo, Google ha mostrato cifre che segnano l’adozione: oltre 330 clienti hanno processato più di un trilione di token nell’ultimo anno, 35 di questi superando i 10 trilioni, e il throughput dei modelli proprietari supera i 16 miliardi di token al minuto. Sul fronte investimenti, Alphabet ha annunciato un piano capex 2026 di 175-185 miliardi di dollari che supporta questa roadmap.

Per i responsabili tecnologici la lezione pratica è distinguere chiaramente tra spesa di training, di inference e di orchestrazione agentica, evitando commit a lungo termine su architetture monolitiche prima di valutare la biforcazione che Google propone. Un audit dei workload in produzione, la verifica delle feature in preview e una pianificazione che abbini modello, dati e silicon alle reali necessità di latenza e scala sono passi essenziali per non pagare costi operativi eccessivi.

What do you think?

Scritto da Giulia Lifestyle

Ha coperto le tendenze di lifestyle quando erano ancora chiamate mode passeggere. Distinguere le tendenze durature dalle bolle momentanee è il suo forte. Scrive di stili di vita con l'esperienza di chi li ha vissuti e la distanza critica di chi li analizza.

Luce pulsata domestica: guida pratica per acquistare con sicurezza

Luce pulsata domestica: guida pratica per acquistare con sicurezza