Come Vera ridisegna la CPU per carichi di intelligenza artificiale e reinforcement learning

La presentazione di Vera da parte di NVIDIA segna un cambiamento nel modo in cui le CPU per datacenter sono progettate per l’Intelligenza artificiale. Questo processore nasce per rispondere a esigenze che vanno oltre i tradizionali carichi paralleli: modelli che ragionano, pianificano e interagiscono con strumenti software richiedono infatti robuste prestazioni single-thread e una capacità di gestire migliaia di ambienti isolati. In questo contesto, la GPU rimane centrale per addestramento e inferenza, ma molte routine critiche restano dipendenti dalla CPU, creando un nuovo equilibrio architetturale tra unità di calcolo e sottosistemi di memoria.

Vera integra soluzioni pensate per ridurre gli effetti della legge di Amdahl sui carichi moderni: l’obiettivo è alzare l’efficienza nelle sezioni seriali e mantenere latenza e banda ai livelli richiesti dai framework attuali.

Il design include 88 core basati su microarchitettura Olympus, 176 thread totali e numerose ottimizzazioni per i framework di deep learning. Questa combinazione punta a offrire prestazioni fino al 50% superiori rispetto alle CPU rack-scale tradizionali su specifiche classi di workload.

Architettura dei core e innovazioni di processo

Al cuore della CPU ci sono 88 core Olympus compatibili con Arm v9.2-A, che rappresentano la prima microarchitettura di datacenter progettata direttamente da NVIDIA. L’incremento dell’IPC è accompagnato da un’unità di decodifica capace di processare fino a 10 istruzioni per ciclo e da un branch predictor neurale in grado di gestire due branch per ciclo, ottimizzazioni che migliorano la pipeline nelle code tipiche di workload agentici. Inoltre, l’architettura include un prefetch engine studiato per grafi e database e un buffer istruzioni tarato per framework come PyTorch.

Spatial Multithreading: una nuova strada rispetto allo SMT

Una delle differenze più significative è l’introduzione dello Spatial Multithreading. A differenza dello Simultaneous Multithreading tradizionale che condivide risorse temporali, qui le risorse principali della pipeline vengono fisicamente isolate per thread, permettendo un’esecuzione veramente parallela. Questo approccio aumenta il parallelismo delle istruzioni, migliora la prevedibilità delle prestazioni e riduce l’impatto quando alcuni thread sono in attesa di dati, caratteristica utile per gli ambienti di reinforcement learning che alternano calcolo e I/O.

Sottosistema di memoria e rete interna

La gestione della memoria è stata ripensata attorno a moduli SOCAMM basati su LPDDR5X. La piattaforma offre una bandwidth totale di 1,2 TB/s e una capacità fino a 1,5 TB, con un valore per core che raggiunge circa 13,6 GB/s in condizioni di massimo carico uniforme.

A livello di fabric, la seconda generazione dello Scalable Coherency Fabric (SCF) mette a disposizione 3,4 TB/s di banda interna e assicura che la CPU mantenga oltre il 90% della larghezza di banda di picco sotto carico sostenuto, abbattendo le latenze tipiche delle topologie NUMA.

Interconnessioni esterne e isolamento

Per collegamenti tra chip e sistemi, Vera integra un NVLink-C2C con banda fino a 1,8 TB/s, circa il doppio della generazione precedente, oltre al supporto per PCIe 6.0 e CXL 3.1. Le opzioni includono configurazioni dual-socket e funzionalità di Confidential Computing, che consentono di creare domini isolati composti da CPU e GPU per carichi sensibili dal punto di vista della sicurezza.

Scala di rack e integrazione nell’ecosistema

NVIDIA ha descritto anche un’architettura di riferimento chiamata Vera CPU Rack, che impacchetta 256 CPU Vera raffreddate a liquido insieme a 74 DPU BlueField-4, switch ConnectX SuperNIC e fino a 400 TB di memoria LPDDR5, per un’aggregazione di banda che può arrivare a 300 TB/s. Un singolo rack mette a disposizione 45.056 thread e la capacità di gestire oltre 22.500 ambienti CPU indipendenti, pensati per sandbox, orchestrazione e pipeline agentiche ad alta densità.

Nei benchmark forniti da NVIDIA, i sistemi basati su Vera mostrano guadagni compresi tra 1,8 e 2,2 volte rispetto alla CPU Grace in diversi scenari applicativi. Il passaggio dai 72 core di Grace ai 88 core Olympus e il rinnovamento delle interconnessioni sono centrali per questi incrementi, così come gli affinamenti software che sfruttano il nuovo buffer istruzioni e i meccanismi di prefetch.

Adozione commerciale e roadmap

Diversi operatori cloud hanno già pianificato l’adozione di sistemi Vera: tra questi figurano Alibaba, Oracle Cloud Infrastructure, CoreWeave, Nebius e ByteDance. Sul fronte hardware, OEM e ODM come Dell, HPE, Lenovo, Supermicro e Foxconn offriranno sistemi basati su questa CPU. Vera sarà un elemento chiave dell’ecosistema Vera Rubin, che includerà GPU Rubin, switch NVLink di nuova generazione, DPU BlueField-4 e componenti di networking ad altissima velocità.

Le CPU Vera sono già entrate in produzione e i primi sistemi commerciali saranno disponibili tramite i partner NVIDIA nella seconda metà del 2026, segnando l’inizio della diffusione di una piattaforma che ribilancia il ruolo della CPU nei datacenter orientati all’AI avanzata.