Infrastruttura con Trainium e CS-3 per accelerare l'inferenza generativa su Bedrock

Amazon Web Services ha annunciato una collaborazione strategica con Cerebras Systems per creare un’infrastruttura cloud pensata per accelerare l’inferenza dei modelli di AI generativa. L’iniziativa sarà integrata nella piattaforma Amazon Bedrock e combina i processori Trainium di AWS con i sistemi CS-3 di Cerebras, basati sulla tecnologia wafer-scale. L’obiettivo è affrontare i limiti di latenza che condizionano le applicazioni interattive e rendere le risposte dei modelli più rapide e fluide per gli utenti.

Il progetto si fonda su un concetto operativo definito inference disaggregation: separare le fasi di inferenza in parti ottimizzabili singolarmente per sfruttare al meglio hardware con caratteristiche diverse. AWS prevede di distribuire la soluzione nei propri datacenter e di renderla disponibile tramite Bedrock nei prossimi mesi, con un’offerta commerciale più ampia prevista per la seconda metà del 2026.

Questo approccio vuole integrare prestazioni elevate con la scalabilità tipica del cloud pubblico.

L’idea centrale e l’architettura

Al centro della proposta c’è la distinzione tra due fasi che compongono l’inferenza: la fase di prefill e quella di decode. Il prefill processa il prompt iniziale e costruisce il contesto necessario al modello; è un’operazione largamente parallelizzabile e tende a richiedere molta potenza di calcolo ma una banda di memoria moderata. Il decode, invece, genera token in sequenza e dipende in modo critico dalla larghezza di banda della memoria, diventando il collo di bottiglia quando le risposte sono lunghe o quando il modello esegue ragionamenti complessi.

Perché separare prefill e decode

La separazione permette di mappare ogni fase su hardware specializzato: il prefill beneficia di architetture pensate per operazioni massivamente parallele, mentre il decode richiede soluzioni con latenza e banda di memoria estremamente basse.

Con questo schema è possibile ridurre i tempi complessivi di risposta che, nelle applicazioni interattive come chatbot avanzati o assistenti di sviluppo, incidono direttamente sull’esperienza utente. La strategia consente inoltre di ottimizzare costi e consumo assegnando risorse specifiche a compiti differenti.

Tecnologie impiegate e integrazione tecnica

La piattaforma combina i Trainium di AWS per gestire il prefill e i sistemi CS-3 di Cerebras per il decode. I CS-3 impiegano il Wafer Scale Engine, un design che realizza un singolo chip di scala wafer per offrire una comunicazione interna più rapida e una banda di memoria molto elevata rispetto alle GPU convenzionali. Il collegamento tra le due componenti avviene tramite Elastic Fabric Adapter (EFA), una soluzione di networking ad alta velocità già utilizzata nei cluster HPC di AWS, pensata per minimizzare la latenza della comunicazione tra nodi.

Perché il wafer-scale conta

Il design wafer-scale punta a ridurre i salti di comunicazione tra core e a massimizzare la banda disponibile per l’accesso alla memoria, caratteristiche che diventano decisive durante la generazione sequenziale dei token. Secondo Cerebras, questi sistemi possono offrire una banda significativamente superiore rispetto alle GPU tradizionali, un vantaggio che emerge soprattutto nei modelli di ragionamento e nelle applicazioni agentiche che richiedono molte generazioni consecutive.

Impatto sul mercato e collaborazioni

Per AWS la partnership rappresenta il primo impiego ufficiale di tecnologia Cerebras su scala di hyperscaler: un passo che amplia le alternative all’ecosistema GPU e offre ai clienti opzioni architetturali diverse per l’inferenza. Tra i partner che hanno già annunciato l’uso della piattaforma ci sono Anthropic, che ha individuato AWS come infrastruttura principale per il training dei suoi modelli, e OpenAI, che prevede di sfruttare capacità Trainium per carichi legati ai suoi modelli di frontiera.

Conseguenze per Cerebras e il settore

Per Cerebras, che sta preparando un’IPO, la collaborazione con il primo provider di cloud al mondo significa una significativa opportunità di diffusione dell’architettura wafer-scale e una possibilità concreta di competere più direttamente con le soluzioni basate su GPU. AWS sostiene che, in alcuni scenari, la combinazione di Trainium e CS-3 potrà offrire prestazioni di inferenza fino a un ordine di grandezza superiori rispetto alle soluzioni esistenti, vantaggio che si traduce in interazioni più veloci e strumenti AI più reattivi per sviluppatori e imprese.