Edge AI per IoT: scegliere MCU o MPU e ottimizzare energia

Edge AI a basso consumo: scelte hardware, compressione del modello e OTA per prototipi IoT che funzionano davvero sul campo.

Roberto Capelli · 02/07/2026 · 5 min

Edge AI per IoT: scegliere MCU o MPU e ottimizzare energia

Portare l’Edge AI nei prototipi IoT non è solo una questione di modelli brillanti, ma di vincoli reali: memoria, consumo e latenza. La differenza tra una demo in laboratorio e un dispositivo affidabile sul campo sta in tre leve chiave: quantizzazionepruning e inferenza on-device ottimizzata. Con la scelta corretta tra microcontrollore e microprocessore e una pipeline OTA robusta, un’idea diventa un prodotto capace di durare mesi con una singola batteria.

Questa guida raccoglie decisioni pratiche e trade-off misurabili. Dalla selezione della board alla compressione del modello, passando per la gestione dei sensori e gli aggiornamenti in remoto, ogni passaggio punta a massimizzare accuratezza e autonomia senza sacrificare la manutenibilità. L’obiettivo è costruire prototipi credibili, pronti per i primi test di campo e scalabili verso una pre-serie.

MCU o MPU: come scegliere l’hardware giusto

La distinzione operativa è netta: una MCU (es. Cortex-M) integra CPU, RAM e periferiche con pochi mW in active e µA in standby; una MPU (es. Cortex-A) offre Linux, più RAM e acceleratori, ma a costo energetico maggiore. La regola: se il modello quantizzato entra in SRAM e la latenza richiesta è nell’ordine dei millisecondi, la MCU è la prima scelta. Quando servono modelli più complessi flussi multimediali o connettività ricca, l’MPU semplifica lo stack, ma impone batterie più capienti o alimentazione continua.

Suggerimento pratico: dimensionare “dal carico” verso l’hardware. Si stimano parametri, dimensione del tensore di input e RAM runtime. Se il budget totale (modello + buffer + stack) resta sotto i 256-512 KB, una MCU con DSP e, se possibile, NPU integrata, garantisce costi e consumi minimi. Oltre tale soglia, valutare una MPU entry-level o una MCU con estensione AI dedicata.

Quantizzazione e pruning: comprimere senza perdere segnale

La quantizzazione riduce la precisione numerica (da FP32 a INT8 o addirittura INT4), tagliando memoria e moltipliche. Il guadagno tipico è 4-8× sulla dimensione del modello e fino a 2-3× sulla latenza. In ambito MCU, la quantizzazione post-training a INT8 con calibrazione su un set rappresentativo è spesso sufficiente; per modelli sensibili, la quantizzazione aware training preserva l’accuratezza simulando gli errori di quantizzazione in fase di addestramento.

Il pruning agisce sulla struttura: lo structured pruning rimuove interi canali/filtri, utile perché facilita l’ottimizzazione a runtime; lo unstructured taglia singoli pesi, efficace sulla carta ma meno sfruttabile senza kernel specializzati. Una pipeline efficace combina pruning moderato (20-40%) e quantizzazione a INT8, seguita da fine-tuning. Misurare sempre con un profilo realistico: consumi in mA, latenza end-to-end e accuratezza per classe, non solo l’insieme.

Inferenza on-device e ottimizzazioni energetiche

L’inferenza su MCU vive di micro-ottimizzazioni. Kernel CMSIS-NN o librerie specifiche del vendor sfruttano SIMD e MAC a 8 bit, riducendo drasticamente cicli CPU. Tre leve energetiche sono decisive: duty-cycling aggressivo dei sensori, interrupt come trigger di wake-up e batching degli eventi di comunicazione. Un accelerometro può rimodulare il campionamento e svegliare la MCU solo oltre una soglia, mentre lo stack radio invia summary compressi a intervalli, non stream continui.

La memoria è energia. Tenere il modello in Flash con pesi de-quantizzati on-the-fly è costoso; meglio pesi INT8 direttamente in SRAM quando possibile, evitando copie superflue. Attivare clock gating, abbassare la frequenza in idle e usare modalità STOP/STANDBY riduce i µA di base. Se è disponibile una NPU on-chip, spostare i layer supportati sull’acceleratore e lasciare alla CPU solo pre/post-processing.

Esempio: sensori vibrazionali e classificazione delle anomalie

Scenario: un nodo batteria AA monitora vibrazioni su un macchinario. Sensore IMU a 800 Hz, finestra di 1 secondo, feature MFCC/FFT leggere e una piccola CNN quantizzata a INT8. La pipeline locale: ISR dell’IMU accumula il buffer, la MCU esegue FFT con kernel ottimizzati, normalizza e manda il tensore al modello. Output: probabilità di pattern anomalo; se supera una soglia, salva un frammento grezzo e invia un evento compresso via LoRaWAN o BLE a bassa energia.

Con pruning al 30% e quantizzazione INT8, la CNN scende sotto i 100 KB, inferenza < 10 ms a 64 MHz e duty-cycle totale < 2%. In questa configurazione, un pacchetto unico ogni anomalia limita il tempo radio. Il risultato concreto: mesi di autonomia, latenza locale millisecondica e dati di diagnostica sufficienti al retraining mirato, senza cloud always-on.

OTA e ciclo di vita: dalla telemetria al retraining

Una strategia OTA affidabile separa parametri e codice. Il modello quantizzato (blob firmato) risiede in una partizione dedicata; il bootloader verifica la firma, supporta A/B slots e rollback automatico. Per reti vincolate, l’aggiornamento usa delta binari e chunk cifrati. Telemetrie essenziali (versione modello, tasso di falsi positivi, consumo medio) alimentano una coda nel cloud per pianificare il retraining.

La pipeline completa si articola in passi chiari:

Raccolta dei frammenti etichettati on-edge e invio asincrono quando l’energia lo consente.
Addestramento in ambiente controllato con QAT e structured pruning, seguiti da validazione su set realistici.
Compilazione con backend ottimizzato per la board (CMSIS-NN NPU toolchain) e generazione di un pacchetto firmato.
Distribuzione OTA graduale (canary) e monitoraggio di latenza, accuratezza e consumo su un sottoinsieme.
Promozione a stabile e pulizia dei dati residui per preservare Flash e SRAM.

Integrare questi passi in un flusso MLOps embedded riduce regressioni e facilita audit. La chiave è conservare tracciabilità: versioni del dataset, hash dei pesi e profili energetici, tutti legati alla build. In questo modo, ogni miglioramento del modello è misurabile in termini di mAh risparmiati e allarmi corretti in più, l’unica metrica che conta davvero sul campo.

Autore

Roberto Capelli

Roberto Capelli di Milano annotò i dati di una mensa aziendale durante un’indagine sul pasto lavorativo; quella visione epidemiologica modellò la sua linea editoriale, orientata a scelte alimentari misurate. In redazione difende chiarezza scientifica e conserva ricette leggere annotate a mano.

Edge AI per IoT: scegliere MCU o MPU e ottimizzare energia

MCU o MPU: come scegliere l’hardware giusto

Quantizzazione e pruning: comprimere senza perdere segnale

Inferenza on-device e ottimizzazioni energetiche

Esempio: sensori vibrazionali e classificazione delle anomalie

OTA e ciclo di vita: dalla telemetria al retraining

Roberto Capelli

Continua a leggere

Debito tecnico dell’AI: capacity planning, costi cloud e governance

Android 17 QPR1 Beta 6: tutto ciò che c’è da sapere sull’ultima beta

Server privati e pirateria: il dibattito su AB 1921 e la posizione dell’ESA