Memorie che calcolano: il closed-loop in-memory computing del Politecnico di Milano e la prossima frontiera dell’AI

Il prossimo grande salto dell’intelligenza artificiale potrebbe non arrivare da un nuovo algoritmo, ma dal modo in cui i computer muovono gli elettroni. Al Politecnico di Milano è in sperimentazione un chip capace di svolgere calcolo analogico direttamente nella memoria: una RAM che non si limita a custodire dati, ma li elabora, chiudendo il ciclo di computazione senza rimandare i risultati alla CPU a ogni passo. È la promessa del closed-loop in-memory computing, una risposta mirata al collo di bottiglia dell’architettura di Von Neumann: il continuo e costoso scambio di informazioni tra processore e memoria.

Nelle pipeline dell’AI moderna, soprattutto per reti neurali e modelli di linguaggio, i calcoli dominanti sono prodotti tra matrici e operazioni vettoriali ripetitive. Il chip in-memory del Politecnico è progettato proprio per accelerare questi pattern, riducendo latenza e consumo energetico perché taglia i trasferimenti su bus e cache. In prospettiva, significa addestramenti più brevi e inferenze più sobrie, con un bilancio economico ed ecologico più sostenibile. Non è un caso che l’attenzione della ricerca si stia spostando verso memorie che calcolano, dispositivi neuromorfici e approcci analogici: la curva dei costi dell’AI, oggi, cresce più velocemente dei benefici marginali.

Se questa linea prenderà piede, tra il 2026 e il 2028 potremmo vedere i primi acceleratori in-memory integrati in schede per data center e edge. Gli scenari possibili includono cluster ibridi dove NPU/GPU si occupano di funzioni generali e i banchi di memoria svolgono moltiplicazioni accumulate (MAC) in situ, oppure nodi edge che eseguono inferenza locale con budget energetici minimi. In chiave industriale, il closed-loop in-memory computing faciliterebbe inferenze a bassa latenza su robotica e veicoli, sgravando i link di rete. In sanità e finanza, ridurrebbe il costo per query di modelli specialistici, avvicinando l’analisi real-time a vincoli di compliance e privacy (meno dati in transito).

Il panorama non è isolato. L’industria sperimenta architetture alternative: unità dedicate al linguaggio (LPU), NPU e iGPU integrate, e persino percorsi non convenzionali come logiche termodinamiche o quantistiche. Ma l’in-memory ha un vantaggio pragmatico: parla la lingua delle matrici, cuore dell’AI. Le criticità restano concrete. Il calcolo analogico deve affrontare rumore, variazioni di processo, drift, linearità limitata e la necessità di calibrazione continua. La sfida di mappare reti profonde su array resistivi o celle di memoria richiede toolchain maturi e standard aperti per programmabilità e portabilità. E l’affidabilità a lungo termine, sotto carico intensivo, dovrà convincere gli hyperscaler.

Sul piano energetico, l’impatto potenziale è rilevante. Ridurre i movimenti di dati può tagliare la quota dominante di consumo in workload AI. In combinazione con politiche di efficienza dei data center e fonti rinnovabili, potrebbe contribuire a contenere l’impronta carbonica dell’AI, oggi sotto scrutinio regolatorio e pubblico. Per i provider cloud, ogni punto percentuale di efficienza in più sui TCO è un vantaggio competitivo; per gli sviluppatori, significa democratizzare modelli capienti su hardware accessibile.

Cosa aspettarsi nel prossimo futuro? Nel breve, prototipi dimostrativi su benchmark standard (prodotti matrice-vettore, conv, attention) con metriche pubbliche su accuratezza vs. consumo. Entro pochi cicli di prodotto, potremmo vedere moduli DIMM intelligenti o interposer che portano il calcolo vicino alla memoria HBM. Se la filiera EDA e i framework (da PyTorch a JAX) esporranno backend ottimizzati, l’attrito all’adozione calerà. Un punto cruciale sarà la validazione su dataset reali e la compatibilità con quantizzazione e pruning, perché l’analogico beneficia di rappresentazioni numeriche più compatte.

Il messaggio, in controluce, è che l’AI non può crescere indefinitamente a colpi di FLOPS tradizionali. L’innovazione architetturale è tornata centrale. Il laboratorio milanese si inserisce in un movimento globale verso sistemi che eseguono i calcoli dove i dati nascono e risiedono. Se i risultati sperimentali reggeranno alla prova dei fatti, il closed-loop in-memory computing potrebbe diventare un nuovo tassello standard dell’infrastruttura AI, affiancando GPU e NPU. E, con esso, inaugurare una stagione in cui prestazioni e sostenibilità non siano obiettivi in tensione, ma lati della stessa soluzione.

Fonti (ufficiali e certificate):

Politecnico di Milano – comunicazioni e pubblicazioni su calcolo in memoria e dispositivi neuromorfici: https://www.polimi.it
IEEE Xplore – letteratura su in-memory/analog computing e array resistivi per AI: https://ieeexplore.ieee.org
Nature Electronics – articoli peer-reviewed su analog in-memory computing per reti neurali: https://www.nature.com/natildelectron

Fonti (ufficiali e certificate):

Politecnico di Milano – comunicazioni e pubblicazioni su calcolo in memoria e dispositivi neuromorfici: https://www.polimi.it
IEEE Xplore – letteratura su in-memory/analog computing e array resistivi per AI: https://ieeexplore.ieee.org
Nature Electronics – articoli peer-reviewed su analog in-memory computing per reti neurali: https://www.nature.com/natildelectron