Memorie che calcolano: il closed-loop in-memory computing del Politecnico di Milano e la prossima frontiera dell’AI
Il Politecnico di Milano sperimenta un chip di calcolo analogico in memoria in architettura closed-loop: riduce il collo di bottiglia Von Neumann tagliando i trasferimenti dati. Se maturerà, potrà rivoluzionare efficienza, costi ed emissioni nell’AI entro il 2028.

Il prossimo grande salto dell’intelligenza artificiale potrebbe non arrivare da un nuovo algoritmo, ma dal modo in cui i computer muovono gli elettroni. Al Politecnico di Milano è in sperimentazione un chip capace di svolgere calcolo analogico direttamente nella memoria: una RAM che non si limita a custodire dati, ma li elabora, chiudendo il ciclo di computazione senza rimandare i risultati alla CPU a ogni passo. È la promessa del closed-loop in-memory computing, una risposta mirata al collo di bottiglia dell’architettura di Von Neumann: il continuo e costoso scambio di informazioni tra processore e memoria.
Nelle pipeline dell’AI moderna, soprattutto per reti neurali e modelli di linguaggio, i calcoli dominanti sono prodotti tra matrici e operazioni vettoriali ripetitive. Il chip in-memory del Politecnico è progettato proprio per accelerare questi pattern, riducendo latenza e consumo energetico perché taglia i trasferimenti su bus e cache. In prospettiva, significa addestramenti più brevi e inferenze più sobrie, con un bilancio economico ed ecologico più sostenibile. Non è un caso che l’attenzione della ricerca si stia spostando verso memorie che calcolano, dispositivi neuromorfici e approcci analogici: la curva dei costi dell’AI, oggi, cresce più velocemente dei benefici marginali.
Se questa linea prenderà piede, tra il 2026 e il 2028 potremmo vedere i primi acceleratori in-memory integrati in schede per data center e edge. Gli scenari possibili includono cluster ibridi dove NPU/GPU si occupano di funzioni generali e i banchi di memoria svolgono moltiplicazioni accumulate (MAC) in situ, oppure nodi edge che eseguono inferenza locale con budget energetici minimi. In chiave industriale, il closed-loop in-memory computing faciliterebbe inferenze a bassa latenza su robotica e veicoli, sgravando i link di rete. In sanità e finanza, ridurrebbe il costo per query di modelli specialistici, avvicinando l’analisi real-time a vincoli di compliance e privacy (meno dati in transito).
Il panorama non è isolato. L’industria sperimenta architetture alternative: unità dedicate al linguaggio (LPU), NPU e iGPU integrate, e persino percorsi non convenzionali come logiche termodinamiche o quantistiche. Ma l’in-memory ha un vantaggio pragmatico: parla la lingua delle matrici, cuore dell’AI. Le criticità restano concrete. Il calcolo analogico deve affrontare rumore, variazioni di processo, drift, linearità limitata e la necessità di calibrazione continua. La sfida di mappare reti profonde su array resistivi o celle di memoria richiede toolchain maturi e standard aperti per programmabilità e portabilità. E l’affidabilità a lungo termine, sotto carico intensivo, dovrà convincere gli hyperscaler.
Sul piano energetico, l’impatto potenziale è rilevante. Ridurre i movimenti di dati può tagliare la quota dominante di consumo in workload AI. In combinazione con politiche di efficienza dei data center e fonti rinnovabili, potrebbe contribuire a contenere l’impronta carbonica dell’AI, oggi sotto scrutinio regolatorio e pubblico. Per i provider cloud, ogni punto percentuale di efficienza in più sui TCO è un vantaggio competitivo; per gli sviluppatori, significa democratizzare modelli capienti su hardware accessibile.
Cosa aspettarsi nel prossimo futuro? Nel breve, prototipi dimostrativi su benchmark standard (prodotti matrice-vettore, conv, attention) con metriche pubbliche su accuratezza vs. consumo. Entro pochi cicli di prodotto, potremmo vedere moduli DIMM intelligenti o interposer che portano il calcolo vicino alla memoria HBM. Se la filiera EDA e i framework (da PyTorch a JAX) esporranno backend ottimizzati, l’attrito all’adozione calerà. Un punto cruciale sarà la validazione su dataset reali e la compatibilità con quantizzazione e pruning, perché l’analogico beneficia di rappresentazioni numeriche più compatte.
Il messaggio, in controluce, è che l’AI non può crescere indefinitamente a colpi di FLOPS tradizionali. L’innovazione architetturale è tornata centrale. Il laboratorio milanese si inserisce in un movimento globale verso sistemi che eseguono i calcoli dove i dati nascono e risiedono. Se i risultati sperimentali reggeranno alla prova dei fatti, il closed-loop in-memory computing potrebbe diventare un nuovo tassello standard dell’infrastruttura AI, affiancando GPU e NPU. E, con esso, inaugurare una stagione in cui prestazioni e sostenibilità non siano obiettivi in tensione, ma lati della stessa soluzione.
Fonti (ufficiali e certificate):
Politecnico di Milano – comunicazioni e pubblicazioni su calcolo in memoria e dispositivi neuromorfici: https://www.polimi.it
IEEE Xplore – letteratura su in-memory/analog computing e array resistivi per AI: https://ieeexplore.ieee.org
Nature Electronics – articoli peer-reviewed su analog in-memory computing per reti neurali: https://www.nature.com/natildelectron