L’AI ha sete e vuole energia, ma come si calcola?

Tutti parlano di quanto l’AI consumi energia e beva acqua, con numeri non sempre del tutto confermati.

Ma com’è che si calcola il consumo dell’AI? Quali sono le strategie che vengono utilizzate per ricostruire questi numeri? In questo articolo ci basiamo sul paper di Jegham et al., How Hungry is AI?, 2025 , in cui viene descritta una metodologia di calcolo strutturata per una stima realistica.

Il team che ha pubblicato il paper si occupa anche di tenere aggiornata una dashboard di monitoraggio dei consumi legati ai principali modelli, che fornisce informazioni aggiornate in base alla metodologia di calcolo descritta.

In principio era il data center

I modelli di AI consumano energia perchè l’infrastruttura che li ospita consuma energia. E anche acqua. I data center infatti sono infrastrutture fisiche con un consumo elettrico ben preciso, distribuito tra tre voci:

  • l’hardware IT (server, storage, rete: mediamente 60% del totale)
  • i sistemi di raffreddamento (mediamente 20% del totale)
  • componenti ausiliarie come alimentazione e sicurezza
Share del consumo elettrico per voce. Fonte

Oltre a consumare energia elettrica, che può essere prodotta tramite fonti rinnovabili, i data center consumano acqua per essere tenuti a temperatura controllata. Il consumo di acqua è più impattante di quello elettrico proprio perchè se l’elettricità può essere prodotta in maniera pulita, l’acqua è invece una risorsa preziosa e spesso non rinnovabile.

Share del consumo elettrico per voce. Fonte

Per misurare quanto bene un data center trasforma l’energia elettrica in calcolo utile, si usano due indicatori standard:

PUE (Power Usage Effectiveness): rapporto tra energia totale consumata dal data center ed energia effettivamente usata dall’hardware IT. Un PUE di 1,5 significa che per ogni watt usato dai server, ne servono altri 0,5 per raffreddamento e infrastruttura. I grandi hyperscaler (Google, Microsoft, Meta) si avvicinano a PUE di 1,1–1,2. Un data center industriale italiano medio è spesso tra 1,4 e 1,8.

WUE (Water Usage Effectiveness): litri d’acqua consumati per kWh di energia IT. Si divide in on-site (acqua evaporata per il raffreddamento diretto) e off-site (acqua usata indirettamente nelle centrali elettriche per produrre l’energia). Chi valuta l’AI nell’ottica ESG deve considerare entrambe le voci.

Addestramento e inferenza a confronto

Le due principali fasi del ciclo di vita di un modello AI sono l’addestramento e l’inferenza. Entrambe consumano energia, ma il modo in cui lo fanno è radicalmente diverso.

Addestramento (training): è la fase in cui il modello “impara” dai dati. Dal punto di vista del consumo energetico ha le seguenti caratteristiche:

  • Limitata nel tempo e prevista una tantum
  • Estremamente intensiva a livello di consumi

Questa è la fase per cui si legge in giro che un modello di AI consuma come 630.000 famiglie italiane – che è tecnicamente vero per alcuni LLM, ma in generale dipende tantissimo dalla complessità e dall’architettura del modello.

Inferenza: è la fase in cui il modello fa previsione. Per i modelli di AI generativa, è il momento in cui risponde alle query degli utenti. Dal punto di vista energetico, è caratterizzato da:

  • Distribuita nel tempo – ogni volta che qualcuno fa una domanda viene consumato qualcosa
  • Meno intensiva per singola richiesta

Anche in questo caso il consumo per singola previsione dipende moltissimo dalla complessità del modello e dalla sua architettura. Ad esempio, i nuovi modelli di ragionamento (come DeepSeek-R1) consumano significativamente di più in inferenza rispetto ai modelli standard, perché “pensano” più a lungo prima di rispondere – generando catene di ragionamento interne che moltiplicano il calcolo necessario.

Primo dato: quanta energia consuma l’AI in generale?

Quantificare con precisione il consumo AI rispetto al consumo totale dei data center è difficile: i grandi fornitori di modelli commerciali non pubblicano dati granulari. Il proxy più affidabile sono i server accelerati, ovvero macchine dotate di GPU o TPU progettate appositamente per il calcolo AI.

Nel 2024, i server accelerati hanno rappresentato circa il 15% della domanda elettrica totale dei data center mondiali e il 24% del consumo dei soli server. Secondo l’International Energy Agency, le proiezioni indicano una crescita del consumo energetico AI intorno al 50% annuo fino al 2030.

Il consumo legato all’AI è quello che, dopo anni di plateau, ha nuovamente fatto aumentare il consumo di energia dei data center. Fonte

Secondo dato: quanto è addestramento, quanto inferenza?

Di questo consumo totale, una parte è necessaria per l’addestramento, ma una seconda parte è dovuta all’inferenza. Quanto, di preciso, non ci è dato di sapere: i dettagli della struttura dei modelli proprietari (come ad esempio il numero di parametri) non è un’informazione diffusa dai provider di soluzioni di AI generativa,

We should stop trying to reverse-engineer numbers based on hearsay, and put more pressure on these companies to actually share the real ones.

Sasha Luccioni

Visto che però cercare di dare dei numeri ci può fornire un’intuizione di quale effettivamente sia l’ordine di grandezza del fenomeno, le stime ci dicono che tra il 60% e il 70% dei consumi è legata all’inferenza, e il rimanente – seppur si parli di quantità di energia molto alte – è dovuto all’addestramento e al fine tuning dei modelli. Queste percentuali vengono dal un report del World Economic Forum del 2025 dedicato al paradosso energetico dell’AI, non mi stupirebbe se lo share dell’inferenza degli ultimi mesi fosse ulteriormente aumentato.

Metodologie di calcolo dei consumi per l’AI

Ora che “sappiamo” quanto consuma l’AI in generale, la domanda successiva è quanto consuma per singola query? Per rispondere a questa domanda bisogna addentrarsi nelle modalità di calcolo di un computer legate ai sistemi di AI.

FLOP sta per Floating Point Operation: è un singolo calcolo aritmetico elementare tra numeri decimali (una moltiplicazione, una somma), ed l’unità di misura fondamentale del carico computazionale di un modello AI. Perché è utile conoscerlo?

Prima di tutto, il FLOP misura la complessità di un modello, rappresentata da quante operazioni sono servite per costruirlo. Ad esempio l’addestramento di GPT-4 ha richiesto circa 2,2×10²⁵ operazioni in virgola mobile.

Inoltre, permette di confrontare l’efficienza dei chip, ovvero il consumo energetico a pari numero di operazioni. L’efficienza hardware si esprime in FLOP/Watt: quante operazioni riesce a fare un chip per ogni watt consumato. Una GPU NVIDIA B200 è circa il 60% più efficiente rispetto alla generazione precedente H100 in termini di FLOP/Watt .

Hardware diversi hanno performance diverse. Fonte

La misura pratica si esprime in multipli: TFLOP (10¹²), PFLOP (10¹⁵), EFLOP (10¹⁸). Un moderno data center AI opera nell’ordine degli exaflop.

Come si calcola il consumo per singola query

Durante l’uso quotidiano, la quantità di FLOP per singola risposta (query) dipende da:

  • Lunghezza dell’input e dell’output: Prompt più lunghi e risposte più articolate richiedono un numero maggiore di operazioni matematiche e, di conseguenza, più energia.
  • Inference-time scaling (Ragionamento): Modelli recenti (come DeepSeek-R1 o OpenAI o1) utilizzano il cosiddetto “scaling del tempo di inferenza”. In pratica, il modello viene istruito a “pensare” più a lungo prima di rispondere, aumentando drasticamente i calcoli eseguiti per prompt per risolvere problemi complessi di logica o matematica.
  • Modalità del compito: Il tipo di output è determinante. Generare un testo semplice richiede una frazione minima di calcolo rispetto alla generazione di un video, che può essere ordini di grandezza più intensiva.

Conoscendo il numero di FLOP per una singola query, è quindi possibile ricostruire il consumi energetico e di acqua legata alla richiesta.

Energia elettrica

Il passaggio dai FLOP (lavoro) al consumo elettrico (costo) avviene tramite il parametro dell’efficienza dell’hardware, che si misura appunto in FLOP/Watt, da completare considerando l’efficienza del data center in modo da ricostruire il consumo complessivo.

Il primo passaggio consiste nel determinare per quanto tempo l’hardware lavora per produrre una risposta. Questo tempo è la somma di due fattori:

  • Tempo di inizializzazione (Li): È la latenza necessaria per generare il primo token o per preparare il sistema all’elaborazione.
  • Tempo di generazione: Si calcola dividendo la lunghezza dell’output (numero di token) per la velocità del sistema (token al secondo, Ri​).
  • Perché sommarli? Perché l’hardware consuma energia dal momento in cui riceve il comando fino a quando non completa la scrittura della risposta.

Il secondo step è la valutazione della potenza del sistema. La potenza nominale (il wattaggio massimo indicato sulla targa dell’apparecchio) non corrisponde quasi mai al consumo reale durante un compito specifico. Per questo la formula distingue:

  • Sottosistema GPU (P_GPU): Rappresenta il consumo degli acceleratori, che sono i componenti più energivori durante l’IA.
  • Sottosistema non-GPU (P_nonGPU): Include CPU, memorie SSD, schede di rete e l’elettronica di controllo del raffreddamento.
  • Percentuale di utilizzo (U): La potenza nominale di ciascun sottosistema viene moltiplicata per la sua frazione di utilizzo effettivo osservata durante l’inferenza. Ad esempio, una GPU che consuma al massimo 1000W ma viene utilizzata al 50% contribuirà con 500W al calcolo.

Il risultato ottenuto finora rappresenta solo l’energia consumata dai chip (energia IT). Tuttavia, per far funzionare quei chip, il data center deve consumare energia aggiuntiva per il raffreddamento, l’illuminazione e le perdite di distribuzione elettrica.

  • PUE (Power Usage Effectiveness): È il rapporto tra l’energia totale consumata dall’intero data center e quella usata solo dalle apparecchiature IT.
  • Perché moltiplicare per il PUE? Se un server consuma 1 kWh e il data center ha un PUE di 1,5, significa che la struttura ha dovuto prelevare dalla rete 1,5 kWh in totale per permettere a quel server di completare il suo lavoro.
Calcolo Consumo Energetico per Query AI — IAC
Metodologia · Energia

Quanto consuma una singola query AI?

Calcolo dell’energia elettrica per inferenza — basato su Jegham et al., 2025

Formula
Equery = ( Li + Nout / Ri ) × ( PGPU·UGPU + Psys·Usys ) × PUE
1
Tempo di elaborazione
Li + Nout / Ri
Latenza inizializzazione Li — tempo per il primo token
0.5 s
Token in output Nout — lunghezza risposta
300 tok
Velocità di generazione Ri — token al secondo
60 tok/s
Tempo totale di elaborazione
— s
2
Potenza del sistema
P · U per GPU e sistema
Potenza nominale GPU PGPU — es. H100 = 700W, B200 = 1000W
700 W
Utilizzo GPU UGPU — fraction di utilizzo effettivo
60%
Potenza sistema non-GPU Psys — CPU, storage, rete, raffreddamento locale
300 W
Utilizzo sistema Usys
50%
Potenza effettiva totale
— W
3
Efficienza infrastruttura
Moltiplicatore PUE
PUE del data center 1.1 = hyperscaler · 1.5 = medio · 2.0 = legacy
1.40
Energia per query
Wh
Regola i parametri per vedere il consumo stimato.
📊 Confronto con benchmark noti (prompt lungo)
o3 (OpenAI)
33.4 Wh
DeepSeek-R1
32.1 Wh
GPT-4o
13.3 Wh
Claude 3.7 Sonnet
4.7 Wh

Fonte: Jegham et al., How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference, 2025 — industrial-ai-compass.com

Le fonti sottolineano che questa stima è influenzata pesantemente dal batching (raggruppamento delle query). Elaborare 8 query contemporaneamente invece di una alla volta permette di ottimizzare l'uso della GPU, riducendo il consumo energetico per singola query di circa il 45%. Questo accade perché la potenza fissa del sistema (quella consumata quando l'hardware è acceso ma non al massimo carico) viene "spalmata" su più richieste.

In sintesi, questa formula trasforma un'operazione informatica astratta in un valore fisico misurabile (Wattora), permettendo di capire l'impatto reale di ogni prompt che inviamo a un'IA

Acqua

Una volta che il consumo elettrico legato alla query è noto, è possibile ricostruire il consumo di acqua: più FLOP richiedono più energia, che a sua volta richiede più acqua per il raffreddamento del data center (on-site) e per la produzione di elettricità alla fonte (off-site). Il consumo d'acqua per singola query si ottiene moltiplicando l'energia della query per la somma dei coefficienti WUE on-site e off-site del data center.

Il raffreddamento è la voce principale del consumo idrico diretto (on-site) nel data center.

  • Raffreddamento evaporativo: Per mantenere i server a temperature operative, molti data center utilizzano torri di raffreddamento dove l'acqua viene fatta evaporare per dissipare il calore generato dai calcoli.
  • WUE site: Questo coefficiente misura i litri di acqua consumati per ogni kWh di energia utilizzato dalle apparecchiature IT.
  • Variabilità: Il consumo dipende fortemente dalla tecnologia (il raffreddamento a liquido è più efficiente) e dal clima locale; in regioni calde e umide, il WUE può triplicare rispetto alla media mondiale.

Al consumo di acqua on-site si deve sommare il consumo off-site legato alla produzione elettrica. Questo consumo è indiretto e avviene lontano dal data center, presso le centrali elettriche che alimentano la struttura.

  • Produzione di elettricità: La generazione di energia richiede grandi quantità di acqua (es. evaporazione nelle centrali termiche o idroelettriche).
  • WUE source: Misura l'intensità idrica del mix energetico locale. Le fonti rinnovabili come eolico e solare utilizzano centinaia di volte meno acqua rispetto ai combustibili fossili.

Il calcolo preciso del consumo idrico per una singola query integra l'efficienza dell'infrastruttura (PUE) con i due coefficienti WUE:

Acqua (L)=E_query​×(PUE×WUEsite​+WUEsource​)

  • E_query: È l'energia consumata dai soli server per quella specifica query.
  • PUE (Power Usage Effectiveness): È il moltiplicatore che include l'energia per condizionamento e luci. Poiché l'acqua on-site serve a raffreddare tutto il calore (IT + perdite infrastrutturali), il WUEs_ite​ viene applicato all'energia totale del sito (E_query​×PUE).

CO2

Il numero di FLOP necessari per un compito definisce quanta elettricità verrà prelevata dalla rete; moltiplicando questa energia per il Carbon Intensity Factor (CIF) locale, si ottengono le emissioni di CO2​. Il CIF è il parametro che traduce il consumo elettrico in emissioni di gas serra, misurato in kgCO2​e per kilowattora (kWh).

  • Dipendenza dal Mix Energetico: Il CIF è determinato quasi interamente dalle fonti energetiche della rete elettrica locale. Un kilowattora prelevato da una rete alimentata a carbone ha un CIF significativamente più alto rispetto a uno prelevato da una rete con alta penetrazione di rinnovabili o nucleare.
  • Formula di calcolo: Le emissioni operative per singola query si ottengono moltiplicando l'energia totale prelevata dalla rete per il CIF locale: Carbonio (kgCO2​e)=E_query​×CIF.

Le fonti mostrano come la scelta di dove eseguire un modello possa cambiare drasticamente il suo impatto, a parità di FLOP eseguiti:

  • Il caso DeepSeek: Un modello come DeepSeek-R1 emette circa 17 gCO2​e per una query lunga se ospitato sui server proprietari (con CIF e PUE meno efficienti), ma lo stesso compito riduce le sue emissioni di quasi l'85% (scendendo a 2,5 gCO2​e) se eseguito su infrastrutture ottimizzate come Microsoft Azure, che beneficiano di una minore intensità carbonica della rete.
  • Sistemi efficienti: I modelli più piccoli e ottimizzati (come LLaMA-3.2 1B) arrivano a emettere meno di 0,3 gCO2​e anche per prompt lunghi, grazie alla combinazione di basso numero di FLOP e alta efficienza dell'hardware.

Sebbene le emissioni di una singola query sembrino modeste, l'aggregazione su miliardi di richieste trasforma l'IA in un carico ambientale massiccio. Ad esempio, le emissioni annuali stimate per le sole inferenze di GPT-4o nel 2025 potrebbero raggiungere le 163.000 tonnellate di CO2​e, un valore paragonabile alle emissioni prodotte da 30.000 auto a benzina in un anno. Per compensare tale impronta, sarebbe necessario un bosco della grandezza dell'intera città di Chicago

Calcolo Impronta Ambientale per Query AI — IAC
Metodologia · Impronta Ambientale

Quanto impatta una singola query AI?

Calcolo di energia, acqua e CO₂ per inferenza — basato su Jegham et al., 2025

⚡ Energia
Equery = ( Li + Nout / Ri ) × ( PGPU·UGPU + Psys·Usys ) × PUE
💧 Acqua
Wquery = Equery × ( PUE · WUEsite + WUEsource )
🌿 CO₂
Cquery = Equery × CIF
1
Tempo di elaborazione
Li + Nout / Ri
Latenza inizializzazione Li — tempo per il primo token
0.5 s
Token in output Nout — lunghezza risposta
300 tok
Velocità di generazione Ri — token al secondo
60 tok/s
Tempo totale di elaborazione
— s
2
Potenza del sistema
P · U per GPU e sistema
Potenza nominale GPU PGPU — es. H100 = 700W, B200 = 1000W
700 W
Utilizzo GPU UGPU — fraction di utilizzo effettivo
60%
Potenza sistema non-GPU Psys — CPU, storage, rete, raffreddamento locale
300 W
Utilizzo sistema Usys
50%
Potenza effettiva totale
— W
3
Efficienza infrastruttura
Moltiplicatore PUE
PUE del data center 1.1 = hyperscaler · 1.5 = medio · 2.0 = legacy
1.40
4
Consumo idrico
WUEsite + WUEsource
WUE on-site Litri/kWh — raffreddamento diretto in loco
0.9 L/kWh
WUE off-site Litri/kWh — acqua per produzione elettrica alla fonte
1.8 L/kWh
WUE totale effettivo (PUE × site + source)
— L/kWh
5
Emissioni CO₂
Carbon Intensity Factor
Carbon Intensity Factor gCO₂e/kWh — dipende dal mix energetico locale
300 gCO₂/kWh
Riferimenti CIF: 🇸🇪 Svezia ~13 · 🇫🇷 Francia ~85 · 🇮🇹 Italia ~233 · 🇩🇪 Germania ~380 · 🇵🇱 Polonia ~750
Energia per query
Wh
Regola i parametri.
💧
Acqua per query
mL
🌿
CO₂ per query
mgCO₂e
📊 Confronto con benchmark noti (prompt lungo)
o3 (OpenAI)
33.4 Wh
DeepSeek-R1
32.1 Wh
GPT-4o
13.3 Wh
Claude 3.7 Sonnet
4.7 Wh

Fonte: Jegham et al., How Hungry is AI? Benchmarking Energy, Water, and Carbon Footprint of LLM Inference, 2025 — industrial-ai-compass.com

Cosa significa tutto questo per chi lavora nell'industria

L'AI sta spingendo la domanda elettrica verso quello che l'IEA definisce un "superciclo" strutturale. Per i professionisti industriali italiani, questo ha implicazioni concrete su tre livelli:

Se siete Energy Manager: il consumo dei sistemi AI in impianto va monitorato come qualsiasi altro carico. I modelli di ragionamento, in particolare, possono avere profili di consumo non lineari, difficili da stimare a priori con i dati che i fornitori pubblicano oggi.

Se state valutando un fornitore AI: chiedete PUE e localizzazione del data center. Un servizio cloud che gira in un data center alimentato da fonti rinnovabili in Svezia ha una carbon footprint strutturalmente diversa da uno in un data center a carbone. Questo diventa un dato operativo per la valutazione dell'impatto ESG.

Se siete in R&D: quando progettate un sistema AI per uso industriale, la scelta dell'architettura del modello ha conseguenze energetiche misurabili. Un modello più piccolo e specializzato può essere superiore a un grande modello generalista, non solo per accuratezza, ma anche per costo per inferenza.

La trasparenza dei dati da parte dei fornitori rimane il nodo irrisolto. Fino a quando aziende come OpenAI, Google e Anthropic non pubblicheranno dati granulari sul consumo per modello, le stime resteranno approssimazioni. Esistono dashboard per il monitoraggio continuo come How Hungry is AI? di Jegham et al., basato sulla metodologia di calcolo che abbiamo esplorato nei paragrafi precedenti, e leaderboard come ML.leaderboard dedicato ai modelli le vui informazioni sono pubbliche (come i modelli open source).

Fonti e approfondimenti

Il consumo dell'AI è un tema complesso che nel dibattito pubblico viene appiattito e semplificato fino al midollo. Per approfondire quindi lascio qui le fonti principali, e altri spunti di approfondimento di interesse.

Articoli simili

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *