I modelli “pensanti” sono un disastro su tutta la linea: generano fino a 50 volte più emissioni di quelli concisi
L’intelligenza artificiale è sempre più presente nella nostra vita, ma il suo costo ambientale è spesso ignorato. Secondo uno studio condotto in Germania, alcune domande rivolte a modelli linguistici di grandi dimensioni (Large Language Models, o LLM) possono generare fino a 50 volte più emissioni di CO₂ rispetto ad altre. Il motivo? La differenza risiede nel modo in cui le IA “ragionano” per formulare le risposte. Quando il modello genera passaggi intermedi di logica prima della risposta finale, utilizza più risorse computazionali e, di conseguenza, consuma più energia. Questo processo si traduce in un impatto ambientale significativo. Come spiegato da Maximilian Dauner, primo autore dello studio pubblicato su Frontiers in Communication, “l’impatto ambientale dell’utilizzo dei LLM dipende fortemente dal tipo di ragionamento richiesto. Le risposte articolate comportano un consumo energetico molto più elevato”.
Modelli “ragionanti” generano emissioni 50 volte superiori
Il team tedesco ha analizzato 14 LLM già addestrati, con parametri compresi tra 7 e 72 miliardi, sottoponendoli a un test composto da 1.000 domande. I risultati mostrano che i modelli con capacità di ragionamento generano in media 543,5 token “di pensiero” per ogni domanda, rispetto ai soli 37,7 token dei modelli concisi. I token sono le unità di testo che l’IA traduce in numeri per poterle elaborare. Ogni token in più equivale a maggiore consumo energetico e quindi a maggiori emissioni. Il modello più accurato è risultato essere Cogito 70B, con l’84,9% di risposte corrette, ma ha emesso circa tre volte più CO₂ rispetto a modelli concisi della stessa dimensione. “Esiste un chiaro compromesso tra accuratezza e sostenibilità”, spiega Dauner, “nessuno dei modelli che ha mantenuto le emissioni sotto i 500 grammi di CO₂ equivalente ha superato l’80% di accuratezza”.
Quando la CO₂ dipende dalla materia
Il tipo di domanda incide fortemente sulle emissioni. Discipline come algebra astratta o filosofia, che richiedono catene di ragionamento complesse, comportano fino a sei volte più emissioni rispetto a materie più semplici, come la storia delle scuole superiori. Lo studio ha utilizzato una batteria di 500 domande multiple e 500 a risposta libera, testando ogni modello in entrambe le modalità. Nei test a scelta multipla, Cogito 70B con capacità di ragionamento ha risposto correttamente al 91% delle domande. Nei test a risposta libera, ha mantenuto la leadership con il 78,8% di risposte esatte. Tuttavia, questa performance ha richiesto fino a 1.300 grammi di CO₂ equivalente. Al contrario, modelli più piccoli e privi di ragionamento, come Qwen 7B, hanno emesso meno di 30 grammi ma risposto correttamente solo al 33% delle domande. Il costo ambientale del “pensiero” diventa evidente anche nel numero di token: fino a 865,5 token per una sola domanda di algebra. Una vera maratona computazionale.
Più accuratezza = più emissioni: il paradosso della sostenibilità IA
A parità di grandezza, i modelli che ragionano emettono molto più CO₂. Deepseek-R1 da 70 miliardi di parametri, ad esempio, ha prodotto oltre 2.000 grammi di CO₂ equivalente, contro i 418 grammi del più efficiente Qwen 2.5 (72B), che ha mantenuto una buona precisione. “Cogito 70B ha un buon compromesso”, ammettono i ricercatori, “con il 34% di emissioni in meno rispetto a Deepseek-R1, raggiunge la massima accuratezza tra tutti i modelli testati”. L’analisi delle materie evidenzia una grande variabilità: la filosofia è risultata la più ardua, con solo il 52,1% di risposte corrette. I modelli, inoltre, faticano a limitare la lunghezza delle risposte: in alcuni casi, sono state generate decine di migliaia di token, anche quando si chiedeva una singola lettera come risposta. In un caso, un modello ha prodotto 37.575 token per una sola domanda. La verbosità, in questi casi, non è sinonimo di intelligenza: solo di emissioni.
Un uso più consapevole può abbattere l’impronta ecologica
Lo studio sottolinea anche le possibilità per gli utenti di ridurre l’impatto ambientale dell’IA. Scegliere modelli più piccoli, oppure chiedere risposte concise, può abbattere le emissioni. Ad esempio, far rispondere a Deepseek R1 a 600.000 domande comporterebbe la stessa emissione di CO₂ di un volo andata e ritorno Londra–New York. Al contrario, Qwen 2.5 può rispondere a circa 1,9 milioni di domande emettendo la stessa quantità di CO₂. La scelta dell’hardware e della fonte energetica incide molto: l’esperimento è stato condotto su una scheda NVIDIA A100 con emissioni standardizzate a 480 gCO₂/kWh. “Se gli utenti conoscessero il costo ambientale reale dei contenuti generati, anche per cose banali come trasformarsi in un supereroe con l’IA, forse farebbero scelte più attente”, conclude Dauner.
IA potente sì, ma poco amica dell’ambiente
L’analisi offre uno sguardo concreto sul paradosso della potenza computazionale: più l’intelligenza artificiale “pensa”, più inquina. I modelli più accurati sono anche quelli che consumano di più, non solo in termini energetici ma anche ambientali. In un’epoca in cui la sostenibilità è una priorità globale, ignorare questo aspetto dell’IA sarebbe un errore. Le future generazioni di modelli dovranno non solo essere intelligenti, ma anche ecologicamente responsabili. Ridurre la lunghezza delle risposte, migliorare gli algoritmi di ragionamento e rendere trasparente il bilancio energetico dei modelli sono solo alcuni dei passi necessari. La strada è lunga, ma ogni token in meno può fare la differenza.