Token vs GPU: Il Vero Collo di Bottiglia nello Scaling dei Large Language Models

Immagina di essere un ricercatore di OpenAI nel 2023. Hai appena finito di trainare GPT-4 su praticamente tutto internet. Wikipedia? Fatto. ArXiv? Divorato. GitHub? Ingerito fino all’ultimo carattere. La tua PM ti guarda e ti chiede: “Ok, e per GPT-5?”

Tu guardi lo schermo. Poi guardi di nuovo la PM. “Ehm… i manuali delle lavatrici anni ‘70?”

Questo è il momento in cui è nato il panico da “abbiamo finito i token”. E da quel momento, il dibattito infuria: siamo davvero arrivati alla fine dei dati disponibili?

Spoiler: no. Ma la verità è molto più interessante.

Il Giorno in cui Tutti Hanno Iniziato a Contare i Token

C’è stata una presentazione, probabilmente in qualche conference room minimalista di San Francisco, dove qualcuno ha fatto questo calcolo:

“Allora, abbiamo trainato su 36 trilioni di token. Internet ha circa… ehm… 50 trilioni di token? Forse? E la metà è spam o contenuti duplicati. Quindi…”

Silenzio imbarazzato.

“Quindi abbiamo già usato tipo il 70% di tutto?”

Panico.

Da quel momento, “la scarsità di token” è diventata la narrativa dominante. Articoli su articoli. Thread su Twitter lunghi quanto un romanzo di Tolstoj. Venture capitalist che disinvestono perché “non ci sono più dati”.

Ma c’è un problema gigantesco con questa narrativa: assume che i token siano come il petrolio. Una risorsa finita che una volta esaurita, game over.

E se invece fossero più come… l’aria? Tecnicamente limitata, ma in pratica inesauribile se sai come usarla?

La Verità sulla Ridondanza

Facciamo un gioco. Ti do due frasi:

“Il gatto nero salta sul tavolo di legno”
“Il felino scuro balza sopra la superficie lignea”

Sono diversi token? Sì, completamente. Contengono informazione semanticamente diversa? Assolutamente no.

Ecco il problema fondamentale con l’argomento dei “36 trilioni di token già usati”: stiamo confondendo quantità di token con quantità di informazione.

La maggior parte di quei 36 trilioni sono variazioni dello stesso concetto di base ripetuto all’infinito. Milioni di articoli che ti dicono che il cielo è blu. Decine di migliaia di pagine che spiegano cos’è la fotosintesi. Infinite variazioni sul tema “come fare la carbonara” (e metà sono sbagliate, tra l’altro).

Non è dimostrato - e sottolineo, non è dimostrato - che 36 trilioni di token contengano significativamente più informazione unica di, diciamo, 8 milioni di token ben curati. Stiamo vedendo la stessa informazione ripetuta con piccole variazioni stilistiche.

È come se qualcuno ti dicesse: “Ho letto 10.000 libri!” E poi scopri che erano tutte ristampe dello stesso libro con copertine diverse.

Il Paradosso che Nessuno Vuole Guardare in Faccia

Eccolo. Il fatto che spazza via l’intero argomento della scarsità di token in un colpo solo:

Perché diavolo gli LLM vengono trainati con così poche epoche?

Aspetta, facciamo un passo indietro. Un’“epoca” è quando il modello vede tutto il dataset una volta. Se hai 36 trilioni di token e fai una sola epoca, il modello vede ogni token esattamente una volta.

Ora, se il problema fosse davvero “non abbiamo abbastanza token unici”, la soluzione ovvia sarebbe: fai più epoche! Mostra gli stessi token 5 volte, 10 volte, 50 volte al modello.

Ma indovina un po’? I modelli frontier fanno tipicamente 1-2 epoche. Raramente 3. Mai oltre.

Perché? Perché oltre un certo punto, vedere di nuovo gli stessi token ha rendimenti decrescenti rapidissimi. Il modello ha già estratto l’informazione utile. Continuare è come rileggere lo stesso capitolo sperando di capire qualcosa di nuovo: dopo la terza volta, hai capito tutto quello che c’era da capire.

E questo ci porta a una conclusione scomoda: se più epoche non aiutano granchè, forse la quantità assoluta di token non è nemmeno il vero problema.

Ma allora qual è il problema?

La Rivoluzione delle Scaling Laws

Nel 2020, OpenAI pubblica un paper che doveva cambiare tutto: le “Kaplan Scaling Laws”. La formula magica diceva: con 10x più potenza computazionale, scala il modello di 5.5x e i dati di solo 1.8x.

Risultato? GPT-3 con 175 miliardi di parametri trainato su “soli” 300 miliardi di token. Un modello gigantesco su relativamente pochi dati.

Poi nel 2022 arriva DeepMind con il paper Chinchilla e ribalta completamente il tavolo.

La scoperta? GPT-3 era drasticamente under-trained. Per un training computazionalmente ottimale, parametri e token dovrebbero scalare ugualmente. Raddoppi il modello? Devi raddoppiare anche i dati.

Ma ecco la parte interessante che tutti hanno perso: le Chinchilla Laws non dicono “hai finito i token”. Dicono “data questa potenza computazionale, ecco come allocarla meglio”.

È una distinzione sottile ma cruciale. La formula dipende sempre dalla potenza computazionale disponibile, non dai token disponibili. Se hai 10x più potenza computazionale, puoi fare un modello più grande che usa più dati. Ma se hai la stessa potenza computazionale, puoi fare trade-off intelligenti.

Puoi fare un modello al 50% dei parametri ottimali e raggiungere la stessa loss con il 26% in più di risorse computazionali ma usando 2.5x i token. Oppure puoi fare il contrario: modello più grande, meno efficiente ma con meno dati.

Questo trade-off esiste perché il vero asset scarso è la potenza computazionale, non i token.

Il Segreto (sporco) del Training Moderno

C’è una cosa che tutti nel settore sanno ma pochi dicono ad alta voce: il pretraining è solo l’inizio della storia.

Quando leggi “GPT-5 è stato trainato su X trilioni di token”, quello che non ti stanno dicendo è che dopo quel pretraining iniziale, inizia un processo lunghissimo e costoso che non ha quasi niente a che fare con “vedere più token”:

Prima fase: supervised fine-tuning. Prendi 50.000 conversazioni umane di alta qualità - non milioni, decine di migliaia - e insegni al modello a seguire istruzioni. Questa fase richiede settimane di calcolo ma quasi zero nuovi token rispetto al pretraining.

Poi c’è il reinforcement learning from human feedback. Un modello reward impara a valutare le risposte. Il policy model viene ottimizzato con algoritmi tipo PPO. Il modello impara le preferenze umane. Di nuovo: tantissima potenza computazionale, praticamente zero nuovi token umani.

Dopo arriva la synthetic data generation. Il modello genera i propri dati di training. Li filtra. Li rankera. Si auto-migliora. Calcolo all’infinito. Token umani? Zero.

E infine, la fase che sta rivoluzionando tutto nel 2025: test-time compute. Il modello “pensa” durante l’inferenza. Genera multiple risposte, le valuta, sceglie la migliore. Ancora potenza computazionale. Ancora zero nuovi token di training.

Ti vedo fare i conti nella tua testa: “Aspetta, ma allora la maggior parte del processo non dipende da avere più token?”

Esatto.

OpenAI o3: La Prova che la Potenza Computazionale Vince

Quando OpenAI ha rilasciato o1, il modello con “reasoning”, molti hanno pensato: “Oh carino, un po’ di chain-of-thought hardcodato”.

Sbagliato.

o1 rappresentava un cambio di paradigma: invece di sputare subito la prima risposta che viene in mente, il modello pensa. Genera molte tracce di ragionamento, le valuta, seleziona la migliore.

E quando è uscito o3, il successore? Il team di OpenAI ha detto tranquillamente: “Ah sì, abbiamo usato 10x più potenza computazionale di training rispetto a o1”.

10x.

E dove è andata questa potenza computazionale? Non in “abbiamo letto 10x più Wikipedia”. È andata in reinforcement learning su task di ragionamento, in synthetic data generation, in verification e self-correction.

Le performance? Drammaticamente superiori su benchmark di reasoning. Capacità che si avvicinano a quelle umane su task complessi.

E qui viene il punto che fa male a chi crede nella scarsità di token: questa potenza computazionale non è andata in più token di pretraining. È andata in tutto il resto.

La Lezione di AlphaZero che Tutti Ignorano

Facciamo un salto indietro al 2017. DeepMind rilascia AlphaZero, un sistema che impara a giocare a scacchi, Go e shogi a livello superumano.

La parte pazzesca? Zero dati umani. Solo le regole del gioco e self-play.

Niente database di partite di campioni mondiali. Niente strategie annotate da maestri. Solo: “ecco come si muovono i pezzi, ora gioca con te stesso”.

Risultato: performance superumane in tutti e tre i giochi.

Questo dimostra un principio fondamentale che dovrebbe far riflettere chiunque parla di scarsità di token: in domini con risposta verificabile, non servono token umani per raggiungere l’eccellenza.

Cosa significa “risposta verificabile”? Significa che puoi controllare automaticamente se la soluzione è corretta:

Matematica? La dimostrazione funziona o no. Verificabile. Coding? Il codice passa i test o no. Verificabile. Scacchi? Hai vinto o perso. Verificabile.

Per tutti questi domini, puoi usare reinforcement learning e auto-miglioramento praticamente all’infinito senza un singolo nuovo token umano.

Ma c’è un problema. Un problema enorme.

Il Vero Mostro: Il Costo Computazionale del Reinforcement Learning

Ecco dove arriviamo al cuore della questione. Il reinforcement learning, specialmente quando lo vuoi fare bene, richiede mostruose risorse computazionali.

Facciamo i conti per capire di cosa stiamo parlando.

Per ogni step di training devi generare, diciamo, 100 sample responses diverse per lo stesso prompt. Ogni response magari è 2000 token. Devi valutare ognuna con un reward model. Devi calcolare i gradienti per ogni sample. Devi aggregare e applicare l’update.

E tutto questo mentre tieni in memoria simultaneamente tutti gli stati intermedi, ogni token di ogni sample, tutte le attivazioni intermedie per il backpropagation.

Un esempio numerico per renderlo concreto: hai un prompt da 1000 token, generi 100 responses da 2000 token ciascuna. Totale: 300.000 token in memoria contemporaneamente. Per un singolo esempio di training.

E questo prima ancora di considerare che devi salvare checkpoint intermedi, gestire la distribuzione su migliaia di GPU, coordinare il training senza perdere sincronizzazione.

Il RL non è come il pretraining dove puoi fare nice streaming di batch. È un casino orchestrato dove ogni pezzo deve parlare con ogni altro pezzo in tempo reale.

E qui arriviamo al vero collo di bottiglia.

L’Analogia che Spiega Tutto

Immagina di essere uno sviluppatore software. Ma ogni volta che fai una modifica al codice, devi aspettare 6 mesi per vedere se funziona. Non puoi fare debug intermedio. Non puoi fare testing incrementale. Scrivi il codice, premi compile, e torni tra mezzo anno.

Quanto pensi di essere produttivo?

Questo è esattamente lo stato del training degli LLM frontier oggi.

Vuoi provare una nuova architettura? 6 mesi e 10 milioni di dollari per vedere se funziona. Vuoi testare un nuovo approccio di RL? Altri 6 mesi. Hai un’idea per migliorare il curriculum learning? Ci vediamo l’anno prossimo.

La scienza procede per iterazione. Hypothesis, experiment, observe, refine, repeat. Ma se il ciclo “experiment → observe” richiede 6 mesi, fai 2 iterazioni all’anno.

Un team di ricerca accademica che lavora su un problema tradizionale può fare 50-100 esperimenti all’anno. Un team che lavora su LLM frontier ne fa 2.

È come fare ricerca con le mani legate.

E il problema non è “non abbiamo abbastanza Wikipedia da leggere”. Il problema è “non abbiamo abbastanza potenza computazionale per iterare velocemente”.

Synthetic Data: Il Trucco che Rende i Token Infiniti

Parliamo di NVIDIA Nemotron-4. È una famiglia di modelli da 340 miliardi di parametri che include instruct models che generano risposte di alta qualità, reward models che le valutano, e dataset sintetici già pronti per trainare altri modelli.

Il messaggio è chiarissimo: smetti di aspettare che gli umani scrivano più roba, generala tu stesso.

E sai qual è la parte pazzesca? I dati sintetici sono spesso migliori dei dati umani.

Perché? Perché puoi controllare esattamente cosa generi. Vuoi esempi edge case specifici? Li generi. Vuoi coverage sistematica di uno spazio di possibilità? La ottieni. Vuoi bilanciamento perfetto delle classi? Fatto.

Gli umani commettono errori, sono inconsistenti, si stancano. I modelli no. Un modello può generare milioni di esempi mantenendo qualità consistente, se lo sai guidare bene.

E qui entra in gioco il loop magico che chiude il cerchio:

Model v1 genera dati. Un reward model filtra i migliori. Model v2 si traina su questi. Model v2 ora genera dati migliori. Il reward model si migliora. Model v3 è ancora meglio.

È un loop di auto-miglioramento che può andare avanti potenzialmente all’infinito. L’unico limite è… indovina? La potenza computazionale disponibile per far girare questo loop.

Non i token umani. La potenza computazionale.

DeepSeek e Qwen: La Dimostrazione Pratica

DeepSeek e Qwen hanno fatto una cosa che molti pensavano fosse suicidio commerciale: hanno rilasciato i pesi dei loro modelli pubblicamente.

“Ma sei pazzo?” si sono sentiti dire. “Ora chiunque può far girare il tuo modello gratis! Come farai soldi con l’API?”

Plot twist: stanno facendo soldi benissimo.

Perché? Perché rilasciare i pesi non è il problema. Il problema è far girare il modello bene.

Chi ha creato il modello sa come ottimizzarlo. Ha kernel CUDA custom. Ha quantizzazione ottimizzata per la propria architettura. Ha caching intelligente. Ha un’infrastruttura di serving che è stata tuned per mesi.

Un utente random che scarica i pesi? Probabilmente otterrà performance mediocri su hardware generico. E dopo due settimane di sbattimenti dirà: “Fanculo, uso l’API ufficiale che costa 2 dollari per milione di token”.

Ma la cosa più interessante è un’altra. Le vere innovazioni di DeepSeek e Qwen non sono stati “abbiamo trovato dataset segreti che nessuno conosce”. Sono state innovazioni nell’efficienza computazionale.

DeepSeek V3 ha mixture of experts ultra-efficiente, multi-token prediction, training distribuito su cluster eterogenei. Qwen 3 Max ha long-context nativo fino a 1 milione di token, è multilingual dalla base, ha ottimizzato le risorse computazionali di training del 40%.

Nota bene: tutte innovazioni su come usare la potenza computazionale, non su “abbiamo scaricato 10x più Reddit”.

Il Futuro Non È Nei Token, È Nell’Orchestrazione

Qui la verità scomoda: il futuro degli LLM non si gioca su chi ha il dataset più grande. Si gioca su chi riesce a:

Primo: iterare più velocemente. Se riesci a ridurre il training time da 6 mesi a 2 settimane, fai 13x più esperimenti all’anno. Ogni esperimento è una possibilità di breakthrough. 13x più possibilità = 13x più probabilità di trovare la next big thing.

Secondo: allocare la potenza computazionale ottimalmente. Le scaling laws del futuro non sono “più parametri = meglio”. Sono “dato questo budget totale di calcolo, come lo spalmo tra pretraining, post-training e test-time compute?”

Ed è un problema di ottimizzazione complesso:

$$\max_{C_{\text{pre}}, C_{\text{post}}, C_{\text{test}}} \text{Performance}(C_{\text{pre}}, C_{\text{post}}, C_{\text{test}})$$

Soggetto a:

$$C_{\text{pre}} + C_{\text{post}} + \mathbb{E}[C_{\text{test}}] \leq C_{\text{total}}$$

La soluzione ottimale non è ovvia. Non è “metti tutto nel pretraining”. Non è nemmeno “50-50”. Dipende dal task, dall’architettura, da mille fattori.

E trovare la soluzione ottimale richiede… indovina? Sperimentazione. Che richiede velocità di iterazione. Che richiede potenza computazionale.

Terzo: build infrastruttura proprietaria. Google ha le TPU. Meta ha MTIA. Amazon ha Trainium. Tutti stanno costruendo hardware custom perché hanno capito: controllare l’hardware = controllare la potenza computazionale = controllare il futuro.

La Matematica Brutale della Synthetic Data Generation

Voglio essere più specifico su come funziona la synthetic data generation perché è il punto che distrugge definitivamente l’argomento della scarsità di token.

Per generare un dataset sintetico di qualità devi prima generare un sacco di sample, poi filtrare. Tipo così:

$$Q_{\text{dataset}} = \frac{1}{N} \sum_{i=1}^{N} Q(x_i) \cdot \mathbb{1}[Q(x_i) > \theta]$$

Dove $Q(x_i)$ è la qualità del sample i-esimo valutata da un reward model, e $\theta$ è la tua soglia di qualità minima.

Se solo il 10% dei sample supera la soglia, devi generarne 10x più del necessario. Se vuoi 1 milione di esempi di alta qualità, devi generarne 10 milioni e scartarne 9 milioni.

Calcolo richiesto: $N \times C_{\text{gen}} + N \times C_{\text{eval}}$ dove $C_{\text{gen}}$ è il costo di generare un sample e $C_{\text{eval}}$ è il costo di valutarlo.

E qui noti il pattern? Tutto è calcolo. Generazione: calcolo. Evaluation: calcolo. Filtering: calcolo.

Token umani necessari? Zero.

Puoi letteralmente generare trilioni di token sintetici se hai abbastanza potenza computazionale. Il limite non sono i dati disponibili. Il limite è quanto velocemente puoi generare, valutare e filtrare.

Perché È Positivo Che Non Esista un “AWS degli LLM”

C’è una cosa bellissima nell’ecosistema attuale degli LLM: non c’è un monopolio.

OpenAI ha la sua infrastruttura. Anthropic ha la sua. Meta, Google, DeepSeek, Qwen, ognuno ha la propria. Nessuno controlla il chokepoint.

Confronta questo con cosa è successo con i database tradizionali. AWS ha dominato completamente. RDS, DynamoDB, Aurora. Tutti dipendono da AWS. E questo ha creato lock-in, ha rallentato l’innovazione, ha dato a un singolo player troppo potere.

Nell’AI questo non sta succedendo. E è fondamentale che rimanga così perché:

Primo: previene il lock-in. Nessuno può prenderti per le palle alzando i prezzi 10x da un giorno all’altro.

Secondo: incentiva l’innovazione. Se DeepSeek trova un modo per trainare il 40% più efficiente, Meta deve rispondere. Se OpenAI rilascia o3, Anthropic deve rilasciare Claude 4. È una gara che fa bene a tutti.

Terzo: diversifica il rischio. Se un singolo provider avesse problemi tecnici, metà dell’internet moderne si fermerebbe. Con l’ecosistema frammentato, c’è resilienza.

La frammentazione non è un bug, è una feature.

La Verità che Fa Male

Eccola, la conclusione che nessuno vuole sentire ma che è inevitabile quando guardi i dati:

I token non sono il collo di bottiglia primario. Non lo sono mai stati.

Le evidenze sono schiaccianti:

I trilioni di token disponibili hanno ridondanza informativa altissima. Poche epoche suggeriscono che più token non aiuterebbero comunque. La synthetic data può generare token infiniti se hai la potenza computazionale. AlphaZero ha dimostrato che puoi imparare senza dati umani con solo RL. OpenAI o3 mostra che investire risorse computazionali in inferenza funziona. La pipeline moderna va molto oltre il pretraining.

Il vero bottleneck è quanto velocemente puoi iterare. Quanto velocemente puoi provare nuove idee, validare ipotesi, testare architetture.

E questo dipende interamente dalla potenza computazionale disponibile e dall’efficienza con cui la usi.

Le organizzazioni che vinceranno la race degli LLM saranno quelle che hanno più potenza computazionale, la usano più efficientemente, iterano più velocemente, e bilanciano ottimalmente le varie fasi del training.

Non quelle che hanno scaricato più TB di Reddit.

Il Messaggio di Ottimismo Finale

La cosa bella di questa conclusione è che è ottimistica.

Non siamo limitati dai dati. L’hardware continua a migliorare esponenzialmente. Le efficiency innovations emergono continuamente. Abbiamo margini enormi di ottimizzazione ancora da esplorare.

Il progresso degli LLM non sta rallentando perché “abbiamo finito Wikipedia”. Sta accelerando perché stiamo imparando a usare meglio la potenza computazionale.

La domanda vera non è “quando finiremo i token?” ma “quanto velocemente possiamo raddoppiare la potenza computazionale disponibile e dimezzare il tempo di iterazione?”

Quella è la vera race. E ragazzi, siamo solo all’inizio.

Quindi la prossima volta che senti qualcuno dire “abbiamo finito i dati”, sorridi e pensa: no, abbiamo finito le scuse per non investire in infrastruttura computazionale seria.

Il futuro dell’AI non si scrive scaricando più internet. Si scrive costruendo data center più veloci, algoritmi più efficienti, e pipeline più ottimizzate.

E francamente? È molto più eccitante.

Fonti principali:

E tu, da che parte stai nel dibattito Token vs GPU? Credi che la synthetic data possa davvero sostituire i dati umani? Dimmi cosa ne pensi nei commenti!