DeepSeek V4: quando gli incubi di NVIDIA diventano realtà (e non è necessariamente un male)

Lo ammetto: ci sono rimasto di stucco.
Ho iniziato a usare DeepSeek V4 qualche giorno fa, un po’ per curiosità e un po’ perché i costi delle API dei soliti noti stavano diventando una voce di bilancio degna di nota. E dopo qualche giorno di test su task reali — analisi di codice, riassunti di documenti lunghi, generazione di contenuti, debugging — posso dirvi che il modello funziona benissimo. Non “bene per essere cinese” o “bene per il prezzo”. Bene e basta.
Ma la cosa più interessante non è solo la qualità. È quello che c’è sotto: un’architettura progettata per fare tanto con poco, che ha già fatto tremare i polsi a qualcuno a Santa Clara, California.
Parliamo di NVIDIA.
DeepSeek V4: non è un aggiornamento, è una riprogettazione
La prima cosa da capire su V4 è che non si tratta di un semplice “abbiamo aggiunto qualche layer e cambiato il numero”. DeepSeek ha quasi interamente riprogettato l’architettura del modello. E il risultato è disponibile in due gusti:
- V4 Pro: il modello grosso. 1,6 trilioni di parametri totali, ma con soli 49 miliardi di parametri attivi per ogni token. Sì, hai letto bene: trilioni.
- V4 Flash: il fratello snello. 284 miliardi di parametri totali, 13 miliardi attivi. Più leggero, più economico, sorprendentemente capace.
Se ti stai chiedendo “Ma cosa significa parametri totali vs parametri attivi?”, immagina il modello come una biblioteca enorme. I parametri totali sono tutti i libri sugli scaffali — tutta la conoscenza accumulata durante l’addestramento. I parametri attivi sono quelli che il bibliotecario effettivamente consulta per risponderti. Aprire tutti i libri ogni volta sarebbe lentissimo e costosissimo. DeepSeek invece ne apre solo una piccola selezione intelligente, grazie a un’architettura chiamata Mixture-of-Experts (MoE).
Risultato: consuma il 27% della potenza di calcolo della versione V3, e appena il 10% della memoria temporanea. Numeri da far venire un colpo a chi ha già ordinato un rack pieno di H100.
Il contesto da un milione di token: finalmente standard
Entrambe le versioni di V4 includono una finestra di contesto da 1 milione di token. Non è una feature premium, non è un’opzione a pagamento: è il default.
Per dare un’idea concreta, un milione di token corrispondono a circa 750.000 parole. L’intera trilogia del Signore degli Anelli ne conta circa 576.000. Puoi fargliela analizzare in un colpo solo, ancora con margine.
Ma la cosa che mi ha colpito davvero non è solo la dimensione della finestra. È che la qualità delle risposte regge anche quando il contesto è pieno fino all’orlo. Con molti modelli, alimentare un contesto enorme è un po’ come chiedere a qualcuno di ricordare un film intero dopo tre notti insonni: tecnicamente ci riesce, ma le risposte diventano vaghe, si perdono dettagli, emergono incongruenze. Con V4, grazie proprio al modo in cui CSA e HCA lavorano insieme (ci arriviamo tra poco), il modello mantiene una comprensione coerente sia del dettaglio che della visione d’insieme — anche quando stai analizzando un codebase da 80.000 righe o un documento da 400 pagine. Non è magia: è architettura ben progettata.
Per chi lavora con grandi basi di codice, documentazioni aziendali, contratti lunghi o report complessi, questo non è un dettaglio tecnico: è una svolta pratica.
Il trittico magico: CSA, HCA e MHC
Qui si fa interessante. DeepSeek V4 introduce tre innovazioni architetturali che spiegano come riesca a gestire contesti enormi senza esplodere in termini di costi computazionali.
CSA — Compressed Sparse Attention
Invece di analizzare ogni singolo token quando deve rispondere, il modello comprime le informazioni meno rilevanti e si concentra solo sugli elementi essenziali. È come se, invece di rileggere tutti i 50 capitoli di un libro per trovare il colore del cappello del protagonista, creasse prima dei riassunti dei vari capitoli, individuasse quello pertinente e solo allora tornasse a consultare le pagine davvero necessarie. In questo modo gran parte del testo non deve essere elaborata nel dettaglio a ogni passaggio, con un notevole risparmio di risorse computazionali.
HCA — Heavily Compressed Attention
Mentre CSA si occupa del dettaglio, HCA mantiene il senso generale. Immagina un secondo assistente che ha compresso l’intera trilogia del Signore degli Anelli in un racconto di dieci minuti, e lo tiene sempre in mente mentre cerca il dettaglio sul cappello. Così la risposta è accurata nel particolare e coerente con il tutto. Compressione fino a 128X del contesto globale. (Vi ricorda qualcosa di simile?)
MHC — Multi-head Constrained Hyper Connections
Questa tecnologia entra in gioco durante l’addestramento. In un modello molto profondo, il segnale che passa da un layer all’altro tende a degradarsi — come il classico telefono senza fili dove il messaggio arriva stravolto. MHC invia flussi paralleli e aggiunge un “controllore” a ogni passaggio per verificare che il segnale resti pulito. Senza questa tecnica, addestrare un modello con 1,6 trilioni di parametri sarebbe un disastro.
Le tre tecniche insieme permettono a V4 di fare cose che i competitor fanno solo con hardware enormemente più costoso.
I costi: qui la musica cambia davvero
Ok, veniamo al sodo. Quanto costa usare DeepSeek V4 rispetto agli altri?
Facciamo un confronto diretto sulle API (prezzi per milione di token):
| Modello | Input (no cache) | Output |
|---|---|---|
| DeepSeek V4 Pro | ~15% meno di Gemini 3.1 | ~4x meno di Gemini 3.1 |
| DeepSeek V4 Pro | ~50% meno di ChatGPT | ~10x meno di ChatGPT |
| DeepSeek V4 Pro | ~50% meno di Claude Opus | ~10x meno di Claude Opus |
| DeepSeek V4 Flash | quasi irrisorio | quasi irrisorio |
Sul lato input la differenza è già significativa. Ma sull’output — che è la parte costosa, perché generare token richiede molto più compute che elaborarli — la differenza diventa brutale. Dieci volte meno di ChatGPT e Claude Opus è una cosa che cambia i conti in tasca a qualsiasi sviluppatore o azienda che usa le API in modo intensivo.
E poi c’è il caching: quando fai più richieste sullo stesso contesto (per esempio, analisi diverse sullo stesso documento), il costo scende ulteriormente perché il modello non rielabora tutto da zero ogni volta. Come un bibliotecario che si è già preparato i post-it sui capitoli: dalla seconda domanda in poi è molto più veloce.
Il tutto con licenza MIT open source, che significa: puoi scaricarlo, modificarlo, integrarlo nei tuoi prodotti commerciali, con pochissimi vincoli.
Il colpo di scena: Huawei Ascend e l’incubo di NVIDIA
E qui arriviamo al punto che ha fatto notizia in tutto il mondo tech. O almeno nei circoli dove si legge roba interessante.
Per la prima volta nella sua storia, DeepSeek ha citato nel suo report tecnico ufficiale i chip Huawei Ascend 950 e le GPU NVIDIA nella stessa lista, come piattaforme hardware equivalenti.
V4 è stato progettato fin dall’inizio per girare nativamente sui chip Ascend 950. Huawei, poche ore dopo il lancio, ha confermato che i suoi supernodi supportavano già completamente i modelli V4. E soprattutto: una parte dell’addestramento della versione Flash è stata fatta proprio sui chip Ascend.
Questo è il punto che preoccupa Jensen Huang.
Per anni, chiunque volesse fare AI seria era costretto a usare hardware americano, perché CUDA — l’ecosistema software di NVIDIA — era l’unico framework maturo per l’addestramento su larga scala. Non c’era alternativa praticabile, specialmente per le aziende cinesi già soggette alle restrizioni all’export americane.
Adesso, con V4 e Ascend 950, DeepSeek e Huawei stanno dimostrando che l’alternativa esiste. Ed è già in produzione.
“Ma i chip Huawei sono inferiori!” — Sì, ma hai letto bene il paragrafo sopra?
Un singolo Ascend 950 è meno potente di una GPU B300 di NVIDIA. Quanto? Una B300 in FP4 vale circa 7-8 Ascend 950 messi insieme.
E allora qual è il punto?
Il punto è che DeepSeek, grazie a CSA, HCA e MHC, ottimizza ogni singolo FLOPS di quegli Ascend meno potenti in modo così efficiente da compensare lo svantaggio hardware. Il risultato è che far girare V4 Flash su hardware Huawei costa fino al 60% in meno rispetto a un sistema NVIDIA equivalente.
Sessanta percento. Ripetilo piano.
Per la stragrande maggioranza delle applicazioni reali — dove non ti serve il modello più potente in assoluto, ma un modello affidabile e veloce — questa equazione è già stata risolta.
Il circolo virtuoso (per la Cina) e vizioso (per NVIDIA)
Dopo il lancio, ByteDance (la casa madre di TikTok), Alibaba e Tencent si sono fiondati ad ordinare Ascend 950 da Huawei in quantità industriali.
Più aziende usano gli Ascend, più si sviluppa l’ecosistema software CANN (l’equivalente cinese di CUDA), più sviluppatori imparano a usarlo, più il sistema migliora e attira nuovi talenti. Un ciclo che si autoalimenta.
Per NVIDIA, questo significa potenzialmente perdere una fetta importante del mercato cinese — che era miliardaria. Non domani, non in modo immediato. Ma la direzione è quella.
Cosa significa per noi sviluppatori
Concretamente, per chi come me lavora con le API degli LLM tutti i giorni, DeepSeek V4 è già una scelta seria da valutare:
- Progetti con budget limitato: la versione Flash è quasi gratuita in confronto ai competitor, e fa già un lavoro eccellente su task standard.
- Analisi di documenti lunghi: il contesto da un milione di token non è marketing, funziona davvero.
- Self-hosting: la licenza MIT ti permette di deployarlo sui tuoi server. Zero dipendenza da provider esterni, zero dati che vanno in giro.
- Integrazione commerciale: puoi usarlo nei tuoi prodotti senza royalty, con vincoli minimi.
Non è il modello più potente in assoluto — su benchmark ultra-specialistici, GPT-5.5 e Claude Opus 4.7 restano davanti. Ma per il 90% dei casi d’uso reali, V4 offre prestazioni eccellenti a una frazione del costo.
Conclusione
DeepSeek V4 non è solo un buon modello AI. È una dimostrazione concreta che l’efficienza algormica può compensare lo svantaggio hardware, che il monopolio di NVIDIA sull’ecosistema AI non è eterno, e che la concorrenza — quella vera — fa bene ai prezzi.
Dopo qualche giorno di utilizzo, il mio portafoglio è d’accordo con me.
E Jensen Huang probabilmente un po’ meno.