Claude Sonnet 3.7 Sonnet: La Rivoluzione del Reasoning (Extended)

Qualche tempo fa avevo messo da parte un progetto che richiedeva l’integrazione con un vecchio sistema di autenticazione (ma davvero molto vecchio), non modificabile perché già utilizzato centinaia di migliaia di utenti. Il problema? Non avevo documentazione, gli sviluppatori originali erano irraggiungibili e semplicemente non avevo il tempo di fare reverse engineering del sistema di hashing delle password. Così quel progetto è finito nel “cassetto delle cose da fare quando avrò tempo” - quel cassetto che sappiamo tutti essere il cimitero dei progetti interessanti.

Poi Anthropic ha rilasciato Claude Sonnet 3.7 Sonnet con la sua nuova funzionalità di “Extended Reasoning”. Per testarlo, ho pensato di ripescare quel vecchio progetto abbandonato: se dovevo mettere alla prova le capacità di ragionamento di un’IA, quale sfida migliore di un oscuro algoritmo di hashing senza documentazione?

Il risultato? In poco più di 30 minuti, Claude Sonnet 3.7 è riuscito a ricostruire esattamente i parametri dell’algoritmo che mi avrebbero richiesto giorni di tentativi ed errori. Questa è la storia di come un’IA con capacità di ragionamento avanzate ha resuscitato un progetto che pensavo fosse destinato all’oblio.

Dettagli (Ma Non Troppi) sul Test Effettuato

Ho fornito a Claude Sonnet 3.7 tutto ciò che avevo: alcuni esempi di record dal database, la struttura della tabella, frammenti di codice PHP del vecchio sistema che ero riuscito a recuperare, e la nuova implementazione in TypeScript su cui stavo lavorando.

La differenza rispetto ai modelli precedenti è stata immediatamente evidente.

Mentre le versioni precedenti fornivano congetture superficiali o semplicemente fallivano, Claude Sonnet 3.7 ha iniziato un’analisi metodica, ragionando passo dopo passo attraverso le informazioni disponibili. Ha esaminato la struttura della tabella, analizzato i frammenti di codice PHP, e ha fatto collegamenti che erano sfuggiti sia a me che ad altri modelli AI.

Il modello ha identificato il sistema specifico di hashing utilizzato, compreso l’algoritmo, il numero di iterazioni e il formato dell’output. Cosa ancora più impressionante, ha spiegato in dettaglio perché questo era l’unico approccio che avrebbe funzionato, escludendo logicamente le altre possibilità.

Sulla base di questa analisi, ha proposto una soluzione completa in TypeScript che, incredibilmente, ha funzionato al primo tentativo! L’autenticazione funzionava perfettamente, mantenendo la compatibilità con le password esistenti.

Confronto con Tentativi Fatti in Passato

Quando il problema dell’autenticazione mi stava facendo impazzire, ho provato vari modelli: DeepSeek V3, OpenAI o3-mini high e il solito Claude Sonnet. Nessuno di questi è stato in grado di identificare correttamente il sistema di hashing delle password. Riuscivano a riconoscere che si trattava di un sistema basato su pbkdf2, ma i parametri esatti (numero di iterazioni, dimensione dell’output, algoritmo) rimanevano un mistero.

Extended Reasoning: La Vera Innovazione di Claude Sonnet 3.7

La nuova modalità “Extended Reasoning” di Claude Sonnet 3.7 rappresenta un vero cambio di paradigma nel modo in cui l’IA affronta problemi complessi. Secondo l’annuncio ufficiale di Anthropic, Claude Sonnet 3.7 Sonnet è “il primo modello di ragionamento ibrido sul mercato” che può produrre sia risposte immediate sia un ragionamento esteso, passo dopo passo, che viene reso visibile all’utente.

Ciò che rende questo approccio particolarmente interessante è la filosofia sottostante: Anthropic crede che il ragionamento debba essere una capacità integrata dei modelli avanzati piuttosto che un modello separato. Proprio come gli esseri umani usano un unico cervello sia per risposte rapide che per riflessioni profonde.

In pratica, questo significa che Claude Sonnet 3.7 Sonnet può funzionare in due modalità:

La modalità standard, dove risponde rapidamente come i precedenti modelli
La modalità di “extended thinking”, dove riflette su se stesso prima di rispondere (ma consuma più token)

Questo approccio unificato crea un’esperienza più fluida per gli utenti e, cosa più importante, migliora significativamente le prestazioni su attività come matematica, fisica, esecuzione di istruzioni e programmazione.

Particolarmente interessante per gli sviluppatori API è la possibilità di controllare con precisione il “budget di pensiero”: puoi dire a Claude di pensare per non più di N token, fino al suo limite di output di 128K token. Questo ti permette di bilanciare velocità (e costo) con la qualità della risposta.

Prestazioni Eccezionali nel Coding

Claude Sonnet 3.7 performance TAU-bench

Secondo i test iniziali riportati da Anthropic, Claude Sonnet 3.7 Sonnet ha dimostrato prestazioni straordinarie nelle attività di programmazione. Diverse aziende di spicco nel settore hanno evidenziato le capacità del modello:

Cursor ha notato che Claude è nuovamente “best-in-class” per attività di coding del mondo reale, con miglioramenti significativi in aree che vanno dalla gestione di codebase complessi all’uso avanzato di strumenti.
Cognition lo ha trovato molto superiore a qualsiasi altro modello nella pianificazione delle modifiche al codice e nella gestione di aggiornamenti full-stack.
Vercel ha evidenziato la precisione eccezionale di Claude per workflow di agenti complessi.
Replit ha utilizzato con successo Claude per costruire app web sofisticate e dashboard da zero, dove altri modelli si bloccano.
Nelle valutazioni di Canva, Claude ha costantemente prodotto codice pronto per la produzione con gusto estetico superiore e drasticamente meno errori.

Questi risultati sono coerenti con la mia esperienza personale. L’analisi del sistema di autenticazione che ho sottoposto a Claude Sonnet 3.7 avrebbe richiesto ore di lavoro manuale e diverse iterazioni di tentativi ed errori. Claude è stato in grado di risolverlo in un’unica sessione, producendo una soluzione funzionante al primo tentativo.

I Costi e l’Accessibilità di Claude Sonnet 3.7 Sonnet

Un aspetto notevole di questa innovazione è la sua accessibilità. Secondo l’annuncio ufficiale, Claude Sonnet 3.7 Sonnet è disponibile su tutti i piani Claude - inclusi Free, Pro, Team ed Enterprise - oltre che tramite Anthropic API, Amazon Bedrock e Google Cloud Vertex AI. L’unica restrizione è che la modalità di extended thinking non è disponibile nel piano gratuito di Claude.

Per quanto riguarda i costi, Anthropic ha mantenuto lo stesso pricing dei modelli precedenti: $3 per milione di token in input e $15 per milione di token in output, che includono anche i token utilizzati per il “pensiero” esteso. Questo significa che non c’è un sovrapprezzo per utilizzare la modalità di ragionamento avanzato, a parte il naturale aumento dei token di output dovuto al processo di pensiero visibile.

È interessante notare che, secondo Anthropic, nello sviluppo dei loro modelli di ragionamento hanno ottimizzato meno per problemi di competizione matematica e informatica, concentrandosi invece su attività del mondo reale che riflettono meglio come le aziende utilizzano effettivamente i LLM. Questo approccio pragmatico si riflette nelle prestazioni eccezionali di Claude Sonnet 3.7 Sonnet su benchmark come SWE-bench Verified e TAU-bench, che valutano la capacità dei modelli AI di risolvere problemi software reali (dobbiamo risolvere problemi non vincere le inutili olimpiadi di coding!).

Claude Code: L’Assistente di Programmazione Agentico

Claude code

Anthropic ha annunciato Claude Code, un assistente AI agentico per la programmazione disponibile in anteprima limitata. A differenza dei tradizionali strumenti AI, non si limita a suggerire codice, ma può leggere, modificare, testare ed eseguire codice, interagendo direttamente con il mio ambiente di sviluppo, compreso GitHub e la riga di comando.

Secondo quanto dichiarato da Anthropic, Claude Code è particolarmente utile per il test-driven development, il debugging e il refactoring su larga scala, riducendo significativamente i tempi di sviluppo. In alcuni casi, è riuscito a completare in un solo passaggio attività che normalmente richiederebbero oltre 45 minuti di lavoro manuale.

Anche se non ho ancora avuto modo di provarlo personalmente, sono molto curioso di vedere come potrebbe integrarsi nel mio workflow. L’idea di avere un assistente AI che non solo ragiona sul codice, ma esegue anche azioni concrete, è decisamente affascinante.

Extended Reasoning: Non Solo per il Reverse Engineering

Mentre il reverse engineering è stato il mio primo caso d’uso per testare le capacità di Extended Reasoning di Claude Sonnet 3.7, ho rapidamente scoperto che questa modalità brilla in molti altri scenari di sviluppo software.

Refactoring Guidato

Ho provato a chiedere a Claude Sonnet 3.7 di analizzare una sezione del mio codice che funzionava ma era diventata troppo complessa e difficile da mantenere. Usando Extended Reasoning, Claude non solo ha suggerito un approccio di refactoring, ma ha spiegato dettagliatamente il ragionamento dietro ogni modifica proposta, considerando aspetti come:

L’impatto sulla leggibilità del codice
Le potenziali implicazioni per le performance
I possibili edge case che il refactoring potrebbe introdurre
Il bilanciamento tra eleganza del codice e praticità implementativa

Questo livello di analisi va ben oltre il semplice “ecco come potresti riscrivere questo”. È un vero e proprio processo di design collaborativo, dove l’IA ragiona insieme a te per trovare la soluzione migliore.

Analisi di Sicurezza

Un altro caso d’uso impressionante è stata l’analisi di sicurezza. Ho chiesto a Claude Sonnet 3.7 di esaminare la mia implementazione di autenticazione, concentrandosi sulle potenziali vulnerabilità di sicurezza.

Il suo Extended Reasoning ha brillato particolarmente in questo scenario, identificando vulnerabilità sottili che altri strumenti avrebbero probabilmente mancato. Non si è limitato a citare le solite “best practice” generiche, ma ha realmente ragionato su come le diverse parti del sistema interagiscono e dove potrebbero emergere problemi di sicurezza.

Per esempio, ha notato potenziali vulnerabilità nel mio sistema di gestione token JWT e ha suggerito implementazioni per migliorare la sicurezza, come l’aggiunta di identificatori unici per i token e meccanismi per revocarli quando necessario.

Ottimizzazione delle Performance

Ho testato questo aspetto su un’app che utilizza un’IA per l’analisi RAG di documenti, simile al progetto Doc Analyzer di cui ho parlato in altri post. Dopo aver implementato il refactoring suggerito, i risultati sono stati sorprendenti: l’elaborazione e la successiva analisi del documento sono passate da circa 60 secondi a soli 40 secondi - un miglioramento del 33%!

Da Assistente a Potenziale Collaboratore

Il salto qualitativo più evidente che intravedo è il passaggio da un modello di “assistente” a uno di “collaboratore”. Le versioni precedenti di Claude (e di altri LLM) erano ottime per compiti specifici e ben definiti: “scrivi una funzione che fa X” o “spiega come funziona Y”.

Ma con Extended Reasoning, Claude Sonnet 3.7 sembra poter diventare un vero e proprio collaboratore nel processo di pensiero. Posso condividere un problema complesso e vederlo ragionare attraverso di esso, offrendo prospettive che potrebbero non essermi venute in mente

Debugging Preemptivo

Un’applicazione che trovo particolarmente promettente è quella che chiamerei debugging “preemptivo” (non è mia intenzione creare neologismi stile “petaloso”, ma davvero non trovo il termine in Italiano). Prima di integrare nuovo codice nel sistema, potrei passarlo a Claude Sonnet 3.7 in modalità Extended Reasoning e chiedergli di identificare potenziali problemi o edge case che potrei aver trascurato.

Questo approccio potrebbe ridurre significativamente il numero di bug che entrano nel sistema in primo luogo. Sarebbe come avere un sistema di revisione del codice continuo e proattivo, che identifica i problemi prima che diventino reali.

Confronto con Altri Modelli aggiornato al 02/2025

Nel panorama attuale, abbiamo diversi modelli potenti tra cui scegliere. Ecco un confronto tra Claude Sonnet 3.7 Sonnet con gli altri pesi massimi.

Claude Sonnet 3.7 vs. OpenAI o3-mini high

OpenAI ha fatto progressi significativi con il suo modello o3-mini high, offrendo un eccellente equilibrio tra prestazioni e costo. Tuttavia, quando si tratta di reasoning profondo su problemi di codice complessi, c’è ancora un divario notevole.

Nel mio test con il sistema di autenticazione, o3-mini high ha fatto ipotesi plausibili ma non è riuscito a collegare tutti i puntini per arrivare alla soluzione corretta. Ha suggerito metodi di hashing comuni ma senza arrivare ai parametri specifici necessari, e il suo processo di ragionamento era molto meno trasparente e strutturato.

Dove o3-mini high brilla ancora è nella velocità e nell’efficienza per compiti più semplici. Se hai bisogno di una risposta rapida per una domanda diretta, può essere l’opzione migliore. Ma per il deep reasoning, Claude Sonnet 3.7 è in vantaggio.

Claude Sonnet 3.7 vs. DeepSeek V3

DeepSeek V3 è un altro forte contendente, particolarmente impressionante per la sua conoscenza del codice open source. È addestrato su un’enorme quantità di codice e può richiamare soluzioni da repository poco conosciuti ma rilevanti.

Tuttavia, anche DeepSeek V3 ha faticato con il mio test di reverse engineering. Ha riconosciuto il pattern generale ma non è riuscito a dedurre i parametri esatti necessari per replicare il sistema di autenticazione. Il suo ragionamento non era né così metodico né così approfondito come quello di Claude Sonnet 3.7.

Dove DeepSeek V3 eccelle è nella comprensione di codebases specifici e nell’offrire soluzioni basate su implementazioni esistenti.

Il Vincitore per il Ragionamento Profondo

Se devo scegliere un vincitore assoluto per il deep reasoning sul codice in questo momento, Claude Sonnet 3.7 Sonnet si aggiudica facilmente la corona. La combinazione di trasparenza nel processo di pensiero, profondità di analisi e precisione nelle conclusioni lo pone in una classe a sé.

Questo non significa che sia sempre la scelta migliore per ogni scenario - gli altri modelli hanno i loro punti di forza e potrebbero essere più adatti per compiti specifici.

Conclusione: Prime Impressioni Promettenti

Dopo questa breve ma intensa sessione con Claude Sonnet 3.7 Sonnet e la sua nuova modalità Extended Reasoning, le mie prime impressioni sono decisamente positive. In poche ore dal rilascio, ho potuto risolvere un problema che aveva bloccato un mio progetto, e ho intravisto il potenziale di questo strumento per il futuro del mio lavoro di sviluppo.

Ovviamente, è ancora presto per trarre conclusioni definitive. Sarà necessario utilizzare Claude Sonnet 3.7 su più progetti e in situazioni diverse per valutarne pienamente le capacità e i limiti. Ma se questa prima esperienza è indicativa, Anthropic ha fatto un passo significativo nella direzione giusta.

Ciò che mi ha colpito particolarmente non è solo la capacità di risolvere problemi complessi, ma la trasparenza del processo di ragionamento. Vedere come Claude Sonnet 3.7 affronta un problema, passo dopo passo, offre valore non solo nella soluzione finale ma anche nel percorso che porta ad essa.

Nei prossimi mesi, sono curioso di esplorare più a fondo sia Claude Sonnet 3.7 Sonnet che Claude Code, per vedere come questi strumenti si integreranno nel mio workflow quotidiano e quanto effettivamente miglioreranno la mia produttività e la qualità del mio lavoro.

Se siete sviluppatori e avete l’opportunità di provare Claude Sonnet 3.7 Sonnet, vi consiglio vivamente di farlo. Prendete quel problema complesso che avete accantonato, quel bug elusivo che vi ha fatto impazzire, o quel sistema legacy che non riuscite a decifrare, e mettetelo alla prova. Potreste rimanere sorpresi dai risultati.

P.S. Mentre finisco di scrivere questo post, non posso fare a meno di pensare a quanti altri progetti “dimenticati” potrei ripescare dal cassetto per metterli alla prova con Claude Sonnet 3.7. La tecnologia avanza rapidamente, e ciò che sembrava troppo complesso o dispendioso in termini di tempo solo ieri, oggi potrebbe essere risolto in pochi minuti con gli strumenti giusti.