Medaglia d’oro olimpica in matematica per DeepSeekMath-V2
L’azienda cinese DeepSeek ha introdotto un nuovo modello specializzato per la risoluzione di problemi matematici, DeepSeekMath-V2. Si tratta di un modello linguistico su larga scala, pensato appositamente per la dimostrazione di teoremi e per i problemi olimpici, la cui principale caratteristica distintiva è che non si limita a produrre risposte, ma verifica anche la correttezza del proprio ragionamento.
DeepSeekMath-V2 risponde essenzialmente a una domanda di vecchia nell’intelligenza artificiale: come garantire che un modello sia arrivato alla soluzione corretta in modo equo, anziché indovinare il risultato o trovare una scorciatoia ma sbagliata. La maggior parte dei modelli moderni è addestrata a giungere più frequentemente alla risposta finale corretta, per la quale vengono premiati con un sistema di ricompensa simile all’apprendimento per rinforzo.
Ma in matematica, questo non è sufficiente: in molti problemi, la risposta in sé non è importante quanto una dimostrazione rigorosa e trasparente. Gli autori affermano esplicitamente che un risultato finale esatto non garantisce la correttezza del ragionamento e, per i teoremi, non esiste un “numero corretto” preimpostato da verificare.
DeepSeekMath-V2 è basato sulla base sperimentale DeepSeek-V3.2-Exp-Base. Il team addestra un modello di verifica separato che valuta le dimostrazioni matematiche, ricercando lacune logiche ed errori passo dopo passo, e quindi utilizza questo verificatore come “giudice” per il modello principale del generatore di dimostrazioni.
Il generatore riceve una ricompensa non solo per la risposta finale corretta, ma anche per la capacità del suo ragionamento di superare un rigoroso test di convalida. Se il test fallisce, il modello viene premiato per aver tentato di identificare autonomamente i punti deboli della sua soluzione e di riscrivere la dimostrazione in modo che superi il test di convalida.
Per evitare che il sistema si blocchi quando il generatore diventa più intelligente del verificatore, gli sviluppatori scalano separatamente le risorse di calcolo per il verificatore. Il verificatore impara da esempi sempre più complessi e difficili da verificare, generati dal modello stesso man mano che le sue capacità aumentano. Questo ciclo chiuso di “generazione, verifica e miglioramento del verificatore” aiuta a colmare il divario di competenze tra le due parti del sistema e a preservare la sua capacità di autocorreggersi.
I risultati sono impressionanti. In un post su GitHub, il team afferma che DeepSeekMath-V2 ha ottenuto l’oro alle Olimpiadi Internazionali di Matematica del 2025 e alle Olimpiadi Cinesi di Matematica del 2024, e alla Putnam Mathematical Competition del 2024, il modello ha ottenuto 118 punti su 120 utilizzando il calcolo scalabile nella fase di soluzione.
Nel benchmark specializzato IMO-ProofBench, sviluppato dal team Google DeepMind per il proprio modello Gemini DeepThink, DeepSeekMath-V2, secondo un’analisi tecnica indipendente, supera DeepThink nei test di base.
I report informali sui punteggi pubblicati da ricercatori e appassionati forniscono dati più specifici: DeepSeekMath-V2 ottiene un punteggio di circa il 99% nella parte base di IMO-ProofBench e del 61,9% in quella avanzata. Lo stesso report afferma che questo risultato è superiore alle prestazioni dei modelli GPT-5 e Gemini in questo set di compiti, sebbene non si tratti di una classifica ufficiale, bensì di un confronto tra singoli test.
Un altro punto importante per la comunità: DeepSeekMath-V2 viene pubblicizzato come la prima intelligenza artificiale matematica open source a raggiungere prestazioni di livello gold su problemi di livello IMO. La notizia è già stata riportata su forum specializzati, dove vengono pubblicati link al documento e ai pesi del modello.
Il modello è disponibile su GitHub e Hugging Face. Il repository è ospitato su Apache 2.0 e i modelli stessi sono concessi in licenza con una licenza separata che ne regola l’uso, incluso l’uso commerciale. Il lancio e la natura open source di DeepSeekMath-V2 sono ulteriormente annunciati in blog specializzati e post sui social media, sottolineando che i pesi possono essere scaricati liberamente ed eseguiti sul proprio hardware, nel rispetto dei termini della licenza del modello.
Per ora, DeepSeekMath-V2 rimane un esempio altamente specializzato, ma altamente esemplificativo di come l’intelligenza artificiale stia spostando la sua attenzione dall'”indovinare la risposta corretta” al controllo del processo di pensiero del modello. E la risposta entusiasta a questo nuovo prodotto da parte di sviluppatori, ricercatori e appassionati di competizioni matematiche dimostra che la corsa è ora aperta non solo per l’intelligenza generale, ma anche per la qualità e la verificabilità del ragionamento.
L'articolo Medaglia d’oro olimpica in matematica per DeepSeekMath-V2 proviene da Red Hot Cyber.