Reinforcement learning e ragionamento: la svolta di DeepSeek-R1

Il nuovo modello open source DeepSeek-R1 dimostra che il ragionamento dei Large Language Models può emergere attraverso il solo reinforcement learning, riducendo la dipendenza dall’intervento umano e migliorando le prestazioni in matematica, coding e problemi complessi di ambito STEM

L’insegnamento del ragionamento alle intelligenze artificiali è sempre stato una delle sfide più complesse. Fino ad oggi, i Large Language Models (LLM) hanno mostrato capacità emergenti di ragionamento solo grazie a massicce risorse computazionali e a interventi umani mirati, come i chain-of-thought prompts (“pensiamo passo per passo”), che spingono il modello a esplicitare passaggi intermedi nelle proprie risposte. Questo approccio, tuttavia, richiede grandi quantità di dati annotati manualmente, introduce bias cognitivi e limita la scalabilità.

Il nuovo studio, pubblicato su Nature da Zhen Zhang, Wenfeng Liang e colleghi del team DeepSeek, propone invece un approccio radicalmente diverso: incentivare il ragionamento dei modelli attraverso il reinforcement learning puro (RL), senza la necessità di traiettorie di ragionamento predefinite da esseri umani.

DeepSeek-R1-Zero: l’emergere spontaneo del ragionamento

Il primo prototipo, denominato DeepSeek-R1-Zero, è stato addestrato direttamente con RL a partire dalla base DeepSeek-V3, senza la consueta fase di supervised fine-tuning. Durante il training, al modello veniva chiesto di generare un ragionamento racchiuso tra tag dedicati <think> e un risultato finale <answer>. Il sistema riceveva una ricompensa solo in base alla correttezza della risposta, senza alcuna indicazione su come strutturare il ragionamento.

I risultati sono stati sorprendenti:

  • Sul benchmark matematico AIME 2024, la precisione è passata dal 15,6% iniziale al 77,9%, superando la media dei partecipanti umani. Con tecniche di decodifica avanzata, il punteggio è salito fino all’86,7%.
  • Il modello ha mostrato comportamenti emergenti di auto-riflessione, come l’uso crescente di espressioni del tipo “wait” per riconsiderare i passaggi precedenti: un vero e proprio “momento aha” osservato durante l’addestramento.
  • Le prestazioni si sono estese anche a competizioni di programmazione e a problemi universitari di biologia, fisica e chimica.

Questi risultati confermano che l’RL può indurre nei LLM strategie di ragionamento più sofisticate di quelle imitate da esempi umani.

Dalla sperimentazione al modello finale: DeepSeek-R1

Nonostante le performance elevate, DeepSeek-R1-Zero soffriva di limiti importanti: mescolava inglese e cinese nello stesso ragionamento e mostrava scarsa leggibilità. Per questo i ricercatori hanno sviluppato DeepSeek-R1, attraverso una pipeline multistadio che combina:

  • Cold-start data per allineare il modello a uno stile conversazionale più naturale.
  • Reinforcement learning con vincoli di coerenza linguistica.
  • Supervised fine-tuning su dataset sia di ragionamento che non di ragionamento.

Un ulteriore stadio di RL mirato alla sicurezza e all’allineamento con le preferenze umane. Il risultato è un modello che mantiene le straordinarie capacità di ragionamento del predecessore, ma con miglioramenti in scrittura, comprensibilità e capacità generali. Nei benchmark di riferimento, DeepSeek-R1 ha raggiunto punteggi record, ad esempio:

  • MATH-500: 97,3%
  • Codeforces (rating): 2029
  • AlpacaEval 2.0: +25% rispetto alle versioni intermedie.

Limiti e prospettive future

Nonostante i successi, DeepSeek-R1 non è privo di limitazioni:

  • Mixing linguistico: è ottimizzato solo per inglese e cinese, con difficoltà nelle altre lingue.
  • Sensibilità ai prompt: il modello rende meglio in configurazione zero-shot che in few-shot.
  • Compiti di ingegneria del software: i progressi sono stati minimi, a causa dei tempi di valutazione troppo lunghi per essere compatibili con l’RL su larga scala.
  • Efficienza dei token: tende a “pensare troppo” anche su problemi semplici.

Gli autori riconoscono inoltre rischi etici non trascurabili: la maggiore capacità di ragionamento può facilitare attacchi di jailbreak e l’elaborazione di contenuti pericolosi. Per questo sottolineano la necessità di sistemi di controllo e modelli di reward affidabili, soprattutto per compiti difficilmente verificabili come la scrittura.

Una nuova frontiera dell’IA

Lo studio su DeepSeek-R1 segna un passo decisivo nell’evoluzione dell’intelligenza artificiale: mostra che il ragionamento complesso non deve per forza essere insegnato dagli umani, ma può emergere come comportamento spontaneo se incentivato da un quadro di ricompense ben progettato.

In prospettiva, ciò apre la strada a modelli più autonomi, capaci di sviluppare strategie di problem solving non necessariamente umane, e pone interrogativi cruciali sull’uso responsabile di sistemi in grado di superare l’intelligenza umana in compiti ben definiti.