Modelli di ragionamento

Modelli di Ragionamento: funzionamento, peculiarità e tecniche di prompting

Scopri i Modelli di Ragionamento: l'AI che pensa come noi

By Max
16 Min Read
Modelli di ragionamento

#The Sunday Prompt #51 – 9/03/2025

Ben ritrovati!

Dopo questa lunga pausa, in cui sono successe moltissime cose nel settore dell’AI e, soprattutto nella GenAI, non potevamo fare a meno di parlare dei nuovi modelli specializzati nel ragionamento come DeepSeek R1 e GPT-o1/o3 e altri che sono stati rilasciati in queste ultime settimane.

Cosa sono i Modelli di Ragionamento

I modelli di ragionamento rappresentano l’evoluzione più avanzata dei Large Language Models (LLM). A differenza dei tradizionali modelli di intelligenza artificiale generativa, che si limitano a generare testo basandosi su pattern statistici appresi durante l’addestramento, i modelli di ragionamento sono progettati per emulare i processi di pensiero umano, analizzando problemi complessi attraverso passaggi logici intermedi. Un motore di ragionamento è essenzialmente un sistema AI che imita il processo decisionale e le capacità di risoluzione dei problemi degli esseri umani sulla base di regole, logica e dati specifici.

Mentre i modelli linguistici tradizionali eccellono nella generazione di testo fluente, i modelli di ragionamento si distinguono per la loro capacità di “pensare” attraverso problemi complessi, suddividendoli in passaggi intermedi. Questo approccio migliora significativamente l’affidabilità dell’AI in compiti che richiedono di essere suddivisi in vari passi, come la programmazione, la matematica e l’analisi multimodale.

I modelli di ragionamento tendono ad emulare tre tipi principali di ragionamento umano: deduttivo (basato su fatti universalmente accettati), induttivo (che deriva conclusioni da esempi specifici) e abduttivo (che trae conclusioni probabili da informazioni incomplete). 

Ciò che rende unici questi modelli è la loro abilità di non limitarsi a rispondere a domande basate su dati preesistenti, ma di analizzare, dedurre e formulare soluzioni in modo autonomo, costruendo catene logiche che li rendono più affidabili in situazioni complesse.

Come funzionano: differenze tra i vari modelli di ragionamento

I modelli di ragionamento condividono l’obiettivo comune di migliorare le capacità deduttive dell’AI, ma differiscono significativamente nell’architettura e nelle metodologie utilizzate per raggiungere questo scopo.

Il meccanismo di base del ragionamento

Il funzionamento fondamentale dei modelli di ragionamento consiste nell’uso esplicito della catena di pensiero (chain-of-thought) per esplorare tutti i possibili percorsi prima di generare una risposta. Durante questo processo, verificano costantemente le loro risposte man mano che le producono, al fine di arrivare a conclusioni più accurate. E’ proprio questo meccanismo che li differenzia dai modelli tradizionali permettendo a questi modelli di affrontare problemi che richiedono ragionamento multi-step.Un aspetto fondamentale del funzionamento dei modelli di ragionamento è che producono due tipi di output: l’esposizione del ragionamento (il processo di pensiero) e l’output (la risposta finale). Entrambi questi output vengono conteggiati per i limiti di token e i costi associati al modello.


Differenze architetturali tra i principali modelli

Approccio di OpenAI (O1/O3)

I modelli o1 e o3 di OpenAI utilizzano un transformer ottimizzato attraverso il Reinforcement Learning from Human Feedback (RLHF). La loro innovazione principale non è una nuova architettura, ma l’aggiunta di un processo di ragionamento interno durante l’inferenza. Questi modelli sono caratterizzati da uno processo di ragionamento regolabile (basso, medio, alto) che permette di bilanciare la profondità dell’analisi con la velocità di risposta.

Architettura MoE di DeepSeek R1

A differenza di OpenAI, DeepSeek R1 utilizza un’architettura Mixture-of-Experts (MoE). Nonostante il conteggio complessivo dei parametri sia enorme (671 miliardi), solo una frazione (circa 37 miliardi) viene attivata grazie alla selezione svolta dagli “esperti”. In questo modo si ottiene maggior efficienza, e DeepSeek R1 eccelle particolarmente nella programmazione e nel debugging di codice.

Approccio multimodale di Google Gemini

Gemini 2.0 di Google utilizza un transformer simile a modelli come PaLM ma lo estende per elaborare nativamente più modalità (testo, immagini, audio). La sua formazione coinvolge dataset supervisionati di chain-of-thought e fine-tuning RL che gli insegna a “pensare ad alta voce”. La modalità Flash Thinking genera esplicitamente i passaggi di ragionamento intermedi durante il processo di costruzione dell’output.

Gemini non solo fornisce un ragionamento passo dopo passo, ma può anche chiamare strumenti esterni per migliorare l’accuratezza. La sua capacità multimodale lo rende adattabile a diversi domini, dall’analisi di grafici alla scrittura di codice.

Modelli open-source come QwQ e Sky-T1

QwQ di Alibaba è un modello da 32 miliardi di parametri ottimizzato per il ragionamento. Impiega una “riflessione” aggiuntiva per rivedere e perfezionare le risposte. Sky-T1, progettato come un “analogo open di GPT-O1”, distilla la conoscenza da QwQ. Con appena 17.000 esempi curati che si concentrano su matematica e programmazione, dimostra che un training mirato può produrre notevoli capacità di ragionamento anche con un dataset più piccoli.


Elenco dei principali modelli di ragionamento esistenti

OpenAI o1/o3

Il modello O1 di OpenAI, introdotto alla fine del 2024, ha segnato un punto di svolta nel campo dell’intelligenza artificiale generativa. Basato su un’architettura transformer di livello GPT-4 ma con la capacità di generare lunghe sequenze di ragionamento nascoste prima delle risposte finali. O3, il suo successore, ha ulteriormente ampliato queste capacità.

OpenAI ha anche introdotto o3-mini, una versione più leggera che permette agli utenti di selezionare tra diversi livelli di ragionamento (basso/medio/alto) per bilanciare velocità e accuratezza.

DeepSeek R1

DeepSeek R1 è un modello di ragionamento open-source rilasciato da DeepSeek. Si distingue per la sua architettura Mixture-of-Experts (MoE) con 671 miliardi di parametri distribuiti tra esperti. Il modello eccelle nella matematica e nella programmazione, raggiungendo prestazioni vicine ai migliori modelli chiusi. Una caratteristica unica è il suo stile di risposta più personale e creativo rispetto ai modelli di OpenAI più controllati.

Google Gemini 2.0 (Flash Thinking)

Gemini 2.0 Flash Thinking è l’entrata di Google DeepMind nel campo dei modelli di ragionamento ottimizzati. È essenzialmente una modalità specializzata del più ampio modello Gemini 2.0, che funziona come un motore di ragionamento che produce una catena di pensiero trasparente.

Una caratteristica principale di Gemini Flash è una finestra di contesto estremamente ampia: può gestire input fino a un milione di token, superando di gran lunga la maggior parte dei modelli. Inoltre, è multimodale, potendo interpretare immagini, diagrammi o possibilmente altri formati di dati oltre al testo.

QwQ (Alibaba)

QwQ è un modello open-source di “ragionamento con domande” dal team Qwen di Alibaba. È un modello transformer da 32 miliardi di parametri con una finestra di contesto fino a 32.000 token. Il modello è stato addestrato per uno stile di ragionamento deliberativo e auto-riflessivo, concentrandosi su problemi di matematica e programmazione.

QwQ genera un dialogo interno quando viene sollecitato con una domanda difficile, ponendosi domande ed esplorando possibili soluzioni. È stato uno dei primi modelli open a superare alcuni modelli proprietari in determinati benchmark matematici.


Dove trovarli, scaricarli e utilizzarli

L’accesso ai modelli di ragionamento varia significativamente a seconda che siano modelli proprietari o open-source. Ecco dove e come accedere ai principali modelli di ragionamento:

Modelli OpenAI (o1/o3)

I modelli di ragionamento di OpenAI sono accessibili principalmente attraverso l’interfaccia ChatGPT o tramite l’API di OpenAI. o3-mini è disponibile gratuitamente per gli utenti della versione gratuita di ChatGPT, mentre le versioni complete (o1-Pro, o3) sono generalmente riservate agli abbonati di ChatGPT Plus o ai clienti aziendali.

Per utilizzare O3-mini gratuitamente, è sufficiente visitare il sito di ChatGPT e selezionare il modello appropriato dall’interfaccia. 

Google Gemini

Gemini 2.0 Flash Thinking è disponibile come servizio cloud attraverso Google AI Studio (e Vertex AI) come modello sperimentale. Gli sviluppatori possono registrarsi per l’API Gemini o utilizzarlo tramite gli endpoint Google PaLM/Vertex AI1.

DeepSeek R1

DeepSeek R1 è open-source e ampiamente disponibile. I pesi del modello sono stati rilasciati con licenza MIT, il che significa che chiunque può scaricarli e utilizzarli. DeepSeek ha fornito accesso in multiple forme: tramite una chat web gratuita (così gli utenti possono provare R1 online facilmente) e attraverso un endpoint API.

L’unico fattore limitante è la sua dimensione: eseguire il modello MoE completo da 671 miliardi richiede una potenza di calcolo considerevole. Per affrontare questo problema, gli sviluppatori hanno anche rilasciato versioni distillate (modelli più piccoli che approssimano il comportamento di R1) che possono funzionare su macchine locali con molti meno requisiti computazionali.

Modelli Microsoft

Microsoft offre accesso ai suoi modelli di ragionamento principalmente attraverso la piattaforma Copilot, dove ha integrato il modello Think Deeper. Questi sono accessibili tramite abbonamento a Microsoft Copilot Pro (al costo di 22 euro/mese) che offre risposte e contenuti più rapidi anche durante i periodi di picco e l’utilizzo come soluzione integrata nei servizi Microsoft 365.

Modelli open-source come QwQ

I modelli open-source come QwQ di Alibaba sono generalmente disponibili per il download diretto dai repository dei loro creatori. Questi modelli possono essere eseguiti localmente se si dispone dell’hardware adeguato, o possono essere distribuiti su piattaforme cloud come i servizi di intelligenza artificiale.E’ inoltre possibile provare i modelli da Hugging Face che normalmente li integra nella piattaforma.


Strategie di prompting per i modelli di ragionamento

Per sfruttare al meglio le capacità dei modelli di ragionamento, è fondamentale adottare strategie di prompting adeguate, che possono variare significativamente a seconda del modello utilizzato.

Linee guida generali per modelli di ragionamento OpenAI

Secondo la documentazione ufficiale di OpenAI, i modelli di ragionamento come o1 e o3 funzionano meglio con prompt diretti e semplici. A differenza di altri LLM, alcune tecniche di prompt engineering comuni potrebbero non migliorare le prestazioni e talvolta potrebbero addirittura peggiorarle. Ecco le best practices consigliate:

  • Mantenere i prompt semplici e diretti: Questi modelli eccellono nella comprensione e risposta a istruzioni brevi e chiare.
  • Evitare prompt chain-of-thought: Poiché questi modelli eseguono il ragionamento internamente, sollecitarli a “pensare passo dopo passo” o “spiegare il tuo ragionamento” è superfluo e può interferire con il loro processo interno.
  • Utilizzare delimitatori per chiarezza: Utilizzare delimitatori come markdown, tag XML e titoli di sezione per indicare chiaramente parti distinte dell’input, aiutando il modello a interpretare correttamente diverse sezioni.
  • Provare prima l’approccio zero-shot: I modelli di ragionamento spesso non necessitano di esempi few-shot per produrre buoni risultati, quindi è consigliabile scrivere prompt zero-shot ossia senza esempi inizialmente.
  • Fornire linee guida specifiche: Se si desidera limitare la risposta del modello, è utile delineare esplicitamente tali vincoli nel prompt.
  • Essere molto specifici sull’obiettivo finale: Nelle istruzioni, cercare di fornire parametri molto specifici per definire l’obiettivo finale, e incoraggiare il modello a continuare a ragionare e iterare fino a soddisfare i criteri di raggiungimento di tale obiettivo.

Approcci alternativi per altri modelli di ragionamento
Per modelli come Gemini di Google o modelli open-source come DeepSeek R1 e QwQ, potrebbero essere efficaci strategie diverse:

  • Catena di pensiero (Chain-of-Thought): A differenza dei modelli OpenAI, alcuni modelli beneficiano esplicitamente di prompt che chiedono di “pensare passo dopo passo”. Questa tecnica forza il modello a impegnarsi in un ragionamento multi-passaggio, particolarmente utile per problemi matematici o logici complessi.
  • Assegnazione di ruoli: Assegnare un ruolo specifico al modello può migliorare la qualità delle risposte in determinati contesti. Ad esempio, “Se fossi un economista esperto, come risponderesti a questo problema?”.
  • Specificare il pubblico: Integrare il pubblico target nel prompt può aiutare a calibrare il livello di dettaglio e la terminologia utilizzata nella risposta.
  • Iterazione incorporata: Scomporre compiti complessi in una sequenza di prompt più semplici in una conversazione interattiva può portare a risultati migliori, soprattutto per problemi multi-step.
  • Chiedere al modello di spiegare il suo ragionamento: Per modelli come Gemini, richiedere esplicitamente di spiegare il ragionamento può portare a risposte più dettagliate e utili. Ad esempio, Google suggerisce che “quando chiedi al modello di spiegare il suo ragionamento, il modello risponde con i passaggi che utilizza per risolvere il problema“, migliorando sia la qualità che la trasparenza della risposta.

Adattamento delle strategie di prompting nell’era del reasoning

Con l’evoluzione dei modelli di ragionamento, è necessario adattare le strategie di prompting:

  1. Passaggio dall’istruzione alla collaborazione: invece di dare istruzioni dettagliate su come pensare, i modelli di ragionamento funzionano meglio quando vengono presentati con problemi chiari e obiettivi specifici, permettendo loro di sviluppare autonomamente il processo di ragionamento.
  2. Focus sul risultato finale: Specificare chiaramente cosa costituisce una risposta di successo, lasciando al modello la libertà di determinare come arrivarci.
  3. Sfruttamento delle capacità specifiche: Ad esempio, nell’analisi finanziaria, un prompt per un modello di ragionamento potrebbe essere strutturato come: “Analizza questi dati finanziari seguendo questi passaggi: Identifica le anomalie nei flussi di cassa – Valuta le correlazioni tra indicatori – Proponi ipotesi basate sui pattern identificati”.

Ovviamente l’approccio può variare in base al modello specifico e al compito in questione. Sperimentare con diverse strategie e adattarle in base ai risultati ottenuti è spesso la chiave per sfruttare al meglio le capacità dei modelli di ragionamento.

E’ sempre utile sperimentare le varie possibilità! Se trovate strategie utili potete condividerle nei commenti o scrivermi in privato.

Happy Prompting!

Il contenuto di questa newsletter potete trovarlo anche su Linkedin.

Gli iscritti alla diversa newsletter via email ricevono invece un diverso contenuto con strumenti e tool – massimo 4 a settimana – che possono essere utilizzati e che usano l’AI per ottimizzare il lavoro o suggerimenti specifici per corsi e altri “strumenti” per approfondire il mondo dell’AI.

Per ricevere la newsletter via email iscrivetevi su questo sito!

Share This Article