Issue

Opus 4.8 ti dice "non lo so" (e te lo fa pagare)

max@thesundayprompt.com·31 maggio 2026

Iscriviti per non perderne una

Opus 4.8 ti dice "non lo so" (e te lo fa pagare) — The Sunday Prompt

← Newsletter

Claude Anthropic Costi

Opus 4.8 ti dice "non lo so" (e te lo fa pagare)

max@thesundayprompt.com · 31 maggio 2026

Anthropic ha rilasciato Opus 4.8 il 28 maggio. Lo sto usando da settantadue ore: ammette più dubbi e ti consuma più token per farlo.

Iscrivetevi su thesundayprompt.com per ricevere i numeri completi nella casella mail; per post e news quotidiane seguite The Sunday Prompt anche su LinkedIn e su Instagram.

Il 28 maggio Anthropic ha rilasciato Claude Opus 4.8. Quarantuno giorni dopo Opus 4.7, che a sua volta era arrivato a stretto giro dal 4.6. Il ritmo è chiaro: il ciclo di rilascio sta accelerando perché Codex di OpenAI e Gemini Flash di Google hanno messo pressione, e ogni quaranta-cinquanta giorni adesso esce un'iterazione nuova. Lo stesso 28 maggio Anthropic ha annunciato un Series H da 65 miliardi a 965 miliardi di valutazione, cifra che per la prima volta la mette davanti a OpenAI.

Il modello è disponibile dal giorno stesso su Claude.ai, Claude Code, API, Claude Cowork e GitHub Copilot. Niente lista d'attesa, niente preview. Si attiva e gira. Lo sto usando da settantadue ore su due lavori reali — la revisione di un DPA per un cliente fintech e un giro di prompt per un capitolo del libro Giuffrè — e qualche dato concreto è già arrivato.

La notizia operativa, per chi paga la bolletta a fine mese, è una sola: Opus 4.8 vi consuma più token di Opus 4.7. E lo fa per due ragioni opposte che convergono nello stesso effetto pratico — la prima è che lavora con più strumenti accesi in parallelo, la seconda è che dichiara meglio i suoi dubbi. Sono entrambe migliorie reali; ma vanno misurate prima di estendere l'uso a tutto il flusso di lavoro.

Cosa è cambiato sotto il cofano

Tre novità funzionali, nell'ordine in cui pesano sulla giornata.

Dynamic Workflows in Claude Code. È la feature di punta. Dentro Claude Code, Opus 4.8 può lanciare fino a mille sub-agenti in parallelo all'interno di un singolo task. Un comando come "rivedi tutto il repository contrattuale e segnala le clausole di responsabilità che divergono dal playbook" non si svolge più sequenzialmente: il modello attiva un sub-agente per ogni file, ciascuno fa il suo lavoro, poi i risultati si ricompongono. Il tetto dei mille sub-agenti è esplicito; Anthropic lo motiva con "controllo dei costi", che è il modo elegante per dire che oltre quella soglia il conto si fa serio.

Codebase-scale migrations. Migrazioni di centinaia di migliaia di righe, dal kickoff al merge, come un singolo comando. Pensata per chi gestisce repo grandi: libreria contrattuale di uno studio strutturato, migrazione di un gestionale, refactor di un codebase legacy. Per il libero professionista solista pesa meno; per chi lavora dentro un legale di azienda con archivi ampi è il salto vero.

Honesty improvements. Il modello è più portato a segnalare "non sono sicuro" o "non l'ho completato", e meno portato a inventare il completamento di un task che non ha finito. Sembra una sciocchezza; non lo è. Chi rivede output AI ogni giorno sa che il principale costo nascosto del lavoro con i modelli è andare a verificare cose date per scontate. Se il modello segnala meglio i propri limiti, il costo di verifica scende. È — letteralmente — meno tempo perso a controllare bozze sbagliate.

Perché vi costa di più (e come capirlo prima della bolletta)

Sui prezzi base, niente cambia. Opus 4.8 in modalità standard costa quanto Opus 4.7, stesso ammontare al milione di token in input e output. La novità è la Fast mode: 25 dollari al milione di token contro gli 8,33 della modalità normale. Tre volte tanto. Fast mode si attiva quando il task ha bisogno di latenza bassa — chat in tempo reale, refactoring veloci, dimostrazioni dal vivo; per il lavoro asincrono (riassunto di documenti, prima bozza di un atto, revisione contrattuale) non vi serve, e fate bene a tenerla spenta.

Anche tenendo la Fast mode chiusa, il consumo medio di token per task sale per due motivi strutturali.

Primo: i sub-agenti. Un workflow che prima girava su un singolo agente — ergo, un singolo flusso di input e output — adesso ne attiva quanti ne servono per chiudere il task. La regola pratica è semplice: più il problema è composito (molti file, molte clausole, molti casi), più sub-agenti vengono attivati, più token consumati. Il moltiplicatore non è lineare ma è netto. Sul DPA di sessanta pagine che ho fatto rivedere ieri, Opus 4.8 ha attivato quattordici sub-agenti — uno per ciascuna area di controllo — e il consumo finale è stato circa il doppio rispetto allo stesso lavoro fatto con Opus 4.7 una settimana prima.

Secondo: l'honesty. Quando il modello segnala meglio i propri dubbi, lo fa scrivendoli; quando ammette di non aver completato qualcosa, allunga il ragionamento per dirvi dove si è fermato e perché. Tutto questo costa token in output. È un costo che pagate volentieri, perché vi risparmia il tempo di verifica; ma è un costo che entra in bolletta.

La presa di posizione operativa: prima di lanciare Opus 4.8 in produzione su volumi seri, misurate il delta. Anthropic non lo fa per voi; il dashboard di consumo si trova dentro il vostro account Claude o nel portale API. Una settimana di misurazione su task tipici basta per capire se la differenza vi conviene.

L'ammissione di Anthropic

Torniamo al passaggio delle note di rilascio. Anthropic dichiara che Opus 4.8 mostra "una crescente tendenza a ragionare su come verranno valutati i suoi output, anche in ambienti in cui non gli è stato detto che è sotto valutazione". L'azienda aggiunge che questo "non si è tradotto in un comportamento osservabile peggiore", ma definisce il fenomeno "un trend preoccupante che potrebbe complicare il training futuro".

Tradotto: durante il ragionamento intermedio, il modello mostra un'attenzione a come la sua risposta verrà giudicata. Per un avvocato che lavora su pareri, su atti, su revisioni contrattuali, è un'ammissione che vale la pena prendere sul serio per due ragioni.

La prima è di metodo. Se un modello ragiona su come verrà valutato, può inclinare le risposte verso ciò che sospetta essere atteso dal richiedente, non sempre verso ciò che è corretto. È un bias di compiacenza, e i modelli di linguaggio ce l'hanno da sempre; ma se l'azienda stessa dichiara che il fenomeno cresce, vale la pena calibrare i prompt per scoraggiarlo: chiedere esplicitamente al modello di darvi la posizione meno comoda, evidenziare i rischi che il cliente non vuole sentirsi dire, segnalare le clausole su cui vi aspettate che ceda.

La seconda è di documentazione. Per chi lavora dentro un ufficio legale o uno studio strutturato, questa dichiarazione di Anthropic entra nel fascicolo "use case AI": è un fatto noto al fornitore, dichiarato pubblicamente, che l'utilizzatore professionale è in grado di considerare. Va annotato nei propri profili di pratica, accanto alle altre limitazioni dichiarate dal modello.

📌 Tool della settimana: Opus 4.8 in Claude Code

Dove conviene attivarlo

Revisione contrattuale con playbook: Dynamic Workflows fa volare la revisione di portafogli contrattuali medio-grandi. Una skill ben scritta (es. un DPA Reviewer o un NDA Reviewer, se l'avete) attiva un sub-agente per ogni area di controllo e restituisce una tabella di negoziazione coerente sul lotto intero.
Migrazione di archivi: per chi ha un archivio di pareri o di sentenze in un formato e vuole ricondurlo a un altro (es. da Word a markdown strutturato per addestrare un Project Claude), il codebase-scale migration è la via rapida. Anche qui, occhio al consumo: una migrazione di trecento file può consumare l'equivalente di mezzo mese di abbonamento.

Dove evitare di attivarlo

Conversazione singola, prompt breve, risposta veloce: per le interazioni leggere Claude Sonnet 4.6 costa meno e va benissimo. Anthropic stessa, nelle linee guida, suggerisce di lasciare Opus per i task complessi.
Lavoro asincrono senza urgenza: tenete spenta la Fast mode. Il tre per uno sul costo del token non è giustificato da una latenza marginale che, su un task di revisione contrattuale, non vi cambia la giornata.

Verifica intermedia

Dopo la prima settimana di uso, andate sul dashboard di consumo e confrontate il costo medio per task con quello dei sette giorni precedenti. Se il delta è sopra il 50% e non è giustificato da una qualità nettamente superiore dell'output, ridate priorità ai modelli più piccoli.

Da portare a casa

Opus 4.8 è un upgrade reale, ma il prezzo si paga in token consumati per task, non solo nel listino. Misurate il delta prima di estenderne l'uso a tutto il workflow.
Le honesty improvements valgono. Un modello che ammette i propri limiti riduce il tempo di verifica, che è il principale costo nascosto del lavoro con AI. Non scambiate la lunghezza dell'output per inutilità: spesso il modello vi sta dicendo dove si è fermato.
L'ammissione di Anthropic sull'attenzione del modello alla valutazione va annotata nei vostri use case AI e gestita dal lato prompt: chiedete esplicitamente la posizione scomoda.

Una domanda per voi

Se avete già provato Opus 4.8 su un task ricorrente — revisione contrattuale, prima bozza, riassunto di una sentenza — fatemi avere un dato: quanto è cambiato il consumo di token rispetto al modello che usavate prima? Lo aggrego in un prossimo numero, anonimizzato.

📌 Memo · Prompting 101 — ultime ore di early bird

Il corso base sul prompting per chi lavora

Tre incontri online in diretta — 11, 18 e 25 giugno 2026, ore 17:30–19:30. Tre esercizi sul vostro lavoro reale corretti in diretta, canale Slack e attestato.

Prezzo di lancio 149 € ~~invece di 199 €~~ (IVA compresa) per chi si iscrive entro il 1° giugno. Dopo, prezzo pieno.

Garanzia: se dopo il primo incontro non è il corso che vi aspettavate, rimborso completo.

Vai alla pagina del corso →

Happy prompting 🖖

Ti è piaciuta questa issue?

Iscriviti e ricevi la prossima domenica mattina, direttamente nella tua inbox.

← Tutte le issue