Miglioriamo i riassunti: il prompt “Chain of Density” (CoD)

Vediamo la tecnica Chain of Density (CoD) per migliorare l'efficacia dei riassunti

By Max
11 Min Read

The Sunday Prompt #18 – 1/10/2023

Qualche giorno fa è stato pubblicato un paper molto interessante intitolato “From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting” 

https://arxiv.org/pdf/2309.04269.pdf

La Chain of Density (e l’acronimo CoD si fa facilmente ricordare dagli appassionati di videogiochi) è un nuovo metodo sviluppato in collaborazione tra Salesforce AI, MIT, Columbia University e Biomedical Informatics, che sta guadagnando popolarità per la sua capacità di generare riassunti densi di informazioni utilizzando GPT-4.

Il problema che spesso si affronta quando si chiede ai tool generativi di riassumere dei testi è che alcuni elementi fondamentali possono essere omessi, in quanto il sistema per garantire maggiore fluidità del riassunto inserisci frasi o elementi discorsivi a discapito di informazioni che potrebbero essere rilevanti.

La strategia utilizzata nel prompt è abbastanza semplice: si utilizza la ricorsione per far sì che il modello esamini il testo in più passaggi, eliminando parole non rilevanti ed identificando elementi importanti del testo che vengono aggiunti al riassunto, mantenendo però la lunghezza originaria dello stesso.

Per questo motivo il nome è Chain of Density: grazie a questa particolare tecnica si ottengono man mano dei riassunti sempre più densi di informazioni pertinenti rispetto all’articolo originale.


Ma passiamo a sporcarci le mani!

Questo il testo del prompt CoD: 

Il prompt

Articolo: {  testo/link  }

Genera riepiloghi sempre più concisi e densi di elementi dell'articolo di cui sopra. Ripeti i 2 passaggi successivi per 5 volte.

Passaggio 1: identificare 1-3 elementi informativi (delimitati) dall'articolo che mancano nel riepilogo generato in precedenza.
Passaggio 2: scrivere un nuovo riassunto più denso di identica lunghezza che copra ogni elemento e dettaglio del riepilogo precedente più gli elementi mancanti.

Un elemento mancante lo è
- Pertinente: ai fatti principali.
- Specifico: descrittivo ma conciso (5 parole o meno).
- Nuovo: non presente nel riassunto precedente.
- Fedele: presente nell'articolo.
- Ovunque: si trova nell'articolo.

Linee guida:
- Il primo riassunto dovrebbe essere lungo (8-10 frasi, 160 parole), ma altamente non specifico e contenere poche informazioni oltre agli elementi contrassegnati come mancanti. Utilizza un linguaggio e riempitivi eccessivamente prolissi (ad esempio "questo articolo discute") per raggiungere circa 160 parole.
- Fai in modo che ogni parola conti. Riscrivi il riassunto precedente per migliorare il flusso e fare spazio a elementi aggiuntivi.
- Fai spazio fondendo, comprimendo e rimuovendo frasi non informative come "l'articolo discute".
- I riassunti dovrebbero essere molto densi e concisi, ma al tempo stesso autonomi, ad esempio facilmente comprensibili senza aver letto l'articolo.
- Gli elementi mancanti possono apparire ovunque nel nuovo riassunto.
- Non eliminare mai elementi dal riepilogo precedente. Se non è possibile creare spazio, aggiungi meno nuovi elementi.

Ricorda: utilizza esattamente lo stesso numero di parole per ogni riassunto.
Rispondi inserendo i 5 riassunti separati indicando Riassunto 1, Riassunto, 2 Riassunto 3, Riassunto 4, Riassunto 5. Prima di ogni riassunto indica quali sono gli “elementi persi” che hai utilizzato per redigerlo.

La mia amica Claudia Morelli, che ogni lunedì pubblica sempre degli articoli su Avvocato 4.0, qualche settimana fa ne ha pubblicato uno frutto di una bellissima ricerca sulla semplificazione dei contratti assicurativi ed il legal design.

Lo confesso, l’articolo è molto lungo ed ancora non ho fatto  in tempo a leggerlo, quindi quale miglior occasione di testare il prompt CoD?!

L’articolo lo trovate qua:

https://www.altalex.com/documents/news/2023/09/11/contratti-assicurativi-chimera-semplificazione

Lo diamo in pasto a CHatGPT con il seguente prompt:

Articolo: https://www.altalex.com/documents/news/2023/09/11/contratti-assicurativi-chimera-semplificazione

Genera riepiloghi sempre più concisi e densi di elementi dell'articolo di cui sopra. Ripeti i 2 passaggi successivi per 5 volte.

Passaggio 1: identificare 1-3 elementi informativi (delimitati) dall'articolo che mancano nel riepilogo generato in precedenza.

Passaggio 2: scrivere un nuovo riassunto più denso di identica lunghezza che copra ogni elemento e dettaglio del riepilogo precedente più gli elementi mancanti.

Un elemento mancante lo è

- Pertinente: ai fatti principali.

- Specifico: descrittivo ma conciso (5 parole o meno).

- Nuovo: non presente nel riassunto precedente.

- Fedele: presente nell'articolo.

- Ovunque: si trova nell'articolo.

Linee guida:

- Il primo riassunto dovrebbe essere lungo (8-10 frasi, 160 parole), ma altamente non specifico e contenere poche informazioni oltre agli elementi contrassegnati come mancanti. Utilizza un linguaggio e riempitivi eccessivamente prolissi (ad esempio "questo articolo discute") per raggiungere circa 160 parole.

- Fai in modo che ogni parola conti. Riscrivi il riassunto precedente per migliorare il flusso e fare spazio a elementi aggiuntivi.

- Fai spazio fondendo, comprimendo e rimuovendo frasi non informative come "l'articolo discute".

- I riassunti dovrebbero essere molto densi e concisi, ma al tempo stesso autonomi, ad esempio facilmente comprensibili senza aver letto l'articolo.

- Gli elementi mancanti possono apparire ovunque nel nuovo riassunto.

- Non eliminare mai elementi dal riepilogo precedente. Se non è possibile creare spazio, aggiungi meno nuovi elementi.

Ricorda: utilizza esattamente lo stesso numero di parole per ogni riassunto.

Rispondi inserendo i 5 riassunti separati indicando Riassunto 1, Riassunto, 2 Riassunto 3, Riassunto 4, Riassunto 5. Prima di ogni riassunto indica quali sono gli “elementi persi” che hai utilizzato per redigerlo.

Ecco i risultati:

Riassunto 1

Elementi persi: –

Questo articolo esplora le sfide presenti nel settore assicurativo italiano, esaminando la complessità linguistica dei contratti assicurativi. L’autore discute una ricerca dell’Ivass che suggerisce una necessità di maggiore chiarezza nei termini contrattuali per migliorare la comprensione da parte del consumatore. L’articolo illustra anche il concetto di “assicurese” come barriera per una maggiore penetrazione del mercato assicurativo, e l’importanza del legal design e del plain language per rendere i contratti più accessibili. L’autore raccomanda ulteriori sforzi da parte delle compagnie assicurative per semplificare i testi contrattuali.

Riassunto 2

Elementi persi: “analisi 30 contratti”, “raccomandazioni per restyling testi”

Il pezzo discute la complessità dei contratti assicurativi italiani, indicando una ricerca dell’Ivass che evidenzia la necessità di chiarezza contrattuale per migliorare la comprensione del consumatore. Introduce l'”assicurese” come ostacolo per l’espansione del mercato assicurativo, e sottolinea l’importanza del legal design e del plain language per aumentare l’accessibilità dei contratti. Menziona un’analisi di 30 contratti assicurativi e raccomandazioni per un restyling dei testi contrattuali, esortando le compagnie assicurative a proseguire gli sforzi di semplificazione.

Riassunto 3

Elementi persi: “1.9% rapporto premi e Pil”, “80% di raccolta premi”

L’articolo affronta la complessità dei contratti assicurativi in Italia, citando una ricerca Ivass sulla necessità di chiarezza contrattuale per migliorare la comprensione del consumatore. Identifica l'”assicurese” come barriera alla penetrazione del mercato assicurativo, promuovendo legal design e plain language per l’accessibilità contrattuale. Evidenzia un’analisi di 30 contratti assicurativi, raccomandazioni per il restyling dei testi, e il 1.9% rapporto tra premi e Pil in Italia, esortando le compagnie assicurative a continuare la semplificazione dei testi contrattuali.

Riassunto 4

Elementi persi: “indice Gulpease”, “esempi di testi “vecchio stile””

L’articolo discute la complessità contrattuale nel settore assicurativo italiano, citando una ricerca Ivass che sottolinea la necessità di chiarezza per una migliore comprensione del consumatore. Identifica l'”assicurese” come ostacolo alla penetrazione del mercato assicurativo, promuovendo legal design e plain language. Menziona un’analisi di 30 contratti assicurativi, raccomandazioni per il restyling dei testi, il 1.9% rapporto premi/Pil in Italia, l’uso dell’indice Gulpease per valutare la chiarezza e fornisce esempi di testi “vecchio stile”, esortando le compagnie assicurative a proseguire la semplificazione.

Riassunto 5

Elementi persi: “connessione mercato assicurativo-chiarezza”, “comparazione con media Ocse”

L’articolo esamina la complessità contrattuale nel settore assicurativo italiano, riferendo una ricerca Ivass che enfatizza la necessità di chiarezza per migliorare la comprensione del consumatore. Indica l'”assicurese” come barriera alla penetrazione del mercato assicurativo, promuovendo legal design e plain language. Evidenzia un’analisi di 30 contratti assicurativi, raccomandazioni per il restyling dei testi, il 1.9% rapporto premi/Pil in Italia comparato al 4.9% della media Ocse, l’uso dell’indice Gulpease, esempi di testi “vecchio stile” e la connessione mercato assicurativo-chiarezza, esortando le compagnie assicurative a continuare la semplificazione dei testi.

Come si vede l’ultimo riassunto contiene molte più informazioni rilevanti sull’articolo di Claudia rispetto ai riassunti iniziali, che sono state di volta in volta aggiunte all’iniziale riassunto. 


Dai grafici qui sopra la densità delle frasi presenti nel riassunto aumenta gradualmente nei vari passaggi fino ad arrivare al risultato finale che raggiunge una media pari al triplo di frasi presenti nell’articolo che vengono riportate nel riassunto.

Questo approccio, quindi, non solo migliora la densità informativa ma anche la leggibilità, rappresentando uno strumento versatile nel campo dell’IA.

Con la Chain of Density abbiamo, quindi, a disposizione un metodo efficace per migliorare significativamente la qualità dei nostri riassunti da articoli, paper e altri scritti.

👋🏻 Happy Prompting!

Share This Article