Diritto all’oblio, Harry Potter e primi tentativi di “unlearning” per gli LLMs (e suggerimenti di prompt per finire)

Possono i LLM dimenticare? Vediamo alcune tecniche che si stanno testando e dei suggerimenti per migliorare l'uso dei modelli

By Max
9 Min Read

The Sunday Prompt #19 – 15/10/2023

Dimenticare Harry Potter

    Benvenuti all’ultima edizione di “The Sunday Prompt”! Oggi, ci addentreremo nel mondo incantevole dell’intelligenza artificiale, esplorando una domanda intrigante: possono i modelli di linguaggio di grandi dimensioni (LLM) dimenticare? 

    Il nostro viaggio inizia con un paper recentemente pubblicato intitolato “Who’s Harry Potter? Approximate Unlearning in LLMs“, che propone una tecnica innovativa per far “dimenticare” ai LLM una parte dei dati di addestramento, senza doverli riaddestrare da zero e che trovate qua:

    https://browse.arxiv.org/pdf/2310.02238.pdf

    Gli autori sono due ricercatori di Microsoft ed hanno testato questa tecnica cercando di fare “dimenticare” a Llama2-7b, sviluppato da Meta, l’universo magico di Harry Potter. L’impresa sembrava ardua data la complessità del modello e la ricchezza di dettagli tratti dai libri di Harry Potter che è in grado di generare (e non affrontiamo su questo il problema della violazione dei diritti d’autore che oramai sta generando varie cause giudiziarie contro i produttori di LLM).

    La sfida dell’oblio nelle IA generative è stata al centro dell’attenzione pubblica negli ultimi mesi, in particolare per le implicazioni legali legate al tema della protezione dei dati personali ed il Garante, nel provvedimento adottato a marzo contro OpenAI, aveva preso in considerazione tra gli altri anche tale aspetto.

    Tecnicamente la questione è complessa: come facciamo a rimuovere specifici dati di addestramento da un modello già addestrato? 

    Infatti, mentre l’addestramento (fine-tuning) degli LLM per incorporare nuove informazioni è abbastanza semplice, non sono ad oggi emerse tecniche economicamente efficaci per far “dimenticare” ai modelli le informazioni già acquisite.

     L’analogia proposta dai ricercatori è quella di cercare di rimuovere ingredienti specifici da una torta già cotta – sembra quasi impossibile. E le sfide non finiscono qui. Il costo associato al ri-addestramento può essere astronomico, con modelli di dimensioni massicce che possono richiedere decine se non centinaia di milioni di dollari per essere nuovamente addestrati senza le informazioni che desideriamo siano “dimenticate”.

    Tornando al nostro paper di riferimento, gli autori descrivono una tecnica in tre fasi per affrontare questo problema:

    1. utilizzano un modello potenziato addestrato con apprendimento di rinforzo sui dati target per identificare i token più correlati a quelli che si vogliono far dimenticare, confrontando le sue logits (ossia gli output dell’ultimo strato della rete neurale) con quelle di un modello di base;
    2. in secondo luogo, sostituiscono espressioni idiosincratiche nei dati target con sinonimi generici, sfruttando le previsioni del modello stesso per generare etichette alternative per ogni token. Queste etichette mirano ad approssimare le previsioni del token successivo di un modello che non è stato addestrato sui dati target;
    3. infine, effettuano un fine-tuning del modello su queste etichette alternative, cancellando efficacemente il testo originale dalla memoria del modello ogni volta che viene sollecitato con il suo contesto.

    Nel pratico viene fatto l’esempio sulla richiesta:

    I due migliori amici di Harry Potter sono …..

    Il modello fornisce il 100% delle volte la risposta esatta, ossia Hermione e Ron.

    Il nuovo approccio tentato dai due ricercatori è quello di immaginare quale sarebbe stata la risposta di un modello non addestrato sui libri di Harry Potter, forzando quindi ad arrivare ad una “previsione generica”.

    Piuttosto che cercare di fare fine-tuning sul modello in maniera diretta hanno pensato di far generare a GPT-4 una serie di entità dai libri di Harry Potter e di fornire (sostanzialmente in quello che viene definito un “dizionario” in Python) delle espressioni alternative coerenti con quelle originali.

    Questi sono definiti “termini ancora” ed i valori corrispondenti sono “traduzioni generiche”. Hanno quindi prodotto circa 1.500 termini ancora con le correlate traduzioni generiche.

    Fatto questo i ricercatori hanno cercato di inserire le traduzioni generiche rispetto ai termini ancora, così cercando di modificare la previsione del token successivo che “normalmente” il modello avrebbe fatto.

    Il risultato è quello di alterare drasticamente le risposte del modello, come dimostrato dai test condotti sul modello Llama2-7b. Ad esempio, una volta effettuato questo processo di “unlearning”, il modello non riusciva più a completare i prompt relativi a Harry Potter con dettagli accurati tratti dall’universo di J.K. Rowling, ma piuttosto tendeva a “allucinare” risposte. Inoltre, nonostante il processo di “unlearning”, la performance del modello su compiti non correlati rimaneva consistente, dimostrando l’efficacia dell’approccio (anche se i ricercatori avvertono che potrebbe portare a far disimparare il modello un insieme più ampio rispetto all’originario (ossia non solo i libri di Harry Potter, ma anche un qualsiasi articolo di Wikipedia in cui si parli di questo personaggio).

    Sicuramente, però, la tecnica appare promettente, e con successivi perfezionamenti potrebbe effettivamente consentire l’esercizio del diritto all’oblio o tutelare i diritti d’autore rispetto a contenuti utilizzati per l’addestramento originario, attività che, sia chiaro, oggi sono praticamente impossibile da attuare salvo ri-addestrare il modello per intero.

    Suggerimento. Migliorare l’Interazione con i LLM: Oltre la Ricerca

      Nell’era digitale odierna, siamo abituati a interagire con i motori di ricerca per ottenere risposte immediate alle nostre domande. Tuttavia, quando si tratta di lavorare con Modelli di Linguaggio di Grandi Dimensioni (LLM), come GPT-4 o modelli simili, è cruciale comprendere che questi non sono semplici motori di ricerca, ma potenti strumenti capaci di elaborare e generare testo in modo coerente e significativo. 

      Spesso, molti approcciano i LLM come fossero motori di ricerca, inserendo query brevi nella casella di input e aspettandosi risposte precise. Tuttavia, questa non è sempre la modalità più efficace per interagire con questi modelli avanzati. I LLM hanno il potenziale di fornire molto di più se interagiamo con loro in modo più sofisticato.

      Riformulare per Ottenere di Più:

      Un suggerimento prezioso è quello di chiedere al LLM di aiutarci a riformulare il nostro prompt originario per renderlo più efficace nel raggiungere l’obiettivo desiderato. Ad esempio, invece di inserire una semplice query come “clima in Italia”, potremmo chiedere: 

      "Come potrei formulare la mia domanda per ottenere informazioni dettagliate sulle variazioni stagionali del clima in Italia?" 

      Questo tipo di interazione apre la porta a che sia direttamente il LLM a fornirci il prompt giusto per ottenere risposte più efficaci.

      Approfondire la Conversazione:

      Inoltre, possiamo approfondire la conversazione con il LLM, chiedendo chiarimenti, fornendo contesto aggiuntivo o esplorando sotto-domande. Questo approccio dialogico non solo migliora la qualità delle risposte, ma ci permette anche di sfruttare al meglio le capacità avanzate del modello, trasformando una semplice sessione di query in una discussione informativa e costruttiva.

      Interagire con i LLM va oltre la semplice digitazione di una query in una casella di input. Riformulare i nostri prompt e impegnarsi in una conversazione più approfondita con il modello può notevolmente migliorare la qualità e la rilevanza delle risposte ottenute. Quindi, la prossima volta che vi troverete di fronte alla casella di input di un LLM, ricordatevi di esplorare queste strategie e di sperimentare con diversi modi di formulare le vostre domande. Non solo migliorerete l’efficacia delle vostre interazioni con il modello, ma scoprirete anche nuovi modi di accedere a informazioni preziose e insights rilevanti.

      👋🏻 Happy prompting!

      Share This Article