The Sunday Prompt #12 – 4/6/2023
Le news e gli annunci sull’intelligenza artificiale sono sempre più frequenti e queste ultime due settimane non sono state da meno.
Dagli allarmi sui rischi di estinzione dell’umanità che sono stati avanzati da alcuni dei più importanti players del settore (tra cui Sam Altman di OpenAI e Demis Hassabis di DeepMInd), alle notizia di un sistema che in una simulazione “uccide” l’uomo che la controllava non manca giorno che non appaia una notizia sugli effetti (disastrosi o miracolosi) che i sistemi di intelligenza artificiale potranno avere sulle nostre vite.
Oggi però cerchiamo di affrontare un tema diverso, più pratico, e che parte dal famoso libro di Philip K. Dick da cui è stata (molto liberamente) tratta la sceneggiatura di Blade Runner.
Un LLM come ChatGPT può sognare? E nel caso sogna pecore elettriche?
La domanda, provocatoria, nasce da varie ricerche che sono state svolte sulle cd. allucinazioni dei modelli generativi ( Survey of Hallucination in Natural Language Generation, SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models, Retrieval Augmentation Reduces Hallucination in Conversation).
La prima curiosità deriva dal fatto che il settore della ricerca è concorde nel definire “allucinazioni” delle predizioni errate svolte dai Large Language Models.
Nella personificazione dei sistemi di intelligenza artificiale, quindi, la comunità scientifica concorda nel ritenere che un una risposta errata (o un’errata predizione nel calcolare la parola più corretta da far seguire negli output) costuiscano dei veri e propri errori di valutazione o abbagli del sistema, che, appunto, in tali casi ha delle allucinazione.
Ecco il motivo per cui ho voluto utilizzare il titolo del famoso romanzo di Dick: se un sistema ha delle allucinazioni allora, per un sillogismo quasi naturale, dovrebbe anche poter sognare.
Cerchiamo di capire meglio però cosa si intende per “Allucinazioni”.
Chi di voi avrà utilizzato ChatGPT avrà visto che alcune volte il sistema fornisce una risposta dichiarando di basarsi su dati di addestramento aggiornati al 2021, motivo per il quale non può fornire una risposta più accurata (problema però superabile con i nuovi plugin di navigazione su internet).
In verità , però, spesso il sistema non si ferma davanti questo ostacolo, e soprattutto quando si costruiscono dei prompt relativi ad un dominio specifico (come quello legale) il modello cerca comunque di fornire una risposta, alcune volte “liberamente” indotta da casi simili.
E’ quanto accaduto al povero avvocato che, nel far redigere il proprio atto da ChatGPT, ha citato sei precedenti che sarebbero stati attinenti per la difesa del suo cliente, precedenti però del tutto inventati dal sistema di intelligenza artificiale (e per questo l’avvocato ha dovuto ammettere pubblicamente di non aver verificato il contenuto delle memorie).Â
ChatGPT, in preda alle allucinazioni, ha quindi del tutto immaginato le sentenze ed i riferimenti, ma con un grado di verosimiglianza al reale molto alto, che avrebbe potuto ingannare un professionista non esperto.
Il tema, ricorderete, era stato accennato anche nel provvedimento di limitazione al trattamento del nostra Garante per la protezione dei dati personali, in cui, tra le altre osservazioni, poneva un problema di “non esattezza” dei dati generati tramite ChatGPT relativamente alle persone fisiche.
E’ quindi necessario chiedersi da dove derivano queste allucinazioni.
Innanzitutto, bisogna sempre ricordare (nonostante i tentativi di personificazioni) che i Large Language Models non sono altro che grandi reti neurali che prevedono il token successivo in una sequenza. Il token potrebbe essere un carattere, una parola, o una sillaba.
Quindi, applicando la regola Bayesiana della probabilitĂ , il sistema non fa altro che applicare la distribuzione di probabilitĂ del token successo (T+1) sulla base di quelli precedenti.
Le allucinazioni di cui “soffrono” questi sistemi possono essere quindi di due tipi:
- insufficienza dei dati di addestramento: specialmente su domini molto specifici e specialistici (diritto, medicina, fisica, etc.) i modelli “generalisti” come ChatGPT (addestrati su dataset generici di linguaggio naturale) potrebbero scegliere dei token che in realtà hanno una bassa probabilità nella sequenza, o, in assenza del dato specifico di addestramento, inventare del tutto una nuova sequenza costruita sulla base delle ricorrenze presenti nel dataset (ecco perchè la citazione di una sentenza come precedente può apparire così verosimile);
- influenza del prompt: anche le modalità con cui è “costruito” il prompt influenza l’output che sarà generato dal modello. Come già illustrato in un numero precedente di questa newsletter, possiamo richiedere al sistema di agire “come se” impersonificando un soggetto esperto di un determinato settore, ma anche chiedendo di produrre un output con una sintassi o metrica particolare. Tutto ciò influenza la precisione della risposta, e, quindi, la veridicità della stessa.
Per superare questi problemi, ad oggi, ci sono praticamente due sole soluzioni:
- verificare i dati di training per assicurarsi che il modello sia addestrato correttamente (o inserire ulteriori dati di addestramento relativi al dominio specifico che interessa);
- Â trovare il giusto modello di prompt per assicurarsi le risposte piĂą appropriate.
Con riferimento alla “tecnica dei prompt” uno dei sistemi più efficaci è fornire dei modelli di esempio (nella coppia domanda/risposta). Questo addestra ulteriormente l’algoritmo e può essere un valido modo per evitare che lo stesso abbia delle allucinazioni.
Vi fidereste di un amico che soffre di allucinazioni?
La domanda è più che lecita e credo ce la dobbiamo porre nel momento in cui decidiamo di utilizzare professionalmente questi tool. La vicenda dell’avvocato statunitense è stata esaminata da più parti, ma il commento più lucido è quello di Dazza Greenwood che, giustamente, oltre a sottolineare forse un’ingenuità da parte del legale non nasconde alcune perplessità su come sia riuscito il collega statunitense ad ignorare i vari avvisi che vengono esposti su ChatGPT quando lo si vuole utilizzare in domini specifici.
Recentemente è stato pubblicato il lavoro svolto da @law.MIT.edu circa l’uso responsabile nel settore legale dei modelli di AI generativi.
Le linee guida, che sono oggi in consultazione, sono il frutto del lavoro della task force guidata dallo stesso Dazza Greenwood e ho partecipato personalmente come contributore.
Si tratta di 7 principi che il giurista deve seguire nel momento in cui intende utilizzare per il proprio lavoro questi sistemi, e possono essere così sintetizzati:
- Obbligo di riservatezza nei confronti del cliente in tutti gli utilizzi delle applicazioni AI;
- Obbligo di assistenza fiduciaria nei confronti del cliente in tutti gli usi delle applicazioni AI;
- Obbligo di avvisare ed ottenere il consenso (in discussione quando è necessario) del cliente in tutti gli usi delle applicazioni AI;
- Obbligo di competenza nell’uso e nella comprensione delle applicazioni AI;
- Obbligo di rispetto del mandato fiduciario nei confronti del cliente in tutti gli utilizzi delle applicazioni AI;
- Obbligo di conformità normativa e rispetto dei diritti di terzi, applicabile all’utilizzo delle applicazioni di intelligenza artificiale nella/e vostra/e giurisdizione/i;
- Obbligo di responsabilitĂ e supervisione per mantenere la supervisione umana su tutti gli usi e i risultati delle applicazioni di intelligenza artificiale
E’ evidente, quindi, che l’utilizzo dei sistemi generativi in ambito professionale non richiede solo il controllo degli output, ma anche una serie di altri vincoli deontologici per preservare il rapporto con il cliente e la professionalità di chi utilizza tali strumenti.
Le linee guida sono aperte alla consultazione e discussione e l’invito a presentare osservazioni e commenti è aperto a tutti tramite questo form (https://docs.google.com/forms/d/e/1FAIpQLSfVHqJ9xBmRRWyD4CoqfwxqW_SD_qAwR1ltc8eQl8JZMrfSIA/viewform).
Insomma, quando si tratta di modelli generativi da utilizzare in domini specifici rimane fermo il motto: fidarsi è bene non fidarsi è meglio!
👋🏻 Happy prompting!