The Sunday Prompt #13 – 2/7/2023
In questo numero mettiamo da parte i prompt e le tecniche di interazione con i modelli generativi, per cercare di comprendere cosa prevede e quali i probabili effetti delle ultime modifiche del regolamento sull’intelligenza artificiale licenziato qualche settimana fa dal Parlamento Europeo.
Una delle grandi novità del nuovo testo è l’introduzione, nell’ambito dei sistemi cd. a rischio limitato, dei cd. fundation models, che in italiano è tradotto come “modello di base”, ossia un “modello di sistema di intelligenza artificiale addestrato su un’ampia scala di dati, progettato per la generalità dell’output e che può essere adattato a un’ampia gamma di compiti distinti”.
A prescindere dal testo della definizione, che già da solo potrebbe far sollevare numerosi dubbi applicativi volendo applicare alla lettera la stessa (visto che, ad esempio, adattare un modello LLM a compiti distinti dall’elaborazione del linguaggio naturale sarebbe alquanto complicato), l’introduzione di tali tipi di sistemi nel nuovo regolamento è stato accompagnato da una serie di regole specifiche.
Innanzitutto, i principi di cui all’art. 4 bis (intervento e sorveglianza umani, trasparenza, robustezza tecnica e sicurezza, etc.) sono estesi anche a questi tipi di modelli di base e ciò non poteva essere diversamente, dato che si tratta di principi generali trasposti, se così si può dire, dalle linee guida etica frutto del lavoro del gruppo di alti esperti compiuto qualche anno fa.
Con riferimento specifico a tali modelli sono stati inseriti poi degli obblighi specifici, sia relativamente agli obblighi di trasparenza già prescritti dall’art. 52 per i modelli a rischio limitato, sia con l’introduzione di nuovi obblighi in capo ai produttori (rectius, fornitori) del modello di base.
Innanzitutto, il produttore del modello deve sempre garantire che lo stesso sia conforme alle norme del Regolamento, e ciò a prescindere dalla modalità e dai canali di distribuzione del modello stesso (anche se fornito quale open source).
La conformitĂ risiede nel rispetto dei seguenti obblighi:
a) dimostra, mediante progettazione, prove e analisi adeguate, l’individuazione, la riduzione e l’attenuazione dei rischi ragionevolmente prevedibili per la salute, la sicurezza, i diritti fondamentali, l’ambiente, la democrazia e lo Stato di diritto, prima e durante lo sviluppo, con metodi adeguati, ad esempio con il coinvolgimento di esperti indipendenti, nonché la documentazione dei restanti rischi non attenuabili dopo lo sviluppo;
b) elabora e incorpora soltanto insiemi di dati soggetti a idonee misure di governance dei dati per i modelli di base, in particolare misure per esaminare l’adeguatezza delle fonti di dati ed eventuali distorsioni e un’opportuna attenuazione;
c) progetta e sviluppa il modello di base al fine di conseguire, durante l’intero ciclo di vita, opportuni livelli di prestazioni, prevedibilità , interpretabilità , corregibilità , protezione e cibersicurezza, valutati mediante metodi adeguati quali la valutazione dei modelli con la partecipazione di esperti indipendenti, analisi documentate e test approfonditi nelle fasi di concettualizzazione, progettazione e sviluppo;
d) progetta e sviluppa il modello di base, avvalendosi delle norme applicabili per ridurre l’uso di energia, l’uso di risorse e i rifiuti, nonché per aumentare l’efficienza energetica e l’efficienza complessiva del sistema, fatto salvo la vigente normativa dell’Unione e nazionale in materia. Tale obbligo non si applica prima della pubblicazione delle norme di cui all’articolo 40. I modelli di base sono progettati con capacità che consentono la misurazione e la registrazione del consumo di energia e risorse e, se tecnicamente fattibile, degli altri effetti ambientali che l’adozione e l’utilizzo dei sistemi può avere sul loro intero ciclo di vita;
e) redige un’ampia documentazione tecnica e istruzioni per l’uso intelligibili per consentire ai fornitori a valle di adempiere agli obblighi di cui all’articolo 16 e all’articolo 28, paragrafo 1;
f) pone in essere un sistema di gestione della qualità per garantire e documentare la conformità al presente articolo, con la possibilità di testare il rispetto del presente requisito; g) registra tale modello di base nella banca dati dell’UE di cui all’articolo 60, conformemente alle istruzioni di cui all’allegato VIII, lettera C.
Il nuovo art. 28 ter prosegue con le previsioni dirette specificamente a ChatGPT ed ai suoi fratelli, stabilendo che:
i fornitori di modelli di base utilizzati nei sistemi di IA destinati espressamente a generare, con diversi livelli di autonomia, contenuti quali testi complessi, immagini, audio o video (“IA generativa”) e i fornitori specializzati nella trasformazione di un modello di base in un sistema di IA generativa:
a) adempiono agli obblighi di trasparenza di cui all’articolo 52, paragrafo 1
b) formano e, se del caso, progettano e sviluppano il modello di base in modo da assicurare opportune garanzie contro la generazione di contenuti che violano il diritto dell’Unione, in linea con lo stato dell’arte generalmente riconosciuto e fatti salvi i diritti fondamentali, compresa la libertà di espressione;
c) fatta salva la normativa dell’Unione o nazionale in materia di diritto d’autore, documentano e mettono a disposizione del pubblico una sintesi sufficientemente dettagliata dell’uso dei dati sulla formazione protetti da diritto d’autore.Â
A sua volta l’art 52 è stato modificato, introducendo maggiori dettagli sugli obblighi informativi a cui sono tenuti i produttori (distributori e fornitori) di sistemi AI a rischio limitato.
Tra questi vi sono le informazioni per evitare i rischi di deep fake, che includono, secondo il nuovo testo,
il nome della persona fisica o giuridica che li ha generati o manipolati. A tal fine, i contenuti sono etichettati in modo tale da segnalare il loro carattere non autentico in maniera chiaramente visibile alle persone cui sono destinati.Â
Infine, nell’Allegato VIII tra le informazioni che il produttore deve fornire ai fini della registrazione del sistema AI nella banca dati europea è stata inserita una nuova sezione C relativa ai modelli di base, che prevede la necessità di indicare, tra l’altro:
5. La descrizione delle fonti di dati utilizzate nello sviluppo del modello di base;
6. La descrizione delle capacità e dei limiti del modello di base, compresi i rischi ragionevolmente prevedibili e le misure adottate per attenuarli, nonché i restanti rischi non attenuati, con una spiegazione del motivo per cui non possono essere attenuati;
7. La descrizione delle risorse di formazione utilizzate dal modello di fondazione, compresa la potenza di calcolo richiesta, il tempo di formazione e altre informazioni pertinenti relative alle dimensioni e alla potenza del modelloÂ
8. La descrizione delle prestazioni del modello, anche per quanto riguarda i parametri di riferimento pubblici o i parametri di riferimento aggiornati dell’industria;
8. La descrizione dei risultati delle pertinenti prove interne ed esterne e dell’ottimizzazione del modello;
In conseguenza di queste nuove previsioni il Centro di Ricerca sui modelli fondazionali dell’Università di Stanford ha svolto, giustamente, una ricerca analizzando i 10 modelli di base attualmente più diffusi sul mercato tenuto conto dei vari obblighi e previsioni stabiliti dal nuovo testo regolamentare.
Il risultato, che potete vedere qua:
https://crfm.stanford.edu/2023/06/15/eu-ai-act.htm
è che nessuno dei 10 modelli raggiunge il punteggio massimo (i migliori, comunque, sono i tipi di Hugging Face). Ciò significa che, allo stato dell’arte, nessuno dei modelli fondazionali distribuiti sul mercato è in linea con le previsioni dell’AI Act, come recentemente emendato, e che vi sarebbero grosse difficoltà anche in futuro a comprendere come effettivamente dar seguito alle nuove previsioni normative.
L’incertezza deriva principalmente dalla generica formulazione di alcune previsioni del Regolamento che, da un punto di vista tecnico, sono suscettibili delle piĂą svariate interpretazioni.Â
Ad esempio, cosa bisogna intendere per “descrizione delle prestazioni del modello” ossia rispetto a quali parametri vanno valutate tali prestazioni?Â
E quando la norma prevede che debbano essere utilizzati soltanto “insiemi di dati soggetti a idonee misure di governance dei dati“ cosa intende? Non sarà quindi più possibile avvalersi di fonti pubbliche quali Wikipedia o le altre banche dati utilizzate per i LLM? Quali misure di “governance dei dati” devono essere ritenute idonee e quali no?
E in merito all’etichettatura dei dati per il contrasto al deep fake come si immagina il legislatore europeo che avvenga tale etichettatura e, soprattutto, quali output devono essere etichettati e quali no? Se utilizzo un modello funzionale in un programma di grafica per creare delle immagini per un sito internet saranno sottoposti ad etichettatura o no? Come può il software sapere se quello specifico output sarà utilizzato per generare un deep fake o invece per un uso legittimo?
Insomma, l’ultima versione del Regolamento non brilla certo di chiarezza e linearità e nella fretta di includere le ultime novità in tema di intelligenza artificiale si rischia veramente di produrre una norma di pessima qualità .
D’altra parte questa preoccupazione, che si riassume in un approccio pesantemente burocratico all’innovazione, con il rischio di frenarne gli sviluppi in Europa, è stato recentemente manifestato da numerose grandi aziende del nostro continente attraverso una lettera aperta rivolta ai policymakers affinché ripensino l’AI Act, e soprattutto la recente estensione della regolazione ai modelli generativi (https://www.theverge.com/2023/6/30/23779611/eu-ai-act-open-letter-artificial-intelligence-regulation-renault-siemens).
E’ ovviamente giusto regolare questi sistemi e gli attori che ne stanno beneficiando sul mercato, ma tali regole, a parere di chi scrive, devono essere calate in un contesto che è assolutamente nuovo rispetto a quelli che finora abbiamo vissuto. Lo stesso AI Act prevede l’istituzione di sandbox normative: ci si chiede se non sia il caso di estendere l’applicazione di tale strumento cercando di usufruire di periodi di sperimentazione ed osservazione, in modo da poter comprendere meglio come introdurre delle regole che non siano un ostacolo allo sviluppo tecnologico dell’Unione.
👋🏻 Happy Prompting!