The Sunday Prompt #6 – 02/04/2023
“Il Big Bang ha detto stop”! Queste erano le parole con cui il compianto (ed innocente) Enzo Tortora chiudeva la trasmissione Portobello della RAI, ascoltata da milioni di telespettatori in Italia.
Avrei dovuto parlarvi questa settimana di Midjourney, ma evidentemente anche se oramai il vostro feed LinkedIn, in una newsletter che parla di “prompt” per GPT (e non solo), non possiamo non affrontare quello che è successo due giorni fa, con lo stop che il Garante italiano ha imposto a OpenAI ai trattamenti di dati personali degli italiani.
Il parallelo con le parole di Tortora non sembra poi così a caso, in cui metaforicamente il Garante fa le veci del Big Bang. OpenAI si è spontaneamente adeguata all’ordine provvisorio di limitazione dei trattamenti (ma, d’altronde, con il rischio di una sanzione di 20 milioni di Euro o il 4% del fatturato globale penso che tutti avrebbero fatto la stessa scelta).
Sam Altman, uno dei fondatori di OpenAI ha postato il seguente tweet
dichiarando che naturalmente hanno cessato di offrire il servizio di ChatGPT in Italia, nel rispetto della decisione (anche se comunque ha dichiarato di rispettare le norme sulla privacy) prevedendo il rimborso a tutti coloro che avevano sottoscritto un abbonamento a ChatGPT Plus.
Ed è proprio questo il punto: quali violazione avrebbe commesso ChatGPT alla normativa in materia di protezione dei dati personali tali da rendere necessario un provvedimento “cautelare” di limitazione del trattamento (che ricordiamo equivale a dire ad un soggetto di interrompere qualsiasi trattamento di dati personali ed in caso di inadempimento può essere valutato ai fini dell’emissione di una sanzione più grave)?
Leggendo il testo del provvedimento le motivazioni sono indicate nelle premesse, e possono così essere sintetizzate:
- assenza dell’informativa agli utenti ed interessati;
- assenza di base giuridica idonea alla raccolta dei dati e al loro trattamento per scopo di addestramento degli algoritmi sottesi al funzionamento di ChatGPT;
- trattamento inesatto perchè le informazioni che fornisce ChatGPT non sono sempre corrispondenti al dato reale;
- assenza di un controllo o di filtri per i minori di 13 anni.
Le violazioni riguarderebbero quindi l’art. 5 (principi), 6 (basi giuridiche), 8 (minori), 13 (informativa), 25 (privacy by design).
Non è questa la sede per esaminarli tutti, ma è evidente che mentre alcuni sono facilmente superabili (ed alcuni, come la presenza dell’informativa, erano già superati al momento della pubblicazione del provvedimento), quello più rilevante, in generale per lo sviluppo di tecnologie di intelligenza artificiale, ossia il vero “elefante nella stanza”, è la contestazione circa la mancanza di idonea base giuridica per la raccolta dei dati e per il trattamento degli algoritmi sottesi al funzionamento di ChatGPT.
Ebbene, GPT-3 è trainato su un quantitativo di 499 miliardi di token, estratti dalle seguenti fonti:
Common Crawl (filtered by quality) | 410 mil |
WebText2 | 19 mil |
Books1 | 12 |
Books2 | 55 mil |
Wikipedia | 3 mil |
Quindi, i dati di allenamenti provengono in gran parte da Common Crawl che è un dataset pubblico che conserva circa 12 anni di “web crawling”, quindi di estrazione di informazioni da siti internet pubblici e selezionati,ed anche gli altri dataset (WebText2, Book1, Book2, Wikipedia) sono creati da soggetti diversi da OpenAI attarverso la raccolta dei dati su Internet o direttamente dai loro creatori (tipo Wikipedia).
La raccolta, quindi, non è svolta direttamente da OpenAI, ma da soggetti terzi che assemblano il contenuto che si trova pubblicamente online. OpenAI utilizza il dataset per “tokenizzare” le parole e addestrare il modello sulla base della vettorizzazione delle stesse, per calcolare le probabilità di vicinanza in un dato contesto.
Ora, già questo farebbe venire qualche dubbio sull’effettiva presenza dell’elefante. Ed infatti, il trattamento dei dati di addestramento, nel caso di GPT-3, potrebbe non essere più attuale rispetto al modello in produzione, nel senso che una volta addestrato quel dataset potrebbe, ad esempio, essere del tutto cancellato, perchè GPT-3 non conserva il dato personale, ma solo dei parametri che sono il risultato delle elaborazioni in termini di probabilità statistica.
In secondo luogo viene da chiedersi se effettivamente i dati che sono resi pubblici non siano, ovviamente previa idonea informativa, coperti da basi giuridiche che giustifichino un trattamento come quello posto in essere da OpenAI.
In vigenza del “ vecchio” codice privacy, l’art. 24 stabiliva che i dati potevano essere trattati senza consenso nel caso in cui si trattasse di dati “provenienti da pubblici registri, elenchi, atti o documenti conoscibili da chiunque, fermi restando i limiti e le modalità che le leggi, i regolamenti o la normativa comunitaria stabiliscono per la conoscibilità e pubblicità dei dati”.
Il GDPR non riporta tale fattispecie nelle basi giuridiche, ma da più parti, ragionando sulla previsione di cui all’art. 9, par. 2, lett. e) che prevede l’eccezione al divieto di trattamento dei dati appartenenti a particolari categorie, qualora si tratti di “dati personali resi manifestamente pubblici dall’interessato”, si è ritenuto che una volta che un soggetto renda pubblici propri dati personali (a maggior ragione se comuni, dato che nel più c’è il meno) il loro trattamento dovrebbe essere consentito dalla normativa in questione (d’altra parte sarebbe assurdo dover ritenere, ad esempio, di fornire un’informativa e richiedere un consenso ogni volta che un autore di un libro venga citato per nome e cognome).
Ma in verità, uno degli esempi più lampanti di trattamento di dati che sono raccolti da fonti pubbliche e trattati anche in maniera massiva lo abbiamo proprio in Italia, cristallizzato nel Codice di Condotta per i trattamenti di dati personali effettuato a fini di informazione commerciale approvato dall’Autorità Garante per la protezione dei dati personali il 29 aprile 2021.
L’art. 4, tra le fonti di provenienza indica quelle accessibili da chiunque, tra cui quotidiani e testate giornalistiche, elenchi telefonici e siti internet liberamente accessibili appartenenti ai soggetti censiti nei registri pubblici o a loro connessi, ad enti pubblici, governativi, territoriali e locali, agenzie pubbliche, autorità di controllo, elenchi, registri ed albi di collegi e ordini, associazioni di categoria ed ordini professionali, quotidiani e testate giornalistiche online, servizi online di elenchi telefonici e categorici.
In tali ipotesi il Codice di condotta, “considerato il rilevante numero degli interessati” consente di rendere l’informativa in forma non individuale (ai sensi dell’art. 14, par. 5, lett. b) e prevede espressamente che la base giuridica sia il legittimo interesse del titolare, come espressamente ribadito dall’art. 6, il quale si preoccupa di ribadire che tale trattamento non richiede il consenso dell’interessato essendo necessario al perseguimento dei legittimi interessi dei fornitori che prestano i servizi di informazioni commerciali.
A questo punto ci sia permesso un parallelo ed una considerazione su quell’elefante nella stanza che il Garante sembrerebbe aver sottolineato nel provvedimento: ma se già nel nostro sistema privacy è stato ammesso un trattamento di dati personali provenienti da fonti pubbliche (tra cui siti internet) basandosi sul legittimo interesse, per quale motivo il provvedimento esclude a priori la possibilità che l’addestramento di un modello attraverso dataset di dati di pari provenienza (oltretutto liberamente accessibili online) non possa essere svolto su tale medesima base giuridica?
D’altra parte, gli effetti dei trattamenti per informazioni commerciali sono sicuramente ben più incisivi sui diritti e le libertà degli individui rispetto a quelli che si verificano con ChatGPT (che, appare opportuno ricordarlo, non rientrerebbe neanche nei sistemi “ad alto rischio” sino ad oggi elencati nell’Allegato III della proposta di Regolamento europeo sull’intelligenza artificiale).
Questo provvedimento, in ogni caso, deve farci riflettere profondamente sia sulla possibilità di regolare nuovi fenomeni con norme vecchie (il GDPR è del 2016) sia sull’impostazione in generale di politica legislativa che intendiamo dare all’innovazione. Il governo britannico ha appena pubblicato un documento intitolato “A pro-innovation approach to AI regulation” in cui si propone un approccio iterativo volto ad eliminare le incertezze giuridiche del settore, così da consentire a chi vuole innovare di basarsi su regole chiare e certe, senza assumere rischi imprevedibili.
Questi i miei “two cents” (si può ancora dire in inglese vero?) alla discussione. Dato però che GPT-3 è diventato anche uno strumento di lavoro, non posso esimermi dal notare che:
- per utilizzare GPT-3 non è necessario accedere a ChatGPT. Come illustrato nel precedente numero se usate uno dei tools indicati (tra cui Playground della stessa OpenAI) le API non sono state bloccate in conseguenza del provvedimento (che d’altronde riguardava solo ChatGPT);
- oramai è stato detto centinaia di volte che basta usare una VPN per mascherare l’indirizzo IP ed accedere direttamente al servizio (fa molto Cina, ma a mali estremi…);
- online ci sono centinaia di servizi che utilizzano le API di OpenAI (primi fra tutti Bing, che sembra l’unico a giovare da questa situazione);
- se vi serve un sito che vi elenchi tutte le varie app lo trovate a questo link https://theresanaiforthat.com/ suddivise per categoria.
Sul tema ovviamente si dovranno aspettare i termini indicati dall’Autorità di controllo (20 giorni) affinchè OpenAi fornisca i chiarimenti sulle misure che intende adottare per sanare i rilievi del Garante.
Nel frattempo se volete un confronto o dei consigli potete contattarmi direttamente su LinkedIn.
👋🏻 Happy prompting!