Webscraping e GenAi: le indicazioni del Garante

The Sunday Prompt #36 – 2/06/2024

Il 20 maggio 2024 il nostro Garante per la protezione dei dati personali ha adottato un provvedimento con cui è stata approvata una “Nota Informativa” su web scraping e intelligenza artificiale generativa, in seguito alla consultazione che era stata precedente avviata dall’Autorità.

https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/10020316

La nota fa riferimento ai dati personali diffusi tramite pubblicazione online, e si pone nell’ottica dei gestori di siti e piattaforme, pubblici e privati, che rendono pubblicamente disponibili dati (anche personali).

Il punto, quindi, non è relativo alla legittimità del web scraping, ma piuttosto a cosa dovrebbero fare i gestori di siti e piattaforme online per prevenire o mitigare l’attività di raccolta tramite scraping (per il successivo addestramento di modelli di GenAI) di dati sui loro siti.

Si tratta, come espressamente indicato nella nota, di

“indicazioni ai gestori dei siti web e di piattaforme online, operanti in Italia quali titolari del trattamento di dati personali resi disponibili al pubblico attraverso piattaforme online, in merito alle possibili cautele che potrebbero essere adottate per mitigare gli effetti del web scraping di terze parti, finalizzato all’addestramento di sistemi di intelligenza artificiale generativa ove considerato, in attuazione del principio di accountability dal singolo titolare del trattamento, incompatibile con le finalità e le basi giuridiche della messa a disposizione del pubblico dei dati personali”.

Il richiamo al principio di accountability (responsabilizzazione), elencato tra i principi di cui all’art. 5 del GDPR deve comunque far ritenere che in assenza dell’adozione di tali accorgimenti, che non costituiscono misure di sicurezza, il titolare del trattamento potrebbe comunque essere ritenuto carente, nel senso di non aver posto in essere quanto necessario ad impedire l’uso non autorizzato da parte di terzi dei dati pubblicati, ed in quanto tale sanzionato ai sensi dell’art. 83 GDPR.

Chiarito quanto sopra vediamo nel dettaglio quali sono le cautele che secondo la nota dell’Autorità potrebbe essere adottate, pur nella consapevolezza – dichiarata nel documento – che nessuna misura potrà impedire al 100% il web scraping.

Creare aree riservate accessibili solo previa registrazione è considerata una valida cautela che sottrae dati dalla disponibilità pubblica, ma a tale accortezza di accompagna l’avvertenza circa la necessità di non imporre oneri aggiuntivi agli utenti (anche in ossequio al principio di minimizzazione). D’altra parte i sistemi di web scraping più evoluti, ed alcune librerie che sono utilizzate dagli sviluppatori (ad es. BeautifulSoap di Python tra le tante), hanno la capacità anche di simulare il processo di autenticazione di un utente. Si tratta di un’accortezza che, quindi, deve essere attentamente valutata ed in alcuni casi potrebbe rivelarsi non così efficace.
Inserire nei Termini di Servizio (ToS) del sito o piattaforma il divieto espresso di usare tecniche di web scraping. Una soluzione prettamente giuridica, idonea per una tutela ex-post del Titolare (ma non degli interessati a cui si riferiscono i dati personali) che può sicuramente fungere da deterrente e contribuire a una maggior tutela dei dati rispetto al web scraping.

Monitorare il traffico di rete eventualmente limitando il numero di richieste per IP in un dato intervallo abbassa il tasso di successo del web scraping. Non lo impedisce del tutto perché i bot possono distribuire le richieste su più indirizzi, e si potrebbe rischiare di limitare anche il traffico legittimo, ma sicuramente è una delle soluzioni più efficaci per contrastare lo scraping automatico dei dati esposti sul sito..

Usare il file “robots.txt” è una delle pratiche più diffuse. È un file di testo che va inserito nella directory radice del sito per comunicare ai crawler quali pagine o parti del sito non indicizzare. È uno standard de facto riconosciuto dai principali motori di ricerca che istruiscono i loro bot a rispettarlo. Non è vincolante legalmente ma è una forma di “galateo” del web. Non impedisce accessi se il crawler decide di ignorarlo, ma è un primo livello di difesa molto semplice da implementare. Oltretutto alcuni bot sono espressamente identificati per la finalità di scraping ai fini di addestramento di modelli di intelligenza artificiale (come Google-Extended e GPTbopt).

CAPTCHAs e challenge-response tests permettono di distinguere bot da umani, richiedendo azioni complesse difficili da automatizzare (es. identificare oggetti in immagini). Vanno bilanciate con l’usabilità per gli utenti. Non offrono una protezione assoluta: possono essere risolte da bot evoluti o da operatori umani a basso costo, ma comunque aggiungono un livello di difficoltà per lo scraping automatico.

Incorporare i contenuti in contenuti multimediali (come immagini, video, etc.). Seppur tale tecnica potrebbe essere utile in quanto non espone del testo facilmente reperibile dai bot di scraping, potrebbe comportare delle problematiche sia per gli utenti che vogliono compiere azioni legittime, sia per il rispetto dei requisiti di accessibilità del sito (che a breve saranno estesi dall’Unione Europea anche ai soggetti privati).

Il monitoraggio dei log e l’analisi della navigazione consente di individuare anomalie statistiche riconducibili a bot. È un efficace controllo ex post e deve essere combinato con azioni successive (es. blocco di indirizzi IP).

Modifiche alla struttura delle pagine HTML possono rendere più difficile il web scraping (es. usare tag non semantici, annidare i tag, etc.). Queste tecniche “offuscano” il contenuto delle pagine e possono ridurre l’efficacia dei bot, ma bisogna usarle con accortezza in quanto possono impattare anche l’usabilità per utenti umani e l’indicizzazione dei motori di ricerca.

Conclusioni

Come ammesso dall’Autorità non è detto che le tecniche esposte nel documento riescano ad essere al 100% efficaci al fine di escludere le attività di web scraping da parte dei bot. Inoltre, il documento si concentra sullo scraping per finalità di addestramento di sistemi di intelligenza artificiale generativa, finalità che non è immediatamente identificabile nella gran parte dei casi.

Ciò che più colpisce è che il provvedimento è diretto, indistintamente, a tutti coloro che diffondono dati su Internet, ciò anche in osservanza a specifiche disposizioni di legge (si pensi alle disposizioni sulla trasparenza amministrativa), ma anche a giornali e riviste online, che negli articoli di cronaca (e non solo) riportano sistematicamente dati personali delle persone a cui si riferiscono i fatti di cui si da notizia.

Spero che questa sintesi vi sia utile.

Settimana prossima ritorneremo, con qualche novità, al prompting!

👋🏻 Happy prompting!

Must Read

Vibe Coding e AI: il nuovissimo paradigma per sviluppatori e aziende

Modelli di Ragionamento: funzionamento, peculiarità e tecniche di prompting

ChatGPT Tasks: la nuova funzionalità di automazione pianificata di OpenAI

I libri di Natale sull’intelligenza artificiale

Sora, NotebookLLM, Gemini,Grok e le altre novità nel mondo AI

Webscraping e GenAi: le indicazioni del Garante

Una sintesi del provvedimento del Garante privacy per la tutela verso il web scraping (a fini di addestramento di AI)

Conclusioni

Iscriviti alla newsletter di The Sunday Prompt!

Must Read

Uno, nessuno, centomila GPT

Legal Prompt Engineering

Midjourney come fossi un bambino di 5 anni

Il Garante ha detto stop!

Tools per prompt

E poi arrivò GPT-4 (e non solo)

Ti potrebbero interessare

Chain of Table: il prompt per analizzare le tabelle

Vibe Coding e AI: il nuovissimo paradigma per sviluppatori e aziende

Sora, NotebookLLM, Gemini,Grok e le altre novità nel mondo AI

ChatGPT: tra regolamentazione e plugin

Prompt Chaining: workflow avanzati con ChatGPT e gli altri LLM

Come pensa OpenAI o1 + prompt della settimana

Quicklinks

Chi siamo

Must Read

More Read

Conclusioni

Iscriviti alla newsletter di The Sunday Prompt!

Must Read

Ricevi sempre aggiornamenti!