Innovation sparks
AI ed Etica:
L’importanza di usare dati rappresentativi
Di Diletta Huyskes, Ricercatrice e responsabile Advocacy di Privacy Network
I dati sono dinamici. I dataset non lo sono. Nasce da questa consapevolezza l’ambito di ricerca della data ethics, o etica dei dati, un ramo della più estesa disciplina dell’etica tecnologica nato per interrogarsi in particolare sui processi di produzione, conservazione, trattamento, trasmissione, condivisione e uso dei dati.
Incentrare uno studio etico solo sui dati è reso necessario dalla sempre più estesa quantità di informazioni, anche personali o addirittura sensibili, che vengono analizzate da algoritmi allo scopo di guidare scelte e decisioni. A ciò si aggiunge il fatto che spesso più questi dati – estrapolati dai social network, dispositivi smart o delle nostre più banali attività quotidiane – raccontano di noi, più si riducono il coinvolgimento e la supervisione umani in questi processi, ponendo problemi di responsabilità, equità (fairness) e rispetto dei diritti umani fondamentali.
Le opportunità tecnologiche su cui si concentra maggiormente l'intelligenza artificiale (IA) oggi sono quelle date dall'apprendimento automatico incentrato sui dati. Al centro dell'impatto sociale di queste tecnologie, infatti, c'è il potere determinante dei dati, spesso derivato in modo illegittimo da un controllo capillare delle nostre attività online e offline. Assistiamo alla tendenza delle Big Tech di ottenere dati favorendo metodi di “raschiamento” che non prevedono il consenso degli utenti, alla creazione di enormi dataset non adeguatamente bilanciati che causano la non rappresentazione di alcuni gruppi sociali e in generale ad un approccio poco sostenibile – a livello sia sociale sia ambientale – all’addestramento dei sistemi di IA. Per questi motivi, etica dei dati e dell’intelligenza artificiale sono strettamente connesse e interdipendenti. Non può esserci un’etica dell’IA senza un utilizzo consapevole, giusto ed inclusivo dei dati che vengono usati per alimentarla.
I primi studi e la nascita del concetto di etica
I primi studi critici sulla tecnologia – intesi come attività di valutazione e interpretazione – utili a comprendere il percorso storico di queste riflessioni sono individuabili dalla seconda metà del Novecento, quando unirono diverse discipline: la filosofia, con Martin Heidegger, la legge, con Jacques Ellul, le scienze politiche, con Langdon Winner, le scienze sociali e la psicologia. Il termine usato oggi per descrivere questo percorso, etica, si riferisce ad uno studio ampio e interdisciplinare che si concentra sui problemi posti dalle diverse fasi di costruzione di una determinata tecnologia. Ciò significa interrogarsi, ad esempio, sui rischi posti dalla profilazione, dalla personalizzazione dei contenuti e dalla creazione di ampi set di dati, sui loro metodi di acquisizione e la loro protezione, sulla trasparenza e gli open data.
Per le sue potenziali implicazioni sociali, quindi, la data science – e qualsiasi altra pratica che gravita intorno al valore dei dati – dovrebbe essere continuamente accompagnata da un quadro generale che affronta il suo impatto sociale. Esistono diversi framework per guidare ad un utilizzo responsabile dei dati, intesi come strumento di conoscenza e interpretazione del mondo e nel loro ruolo di addestramento di algoritmi. Tra questi, ad esempio, quello proposto dall’Open Data Institute (ODI) (ispirato dall’Ethics Canvas dell’ADAPT Centre for Digital Content Technology, a sua volta basato sull’iniziale modello di business di Alex Osterwalder) è pensato per aiutare chiunque lavori con i dati ad identificare e gestire problemi etici non solo nelle fasi iniziali di un progetto, ma ponendo domande per tutta la sua durata. L’idea è quella di stimolare il dibattito all’interno del gruppo di lavoro, fare chiarezza sugli scopi e mitigare eventuali impatti negativi del progetto su alcune persone o comunità. Alcuni degli interrogativi posti dal framework riguardano, ad esempio, la provenienza dei dati, la loro eterogeneità, l’affidabilità delle fonti, la chiarezza riguardo lo scopo del progetto, il coinvolgimento delle comunità impattate, la condivisione del codice e della metodologia.
Scarica il framework dell'Open Data Institute
Qualsiasi business basato sui dati dovrebbe integrare gradualmente un approccio di questo tipo nelle sue attività, discutendo dei progressi e monitorando gli impatti dei propri progetti anche nel corso del tempo. Se più data scientist, ingegneri e manager sfruttassero il potenziale di questi principi, applicandoli e integrandoli nel proprio modello aziendale, probabilmente assisteremo a meno conseguenze negative derivanti da un utilizzo inconsapevole e ingenuo dei dati. La reale sfida sta nel creare un ecosistema di responsabilità che sia esteso ad ogni persona coinvolta nella progettazione di sistemi incentrati sui dati.
L’importanza dei dati di addestramento
La raccolta, l'analisi e l'utilizzo
dei dati non sono pratiche
neutrali e oggettive
Ma quali sono alcuni dei potenziali problemi legati alla raccolta e all’analisi di grosse quantità di dati? Sicuramente non nascono con gli algoritmi e la tecnologia: sono sempre esistiti in qualsiasi contesto in cui vengono elaborate informazioni che pretendono di rappresentare fedelmente il mondo. In Data Feminism (2020), Catherine D’Ignazio e Lauren Klein fanno notare come l’idea che le pratiche di raccolta, analisi e utilizzo di dati possano essere neutrali e oggettive sia un’illusione. Come sarebbe possibile, d’altronde, definire come oggettive delle scelte prese da esseri umani, i quali inevitabilmente trasferiscono i loro valori, principi e idee nel loro lavoro? Ciò che viene rappresentato è spesso il risultato di una prospettiva, e in quanto tale soggettiva e parziale.
Partendo da questa consapevolezza, la cardiologa Nieca Goldberg ha intitolato il suo libro “Le donne non sono piccoli uomini”, dopo essersi accorta come i problemi al cuore si originano nelle donne in modo completamente diverso rispetto agli uomini. Ciononostante, la maggior parte degli studi scientifici – almeno negli Stati Uniti – viene condotto sugli uomini, considerandoli come il soggetto “neutro” da cui la donna varia soltanto per l’altezza.
Nel suo libro Invisible Women, Caroline Criado-Perez descrive una serie di situazioni quotidiane, stralci di vita che tutti noi diamo per scontati, rivelando la poca inclusività e il gender data gap che sta dietro alla progettazione di molti oggetti a cui siamo abituati. Per esempio, nella media gli smartphone sono lunghi 5,5 pollici, una grandezza non proporzionata alle mani della maggior parte delle donne, e spesso non entrano nelle nostre tasche. Altri dati che il libro riporta – e che consiglio a chiunque voglia farsi un’idea più precisa della portata del fenomeno – riguardano non l’hardware ma gli algoritmi perché, racconta l’autrice, se con gli oggetti è facile fare i conti e accorgersi della loro inadeguatezza, con i software è molto più difficile rendersi conto della portata dell’esclusione da certi processi.
Invisible Women mostra quanto le raccolte di dati fossero parziali anche prima dei computer, dell’automazione dei processi e degli algoritmi di apprendimento automatico. Queste tecnologie non hanno fatto altro che rendere sempre più automatica la riproduzione di alcuni stereotipi a cui siamo abituati. I set che vengono spesso utilizzati per addestrare i sistemi di identificazione biometrica lo dimostrano perfettamente. Per allenare i software di riconoscimento facciale vengono spesso usati dei database che contengono miliardi di volti ottenuti attraverso lo scraping sul web (e quindi senza consenso esplicito degli interessati). La vastità di questi set rende quasi impossibile un controllo adeguato dei dati che sono contenuti al loro interno, della loro qualità, accuratezza e rappresentatività. Ciononostante, l’estrazione di dati biometrici da queste foto e video è molto diffusa: nel 2018, due ricercatrici hanno svelato per la prima volta come le tecnologie di riconoscimento facciale vendute dalle maggiori aziende tecnologiche condividessero un tasso di errore molto più alto quando si trattava di identificare donne e persone di colore, perché l’algoritmo alla base era stato addestrato principalmente su volti maschili e bianchi.
Di fatto, come suggerito dalla geografa Joni Seager, quello che viene contato conta, mentre tutto ciò che non viene contato fin dall’inizio diventa invisibile. Per questo i dati – o i dataset – che vengono scelti come base del proprio progetto, o per addestrare un sistema, sono sempre più fondamentali.
"Etica dei dati e dell'intelligenza artificiale
sono connesse e interdipendenti.
Non può esserci etica dell'AI senza un
utilizzo consapevole, giusto ed inclusivo
dei dati che la alimentano"
DILETTA HUYSKES
Ricercatrice e responsabile Advocacy di Privacy Network
“Etica dei dati e dell'intelligenza artificiale sono connesse e interdipendenti. Non può esserci etica dell'AI senza un utilizzo consapevole, giusto ed inclusivo dei dati che la alimentano”
DILETTA HUYSKES
Ricercatrice e responsabile Advocacy di Privacy Network
Responsabilità e futuro nel mondo dell’AI
Anche in materia di policy-making quello dei dati e della loro rappresentatività è un tema sempre più sentito. La Commissione Europea, nella sua proposta per regolamentare l’intelligenza artificiale (il cosiddetto AI Act) fa specifico riferimento alla qualità dei dati come garanzia necessaria allo sviluppo di sistemi di IA ad alto rischio che possano essere considerati legittimi e aderenti ai valori europei. La qualità, insieme all’assenza di bias (nel senso di informazioni già parziali e discriminanti perché non rappresentative) nei dataset, dovrà essere documentata e dimostrata da parte delle aziende che vogliono progettare e commercializzare un sistema. Queste richieste, evidentemente, sono volte ad assicurare una maggiore attenzione in tutte le fasi di design e sviluppo della tecnologia, per superare quell’approccio che tende a valutarla solo quando è stata già prodotta, immessa nel mercato e magari ha già dato prova di qualche errore. La trasparenza in ogni fase sarà sempre più importante, insieme ad una maggiore responsabilizzazione di tutte le parti decisionali coinvolte.
Questo approccio ai dati, in conclusione, non può essere inteso in modo isolato. Porsi domande e riflettere su ogni aspetto della preparazione di un progetto che lavori con i dati risulta necessario al fine di costruire tecnologie sostenibili e rispettose dei valori di non discriminazione, protezione dei dati, trasparenza. Nell’ambito dell’intelligenza artificiale, i dati di addestramento fungono da nutrimento iniziale e hanno un ruolo fondamentale nel modellare i futuri impatti e risultati dei sistemi: dati inadeguati o insufficienti produrranno probabilmente risultati scadenti e distorti. La responsabilità non è solo dei dati, ma di qualsiasi scelta presa durante le fasi progettuali.
Per questo motivo, si parla di etica by design (richiamando l’approccio alla privacy introdotto dal GDPR), un approccio sistematico – e sempre più strategico – alla governance e all'interazione delle responsabilità sociali e sostenibili, ma anche un investimento che ogni business dovrebbe fare. Un buon punto di partenza è dato da framework come quello dell’Open Data Institute, e potrebbe estendersi all’inclusione di esperti di etica dei dati all’interno dei propri team. La vera sfida non è soltanto chiedersi "siamo conformi ai regolamenti?" ma, in definitiva, "stiamo facendo la cosa giusta?”.
Ci siamo confrontati su questo tema durante l'evento“Be Curious. Be Innovative.” nella sessione Etica e Intelligenza Artificiale: il binomio possibile.
25 ottobre 2021
ARTICOLI CONSIGLIATI
-
Innovation sparksInnovazione e Trasformazione nell’Area Credito: l’esperienza di TIMTIM ha intrapreso un progetto ambizioso volto a innovare processi, sistemi e organizzazione, con l’obiettivo di migliorare l’efficienza e garantire una gestione sempre più data-driven.
-
Data for GoodAI_PREMie: innovazione e collaborazione per prevenire le complicazioni della preeclampsiaLa ricerca condotta dall'University College di Dublino potrebbe salvare decine di migliaia di vite utilizzando il machine learning per diagnosticare la preeclampsia.
-
Innovation SparksLe Model Card di SAS: una bussola per la trasparenza e l’eccellenza nei modelli di Intelligenza ArtificialeIntegrate nella piattaforma SAS Viya, le Model Card di SAS sono concepite per documentare e chiarire ogni aspetto dei modelli di intelligenza artificiale e machine learning.