Sfruttare i dati sintetici per alimentare l'evoluzione dell'AI
Sembra strano, ma l'ascesa dell'intelligenza artificiale ha creato, per certi versi, una scarsità di dati. Non è una vera e propria mancanza. Esiste una quantità sorprendente di dati che sta crescendo in modo esponenziale: le stime indicano che nel 2023 sono stati creati 120 zettabyte. E questo numero potrebbe più che raddoppiare entro il 2027!
Insomma, il vero problema dei dati è l'idoneità, non la quantità. I dati sintetici, un prodotto della generative AI, sono forse la risposta a questo problema.
In questo articolo discuteremo del ruolo fondamentale dei dati sintetici nelle nostre iniziative basate sull'AI che richiedono un elevato consumo di dati, di come le aziende possano utilizzare i dati sintetici per stimolare la crescita e delle implicazioni etiche che attendono ancora una soluzione.
Cosa sono i dati sintetici? E perché ne abbiamo bisogno?
In poche parole, i dati sintetici sono dati generati mediante algoritmi a imitazione dei dati reali. Ad esempio, potrebbero essere generate in modo casuale fino a 100.000 date di nascita. Facile.
Di solito, però, i dati sintetici vengono utilizzati per riempire i vuoti nei dati raccolti per uno scopo specifico: ad esempio, 100.000 date di nascita di donne che si sono registrate di recente per votare. Difficile.
Ma la vera forza dei dati sintetici risiede nei casi rari: ad esempio, un set di dati su pazienti di età inferiore ai 35 anni affetti da cancro alla prostata, oppure immagini di modelli di usura nelle bronzine dei pistoni. È chiaro dove porta tutto ciò, vero? Questa specificità, se non rarità, rende i dati più difficili da ottenere e, in alcuni casi, più rischiosi da utilizzare.
Durante un'intervista fattagli da Kimberly Nevala, consulente strategica di SAS, nel corso del suo podcast, Fernando Lucini, Chief Data Scientist di Accenture, spiega che i dati sintetici possono essere utili anche per la privacy dei dati. In ambito sanitario, nel settore pubblico e persino nella vendita al dettaglio, le informazioni personali private (PPI) sono protette con cura. Quando non si può rischiare di rivelare le PPI, occorrono dei dati sostitutivi per effettuare l'analisi.
“Chiediamo (all'AI di creare...) dati con gli stessi modelli, ma senza nessuna caratteristica dei dati originali. In parole povere, (i dati sintetici) sono dati generati da una macchina e sono un facsimile – non una copia, ma un facsimile – dei valori e dei modelli presenti nei dati originali”, spiega Lucini.
Equivalenza dei dati chiave:
1 yottabyte (YB) = 1.000 zettabyte
1 zettabyte (ZB) = 1.000 exabyte
1 exabyte (EB) = 1.000 petabyte
1 petabyte (PB) = 1.000 terabyte
1 terabyte (TB) = 1.000 gigabyte
1 gigabyte (GB) = 1.000 megabyte
1 megabyte (MB) = 1.000 kilobyte
1 kilobyte (KB) = 1.000 byte
Vantaggi dei dati sintetici
L'accesso a dati estesi, diversificati e autentici è essenziale nell'addestramento di modelli di AI affidabili. Ma ottenere dati reali di quel tipo può essere difficile, a causa dei crescenti problemi di privacy, delle restrizioni legali e dei costi elevati per l'acquisizione e l'annotazione dei dati.
I dati sintetici possono essere creati con una serie di etichette e annotazioni prestabilite – con un risparmio di tempo e risorse – e senza il rischio di rivelare informazioni sensibili, dato che i collegamenti a persone reali sono stati eliminati per garantire la riservatezza dei dati.
E per quanto riguarda i dati anonimizzati? Secondo Edwin van Unen, Principal Customer Advisor presso SAS, neppure l’anonimizzazione è la soluzione giusta. È inadeguata, faticosa e incoerente.
“La sua scarsa qualità ne rende quasi impossibile l'utilizzazione per attività di analisi avanzate come la modellazione mediante AI o machine learning e la creazione di dashboard”, spiega van Unen.
Con i dati sintetici la situazione cambia. Rispecchiano le proprietà statistiche e le correlazioni originali. I set di dati sono estremamente utili per testare e addestrare modelli predittivi precisi, senza la necessità di mascherare informazioni sensibili. Questo approccio da “gemello sintetico” aiuta a contrastare il bias e a raggiungere un anonimato quasi perfetto.
Infografica
Perché i dati sintetici sono essenziali per plasmare il futuro della tua azienda con l'AI
Ecco i quattro tipi di dati sintetici e come vengono spesso utilizzati
- I dati sintetici strutturati rappresentano individui, prodotti e altre entità con le rispettive attività o attributi, come i clienti e le loro abitudini di acquisto o i pazienti e i loro sintomi, farmaci e diagnosi.
- Le immagini sintetiche sono fondamentali per addestrare i sistemi al rilevamento degli oggetti, alla classificazione e alla segmentazione delle immagini. Queste immagini sono utili per la diagnosi precoce del cancro, per la scoperta di farmaci e le sperimentazioni cliniche o per l'addestramento delle auto a guida autonoma. Le immagini sintetiche possono essere utilizzate per i casi rari per i quali sono disponibili pochi dati, come la segnaletica stradale orientata orizzontalmente.
- Il testo sintetico può essere adattato per abilitare modelli di elaborazione del linguaggio naturale (NLP) affidabili e versatili alla traduzione, all'analisi del sentiment e alla generazione di testi, per applicazioni come il rilevamento delle frodi e gli stress test.
- I dati sintetici delle serie temporali, compresi quelli dei sensori, possono essere utilizzati nei sistemi radar, nelle letture da sensori IoT e nel rilevamento e misurazione della luce. Inoltre, possono essere preziosi per la manutenzione predittiva e per i sistemi dei veicoli autonomi, dove un numero maggiore di dati può contribuire a garantire sicurezza e affidabilità.
SAS® Data Maker – Ora in anteprima
Proteggi i dati esistenti, innova più rapidamente e garantisci risultati scalabili, grazie a un'interfaccia low-code/no-code che amplia o genera velocemente i dati. Sblocca il potenziale dei dati esistenti con SAS Data Maker.
SMOTE o GAN: quale tecnica scegliere per la creazione di dati sintetici?
Generare dati con regole e logiche di business non è un concetto nuovo. L'intelligenza artificiale aggiunge un livello di precisione alla generazione dei dati introducendo algoritmi che possono utilizzare i dati esistenti per modellare automaticamente dei valori e delle relazioni appropriati.
Due tecniche molto diffuse per la generazione di dati sintetici basate sull'AI sono:
- Tecnica di sovracampionamento delle minoranze sintetiche (SMOTE).
- Rete antagonistica generativa (GAN).
La SMOTE è una tecnica di interpolazione intelligente. Funziona utilizzando un campione di dati reali e generando punti di dati che si collocano tra punti casuali e i loro vicini più prossimi. In questo modo, SMOTE permette di concentrarsi sui punti di interesse, come le classi sottorappresentate, e creare punti simili per bilanciare il set di dati e migliorare l'accuratezza complessiva nei modelli predittivi.
La GAN, invece, è una tecnica che genera dati addestrando un sofisticato modello di deep learning a rappresentare i dati originali. Questa tecnica si poggia su due reti neurali: una generativa per la creazione di dati sintetici e una discriminante che tenta di individuarli. Questa relazione iterativa tra antagonisti produce dati sintetici sempre più realistici, dato che la rete discriminante alla fine non è in grado di distinguere facilmente i dati sintetici da quelli reali. Il processo di addestramento può essere impegnativo in termini di tempo e spesso richiede unità di elaborazione grafica (GPU), ma è in grado di rilevare relazioni estremamente complesse e non lineari tra le variabili, producendo così dati sintetici molto accurati. Inoltre, può generare dati entro o al di fuori dei limiti dei dati originali, rappresentando potenzialmente nuovi dati che altrimenti verrebbero trascurati.
Test: dati sintetici contro dati anonimizzati
Con la collaborazione di un partner, SAS ha testato l'applicabilità dei dati sintetici quale alternativa ai dati anonimizzati utilizzando un set di dati reali di un cliente del settore telecomunicazioni riguardanti il tasso di abbandono (leggi il post sul blog, “Using AI-generated synthetic data for easy and fast access to high-quality data”). Come spiega Van Unen, il team ha valutato il risultato in base alla qualità dei dati, alla validità legale e alla fruibilità.
Ecco cosa hanno appreso:
- I dati sintetici hanno mantenuto le proprietà statistiche e la logica di business originali, compresi i “modelli statistici nascosti”. L'anonimizzazione, invece, ha eliminato le correlazioni sottostanti.
- I modelli basati sui dati sintetici hanno previsto un tasso di abbandono simile a quelli addestrati sui dati originali. Al contrario, i modelli che utilizzavano dati anonimizzati hanno offerto una pessima prestazione.
- I dati sintetici possono essere utilizzati per addestrare i modelli e comprendere le caratteristiche chiave dei dati, proteggendo la privacy grazie alla riduzione e alla prevenzione dell'accesso ai dati originali.
- I processi di generazione dei dati sintetici sono riproducibili. L'anonimizzazione è incostante, incoerente e spesso manuale.
“Questo caso di studio rafforza l'idea che i dati sintetici generati dall'AI forniscono un accesso rapido e agevole a dati di alta qualità per l'analisi e lo sviluppo di modelli”, sostiene van Unen. “L'approccio privacy by design velocizza le analisi, i test e lo sviluppo”.
Dobbiamo approcciare i dati sintetici con grande attenzione per evitare conseguenze indesiderate. Natalya Spicer Synthetic Data Product Manager SAS
Considerazioni di carattere etico sui dati sintetici
Con l'uso sempre più comune dei dati sintetici, crescerà anche la diffusione delle banche che li ospitano. Questi archivi condivisi incoraggeranno la collaborazione, la democratizzazione dei dati e l'impollinazione incrociata delle idee. Ma potrebbero inavvertitamente favorire i pregiudizi, nascondere le violazioni della privacy dei dati e perpetuare pratiche scorrette.
Contrariamente a quanto si possa credere, Lucini sostiene che i dati sintetici non sono né automaticamente coperti da privacy né in grado di preservarla. Se implementata senza i giusti controlli e test, la creazione di dati sintetici può comunque portare a violazioni della privacy.
“I modelli generativi possono essere una black box. Per garantirne un uso responsabile, è necessaria una validazione rigorosa, che il settore non ha ancora pienamente sviluppato. Dobbiamo approcciare i dati sintetici con grande attenzione per evitare conseguenze indesiderate”, afferma Natalya Spicer, Synthetic Data Product Manager presso SAS.
Il diritto alla privacy è scritto nero su bianco: possiamo regolamentarlo, stabilirne i confini e renderlo obbligatorio per tutti. Ma l'equità e il bias non sono altrettanto facili da regolamentare. Se decisioni così soggettive sono lasciate alla discrezione di singoli individui, le conseguenze a lungo termine potrebbero essere significative. C'è bisogno, perciò, di una governance a livello aziendale , almeno fino a quando non verranno introdotte normative statali più complete.
“Abbiamo costruito SAS® Viya® per offrire una piattaforma aziendale che garantisca l'uso conforme di dati e analytics, il che è cruciale vista l'accelerazione dell'AI e dei dati sintetici,” spiega Spicer. “SAS Viya assicura la piena tracciabilità riguardo alla modalità dei creazione dei modelli, risalendo fino ai dati grezzi e ai modelli utilizzati per analizzarne l'accuratezza”.
Il futuro dei dati sintetici e dell'AI
Con i progressi dell'intelligenza artificiale e della data science, i dati sintetici diventeranno sempre più importanti. La sinergia tra i dati sintetici e le tecniche emergenti consentirà la creazione di set di dati sintetici ancora più sofisticati e realistici, spingendo ancora più in là i confini di ciò che è possibile.
Man mano che l'uso dei dati sintetici si evolve, la governance assumerà un ruolo cruciale. Le organizzazioni devono implementare solide strutture di governance e pratiche di verifica dei dati, oltre a comunicare chiaramente i limiti e gli usi appropriati dei dati sintetici. Anche le regole per l'etichettatura e l'identificazione dell'uso dei dati sintetici diventeranno fondamentali per evitare abusi e fraintendimenti. Sfruttando la potenza dei dati sintetici, i data scientist saranno in grado di esplorare le nuove frontiere dell'innovazione, sviluppare modelli basati sull'AI più solidi e affidabili e guidare la trasformazione con un impatto positivo sul mondo in cui viviamo.
Che ne dici di iscriverti subito a Insights?
Letture consigliate
- IFRS 9 and CECL: The challenges of loss accounting standardsThe loss accounting standards, CECL and IFRS 9, change how credit losses are recognized and reported by financial institutions. Although there are key differences in the standards for CECL (US) and IFRS 9 (international), both require a more forward-looking approach to credit loss estimation.
- Risk data aggregation: Transparency, controls and governance are needed for data quality and reportingFinancial institutions’ data aggregation and reporting techniques and systems are receiving increased attention both internally and externally. Find out how to take a comprehensive approach to BCBS principles and risk data aggregation and management.
- Respond, recover and reimagineDisruptions to our lives happen regularly, though most are not as far-reaching as the COVID-19 pandemic. Whatever their nature, it’s helpful to have a plan for how to exit disruption still on your feet and in the game. Learn about the three-phase approach SAS recommends for mitigating widespread disturbances.