Qu'est-ce que les données synthétiques ?
Et comment pouvez-vous les utiliser pour stimuler des avancées en IA ?
Quels sont les facteurs qui stimulent la demande de données synthétiques dans tous les secteurs d'activité ? Quels sont les risques et les avantages de l'utilisation de données synthétiques pour la prise de décision ? Dans cet article, nous discuterons de la place essentielle des données synthétiques dans nos initiatives d'IA gourmandes en données, de la manière dont les entreprises peuvent utiliser les données synthétiques pour débloquer la croissance et des défis éthiques qu'il reste à résoudre.
C'est difficile à croire, mais l'essor de l'intelligence artificielle a, d'une certaine manière, créé une pénurie de données. Il ne s'agit pas d'une pénurie à proprement parler. Nous disposons d'une quantité étonnante de données qui augmentent de manière exponentielle(selon les estimations, 120 zettaoctets seront créés en 2023). Et ce chiffre pourrait plus que doubler d'ici 2027 !
Non, le problème actuel lié aux données n’est pas leur quantité, mais leur pertinence. Les données synthétiques - un produit de l'IA générative - pourraient être la réponse à cette question.
Les données synthétiques peuvent aider les organisations à améliorer leur productivité et à réduire les coûts des efforts de développement de l'IA. Regardez cette vidéo explicative, dans laquelle Brett Wujek - responsable de la stratégie produit pour les technologies d'IA de nouvelle génération chez SAS - détaille l'état actuel des données synthétiques et leurs promesses pour l'avenir.
Qu'est-ce que les données synthétiques ? Et pourquoi en avons-nous besoin ?
En termes simples, les données synthétiques sont des données générées par des algorithmes qui imitent les données du monde réel. Cela peut être aussi simple que de générer aléatoirement 100 000 dates de naissance. Facile.
Cependant, les données synthétiques sont généralement utilisées pour combler un manque de données adaptées à un objectif spécifique : par exemple, 100 000 dates de naissance de femmes récemment inscrites pour voter. Bien plus compliqué.
Le véritable point fort des données synthétiques se trouve toutefois dans les cas rares et spécifiques : un ensemble de données sur des patients masculins atteints d’un cancer de la prostate âgés de moins de 35 ans, ou des images de motifs d’usure sur des segments de piston en bronze, par exemple. Vous voyez où cela mène ? Cette spécificité – cette rareté – rend ces données plus difficiles à obtenir et, dans certains cas, plus risquées à utiliser.
Fernando Lucini, Chief Data Scientist d'Accenture, explique dans une conversation podcast avec Kimberly Nevala, conseillère stratégique chez SAS, que les données synthétiques peuvent également contribuer à la protection de la confidentialité des données. Les informations personnelles sensibles (PPI) sont strictement protégées dans les secteurs de la santé, du secteur public et même du commerce de détail. Lorsque nous ne pouvons pas risquer de divulguer des PPI, nous avons besoin de données de substitution pour effectuer des analyses.
"Nous demandons à l'IA de créer des données présentant les mêmes schémas, mais aucune des caractéristiques des données d'origine. En termes simples, les données synthétiques sont des données générées par une machine qui sont un fac-similé - pas une copie, mais un fac-similé - des signaux et des modèles contenus dans les données originales", explique M. Lucini.
Équivalents de données clés :
1 yottaoctet (YB) = 1 000 zettaoctets
1 zettaoctet (ZB) = 1 000 exaoctets
1 exaoctet (EB) = 1 000 pétaoctets
1 pétaoctet (PB) = 1 000 téraoctets
1 téraoctet (To) = 1 000 gigaoctets
1 gigaoctet (Go) = 1 000 mégaoctets
1 mégaoctet (Mo) = 1 000 kilo-octets
1 kilo-octet (Ko) = 1 000 octets
Avantages des données synthétiques
L'accès à des données volumineuses, diversifiées et authentiques est essentiel pour former des modèles d'IA robustes. Mais obtenir ce type de données du monde réel peut s'avérer difficile en raison des préoccupations croissantes en matière de protection de la vie privée, des restrictions juridiques et des coûts élevés d'acquisition et d'annotation des données.
Les données synthétiques peuvent être créées avec des étiquettes et des annotations déjà intégrées - ce qui permet d'économiser du temps et des ressources - et sans exposer d'informations sensibles car les liens avec les individus réels ont été coupés pour assurer la confidentialité des données.
Qu'en est-il des données anonymes ? Selon Edwin van Unen, Principal Customer Advisor de SAS, l'anonymisation n'est pas non plus la solution. Elle est inadéquate, laborieuse et incohérente.
"Sa qualité médiocre le rend presque impossible à utiliser pour des tâches analytiques avancées telles que la modélisation et le tableau de bord de l'IA ou de l'apprentissage automatique", explique M. van Unen.
Les données synthétiques changent la donne. Elles reflètent les propriétés statistiques et les corrélations des données d'origine. Ces ensembles de données sont extrêmement utiles pour tester et former des modèles prédictifs précis, sans qu'il soit nécessaire de masquer des informations sensibles. Cette approche de "jumeaux synthétiques" permet de contrer les préjugés et d'obtenir un anonymat presque parfait.
Infographie
Pourquoi les données synthétiques sont-elles essentielles pour l'avenir de votre organisation axé sur l'IA ?
Aperçu de quatre types de données synthétiques et de leur usages
- Les données structurées synthétiques représentent des individus, des produits et d'autres entités, ainsi que leurs activités ou attributs - notamment les clients et leurs habitudes d'achat, ou les patients et leurs symptômes, médicaments et diagnostics.
- Les images synthétiques sont essentielles pour l'apprentissage de la détection d'objets, de la classification et de la segmentation des images. Ces images sont utiles pour la détection précoce du cancer, la découverte de médicaments et les essais cliniques, ou l'apprentissage de la conduite autonome. Les images synthétiques peuvent être utilisées pour des cas rares où peu de données sont disponibles, comme les feux de circulation orientés horizontalement.
- Le texte synthétique peut être adapté pour permettre des modèles de traitement du langage naturel (NLP) robustes et polyvalents pour la traduction, l'analyse des sentiments et la génération de textes pour des applications telles que la détection des fraudes et les tests de résistance.
- Les données synthétiques de séries temporelles (y compris les données de capteurs) peuvent être utilisées dans les systèmes radar, les relevés de capteurs IoT et la détection et la télémétrie par ondes lumineuses. Elle peut s'avérer précieuse pour la maintenance prédictive et les systèmes de véhicules autonomes, où davantage de données peuvent garantir la sécurité et la fiabilité.
SAS® Data Maker - En avant-première
Protégez les données existantes, innovez plus rapidement et garantissez des résultats évolutifs à l'aide d'une interface sans code ou à code réduit pour augmenter ou générer rapidement des données. Exploitez le potentiel des données existantes avec SAS Data Maker.

Création de données synthétiques : Quand utiliser SMOTE ou GAN ?
La génération de données à l'aide de règles et de logiques commerciales n'est pas un concept nouveau. L'IA ajoute une couche de précision à la génération de données en introduisant des algorithmes qui peuvent utiliser les données existantes pour modéliser automatiquement les valeurs et les relations appropriées.
Deux techniques d'IA populaires pour générer des données synthétiques sont :
- Technique de sur échantillonnage minoritaire synthétique (SMOTE).
- Réseau contradictoire génératif (GAN).
SMOTE est une technique d'interpolation intelligente. Il utilise un échantillon de données réelles et génère des points de données entre des points aléatoires et leurs plus proches voisins. De cette manière, SMOTE vous permet de vous concentrer sur des points d'intérêt, tels que les classes sous-représentées, et de créer des points similaires afin d'équilibrer l'ensemble des données et d'améliorer la précision globale des modèles prédictifs.
Le GAN, quant à lui, est une technique qui génère des données en formant un modèle d'apprentissage profond sophistiqué pour représenter les données d'origine. Un GAN comprend deux réseaux neuronaux : un générateur qui crée des données synthétiques et un discriminateur qui tente de les détecter. Cette relation contradictoire itérative produit des données synthétiques de plus en plus réalistes, car le discriminateur ne peut finalement pas facilement faire la différence entre les données synthétiques et les données réelles. Le processus d'apprentissage peut prendre du temps et nécessite souvent des unités de traitement graphique (GPU), mais il peut capturer des relations complexes et hautement non linéaires entre les variables et produire ainsi des données synthétiques très précises. Il peut également générer des données à l'intérieur ou au-delà des limites des données d'origine, représentant potentiellement de nouvelles données qui seraient autrement négligées.
Un test : Données synthétiques contre données anonymes
SAS et un partenaire ont testé la viabilité des données synthétiques comme alternative aux données anonymes en utilisant un ensemble de données de désabonnement d'un client réel du secteur des télécommunications (lire l'article de blog, Utiliser des données synthétiques générées par l'IA pour un accès facile et rapide à des données de haute qualité). M. Van Unen a expliqué que l'équipe a évalué le résultat en fonction de la qualité des données, de la validité juridique et de la facilité d'utilisation.
Ce qu'ils ont appris :
- Les données synthétiques ont conservé les propriétés statistiques et la logique commerciale d'origine, y compris les "modèles statistiques profondément cachés". En revanche, l'anonymisation détruit les corrélations sous-jacentes.
- Les modèles de données synthétiques ont prédit le désabonnement de la même manière que les modèles formés sur les données originales. En revanche, les modèles de données anonymes n'ont pas donné de bons résultats.
- Les données synthétiques peuvent être utilisées pour former des modèles et comprendre les principales caractéristiques des données, tout en protégeant la vie privée en réduisant et en empêchant l'accès aux données originales.
- Les processus de génération de données synthétiques sont reproductibles. L'anonymisation est variable, incohérente et plus manuelle.
"Cette étude de cas renforce l'idée que les données synthétiques générées par l'IA offrent un accès rapide et facile à des données de haute qualité pour l'analyse et le développement de modèles", affirme M. van Unen. "Son approche de la protection de la vie privée dès la conception rend l'analyse, les essais et le développement plus souples."
Nous devons aborder les données synthétiques avec la plus grande prudence afin d'éviter les conséquences involontaires. Natalya Spicer Synthetic Data Product Manager SAS
Considérations éthiques sur les données synthétiques
Au fur et à mesure que l'utilisation des données synthétiques se répandra, les chambres fortes de données synthétiques deviendront également plus courantes. Ces référentiels partagés favoriseront la collaboration, la démocratisation des données et la pollinisation croisée des idées. Mais ils pourraient par inadvertance cautionner des préjugés, dissimuler des infractions à la protection de la vie privée et perpétuer des pratiques déloyales en matière de données.
Contrairement à la croyance populaire, les données synthétiques ne sont pas automatiquement privées ni ne préservent la vie privée. Si elle n'est pas mise en œuvre avec les contrôles et les tests appropriés, la génération de données synthétiques peut toujours entraîner des fuites de données privées.
"Les modèles génératifs peuvent être une "boîte noire". Pour garantir une utilisation responsable, ils nécessitent une validation rigoureuse, que l'industrie n'a pas encore complètement développée. Nous devons aborder les données synthétiques avec beaucoup de précautions pour éviter les conséquences imprévues," explique Natalya Spicer, responsable des produits de données synthétiques chez SAS.
droit à la vie privée est clair – nous pouvons le réglementer, établir des règles et tout le monde peut être soumis à ces règles. L'équité et la partialité ne sont pas aussi simples à réglementer. Si ces décisions subjectives sont laissées aux individus, les conséquences pourraient être à long terme. Nous avons donc besoin d'une gouvernance au niveau de l'entreprise jusqu'à ce qu'il y ait des réglementations gouvernementales plus complètes.
"Nous avons construit SAS® Viya® pour servir de plateforme d'entreprise pour l'utilisation conforme des données et de l'analytique, ce qui est crucial avec l'accélération de l'IA et des données synthétiques", déclare Spicer. "SAS Viya offre une traçabilité complète de la création des modèles, depuis les données brutes jusqu'aux modèles utilisés pour analyser leur exactitude.
L'avenir des données synthétiques et de l'IA
À mesure que l'intelligence artificielle et la science des données progressent, les données synthétiques deviennent de plus en plus importantes. La synergie entre les données synthétiques et les techniques émergentes permettra de créer des ensembles de données synthétiques encore plus sophistiqués et réalistes, repoussant encore les limites du possible.
La gouvernance jouera un rôle important à mesure que l'utilisation des données synthétiques évoluera. Les organisations doivent mettre en place des cadres de gouvernance solides, des pratiques d'audit des données et une communication claire sur les limites et les cas d'utilisation appropriés des données synthétiques. Les politiques d'étiquetage et d'identification de l'utilisation des données synthétiques deviendront également cruciales pour éviter les abus et les malentendus. En adoptant la puissance des données synthétiques, les scientifiques des données peuvent ouvrir de nouvelles frontières à l'innovation, développer des modèles d'IA plus robustes et plus fiables, et conduire une transformation qui a un impact positif sur notre monde.
Prêt à vous abonner à Insights ?
Lecture recommandée
- Fraude aux moyens de paiement : sécurisez vos transactionsLutte contre la fraude: Évolution, détection, prévention de L'IA face la fraude. SAS au service de la sécurité.
- Respond, recover and reimagineDisruptions to our lives happen regularly, though most are not as far-reaching as the COVID-19 pandemic. Whatever their nature, it’s helpful to have a plan for how to exit disruption still on your feet and in the game. Learn about the three-phase approach SAS recommends for mitigating widespread disturbances.
- Will health care be fundamentally changed post-COVID-19?Many market forces are supporting the transformation to virtual digital health programs -- the COVID-19 pandemic is just the latest compelling event.