Utilização de*** dados sintéticos para impulsionar avanços na AI
É difícil de acreditar, mas o surgimento da inteligência artificial criou, de certa forma, uma falta de dados. Não significa que haja poucos em si, entenda-se. Temos uma quantidade de dados assombrosa e que cresce exponencialmente (estimativas mostram que foram criados 120 zettabytes só em 2023). E este número pode duplicar até 2027!
Logo, o problema dos nossos dados atuais prende-se com a sua adequabilidade, e não com a quantidade. Os dados sintéticos – um produto da AI generativa – podem ser a solução.
Neste artigo iremos debater a importância dos dados sintéticos nas nossas iniciativas de AI sedentas por dados. Como é que as empresas e negócios podem utilizar dados sintéticos para desbloquear o crescimento? E quais os desafios éticos ainda por ser resolvidos?
O que são dados sintéticos? E porque precisamos deles?
Simplificando, os dados sintéticos são dados gerados de forma algorítmica que imitam os dados do mundo real. Conseguem gerar de forma aleatória – 100 000 datas de nascimento. Num piscar de olhos.
Habitualmente, os dados sintéticos preenchem lacunas para um determinado propósito de dados, por exemplo: 100 000 datas de nascimento de mulheres que se tenham registado para votar recentemente. O que é complexo e difícil.
O ponto forte dos dados sintéticos está nas pontas soltas e raridade de certos casos: um conjunto de dados de pacientes do sexo masculino, com cancro da próstata e idades inferiores a 35 anos, ou, em imagens de padrões de desgaste em anéis de pistões de bronze, por exemplo. Mas onde nos leva este raciocínio? À especificidade – raridade – que torna os dados mais difíceis de obter e, nalguns casos, mais arriscados de utilizar.
O Cientista de Dados Chefe da Accenture, Fernando Lucini, explica numa conversa no podcast com Kimberly Nevala, consultora estratégica do SAS, que os dados sintéticos também podem ajudar na privacidade dos dados. A informação pessoal privada (PPI) é guardada a 7 chaves nos serviços de saúde, sector público e até mesmo no comércio. Quando não podemos correr o risco de expor PPI, precisamos de substituir os dados para análise.
"Pedimos (à AI para criar...) dados com os mesmos padrões, mas com nenhuma das características dos dados originais. Simplificando, dados sintéticos, são dados gerados por máquinas, e são fac-símile – não são uma cópia, são uma reprodução exata – dos sinais e padrões dentro dos dados originais", explica Lucini.
Equivalências dos dados:
1 yottabyte (YB) = 1 000 zettabytes
1 zettabyte (ZB) = 1 000 exabytes
1 exabyte (EB) = 1 000 petabytes
1 petabyte (PB) = 1 000 terabytes
1 terabyte (TB) = 1 000 gigabytes
1 gigabyte (GB) = 1 000 megabytes
1 megabyte (MB) = 1 000 kilobytes
1 kilobyte (KB) = 1 000 bytes
Benefícios dos dados sintéticos
Aceder a dados vastos, diversificados e autênticos é crucial para treinar modelos de AI robustos. Não obstante, arranjar dados do mundo real pode ser difícil tendo em conta o aumento das preocupações em torno da privacidade, restrições legais, e elevados custos de aquisição e anotação de dados.
Os dados sintéticos podem ser criados com rótulos e anotações já incluídas – o que poupa tempo e recursos – e sem expor informação sensível porque as ligações às pessoas reais foram cortadas para garantir a privacidade da compilação de dados.
O que são dados anonimizados? De acordo com, Edwin Van Unen, SAS Principal Customer Advisor, a anonimização também não é a resposta. É inadequada, trabalhosa e inconsistente.
"É a má qualidade que faz com que seja quase impossível utilizar tarefas de análise avançadas como a AI ou a modelação e o dashboarding de aprendizagem automática”, explica van Unen.
Ora é por isso que os dados sintéticos são um ponto de viragem. Espelham as originais propriedades estatísticas e correlações. Os conjuntos de dados são altamente úteis para testar e treinar modelos de previsão precisos, sem a necessidade de mascarar informações sensíveis. Esta abordagem através de "gémeos sintéticos" ajuda a contrariar preconceitos e conseguir um anonimato quase perfeito.
Infográfico
Porque é que os dados sintéticos são essenciais para o futuro - orientado por AI - da sua organização?
Vejamos 4 tipos básicos de dados sintéticos e com que frequência são utilizados
- Os dados sintéticos estruturados representam pessoas, produtos, outras entidades e as suas atividades ou atributos – incluindo clientes e respetivos hábitos de consumo, ou pacientes e sintomas, medicamentos e diagnósticos.
- As imagens sintéticas são cruciais para treinar a deteção de objetos, fazer a classificação de imagens e segmentação. Estas imagens são úteis para a deteção de cancros precocemente, descoberta de medicamentos e testes clínicos, ou até ensinar carros a conduzirem-se sozinhos. As imagens sintéticas podem ser utilizadas em casos extremos ou raros, onde há poucos ou nenhuns dados disponíveis, como se fossem sinais de trânsito orientados em horizontalidade.
- O texto sintético pode ser concebido e ajustado para permitir um processamento de linguagem natural (NLP) robusto e versátil, para modelos de tradução, análise de sentimentos e geração de texto para aplicações como a deteção de fraudes e testes de esforço.
- As séries temporais de dados sintéticos (incluindo dados de sensores) podem ser utilizadas em sistemas de radares, leituras de sensores da internet das coisas (IoT) e deteção e alcance de luz. Podem ser extremamente valiosas para manutenções autónomas e preditivas em sistemas veiculares, onde ter mais dados pode providenciar segurança e confiança.
SAS® Data Maker – Pré-visualização
Proteja os dados existentes, inove com maior rapidez e garanta resultados expansíveis, através de uma interface com pouco/nenhum código para aumentar ou gerar dados com rapidez. Desbloqueie o potencial dos dados existentes com o SAS Data Maker.
Criando dados sintéticos: Quando utilizar SMOTE vs. GAN
Gerar dados com regras de negócios e lógica de negócios não é um conceito novo. A AI traz uma camada de precisão à geração de dados ao introduzir algoritmos que utilizam dados existentes para modelar automaticamente os valores e as relações adequadas.
2 técnicas de AI populares no que toca a gerar dados sintéticos:
- Técnica de Sobreamostragem de Minorias Sintéticas (SMOTE)
- Rede adversária generativa (GAN)
A SMOTE é uma técnica de interpolação inteligente. Funciona através de uma amostra de dados reais e gera pontos de dados, entre pontos aleatórios e os vizinhos mais próximos. Desta forma, a SMOTE permite-lhe focar-se nos seus pontos de interesse, tais como, classes sub-representadas, e criar pontos semelhantes para equilibrar o conjunto de dados e melhorar a precisão geral dos modelos preditivos.
Por outro lado, a GAN é a técnica que gera dados através de um treino sofisticado do modelo de aprendizagem profunda, para representar os dados originais. A GAN combina 2 redes neurais: um gerador para criar dados sintéticos e um discriminador que os tenta detetar. Esta relação adversarial iterativa produz dados sintéticos incrivelmente realistas, pois o discriminador não consegue discernir facilmente a diferença entre dados sintéticos e reais. O processo de treino pode ser moroso e habitualmente precisa de unidades de processamento gráfico (GPUs), mas pode captar relações altamente não lineares e complexas entre variáveis e, assim, produzir dados sintéticos muito precisos. Também pode gerar dados nos limites, ou que vão além dos limites dos dados originais, que podem representar dados potencialmente novos que, de outra forma, seriam negligenciados.
Um teste: Dados sintéticos vs. dados anonimizados
A SAS e um parceiro testaram a viabilidade dos dados sintéticos como uma alternativa aos dados anónimos utilizando um conjunto de dados de rotatividade, de um cliente de telecomunicações do mundo real (leia o artigo no blogue: Utilizando os dados sintéticos para maior rapidez e facilidade no acesso a dados de alta qualidade). Van Unen, explicou que a equipa avaliou o resultado da qualidade dos dados, validade legal e usabilidade.
O que se descobriu:
- Os dados sintéticos mantiveram as suas propriedades estatísticas originais e lógica de negócios, incluindo "padrões estatísticos que estavam escondidos nas suas profundezas.". Face à anonimização que destruiu as ligações subjacentes.
- Os modelos de dados sintéticos previram a rotatividade de forma semelhante aos modelos treinados com dados originais. Enquanto os dados anonimizados tiveram um fraco desempenho.
- Os dados sintéticos podem ser utilizados para treinar modelos e características chave dos dados, ao mesmo tempo que protegem a privacidade reduzindo ou impedindo o acesso aos dados originais.
- É possível reproduzir os processos de geração de dados sintéticos. A anonimização é variável, inconsistente e uma tarefa mais manual.
"Este caso de estudo reforça a ideia de que os dados sintéticos, gerados por AI, proporcionam um acesso rápido e fácil a dados de alta qualidade para análise e desenvolvimento de modelos”, afirma Van Unen. "A sua abordagem de privacidade assegurada de raiz tornam a análise, testagem e desenvolvimento uma tarefa mais ágil.".
Devemos abordar os dados sintéticos com muito cuidado devido às consequências indesejadas. Natalya Spicer Synthetic Data Product Manager SAS
Considerações éticas acerca dos dados sintéticos
À medida que o uso dos dados sintéticos se dissemina, também os cofres de dados sintéticos serão cada vez mais comuns. Estes repositórios partilhados irão fomentar a colaboração, democratização dos dados e polinização cruzada de ideias. Porém, podem inadvertidamente contribuir para a criação de preconceitos, esconder infrações na privacidade dos dados e perpetuar práticas injustas em matéria de dados.
Contrariamente à crença popular, Lucini argumenta que os dados sintéticos não são nem automaticamente privados nem automaticamente uma salvaguarda da privacidade. Se não forem implementados com as medidas de controlo e testagem certas, a geração de dados sintéticos ainda pode levar a falhas na privacidade.
"Os modelos generativos podem ser como uma "caixa negra". Para garantir uma utilização responsável, exigem uma validação rigorosa, que a indústria ainda não desenvolveu bem. Temos de abordar os dados sintéticos com grande cuidado para evitar consequências indesejadas," diz Natalya Spicer, Synthetic Data Product Manager na SAS.
O direito à privacidade é claro como água – podemos fazer a sua regulação, criar mais regras, e todas as pessoas estão sujeitas a essas regras. Porém, a equidade e a parcialidade não são assim tão simples de regular. Se essas decisões subjetivas ficarem para qualquer tipo de pessoa, o impacto a longo prazo poderá ter consequências devastadoras. Por isso, precisamos de governança ao nível das empresas até que haja regulações mais abrangentes por parte dos governos.
“Construímos o SAS® Viya® para servir de plataforma empresarial para usar em conformidade com os dados e análise, que é crucial, tendo em conta a aceleração da AI e dados sintéticos,” diz Spicer. "O SAS Viya é totalmente rastreável considerando a forma como os modelos são criados, desde os dados não processados e modelos utilizados até à análise e respetiva precisão.".
O futuro dos dados sintéticos e AI
À medida que a inteligência artificial e ciência de dados avançam, os dados sintéticos irão, logicamente, ganhar maior destaque. A sinergia entre dados sintéticos e técnicas emergentes permitirá a criação de ainda mais realistas e mais sofisticados conjuntos de dados sintéticos, alargando as fronteiras daquilo que já é possível.
A governança irá desempenhar um papel fulcral com a evolução dos dados sintéticos. As organizações devem implementar quadros de governança robustos, práticas de auditoria de dados, e uma comunicação clara quanto às limitações e casos de utilização adequados para os dados sintéticos. Políticas para rotular e identificar o uso de dados sintéticos também serão cruciais para evitar utilizações incorretas e mal-entendidos. Ao abraçar o poder dos dados sintéticos, os cientistas de dados podem desbloquear novas fronteiras da inovação, desenvolver modelos de AI mais confiáveis e robustos, e impulsionar a transformação que impacta o nosso mundo de forma positiva.
Está pronto para subscrever a Insights agora?
Leitura recomendada
- Containing health care costs: Analytics paves the way to payment integrityTo ensure payment integrity, health care organizations must uncover a broad range of fraud, waste and abuse in claims processing. Data-driven analytics – along with rapid evolutions in the use of computer vision, document vision and text analytics – are making it possible.
- Analytics: A must-have tool for leading the fight on prescription and illicit drug addictionStates and MFCUs now have the analytics tools they need to change the trajectory of the opioid crisis by analyzing data and predicting trouble spots – whether in patients, prescribers, distributors or manufacturers. The OIG Toolkit with free SAS® programming code makes that possible.
- Detetar e prevenir a fraude nas aplicações bancáriasA fraude nos créditos, por norma, começa por uma candidatura falsa. É por isso que é tão importante usar a análise logo no ponto de partida. Aprenda como a análise e a aprendizagem automática podem detetar fraudes logo nos primeiros pontos de contacto dos pedidos ao reconhecer os maiores desafios – identidades sintéticas.