Gestão da qualidade dos dados: O que precisa de saber
Por: John Bauman, SAS Insights Editor
À medida que as organizações recolhem mais dados, a gestão da qualidade desses dados torna-se mais importante a cada dia. Afinal de contas, os dados são a força vital da sua organização. A gestão da qualidade dos dados ajuda, combinando cultura organizacional, tecnologia e dados para fornecer resultados precisos e úteis.
A qualidade dos dados não é boa ou má, alta ou baixa. É uma categoria ou escala, que mede a saúde do fluxo de dados em toda a sua organização. Para alguns processos, uma lista de marketing com 5% de nomes duplicados e 3% de endereços errados, pode ser aceitável. Mas se estiver a cumprir os requisitos regulamentares, o risco de multas exige níveis mais elevados de qualidade dos dados.
A gestão da qualidade dos dados proporciona um processo em determinado contexto que visa melhorar a conformidade dos dados que são utilizados para análises e tomadas de decisão. O objetivo é desenvolver conhecimentos sobre a saúde desses dados, utilizando vários processos e tecnologias em conjuntos de dados cada vez maiores e mais complexos.
Porque é que precisamos de gestão da qualidade dos dados?
A gestão da qualidade dos dados é um processo essencial para a compreensão dos seus dados, o que pode, em última análise, ajudar o seu resultado final.
Primeiro, a boa gestão da qualidade dos dados constrói uma base para todas as iniciativas empresariais. Dados desatualizados ou não fiáveis podem conduzir a erros e passos errados. Um programa de gestão da qualidade dos dados estabelece um quadro para todos os departamentos da organização que prevê - e aplica - regras para a qualidade dos dados.
Em segundo lugar, dados precisos e atualizados fornecem uma ideia clara das operações diárias da sua empresa para que possa ter confiança nas aplicações a montante e a jusante que utilizam todos esses dados. A gestão da qualidade dos dados também reduz os custos desnecessários. A má qualidade pode levar a erros e excessos dispendiosos, como a perda de registo de encomendas ou gastos. A gestão da qualidade dos dados constrói uma base de informação que lhe permite compreender a sua organização e as suas despesas, tendo um domínio firme dos seus dados.
Finalmente, é necessária uma gestão da qualidade dos dados para cumprir os objetivos de conformidade e de risco. A boa governação dos dados requer procedimentos e comunicação claros, bem como bons dados subjacentes. Por exemplo, um comité de gestão de dados pode definir o que deve ser considerado "aceitável" para a saúde dos dados. Mas como é que o define na base de dados? Como se monitorizam e aplicam as políticas? A qualidade dos dados é uma implementação da política ao nível da base de dados.
A qualidade dos dados é uma parte importante da implementação de um quadro de governação de dados. E a boa gestão da qualidade dos dados apoia os administradores de dados no desempenho das suas funções.
Quer ver a gestão de dados a funcionar no mundo real?
Descubra como uma base sólida de gestão de dados lhe dá dados em que pode confiar e o ajuda a resolver problemas de negócios diários.
Download gratuito do paper
As dimensões da gestão da qualidade dos dados
Há várias dimensões de qualidade de dados em uso. E a lista continua a crescer à medida que os dados aumentam em tamanho e diversidade; no entanto, algumas das principais dimensões permanecem constantes em todas as fontes de dados.
- A exatidão mede o grau de fiabilidade dos valores dos dados - e é primordial para a capacidade de tirar conclusões rigorosas a partir dos seus dados.
- A integralidade significa que todos os elementos de dados têm valores tangíveis.
- A coerência centra-se em elementos de dados uniformes entre as diferentes instâncias de dados, com valores retirados de um domínio conhecido de dados de referência.
- A idade aborda o facto de que os dados devem ser frescos e atuais, com valores permanentemente atualizados em toda a extensão.
- A singularidade demonstra que cada registo ou elemento é representado uma vez dentro de um conjunto de dados, ajudando a evitar duplicações.
Principais características da gestão da qualidade dos dados
Um bom programa de qualidade de dados utiliza um sistema com uma variedade de características que ajudam a melhorar a fiabilidade dos seus dados.
Primeiro, a limpeza de dados ajuda a corrigir registos duplicados, representações de dados não-padronizados e tipos de dados desconhecidos. A limpeza reforça as regras de normalização de dados que são necessárias para fornecer conhecimentos a partir dos seus conjuntos de dados. Isto também estabelece hierarquias e definições de dados de referência para os personalizar de acordo com as suas necessidades únicas.
A caracterização de dados, o ato de monitorizar e limpar dados, é utilizado para os validar contra medidas estatísticas padrão, descobrir relações e verificar dados contra descrições correspondentes. As etapas de definição de perfis de dados estabelecerão tendências para o ajudar a descobrir, compreender e potencialmente expor inconsistências nos seus dados.
Validar as regras de negócio, e criar um glossário e uma linhagem para o negócio, ajudam-no a agir com base em dados de má qualidade antes que prejudiquem a sua organização. Isto implica a criação de descrições e requisitos para traduções de termos comerciais de sistema para sistema. Os dados também podem ser validados contra medidas estatísticas padrão ou regras personalizadas.
Para além destas características-chave, ter uma visão centralizada da atividade empresarial através de uma plataforma de gestão de dados é uma forma fundamental de tornar o processo mais simples.
Dados exatos e atualizados fornecem uma ideia clara das operações diárias da sua empresa para que possa ter confiança nas aplicações a montante e a jusante que utilizam todos esses dados.
Qual a importância da gestão da qualidade dos dados para os Big Data?
Os Big Data têm e continuarão a ter uma influência disruptiva nas empresas.Consideremos os volumes maciços de dados de streaming de dispositivos conectados na Internet das Coisas, ou os numerosos pontos de rastreio de envios que inundam servidores de negócios e que têm de ser percorridos ao detalhe para análise.Com todos esses Big Data vem maiores problemas de gestão da qualidade dos dados. Estes podem ser resumidos em três pontos principais.
Reformulação
Hoje em dia, há uma reformulação exacerbada dos mesmos conjuntos de dados em contextos diferentes. Esta ação tem o efeito negativo de dar aos mesmos dados significados diferentes em configurações diferentes - e de levantar questões sobre a validade e consistência dos dados. É, por isso necessária, uma boa qualidade de dados para compreender estes grandes conjuntos de dados estruturados e não estruturados.
Validação
Ao utilizar os conjuntos de dados criados externamente que são comuns em Big Data, pode ser difícil incorporar controlos para validação. Corrigir os erros tornará os dados inconsistentes na sua fonte original, mas manter a coerência pode significar fazer algumas concessões em matéria de qualidade.Esta questão do equilíbrio da supervisão com conjuntos de Big Data, requer características de gestão da qualidade dos dados que possam fornecer uma solução.
Rejuvenescimento
O rejuvenescimento dos dados prolonga a vida útil da informação histórica que anteriormente possa ter sido deixada em armazenamento, mas também aumenta a necessidade de validação e governação. Novos conhecimentos podem ser extraídos de dados antigos - mas primeiro, esses dados devem ser corretamente integrados em conjuntos de dados mais recentes.
Onde e quando deve acontecer a qualidade dos dados?
É possível observar melhor a gestão da qualidade dos dados em ação através da lente de um problema de dados dos tempos modernos. Em aplicações da vida real, problemas de dados diferentes requerem latências diferentes.
Por exemplo, há uma necessidade de qualidade de dados em tempo real quando se está a processar uma transação com um cartão de crédito. Isto poderia assinalar compras fraudulentas, ajudando tanto clientes como empresas. Mas, se estiver a atualizar cartões de fidelização e pontos de recompensa para um mesmo cliente, pode fazer o processamento noturno para esta tarefa de menor pressão. Em ambos os casos, está a aplicar os princípios da gestão da qualidade dos dados no mundo real. E ao mesmo tempo, está a reconhecer as necessidades dos seus clientes e a abordar a tarefa da forma mais eficiente e útil possível.
Leitura recomendada
- Article The five D's of data preparationFrom discovering which data is best to use, to delivering it in the right format to users, learn why these 5 D’s are essential to data preparation.
- Article Data management backgrounderFrom data integration to data quality and data preparation, find out what these terms mean and why they’re so important for your analytics projects.
- Article Data lake and data warehouse – know the differenceData lake – is it just marketing hype or a new name for a data warehouse? Find out what a data lake is, how it works and when you might need one.
- Article Three C’s of the connected customer in the IoTTo optimize the connected customer experience, Blue Hill Research says organizations should build an IoT model based on three key features.
Está agora pronto para subscrever o Insights?
SAS® Viya™
Make analytics accessible to everyone and bridge the talent gap in your organization