Extração de Dados
O que é e porque é importante
A extração de dados é um processo de procura de anomalias, padrões e correlações em grandes conjuntos de dados para prever resultados. Ao usar um vasto leque de técnicas, pode usar esta informação para aumentar receitas, reduzir custos, melhorar as relações com clientes, reduzir riscos e muito mais.
História da Extração de Dados
O processo de procurar entre os dados para descobrir ligações ocultas e prever tendências futuras tem uma longa história. Por vezes este processo é referido como "conhecimento escondido nas bases de dados", mas o termo "extração de dados" só foi cunhado nos anos noventa. É de notar que as suas raízes englobam três disciplinas científicas interligadas: estatística (o estudo numérico das relações entre dados), inteligência artificial (inteligência semelhante à dos humanos que é mostrada por softwares e/ou máquinas) e aprendizagem automática (através de algoritmos que aprendem por meio de dados, e, por conseguinte, fazem previsões). O que era velho voltou a estar na moda, e as tecnologias de extração de dados continuam a evoluir para acompanhar o ritmo do potencial ilimitado dos big data e poder computacional economicamente acessível.
Ao longo da última década, os avanços no poder de processamento e velocidade permitiram-nos ir além das práticas manuais, tediosas e consumidoras de tempo, o que tornou a análise de dados fácil e automatizada. Quanto mais complexos forem os conjuntos de dados recolhidos, maior o potencial de descobrir recomendações personalizadas de relevo. Comerciantes, bancos, fabricantes, fornecedores de telecomunicações e seguradoras, entre outros setores, estão a usar a extração de dados para descobrir ligações entre tudo o que for possível. Tudo é estudado, desde a otimização de preços, promoções e dados demográficos a como a economia, risco, competição e redes sociais estão a ter efeitos nos seus modelos de negócios, receitas, operações e relações com o cliente.
Porque é que a extração de dados é tão importante?
Então, qual a importância da extração de dados? Já teve a oportunidade de ver os impressionantes números – o volume de dados produzido está a duplicar a cada 2 anos. Só apenas os dados não estruturados constituem 90% do universo digital. Não obstante, mais informação não é necessariamente sinónimo de maior conhecimento.
A extração de dados permite-lhe:
- Separar o trigo do joio no meio do caos e ruído dos seus dados.
- Compreender o que é relevante e depois tirar bom proveito dessa informação para conseguir os melhores e mais fiáveis resultados.
- Acelerar o ritmo da tomada de decisões bem informadas.
- Descobrir novas recomendações personalizadas através dos dados ao usar análises de previsão.
A Extração de Dados na Atualidade
A extração de dados é uma base da análise, ajudando a desenvolver modelos que conseguem deslindar ligações entre milhões, ou milhares de milhões de registos. Fique a saber como é que a extração de dados está a moldar o mundo em que vivemos.
Data mining software
Data mining software from SAS uses proven, cutting-edge algorithms designed to help you solve the biggest challenges.
Quem utiliza?
A extração de dados está no centro dos esforços de análise em várias indústrias e disciplinas.
Num mercado lotado, onde a competição é renhida, normalmente é possível encontrar respostas entre os dados dos consumidores. A Telecom e empresas de media e tecnologia podem usar os modelos de análise para tirar conclusões de enormíssimas quantidades de dados dos clientes, isto ajuda a prever o comportamento dos clientes e a oferecer campanhas altamente segmentadas e relevantes.
Com este conhecimento analítico, as empresas de seguros podem solucionar problemas complexos relacionados com fraudes, conformidade, gestão do risco, e atritos com clientes. As empresas têm usado técnicas de extração de dados para precificar produtos de forma mais eficiente, em várias linhas de negócios, e a encontrar novas formas de oferecer produtos competitivos à sua base de clientes já existentes.
Através de uma visão unificada e baseada em dados de progresso dos alunos, pode ser possível aos docentes prever o desempenho dos alunos antes de entrarem na sala de aula – e desenvolver estratégias para estes se manterem no bom caminho. A extração de dados ajuda os docentes a aceder aos dados dos alunos, prever níveis de desempenho, e identificar estudantes ou grupos de estudantes que precisem de maior apoio.
Alinhar os planos de abastecimento de acordo com a geração de previsões de procura é tão importante quanto a deteção de problemas iniciais, garantia de qualidade, e investimento no capital social da marca. Os fabricantes podem prever o desgaste dos ativos de produção e antecipar a sua manutenção, maximizando-os ao longo do tempo e assim possibilitando a boa manutenção da produção no seu devido calendário.
Algoritmos automatizados ajudam os bancos a compreender a sua base de clientes bem como os milhares de milhões de transações que estão no centro do sistema financeiro. A extração de dados ajuda as empresas de serviços financeiros a ganhar uma melhor visão acerca dos riscos de mercado, a detetar e prevenir fraudes rapidamente, a gerir obrigações de conformidade e a obter um excelente retorno dos seus investimentos em marketing.
Bases de dados (de clientes) de grandes dimensões contêm informações escondidas sobre clientes, as quais podem ajudar a melhorar relações, otimizar campanhas de marketing e a prever vendas. Através de modelos de dados mais precisos e análises de marketing, as empresas de retalho podem oferecer campanhas mais segmentadas – e encontrar a oferta que melhor se adequa e traz maior impacto ao cliente.
Saber mais sobre indústrias a usar esta tecnologia
- Agricultura
- Banca (Serviços bancários)
- Mercados de capital
- Casinos
- Bens de consumo
- Cuidados de Saúde
- Educação Superior
- Hóteis
- Seguros
- Ciências da Vida
- Fabrico (manufactura)
- Petróleo e Gás
- Educação Pré-Escolar (até aos 12 anos)
- Sector Público
- Comércio
- Pequenas e Médias Empresas
- Análise de Desportos
- Viagens e Transportes
- Telecom, Media e Tecnologia
- Serviços Públicos
Como Funciona
A extração de dados, enquanto disciplina mista, representa uma variedade de métodos ou técnicas utilizadas para diferentes capacidades analíticas que abordam a imensidão das necessidades organizacionais, colocam vários tipos de questões e usam vários níveis de contribuição humana, ou regras para chegar a uma decisão.
Modelagem descritiva põe a descoberto similaridades partilhadas ou grupos de dados históricos para determinar as razões por trás de um sucesso ou fracasso – aqui está incluída a categorização dos clientes através das preferências de produtos, ou seus sentimentos. Estão incluídas as seguintes técnicas de amostragem:
Colocação em cluster | Agrupamento de registos semelhantes em conjuntos. |
Deteção de anomalias
| Identificação de valores atípicos multidimensionais.
|
Aprendizagem por regras de associação
| Deteção de relações entre registos.
|
Análise dos componentes principais
| Deteção de relações entre variáveis. |
Agrupamento por afinidade | Agrupar pessoas com interesses comuns ou objetivos semelhantes (por exemplo, pessoas que compram X também costumam comprar Y, e talvez também Z). |
Modelagem preditiva vai para além de classificar eventos no futuro, ou de estimar resultados desconhecidos – por exemplo, serve-se do credit scoring para determinar a possibilidade de uma pessoa pagar um empréstimo. A modelagem de previsão também ajuda a descobrir informações sobre a perda de clientes, resposta a campanhas ou incumprimento de créditos. Estão incluídas as seguintes técnicas de amostragem:
Regressão | Uma medida que mede a força numa relação entre uma variável dependente e uma série de variáveis independentes. |
Redes neurais | Programas de computadores que detetam padrões, fazem previsões e aprendem. |
“Decision trees” - Árvores de Decisão | Diagramas em forma de árvore em que cada ramo representa uma ocorrência provável. |
Máquinas vetoriais de suporte | Modelos de aprendizagem supervisionada com algoritmos de aprendizagem associados. |
Modelagem prescritiva. Com o crescimento dos dados não estruturados da web, secções de comentários, livros, e-mails, PDFs e outras fontes textuais, a inclusão da extração de texto como uma disciplina relacionada à extração de dados também cresceu significativamente. É necessária a aptidão de analisar, filtrar e transformar os dados não estruturados para os incluir nos modelos de previsão a fim de melhorar a precisão da previsão.
Por último, não deve olhar para a extração de dados como algo independente, ou seja, uma entidade à parte. Isto porque o pré-processamento (preparação de dados, exploração de dados) e pós-processamento (validação de modelo, scoring, monitorização de desempenho de modelo) são igualmente importantes. A modelagem prescritiva olha para as variáveis externas e internas, e restrições, para lhe recomendar uma ou mais linhas de ação – por exemplo, determinar qual a melhor oferta de marketing a enviar para cada cliente em particular. Estão incluídas as seguintes técnicas de amostragem:
Análise preditiva e regras | Desenvolver regras SE/ENTÃO através de padrões e previsão de resultados. |
Otimização de marketing | Simular a mais vantajosa mistura de marketing em tempo real para obter o máximo ROI possível. |
Leitura recomendada
- Fraud detection and machine learning: What you need to knowMachine learning and fraud analytics are critical components of a fraud detection toolkit. Discover what you’ll need to get started defending against fraud – from integrating supervised and unsupervised machine learning in operations to maintaining customer service.
- Five AI TechnologiesDo you know the difference between artificial intelligence and machine learning? And can you explain why computer vision is an AI technology? Find out in this short explainer.
- A guide to machine learning algorithms and their applicationsDo you know the difference between supervised and unsupervised learning? How about the difference between decision trees and forests? Or when to use a support vector algorithm? Get all the answers here.
- Introduction to machine learning: Five things the quants wish we knewMachine learning is gaining momentum thanks to bigger, more complex data sets. How does it work? Kimberly Nevala from SAS Best Practices explains what it is by focusing on what it isn't.