Análises Preditivas
O que são e qual sua importância?
Análises preditivas usam dados, algoritmos estatísticos e técnicas de machine learning para identificar a probabilidade de resultados futuros, a partir de dados históricos. O objetivo é ir além de saber o que aconteceu para obter uma melhor avaliação do que poderá acontecer no futuro.
História e avanços recentes das análises preditivas
Embora a análise preditiva já exista há décadas, essa tecnologia está ganhando visibilidade. Mais e mais organizações estão realizando análises preditivas para aumentar sua lucratividade e ganhar uma vantagem competitiva. Porque agora?
- Volumes e tipos de dados crescentes, e mais interesse em usar dados para produzir informações valiosas;
- Computadores mais rápidos e baratos;
- Softwares mais fáceis de usar;
- Condições econômicas mais rígidas e necessidade de diferenciação competitiva.
Com a predominância de softwares interativos e fáceis de usar, a análise preditiva deixou de ser exclusiva de matemáticos e estatísticos. Analistas de negócios e especialistas em linhas de negócios também estão usando essa tecnologia.
Qual a importância da análise preditiva?
As organizações estão realizando análises preditivas para resolver problemas difíceis e descobrir novas oportunidades. Usos comuns incluem:
Detectar fraude. A combinação de vários métodos analíticos pode melhorar a detecção de padrões e prevenir comportamentos criminosos. À medida que a segurança cibernética se torna uma preocupação cada vez maior, a análise comportamental de alta performance examina todas as ações em uma rede, em tempo real, para identificar anormalidades que podem indicar fraude, vulnerabilidades de dia zero e ameaças persistentes avançadas.
Otimizar campanhas de marketing. A análise preditiva é usada para determinar as respostas ou compras dos clientes, além de promover oportunidades de venda cruzada. Os modelos preditivos ajudam as empresas a atrair, reter e expandir seus clientes mais valiosos.
Melhorar operações. Muitas empresas usam modelos preditivos para prever o estoque e gerenciar recursos: companhias aéreas usam análises preditivas para definir os preços das passagens; hotéis tentam prever o número de hóspedes em qualquer noite para maximizar a ocupação e aumentar a receita. A análise preditiva permite que as organizações funcionem de maneira mais eficiente.
Reduzir o risco. As pontuações de crédito são usadas para avaliar a probabilidade de padrões de compra de um consumidor e são um exemplo bem conhecido de análise preditiva. Uma pontuação de crédito é um número gerado por um modelo preditivo que incorpora todos os dados relevantes para a credibilidade de uma pessoa. Outros usos relacionados a riscos incluem reclamações e ativações de seguros.
Análise preditiva no mundo de hoje
Com a análise preditiva, você pode ir além de entender o que e por que uma coisa aconteceu para descobrir insights sobre o futuro. Saiba como a análise preditiva molda o mundo em que vivemos.
Got a predictive analytics skills gap?
Turning raw numbers into valuable insights requires help from professionals skilled in AI, machine learning and data analytics. But talent is in short supply. Discover strategies to address this dilemma.
Put predictive analytics to good use
Wondering what you could learn by exploring trends and making predictions with your organization’s data? Read about seven organizations using analytics to gain customer insights, make better decisions and grow their businesses.
How to predict the uncontrollable
Natural disasters are here to stay. But we can minimize their destruction by predicting and preparing for events like floods. Learn how organizations are using AI and predictive analytics to make the world safer.
Improve uptime with analytics
Laboratories can’t afford downtime when sending results to doctors, clinicians and researchers. See how Siemens Healthineers used SAS to develop a predictive maintenance solution to improve system uptime by 36%.
Análise preditiva
Os softwares de mineração de dados do SAS® usam algoritmos avançados e confiáveis, projetados para ajudar você a solucionar seus maiores desafios.
Quem está usando?
Qualquer indústria pode usar a análise preditiva para reduzir riscos, otimizar operações e aumentar a receita. Eis alguns exemplos.
Bancos e serviços financeiros
O setor financeiro, com enormes quantidades de dados e dinheiro em jogo, há muito tempo adotou a análise preditiva para detectar e reduzir fraudes, medir o risco de crédito, maximizar as oportunidades de venda e venda cruzada, e reter clientes valiosos. O Commonwealth Bank usa analytics para prever a probabilidade uma transação ser fraudulenta antes dela ser autorizada – ou seja, dentro de 40 milissegundos do início da transação.
Varejo
Depois do, agora infame, estudo que mostrou que homens que compram fraldas frequentemente também adicionam cerveja ao carrinho, varejistas do mundo inteiro estão usando análises preditivas para determinar quais produtos estocar, a eficácia de eventos promocionais e quais ofertas são mais apropriadas para os consumidores. A Staples analisa o comportamento do consumidor para obter uma visão completa de seus clientes, conquistando assim um ROI de 137%.
Petróleo, gás e utilities
Seja prevendo falhas de equipamentos e futuras necessidades de recursos, mitigando riscos de segurança e confiabilidade, ou melhorando o desempenho geral, o setor de energia adotou a análise preditiva com vigor. O Salt River Project é o segundo maior utilitário de energia pública nos EUA e um dos maiores fornecedores de água do Arizona. Análises de dados de sensores de máquinas preveem quando turbinas geradoras de energia precisam de manutenção.
Governo e setor público
Os governos têm sido atores-chave no avanço das tecnologias de computação. O US Census Bureau vem analisando dados para entender as tendências populacionais há décadas. Os governos agora usam a análise preditiva como muitos outros setores – para melhorar o serviço e seu desempenho, detectar e prevenir fraudes, e entender melhor o comportamento do consumidor. Eles também usam análise preditiva para aprimorar a segurança cibernética.
Seguros de saúde
Além de detectar fraudes, a indústria de seguros de saúde está tomando medidas para identificar os pacientes com maior risco de doenças crônicas e descobrir quais são as melhores intervenções. A Express Scripts, uma grande empresa de benefícios farmacêuticos, usa analytics para identificar aqueles que não aderem aos tratamentos prescritos, resultando em uma economia de US$ 1.500 a US$ 9.000 por paciente.
Manufatura
Para os fabricantes, é muito importante identificar os fatores que levam à redução da qualidade e às falhas de produção, bem como otimizar as peças, os recursos de serviço e a distribuição. A Lenovo usa análises preditivas para entender melhor os pedidos de garantia – uma iniciativa que a levou a uma redução de 10% a 15% nos custos.
Veja como diferentes indústrias estão usando esta tecnologia
- Automotiva
- Bancária
- Bens de Consumo
- Defesa & Segurança
- Educação
- Ensino Superior
- Esportes
- Financeira
- Governo
- Hotelaria
- Life Sciences
- Manufatura
- Mídia
- Operadoras de Saúde
- Pequenas e Médias Empresas
- Petróleo & Gás
- Seguros
- Seguros de Saúde
- Tecnologia
- Telecomunicações
- Turismo & Transportes
- Utilities
- Varejo
Dando magia ao Magic
Sports analytics é uma área em crescimento, parcialmente graças às previsões de campeonatos e de Nate Silver. O Orlando Magic, da NBA, usa soluções de análise preditiva do SAS para melhorar a receita e determinar o time inicial. Os usuários corporativos da organização Orlando Magic têm acesso instantâneo às informações. O Magic agora pode explorar os dados mais recentes visualmente, o que inclui o jogo e a plateia.
Análises preditivas de texto
Aproximadamente 90% de todos os dados não são estruturados. Você está aproveitando a análise preditiva para encontrar insights em todos os dados?
Como funciona?
Os modelos preditivos usam resultados conhecidos para desenvolver (ou treinar) um modelo que pode ser usado para prever valores para dados diferentes ou novos. A modelagem fornece resultados na forma de previsões que representam uma probabilidade da variável de destino (por exemplo, receita) com base na importância estimada de um conjunto de variáveis de entrada.
Isso é diferente dos modelos descritivos que ajudam você a entender o que aconteceu, ou dos modelos de diagnóstico que ajudam você a entender as principais relações e a determinar por que algo aconteceu. Livros inteiros são dedicados a métodos e técnicas analíticas. Currículos universitários completos aprofundam-se nesse assunto. Mas, para começar, aqui estão algumas noções básicas.
Existem dois tipos de modelos preditivos. Modelos de classificação preveem associações de classe. Por exemplo, você pode prever a probabilidade de uma pessoa pedir demissão, responder a uma solicitação, se ela é um bom ou mau risco de crédito etc. Geralmente, os resultados do modelo estão na forma de 0 ou 1, sendo 1 o evento que você está segmentando. Os modelos de regressão predizem um número – por exemplo, quanta receita um cliente gerará no próximo ano ou o número de meses antes de um componente falhar em uma máquina.
Três das técnicas de modelagem preditiva mais utilizadas são árvores de decisão, regressão e redes neurais.
Regressão (linear e logística) é um dos métodos mais populares em estatística. A análise de regressão estima relações entre variáveis. Destinada a dados contínuos que podem seguir uma distribuição normal, ela encontra padrões essenciais em grandes conjuntos de dados e é frequentemente usada para determinar quanto cada fator específico, como o preço, influencia o movimento de um ativo. Com a análise de regressão, queremos predizer um número, chamado de resposta ou variável Y. Com regressão linear, uma variável independente é usada para explicar e/ou prever o resultado de Y. Já a regressão múltipla usa duas ou mais variáveis independentes para prever o resultado. Com a regressão logística, variáveis desconhecidas de uma variável discreta são previstas com base no valor conhecido de outras variáveis. A variável de resposta é categórica, o que significa que pode assumir apenas um número limitado de valores. Com a regressão logística binária, uma variável de resposta tem apenas dois valores, como 0 ou 1. Na regressão logística múltipla, uma variável de resposta pode ter vários níveis, como baixo, médio e alto, ou 1, 2 e 3.
As árvores de decisão são modelos de classificação que particionam dados em subconjuntos com base em categorias de variáveis de entrada. Isso ajuda você a entender o caminho de decisões de uma pessoa. Uma árvore de decisão parece uma árvore com cada ramo representando uma escolha entre um número de alternativas, e cada folha representando uma classificação ou decisão. Este modelo analisa os dados e tenta encontrar a variável que divide os dados em grupos lógicos diferentes. As árvores de decisão são populares porque são fáceis de entender e interpretar. Elas também lidam bem com valores ausentes e são úteis para a seleção preliminar de variáveis. Portanto, se você tem muitos valores ausentes ou deseja uma resposta rápida e facilmente interpretável, pode começar com uma árvore.
As redes neurais são técnicas sofisticadas capazes de modelar relações extremamente complexas. Elas são populares porque são poderosas e flexíveis. Seu poder vem de sua capacidade de lidar com relações não-lineares em dados, o que é cada vez mais comum à medida que coletamos mais dados. Elas costumam ser usadas para confirmar descobertas de técnicas simples, como regressão e árvores de decisão. As redes neurais são baseadas no reconhecimento de padrões e em alguns processos artificialmente inteligentes que “modelam” graficamente os parâmetros. Elas funcionam bem quando não se conhece nenhuma fórmula matemática que relacione as entradas às saídas, quando a previsão é mais importante do que a explicação ou quando há muitos dados de treinamento envolvidos. Redes neurais artificiais foram originalmente desenvolvidas por pesquisadores que tentavam imitar a neurofisiologia do cérebro humano.
Outras técnicas populares que valem a pena conhecer
Análise Bayesiana. Métodos bayesianos tratam parâmetros como variáveis aleatórias e definem probabilidade como "graus de crença" (isto é, a probabilidade de um evento é o grau em que você acredita que o evento seja verdadeiro). Ao realizar uma análise bayesiana, você começa com uma crença em relação à distribuição de probabilidade de um parâmetro desconhecido. Depois de entender as informações dos seus dados, você altera ou atualiza sua crença sobre o parâmetro desconhecido.
Modelos de conjunto. Os modelos de conjunto são produzidos ao treinar vários modelos similares e combinando seus resultados para melhorar a precisão, reduzir o viés, reduzir a variação e identificar o melhor modelo para usar com novos dados.
Gradient boosting. Essa é uma abordagem que reassenta o conjunto de dados várias vezes com objetivo de gerar resultados que formam uma média ponderada do conjunto de dados re-amostrado. Como as árvores de decisão, o boosting não faz suposições sobre a distribuição dos dados. O boosting é menos propenso a sobrecarregar os dados do que uma única árvore de decisão. E se uma árvore de decisão se encaixa muito bem nos dados, o boosting geralmente melhora o ajuste. (Sobrecarga de dados significa que você está usando muitas variáveis e que o modelo é muito complexo. O underfitting significa o oposto - não há variáveis suficientes e o modelo é muito simples. Ambos reduzem a precisão da previsão).
Resposta incremental (também chamada de modelos net lift ou uplift). Ela modela a mudança na probabilidade causada por uma ação. É amplamente utilizada para reduzir a rotatividade e para descobrir os efeitos de diferentes programas de marketing.
K-vizinho mais próximo (knn). Este é um método não-paramétrico para classificação e regressão, que prevê valores de um objeto ou associações de classe com base nos exemplos de treinamento mais próximos de k.
Raciocínio baseado em memória. O raciocínio baseado em memória é uma técnica de k-vizinho mais próximo para categorizar ou prever observações.
Quadrados mínimos parciais. Esta flexível técnica estatística pode ser aplicada a dados de qualquer formato. Ele modela as relações entre entradas e saídas mesmo quando as entradas são correlacionadas e ruidosas, o que quer dizer que existem múltiplas saídas ou há mais entradas do que observações. O método dos quadrados mínimos parciais procura fatores que explicam as variações da resposta e do preditor.
Análise do componente principal. O objetivo da análise do componente principal é derivar um pequeno número de combinações lineares independentes (componentes principais) de um conjunto de variáveis que retêm o máximo possível das informações nas variáveis originais.
Máquina de vetores de suporte. Esta técnica de machine learning supervisionado usa algoritmos de aprendizado associados para analisar dados e reconhecer padrões. Pode ser usado para classificação e regressão.
Mineração de dados de séries temporais. Os dados da série temporal são temporalmente marcados, e coletados ao longo de um intervalo específico de tempo (vendas em um mês, chamadas por dia, visitas da Web por hora, etc.). A mineração de dados de séries temporais combina técnicas tradicionais de mineração de dados e previsão. Técnicas de mineração de dados, como amostragem, clustering e árvores de decisão, são aplicadas aos dados coletados ao longo do tempo com o objetivo de melhorar as previsões.
O que você precisa para começar a usar análises preditivas?
A primeira coisa que você precisa para começar a usar análises preditivas é de um problema para resolver. O que você quer saber sobre o futuro com base no passado? O que você quer entender e prever? Você também deve considerar o que será feito das previsões. Quais os caminhos que podem ser seguidos com os insights? Quais ações serão tomadas?
Em segundo lugar, você precisará de dados. No mundo de hoje, isso significa dados de muitas fontes. Sistemas transacionais, dados coletados por sensores, informações de terceiros, notas de call-center, registros da web etc. Você precisará de um data wrangler ou de alguém com experiência em gerenciamento de dados para ajudá-lo a limpar e preparar os dados para as análises. Preparar os dados para um exercício de modelagem preditiva também requer alguém que entenda os dados e os problemas de negócios. Como você define seu alvo é essencial para a interpretação do resultado. (Data preparation é considerada um dos aspectos mais demorados do processo de análise. Portanto, esteja preparado para isso).
Depois, começa o desenvolvimento do modelo preditivo. Softwares cada vez mais fáceis de usar significam que mais pessoas podem construir modelos analíticos. Mas, provavelmente, você ainda precisará de algum tipo de analista de dados que possa ajudá-lo a refinar seus modelos e criar o melhor desempenho. Então, você pode precisar de alguém de TI para implantar esses modelos. Isso significa colocar os modelos para trabalhar em seus dados escolhidos – e é aí que você obtém resultados.
A modelagem preditiva requer uma abordagem de equipe. Você precisa de pessoas que entendam o problema de negócios a ser resolvido. Alguém que saiba preparar dados para análise. Alguém que possa construir e refinar os modelos. Alguém de TI para garantir que você tenha a infraestrutura analítica certa para a construção e a implantação de modelos. E um patrocinador executivo que pode ajudar a tornar suas esperanças analíticas uma realidade.
Leia mais sobre este assunto
- Managing fraud risk: 10 trends you need to watchSynthetic identities, credit washing and income misrepresentation – these are just some of the trends to watch if you’re trying to understand how to manage fraud risk. Find out what’s on the top 10 list of trends according to experts like Frank McKenna and Mary Ann Miller.
- A guide to machine learning algorithms and their applicationsDo you know the difference between supervised and unsupervised learning? How about the difference between decision trees and forests? Or when to use a support vector algorithm? Get all the answers here.
- Machine learning and artificial intelligence in a brave new worldWhat is the interplay between man and machine in a brave new world with AI?
- What do drones, AI and proactive policing have in common?Law enforcement and public safety agencies must wrangle diverse data sets – such as data from drones – in their proactive policing operations. To be most effective, they need modern tools that support AI techniques like machine learning, computer vision and natural language processing.