Análises Preditivas

O que são e qual sua importância?

Análises preditivas usam dados, algoritmos estatísticos e técnicas de machine learning para identificar a probabilidade de resultados futuros, a partir de dados históricos. O objetivo é ir além de saber o que aconteceu para obter uma melhor avaliação do que poderá acontecer no futuro.

História e avanços recentes das análises preditivas

Embora a análise preditiva já exista há décadas, essa tecnologia está ganhando visibilidade. Mais e mais organizações estão realizando análises preditivas para aumentar sua lucratividade e ganhar uma vantagem competitiva. Porque agora?

  • Volumes e tipos de dados crescentes, e mais interesse em usar dados para produzir informações valiosas;
  • Computadores mais rápidos e baratos;
  • Softwares mais fáceis de usar;
  • Condições econômicas mais rígidas e necessidade de diferenciação competitiva.

Com a predominância de softwares interativos e fáceis de usar, a análise preditiva deixou de ser exclusiva de matemáticos e estatísticos. Analistas de negócios e especialistas em linhas de negócios também estão usando essa tecnologia.

 

 


Qual a importância da análise preditiva?

As organizações estão realizando análises preditivas para resolver problemas difíceis e descobrir novas oportunidades. Usos comuns incluem:

Detectar fraude. A combinação de vários métodos analíticos pode melhorar a detecção de padrões e prevenir comportamentos criminosos. À medida que a segurança cibernética se torna uma preocupação cada vez maior, a análise comportamental de alta performance examina todas as ações em uma rede, em tempo real, para identificar anormalidades que podem indicar fraude, vulnerabilidades de dia zero e ameaças persistentes avançadas.

Otimizar campanhas de marketing. A análise preditiva é usada para determinar as respostas ou compras dos clientes, além de promover oportunidades de venda cruzada. Os modelos preditivos ajudam as empresas a atrair, reter e expandir seus clientes mais valiosos. 

Melhorar operações. Muitas empresas usam modelos preditivos para prever o estoque e gerenciar recursos: companhias aéreas usam análises preditivas para definir os preços das passagens; hotéis tentam prever o número de hóspedes em qualquer noite para maximizar a ocupação e aumentar a receita. A análise preditiva permite que as organizações funcionem de maneira mais eficiente.

Reduzir o risco. As pontuações de crédito são usadas para avaliar a probabilidade de padrões de compra de um consumidor e são um exemplo bem conhecido de análise preditiva. Uma pontuação de crédito é um número gerado por um modelo preditivo que incorpora todos os dados relevantes para a credibilidade de uma pessoa. Outros usos relacionados a riscos incluem reclamações e ativações de seguros.

Análise preditiva no mundo de hoje

Com a análise preditiva, você pode ir além de entender o que e por que uma coisa aconteceu para descobrir insights sobre o futuro. Saiba como a análise preditiva molda o mundo em que vivemos.

Training and Books icon blue

Got a predictive analytics skills gap?

This e-book from SAS includes real-world advice from employers and educators on finding, keeping and motivating top analytics talent.

Get the e-book

Putting predictive analytics to good use

This Harvard Business Review Insight Center Report features
25 articles focusing on how to use predictive analytics in decision making and planning.

Download review

Article - Icon

How can predictive analytics add validity to your marketing efforts?

Learn how marketing attribution adds the science and removes the sorcery from your marketing efforts by replacing assumptions and arbitrary models with data and analytics.

Read article

Best practices for better predictive modeling results

Managing and coordinating all steps in the analytical process can be complex. Learn how to go step-by-step and achieve better, more reliable results.

Learn more

 

Análise preditiva

Os softwares de mineração de dados do SAS® usam algoritmos avançados e confiáveis, projetados para ajudar você a solucionar seus maiores desafios.

Conheça os softwares de mineração de dados do SAS

Quem está usando?

Qualquer indústria pode usar a análise preditiva para reduzir riscos, otimizar operações e aumentar a receita. Eis alguns exemplos.

Bancos e serviços financeiros

O setor financeiro, com enormes quantidades de dados e dinheiro em jogo, há muito tempo adotou a análise preditiva para detectar e reduzir fraudes, medir o risco de crédito, maximizar as oportunidades de venda e venda cruzada, e reter clientes valiosos. O Commonwealth Bank usa analytics para prever a probabilidade uma transação ser fraudulenta antes dela ser autorizada – ou seja, dentro de 40 milissegundos do início da transação.

Varejo

Depois do, agora infame, estudo que mostrou que homens que compram fraldas frequentemente também adicionam cerveja ao carrinho, varejistas do mundo inteiro estão usando análises preditivas para determinar quais produtos estocar, a eficácia de eventos promocionais e quais ofertas são mais apropriadas para os consumidores. A Staples analisa o comportamento do consumidor para obter uma visão completa de seus clientes, conquistando assim um ROI de 137%.

Petróleo, gás e utilities

Seja prevendo falhas de equipamentos e futuras necessidades de recursos, mitigando riscos de segurança e confiabilidade, ou melhorando o desempenho geral, o setor de energia adotou a análise preditiva com vigor. O Salt River Project é o segundo maior utilitário de energia pública nos EUA e um dos maiores fornecedores de água do Arizona. Análises de dados de sensores de máquinas preveem quando turbinas geradoras de energia precisam de manutenção.

Governo e setor público

Os governos têm sido atores-chave no avanço das tecnologias de computação. O US Census Bureau vem analisando dados para entender as tendências populacionais há décadas. Os governos agora usam a análise preditiva como muitos outros setores – para melhorar o serviço e seu desempenho, detectar e prevenir fraudes, e entender melhor o comportamento do consumidor. Eles também usam análise preditiva para aprimorar a segurança cibernética.

Seguros de saúde

Além de detectar fraudes, a indústria de seguros de saúde está tomando medidas para identificar os pacientes com maior risco de doenças crônicas e descobrir quais são as melhores intervenções. A Express Scripts, uma grande empresa de benefícios farmacêuticos, usa analytics para identificar aqueles que não aderem aos tratamentos prescritos, resultando em uma economia de US$ 1.500 a US$ 9.000 por paciente.

Manufatura

Para os fabricantes, é muito importante identificar os fatores que levam à redução da qualidade e às falhas de produção, bem como otimizar as peças, os recursos de serviço e a distribuição. A Lenovo usa análises preditivas para entender melhor os pedidos de garantia – uma iniciativa que a levou a uma redução de 10% a 15% nos custos.

Dando magia ao Magic

Sports analytics é uma área em crescimento, parcialmente graças às previsões de campeonatos e de Nate Silver. O Orlando Magic, da NBA, usa soluções de análise preditiva do SAS para melhorar a receita e determinar o time inicial. Os usuários corporativos da organização Orlando Magic têm acesso instantâneo às informações. O Magic agora pode explorar os dados mais recentes visualmente, o que inclui o jogo e a plateia.

Leia a história completa

Análises preditivas de texto

Aproximadamente 90% de todos os dados não são estruturados. Você está aproveitando a análise preditiva para encontrar insights em todos os dados?

Conheça os softwares de análises preditivas de texto do SAS

Como funciona?

Os modelos preditivos usam resultados conhecidos para desenvolver (ou treinar) um modelo que pode ser usado para prever valores para dados diferentes ou novos. A modelagem fornece resultados na forma de previsões que representam uma probabilidade da variável de destino (por exemplo, receita) com base na importância estimada de um conjunto de variáveis de entrada.

Isso é diferente dos modelos descritivos que ajudam você a entender o que aconteceu, ou dos modelos de diagnóstico que ajudam você a entender as principais relações e a determinar por que algo aconteceu. Livros inteiros são dedicados a métodos e técnicas analíticas. Currículos universitários completos aprofundam-se nesse assunto. Mas, para começar, aqui estão algumas noções básicas.

Existem dois tipos de modelos preditivos. Modelos de classificação preveem associações de classe. Por exemplo, você pode prever a probabilidade de uma pessoa pedir demissão, responder a uma solicitação, se ela é um bom ou mau risco de crédito etc. Geralmente, os resultados do modelo estão na forma de 0 ou 1, sendo 1 o evento que você está segmentando. Os modelos de regressão predizem um número – por exemplo, quanta receita um cliente gerará no próximo ano ou o número de meses antes de um componente falhar em uma máquina.

Três das técnicas de modelagem preditiva mais utilizadas são árvores de decisão, regressão e redes neurais.

 

Regressão (linear e logística) é um dos métodos mais populares em estatística. A análise de regressão estima relações entre variáveis. Destinada a dados contínuos que podem seguir uma distribuição normal, ela encontra padrões essenciais em grandes conjuntos de dados e é frequentemente usada para determinar quanto cada fator específico, como o preço, influencia o movimento de um ativo. Com a análise de regressão, queremos predizer um número, chamado de resposta ou variável Y. Com regressão linear, uma variável independente é usada para explicar e/ou prever o resultado de Y. Já a regressão múltipla usa duas ou mais variáveis independentes para prever o resultado. Com a regressão logística, variáveis desconhecidas de uma variável discreta são previstas com base no valor conhecido de outras variáveis. A variável de resposta é categórica, o que significa que pode assumir apenas um número limitado de valores. Com a regressão logística binária, uma variável de resposta tem apenas dois valores, como 0 ou 1. Na regressão logística múltipla, uma variável de resposta pode ter vários níveis, como baixo, médio e alto, ou 1, 2 e 3.

 

As árvores de decisão são modelos de classificação que particionam dados em subconjuntos com base em categorias de variáveis de entrada. Isso ajuda você a entender o caminho de decisões de uma pessoa. Uma árvore de decisão parece uma árvore com cada ramo representando uma escolha entre um número de alternativas, e cada folha representando uma classificação ou decisão. Este modelo analisa os dados e tenta encontrar a variável que divide os dados em grupos lógicos diferentes. As árvores de decisão são populares porque são fáceis de entender e interpretar. Elas também lidam bem com valores ausentes e são úteis para a seleção preliminar de variáveis. Portanto, se você tem muitos valores ausentes ou deseja uma resposta rápida e facilmente interpretável, pode começar com uma árvore.

 

As redes neurais são técnicas sofisticadas capazes de modelar relações extremamente complexas. Elas são populares porque são poderosas e flexíveis. Seu poder vem de sua capacidade de lidar com relações não-lineares em dados, o que é cada vez mais comum à medida que coletamos mais dados. Elas costumam ser usadas para confirmar descobertas de técnicas simples, como regressão e árvores de decisão. As redes neurais são baseadas no reconhecimento de padrões e em alguns processos artificialmente inteligentes que “modelam” graficamente os parâmetros. Elas funcionam bem quando não se conhece nenhuma fórmula matemática que relacione as entradas às saídas, quando a previsão é mais importante do que a explicação ou quando há muitos dados de treinamento envolvidos. Redes neurais artificiais foram originalmente desenvolvidas por pesquisadores que tentavam imitar a neurofisiologia do cérebro humano.

Outras técnicas populares que valem a pena conhecer

Análise Bayesiana. Métodos bayesianos tratam parâmetros como variáveis aleatórias e definem probabilidade como "graus de crença" (isto é, a probabilidade de um evento é o grau em que você acredita que o evento seja verdadeiro). Ao realizar uma análise bayesiana, você começa com uma crença em relação à distribuição de probabilidade de um parâmetro desconhecido. Depois de entender as informações dos seus dados, você altera ou atualiza sua crença sobre o parâmetro desconhecido.

Modelos de conjunto. Os modelos de conjunto são produzidos ao treinar vários modelos similares e combinando seus resultados para melhorar a precisão, reduzir o viés, reduzir a variação e identificar o melhor modelo para usar com novos dados.

Gradient boosting. Essa é uma abordagem que reassenta o conjunto de dados várias vezes com objetivo de gerar resultados que formam uma média ponderada do conjunto de dados re-amostrado. Como as árvores de decisão, o boosting não faz suposições sobre a distribuição dos dados. O boosting é menos propenso a sobrecarregar os dados do que uma única árvore de decisão. E se uma árvore de decisão se encaixa muito bem nos dados, o boosting geralmente melhora o ajuste. (Sobrecarga de dados significa que você está usando muitas variáveis e que o modelo é muito complexo. O underfitting significa o oposto - não há variáveis suficientes e o modelo é muito simples. Ambos reduzem a precisão da previsão).

Resposta incremental (também chamada de modelos net lift ou uplift). Ela modela a mudança na probabilidade causada por uma ação. É amplamente utilizada para reduzir a rotatividade e para descobrir os efeitos de diferentes programas de marketing.

K-vizinho mais próximo (knn). Este é um método não-paramétrico para classificação e regressão, que prevê valores de um objeto ou associações de classe com base nos exemplos de treinamento mais próximos de k.

Raciocínio baseado em memória. O raciocínio baseado em memória é uma técnica de k-vizinho mais próximo para categorizar ou prever observações.

Quadrados mínimos parciais. Esta flexível técnica estatística pode ser aplicada a dados de qualquer formato. Ele modela as relações entre entradas e saídas mesmo quando as entradas são correlacionadas e ruidosas, o que quer dizer que existem múltiplas saídas ou há mais entradas do que observações. O método dos quadrados mínimos parciais procura fatores que explicam as variações da resposta e do preditor.

Análise do componente principal. O objetivo da análise do componente principal é derivar um pequeno número de combinações lineares independentes (componentes principais) de um conjunto de variáveis que retêm o máximo possível das informações nas variáveis originais.

Máquina de vetores de suporte. Esta técnica de machine learning supervisionado usa algoritmos de aprendizado associados para analisar dados e reconhecer padrões. Pode ser usado para classificação e regressão.

Mineração de dados de séries temporais. Os dados da série temporal são temporalmente marcados, e coletados ao longo de um intervalo específico de tempo (vendas em um mês, chamadas por dia, visitas da Web por hora, etc.). A mineração de dados de séries temporais combina técnicas tradicionais de mineração de dados e previsão. Técnicas de mineração de dados, como amostragem, clustering e árvores de decisão, são aplicadas aos dados coletados ao longo do tempo com o objetivo de melhorar as previsões.

O que você precisa para começar a usar análises preditivas?

Descubra como fazer o ciclo de vida analítico funcionar

step1

A primeira coisa que você precisa para começar a usar análises preditivas é de um problema para resolver. O que você quer saber sobre o futuro com base no passado? O que você quer entender e prever? Você também deve considerar o que será feito das previsões. Quais os caminhos que podem ser seguidos com os insights? Quais ações serão tomadas?

step2

Em segundo lugar, você precisará de dados. No mundo de hoje, isso significa dados de muitas fontes. Sistemas transacionais, dados coletados por sensores, informações de terceiros, notas de call-center, registros da web etc. Você precisará de um data wrangler ou de alguém com experiência em gerenciamento de dados para ajudá-lo a limpar e preparar os dados para as análises. Preparar os dados para um exercício de modelagem preditiva também requer alguém que entenda os dados e os problemas de negócios. Como você define seu alvo é essencial para a interpretação do resultado. (Data preparation é considerada um dos aspectos mais demorados do processo de análise. Portanto, esteja preparado para isso).

step3

Depois, começa o desenvolvimento do modelo preditivo. Softwares cada vez mais fáceis de usar significam que mais pessoas podem construir modelos analíticos. Mas, provavelmente, você ainda precisará de algum tipo de analista de dados que possa ajudá-lo a refinar seus modelos e criar o melhor desempenho. Então, você pode precisar de alguém de TI para implantar esses modelos. Isso significa colocar os modelos para trabalhar em seus dados escolhidos – e é aí que você obtém resultados.

step4

A modelagem preditiva requer uma abordagem de equipe. Você precisa de pessoas que entendam o problema de negócios a ser resolvido. Alguém que saiba preparar dados para análise. Alguém que possa construir e refinar os modelos. Alguém de TI para garantir que você tenha a infraestrutura analítica certa para a construção e a implantação de modelos. E um patrocinador executivo que pode ajudar a tornar suas esperanças analíticas uma realidade.