Machine Learning

O que é e qual sua importância?

O aprendizado de máquina (em inglês, machine learning) é um método de análise de dados que automatiza a construção de modelos analíticos. É um ramo da inteligência artificial baseado na ideia de que sistemas podem aprender com dados, identificar padrões e tomar decisões com o mínimo de intervenção humana.

Evolução do machine learning

Graças às novas tecnologias computacionais, o machine learning de hoje não é como o machine learning do passado. Ele nasceu do reconhecimento de padrões e da teoria de que computadores podem aprender sem serem programados para realizar tarefas específicas; pesquisadores interessados em inteligência artificial queriam saber se as máquinas poderiam aprender com dados. O aspecto iterativo do aprendizado de máquina é importante porque, quando os modelos são expostos a novos dados, eles são capazes de se adaptar independentemente. Eles aprendem com computações anteriores para produzir decisões e resultados confiáveis, passíveis de repetição. Isso não é uma ciência nova – mas uma ciência que está ganhando um novo impulso.

Embora diversos algoritmos de machine learning existam há muito tempo, a capacidade de aplicar cálculos matemáticos complexos ao big data automaticamente – de novo e de novo, mais rápido e mais rápido – é um desenvolvimento recente. Eis alguns exemplos bem conhecidos de aplicações de machine learning, dos quais você já deve ter ouvido falar:

  • Os carros autônomos super esperados do Google? A essência do machine learning;
  • Ofertas recomendadas como as da Amazon e da Netflix? Aplicações de machine learning para o dia-a-dia;
  • Saber o que seus clientes estão falando de você no Twitter? Machine learning combinado com criação de regras linguísticas;
  • Detecção de fraudes? Um dos usos mais óbvios e importantes de machine learning no mundo de hoje.

 

Machine learning e inteligência artificial

Enquanto a inteligência artificial (IA) pode ser definida, de modo amplo, como a ciência capaz de mimetizar as habilidades humanas, o machine learning é uma vertente específica da IA que treina máquinas para aprender com dados. Assista a este vídeo para entender melhor a relação entre a inteligência artificial e o aprendizado de máquina. Você verá como essas duas tecnologias funcionam, com exemplos úteis e alguns apartes divertidos.

Qual a importância do machine learning?

O interesse renovado no aprendizado de máquina se deve aos mesmos fatores que tornaram a mineração de dados e a análise Bayesiana mais populares do que nunca: coisas como os crescentes volume e variedade de dados disponíveis, o processamento computacional mais barato e poderoso, o armazenamento de dados acessível etc.

Tudo isso significa que é possível produzir, rápida e automaticamente, modelos capazes de analisar dados maiores e mais complexos, e entregar resultados mais rápidos e precisos – mesmo em grande escala. E ao construir modelos precisos, uma organização tem mais chances de identificar oportunidades lucrativas – ou de evitar riscos desconhecidos.

 

O que é preciso para criar bons sistemas de machine learning?

  • Capacidade de data preparation;
  • Algoritmos – básicos e avançados;
  • Processos automatizados e iterativos;
  • Escalabilidade;
  • Modelagem conjunta.
Machine learning infographic

Você sabia?

  • No aprendizado de máquina, um alvo é chamado de rótulo;
  • Em estatística, um alvo é chamado de variável dependente;
  • Uma variável em estatística é chamada de recurso em machine learning;
  • Uma transformação em estatística é chamada de criação de recurso em machine learning.

Machine learning no mundo de hoje

Ao usar algoritmos para construir modelos que revelam conexões, as organizações podem tomar decisões melhores sem intervenção humana. Leia mais sobre essa tecnologia que está transformando o mundo em que vivemos.

White Paper

Por que se fala tanto em machine learning?

Como implementar machine learning na sua empresa? Para quem é essa tecnologia? Como ela funciona? Como ela pode atingir resultados? Leia neste relatório da Harvard Business Review Insights.

Baixe o relatório

Mitos e verdades sobre machine learning

É preciso tomar cuidado com a qualidade e com a forma como a análise de dados tem sido realizada. Leia este artigo para conhecer 10 desafios, mitos e verdades sobre machine learning.

Saiba mais

A evolução da inteligência analítica

Avanços recentes têm aumentado o interesse na adoção do machine learning como parte de uma estratégia analítica maior, mas incorporá-lo na infraestrutura de dados de produção não é fácil. Aprenda a superar os obstáculos.

 Baixe o relatório

6 machine learning pitfalls

Underlying flawed assumptions can lead to poor choices and mistakes, especially with sophisticated methods like machine learning. Skip others' mistakes with this advice from a machine learning expert.

Read the blog post

Advanced analytics do SAS


Machine learning não é uma tecnologia específica em si; ele envolve softwares como de mineração de dados e advanced analytics para processar grandes volumes de dados e descobrir insights. As soluções do SAS® são criadas com algoritmos inovadores que tornam isso possível.

Leia mais sobre as soluções de analytics do SAS

Quem está usando?

A maioria das indústrias que trabalham com grandes quantidades de dados tem reconhecido o valor da tecnologia de aprendizado de máquina. Ao extrair insights desses dados – frequentemente em tempo real – as organizações são capazes de trabalhar com mais eficiência ou de ganhar uma vantagem competitiva sobre seus concorrentes.

Serviços financeiros

Bancos e outros negócios na indústria financeira usam tecnologias de machine learning para dois propósitos principais: identificar insights importantes nos dados e prevenir fraudes. Esses inisghts podem identificar oportunidades de investimento, ou ajudar investidores a saber quando fazer o trade. A mineração de dados também pode identificar clientes com alto perfil de risco ou usar cyber-vigilância para encontrar sinais de fraudes.

Governo

Agências governamentais, como segurança pública e utilities, têm uma necessidade particular para machine learning, uma vez que elas possuem múltiplas fontes de dados que podem ser mineradas para deles obterem insights. Analisar dados de sensores, por exemplo, identifica maneiras de aumentar a eficiência e economizar dinheiro. O aprendizado de máquina também pode ajudar na detecção de fraudes e na minimização de roubos de identidade.

Operadoras de saúde

Machine learning é uma tendência crescente na assistência médica graças ao advento dos dispositivos wearables e sensores que permitem aos profissionais de saúde acessar os dados de pacientes em tempo real. A tecnologia também pode ajudar especialistas médicos a analisar dados para identificar tendências ou alertas, levando ao aperfeiçoamento de diagnósticos e tratamentos. 

Marketing e vendas

Websites que recomendam produtos e serviços com base em suas compras anteriores estão usando machine learning para analisar seu histórico de compras – e promover outros itens pelos quais você pode se interessar. Essa capacidade de capturar dados, analisá-los e utilizá-los para personalizar a experiência de compra (ou implementar uma campanha de marketing) é o futuro do varejo.

Petróleo & gás

Descobrir novas fontes de energia. Analisar minerais no solo. Prever falhas em sensores de refinarias. Acelerar a distribuição de petróleo para torná-la mais eficiente e econômica. O número de aplicações de machine learning nesta indústria é vasto – e continua crescendo.

Transportes

Analisar dados para identificar padrões e tendências é essencial para a indústria de transportes, a qual depende da elaboração de rotas mais eficientes e da previsão de problemas potenciais para aumentar a rentabilidade. Os aspectos de análise e modelagem de dados de machine learning são ferramentas importantes para transportadoras, transporte público e outras organizações do setor.

Como funciona?

Para obter mais valor do machine learning, você precisa saber como parear os melhores algoritmos com as ferramentas e processos corretos. O SAS combina uma herança rica e sofisticada em estatística e mineração de dados com novos avanços em arquitetura para garantir que seus modelos rodem o mais rápido possível – mesmo em grandes ambientes corporativos.

Algoritmos: as interfaces de usuário gráficas do SAS ajudam você a construir modelos e implementar um processo iterativo de machine learning. Você não precisa ter pós-doutorado em estatística para isso. Nossa abrangente seleção de algoritmos de machine learning podem ajudar você a rapidamente obter valor de seu big data e estão incluídos em muitos produtos SAS. Os algoritmos de machine learning do SAS incluem:

Redes neurais
 
Árvores de decisão
 
Florestas aleatórias
 
Descobertas de sequências e associações
 
Boosting e bagging de gradientes
 
Máquinas de vetor de suporte
 
Mapeamento por proximidade
 
Agrupamento k-means
 
Mapas auto-organizáveis
 
Otimização de pesquisas por locais (ex., algoritmos genéticos)
 
Maximização de expectativas
 
Splines de regressão adaptativa multivariada
 
Redes bayesianas 
 
Estimativas de densidade Kernel
 
Análise do componente principal
 
Decomposição em valores singulares
 
Modelos de mistura gaussianas
 
Construção de regras de cobertura sequencial
 

 

Ferramentas e processos: como você sabe agora, não se resume aos algoritmos. O segredo para obter o máximo de valor do big data está em parear os melhores algoritmos e a tarefa a ser realizada com:

Gerenciamento e qualidade de dados abrangentes
 
GUIs para construção de modelos e fluxo de processos
 
Exploração de dados e visualização de resultados de modelos interativas
 
Comparações de diferentes modelos de machine learning para identificação rápida do melhor     
 
Avaliação automatizada do modelo para identificar os melhores desempenhos
 
Implementação fácil do modelo para que você possa obter resultados confiáveis e passíveis de repetição rapidamente
 
Uma plataforma integrada de ponta a ponta para a automação do processo de uso de dados para tomada de decisão
 

Você precisa de ajuda sobre qual algoritmo de aprendizado de máquina usar para quê? Este blog (em inglês) por Hui Li, cientista de dados do SAS, fornece explicações simples.

Quais são os métodos mais populares de machine learning?

Dois dos métodos mais adotados de machine learning são o aprendizado supervisionado e o aprendizado não-supervisionado – mas eles não são os únicos. Eis os tipos mais populares:

Algoritmos de aprendizado supervisionado são treinados por meio de exemplos rotulados, como uma entrada na qual a saída desejada é conhecida. Por exemplo, um equipamento poderia ter pontos de dados rotulados como “F” (falha) ou “E” (executa). O algoritmo de aprendizado recebe um conjunto de entradas junto com as saídas corretas correspondentes, e aprende ao comparar a saída real com as saídas corretas para encontrar erros. Ele, então, modifica o modelo de acordo. Através de métodos como classificação, regressão e gradient boosting, o aprendizado supervisionado utiliza padrões para prever os valores de rótulos em dados não-rotulados adicionais. O aprendizado supervisionado é comumente empregado em aplicações nas quais dados históricos preveem eventos futuros prováveis. Por exemplo, ele pode antecipar quando transações via cartão de crédito são passíveis de fraude ou qual segurado tende a reivindicar sua apólice.

O aprendizado não-supervisionado é utilizado contra dados que não possuem rótulos históricos. A "resposta certa" não é informada ao sistema. O algoritmo deve descobrir o que está sendo mostrado. O objetivo é explorar os dados e encontrar alguma estrutura dentro deles. O aprendizado não-supervisionado funciona bem com dados transacionais. Por exemplo, ele pode identificar segmentos de clientes com atributos similares que podem, então, ser tratados de modo igualmente similar em campanhas de marketing; ou ele pode encontrar os principais atributos que separam segmentos distintos de clientes. Técnicas populares incluem mapas auto-organizáveis, mapeamento por proximidade, agrupamento k-means e decomposição em valores singulares. Esses algoritmos também são utilizados para segmentar tópicos de texto, recomendar itens e identificar pontos discrepantes nos dados.

Aprendizado semi-supervisionado é utilizado para as mesmas aplicações que o aprendizado supervisionado. Mas este aqui manipula tanto dados rotulados quanto não-rotulados para treinamento – normalmente uma pequena quantidade de dados rotulados com uma grande quantidade de dados não-rotulados (porque dados sem rótulos são mais baratos e demandam menos esforços para serem adquiridos). Esse tipo de aprendizado pode ser empregado com métodos como classificação, regressão e previsão. O aprendizado semi-supervisionado é útil quando o custo associado à rotulação é muito alto para possibilitar um processo de treinamento totalmente rotulado. Exemplos básicos incluem a identificação do rosto de uma pessoa em uma webcam.

Aprendizado por reforço é normalmente utilizado em robótica, jogos e navegação. Com ele, o algoritmo descobre através de testes do tipo 'tentativa e erro' quais ações rendem as maiores recompensas. Este tipo de aprendizado possui três componentes principais: o agente (o aprendiz ou tomador de decisão), o ambiente (tudo com que o agente interage) e ações (o que o agente pode fazer). O objetivo é que o agente escolha ações que maximizem a recompensa esperada em um período de tempo determinado. O agente atingirá o objetivo muito mais rápido se seguir uma boa política. Então o foco do aprendizado por reforço é descobrir a melhor política.

Seres humanos podem, normalmente, criar um ou dois modelos bons por semana; machine learning pode criar milhares de modelos por semana.

Thomas H. Davenport, especialista em analytics
excerto do The Wall Street Journal

Quais as diferenças entre mineração de dados, machine learning e deep learning?

Embora todos esses métodos tenham o mesmo objetivo – extrair insights, padrões e relações que podem ser usado nas tomadas de decisão – eles possuem abordagens e capacidades diferentes.


Mineração de dados

A mineração de dados pode ser considerada um superconjunto de muitos métodos diferentes para extrair insights dos dados. Ela pode envolver métodos estatísticos tradicionais e machine learning. A mineração de dados aplica métodos de áreas diversas para identificar padrões anteriormente desconhecidos nos dados. Isso pode incluir algoritmos estatísticos, machine learning, análise de texto, análises de séries temporais e outras áreas de analytics. A mineração de dados também inclui o estudo e a prática de armazenamento e manipulação de dados.

 


Machine Learning

A principal diferença do machine learning é que, igualmente modelos estatísticos, o objetivo é entender a estrutura dos dados – encaixar distribuições teóricas em dados bem entendidos. Assim, há uma teoria por trás de modelos estatísticos que é comprovada matematicamente, mas isso requer que os dados também atendam a certos pressupostos. O aprendizado de máquina foi desenvolvido a partir da capacidade de usar computadores para examinar a estrutura dos dados, mesmo se não soubermos como essa estrutura se parece. O teste para um modelo de machine learning é um erro de validação em dados novos e não um teste teórico que prova uma hipótese nula. Como machine learning geralmente usa uma abordagem iterativa para aprender com os dados, o aprendizado pode ser facilmente automatizado. As etapas são executadas através dos dados até que um padrão robusto seja encontrado.


Deep learning

Deep learning combina avanços no poder computacional e tipos especiais de redes neurais para aprender padrões complicados em grandes quantidades de dados. Técnicas de deep learning são o que há de mais avançado hoje para identificar objetos em imagens e palavras em sons. Os pesquisadores estão tentando aplicar esses sucessos no reconhecimento de padrões em tarefas mais complexas, como na tradução automática de idiomas, diagnósticos médicos e diversos outros problemas sociais e corporativos.