Data Science
O que é e porque é importante?
A ciência de dados é uma área multidisciplinar que descreve amplamente como é que os dados podem ser utilizados para gerar recomendações personalizadas. Ao contrário dos campos mais especializados e relacionados aos dados, tais como, a extração de dados ou engenharia de dados, a ciência de dados engloba todo o ciclo de vida, desde a tradução dos dados não processados em informações prontas a serem utilizadas, até à sua aplicação em finalidades produtivas numa ampla variedade de aplicações.
A evolução da ciência de dados
Ao rastrear a origem da ciência de dados muitas pessoas pensam em 1962, altura em que o matemático John Tukey lançou um lamiré sobre a disciplina no seu artigo seminal O Futuro da Análise de Dados. Foi aí que descreveu a existência de uma "ciência não reconhecida" que tratava a aprendizagem a partir dos dados.
Contudo, é mais útil examinar a ciência de dados no panorama atual. O advento dos big data – possível através de um grande avanço nas capacidades de processamento e armazenamento – trouxe oportunidades nunca antes vistas para as organizações conseguirem revelar padrões escondidos nos dados e usar estas recomendações personalizadas para melhorar a tomada de decisões. Mas para que tal seja possível, devem primeiro devem recolher, processar, analisar e partilhar os seus conjuntos de dados. Gerir o ciclo de vida dos dados é a essência da ciência de dados.
Atualmente, a ciência de dados é universal no mundo dos negócios – e vai ainda mais além. De tal forma que, a Harvard Business Review, atribuiu aos cientistas de dados o trabalho mais sexy do século 21. Sendo os cientistas de dados os seus especialistas, a ciência de dados é o conjunto das técnicas e tecnologias.
A ciência de dados na atualidade
Tenha um vislumbre do moderno mundo da ciência de dados
Gartner® Magic Quadrant™ para a Ciência de Dados e Plataformas de Aprendizagem Automática
Tem curiosidade em saber como se comparam as várias plataformas de ciência de dados? Explore o Gartner® Magic Quadrant™ para a Ciência de Dados e Plataformas de Aprendizagem Automática para comparar as 20 melhores ofertas.
Quem está a utilizar a ciência de dados?
Teria dificuldades em encontrar uma indústria que não infundisse ciência de dados nas suas funções de negócios mais cruciais. Eis alguns dos casos mais interessantes.
Preencher as lacunas em capacidades na ciência de dados
A procura por capacidades de análise avançadas aumentou exponencialmente e deixou países inteiros em busca de migalhas para conseguir fazer face à necessidade da falta de profissionais. Ao utilizar o SAS® Education Analytical Suite e o SAS® Viya®, a North-West University está a facultar educação em ciência de dados inovadora. Isto está a transformar a força de trabalho da África do Sul, ajudando os estudantes a ganharem experiência na resolução de problemas, em etiqueta empresarial e escrita, e na entrega de valor.
Resultados da ciência de dados
Para compreender as várias formas como a ciência de dados pode afetar uma organização será útil examinar alguns dos objetivos e resultados comuns da ciência de dados.
- Previsão (quando um ativo irá falhar).
- Classificação (clientes novos ou já fidelizados).
- Recomendações (se gosta disto, talvez goste de "X").
- Deteção de anomalias (compras fraudulentas).
- Reconhecimento (imagem, texto, audio, vídeo, etc.).
- Recomendações personalizadas práticas (quadros, relatórios, visualizações).
- Processos automatizados e tomada de decisões (aprovação de cartões de crédito).
- Pontuação e ranking (notação de crédito).
- Segmentação (marketing segmentado).
- Otimização (melhorias no fabrico).
- Previsão (prever vendas e lucros).
Se pretende alargar os seus esforços na ciência de dados para trabalhar com escolhas informadas, implementação e gestão de modelos, o ideal é aprofundar a formação em IA e ML. Ronald van Loon Principal Analyst, CEO of Intelligent World
IA Composta
A maioria dos projetos de IA atuais dependem de múltiplas tecnologias da ciência de dados. De acordo com Gartner, à utilização de uma combinação de diferentes técnicas de IA para alcançar o melhor resultado dá-se o nome de "IA composta".
Com a IA composta, pode começar pelo problema e depois aplicar os dados e ferramentas certos para o resolver. Por norma, isto inclui usar uma combinação de técnicas de ciência de dados, tais como, ML, estatística, análise avançada, extração de dados, previsão, otimização, processamento de linguagem natural, visão computacional, entre outras.
A AI composta é cada vez mais sinónimo de ciência de dados. Isto porque escolher a tecnologia de IA certa a utilizar nem sempre significa seguir um percurso em linha reta. Requer um conhecimento profundo do problema de negócio que está a tentar resolver e também dos dados que tem disponíveis para tal. Esta combinação de conhecimento de negócios com tecnologia é a essência da ciência de dados.
Como funciona a ciência de dados – e as ferramentas da ciência de dados
Os projetos da ciência de dados envolvem o uso de várias ferramentas e tecnologias para derivar informação importante de dados não estruturados e estruturados. Aqui encontra algumas das práticas comuns que os cientistas de dados utilizam como parte do processo da ciência de dados para transformar informação bruta em recomendações personalizadas que transformam negócios.
A visão computacional depende do reconhecimento de padrões e do deep learning para reconhecer o que está numa imagem ou vídeo. É quando as máquinas conseguem processar, analisar e compreender imagens. Ou seja, conseguem capturar imagens ou vídeos em tempo real e interpretar o ambiente que os rodeia.
A gestão de dados é a prática de gerir dados para desbloquear todo o seu potencial para uma organização. Gerir dados de forma eficiente requer uma estratégia de dados e métodos fiáveis para aceder, integrar, limpar, governar, armazenar e preparar dados para análise.
A visualização de dados é a apresentação de dados em formato pictórico ou gráfico, para que possam ser facilmente compreendidos por analistas de negócios e outros. As visualizações de dados são especialmente importantes, para ajudar organizações a analisar grandes quantidades de dados, e a tomar decisões de negócios com base nos resultados.
O deep learning utiliza grandes redes neurais com várias camadas de unidades de processamento, tira proveito das vantagens computacionais e técnicas de aprendizagem melhoradas, para aprender padrões complexos em grandes quantidades de dados. Algumas aplicações comuns incluem o reconhecimento de imagens e voz falada.
O Machine learning – é um ramo da inteligência artificial – automatiza a construção de modelos analíticos. Através de modelos de aprendizagem automática não supervisionados, as tecnologias servem-se de métodos que vão desde redes neurais, estatística, operações de pesquisa e física para encontrar recomendações personalizadas nos dados, sem estarem explicitamente programadas para saber para onde olhar ou o que concluir.
O processamento de linguagem natural é a capacidade dos computadores para analisar, compreender e gerar linguagem humana, incluindo a voz falada. A próxima etapa do NLP é a interação em linguagem natural, que permite aos humanos comunicar com os computadores usando linguagem do dia-a-dia para realizar tarefas.
A rede neural é um tipo de aprendizagem automática inspirada na forma como funciona o cérebro humano. É um sistema computacional feito para ligar unidades (como acontece com os neurónios) que processam informação. A qual é processada como uma resposta a estímulos externos, tal como acontece no cérebro, as informações são retransmitidas entre cada unidade.
Linguagens de programação populares para a ciência de dados
Tal como os humanos utilizam vários idiomas o mesmo também acontece com os cientistas de dados. Com centenas de linguagens de programação disponíveis hoje em dia, conseguir escolher a linguagem certa resume-se à finalidade que lhe quer dar. Aqui encontra algumas das linguagens de programação de topo da ciência de dados.
Soluções de ciência de dados
As capacidades SAS® Viya® apresentam uma gestão de dados robusta, visualização, análise avançada e gestão de modelos para acelerar a ciência de dados em qualquer organização.
SAS para machine learning e deep learning ajuda a resolver problemas analíticos complexos através de uma solução colaborativa, única e integrada – agora com o seu próprio modelo API automatizado.
SAS Visual Analytics oferece-lhe os meios para elaborar relatórios com rapidez de forma interativa, explorar os seus dados através de apresentações visuais e realizar as suas análises numa base de self-service.
Estas soluções e outras são alimentadas pelo SAS Viya, uma plataforma SAS, líder no mercado de ciência de dados, que é executada numa arquitetura moderna, escalável e ligada à cloud.