Data science (ou science des données)
Présentation et atouts
La data science (ou science des données) est un domaine multidisciplinaire qui englobe plusieurs méthodes d'analyse de données pour générer des informations précieuses. Contrairement à des domaines plus spécialisés liés aux données, tels que le data mining ou le data engineering, la data science couvre le cycle de vie complet allant de la transformation de données brutes en informations exploitables et de leur utilisation à des fins de production et de prise de décision dans un champs d'applications très large.
L'évolution de la data science
Lorsqu'il s'agit de retracer l'origine de la data science, beaucoup pensent à 1962, lorsque le mathématicien John Tukey a fait allusion à cette discipline dans son article fondamental intitulé "L'avenir de l'analyse des données". Dans cet ouvrage, il décrit l'existence d'une "science non reconnue", qui consiste à apprendre à partir des données.
Il est toutefois plus utile d'examiner la data science dans le monde moderne. L'avènement du big data – rendu possible par les progrès des capacités de traitement et de stockage – a offert aux organisations des possibilités inédites de révéler des informations cachées dans les données et de les utiliser pour améliorer la prise de décision. Mais pour cela, ces données doivent d'abord être collectées, traitées, analysées et partagées. Gérer le cycle de vie des données constitue l'essence même de la data science.
Aujourd'hui, la data science est omniprésente dans le monde business – et au-delà. À tel point que la Harvard Business Review a surnommé le data scientist le job le plus sexy du 21ème siècle. Si les data scientists sont les spécialistes, la data science concerne des techniques et des technologies.
Déployer le meilleur modèle en production
En tant que fabricant mondial de matériaux de construction, USG doit produire des produits de haute qualité à des prix abordables. En déployant SAS® Model Manager, le producteur de Sheetrock peut déterminer la formulation optimale des matières premières et ajuster leur processus de production quasiment en temps réel pour atteindre cet objectif.
La Data Science dans le monde d’aujourd’hui
Un coup d'œil dans le monde moderne de la data science.
Le Magic Quadrant de Gartner pour la Data Science
Vous êtes curieux de savoir comment se positionnent les différentes plateformes de data science ? Explorez le Magic Quadrant de Gartner pour les plateformes de data science et machine learning pour comparer les 20 meilleures offres.
Qui utilise la data science ?
Il est difficile de trouver une industrie qui n'intègre pas la data science dans ses fonctions métier essentielles. Voici quelques-uns des cas d'usages les plus intéressants.
Cas d'application de la data science
Pour comprendre les nombreuses façons dont la data science peut affecter une organisation, il est utile d'examiner certains des objectifs et des applications courantes de la data science.
- Prédiction (quand une ressource va faire défaut).
- Classification (nouveau client ou client existant).
- Recommandations (si vous aimez ceci, essayez cela).
- Détection d'anomalie (achats frauduleux).
- Reconnaissance (image, texte, audio, vidéo, etc.).
- Informations exploitables (tableaux de bord, rapports, visualisations).
- Processus et prise de décision automatisés (approbation de cartes de crédit).
- Notation et classement (notation crédit).
- Segmentation (marketing ciblé).
- Optimisation (améliorations de la fabrication).
- Prévisions (prédiction des ventes et des revenus).
Si vous voulez compléter votre travail de data science avec une meilleure compréhension du choix, du déploiement et de la gestion des modèles, l'idéal est de suivre une formation supplémentaire en IA et en ML. Ronald van Loon Principal Analyst CEO of Intelligent World
IA composite
Aujourd'hui, la plupart des projets d'IA font appel à plusieurs technologies de data science. Selon Gartner, l'utilisation d'une combinaison de différentes techniques analytiques et d'IA pour obtenir le meilleur résultat est appelée "IA composite".
Avec l'IA composite, on commence par le problème, puis on analyse les bonnes données avec les outils adéquats pour le résoudre. Cela implique souvent l'utilisation d'une combinaison de techniques de data science, notamment le ML, les statistiques, l'Analytics avancée, le data mining, la prévision, l'optimisation, le traitement automatique du langage naturel, la vision par ordinateur, etc.
L'IA composite est de plus en plus synonyme de data science. Cela est dû au fait qu'il n'est pas toujours facile de choisir la bonne technologie d'IA à utiliser. Cela exige une compréhension approfondie du problème métier à résoudre et des données disponibles pour le résoudre. Cette combinaison d'expertise métier et technologique est l'essence même de la data science.
Comment fonctionne la Data Science
La data science implique l'utilisation de multiples outils et technologies pour extraire des informations significatives à partir de données structurées et non structurées. Voici quelques-unes des pratiques courantes utilisées par les data scientists pour transformer des données brutes en informations susceptibles d'affecter l'entreprise.
La gestion des données (ou Data Management) est la pratique consistant à gérer les données afin d'utiliser tout leur potentiel au service d'une organisation. Pour gérer efficacement les données, il faut disposer d'une stratégie et de méthodes fiables pour accéder aux données, les intégrer, les nettoyer, les gouverner, les stocker et les préparer pour l'analytique.
Le machine learning automatise la création de modèles analytiques. Le machine learning non-supervisé utilise des méthodes issues des réseaux neuronaux, des statistiques, de la recherche opérationnelle et de la physique pour trouver des informations enfouies dans les données, sans que la cible des recherches ou les conclusions à en tirer soient explicitement programmées.
Un réseau de neurones est un type de machine learning inspiré du fonctionnement du cerveau humain. C'est un système calculatoire composé d'unités interconnectées (comme des neurones) qui traite l'information en répondant à des entrées externes et en les transmettant d'une unité à l'autre.
Le deep learning utilise d'énormes réseaux neuronaux comportant plusieurs couches d'unités de traitement. Il tire ainsi parti des progrès réalisés en matière de puissance de traitement et de techniques d'apprentissage pour identifier des schémas complexes dans de gros volumes de données. La reconnaissance de l'image et de la parole figurent parmi les applications courantes.
La vision par ordinateur (ou Computer Vision) repose sur la reconnaissance de schémas et sur le deep learning pour identifier le contenu d'une image ou d'une vidéo. Quand les machines sont capables de traiter, d'analyser et de comprendre des images, elles peuvent capturer des images ou des vidéos en temps réel, et interpréter ce qui les entoure.
Le traitement du langage naturel (ou Natural Language Processing) désigne la capacité des ordinateurs à analyser, à comprendre et à générer un langage humain, y compris sous sa forme orale. Dans sa phase évoluée, ce traitement consiste en une interaction en langage naturel, qui permet aux humains de communiquer avec des ordinateurs en parlant dans le langage de tous les jours, afin d'exécuter des tâches.
La Data Visualisation est la présentation des données sous forme d'images ou de graphiques afin qu'elles puissent être facilement analysées. Ceci est particulièrement important pour permettre aux entreprises de prendre des décisions basées sur les résultats de la data science.
Langages de programmation populaires pour la data science
Tout comme les humains, les data scientists utilisent une grande variété de langages. Avec les centaines de langages de programmation disponibles aujourd'hui, le choix du bon langage dépend de ce que vous voulez faire. Voici un aperçu des principaux langages de programmation en data science.
Python est un langage de programmation interprété, orienté vers l'objet, de haut niveau et à sémantique dynamique. Ses structures de données intégrées de haut niveau, combinées au typage dynamique et à la liaison dynamique, le rendent très attrayant pour le développement rapide d'applications, ainsi que comme langage de script ou de collage pour connecter des composants existants.
R est un environnement logiciel gratuit pour le calcul statistique et les graphiques, soutenu par la R Foundation for Statistical Computing. Le langage R est largement utilisé par les statisticiens et les data miners pour le développement de logiciels statistiques et d'analyse de données.
SQL est un langage utilisé en programmation et spécifiquement conçu pour la gestion des données contenues dans un système de gestion de bases de données relationnelle (RDBMS) ou pour le traitement de flux dans un système de gestion de flux de données relationnelles (RDSMS). Il est particulièrement utile pour traiter des données structurées, c'est-à-dire des données incorporant des relations entre entités et variables.
SAS est un langage de programmation auquel font confiance des centaines de milliers de data scientists dans le monde. La plateforme SAS Viya vous permet de combiner les avantages de chaque système technologique et langage de programmation de votre organisation pour améliorer le développement et le déploiement des modèles analytiques. Découvrez comment SAS Viya peut vous aider à transformer votre vivier de modèles en décisions métier plus pertinentes.
Étapes suivantes
Vous voulez apprendre la data science ? Faites le avec SAS !
Les solutions de data science
Les offres de data science de SAS Viya comportent des fonctionnalités robustes de gestion des données, de visualisation, d'analytique avancée et de gestion de modèles pour accélérer l'adoption de la data science dans toute organisation.
SAS Visual Data Mining and Machine Learning vous permet de résoudre les problèmes analytiques les plus complexes avec une solution collaborative unique et intégrée – qui possède désormais sa propre API de modélisation automatisée.
SAS Visual Analytics vous donne les moyens de préparer rapidement des rapports de manière interactive, d'explorer vos données via des affichages visuels et d'effectuer vos analyses sur demande.
Ces solutions, et bien d'autres encore, reposent sur SAS Viya, la plateforme de data science de SAS, leader sur le marché, qui fonctionne sur une architecture moderne, évolutive et basée sur le cloud.