Data science (ou science des données)

Présentation et atouts

La data science (ou science des données) est un domaine multidisciplinaire qui englobe plusieurs méthodes d'analyse de données pour générer des informations précieuses. Contrairement à des domaines plus spécialisés liés aux données, tels que le data mining ou le data engineering, la data science couvre le cycle de vie complet allant de la transformation de données brutes en informations exploitables et de leur utilisation à des fins de production et de prise de décision dans un champs d'applications très large.

L'évolution de la data science

Lorsqu'il s'agit de retracer l'origine de la data science, beaucoup pensent à 1962, lorsque le mathématicien John Tukey a fait allusion à cette discipline dans son article fondamental intitulé "L'avenir de l'analyse des données". Dans cet ouvrage, il décrit l'existence d'une "science non reconnue", qui consiste à apprendre à partir des données.

Il est toutefois plus utile d'examiner la data science dans le monde moderne. L'avènement du big data – rendu possible par les progrès des capacités de traitement et de stockage – a offert aux organisations des possibilités inédites de révéler des informations cachées dans les données et de les utiliser pour améliorer la prise de décision. Mais pour cela, ces données doivent d'abord être collectées, traitées, analysées et partagées. Gérer le cycle de vie des données constitue l'essence même de la data science.

Aujourd'hui, la data science est omniprésente dans le monde business – et au-delà. À tel point que la Harvard Business Review a surnommé le data scientist le job le plus sexy du 21ème siècle. Si les data scientists sont les spécialistes, la data science concerne des techniques et des technologies.

Manufacturing

Déployer le meilleur modèle en production

En tant que fabricant mondial de matériaux de construction, USG doit produire des produits de haute qualité à des prix abordables. En déployant SAS® Model Manager, le producteur de Sheetrock peut déterminer la formulation optimale des matières premières et ajuster leur processus de production quasiment en temps réel pour atteindre cet objectif.

La Data Science dans le monde d’aujourd’hui

Un coup d'œil dans le monde moderne de la data science.

L'expérience de la Data Science

Explorez des exemples réels de data science en action avec des vidéos, des articles et des webinaires à la demande.

Favorisez l'innovation analytique grâce à l'intégration SAS® et Open Source

Ce document fournit des indications pour avoir une approche de data science innovante en intégrant les logiciels open source avec SAS.

La Data Science et l'Art de la Persuasion

Ce résumé d'un webinaire de la Harvard Business Review décrit ce que les équipes de data science doivent faire pour mieux réussir et les compétences que les data scientists devraient développer pour améliorer leur efficacité.

Centre de Ressources en Data Science

Ce centre de ressources regorge de tout ce qu'il vous faut pour parfaire votre formation de data scientist. Il comprend des vidéos, des articles, des webinaires et d'autres matériels d'apprentissage. Il inclut aussi des sujets pratiques comme le data storytelling, la recherche scientifique et des conseils pour réussir un entretien en data science.

Le Magic Quadrant de Gartner pour la Data Science

Vous êtes curieux de savoir comment se positionnent les différentes plateformes de data science ? Explorez le Magic Quadrant de Gartner pour les plateformes de data science et machine learning pour comparer les 20 meilleures offres.

Qui utilise la data science ?

Il est difficile de trouver une industrie qui n'intègre pas la data science dans ses fonctions métier essentielles. Voici quelques-uns des cas d'usages les plus intéressants.

Santé

L'adoption de la data science dans les soins de santé a été accélérée par la demande croissante de soins axés sur la valeur et de cycles de découverte de médicaments plus rapides. Rien que dans le domaine de l'imagerie médicale, l'IA et l'analytique permettent désormais d'améliorer la précision des diagnostics, d'accroitre les capacités des médecins et des radiologues et d'améliorer les prestations de soins.

Retail & Biens de consommation

Pour rivaliser avec les Amazon du monde entier, la grande distribution doit être en mesure de répondre rapidement aux besoins des clients en utilisant des technologies de data science telles que l'analyse prédictive. Cela permet de prévoir les niveaux de la demande, de gérer les fluctuations de la demande et d'établir des corrélations entre les tendances et les relations au sein de la chaîne logistique.

Secteur public

Alors que le volume et la complexité des décisions augmentent au sein des gouvernements, les agences se tournent vers la data science pour améliorer l'exactitude, l'équité et la rapidité de ces décisions. Découvrez comment les gouvernements du monde entier utilisent l'analytique pour prendre des millions de décisions vitales chaque jour.

Banque

Pour les banques, la data science est plus qu'une tendance – c'est le cœur de leur metier. Avec quantité de cas d'usages allant de la détection des fraudes à la gestion des risques en passant par la Customer Intelligence, la data science est désormais le moteur des décisions opérationnelles critiques et un facteur de différenciation concurrentiel dans un paysage financier très dense.

Cas d'application de la data science

Pour comprendre les nombreuses façons dont la data science peut affecter une organisation, il est utile d'examiner certains des objectifs et des applications courantes de la data science. 

  • Prédiction (quand une ressource va faire défaut).
  • Classification (nouveau client ou client existant).
  • Recommandations (si vous aimez ceci, essayez cela).
  • Détection d'anomalie (achats frauduleux).
  • Reconnaissance (image, texte, audio, vidéo, etc.).
  • Informations exploitables (tableaux de bord, rapports, visualisations).
  • Processus et prise de décision automatisés (approbation de cartes de crédit).
  • Notation et classement (notation crédit).
  • Segmentation (marketing ciblé).
  • Optimisation (améliorations de la fabrication).
  • Prévisions (prédiction des ventes et des revenus).

Si vous voulez compléter votre travail de data science avec une meilleure compréhension du choix, du déploiement et de la gestion des modèles, l'idéal est de suivre une formation supplémentaire en IA et en ML. Ronald van Loon Principal Analyst CEO of Intelligent World

IA composite

Aujourd'hui, la plupart des projets d'IA font appel à plusieurs technologies de data science. Selon Gartner, l'utilisation d'une combinaison de différentes techniques analytiques et d'IA pour obtenir le meilleur résultat est appelée "IA composite".

Avec l'IA composite, on commence par le problème, puis on analyse les bonnes données avec les outils adéquats pour le résoudre. Cela implique souvent l'utilisation d'une combinaison de techniques de data science, notamment le ML, les statistiques, l'Analytics avancée, le data mining, la prévision, l'optimisation, le traitement automatique du langage naturel, la vision par ordinateur, etc. 

L'IA composite est de plus en plus synonyme de data science. Cela est dû au fait qu'il n'est pas toujours facile de choisir la bonne technologie d'IA à utiliser. Cela exige une compréhension approfondie du problème métier à résoudre et des données disponibles pour le résoudre. Cette combinaison d'expertise métier et technologique est l'essence même de la data science. 

Comment fonctionne la Data Science

La data science implique l'utilisation de multiples outils et technologies pour extraire des informations significatives à partir de données structurées et non structurées. Voici quelques-unes des pratiques courantes utilisées par les data scientists pour transformer des données brutes en informations susceptibles d'affecter l'entreprise.

La gestion des données (ou Data Management)  est la pratique consistant à gérer les données afin d'utiliser tout leur potentiel au service d'une organisation. Pour gérer efficacement les données, il faut disposer d'une stratégie et de méthodes fiables pour accéder aux données, les intégrer, les nettoyer, les gouverner, les stocker et les préparer pour l'analytique. 

Le machine learning automatise la création de modèles analytiques. Le machine learning non-supervisé utilise des méthodes issues des réseaux neuronaux, des statistiques, de la recherche opérationnelle et de la physique pour trouver des informations enfouies dans les données, sans que la cible des recherches ou les conclusions à en tirer soient explicitement programmées.

Un réseau de neurones  est un type de machine learning inspiré du fonctionnement du cerveau humain. C'est un système calculatoire composé d'unités interconnectées (comme des neurones) qui traite l'information en répondant à des entrées externes et en les transmettant d'une unité à l'autre.

Le deep learning  utilise d'énormes réseaux neuronaux comportant plusieurs couches d'unités de traitement. Il tire ainsi parti des progrès réalisés en matière de puissance de traitement et de techniques d'apprentissage pour identifier des schémas complexes dans de gros volumes de données. La reconnaissance de l'image et de la parole figurent parmi les applications courantes.

La vision par ordinateur (ou Computer Vision)  repose sur la reconnaissance de schémas et sur le deep learning pour identifier le contenu d'une image ou d'une vidéo. Quand les machines sont capables de traiter, d'analyser et de comprendre des images, elles peuvent capturer des images ou des vidéos en temps réel, et interpréter ce qui les entoure.

Le traitement du langage naturel (ou Natural Language Processing)  désigne la capacité des ordinateurs à analyser, à comprendre et à générer un langage humain, y compris sous sa forme orale. Dans sa phase évoluée, ce traitement consiste en une interaction en langage naturel, qui permet aux humains de communiquer avec des ordinateurs en parlant dans le langage de tous les jours, afin d'exécuter des tâches.

La Data Visualisation est la présentation des données sous forme d'images ou de graphiques afin qu'elles puissent être facilement analysées. Ceci est particulièrement important pour permettre aux entreprises de prendre des décisions basées sur les résultats de la data science. 

Langages de programmation populaires pour la data science

Tout comme les humains, les data scientists utilisent une grande variété de langages. Avec les centaines de langages de programmation disponibles aujourd'hui, le choix du bon langage dépend de ce que vous voulez faire. Voici un aperçu des principaux langages de programmation en data science. 

Python est un langage de programmation interprété, orienté vers l'objet, de haut niveau et à sémantique dynamique. Ses structures de données intégrées de haut niveau, combinées au typage dynamique et à la liaison dynamique, le rendent très attrayant pour le développement rapide d'applications, ainsi que comme langage de script ou de collage pour connecter des composants existants.

R est un environnement logiciel gratuit pour le calcul statistique et les graphiques, soutenu par la R Foundation for Statistical Computing. Le langage R est largement utilisé par les statisticiens et les data miners pour le développement de logiciels statistiques et d'analyse de données.

SQL est un langage utilisé en programmation et spécifiquement conçu pour la gestion des données contenues dans un système de gestion de bases de données relationnelle (RDBMS) ou pour le traitement de flux dans un système de gestion de flux de données relationnelles (RDSMS). Il est particulièrement utile pour traiter des données structurées, c'est-à-dire des données incorporant des relations entre entités et variables.

SAS est un langage de programmation auquel font confiance des centaines de milliers de data scientists dans le monde. La plateforme SAS Viya vous permet de combiner les avantages de chaque système technologique et langage de programmation de votre organisation pour améliorer le développement et le déploiement des modèles analytiques. Découvrez comment SAS Viya peut vous aider à transformer votre vivier de modèles en décisions métier plus pertinentes.

Étapes suivantes

Vous voulez apprendre la data science ? Faites le avec SAS !

Les solutions de data science

Les offres de data science de SAS Viya comportent des fonctionnalités robustes de gestion des données, de visualisation, d'analytique avancée et de gestion de modèles pour accélérer l'adoption de la data science dans toute organisation.

SAS Visual Data Mining and Machine Learning vous permet de résoudre les problèmes analytiques les plus complexes avec une solution collaborative unique et intégrée – qui possède désormais sa propre API de modélisation automatisée.

SAS Visual Analytics vous donne les moyens de préparer rapidement des rapports de manière interactive, d'explorer vos données via des affichages visuels et d'effectuer vos analyses sur demande.

Ces solutions, et bien d'autres encore, reposent sur SAS Viya, la plateforme de data science de SAS, leader sur le marché, qui fonctionne sur une architecture moderne, évolutive et basée sur le cloud. 

Prenez contact avec SAS et voyons ensemble ce que nous pouvons faire pour vous.