Analyse prédictive
Rôle et atouts
L'analyse prédictive consiste à utiliser des données, des algorithmes statistiques et des techniques de machine learning pour anticiper de probables résultats futurs en fonction des données historiques. L'objectif est d'extrapoler à partir des événements survenus pour mieux prévoir les événements futurs.
Historique de l'analyse prédictive et avancées actuelles
L'analyse prédictive, qui existe depuis des décennies, est désormais une technologie mature. De plus en plus d'entreprises y ont recours pour améliorer leurs résultats et acquérir un avantage concurrentiel. Les raisons sont multiples :
- Augmentation des volumes et multiplication des types de données, et volonté accrue de tirer des enseignements des données.
- Ordinateurs plus rapides et moins onéreux.
- Logiciels plus conviviaux.
- Conjoncture économique moins favorable et nécessité de se démarquer de la concurrence.
Les logiciels interactifs et conviviaux se généralisant, l'analyse prédictive n'est plus réservée aux mathématiciens et aux statisticiens. Analystes et experts métier font également appel à ces technologies.
Quel est l'intérêt de l'analyse prédictive ?
Les entreprises se tournent vers l'analyse prédictive pour résoudre des problèmes complexes et découvrir de nouvelles opportunités, notamment dans les domaines suivants :
Détection de fraudes. L’utilisation conjointe de plusieurs méthodes analytiques permet d'améliorer les schémas de détection et d'anticiper les comportements criminels. La cybersécurité étant de plus en plus au centre des préoccupations, l'analyse comportementale hautes performances examine en temps réel toutes les actions sur un réseau, afin de détecter les anomalies révélatrices de fraude, les vulnérabilités de type « zero-day » et les menaces avancées persistantes.
Optimisation des campagnes marketing. L'analyse prédictive permet de déterminer les réactions des clients ou leurs achats, mais aussi de promouvoir des opportunités de vente croisée. Les modèles prédictifs aident les entreprises à attirer, fidéliser et multiplier les clients les plus rentables.
Amélioration des opérations. Nombre d’entreprises utilisent des modèles prédictifs pour prévoir leurs stocks et gérer leurs ressources. Les compagnies aériennes fixent les prix des billets grâce à l'analyse prédictive. Les hôtels s'efforcent de prévoir le nombre de clients par nuit pour optimiser le taux d'occupation et augmenter leur chiffre d’affaires. L'analyse prédictive permet aux entreprises de gagner en efficacité.
Réduction des risques. Les scores de crédit attribués pour évaluer la probabilité de défaillance d'un acheteur sont un exemple bien connu d'analyse prédictive. Ces scores sont des nombres générés par un modèle prédictif qui intègre toutes les données pertinentes relatives à la solvabilité d'une personne. Les autres applications liées aux risques concernent les assurances.
L'analyse prédictive dans le monde d'aujourd'hui
L'analyse prédictive permet d'extrapoler à partir des événements survenus et de leurs causes afin de tirer des enseignements sur l'avenir. Découvrez dans quelle mesure l'analyse prédictive façonne le monde dans lequel nous vivons.
Vos compétences en matière d'analyse prédictive sont insuffisantes ?
Cet e-book de SAS contient des conseils pratiques d'employeurs et de formateurs pour attirer, fidéliser et motiver des experts en analytique.
Faire bon usage de l'analyse prédictive
Ce rapport de Harvard Business Review Insight Center inclut 25 articles sur l'utilisation de l'analyse prédictive dans la prise de décision et la planification.
Valider vos initiatives marketing à l'aide de l'analyse prédictive
Découvrez comment l'attribution marketing donne de la crédibilité à vos projets marketing en remplaçant les hypothèses et les modèles arbitraires par des données et des analyses.
Les bonnes pratiques pour améliorer vos résultats de modélisation prédictive.
Gérer et coordonner toutes les phases d'un processus analytique peut s'avérer complexe. Découvrez comment procéder étape par étape afin d'obtenir des résultats plus fiables.
Analyse prédictive
Le logiciel de data mining de SAS® exploite des algorithmes de pointe qui ont fait leurs preuves pour résoudre les problèmes les plus complexes.
Utilisation
Quel que soit le secteur d’activité, l'analyse prédictive permet de réduire les risques, d'optimiser les opérations et d'augmenter les revenus. En voici quelques exemples.
Banque et services financiers
Le secteur financier, où les volumes de données et de capitaux en jeu sont conséquents, a depuis longtemps adopté l'analyse prédictive pour détecter et réduire la fraude, évaluer le risque de crédit, multiplier les opportunités de vente croisée ou incitative, et fidéliser les meilleurs clients. Ainsi, la Commonwealth Bank se sert de l'analytique pour évaluer la probabilité de fraude dans chaque transaction avant de l'autoriser, et ce dans un délai de 40 millisecondes.
Grande distribution
Depuis qu'une fameuse étude a révélé que les hommes qui achètent des couches en profitent souvent pour acheter de la bière, la grande distribution utilise systématiquement l'analyse prédictive pour déterminer les produits à stocker, l'efficacité des événements promotionnels et les offres les plus appropriées pour les consommateurs. En analysant le comportement de ses clients pour mieux les connaître, Staples a enregistré un ROI de 137 %.
Energies et services publics
Qu'il s'agisse de prévoir les pannes des équipements et les futurs besoins en ressources, de réduire les risques au niveau de la sécurité et de la fiabilité des produits, ou d'augmenter le rendement global, le secteur de l'énergie a massivement adopté l'analyse prédictive. Salt River Project est la deuxième entreprise publique de distribution d'électricité aux États-Unis et l'une des principales sociétés de distribution d'eau en Arizona. Les analyses des données transmises par les capteurs des machines indiquent à quel moment procéder à la maintenance des turbines.
Administration et secteur public
Les administrations jouent un rôle clé dans les progrès des technologies informatiques. Par exemple, le US Census Bureau analyse les données depuis des décennies pour dégager des tendances démographiques. Les administrations utilisent désormais l'analyse prédictive comme n'importe quel autre secteur d’activité : pour améliorer le service et les performances, détecter et prévenir la fraude, cerner les consommateurs, et enfin renforcer la cybersécurité.
Assurance maladie
En plus de lutter contre la fraude organisée, le secteur de l'assurance maladie s'efforce d'identifier les patients présentant un risque de maladie chronique et de déterminer les interventions les plus appropriées. Grand prestataire de services de gestion de régimes d’assurance médicaments, Express Scripts utilise l'analytique pour identifier les patients qui ne respectent pas les traitements prescrits, ce qui lui permet d'économiser de 1 500 à 9 000 dollars par patient.
Industrie
Pour les industriels, il est très important de repérer l’origine des défauts de qualité et des arrêts de production, mais aussi d'optimiser la gestion des pièces de rechange, de l'entretien et de l'approvisionnement. Ainsi, Lenovo a recours à l'analyse prédictive pour mieux comprendre les réclamations au titre de la garantie, une initiative qui a permis au constructeur de réduire les coûts de 10 à 15 % dans ce domaine.
En savoir plus sur les secteurs qui utilisent cette technologie
- Agriculture
- Banque
- Marchés des capitaux
- Enseignement
- Santé
- Hôtels
- Assurance
- Sciences de la vie
- Manufacturing
- Secteur public
- Retail & Biens de consommation
- Petites et Moyennes entreprises
- Analytique dans le sport
- Voyage & Transport
- Télécommunications, médias & Technologie
- Transport & Énergie
La magie au service des Orlando Magic
En sports, l'analytique a le vent en poupe, grâce notamment à Nate Silver et à ses prévisions dans les championnats. L'équipe des Orlando Magic de la NBA s'appuie sur les analyses prédictives de SAS pour augmenter ses revenus et déterminer la composition de son cinq majeur. Les informations sont instantanément accessibles à tous les échelons de l'organisation des Orlando Magic. L'équipe peut désormais consulter sous forme visuelle les données les plus récentes, pour chaque match et chaque place.
Analyse textuelle prédictive
Près de 90 % des données sont non structurées. Savez-vous tirer parti de l'analyse prédictive pour dénicher des informations dans toute cette masse ?
Comment ça marche
Les modèles prédictifs utilisent les résultats connus pour développer (ou entraîner) un modèle permettant de prédire les valeurs de données différentes ou nouvelles. La modélisation donne des résultats sous la forme de prévisions qui représentent une probabilité de la variable cible (par exemple, le chiffre d'affaires) en fonction du poids estimé d'un ensemble de variables d'entrée.
Elle s'écarte en cela des modèles descriptifs qui servent à comprendre les événements survenus ou des modèles de diagnostic qui vous aident à identifier les relations clés et à déterminer les causes de ces événements. Les méthodes et techniques analytiques font l'objet d'une abondante littérature et de cursus universitaires complets. Mais voici quelques notions de base.
Il existe deux types de modèles prédictifs. Les modèles de classification prédisent l'appartenance à une classe. Par exemple, vous essayez de savoir si une personne est susceptible de partir, si elle réagira à une sollicitation, si elle présente ou pas un risque de crédit, etc. En général, les résultats du modèle sont de type 0 ou 1, 1 désignant l'événement que vous ciblez. Les modèles de régression prédisent un nombre, par exemple le chiffre d'affaires qu'un client va générer au cours de l'année à venir ou le nombre de mois au bout desquels un composant va tomber en panne.
Les trois techniques de modélisation prédictive les plus employées sont les arbres de décision, la régression et les réseaux de neurones.
La régression (linéaire et logistique) est l'une des méthodes les plus répandues en statistique. L'analyse de régression évalue les relations entre des variables. Conçue pour les données continues censées suivre une distribution normale, elle détecte des tendances clés dans de vastes jeux de données et sert souvent à déterminer l'influence de facteurs spécifiques, tels que le prix, sur les variations d'un actif. Avec l'analyse de régression, il s'agit de prédire un nombre, appelé variable de réponse ou variable Y. Dans la régression linéaire, une variable indépendante est utilisée pour expliquer et/ou prédire le résultat de Y. La régression multiple utilise deux variables indépendantes ou plus pour prédire ce résultat. Dans la régression logistique, des variables inconnues d'une variable discrète sont prédites en fonction de la valeur connue d'autres variables. La variable de réponse est catégorique, ce qui signifie qu'elle ne peut prendre qu'un nombre limité de valeurs. Dans la régression logistique binaire, une variable de réponse n'a que deux valeurs, de type 0 ou 1. Dans la régression logistique multiple, une variable de réponse peut comporter plusieurs niveaux, par exemple bas, moyen et haut, ou 1, 2 et 3.
Les arbres de décision sont des modèles de classification qui divisent les données en sous-ensembles selon des catégories de variables d'entrée. Ils permettent de comprendre le raisonnement d'une personne et se présentent sous la forme d'une arborescence, dont chaque branche constitue un choix entre plusieurs alternatives et chaque feuille, une classification ou une décision. Ce modèle examine les données et essaie de trouver la variable qui les divise en groupes logiques les plus différents possible. Faciles à comprendre et à interpréter, les arbres de décision sont très utilisés. En outre, ils gèrent correctement les valeurs manquantes et se révèlent très pratiques pour le tri préliminaire des variables. Par conséquent, s'il vous manque un grand nombre de valeurs ou si vous souhaitez obtenir une réponse rapide et facile à interpréter, commencez par élaborer un arbre.
Les réseaux de neurones sont des techniques sophistiquées capables de modéliser des relations extrêmement complexes. Leur puissance et leur souplesse font leur succès, notamment grâce à leur capacité à gérer les relations non linéaires des données, de plus en plus fréquentes avec l'augmentation du volume de données collectées. Ils servent souvent à confirmer les résultats obtenus à l'aide de techniques simples, comme la régression et les arbres de décision. Les réseaux de neurones se basent sur la reconnaissance de tendances et sur certains processus d'intelligence artificielle qui « modélisent » des paramètres sous forme graphique. Ils fonctionnent bien en l'absence de formules mathématiques connues pour relier les entrées aux sorties, dans les cas où la prévision importe plus que l'explication ou lorsque les données d'apprentissage sont nombreuses. À l'origine, les réseaux de neurones artificiels ont été mis au point par des chercheurs tentant de reproduire le fonctionnement neurophysiologique du cerveau humain.
Autres techniques courantes
Analyse bayésienne. Les méthodes bayésiennes traitent les paramètres comme des variables aléatoires et définissent la probabilité comme un « degré de confiance » (la probabilité d'un événement correspond donc à votre degré de conviction qu'il va effectivement avoir lieu). Au cours d'une analyse bayésienne, vous partez d'un pronostic préalable concernant la distribution de probabilité d'un paramètre inconnu. Après avoir assimilé les informations déduites des données dont vous disposez, vous modifiez ou révisez votre pronostic concernant le paramètre inconnu.
Modélisation d’ensembles. Les modèles d'ensembles résultent de l’entraînement de plusieurs modèles semblables et de l’agrégation de leurs résultats pour accroître la précision, réduire le biais et la variance, et identifier le meilleur modèle à utiliser avec de nouvelles données.
Gradient boosting. Cette approche consiste à échantillonner à plusieurs reprises votre jeu de données afin de produire des résultats formant une moyenne pondérée du jeu de données rééchantillonné. À l’instar des arbres de décision, le mode Boosting ne formule aucune hypothèse sur la distribution des données. Il est moins sujet au surapprentissage des données qu'un arbre de décision unique. Par ailleurs, si un arbre de décision modélise correctement les données, le mode Boosting améliore souvent les résultats. (Le surapprentissage signifie que les variables sont trop nombreuses et le modèle trop complexe. Le sous-apprentissage est le phénomène inverse : les variables sont insuffisantes et le modèle trop simple. Dans les deux cas, la prévision est moins précise.)
Réponse incrémentielle (modèles net lift et uplift). Ces techniques modélisent le changement de probabilité provoqué par une action. Elles sont largement utilisées pour réduire le taux d'attrition et évaluer l’impact de différents programmes marketing.
K plus proches voisins (knn). Il s'agit d'une méthode non paramétrique de classification et de régression qui prédit les valeurs d'un objet ou les classes auxquelles il appartient en fonction des k plus proches exemples d'apprentissage.
Raisonnement à base de cas (MBR). Le raisonnement à base de cas est une technique des k plus proches voisins qui permet de catégoriser ou prédire des observations.
Moindres carrés partiels. Cette technique statistiques souple peut s'appliquer à toutes les formes de données. Elle modélise les relations entre entrées et sorties, même lorsque les entrées sont corrélées et brouillées, que les sorties possibles sont nombreuses ou qu'il y a plus d'entrées que d'observations. La méthode des moindres carrés partiels recherche des facteurs qui expliquent les variations tant dans les réponses que dans les prédicteurs.
Analyse en composantes principales. L'analyse en composantes principales a pour objet d'extraire un petit nombre de combinaisons linéaires indépendantes (composantes principales) d'un ensemble de variables, tout en conservant le plus d'informations possible des variables d'origine.
Machine à vecteurs de support. Cette technique de machine learning supervisé utilise des algorithmes d'apprentissage associés pour analyser les données et dégager des tendances. Elle s'applique aussi bien aux modèles de classification qu'aux modèles de régression.
Data mining de séries chronologiques. Les données de séries chronologiques sont horodatées et collectées sur des périodes particulières (les ventes mensuelles, le nombre d'appels par jour, le nombre d'accès à un site web par heure, etc.). Le data mining de séries chronologiques combine des techniques classiques de data mining et de prévision. Les données collectées sont soumises à des techniques d'échantillonnage, de clusterisation et d’arbre de décision, dans le but d'améliorer les prévisions.
Utilisation de l'analyse prédictive : les prérequis
En savoir plus sur le cycle de vie analytique et ses avantages
Pour utiliser l'analyse prédictive, il faut d'abord avoir un problème à résoudre. Que voulez-vous savoir de l'avenir en fonction des enseignements du passé ? Que cherchez-vous à comprendre et à prévoir ? Vous pouvez également réfléchir à l'usage qui sera fait des prévisions établies. Quelles décisions seront fondées sur les informations recueillies ? Quelles actions seront menées ?
Ensuite, il vous faut des données, à présent issues de nombreuses sources : systèmes transactionnels, capteurs, tiers, enregistrements des centres d'appels, journaux web, etc. Vous devrez faire appel à un spécialiste de la manipulation ou de la gestion des données, qui vous aidera à nettoyer et préparer les données pour analyse. Préparer les données en vue d'une modélisation prédictive exige également de comprendre à la fois les données et la problématique à résoudre. Il est indispensable de bien définir la cible pour pouvoir interpréter les résultats. (La préparation des données est considérée comme l'un des aspects les plus fastidieux du processus d'analyse. Tenez-en compte !)
Après cette étape, vous pouvez commencer à élaborer le modèle prédictif. Grâce à des logiciels de plus en plus faciles à utiliser, cette tâche est à la portée du plus grand nombre. Néanmoins, vous devrez sans doute faire appel à un analyste qui vous aidera à affiner vos modèles et à retenir le plus performant. Il vous faudra ensuite solliciter un informaticien pour déployer les modèles, c'est-à-dire les appliquer aux données choisies, afin d'obtenir les résultats souhaités.
La modélisation prédictive exige donc de constituer une équipe composée de personnes au fait de la problématique à résoudre, d'une personne capable de préparer les données à analyser, d'une personne en mesure de créer et d'affiner les modèles, d'un informaticien chargé de s'assurer que votre infrastructure analytique se prête à l’élaboration et au déploiement de modèles. Enfin, un cadre responsable validera le tout pour que vos rêves d'analytique deviennent réalité.
En savoir plus sur l'analyse prédictive
- What are AI hallucinations?Separating fact from AI-generated fiction can be hard. Learn how large language models can fail and lead to AI hallucinations – and discover how to use GenAI responsibly.
- What are chatbots?Chatbots are a form of conversational AI designed to simplify human interaction with computers. Learn how chatbots are used in business and how they can be incorporated into analytics applications.
- Analytics leads to lifesaving cancer therapiesA long-shot treatment offers hope to 10-year-old Harrison after he learns the DNA profile of his cancer is resistant to chemo. Find out how data and analytics play a role in cancer research and cancer treatments that are saving lives.
- Analytics tackles the scourge of human traffickingVictims of human trafficking are all around us. From forced labor to sex work, modern-day slavery thrives in the shadows. Learn why organizations are turning to AI and big data analytics to unveil these crimes and change future trajectories.
- Viking transforms its analytics strategy using SAS® Viya® on AzureViking is going all-in on cloud-based analytics to stay competitive and meet customer needs. The retailer's digital transformation are designed to optimize processes and boost customer loyalty and revenue across channels.
- Public health infrastructure desperately needs modernizationPublic health agencies must flex to longitudinal health crises and acute emergencies – from natural disasters like hurricanes to events like a pandemic. To be prepared, public health infrastructure must be modernized to support connectivity, real-time data exchanges, analytics and visualization.
- SAS CIO: Why leaders must cultivate curiosity in 2021With the change we’re all facing this year, CIOs should be counting on curiosity to play a crucial role in how we’re going to meet the challenges that lie ahead. From the moment COVID-19 hit, our IT organization has relied on curiosity – that strong desire to explore, learn, know - to fuel the urgent changes required. And it’s curiosity that will enable us to meet the needs of the future of work post-pandemic.
- Five ways your organization can enhance resilience for years to comeInnovation, agility and customer-centricity frequently top the list of companies’ strategic objectives, and now the most urgent priority is resilience. Given this new urgency, it’s worth taking a close look at the underpinnings of resilience and how they could be applied in any industry. This article explores how analytics can help boost resilience and includes key elements to keep your organization resilient.