Data Mining

Qu'est-ce que c'est et pourquoi c'est important

Le data mining est le processus qui consiste à trouver des anomalies, des modèles et des corrélations dans de grands ensembles de données afin de prévoir les résultats. Grâce à un large éventail de techniques, vous pouvez utiliser ces informations pour augmenter les revenus, réduire les coûts, améliorer la relation client, réduire les risques, etc.


Historique du Data Mining

Le processus consistant à fouiller dans les données pour découvrir des corrélations cachées et prédire les tendances futures ne date pas d'hier. Parfois appelé "découverte de connaissances dans les données", le terme "data mining" n'a été inventé que dans les années 1990. Mais il repose sur trois disciplines scientifiques étroitement liées : les statistiques (l'étude numérique des relations entre les données), l'intelligence artificielle (une intelligence proche de l'intelligence humaine et mise en oeuvre par les logiciels et/ou les machines) et le machine learning (les algorithmes capables d'apprendre à partir des données pour faire des prédictions). Ce qui était dépassé redevient novateur, car la technologie de data mining ne cesse d'évoluer pour s'adapter au potentiel illimité du big data et à une puissance de calcul moins onéreuse.

Au cours de la dernière décennie, les progrès de la puissance et de la vitesse de traitement nous ont permis de passer de pratiques manuelles, fastidieuses et chronophages à une analyse rapide, facile et automatisée des données. Plus les ensembles de données collectées sont complexes, plus il est possible de découvrir des informations pertinentes. Les détaillants, les banques, les fabricants, les fournisseurs de télécommunications et les assureurs, entre autres, utilisent le data mining pour découvrir les relations entre tous les éléments, depuis l'optimisation des prix, les promotions et les données démographiques jusqu'à la manière dont l'économie, le risque, la concurrence et les médias sociaux affectent leurs modèles d'entreprise, leurs revenus, leurs opérations et leurs relations avec les clients.

 

Pourquoi le data mining est-il important ?

Alors pourquoi s'intéresse-t-on au data mining ? Vous connaissez ces chiffres stupéfiants – le volume des données produites double tous les deux ans. Les données non structurées représentent à elles seules 90 % de l'univers numérique. Mais plus d'informations ne se traduit pas forcément par plus de connaissances.

Le data mining vous permet de :

  • Éliminer les bruits chaotiques et répétitifs dans vos données.
  • Comprendre ce qui est pertinent, puis bien utiliser ces informations pour évaluer les résultats probables.
  • Prendre des décisions éclairées plus rapidement.
  • Découvrez de nouvelles informations à partir des données grâce à l'analyse prédictive.

Le Data Mining dans le monde d’aujourd’hui

Le data mining est une pierre angulaire de l'analytique, qui vous aide à développer des modèles capables de découvrir des connexions dans des millions ou des milliards d'enregistrements. Découvrez comment le data mining façonne le monde dans lequel nous vivons.

L'univers du machine learning

Ce livre blanc destiné aux data scientists débutants et intermédiaires explore les quatre principaux styles d'apprentissage automatique et la manière dont ils sont utilisés. Découvrez les différentes méthodologies, la façon dont le machine learning et le data mining fonctionnent ensemble pour créer des modèles, et quand il est le plus efficace d'utiliser le deep learning. Vous découvrirez également les algorithmes les plus répandus et des considérations telles que l'interprétabilité et l'automatisation.

Les décisions fondées sur des données favorisent le bien-être et la croissance économique

La ville de Jakarta était confrontée à des problèmes de données en raison d'un ancien système d'archives publiques et de plus de 50 applications de service dans différents départements. Grâce à une solution incluant le data mining et d'autres technologies d'analyse, Jakarta a mis en place une plateforme numérique unique et une "super application" qui permet aux citoyens d'accéder facilement à de nombreux services gouvernementaux. 

Leçons de changement d'un professeur de data mining

Il est difficile de maintenir l'attention des élèves en raison de la brièveté de leur temps d'attention. Cali M. Davis, professeur assistant à l'Université de Troy, a décidé d'expérimenter en apprenant à construire des modèles et à résoudre des problèmes avec SAS Viya. Elle a donné deux cours, l'un pour un ancien outil de data mining et l'autre pour un logiciel avec des tableaux de bord et des visualisations. Pouvez-vous deviner lequel a été le plus populaire ?

 

Data mining software

Data mining software from SAS uses proven, cutting-edge algorithms designed to help you solve the biggest challenges.

Learn more about data mining software from SAS

Utilisation

Le data mining est au cœur des efforts d'analyse dans un grand nombre d'industries et de disciplines.

Télécommunications, médias & Technologie

Dans un marché saturé où la concurrence est élevée, les réponses se trouvent souvent dans les données de vos consommateurs. Les entreprises des télécommunications, médias et technologies peuvent utiliser des modèles analytiques pour donner du sens à d'immenses volumes de données client, afin de prédire leur comportement et de proposer des campagnes ciblées et pertinentes.

Assurance

Grâce au savoir-faire analytique, les compagnies d'assurance peuvent résoudre des problèmes complexes relatifs à la fraude, la conformité, la gestion des risques et l'attrition client. Les assureurs ont utilisé des techniques de data mining pour définir leurs prix plus efficacement dans les différentes branches d'activité et trouver de nouvelles façons de proposer des offres compétitives à leur clientèle existante.

Enseignement

Grâce à des vues unifiées et pilotées par les données qui montrent les progrès des élèves, les éducateurs peuvent prédire les performances des élèves avant même qu'ils ne mettent un pied dans la salle de classe – et développer des stratégies d'intervention pour les maintenir sur la bonne voie. Le data mining permet aux éducateurs d'accéder aux données des élèves, de prévoir les niveaux de réussite et d'identifier les élèves ou les groupes d'élèves nécessitant une attention particulière.

Industrie

L'alignement des plans d'approvisionnement sur la prévision de la demande est essentiel, tout comme la détection anticipée des problèmes, l'assurance qualité et l'investissement dans le capital de la marque. Les industriels peuvent prédire l'usure des équipements de production et anticiper la maintenance, ce qui permet de maximiser le temps de fonctionnement et de maintenir la chaîne de production dans les délais.

Banque

Les algorithmes automatisés aident les banques à comprendre leur clientèle ainsi que les milliards de transactions au cœur du système financier. Le data mining permet aux entreprises de services financiers d'avoir une meilleure vision des risques du marché, de détecter et de rapidement prévenir les fraudes, de gérer les obligations de conformité réglementaire et d'obtenir un rendement optimal de leurs investissements en marketing.

Retail & Biens de consommation

Les grandes bases de données clients contiennent des informations cachées sur les clients qui peuvent vous aider à améliorer les relations, à optimiser les campagnes de marketing et à prévoir les ventes. Grâce à des modèles de données et à des analyses marketing plus précis, les entreprises de vente au détail peuvent proposer des campagnes plus ciblées et trouver l'offre qui a le plus d'impact sur le client.

Comment cela fonctionne-t-il ?

Le data mining, en tant que discipline composite, représente une variété de méthodes ou de techniques utilisées dans différentes fonctionnalités analytiques qui répondent à toute une gamme de besoins organisationnels, posent différents types de questions et utilisent des niveaux variables de contribution humaine ou de règles pour aboutir à une décision.

 

La modélisation descriptive permet de découvrir des similitudes ou des regroupements communs dans les données historiques afin de déterminer les raisons d'un succès ou d'un échec, par exemple en classant les clients en fonction de leurs préférences en matière de produits ou de leur sentiment. Voici quelques exemples de techniques :

Clusterisation
Regroupement d'enregistrements similaires.
Détection d'anomalie
Identification des valeurs multidimensionnelles hors norme .
Apprentissage de règles d'association
Détecter les relations entre les enregistrements.
Analyse en composantes principales
Détection des relations entre les variables.
Groupe d'affinité
Regroupement de personnes ayant des intérêts communs ou des objectifs similaires (par exemple, les personnes qui achètent X achètent souvent Y et éventuellement Z).

 

La modélisation prédictive va plus loin pour classer des événements futurs ou estimer des résultats inconnus - par exemple, en utilisant l'évaluation du crédit pour déterminer la probabilité qu'une personne rembourse un prêt. La modélisation prédictive permet également d'obtenir des informations sur des sujets tels que le taux d'attrition des clients, la réponse aux campagnes ou les défauts de paiement. Voici quelques exemples de techniques :

Analyse de régression
Mesure de la force de la relation entre une variable dépendante et une série de variables indépendantes.
Réseaux de neurones
Programmes informatiques qui détectent des modèles, font des prédictions et apprennent.
Arbres de décision
Diagrammes en forme d'arbre dans lesquels chaque branche représente une occurrence probable.
Machines à vecteurs de support
Modèles d'apprentissage supervisé et algorithmes d'apprentissage associés.


Modélisation prescriptive
Avec la croissance des données non structurées provenant du web, des champs de commentaires, des livres, des courriels, des PDF, des fichiers audio et d'autres sources de texte, l'adoption du text mining en tant que discipline liée au data mining s'est également développée de manière significative. Vous devez être en mesure d'analyser, de filtrer et de transformer avec succès les données non structurées pour les inclure dans des modèles prédictifs afin d'améliorer la précision des prédictions.

En fin de compte, il ne faut pas considérer le data mining comme une entité distincte et autonome, car le prétraitement (préparation des données, exploration des données) et le post-traitement (validation du modèle, notation, contrôle des performances du modèle) sont tout aussi essentiels. La modélisation prescriptive examine les variables et les contraintes internes et externes pour recommander un ou plusieurs plans d'action - par exemple, déterminer la meilleure offre marketing à envoyer à chaque client. Voici quelques exemples de techniques :

Analyse prédictive et règles
Développer des règles "si/alors" à partir de patterns et prédire les résultats.
Optimisation marketing
Simuler en temps réel le mix média le plus avantageux pour obtenir le meilleur retour sur investissement possible.