Le data mining est un processus analytique qui utilise des méthodes assistées par ordinateur pour identifier des modèles de données intéressants dans de grands ensembles de données de manière aussi autonome et efficace que possible. Les algorithmes utilisés sont issus des statistiques, de l’intelligence artificielle ou de l’apprentissage automatique.
Le data mining est un vaste domaine de recherche qui utilise divers algorithmes issus des mathématiques, des statistiques et de l’informatique pour identifier des modèles dans des ensembles de données.
Vous vous demandez ce qu’est le data mining et quelles sont les méthodes utilisées ? Dans cet article, nous allons vous montrer quelles sont les méthodes, quelles sont les différences avec les statistiques classiques, et comment vous pouvez utiliser avec succès le data mining dans la gestion de la relation client (CRM). Si cela vous intéresse, lisez la suite !
Sommaire
Définition du data mining
Définition : Le data mining est un processus analytique qui permet d’identifier et de décrire de manière autonome et efficace des modèles de données intéressants à partir de grands ensembles de données.
Le data mining est une approche interdisciplinaire qui utilise des méthodes issues de l’informatique et des statistiques. Souvent, des méthodes issues du domaine de l’intelligence artificielle et de l’apprentissage automatique sont utilisées. J’ai déjà donné une brève introduction au sujet de l' »apprentissage automatique » dans un billet.
Il n’existe pas de définition généralement acceptée du data mining. Cependant, il est important de faire une distinction avec ce que l’on appelle la découverte de connaissances dans les bases de données – Knowledge Discovery in Data Bases (KDD). De nombreux ouvrages attribuent le même sens à ces termes. Cependant, ce n’est pas tout à fait correct. La découverte de connaissances dans les bases de données est un processus plus large qui inclut les méthodes de data mining. Cependant, elle comprend également des tâches telles que la préparation des données, la vérification des interférences ou la visualisation des résultats.
L’objectif du data mining est généralement de générer des hypothèses à partir d’un ensemble de données, une approche dite ascendante sans hypothèse.
La définition du data mining est souvent utilisée comme synonyme d’autres termes : Apprentissage automatique, apprentissage profond, intelligence artificielle (IA).
Quels sont les avantages du data mining ?
Le data mining aide les entreprises à analyser de très grandes quantités de données, à en identifier des modèles intéressants et à prendre ensuite les bonnes décisions. Les avantages du data mining sont :
- Identifier et mieux comprendre les besoins des clients
- Créer des prédictions précises pour l’avenir
- Créer des prévisions de séries chronologiques
- Détecter les tendances et les anomalies à un stade précoce
- Traitement automatique des textes et des images
- Soutenir les processus de prise de décision
- Valider les hypothèses
- Optimiser les processus d’entreprise
Méthodes de Data Mining
Les méthodes de data mining peuvent être divisées en deux groupes : Classification, prédiction, segmentation et découverte de dépendances.
- La classification – est la recherche de modèles basés sur une caractéristique de classification. Il peut s’agir, par exemple, de la modélisation d’une affinité de produit. Les modèles formés peuvent être utilisés pour prédire les affinités des produits, par exemple.
- La prédiction – est la recherche de modèles d’une variable numérique cible. Les méthodes de prévision sont utilisées pour prédire des valeurs (par exemple, le chiffre d’affaires ou les ventes du mois suivant) pour l’avenir.
- Regroupement (segmentation & clustering) – trouver des groupes et des segments dans un ensemble de données. La segmentation de la clientèle est souvent utilisée en marketing et en CRM pour cibler plus précisément les activités de marketing.
- La découverte de dépendances (association et séquence) – est la recherche de modèles où les éléments sont liés et dépendants les uns des autres. L’analyse classique d’un panier d’achat en est un exemple.
Comme plusieurs méthodes de data mining peuvent être utilisées pour le même problème, la classification des méthodes par type de tâche est utile. La figure suivante montre que les types de tâches diffèrent au plus haut niveau entre les tâches potentielles et les tâches de description.
Classification
La classification des ensembles de données est l’une des méthodes de data mining les plus utilisées dans la pratique
Dans la classification, un objet (par exemple un client) est affecté à une classe prédéfinie en fonction de ses caractéristiques, par exemple si un client a répondu ou non à une certaine campagne.
La base de la classification est formée par des enregistrements de données qui contiennent diverses caractéristiques (indépendantes) et une valeur cible (dépendante). Dans notre exemple, la variable cible est la réaction à la campagne par un achat, c’est-à-dire un achat oui ou non. Les données décrites sont également appelées données de formation.
Les données décrites sont également appelées données de formation ou ensemble de formation. L’objectif de la classification est de former un modèle qui fait une bonne prédiction pour les nouveaux objets.
Dans notre cas, il s’agirait de nouveaux clients qui peuvent être évalués à l’aide de modèles en termes de réponse. Une méthode d’arbre de décision est souvent utilisée pour la classification.
Prévisions
L’objectif de la prévision est de créer un modèle de notation pour prédire une valeur continue (par exemple, la valeur du client ou le revenu). Il s’agit de créer un modèle qui examine les relations entre une variable dépendante (par exemple, la valeur du client) et une ou plusieurs variables indépendantes (âge, nombre de commandes, type de client, etc.).
Comme pour la classification, la prévision utilise l’ensemble de données d’échantillon (ensemble de données de formation) pour former un modèle qui peut faire des prédictions dans le futur. Au lieu des classes, la prévision permet de prédire des valeurs croissantes telles que les ventes, les valeurs des clients, etc.
Association (découverte des dépendances)
Les analyses d’association et de séquence sont utilisées dans l’analyse d’association. Le plus souvent, ces méthodes de data mining sont utilisées dans les analyses de panier de consommation. Ceci est particulièrement utile lorsqu’aucun identifiant ne peut être créé sur le client et que seules les données du reçu sont disponibles.
L’analyse d’association peut être utilisée pour créer des règles à partir d’ensembles de données sans spécifier de variable cible. Une règle pourrait être : Si l’article A est acheté, l’article B sera également acheté.
L’analyse des séquences est une extension de l’analyse des associations. Ici, des règles d’association liées au temps sont recherchées, telles que : dans 80% des cas où l’article A est acheté, l’article B est également acheté et ensuite l’article C.
Segmentation (analyse en grappes)
Les tâches de description, quant à elles, regroupent les comportements des clients ou des objets contenus dans les ensembles de données sous forme de modèles. Dans le clustering ou la segmentation, l’ensemble des données est divisé en plusieurs sous-ensembles ou segments. L’objectif est de diviser l’ensemble des données en sous-ensembles aussi homogènes que possible sur la base des caractéristique.
Algorithmes Data Mining
Le data mining offre diverses techniques et algorithmes pour identifier des modèles précieux à partir de données. nous avons dressé la liste des algorithmes de data mining les plus utilisés :
- Régression linéaire
- Régression logistique
- Arbres de décision (ID3 / CD.5 / CART / Chi-deux / MARS)
- Machine à vecteur de support (SVM)
- K-Nearest Neighbor
- Algorithmes de regroupement (K-Means / DB-Scan / Cartes auto-organisées / Clustering hiérarchique)
- Random Forest
- Régression d’arbre de décision boosté (XGboost / LumièreGBM / CatBoost)
- Réseaux neuronaux artificiels (Réseaux neuronaux à action directe / Réseaux neuronaux récurrents (RNN) / Réseaux)
- …
Exemples d’application de data mining
Le data mining est utilisé dans de nombreux domaines de la recherche et de l’économie et offre un potentiel d’application élevé pour l’avenir. Les exemples d’application sont la gestion de la relation client (CRM), le secteur financier pour les banques et les compagnies d’assurance, l’industrie des télécommunications, la production, la logistique ainsi que le commerce électronique. Dans les lignes qui suivent, j’aimerais vous présenter plus en détail les différents domaines d’application
L’extraction de données dans le marketing et la gestion de la relation client
Dans le domaine du marketing et de la gestion de la relation client, le data mining peut souvent être utilisée dans tous les secteurs d’activité, tant dans les modèles commerciaux B2C que B2B. Ici, le comportement historique du client est utilisé pour déduire des prédictions sur le comportement d’achat futur. Il est ainsi possible de répondre aux besoins individuels des clients.
Le terme « personnalisation du marketing » est souvent utilisé ici, c’est-à-dire la communication spécifique à chaque client individuel. Cela ne peut être réalisé que par une forte automatisation et des méthodes appropriées d’exploration des données. Il n’est pas rare que les entreprises parviennent à augmenter leurs ventes à long terme de 5 à 15 % grâce à l’exploitation des données dans leurs campagnes de marketing.
Commerce de détail et commerce électronique
Dans le commerce de détail et le commerce électronique, le data mining est représentée par un grand nombre de cas d’utilisation. Les applications suivantes présentent un intérêt particulier.
- Lifetime Value du client
- Optimisation du cross selling & up selling
- Analyse des paniers d’achat
- Prévisions des ventes et de la demande
- Optimisation des prix
- …
Fournisseurs d’énergie et télécommunications
Le data mining peut également être utilisée dans les secteurs des services publics et des télécommunications pour analyser le comportement des clients afin d’optimiser les campagnes de marketing. Les cas d’utilisation courants comprennent la prévision du taux de désabonnement, la prévision de la meilleure offre suivante et la segmentation de la clientèle.
Médecine
En médecine, le data mining peut être particulièrement utile pour analyser des données non structurées telles que des images afin d’identifier des modèles. Les médecins et les scientifiques ont ainsi la possibilité d’identifier les maladies plus rapidement ou avec une plus grande précision.
Logistique
Le data mining peut également être utilisée en logistique pour optimiser les processus commerciaux et les chaînes d’approvisionnement. Les cas d’utilisation suivants existent dans le domaine de la logistique.
- Optimisation des itinéraires
- Prévision des mouvements logistiques
- Prévision de la demande
- Reconnaissance des corrélations dans les chaînes d’approvisionnement
Production
Un vaste domaine du data mining est la prédiction des pannes de machines. On parle souvent de maintenance prédictive.
Data mining et Big Data
Le terme de data mining est souvent utilisé en rapport avec le Big Data. Toutefois, ces termes n’ont pas la même signification.
Le terme « Big Data » désigne le traitement de très grandes quantités de données qui ne peuvent être traitées par des méthodes traditionnelles. Il s’agit plutôt de la plateforme qui permet de traiter de grandes quantités de données.
La technique de data mining est souvent appliquée au big data car la grande quantité de données rend l’analyse conventionnelle des données peu utile. Dans ce contexte, l’exploration de données peut être utilisée, par exemple, pour apprendre des modèles et ensuite faire des prédictions pour l’avenir.
Un autre avantage du big data est que les méthodes de data mining fonctionnent souvent beaucoup mieux lorsque de nombreux échantillons de données sont disponibles pour l’entraînement des modèles.
Conclusion du sujet
Le data mining permet d’identifier des modèles et des relations dans de grandes quantités de données. Cette approche interdisciplinaire utilise des méthodes issues des statistiques, de l’informatique et de l’apprentissage automatique. En pratique, diverses méthodes de data mining peuvent être utilisées pour faire des prédictions précises pour l’avenir ou pour identifier des tendances et des anomalies à un stade précoce.
Cela aide les entreprises à prendre de meilleures décisions sur la base des données. De cette manière, les besoins des clients peuvent être identifiés à un stade précoce, les campagnes de marketing peuvent être adaptées à ces besoins et les ventes peuvent ainsi être augmentées.