Si vous voulez faire parler le data mining, commencez donc par nettoyer vos données....
Cas pratique.
A noter, je ne cite ni le nom ni le type de produit afin de respecter l'anonymat.
Cette légitime omission ne nuit en rien à la compréhension du texte.
L'entreprise K, leader de son créneau, est sur un marché particulièrement complexe en terme de clientèle. K en effet propose une gamme de produits couvrant autant les besoins des particuliers que des grands comptes. Jusqu'à ce jour, l'approche commerciale était particulièrement cloisonnée et seules les techniques de segmentation trouvaient grâce aux yeux de la direction.
Le nouveau responsable marketing a, à juste titre, souhaité moderniser les outils afin de « transversaliser » l'analyse et décloisonner un tant soit peu l'approche classique.
«Accédons à la connaissance "client", elle est déjà dans les tuyaux. ...»
Il a donc entrepris la mise en place d'une solide infrastructure de type data mart afin de collecter et de centraliser le maximum de données susceptibles de délivrer un enseignement...
Si la mise en place technique de l'infrastructure a été confiée à une entreprise spécialisée, l'alimentation de la base a, elle, profité des nombreuses demandes de stages étudiant qui ne manquent pas d'encombrer le bureau des responsables de RH.
C'est dire si la démarche a été morcelée.
Il était alors temps d'investir dans un outil de prospection performant de type data mining.
Bien que plus aisé d'utilisation que les classiques outils d'analyses statistiques, le data mining exige une rigoureuse démarche méthodologique si l'on souhaite en extraire un quelconque enseignement (définition du problème, délimitation des données de travail, choix de la méthode d'analyse...).
(J'en parle un peu ici : Le projet Business Intelligence )
Il n'est pas superflu de se faire assister d'un consultant spécialiste de la question, histoire de domestiquer l'outil et d'exprimer correctement les préoccupations des demandeurs.
Après quelques essais, les premiers résultats sont tombés.
« Ah ! Ca y est !»
Quelle surprise, les résultats étaient particulièrement originaux !
Mais l'enthousiasme fut de courte durée.
Les résultats étaient surtout totalement incohérents.
« Y a quelque chose qui cloche... »
Il fallut alors dérouler de nouveau le fil et reprendre la procédure. Mêmes résultats. Tout aussi lamentables.
« C'est de la faute à qui ? »
Etait-ce l'outil ? Etait-ce le consultant ?
C'est là où ce dernier se retrouve au pied du mur. Car bien sûr les soupçons d'incompétence commencent à peser lourdement sur ses épaules.
Vieux routier cependant, il ne perdit pas plus de temps et plongea la main au coeur même du système pour en extraire quelques données à fin d'analyse. Bien que la direction l'ait assuré de la qualité du travail de collecte, il savait d'expérience que les principaux problèmes venaient généralement de ce point précis.
A-t-il cependant à ce stade manqué de tact ? En tout cas lorsqu'il annonça que les données méritaient d'être « nettoyées » il découvrit jusqu'où pouvait se cacher la susceptibilité.
« Nos données ne sont pas propres ? Il faudrait les nettoyer ? »
Il aurait mis en doute le soin corporel de ses interlocuteurs du style « A vue de nez il est 5 heures », que la réaction n'aurait pas été plus épidermique. Il faut dire aussi à leur décharge que l'investissement global commençait à être conséquent. Ils auraient enfin voulu disposer des enseignements promis.
Une fois la tension un peu retombée, mon collègue a pu démontrer calmement la source des problèmes. Bon gré mal gré, ses interlocuteurs se sont finalement ralliés à son analyse et ont alors investi ce qu'il fallait en terme de temps et de moyens pour accéder à une gestion de qualité des données décisionnelles. Je vous passe les détails de cette longue reprise.
Enfin ! Le système est opérationnel.
La procédure d'analyse a été relancée.
Et Bingo !
La boite magique a parlé !
Des résultats tout à fait plausibles tombent !
«Ca à l'air bon ce coup-ci »
Plausibles ? Oui.
A peu de choses près, ils correspondaient aux attentes et étaient en accord avec les suppositions. Ils confirmaient les hypothèses et infirmaient les contre hypothèses soumises.
D'aucuns se sont d'ailleurs interrogés à haute voix sur l'intérêt de l'investissement.
« Tout ça on le savait déjà...»
Ont-ils raison ?
Et d'après vous ?
Qu'en pensez vous ?
Personnellement je ne peux pas répondre.
Une chose est certaine. On ne prend pas de décision à partir de suppositions. On bâtit difficilement une stratégie cohérente en se fondant sur des croyances et des « on-dirait que ».
Il est indispensable de diminuer le risque avant de s'engager sérieusement ; de s'éloigner du doute pour s'approcher de la certitude; de déplacer le curseur sur l'échelle des croyances depuis la vague impression jusqu'à "l'intime conviction". C'est aussi à cela que servent les outils d'aide à la décision dont le data mining fait parti.
Ensuite est-ce que l'investissement était rentable ? Question qui semblait être le corollaire de la précédente.
Pour cela il faut laisser passer un peu de temps puis tenter de confronter la rentabilité des décisions prises en s'appuyant sur l'outil avec l'investissement proprement dit. En général, on se contente d'une appréciation à l'estime.
Une autre façon de faire serait d'apprécier le manque à gagner de la non décision.
Copyright : Alain FERNANDEZ ©2004-2010- Tous droits réservés


Les nouveaux tableaux de bord des managers
Livre de référence
4ème éd 2008 Eyrolles
Best seller,
25.000 ex.
Voir fiche détaillée

L'essentiel du tableau de bord
Réalisez sans effort votre tableau de bord avec Excel
2ème éd 2008 Eyrolles
Voir fiche détaillée

Le bon usage des technologies expliqué au manager
les concepts IT expliqués simplement
Voir fiche détaillée
"Vive la Performance !"
Le perfologue |
|
|
|
|
|
Le Fil RSS du Perfologue
1 Bonjour, Pourquoi, si le consultant est un spécialiste de la question, comme vous nous l'avez présenté, ne s'est-il pas rendu compte plus tôt de la médiocrité de la qualité des informations contenus dans le data warehouse? Je vous pose cette question, car nous avons vécu à peu près la même expérience. Et, curieusement, nous nous sommes posées cette question. Sergine (Recopié par AlainF suite transfert)
2 parce que c'était pas son boulot. Sa prestation ne portait pas sur cet aspect des choses. Voilà à mon avis Marc (Recopié par AlainF suite transfert)
3 et bien peut etre est ce intéressant que vous alliez visiter ce site. Dans tous les cas, merci pour le votre, vraiment intéressant à plus d'un titre ! francis webmaster
francis petit
4 Merci Francis J'ai ajouté votre site à la liste de références du billet consacré lui-même à la Royal Enfield : http://www.le-perfologue.net/2005/02/une_autre_faon_.html
Alain
5 Je reviens avec une nouvelle question : Avez-vous idée de quelles sont les méthodes les plus appropriées pour bien délimiter les données en terme de bases-sources et bien sûr de données-sources au sein de ces bases ? J'ai d'autres questions à propos des techniques de consolidation de données de sources différentes mais on verra plus tard. En tout cas merci d'avance.
Philippe Davout
6 Votre article met en évidence la necessité de ne pas uniquement se focaliser sur la partie technique, et que l'accompagnement marketing des outils DM est très important. Cordialement, P. Pour aller plus loin : http://dataminer.unblog.fr
Bizzari Pascal