Data Mining

  • Published on
    27-Jun-2015

  • View
    393

  • Download
    3

Embed Size (px)

Transcript

<p>Universit Mohamed Premier Ecole Nationale de Commerce et de Gestion Oujda</p> <p>Intelligence conomique et veille stratgique</p> <p>Le DataMining</p> <p>Ralis par :</p> <p>BABA Nour el houda N 236 LAMKADMI Asmae N 311</p> <p>Encadr par : M. A.AGRAR</p> <p>Anne universitaire 2010 2011</p> <p>0</p> <p>SommaireI-Quoi : ..................................................................................................................................................... 2 1. 2. 3. Quest ce que le Datamining ?......................................................................................................... 2 Datamining Vs Analyse des donnes: .............................................................................................. 2 Histoire : .......................................................................................................................................... 2</p> <p>II- Pourquoi : ............................................................................................................................................ 3 1. 2. 3. Lutilisation du data mining ............................................................................................................ 3 Secteurs d'activits utilisant le datamining .................................................................................... 3 Exemples dapplication ................................................................................................................... 3</p> <p>III-Comment ............................................................................................................................................ 6 1. 2. 3. Recherche et groupes de rflexion ................................................................................................. 6 Conduite de projet Data Mining ..................................................................................................... 6 Algorithmes......6</p> <p>Glossaire ................................................................................................................................................ 12</p> <p>1</p> <p>I-Quoi :1. Quest ce que le Datamining ?Le DataMining aussi connu sous les noms exploration de donnes, fouille de donnes, ou encore extraction de connaissances partir de donnes, a pour objet lextraction d'un savoir ou d'une connaissance partir de grandes quantits de donnes, par des mthodes automatiques ou semiautomatiques. On la dfinit comme "un processus non-trivial didentification de structures inconnues, valides et potentiellement exploitables dans les bases de donnes (Fayyad, 1996)".1 L'utilisation industrielle ou oprationnelle de ce savoir dans le monde professionnel permet de rsoudre des problmatiques trs diverses, allant de la gestion de relation client la maintenance prventive, en passant par la dtection de fraudes ou encore l'optimisation de sites web. En gros, le datamining est : Lensemble des techniques et mthodes; destines lexploration et lanalyse de grande bases de donnes informatiques; en vue de dtecter dans ces donnes des rgles, des associations, des tendances inconnues (non fixes a priori), des structures particulires restituant de faon concise lessentiel de linformation utile; pour la prise de dcision.</p> <p>2. Datamining Vs Analyse des donnes: Le DataMining, ou exploration de donnes chez les francophones, se base sur une exploration pour dgager un sens quon ne sait pas au pralable. Les donnes ne sont pas prdfinies ; elles sont gnres de faon naturelle (cas des supermarchs) et on peut les exploiter par la suite. Le DataMining permet ainsi de donner du sens notre recherche. Par contre, dans le cadre de lanalyse de donnes, on sait au pralable ce quon cherche ; on cherche juste en vrifier la validit.</p> <p>3. Histoire :Le data mining est apparu au milieu des annes 1990, comme une nouvelle discipline l'interface de la statistique et des technologies de l'information, suite : - Lvolution des SGBD vers linformatique dcisionnelle avec les entrepts de donnes. - La constitution de giga bases de donnes : transactions de cartes de crdit, appels tlphoniques, factures de supermarchs: abondance de donnes recueillies automatiquement. -Dveloppement de la Gestion de la Relation Client (CRM) Marketing client au lieu de marketing produit. Attrition, satisfaction, etc. -Recherches en Intelligence artificielle, apprentissage, extraction de connaissances,</p> <p>1</p> <p>Fayyad, U. M. (1996). Data mining and knowledge discovery: making sense out of data. IEEE Expert, October, pages 20-25.</p> <p>2</p> <p>II- Pourquoi :1. Lutilisation du data mining :L'utilisation des techniques de data mining peuvent tre observes pour : Analyser les comportements des consommateurs : ventes croises, similarits de comportements, cartes de fidlit, Prdire le taux de rponse un publipostage (mailing) ou une opration de marketing direct. Prdire lattrition des clients : quels sont les indices de comportement permettant de dtecter la probabilit quun client a de quitter son fournisseur (sa banque, son oprateur de tlphonie mobile) Dtecter des comportements anormaux ou frauduleux (transactions financires, escroquerie aux assurances, distribution dnergie, ) Rechercher des critres qui permettront dtablir ensuite une valuation pour reprer les bons clients sans facteur de risque (valuation des risques-clients) et leur proposer peut-tre une tarification adapte (par exemple pour une banque ou une compagnie dassurance).</p> <p>2. Secteurs d'activits utilisant le datamining :Selon le site www.kdnuggets.com 2la rpartition aux USA (en % du total des rponses au sondage) de l'utilisation du Data Mining par secteurs d'activits s'effectue en 2010 comme suit : CRM 26.8 Banque 19.2 Sant/Ressources Humaines 13.1 Dtection de Fraude 12.7 Finance 11.3 Marketing direct 11.3 Tlcommunication 10.8 Assurance 10.3 Sciences 10.3 Education 9.9 Publicit 9.9 Web 8.9 Mdical 8 Produits Manufacturs 8</p> <p>3. Exemples dapplication : Comportement du consommateur :</p> <p> Utiliser le data mining pour viter le churn. Le churn est le passage la concurrence d'un client d'un oprateur de tlcommunications. C'est aujourd'hui une proccupation particulirement importante pour les oprateurs vu les taux relativement importants (25% en europe). Pour viter cela, on utilise le data mining afin de calculer la propension de chaque client passer la concurrence et de prvoir sa valeur pour l'oprateur (LTV - Life Time Value). On peut ensuite isoler la2</p> <p>www.kdnuggets.com, Polls Industries /Fields for Analytics / Data Mining in 2010 (Oct 2010) [archive]. kdnuggets. Consultation : Octobre 2010.</p> <p>3</p> <p>portion de clientle susceptible d'tre tente par le churn et ayant un fort LTV. Une campagne proactive de rtention est alors lance vers ces clients. Les techniques du data mining permettent galement de mesurer les retours de cette campagne. Donnes utilises : Bases de donnes des clients et des appels ; Fichiers des rclamations ; Contrats rsilis ; Donnes sur les nouveaux clients des concurrents ; Taux de retour des mailings ;</p> <p>Marketing direct :</p> <p> Ciblage dun mailling : Une entreprise veut proposer un nouveau produit : Elle va envoyer un courrier en essayant de bien cibler les clients susceptible dtre intresss par ce nouveau produit, et en maximisant le taux de rponse. Donnes utilises : - Le fichier client. - Un fichier dadresses + historique des rponses aux mailings prcdents. - Un deuxime fichier dadresses + autres infos (achet). Informations connexes (donnes dmographiques ). - Mode opratoire : - Caractriser, parmi les personnes du deuxime fichier, celles qui : ont rpondu, ont achet le produit, ont achet un produit similaire. - Slectionner (dans les diffrents fichiers) les clients potentiels ayant le mme profil. Analyse des rsultats : - Comparaison avec un mailing massif prcdent, avec un chantillon tmoin. - Calculer le gain (inclure le cot du Data Mining !) Boucler la boucle : - Gain augment ; -&gt; rendre la proposition plus attractive -&gt; amliorer le taux de rponse. - Enrichir la base avec les rsultats du mailing. </p> <p>Industrie :Motorola : Dtection de dfaillance Un procd de fabrication de microprocesseurs comporte des centaines detapes (photogravures, dpts, cuissons, polissages, lavages...) dont tous les paramtres, quipement et mesures physiques (tempratures, pressions...), sont enregistrs dans une grande base de donnes permettant la traabilit des produits manufacturs. Le test lectrique de chaque microprocesseur ne peut se faire quen fin de fabrication lorsque ceux-ci sont achevs. Il est videment important de pouvoir dterminer, lors de lapparition dune baisse du rendement et en utilisant les donnes de la base, lequipement ou la fourniture responsable de la dfaillance afin dy remdier le plus rapidement possible.</p> <p>4</p> <p>Airbus : Aide au pilotage La socit dispose de graphes qui retracent les enregistrements des commandes et positions dun avion en vol. Ceux-ci mettent en vidence un phnomne de rsonance entre lappareil et le comportement du pilote qui est trs dangereux pour la scurit. Lobjectif est de construire un modle susceptible, en temps rel, de dtecter une telle situation afin dy remdier par exemple en durcissant les commandes de vol lectriques. Le problme est tr`es spcifique car les donnes, ou signaux, sont mesures en temps rel et constituent des discrtisations de courbes.</p> <p>E-commerce :</p> <p> Amazon Opportunit : la liste des achats des clients sont stockes en mmoire et par ailleurs, les utilisateurs du site notent les produits ! Comment tirer profit des choix dun utilisateur pour proposer des produits un autre client ? Solutions : technique dit de filtrage collaboratif permettant de regrouper des clients ayant les mmes gots. Dell Problme : 50% des clients de Dell achtent leurs machines travers le site Web. Mais seulement 0:5% des visiteurs du site deviennent clients. Solution : Stocker les squences de clicks des visiteurs, analyser les caractristiques des acheteurs et lors de la visite dun client potentiel, adapter le contenu du site pour maximiser la probabilit dun achat. Gestion des ressources humaines :</p> <p> Le calcul de la valeur des employs grce des donnes analytiques. Comment les ressources humaines peuvent elles estimer le ROI(Return On Investment) de chaque employ, quantitativement? Aujourdhui seulement 1 2% dentreprises utilisent la mthode, parmi lesquelles IBM, Oracle, Microsoft ou encore Capital One Financial. Les tudes statistiques sur la performance des employs a t entre autre propose par la socit Cataphora (reconnue pour son expertise dans lidentification des fraudes) et propsoe une reprsentation graphique de la force de travail selon des cercles de couleur, de tailles diffrente. Tandis que les employs qui gnrent des flux dinformations et comptences non ngligeables sont valus sur les graphiques avec de larges cercles foncs, les autres, reprsents avec de petits cercles pales sont davantage en danger. Donnes utilises: Le point de dpart de lanalyse est lidentification des facteurs de succs comme le dmontre Microsoft qui tudie la corrlation entre les employs succs et les coles et entreprises do ils proviennent. De plus, en analysant les communications au sein de Microsoft, les analystes peuvent identifier les super-connecteurs qui aident la diffusion des ides et les autres qui empchent leur partage. Les nouvelles approches des solutions de data-mining permettent ainsi de dvelopper des programmes optimiss pour le recrutement et la prservation des employs comptents: bas sur les donnes des employs qui ont dmissionn les cinq dernires annes (profil, comptences, tudes et relations) chez SAS. En tudiant les tendances conomiques et financires, IBM cherche se focaliser sur la force de travail et les comptences know how recruter ou former. Les 5</p> <p>rseaux sociaux internes et boites ides interactives mesurent les liens entre employs, leur cercle dinfluence et leurs ides.</p> <p>III- Comment :1. Recherche et groupes de rflexion :Le premier groupement professionnel dans le domaine du Data Mining est le Groupe dintrt de l'Association for Computing Machinery sur la Gestion des connaissances et le Data Mining (SIGKDD) qui accueille une confrence internationale annuellement o il publie les rsultats de ses recherches. Ainsi dautres confrences sur le data minig sont organises comme : DMIN - International Conference on Data Mining DMKD - Research Issues on Data Mining and Knowledge Discovery; ICDM - IEEE International Conference on Data Mining Il est noter que nombreuses universits ont effectu des recherches pour amliorer les algorithmes et ont dvelopp des logiciels afin de progresser dans ce domaine et faire bnficier les industries de leurs apports.</p> <p>2. Conduite de projet Data Mining :Le projet de datamining sorganise en processus, parmi les mthodes les plus utilises on trouve la mthodologie CRISP-DM. Le concept CRISP-Dm (CRoss-Industry Standard Process for Data Mining) est une mthodologie qui consiste dfinir un cadre pour la conduite de projets data mining. Les principales tapes de cette mthodologie sont : a. Comprhension de la problmatique mtier : c'est dfinir le problme : le chef de projet doit comprendre les objectifs du mtier en matire de DM et connaitre les critres de russite du projet. b. Comprhension des donnes: il sagit dans cette tape de : Collecter des donnes ; Les dcrire ; Les explorer : Utilisation de requtes, outils de visualisation et de reporting, dterminer les attributs importants et leurs relations (redondantes) ==&gt;Premiers rsultats statistiques (graphiques, rpartitions, etc.) Contrler la qualit : Donnes manquantes, errones, incertaines c. Prparation des donnes: transformation des donnes explorer afin dassurer leur adquation la problmatique et la pertinence des connaissances extraites d. Modlisation: laboration des mthodes d'analyse qui seront utilises pour extraire des connaissances partir des donnes (cur du processus). Cette activit regroupe quatre classes de tches pouvant tre utilises seules ou en complment avec les autres 3: La Segmentation ; La Classification ; La Prdiction ; L'Association . </p> <p>2. From Data Mining to Knowledge Discovery in Databases [archive] 6</p> <p>e. Evaluation Test: Il s'agit d'valuer les rsultats obtenus en fonction des critres de succs du mtier, d'valuer le processus lui-mme pour faire apparatre les manques et les tapes ngliges. f. Dploiement: tape de rentabilisation des efforts dploys. Elle a pour objectif intgrer les nouvelles connaissances aux processus quotidiens pour rsoudre le problme initial / amliorer lactivit. Autres mthodes de conduite de projet data mining : SEMMA : La mthodologie SEMMA4 (Sample then Explore, Modify, Model, Assess) invente par le SAS Institute, se concentre sur les activits techniques du Data Mining. Bien qu'elle soit prsente par SAS comme seulement une organisation logique des outils de SAS Enterprise miner, SEMMA peut tre utilise pour organiser le processus de data mining indpendamment du logiciel utilis. Six Sigma (DMAIC) : DMAIC est un acronyme caractrisant la mthode comme s...</p>