Data Mining

  • View
    394

  • Download
    3

Embed Size (px)

Transcript

Universit Mohamed Premier Ecole Nationale de Commerce et de Gestion Oujda

Intelligence conomique et veille stratgique

Le DataMining

Ralis par :

BABA Nour el houda N 236 LAMKADMI Asmae N 311

Encadr par : M. A.AGRAR

Anne universitaire 2010 2011

0

SommaireI-Quoi : ..................................................................................................................................................... 2 1. 2. 3. Quest ce que le Datamining ?......................................................................................................... 2 Datamining Vs Analyse des donnes: .............................................................................................. 2 Histoire : .......................................................................................................................................... 2

II- Pourquoi : ............................................................................................................................................ 3 1. 2. 3. Lutilisation du data mining ............................................................................................................ 3 Secteurs d'activits utilisant le datamining .................................................................................... 3 Exemples dapplication ................................................................................................................... 3

III-Comment ............................................................................................................................................ 6 1. 2. 3. Recherche et groupes de rflexion ................................................................................................. 6 Conduite de projet Data Mining ..................................................................................................... 6 Algorithmes......6

Glossaire ................................................................................................................................................ 12

1

I-Quoi :1. Quest ce que le Datamining ?Le DataMining aussi connu sous les noms exploration de donnes, fouille de donnes, ou encore extraction de connaissances partir de donnes, a pour objet lextraction d'un savoir ou d'une connaissance partir de grandes quantits de donnes, par des mthodes automatiques ou semiautomatiques. On la dfinit comme "un processus non-trivial didentification de structures inconnues, valides et potentiellement exploitables dans les bases de donnes (Fayyad, 1996)".1 L'utilisation industrielle ou oprationnelle de ce savoir dans le monde professionnel permet de rsoudre des problmatiques trs diverses, allant de la gestion de relation client la maintenance prventive, en passant par la dtection de fraudes ou encore l'optimisation de sites web. En gros, le datamining est : Lensemble des techniques et mthodes; destines lexploration et lanalyse de grande bases de donnes informatiques; en vue de dtecter dans ces donnes des rgles, des associations, des tendances inconnues (non fixes a priori), des structures particulires restituant de faon concise lessentiel de linformation utile; pour la prise de dcision.

2. Datamining Vs Analyse des donnes: Le DataMining, ou exploration de donnes chez les francophones, se base sur une exploration pour dgager un sens quon ne sait pas au pralable. Les donnes ne sont pas prdfinies ; elles sont gnres de faon naturelle (cas des supermarchs) et on peut les exploiter par la suite. Le DataMining permet ainsi de donner du sens notre recherche. Par contre, dans le cadre de lanalyse de donnes, on sait au pralable ce quon cherche ; on cherche juste en vrifier la validit.

3. Histoire :Le data mining est apparu au milieu des annes 1990, comme une nouvelle discipline l'interface de la statistique et des technologies de l'information, suite : - Lvolution des SGBD vers linformatique dcisionnelle avec les entrepts de donnes. - La constitution de giga bases de donnes : transactions de cartes de crdit, appels tlphoniques, factures de supermarchs: abondance de donnes recueillies automatiquement. -Dveloppement de la Gestion de la Relation Client (CRM) Marketing client au lieu de marketing produit. Attrition, satisfaction, etc. -Recherches en Intelligence artificielle, apprentissage, extraction de connaissances,

1

Fayyad, U. M. (1996). Data mining and knowledge discovery: making sense out of data. IEEE Expert, October, pages 20-25.

2

II- Pourquoi :1. Lutilisation du data mining :L'utilisation des techniques de data mining peuvent tre observes pour : Analyser les comportements des consommateurs : ventes croises, similarits de comportements, cartes de fidlit, Prdire le taux de rponse un publipostage (mailing) ou une opration de marketing direct. Prdire lattrition des clients : quels sont les indices de comportement permettant de dtecter la probabilit quun client a de quitter son fournisseur (sa banque, son oprateur de tlphonie mobile) Dtecter des comportements anormaux ou frauduleux (transactions financires, escroquerie aux assurances, distribution dnergie, ) Rechercher des critres qui permettront dtablir ensuite une valuation pour reprer les bons clients sans facteur de risque (valuation des risques-clients) et leur proposer peut-tre une tarification adapte (par exemple pour une banque ou une compagnie dassurance).

2. Secteurs d'activits utilisant le datamining :Selon le site www.kdnuggets.com 2la rpartition aux USA (en % du total des rponses au sondage) de l'utilisation du Data Mining par secteurs d'activits s'effectue en 2010 comme suit : CRM 26.8 Banque 19.2 Sant/Ressources Humaines 13.1 Dtection de Fraude 12.7 Finance 11.3 Marketing direct 11.3 Tlcommunication 10.8 Assurance 10.3 Sciences 10.3 Education 9.9 Publicit 9.9 Web 8.9 Mdical 8 Produits Manufacturs 8

3. Exemples dapplication : Comportement du consommateur :

Utiliser le data mining pour viter le churn. Le churn est le passage la concurrence d'un client d'un oprateur de tlcommunications. C'est aujourd'hui une proccupation particulirement importante pour les oprateurs vu les taux relativement importants (25% en europe). Pour viter cela, on utilise le data mining afin de calculer la propension de chaque client passer la concurrence et de prvoir sa valeur pour l'oprateur (LTV - Life Time Value). On peut ensuite isoler la2

www.kdnuggets.com, Polls Industries /Fields for Analytics / Data Mining in 2010 (Oct 2010) [archive]. kdnuggets. Consultation : Octobre 2010.

3

portion de clientle susceptible d'tre tente par le churn et ayant un fort LTV. Une campagne proactive de rtention est alors lance vers ces clients. Les techniques du data mining permettent galement de mesurer les retours de cette campagne. Donnes utilises : Bases de donnes des clients et des appels ; Fichiers des rclamations ; Contrats rsilis ; Donnes sur les nouveaux clients des concurrents ; Taux de retour des mailings ;

Marketing direct :

Ciblage dun mailling : Une entreprise veut proposer un nouveau produit : Elle va envoyer un courrier en essayant de bien cibler les clients susceptible dtre intresss par ce nouveau produit, et en maximisant le taux de rponse. Donnes utilises : - Le fichier client. - Un fichier dadresses + historique des rponses aux mailings prcdents. - Un deuxime fichier dadresses + autres infos (achet). Informations connexes (donnes dmographiques ). - Mode opratoire : - Caractriser, parmi les personnes du deuxime fichier, celles qui : ont rpondu, ont achet le produit, ont achet un produit similaire. - Slectionner (dans les diffrents fichiers) les clients potentiels ayant le mme profil. Analyse des rsultats : - Comparaison avec un mailing massif prcdent, avec un chantillon tmoin. - Calculer le gain (inclure le cot du Data Mining !) Boucler la boucle : - Gain augment ; -> rendre la proposition plus attractive -> amliorer le taux de rponse. - Enrichir la base avec les rsultats du mailing.

Industrie :Motorola : Dtection de dfaillance Un procd de fabrication de microprocesseurs comporte des centaines detapes (photogravures, dpts, cuissons, polissages, lavages...) dont tous les paramtres, quipement et mesures physiques (tempratures, pressions...), sont enregistrs dans une grande base de donnes permettant la traabilit des produits manufacturs. Le test lectrique de chaque microprocesseur ne peut se faire quen fin de fabrication lorsque ceux-ci sont achevs. Il est videment important de pouvoir dterminer, lors de lapparition dune baisse du rendement et en utilisant les donnes de la base, lequipement ou la fourniture responsable de la dfaillance afin dy remdier le plus rapidement possible.

4

Airbus : Aide au pilotage La socit dispose de graphes qui retracent les enregistrements des commandes et positions dun avion en vol. Ceux-ci mettent en vidence un phnomne de rsonance entre lappareil et le comportement du pilote qui est trs dangereux pour la scurit. Lobjectif est de construire un modle susceptible, en temps rel, de dtecter une telle situation afin dy remdier par exemple en durcissant les commandes de vol lectriques. Le problme est tr`es spcifique car les donnes, ou signaux, sont mesures en temps rel et constituent des discrtisations de courbes.

E-commerce :

Amazon Opportunit : la liste des achats des clients sont stockes en mmoire et par ailleurs, les utilisateurs du site notent les produits ! Comment tirer profit des choix dun utilisateur pour proposer des produits un autre client ? Solutions : technique dit de filtrage collaboratif permettant de regrouper des clients ayant les mmes gots. Dell Problme : 50% des clients de Dell achtent leurs machines travers le site Web. Mais seulement 0:5% des visiteurs du site deviennent clients. Solution : Stocker les squences d