Data Mining Tanagra

  • Published on
    25-Jul-2015

  • View
    466

  • Download
    0

Embed Size (px)

DESCRIPTION

Lexploration de donnesNote , connue aussi sous l'expression de fouille de donnes, forage de donnes, prospection de donnes, data mining, ou encore extraction de connaissances partir de donnes, ECD en franais, KDD en anglais, a pour objet lextraction d'un savoir ou d'une connaissance partir de grandes quantits de donnes, par des mthodes automatiques ou semi-automatiques.

Transcript

<p>lments de Data Mining avec TanagraVincent ISOZ, 2013-10-21 (V3.0 Revision 6) {oUUID 1.679}</p> <p>TANAGRA (Ricco RAKOTOMALALA)</p> <p>TABLE DES MATIRESIntroduction ................................................................................................................................ 4 Logiciels de Data Mining ........................................................................................................... 5 Avertissements ........................................................................................................................... 6 Objectifs ..................................................................................................................................... 7 Data visualisation ................................................................................................................... 7 Statistics ................................................................................................................................. 7 Nonparametric statistics ......................................................................................................... 8 Instance selection ................................................................................................................... 8 Feature construction ............................................................................................................... 9 Feature selection ..................................................................................................................... 9 Regression .............................................................................................................................. 9 Factorial analysis .................................................................................................................. 10 PLS ....................................................................................................................................... 10 Clustering ............................................................................................................................. 10 SPV (Support Vector) Learning ........................................................................................... 10 Meta SPV (Support Vector) Learning .................................................................................. 11 SPV (Support Vector) Learning assessment ........................................................................ 11 Scoring ................................................................................................................................. 11 Association ........................................................................................................................... 12 Exercice 1.: Import et visualisation des donnes *.txt ............................................................. 13 Exercice 2.: Import et visualisation des donnes *.xls ............................................................. 17 Exercice 3.: Installation de l'add-in MS Excel ......................................................................... 21 Exercice 4.: Statistiques lmentaires univaries continues .................................................... 24 Exercice 5.: Statistiques lmentaires univaries discrtes ...................................................... 27 Exercice 6.: Statistiques univaries continues multiples .......................................................... 30 Exercice 7.: Test de Normalit ................................................................................................. 33 Exercice 8.: Caractrisation de groupes ................................................................................... 35 Exercice 9.: Rgression linaire simple ou multiple ................................................................ 39 Exercice 10.: Test de Normalit des rsidus de la rgression linaire ..................................... 43 Exercice 11.: Rgression linaire ascendante (Forward Entry Regression) ............................. 45 Exercice 12.: Rgression linaire descendante (Backward Entry Selection) ........................... 49 Exercice 13.: Coefficient de corrlation de Spearman (Spearman rho) ................................... 53 Exercice 14.: Rgression logistique binaire (SPV) .................................................................. 56 Exercice 15.: Lift Curve et ROC Curve (sur rgression logistique binaire) ............................ 61 Exercice 16.: Test-T homoscdatique ...................................................................................... 70 Exercice 17.: Test-T htroscdastique .................................................................................... 74 Exercice 18.: Clustering CART (arbres de rgression) ............................................................ 75 Exercice 19.: K-NN (K nearest neighbors) .............................................................................. 81 Exercice 20.: Classificaiton K-Means (nue dynamique) ........................................................ 90 Exercice 21.: Clustering ID-3 (Iterative Dichotomiser 3) ...................................................... 101 Exercice 22.: HAC (Hierarchical Ascendant Clustering) ...................................................... 105 Exercice 23.: Classification nave baysienne ....................................................................... 108 Exercice 24.: ANOVA un facteur ....................................................................................... 109 Exercice 25.: ANOVA de Friedman par les rangs ................................................................. 113 Exercice 26.: Tests de Levene et Brown-Forsythe ................................................................. 115 Exercice 27.: Analyse en Composantes Principales pure (ACP) ........................................... 119 2/145</p> <p>Vincent ISOZ</p> <p>TANAGRA (Ricco RAKOTOMALALA) Exercice 28.: Analyse Factorielle sans rotation (AF) ............................................................ 127 Exercice 29.: Analyse Factorielle avec rotation VARIMAX ................................................. 131 Exercice 30.: Rgression (linaire) des moindres carrs partiels (rgression linaire PLS univarie: PLS1) ..................................................................................................................... 133 Exercice 31.: Export d'un rsultat vers MS Excel .................................................................. 136</p> <p>3/145</p> <p>Vincent ISOZ</p> <p>TANAGRA (Ricco RAKOTOMALALA)</p> <p>IntroductionTANAGRA est un logiciel gratuit d'exploration de donnes (DataMining) destin l'enseignement et la recherche et l'enseignement cr en 2003. Il implmente une srie de mthodes de fouille de donnes issues du domaine de la statistique exploratoire, de l'analyse de donnes, de l'apprentissage automatique et des bases de donnes. Par rapport ses concurrents TANAGRA a selon moi quatre avantages majeurs: 1. L'interface est extrmement simple et sobre et ncessite quasiment zro effort pour comprendre la logique. 2. Les mthodes statistiques et leurs rsultats respectifs sont clairement nomms selon l'usage par les spcialistes de la statistique. 3. La documentation est bien fournie aussi bien en anglais qu'en franais avec des annexes accessibles ceux qui ont des connaissances universitaires en mathmatiques. 4. La rapidit de traitement d'une grosse masse de donnes qui en terme de performance vaut largement la concurrence gratuite (KNIME, Orange, R, RapidMiner, SIPINA, WEKA) ou payant (Oracle, MS SQL Server, SPSS, Statistica) d'aprs les tests effectus par l'auteur du logiciel (le logiciel est sobre et cod selon les rgles de l'art ce qui accapare moins de mmoire). 5. Sa gratuit et le fait que le code source soit disponible tous. C'est un projet ouvert au sens qu'il est possible tout chercheur d'accder au code, d'ajouter ses propres algorithmes et de diffuser, toujours gratuitement, le logiciel modifi. Tanagra est diffus depuis dcembre 2003. Il est compil pour la plate-forme WIN32 mais il est possible de le faire fonctionner sous d'autres systmes (par ex. avec WINE sous linux).Prcisions sur la licence de TANAGRA (voir le dtail de la licence lors de l'installation). Le logiciel TANAGRA est dvelopp titre personnel par Ricco Rakotomalala. Il en a la proprit exclusive. Un logiciel est une oeuvre de l'esprit au sens du code de la proprit intellectuelle (Article L.112-2), exactement comme les ouvrages. Ricco Rakotomalala s'engage rendre la version complte de TANAGRA indfiniment gratuite sans aucune restriction. Le code source sera toujours librement accessible en ligne. Si une entit quelconque introduit des contraintes quant l'accs au logiciel (ex. ncessit de s'enregistrer pour tlcharger ; versions volontairement brides avec des promesses de fonctionnalits tendues sur une variante amliore payante ; code source non publi ; incorporation dans un package commercial ; ou que sais-je encore...), vous tes face une distribution illicite.</p> <p>4/145</p> <p>Vincent ISOZ</p> <p>L'utilisation du logiciel est totalement libre, dans quelque contexte que ce soit, y compris dans le cadre d'une activit commerciale. Si vous souhaitez citer TANAGRA dans vos travaux de recherche, voici la rfrence utiliser : Ricco Rakotomalala, "TANAGRA : un logiciel gratuit pour l'enseignement et la recherche", in Actes de EGC'2005, RNTI-E-3, vol. 2, pp.697-702, 2005.</p> <p>TANAGRA (Ricco RAKOTOMALALA)</p> <p>Logiciels de Data MiningTanagra est certes trs complet pour la majorit des besoins mais il ne peut convenir cependant qu' des situations o: 1. il n'est pas ncessaire d'avoir des rsultats en temps rel sur des serveurs de bases de donnes 2. l'utilisation de scripts d'automatisation de post ou prtraitement n'est pas ncessaire (pas de macros par exemple) 3. Il n'y pas de support technique pour rpondre aux questions (du moins ma connaissance) et c'est aussi le cas pour d'autres logiciels gratuits de Data Mining comme S-Plus de Insight, Alice de Isoft, Predic de Neuralware, R (version gratuite de S-Plus), Weka et RapidMiner (sauf changement entre le moment o ces lignes ont t crites et le moment o vous les lisez). Cependant en matire de quantits de techniques, d'ergonomie et de rapidit d'enseignement, Tanagra est selon mon exprience personnelle loin devant pour l'enseignement en entreprise et l'universit. Sinon, pour avoir test sur un jeu d'un peu plus de 1.1 million de donnes que j'utilise dans le cade des mes formations (traitements effectus souvent en moins de dix secondes), nous pouvons trs probablement sans problmes utiliser Tanagra pour faire des analyses sur des bases de donnes de l'ordre de la dizaine de millions de donnes (par extrapolation au pouce...). Sinon, les logiciels payants les plus connus en ce tout dbut de 21me sicle seraient: SPSS Clementine, SAS Enterpise Miner, Statistica Data Miner, S-Plus Insightful Miner, Matlab et KXen ou RapidMiner si l'on fait appel aux services de consulting et de dploiement + installation.</p> <p>5/145</p> <p>Vincent ISOZ</p> <p>TANAGRA (Ricco RAKOTOMALALA)</p> <p>AvertissementsLe but de ce support a pour but de mettre en pratique les dmonstrations mathmatiques thoriques effectues lors des cours de statistiques et de mthodes numriques. Le contenu du prsent support est labor par un processus de dveloppement par lequel des experts de la gestion de projets parviennent un consensus. Ce processus qui rassemble des participants bnvoles recherche galement les points de vue de personnes intresses par le sujet de cet ouvrage. En tant que responsable du prsent support, j'assure l'administration du processus et je fixe les rgles qui permettent de promouvoir l'quit dans l'approche d'un consensus. Je me charge galement de rdiger les textes, parfois de les tester/valuer ou de vrifier indpendamment l'exactitude/solidit ou l'exhaustivit des informations prsentes. Je dcline toute responsabilit en cas de dommages corporels, matriels ou autres de quelque nature que ce soit, particuliers, indirects, accessoires ou compensatoires, rsultant de la publication, de l'application ou de la confiance accorde au contenu du prsent support. Je n'mets aucune garantie expresse ou implicite quant l'exactitude ou l'exhaustivit de toute information publie dans le prsent support, et ne garantit aucunement que les informations contenues dans cet ouvrage satisfassent un quelconque objectif ou besoin spcifique du lecteur. Je ne garantis pas non plus les performances de produits ou de services d'un fabricant ou d'un vendeur par la seule vertu du contenu du prsent support. En publiant des textes, il n'est pas dans l'intention principale du prsent support de fournir des services de spcialistes ou autres au nom de toute personne physique ou morale ni pour mon compte, ni d'effectuer toute tche devant tre accomplie par toute personne physique ou morale au bnfice d'un tiers. Toute personne utilisant le prsent support devrait s'appuyer sur son propre jugement indpendant ou, lorsque cela s'avre appropri, faire appel aux conseils d'un spcialiste comptent afin de dterminer comment exercer une prudence raisonnable en toute circonstance. Les informations et les normes concernant le sujet couvert par le prsent support peuvent tre disponibles auprs d'autres sources que le lecteur pourra souhaiter consulter en qute de points de vue ou d'informations supplmentaires qui ne seraient pas couverts par le contenu du prsent site Internet. Je ne dispose (malheureusement...) d'aucun pouvoir dans le but de faire respecter la conformit au contenu du prsent ouvrage, et je ne m'engage nullement surveiller ni faire respecter une telle conformit. Je n'exerce ( ce jour...) aucune activit de certification, de test ni d'inspection de produits, de conceptions ou d'installations fins de sant ou de scurit des personnes et des biens. Toute certification ou autre dclaration de conformit en matire d'informations ayant trait la sant ou la scurit des personnes et des biens, mentionne dans le prsent support, ne peut aucunement tre attribue au contenu du prsent support et demeure sous l'unique responsabilit de l'organisme de certification ou du dclarant concern. Vincent ISOZ 6/145</p> <p>TANAGRA (Ricco RAKOTOMALALA)</p> <p>ObjectifsJ'ai tent de mettre les exemples dans l'ordre de difficult croissant et j'espre avoir atteint cet objectif pdagogique. Les premiers exemples sont vraiment lmentaires (ils ne dpassent pas le niveau du BAC) et faisables avec un simple tableur mais ils permettent au moins de se faire la main sur les manipulations courantes du logiciel. Actuellement seulement 9 composants de Data Mining sur les 180 disponibles dans le logiciel sont prsents dans ce support (sachant que 170 sont vraiment des techniques de fouilles de donnes). Je rdige un exemple peu tous les 3 mois... depuis le 30 Avril 2011 sachant que je me limite prsenter uniquement les techniques pour lesquelles la dmonstration mathmatique dtaille et pdagogique (soit une trentaine ce jour) se trouve sur dj sur m...</p>