Corrélation Régression

  • Published on
    18-Jan-2016

  • View
    56

  • Download
    0

Embed Size (px)

DESCRIPTION

Licence STE 2eme anne. Corrlation Rgression. Plan. Introduction Coefficient de corrlation Principe Interprtation Modles de rgression Rgression linaire Ajustement par un polynme Fonction exponentielle Le cofficient de dtermination Approche non-paramtrique - PowerPoint PPT Presentation

Transcript

<ul><li><p>Statistiques*Licence STE 2eme anne</p><p>Statistiques</p></li><li><p>Statistiques*Introduction Coefficient de corrlation Principe Interprtation Modles de rgression Rgression linaire Ajustement par un polynme Fonction exponentielle Le cofficient de dtermination</p><p>Approche non-paramtriqueCoefficient de correlation de SpearmanPlan </p><p>Statistiques</p></li><li><p>Statistiques*Mthode et but2 variables numriques (quantitatives)Identifier la nature des variables : indpendante x et dpendante y.Dcrire la relation entre les variablesgraphiquementen utilisant une quationUtiliser lquation pour prvoir une valeur yi partir dune valeur xi.Etablir le degr de fiabilit de lestimation (relation probabiliste seulement)La relation entre deux variables peut tre : dterministe (Ceci ne nous concerne pas ici) probabiliste (Cest ce dont on va parler)1. Introduction </p><p>Statistiques</p></li><li><p>Statistiques*Relation dterministe: La valeur de la variable y peut tre prcisement prdite partir de la valeur de la variable x.</p><p>Exemples: Prix dune maison et taxe due.Vitesse dun corps en chute libre et temps. V=V0+gt VtV01. Introduction </p><p>Statistiques</p></li><li><p>Statistiques*Relation probabiliste: La valeur dune variable y ne peut pas tre prcisement prdite partir de la valeur de la variable x - cause dautres facteurs.</p><p>Exemples: Consommation en eau et une population x = nombre dhabitants y = eau consomme Nombre dheures passes rviser un examen et la note obtenue. x = heures passes rviser y = note obtenue</p><p>Regression possible avec une relation probabiliste.1. Introduction </p><p>Statistiques</p></li><li><p>Statistiques*Le coefficient de corrlation r est une mesure du degr de corrlation linaire. En pratique on essaye dobtenir une estimation (r) partir dun chantillon reprsentatif de la population.Approche gomtrique:Q1Q3Q2Q42. Coefficient de correlation</p><p>Statistiques</p><p>Q1</p><p>Q2</p><p>Q3</p><p>Q4</p><p>+</p><p>-</p><p>-</p><p>+</p><p>+</p><p>+</p><p>-</p><p>-</p><p>+</p><p>-</p><p>+</p><p>-</p><p>_1159021964.unknown</p><p>_1159021981.unknown</p><p>_1159021948.unknown</p></li><li><p>Statistiques*videmment cette somme dpend de n. On va donc diviser par (n-1).Au fait, pourquoi (n-1) et pas simplement n??? Cov(x,y) est la covariance. Elle est utilise dans de nombreusesmthodes multivaries.Il y a encore un problme La covariance dpend fortement des units de x et de y. Alors que faire...?est un paramtre intressant2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*Pour viter ce problme on va diviser la covariance par lcart type de x et lcart type de y. Attention : les donnes doivent tre normalement distribue (mais nous reviendrons sur ce point)Coefficient de corrlation de Bravais-PearsonUn exemple...2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*2. Coefficient de correlation</p><p>Statistiques</p><p>Numro de l'essai i</p><p>Masse mi</p><p>xi</p><p>Long. li</p><p>yi</p><p>1</p><p>2</p><p>42.0</p><p>-4.0</p><p>16.0</p><p>-9.3</p><p>86.9</p><p>37.28</p><p>2</p><p>4</p><p>48.4</p><p>-2.0</p><p>4.0</p><p>-2.9</p><p>8.5</p><p>5.84</p><p>3</p><p>6</p><p>51.3</p><p>0.0</p><p>0.0</p><p>0.0</p><p>0.0</p><p>0</p><p>4</p><p>8</p><p>56.3</p><p>2.0</p><p>4.0</p><p>5.0</p><p>24.8</p><p>9.96</p><p>5</p><p>10</p><p>58.6</p><p>4.0</p><p>16.0</p><p>7.3</p><p>53.0</p><p>29.12</p><p>n=5</p><p>6</p><p>51.32</p><p>0.0</p><p>40</p><p>0.0</p><p>173.2</p><p>82.2</p><p>_1032452458.unknown</p><p>_1159022223.unknown</p><p>_1159022341.unknown</p><p>_1159022368.unknown</p><p>_1159022324.unknown</p><p>_1159022206.unknown</p><p>_1032452124.unknown</p><p>_1032452446.unknown</p><p>_1032452088.unknown</p></li><li><p>Statistiques*r = 0,9872. Coefficient de correlation</p><p>Statistiques</p><p>Graph1</p><p>42</p><p>48.4</p><p>51.3</p><p>56.3</p><p>58.6</p><p>Masse (kg)</p><p>Longueur (cm)</p><p>Balance ressort</p><p>Feuil1</p><p>Numro de l'essaiMasseLongueurmi^2li2</p><p>imili</p><p>1242.04.01764.084.0</p><p>2448.416.02342.6193.6</p><p>3651.336.02631.7307.8</p><p>4856.364.03169.7450.4</p><p>51058.6100.03434.0586.0</p><p>30256.622013341.91621.8</p><p>n=5</p><p>Feuil1</p><p>0</p><p>0</p><p>0</p><p>0</p><p>0</p><p>Masse (kg)</p><p>Longueur (cm)</p><p>Balance ressort</p><p>y = 2.055x + 38.99</p><p>Feuil2</p><p>Feuil3</p></li><li><p>Statistiques*Allons un peu plus loin...Ingalit de Schwarz: Donc... r = 1r = -1r = 0.7r 0Liaisons absolues(dterministe)Liaison stochastique(probabiliste)Pas de liaison2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*Un exemple:Teneurs en Be, Zn et Sr (ppm)dans ltang de ThauEtude des variables deux deux2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*La matrice de corrlation...Reprsentation pratique pour lexploration2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*En pratique attention!!!!!!</p><p>Ce coefficient de corrlation doit tre mani avec grande prcaution r = 0.93r = 0 r donne le degr de liaison linaire. Dpendance curvilinaire forte et r faible dans le 2eme cas. Le diagramme xy doit donc toujours tre examin en mme temps que la valeur de r.2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*r = -0.13r = 0.19r = 0.53r = 0.92Le coefficient de corrlation peut produire de hautes valeurs si des points isols sont prsents.2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*La corrlation de deux variables log-transformes doit toujours tre interprte avec prcautionr = 0.355100500306090ZnPbr = 0.7844.83.01.22.03.05.0ln(Zn)ln(Pb)4.02. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*Les coefficients de corrlation pour des donnes fermes (i.e. %) sontprobablement biaiss!!!r = -1100500Qz (%)Fldp (%)Pourquoi? La valeur dune variable aura tendance affecter les autres.</p><p>10050r = - 0.62100500Qz (%)Fldp (%)10050Roche igne avec un 3ieme composant</p></li><li>Statistiques*r = - 0.62100500Qz (%)10050Roche igne avec un 3ieme composant</li><li><p>Statistiques*Paleocologie. Frquence dune communaut par m2.Attention. Ce sont des donnes fermes et une corrlationngative peut tre induite.</p><p>Mieux vaut travailler en nombre absolu dindividus.</p><p>Ceci nest malheureusement pas possible en ptrologie.Autre exemple de donnes fermes:2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*Encore un autre exemple (donnes fermes):Pb, Zn, Cd, Tl (ppm) dans un sdiment.SiO2 varie</p><p>La corrlation entre les lments traces devient positive par dilution avec le SiO2!!Alors comment faire??2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*2. Coefficient de correlationQuoiquil en soit gare aux corrlations entre rapports de variables! Quand la mme variable apparat dans chacun des rapports</p><p>Quand son coefficient de variation est important face aux autres variables</p><p>Quand les donnes sont loin dtre normalement distribues</p><p>Statistiques</p><p>A</p><p>B</p><p>C</p><p>A/C</p><p>B/C</p><p>12</p><p>50</p><p>2</p><p>6</p><p>25</p><p>10</p><p>49</p><p>6</p><p>1,67</p><p>8,2</p><p>9</p><p>46</p><p>3</p><p>3</p><p>15</p><p>7</p><p>65</p><p>20</p><p>0,35</p><p>3,3</p><p>5</p><p>37</p><p>54</p><p>0,09</p><p>0,7</p><p>11</p><p>69</p><p>3</p><p>3,67</p><p>23</p><p>9</p><p>58</p><p>5</p><p>1,8</p><p>12</p><p>8</p><p>48</p><p>28</p><p>0,29</p><p>1,7</p><p>9</p><p>37</p><p>55</p><p>0,16</p><p>0,7</p><p>10</p><p>51</p><p>32</p><p>0,31</p><p>1,6</p><p>12</p><p>43</p><p>40</p><p>0,3</p><p>1,1</p><p>13</p><p>43</p><p>2</p><p>6,5</p><p>22</p><p>6</p><p>56</p><p>17</p><p>0,35</p><p>3,3</p><p>7</p><p>76</p><p>8</p><p>0,88</p><p>9,5</p><p>8</p><p>48</p><p>12</p><p>0,67</p><p>4</p><p>13</p><p>67</p><p>54</p><p>0,24</p><p>1,2</p><p>Moyenne</p><p>9,31</p><p>52,7</p><p>21</p><p>ET</p><p>2,44</p><p>11,5</p><p>20</p><p>CV</p><p>26,2</p><p>21,9</p><p>94</p></li><li><p>Statistiques*Au fait, partir de quelle valeur de r peut-on considrer quon a vraisemblablement une corrlation??0.6 ?0.9 ?0.4 ?2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*Tests dhypothsesPopulation normale conjointe, hypothse concernant la valeur de rRemarque: un coefficient de corrlation r = 0.4 peut tre significatifsi n = 100 mais pas si n = 10.2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*Exemple:Les donnes Pb(ppm) vs. Zn (ppm) mesures dans les sols du Derbyshire(n=44) permettent de calculer un coefficient de corrlation r = 0,765.Y-a-til une corrlation significative entre Pb et Zn?</p><p>2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*Comparaison de deux coefficients de corrlation exprimentaux:Deux valeurs de r obtenues sur deux diffrents groupes sont-elles diffrentes?Z est la transforme de r par transformation de FisherSi Za20):Zd est cens suivre une loi normale N(0,1)</p><p>Statistiques</p></li><li><p>Statistiques*Attention: ces tests sont valides seulement si les donnes sont prises sans biais dans une population normalement distribue (au moins raisonnablement) par rapport aux deux variables. Ce nest pas souvent le cas en gologie ou en environnement!</p><p>Une alternative: lapproche non-paramtrique que nous allons voir plus tard.2. Coefficient de correlation</p><p>Statistiques</p></li><li><p>Statistiques*La rgression</p><p>Une technique statistique pour analyser les relations qui existent parmi les variables. Modle de rgression linaire simple. Equation linaire dcrivant la relation entre une simple variable independante x et une variable dpendante y2. Analyse de regression</p><p>Statistiques</p></li><li><p>Statistiques*Estimer lquation linaire qui dcrit le mieux la relation entre une variable dpendante (y) et une variable indpendante (x).ExempleUn chantillon alatoire de 15 appartements vendus Dijon.Variables (pour chaque appartement): prix de vente (kF) et taille (m2).</p><p>2. Analyse de regression</p><p>Statistiques</p><p>Chart1</p><p>89.5</p><p>79.9</p><p>83.1</p><p>56.9</p><p>66.6</p><p>82.5</p><p>126.3</p><p>79.3</p><p>119.9</p><p>87.6</p><p>112.6</p><p>120.8</p><p>78.5</p><p>74.3</p><p>74.8</p><p>&amp;A</p><p>Page &amp;P</p><p>Price ($000)</p><p>Size</p><p>Price</p><p>Chart2</p><p>89.5</p><p>79.9</p><p>83.1</p><p>56.9</p><p>66.6</p><p>82.5</p><p>126.3</p><p>79.3</p><p>119.9</p><p>87.6</p><p>112.6</p><p>120.8</p><p>78.5</p><p>74.3</p><p>74.8</p><p>&amp;A</p><p>Page &amp;P</p><p>#REF!</p><p>Size</p><p>Price</p><p>Chart3</p><p>89.595.9248197791</p><p>79.975.7563547146</p><p>83.197.864095266</p><p>56.966.8356874745</p><p>66.688.1677178312</p><p>82.573.8170792276</p><p>126.3125.0139520836</p><p>79.382.3498913703</p><p>119.9112.602588967</p><p>87.696.7005299738</p><p>112.6103.6819217269</p><p>120.892.0462688051</p><p>78.566.0599772797</p><p>74.372.6535139354</p><p>74.883.1256015651</p><p>018.3538003003</p><p>&amp;A</p><p>Page &amp;P</p><p>Size</p><p>Price</p><p>Intercept</p><p>Sheet1</p><p>Taille (m2)Prix (kF)</p><p>20.0225.295.9248197791</p><p>70.4725.9291.4037888656</p><p>20.5296.097.864095266</p><p>etcetc0</p><p>18.3538003003</p><p>18.3538003003</p><p>18.3538003003</p><p>18.3538003003</p><p>18.3538003003</p><p>18.3538003003</p><p>18.3538003003</p><p>18.3538003003</p><p>18.3538003003</p><p>18.3538003003</p><p>18.3538003003</p><p>018.3538003003</p><p>SUMMARY OUTPUT</p><p>Regression Statistics</p><p>Multiple R0.8047074183</p><p>R Square0.647554029</p><p>Adjusted R Square0.6204428005</p><p>Standard Error12.9965130727</p><p>Observations15</p><p>ANOVA</p><p>dfSSMSFSignificance F</p><p>Regression14034.41442337754034.414423377523.88508613920.000296766</p><p>Residual132195.8215766225168.9093520479</p><p>Total146230.236</p><p>CoefficientsStandard Errort StatP-valueLower 95%Upper 95%</p><p>Intercept18.353800300314.80774345231.23947314180.2370803874-13.636378358150.3439789586</p><p>Size3.87855097390.79360811064.8872370660.0002967662.16406521695.5930367309</p><p>RESIDUAL OUTPUT</p><p>ObservationPredicted PriceResiduals</p><p>195.9248197791-6.4248197791</p><p>275.75635471464.1436452854</p><p>397.864095266-14.764095266</p><p>466.8356874745-9.9356874745</p><p>588.1677178312-21.5677178312</p><p>673.81707922768.6829207724</p><p>7125.01395208361.2860479164</p><p>882.3498913703-3.0498913703</p><p>9112.6025889677.297411033</p><p>1096.7005299738-9.1005299738</p><p>11103.68192172698.9180782731</p><p>1292.046268805128.7537311949</p><p>1366.059977279712.4400227203</p><p>1472.65351393541.6464860646</p><p>1583.1256015651-8.3256015651</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet1</p><p>00</p><p>00</p><p>00</p><p>00</p><p>00</p><p>00</p><p>00</p><p>00</p><p>00</p><p>00</p><p>00</p><p>00</p><p>00</p><p>00</p><p>00</p><p>&amp;A</p><p>Page &amp;P</p><p>Price</p><p>Predicted Price</p><p>Size</p><p>Price</p><p>Size Line Fit Plot</p><p>Sheet2</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet2</p><p>89.595.9248197791</p><p>79.975.7563547146</p><p>83.197.864095266</p><p>56.966.8356874745</p><p>66.688.1677178312</p><p>82.573.8170792276</p><p>126.3125.0139520836</p><p>79.382.3498913703</p><p>119.9112.602588967</p><p>87.696.7005299738</p><p>112.6103.6819217269</p><p>120.892.0462688051</p><p>78.566.0599772797</p><p>74.372.6535139354</p><p>74.883.1256015651</p><p>&amp;A</p><p>Page &amp;P</p><p>Price</p><p>Predicted Price</p><p>Size</p><p>Price</p><p>Sheet3</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet4</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet5</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet6</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet7</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet8</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet9</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet10</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet11</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet12</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet13</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet14</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet15</p><p>&amp;A</p><p>Page &amp;P</p><p>Sheet16</p><p>&amp;A</p><p>Page &amp;P</p></li><li><p>Statistiques*04080120160050100150200250300Taille m2Prix (keuros)La relation linaire apparat positive mais elle nest pas parfaite (non dterministe). Il y a un lment du au hasard. Modle probabiliste, avec un terme derreur alatoire qui va compter pour toutes les variables qui ne sont pas dans le modle. (emplacement, prsence de jardins...)2. Analyse de regression</p><p>Statistiques</p></li><li><p>Statistiques*La droite qui sajuste le mieux aux donnes (best fit) est trouve par la mthode aux moindres carrs. La mthode minimise la somme des carrs des distances verticales | entre les points et la droite.Droite de rgression de y en x2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*Ce sont des paramtres qui sappliquent lquationsajustant le mieux la population (x,y).a et b sont les coefficients de la rgression2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*Un brin de mathmatiques?2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*La droite de rgression passe par 2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*Ne nous nervons pas!!En fait, ce nest pas sorcier du tout</p><p>Voyons plutt un exemple.Cas dun ressort subissant un allongement sous leffet dun poids.2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*2. Analyse de regression relation linaire </p><p>Statistiques</p><p>Numro de l'essai</p><p>X Masse</p><p>Y Longueur</p><p>mi2</p><p>mili</p><p>i</p><p>mi</p><p>li</p><p>1</p><p>2</p><p>42.0</p><p>4.0</p><p>84.0</p><p>2</p><p>4</p><p>48.4</p><p>16.0</p><p>193.6</p><p>3</p><p>6</p><p>51.3</p><p>36.0</p><p>307.8</p><p>4</p><p>8</p><p>56.3</p><p>64.0</p><p>450.4</p><p>5</p><p>10</p><p>58.6</p><p>100.0</p><p>586.0</p><p>n=5</p><p>_1032421830.unknown</p><p>_1032421865.unknown</p><p>_1032422020.unknown</p><p>_1032421381.unknown</p><p>Graph1</p><p>42</p><p>48.4</p><p>51.3</p><p>56.3</p><p>58.6</p><p>Masse (kg)</p><p>Longueur (cm)</p><p>Balance ressort</p><p>y = 2.055x + 38.99</p><p>Feuil1</p><p>Numro de l'essaiMasseLongueurmi^2li2</p><p>imili</p><p>1242.04.01764.084.0</p><p>2448.416.02342.6193.6</p><p>3651.336.02631.7307.8</p><p>4856.364.03169.7450.4</p><p>51058.6100.03434.0586.0</p><p>30256.622013341.91621.8</p><p>n=5</p><p>Feuil1</p><p>Masse (kg)</p><p>Longueur (cm)</p><p>Balance ressort</p><p>y = 2.055x + 38.99</p><p>Feuil2</p><p>Feuil3</p></li><li><p>Statistiques*Lcart type de la pente a, estim partir de lchantillon est not S(a):On peut alors dterminer lintervalle de confiance de la pente (cf cours L1)Si 0 apparat dans cet intervalle, alors la pente ne peut tre considre comme significativement diffrente de 0. On peut conclure quil nexiste pas de corrlation significative entre les deux variables.Cest lordonne estime partir du modle linaire:2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*Ceci correspond la procdure habituelle dun test dhypothses:Autre mthode pour finalement tester lexistence dune corrlation2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*3 mthodes possibles pour dterminer lexistence dune corrlation entre 2 variables:</p><p>Calcul de r et test sur r</p><p>Calcul de lintervalle de confiance de la pente. 0 appartient-il cet intervalle?</p><p>Calcul de la pente et de son cart type, test sur la pente.</p><p>Heureusement les trois mthodes aboutissent rigoureusement la mme conclusion!!2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*On peut alors dterminer lintervalle de confiance de lordonne lorigine (cf cours L1)Test sur la table de Student2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*La droite de rgression passe par la moyenne de x et la moyenne de y.</p><p>La corrlation est significative (de peu)</p><p>Lordonne lorigine ne peut pas tre considre comme diffrente de 0</p><p>Soyons honnte, de tels rsultats indiquent un pitre analyste</p><p>Intervalle de confiance 95%2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*On accepte lhypothse nulle H0: b=0a: pente de la droite,pas dordonne lorigine 2. Analyse de regression relation linaire </p><p>Statistiques</p></li><li><p>Statistiques*Y sexprime comme polynme dune seconde variable X2. Analyse de regression relation polynomiale </p><p>Statistiques</p></li><li><p>Statistiques*Ou sous forme matricielle...Mme principe pour les sommes de fonctions trigonomtriques2. Analyse de regression relation polynomiale </p><p>Statistiques</p></li><li><p>Statistiques*La fonction exponentielle est trs courante en sciencesPar exemple la dcroissance dun lment radioactif...Si les constantes a et...</p></li></ul>

Recommended

View more >