Lucrarea nr. 8 — Regresia liniară multipl - Excel, SPSS val/statistica/StatWork_8.pdf · Statistică multivariată Lucrarea nr. 8 — Regresia liniară multiplă - Excel, SPSS - A. Noţiuni teoretice Regresia liniară, prin metoda celor mai mici pătrate ...

  • Published on
    01-Feb-2018

  • View
    214

  • Download
    1

Embed Size (px)

Transcript

  • Statistic multivariat

    Lucrarea nr. 8 Regresia liniar multipl - Excel, SPSS -

    A. Noiuni teoretice Regresia liniar, prin metoda celor mai mici ptrate, este metoda de modelare

    cea mai des utilizat. Este metoda denumit regresie, regresie liniar, regresie multipl sau cele mai mici ptrate atunci cnd se construiete un model.

    Scopul regresiei multiple (termen utilizat de Pearson, 1908) este de a evidenia relaia dintre o variabil dependent (explicat, endogen, rezultativ) i o mulime de variabile independente (explicative, factoriale, exogene, predictori). Prin utilizarea regresiei multiple se ncearc, adesea, obinerea rspunsului la una dintre ntrebrile: care este cea mai bun predicie pentru ?, cine este cel mai bun predictor pentru ? .

    De reinut c metoda regresiei multiple este generalizat prin teoria modelului liniar general, n care se permit mai multe variabile dependente simultan i, de asemenea, variabile factoriale care nu sunt independente liniar.

    Clasa modelelor liniare poate fi exprimat prin y = x +

    unde y este variabila dependent (explicat, endogen, rezultativ), x este vectorul variabilelor independente (explicative, exogene), de

    dimensiune 1p, este vectorul coeficienilor, de dimensiune p1, parametrii modelului, este o variabil, interpretat ca eroare (perturbare, eroare de msurare

    etc.). Cu alte cuvinte,

    y = 1x1+2x2++pxp+ care exprim relaia liniar dintre y i x.

    Observaii. 1. Liniaritatea relaiei se refer la coeficieni i nu la variabile. Astfel, modelul

    +++=3

    322211

    1 y x

    xx

    este tot un model liniar. 2. Considernd c x1 este constant egal cu 1, se obine un model liniar care

    include un termen constant (termenul liber al modelului). 3. Pentru p = 2 i x1 1 se obine modelul liniar simplu, dreapta de regresie. 4. Utilitatea principal a unui model liniar este aceea a prediciei valorii lui y

    din valorile cunoscute ale variabilelor x. Presupunem c avem un set de n observaii efectuate asupra variabilelor

    implicate n model. Prin urmare dispunem de (xi1, xi2, . . . . , xip, yi), i = 1, 2, . . . , n. Notnd cu y vectorul de tip n1 avnd drept componente valorile msurate pentru variabila y, cu X matricea (xij)np a valorilor msurate pentru variabilele x i cu vectorul de tip n1 avnd drept componente valorile erorilor, modelul se rescrie n relaia matriceal:

    y = X +

  • Ipoteze iniiale. n tot ceea ce urmeaz se presupun ndeplinite ipotezele: 1. Matricea de experiene, n observaii pentru p variabile, este fixat: Xnp nu

    este stohastic. n plus, n >> p. 2. X este de rang p (coloanele sunt liniar independente formeaz o baz a

    unui spaiu vectorial p-dimensional). 3. a. Vectorul de perturbaii (n-dimensional) const din n variabile

    aleatoare independente cu media 0 i aceeai dispersie: Exp() = 0 Var() = Exp(') = 2In , unde 2 este un parametru necunoscut,

    sau, b. Vectorul este o v.a. n-dimensional normal

    ~ N(0, 2In ). De remarcat c ultima ipotez, a normalitii, este, mai degrab, o ipotez

    simplificatoare dect una restrictiv, cum sunt primele dou. Aceasta deoarece erorile se datoreaz, n general, n procesele studiate, aciunilor simultane ale unor factori aleatorii, ceea ce prin teorema de limit central conduce la concluzia c , ca sum a lor, tinde spre o repartiie normal.

    Problemele principale urmrite sunt: estimarea coeficienilor , calitatea estimrii, verificarea ipotezelor, calitatea prediciei, alegerea modelului.

    Estimaia prin cele mai mici ptrate Numim estimaie (ajustare) a modelului orice soluie {a, e} a sistemului

    y = Xa + e. Este de remarcat c sistemul conine n ecuaii i p + n necunoscute, deci

    admite o infinitate de soluii. Numim estimaie prin cele mai mici ptrate, acea soluie a care minimizeaz

    suma ptratelor erorilor ei, adic

    ==

    +++=n

    iippiii

    n

    ii xaxaxaye

    1

    22211

    1

    2 )]([ K .

    Cum ee= =2

    12

    i ie este o funcie de coeficienii a, o condiie necesar pentru

    atingerea maximului este

    0)( = eea

    .

    Se obine a = (X'X)-1X'y

    i se demonstreaz c este ndeplinit criteriul de minim i c este singura valoare cu aceast proprietate adic valorile determinate reprezint estimaia prin cele mai mici ptrate a coeficienilor modelului liniar.

    Ecuaia y = a1x1 + a2x2 + + apxp

    se numete ecuaia de regresie multipl. nlocuind n aceast relaie valori pentru variabilele independente xi se obine

    valoarea prognozat pentru variabila dependent y.

  • Interpretarea coeficienilor Un coeficient ai are interpretarea: modificarea cu 1 a valorii variabilei xi

    produce o modificare a valorii y cu ai uniti. Deoarece scalele de msur sunt, n general, diferite, interpretarea n acest sens a coeficienilor poate deforma imaginea importanei variabilelor independente n model. Din acest motiv se introduc coeficienii de regresie standardizai definii drept coeficienii de regresie estimai ai modelului:

    pp xxxy ~~~~ 2211 +++= K n care nu exist termen liber, iar variabilele y~ i ix~ sunt variabilele standardizate,

    prin standardizare nelegndu-se transformarea de tipul xsxxx =~ .

    Coeficienii de regresie standardizai au interpretarea: modificarea cu o abatere standard a valorii variabilei x produce o modificare cu i abateri standard a valorii variabilei dependente. n acest fel, mrimea coeficienilor standardizai reflect importana variabilelor independente n predicia lui y.

    Distribuia estimatorului Exp(a) = Var(a) = 2(X'X)-1.

    Estimaia dispersiei erorilor (2) Notnd cu valoarea ajustat, dat de ecuaia de regresie, pentru o realizare a

    vectorului x, considerat la estimarea parametrilor, se obine eroarea de ajustare, notat cu e:

    ei = yi - i, i = 1,,n. Erorile de ajustare sunt denumite uzual reziduuri i analiza lor este o parte

    important studiului calitativ al ecuaiei de regresie. Este evident c reziduurile constituie estimaii ale erorilor . Se demonstreaz c

    pn

    yys

    n

    iii

    =

    =1

    2

    2)(

    este o estimaie nedeplasat a dispersiei necunoscute 2. Este de notat c numitorul este egal cu numrul gradelor de libertate a sumei de la numrtor (n observaii din care am obinut p estimaii).

    Precizia ajustrii Reziduuri mici exprim o ajustare mai bun a datelor experimentale, dar

    stabilirea unui criteriu care s indice ct de mici trebuie s fie reziduurile pentru ca regresia s fie acceptat este o problem dificil.

    Pentru a obine o msur a preciziei ajustrii se pleac de la identitatea )()( yyyyyy iiii =

    care, prin reorganizarea termenilor, produce ).()( iiii yyyyyy +=

    Se poate demonstra c are loc identitatea: .)()()( 222 +=

    iii

    ii

    ii yyyyyy

  • Aceast relaie arat c variaia valorilor observate n jurul valorii medii se descompune ntr-un termen ce exprim variaia valorilor estimate n jurul mediei i ntr-un termen datorat reziduurilor ajustrii. Prin urmare, regresia estimat va fi cu att mai bun cu ct ultimul termen va fi mai mic, sau cu ct variaia valorilor estimate va fi mai apropiat de variaia valorilor observate. Se alege drept indicator sintetic de precizie a ajustrii raportul

    2

    2

    2

    )(

    )(

    =

    ii

    ii

    yy

    yyR .

    Pentru o bun ajustare a ecuaiei de regresie la datele experimentale, trebuie ca acest raport s fie apropiat de 1.

    Cantitatea R2 se numete coeficientul de determinare i, exprimat procentual, arat ct din variana variabilei dependente este explicat de ecuaia estimat. Este un indicator de asociere avnd atributul PRE,

    2

    22

    2

    )(

    )()(

    =

    ii

    iii

    ii

    yy

    yyyyR

    deci poate fi interpretat i n urmtorul sens: cu ct se mbuntete prognoza valorilor y prin considerarea modelului estimat.

    Se arat c R2 crete prin includerea mai multor variabile n model, astfel nct are loc o supraestimare n cazul modelelor extinse. O soluie propus este ajustarea coeficientului de determinare prin

    ).1(1 222 Rpn

    pRR

    =

    Coeficientul de corelaie multipl Ca msur a asocierii dintre y i ansamblul variabilelor x se introduce

    coeficientul de corelaie multipl, notat cu R. Poate fi definit drept coeficientul maxim de corelaie simpl (Pearson) dintre y i o combinaie liniar de variabile x. Astfel se explic faptul c valoarea calculat a lui R este ntotdeauna pozitiv i tinde s creasc o dat cu mrirea numrului de variabile independente.

    Metoda celor mai mici ptrate poate fi astfel gndit ca o metod care maximizeaz corelaia dintre valorile observate i valorile estimate (acestea reprezentnd o combinaie liniar de variabile x). O valoare R apropiat de 0 denot o regresie nesemnificativ, valorile prognozate de regresie nefiind mai bune dect cele obinute printr-o ghicire aleatorie (sau bazate doar pe distribuia lui y).

    Deoarece R tinde s supraestimeze asocierea dintre y i x, se prefer indicatorul definit anterior, coeficientul de determinare, R2, care este ptratul coeficientului de corelaie multipl.

    Testarea ipotezelor Notm

    ===i

    iirezi

    iregi

    ig yySPyySPyySP222 )( ,)( ,)(

    cele trei sume de ptrate care apar n identitatea introdus la definirea coeficientului de determinare. Sumele sunt referite ca suma ptratelor global (SPg), suma ptratelor datorate regresiei (SPreg) i suma ptratelor reziduale (SPrez). Fiecare sum de ptrate

  • are ataat un numr de grade de libertate: g = n-1, reg = p-1, rez = n-p i se poate realiza un tabel al analizei dispersionale (ANOVA) sub forma

    Sursa de variaie

    Suma de ptrate

    Grade de libertate

    Media ptrat F

    Regresie SPreg reg SPreg / reg = s2reg F = s2reg / s2

    Rezidual SPrez rez SPrez / rez = s2 Global SPg g SPg / g

    Testul F de semnificaie global Primul test utilizat n analiza regresiei este un test global de semnificaie a

    ansamblului coeficienilor (exceptnd termenul liber, dac acesta apare). Ipotezele testului sunt

    H0: 1 = 2 = = p = 0 H1: ()i, astfel nct i 0.

    n condiiile ipotezei nule, se demonstreaz c statistica F, calculat n tabelul ANOVA, este repartizat Fisher-Snedecor Fp-1;n-p, nct se poate verifica ipoteza nul.

    Nerespingerea ipotezei nule duce la concluzia c datele observate nu permit identificarea unui model liniar valid, deci regresia nu este adecvat n scopul de prognoz, propus iniial.

    Teste t n situaia cnd este respins ipoteza nul, se accept c ecuaia de regresie

    este semnificativ la nivel global, cu meniunea c s-ar putea ca anumii coeficieni s nu fie semnificativi. Pentru testarea fiecrui coeficient se utilizeaz un test t cu ipotezele:

    H0: i = 0 H1: i 0.

    n condiiile ipotezei H0 se arat c statistica )( ii

    i asat = este repartizat Student

    cu n p grade de libertate, ceea ce permite utilizarea testului t. n expresia care d statistica testului, s(ai) este abaterea standard estimat a coeficientului, dat ca rdcina ptrat din elementul corespunztor de pe diagonala principal a matricei s2(XX)-1.

    Nerespingerea ipotezei nule arat c datele experimentale nu permit stabilirea necesitii prezenei variabilei xi n model, variabila este nesemnificativ n model.

    Intervale de ncredere Apar de interes dou tipuri de intervale de ncredere: pentru parametrii

    modelului, i, i pentru valorile prognozate cu ajutorul modelului estimat.

    Parametrii modelului O regiune de ncredere, la nivelul , pentru ansamblul parametrilor este dat

    de ( a)XX( a) ps2F1-,p,n-p Utiliznd repartiia statisticilor ti, definite la testarea semnificaiei

    parametrilor, se demonstreaz c intervalul de ncredere pentru parametrul i, i = 1, 2, , p, este dat la pragul de ncredere , de relaia

    ai t1-/2;n-ps(ai) 1 ai + t1-/2;n-ps(ai) .

  • Valorile prognozate Utilitatea principal a modelului liniar este prognozarea valorilor variabilei

    dependente. Valoarea prognozat este evident o statistic pentru c se obine prin modelul estimat (din datele experimentale). Se poate atunci vorbi de repartiia de sondaj a valorii prognozate, repartiie care st la baza determinrii intervalelor de ncredere pentru valorile prognozate.

    n estimarea intervalului de ncredere pentru o valoare y0= x0 + 0, se distinge ntre situaiile n care observaia x0 a fost, sau nu, utilizat la estimarea coeficienilor (cu alte cuvinte, dac matricea X conine sau nu linia x0).

    n primul caz, intervalul de ncredere pentru valoarea estimat este 0 t1-/2;n-ps 0

    10 )( xXXx

    y0 0 + t1-/2;n-ps 01

    0 )( xXXx

    unde 0 = x0a, este valoarea prognozat de ecuaia de regresie. n al doilea caz, intervalul de ncredere este 0 t1-/2;n-ps 1)( 0

    10 +

    xXXx y0 0 + t1-/2;n-ps 1)( 01

    0 + xXXx .

    n cazul regresiei simple (dreapta de regresie), ultimul interval de ncredere are forma

    0 t1-/2;n-ps

    + 22

    0

    )()(1xx

    xxn i

    y0 0 + t1-/2;n-ps

    + 22

    0

    )()(1xx

    xxn i

    ,

    de unde se obine concluzia c valorile prognozate au intervale de ncredere, la acelai prag de ncredere, mai mari pe msur ce valoarea x0 este mai deprtat de media x . De aici apare recomandarea ca un model liniar s nu fie utilizat pentru prognoz n cazul n care variabilele independente au valori deprtate de centrul datelor considerate la estimarea modelului (de exemplu, estimarea trendului ratei de schimb valutar din datele unei sptmni nu poate fi utilizat pentru a prognoza rata de schimb de peste un an). n cazul unui sistem dinamic (valorile sunt produse/evaluate n timp), prognoza se va realiza doar pentru cteva momente de timp, dup care are loc o nou estimare a modelului etc.

    Analiza reziduurilor Analiza statistic a ecuaiei de regresie este bazat pe ipotezele Gauss-Markov

    asupra erorilor ~ N(0, 2In ). Valabilitatea acestor ipoteze, n special cea a normalitii erorilor, poate fi testat prin analiza reziduurilor. Ca i n cazul testelor statistice, concluziile analizei sunt de genul: ipoteza normalitii se respinge sau ipoteza normalitii nu se respinge. Analiza reziduurilor este, n esen, de natur grafic.

    Calculul estimaiilor erorilor produce e = Yobs-Yest = Yobs Xa = Yobs X(XX)-1XYobs = (1 X(XX)-1X)Yobs Notnd Z = X(XX)-1X = (zij), rezult c, n cazul ndeplinirii ipotezelor

    Gauss-Markov, dispersia reziduului ei este egal cu (1-zii) 2 unde zii sunt elementele de pe diagonala principal a matricei Z, cu estimaia s2(ei) = (1-zii)s2. Reamintim c media reziduurilor este egal cu zero.

    Ipotezele de repartiie a erorilor sunt reflectate n repartiia reziduurilor (estimaii ale erorilor). Se analizeaz histograma reziduurilor sau diagrame ale reziduurilor n raport de valorile estimate, de variabilele independente. Diagramele construite n continuare pun n eviden eventualele abateri de la repartiiile presupuse pentru erori, abateri ce vor exprima deviaiile de la ipotezele de repartiie a erorilor.

  • Diagrama reziduurilor Deoarece ))1(;0(~ 2iii zNe , rezult c mrimile di, i = 1,,n, date de

    ii

    ii zs

    ed

    =1

    sunt repartizate N(0;1). Din acest motiv, mrimile di sunt denumite reziduuri normalizate.

    Observaie. n practic, se neglijeaz uneori radicalul de la numitor. Histograma mrimilor di trebuie s reflecte o repartiie normal standard.

    Atunci cnd n este relativ mic, histograma va prezenta, n general, mari neregulariti fa de situaia care ar permite aproximarea cu o curb normal. Decizia referitoare la proveniena, sau neproveniena, dintr-o repartiie normal se poate lua n acest caz, de exemplu, n urma comparaiei cu histograme obinute pentru eantioane de acelai volum n generate aleatoriu dintr-o repartiie normal standard.

    Diagrama reziduuri valori estimate Considernd punctele de coordonate (i,di), i = 1,,n, r...

Recommended

View more >