Lucrarea nr. 8 — Regresia liniară multipl - Excel, SPSS val/statistica/StatWork_8.pdf · Statistică multivariată Lucrarea nr. 8 — Regresia liniară multiplă - Excel, SPSS - A. Noţiuni teoretice Regresia liniară, prin metoda celor mai mici pătrate

  • View
    214

  • Download
    1

Embed Size (px)

Transcript

  • Statistic multivariat

    Lucrarea nr. 8 Regresia liniar multipl - Excel, SPSS -

    A. Noiuni teoretice Regresia liniar, prin metoda celor mai mici ptrate, este metoda de modelare

    cea mai des utilizat. Este metoda denumit regresie, regresie liniar, regresie multipl sau cele mai mici ptrate atunci cnd se construiete un model.

    Scopul regresiei multiple (termen utilizat de Pearson, 1908) este de a evidenia relaia dintre o variabil dependent (explicat, endogen, rezultativ) i o mulime de variabile independente (explicative, factoriale, exogene, predictori). Prin utilizarea regresiei multiple se ncearc, adesea, obinerea rspunsului la una dintre ntrebrile: care este cea mai bun predicie pentru ?, cine este cel mai bun predictor pentru ? .

    De reinut c metoda regresiei multiple este generalizat prin teoria modelului liniar general, n care se permit mai multe variabile dependente simultan i, de asemenea, variabile factoriale care nu sunt independente liniar.

    Clasa modelelor liniare poate fi exprimat prin y = x +

    unde y este variabila dependent (explicat, endogen, rezultativ), x este vectorul variabilelor independente (explicative, exogene), de

    dimensiune 1p, este vectorul coeficienilor, de dimensiune p1, parametrii modelului, este o variabil, interpretat ca eroare (perturbare, eroare de msurare

    etc.). Cu alte cuvinte,

    y = 1x1+2x2++pxp+ care exprim relaia liniar dintre y i x.

    Observaii. 1. Liniaritatea relaiei se refer la coeficieni i nu la variabile. Astfel, modelul

    +++=3

    322211

    1 y x

    xx

    este tot un model liniar. 2. Considernd c x1 este constant egal cu 1, se obine un model liniar care

    include un termen constant (termenul liber al modelului). 3. Pentru p = 2 i x1 1 se obine modelul liniar simplu, dreapta de regresie. 4. Utilitatea principal a unui model liniar este aceea a prediciei valorii lui y

    din valorile cunoscute ale variabilelor x. Presupunem c avem un set de n observaii efectuate asupra variabilelor

    implicate n model. Prin urmare dispunem de (xi1, xi2, . . . . , xip, yi), i = 1, 2, . . . , n. Notnd cu y vectorul de tip n1 avnd drept componente valorile msurate pentru variabila y, cu X matricea (xij)np a valorilor msurate pentru variabilele x i cu vectorul de tip n1 avnd drept componente valorile erorilor, modelul se rescrie n relaia matriceal:

    y = X +

  • Ipoteze iniiale. n tot ceea ce urmeaz se presupun ndeplinite ipotezele: 1. Matricea de experiene, n observaii pentru p variabile, este fixat: Xnp nu

    este stohastic. n plus, n >> p. 2. X este de rang p (coloanele sunt liniar independente formeaz o baz a

    unui spaiu vectorial p-dimensional). 3. a. Vectorul de perturbaii (n-dimensional) const din n variabile

    aleatoare independente cu media 0 i aceeai dispersie: Exp() = 0 Var() = Exp(') = 2In , unde 2 este un parametru necunoscut,

    sau, b. Vectorul este o v.a. n-dimensional normal

    ~ N(0, 2In ). De remarcat c ultima ipotez, a normalitii, este, mai degrab, o ipotez

    simplificatoare dect una restrictiv, cum sunt primele dou. Aceasta deoarece erorile se datoreaz, n general, n procesele studiate, aciunilor simultane ale unor factori aleatorii, ceea ce prin teorema de limit central conduce la concluzia c , ca sum a lor, tinde spre o repartiie normal.

    Problemele principale urmrite sunt: estimarea coeficienilor , calitatea estimrii, verificarea ipotezelor, calitatea prediciei, alegerea modelului.

    Estimaia prin cele mai mici ptrate Numim estimaie (ajustare) a modelului orice soluie {a, e} a sistemului

    y = Xa + e. Este de remarcat c sistemul conine n ecuaii i p + n necunoscute, deci

    admite o infinitate de soluii. Numim estimaie prin cele mai mici ptrate, acea soluie a care minimizeaz

    suma ptratelor erorilor ei, adic

    ==

    +++=n

    iippiii

    n

    ii xaxaxaye

    1

    22211

    1

    2 )]([ K .

    Cum ee= =2

    12

    i ie este o funcie de coeficienii a, o condiie necesar pentru

    atingerea maximului este

    0)( = eea

    .

    Se obine a = (X'X)-1X'y

    i se demonstreaz c este ndeplinit criteriul de minim i c este singura valoare cu aceast proprietate adic valorile determinate reprezint estimaia prin cele mai mici ptrate a coeficienilor modelului liniar.

    Ecuaia y = a1x1 + a2x2 + + apxp

    se numete ecuaia de regresie multipl. nlocuind n aceast relaie valori pentru variabilele independente xi se obine

    valoarea prognozat pentru variabila dependent y.

  • Interpretarea coeficienilor Un coeficient ai are interpretarea: modificarea cu 1 a valorii variabilei xi

    produce o modificare a valorii y cu ai uniti. Deoarece scalele de msur sunt, n general, diferite, interpretarea n acest sens a coeficienilor poate deforma imaginea importanei variabilelor independente n model. Din acest motiv se introduc coeficienii de regresie standardizai definii drept coeficienii de regresie estimai ai modelului:

    pp xxxy ~~~~ 2211 +++= K n care nu exist termen liber, iar variabilele y~ i ix~ sunt variabilele standardizate,

    prin standardizare nelegndu-se transformarea de tipul xsxxx =~ .

    Coeficienii de regresie standardizai au interpretarea: modificarea cu o abatere standard a valorii variabilei x produce o modificare cu i abateri standard a valorii variabilei dependente. n acest fel, mrimea coeficienilor standardizai reflect importana variabilelor independente n predicia lui y.

    Distribuia estimatorului Exp(a) = Var(a) = 2(X'X)-1.

    Estimaia dispersiei erorilor (2) Notnd cu valoarea ajustat, dat de ecuaia de regresie, pentru o realizare a

    vectorului x, considerat la estimarea parametrilor, se obine eroarea de ajustare, notat cu e:

    ei = yi - i, i = 1,,n. Erorile de ajustare sunt denumite uzual reziduuri i analiza lor este o parte

    important studiului calitativ al ecuaiei de regresie. Este evident c reziduurile constituie estimaii ale erorilor . Se demonstreaz c

    pn

    yys

    n

    iii

    =

    =1

    2

    2)(

    este o estimaie nedeplasat a dispersiei necunoscute 2. Este de notat c numitorul este egal cu numrul gradelor de libertate a sumei de la numrtor (n observaii din care am obinut p estimaii).

    Precizia ajustrii Reziduuri mici exprim o ajustare mai bun a datelor experimentale, dar

    stabilirea unui criteriu care s indice ct de mici trebuie s fie reziduurile pentru ca regresia s fie acceptat este o problem dificil.

    Pentru a obine o msur a preciziei ajustrii se pleac de la identitatea )()( yyyyyy iiii =

    care, prin reorganizarea termenilor, produce ).()( iiii yyyyyy +=

    Se poate demonstra c are loc identitatea: .)()()( 222 +=

    iii

    ii

    ii yyyyyy

  • Aceast relaie arat c variaia valorilor observate n jurul valorii medii se descompune ntr-un termen ce exprim variaia valorilor estimate n jurul mediei i ntr-un termen datorat reziduurilor ajustrii. Prin urmare, regresia estimat va fi cu att mai bun cu ct ultimul termen va fi mai mic, sau cu ct variaia valorilor estimate va fi mai apropiat de variaia valorilor observate. Se alege drept indicator sintetic de precizie a ajustrii raportul

    2

    2

    2

    )(

    )(

    =

    ii

    ii

    yy

    yyR .

    Pentru o bun ajustare a ecuaiei de regresie la datele experimentale, trebuie ca acest raport s fie apropiat de 1.

    Cantitatea R2 se numete coeficientul de determinare i, exprimat procentual, arat ct din variana variabilei dependente este explicat de ecuaia estimat. Este un indicator de asociere avnd atributul PRE,

    2

    22

    2

    )(

    )()(

    =

    ii

    iii

    ii

    yy

    yyyyR

    deci poate fi interpretat i n urmtorul sens: cu ct se mbuntete prognoza valorilor y prin considerarea modelului estimat.

    Se arat c R2 crete prin includerea mai multor variabile n model, astfel nct are loc o supraestimare n cazul modelelor extinse. O soluie propus este ajustarea coeficientului de determinare prin

    ).1(1 222 Rpn

    pRR

    =

    Coeficientul de corelaie multipl Ca msur a asocierii dintre y i ansamblul variabilelor x se introduce

    coeficientul de corelaie multipl, notat cu R. Poate fi definit drept coeficientul maxim de corelaie simpl (Pearson) dintre y i o combinaie liniar de variabile x. Astfel se explic faptul c valoarea calculat a lui R este ntotdeauna pozitiv i tinde s creasc o dat cu mrirea numrului de variabile independente.

    Metoda celor mai mici ptrate poate fi astfel gndit ca o metod care maximizeaz corelaia dintre valorile observate i valorile estimate (acestea reprezentnd o combinaie liniar de variabile x). O valoare R apropiat de 0 denot o regresie nesemnificativ, valorile prognozate de regresie nefiind mai bune dect cele obinute printr-o ghicire aleatorie (sau bazate doar pe distribuia lui y).

    Deoarece R tinde s supraestimeze asocierea dintre y i x, se prefer indicatorul definit anterior, coeficientul de determinare, R2, care este ptratul coeficientului de corelaie multipl.

    Testarea ipotezelor Notm

    ===i

    iirezi

    iregi

    ig yySPyySPyySP222 )( ,)( ,)(

    cele trei sume de ptrate care apar n identitatea introdus la definirea coeficientului de determinare. Sumele sunt referite ca suma ptratelor global (SPg), suma ptratelor datorate regresiei (SPreg) i suma ptratelor reziduale (SPrez). Fiecare sum de ptrate

  • are ataat un numr de grade de libertate: g = n-1, reg = p-1, rez = n-p i se poate realiza un tabel al analizei dispersionale (ANOVA) sub forma

    Sursa de variaie

    Suma de ptrate

    Grade de libertate

    Media ptrat F

    Regresie SPreg reg SPreg / reg = s2reg F = s2reg / s2

    Rezidual SPrez rez