Covarianță

De la testwiki
Sari la navigare Sari la căutare

În teoria probabilității și statistică, covarianța este măsura de variație comună a două variabile aleatorii.[1] Dacă valorile mari ale unei variabile corespund, în general, valorilor mari ale celeilalte variabile, și dacă același lucru este valabil în cazul valorilor mici (i.e. cele două variabile au comportamente similare), covarianța este pozitivă.[2] Pe de altă parte, dacă valorile mari ale unei variabile corespund, în general, valorilor mici ale celeilalte variabile (i.e. cele două variabile au comportamente opuse), covarianța este negativă. Prin urmare, semnul covarianței arată direcția relației liniare existente între cele două variabile. Magnitudinea covarianței nu este ușor de interpretat, deoarece nu este normalizată, prin urmare depinde de magnitudinea variabilelor. Versiunea normalizată a covarianței, coeficientul de corelație, poate arăta însă prin magnitudine puterea relației liniare.

Trebuie făcută o distincție între (1) Covarianța a două variabile aleatorii, care este un parametru al populației ce poate fi interpretat ca o proprietate a distribuției multivariate de probabilitate, și (2) Covariația eșantionului, care, pe lângă rolul descriptiv asupra eșantionului, reprezintă valoarea estimată a parametrului populației.

Definiție

Covarianța unei distribuții bivariate a două variabile aleatorii Format:Math și Format:Math, cu momente secundare finite, este definită ca media produselor deviațiilor de la mediile lor individuale:[3]

cov(X,Y)=E[(XE[X])(YE[Y])],

unde Format:Math este media variabilei Format:Math. Covarianța este adesea desemnată prin Format:Math sau Format:Math, în analogie cu varianța. Folosind proprietatea liniarității mediilor, formula de mai sus poate fi redusă la media produselor celor două variabile minus produsul mediilor lor:

cov(X,Y)=E[(XE[X])(YE[Y])]=E[XYXE[Y]E[X]Y+E[X]E[Y]]=E[XY]E[X]E[Y]E[X]E[Y]+E[X]E[Y]=E[XY]E[X]E[Y].

Totuși, când E[XY]E[X]E[Y], această din urmă ecuație poate fi afectată de reducere numerică atunci când este calculată cu virgulă mobilă și, prin urmare, ar trebui evitată în programele de calcul când datele n-au fost centrate înainte.[4] În acest caz, algoritmi stabili numeric ar trebui preferați. .

Pentru vectorii aleatori 𝐗mși 𝐘n, matricea covarianței încrucișate Format:Math este:

cov(𝐗,𝐘)=E[(𝐗E[𝐗])(𝐘E[𝐘])T]=E[𝐗𝐘T]E[𝐗]E[𝐘]T,

unde Format:Math este transpusa vectorului Format:Math.

Elementul Format:Math al matricei este egal cu covarianța Format:Math între scalarul al Format:Math-lea aparținând Format:Math și scalarul al Format:Math-lea aparținând Format:Math. În particular, Format:Math este transpusa Format:Math.

Pentru un vector 𝐗=[X1X2Xm]T reprezentând distribuția multivariată a Format:Math variabile cu momente secundare finite, matricea covarianței (știută și ca matricea variație-covarianță) este definită ca

Σ(𝐗)=cov(𝐗,𝐗)

Variabilele aleatorii a căror covarianță este zero sunt variabile necorelate. În același fel, componentele vectorilor aleatori a căror matrice de covarianță prezintă valori zero pentru fiecare intrare, cu excepția diagonalei principale, se numesc vectori necorelați.

Unitatea de măsură a covarianței Format:Math este unitatea de măsură a lui Format:Math multiplicată cu unitatea de măsură a lui Format:Math. În schimb, în cazul corelației, ce depinde de covarianță, nu există unitate de măsură (i.e. este un coeficient adimensional, ce reprezintă o normalizare a covarianței).

Variabile discrete

Dacă perechea de variabile aleatoare (X, Y) poate lua valori (xi, yi) pentru i = 1, ... , n, cu probabilități egale 1/n, atunci covarianța poate fi scrisă, în termeni echivalenți, funcție de mediile E(X) și E(Y) ca

cov(X,Y)=1ni=1n(xiE(X))(yiE(Y))

Poate fi, de asemenea, exprimată fără a se face referire directă la medii:[5]

cov(X,Y)=1n2i=1nj=1n12(xixj)(yiyj)=1n2ij>i(xixj)(yiyj)

În general, dacă sunt n diferite perechi de (X, Y), respectiv (xi, yi) pentru i = 1, ... , n, , dar presupunând că probabilitățile de apariție pi sunt inegale, atunci covarianța este:

cov(X,Y)=i=1npi(xiE(X))(yiE(Y))

Exemplu pentru variabilă aleatoare discretă

Fie X și Y având următoarea funcție (bivariată) de masă,[6], în care cele șase celule centrale dau probabilitățile f(x, y) de realizare a celor șase cazuri ipotetice: (x, y) = (1, 1), (1, 2), (1, 3), (2, 1), (2,2), și (2, 3):

y
f(x,y) 1 2 3 fX(x)
1 1/4 1/4 0 1/2
x 2 0 1/4 1/4 1/2
fY(y) 1/4 1/2 1/4 1

X poate lua două valori (1 și 2), în timp ce Y poate lua trei valori (1, 2, și 3). Mediile lor sunt μX=3/2 și μY=2. μY=2. Deviațiile standard (aici considerate parametrii de populație) ale lui X și Y sunt σX=1/2 și σY=1/2. Atunci avem:

cov(X,Y)=σXY=(x,y)Sf(x,y)(xμX)(yμY)=(14)(132)(12)+(14)(132)(22)+(0)(132)(32)+(0)(232)(12)+(14)(232)(22)+(14)(232)(32)=14.

Proprietăți

  • Varianța este un caz special al covarianței, în care cele două variabile sunt identice. Prin urmare, se poate defini ca:

cov(X,X)=var(X)σ2(X)σX2

  • Dacă X, Y, W, și V sunt variabile aleatoare reale, iar a, b, c, d sunt constante (prin “constante” înțelegându-se valori date, nealeatorii), atunci avem următoarele consecințe ale definiției covarianței:
cov(X,a)=0cov(X,X)=var(X)cov(X,Y)=cov(Y,X)cov(aX,bY)=abcov(X,Y)cov(X+a,Y+b)=cov(X,Y)cov(aX+bY,cW+dV)=accov(X,W)+adcov(X,V)+bccov(Y,W)+bdcov(Y,V)
Pentru o secvență X1, ..., Xn de variabile aleatoare, și constante a1, ..., an, avem:
σ2(i=1naiXi)=i=1nai2σ2(Xi)+2i,j:i<jaiajcov(Xi,Xj)=i,jaiajcov(Xi,Xj)
  • O identitate utilă pentru calcularea covarianței dintre două variabile aleatorii X,Y este Identitatea lui Hoeffding:[7]
cov(X,Y)=F(X,Y)(x,y)FX(x)FY(y)dxdy
unde F(X,Y)(x,y) este funcția de distribuție bivariată a vectorului aleator (X,Y) și FX(x),FY(y) sunt marginalii.

O identitate mai generală pentru matricile de covarianță

Fie Format:Math un vector aleator cu matrice de covarianță Format:Math, și fie Format:Math o matrice ce este operabilă pe Format:Math. Matricea de covarianță a produsului matrice-vector Format:Math este:

Σ(𝐀𝐗)=E[𝐀𝐗𝐗T𝐀T]E[𝐀𝐗]E[𝐗T𝐀T]=𝐀Σ(𝐗)𝐀T

Acesta este un rezultat direct al liniarității mediilor, fiind folositor în aplicarea transformărilor liniare asupra unui vector (exp. în cazul transformării necorelative).

Lipsa de corelație și independența

Dacă X și Y sunt independenți, atunci covarianța lor este zero.[8] Acest lucru rezultă deoarece,

E[XY]=E[X]E[Y]

Opusul însă, nu este mereu adevărat. Spre exemplu, fie variabila X uniform distribuită în intervalul [-1, 1], iar Y = X2. În mod clar, X și Y, sunt dependente, dar, conform formulei:

cov(X,Y)=cov(X,X2)=E[XX2]E[X]E[X2]=E[X3]E[X]E[X2]=00E[X2]=0.

În acest caz, relația dintre Y și X nu este liniară, pe când corelația și covariația sunt măsuri ale dependenței liniare dintre două variabile. Acest exemplu arată că dacă două variabile nu sunt corelate, aceasta nu implică cu necesitate că sunt și independente. Totuși, dacă cele două variabile au o distribuție multivariată normală (deci nu individuală, ci multivariată), lipsa de corelație implică cu necesitate independența.

Relația cu spațiile prehilbertiene

Multe dintre proprietățile covariației pot fi deduse elegant, asemănându-se proprietăților spațiilor prehilbertiene:

  1. biliniaritatea: pentru constantele a și b, și variabile aleatoare X, Y, Z, cov(aX + bY, Z) = a cov(X, Z) + b cov(Y, Z);
  2. simetria: cov(X, Y) = cov(Y, X);
  3. pozitivism semi-definit: σ2(X) = cov(X, X) ≥ 0 pentru toate variabilele aleatoare X, și cov(X, X) = 0 implică faptul că X este o variabilă aleatoare constantă (K).

În fapt aceste proprietăți implică definirea de către covarianță a unui spațiu prehilbertian asupra spațiului vectorial fracționar obținut prin extragerea subspațiului de variabile aleatoare cu momente secundare finite și identificarea acelora (oricăror două) care diferă printr-o constantă. (Această identificare transformă pozitivitatea semi-definită de mai sus în pozitivitate definită absolut). Spațiul vectorial fracționar este izomorfic față de subspațiul variabilelor aleatorii cu momente secundare finite și medie zero; pe acel subspațiu, covarianța este exact spațiul prehilbertian L2 al funcțiilor de valori reale definite pe acel spațiu.

Drept urmare, pentru variabilele aleatorii cu variații finite, inegalitatea

|cov(X,Y)|σ2(X)σ2(Y)

este valabilă via inegalitatea Cauchy–Schwarz.

Demonstrație: Dacă σ2(Y) = 0, atunci demonstrația este trivială. Pentru soluția non-trivială, fie variabila aleatoare

Z=Xcov(X,Y)σ2(Y)Y

Atunci avem

0σ2(Z)=cov(Xcov(X,Y)σ2(Y)Y,Xcov(X,Y)σ2(Y)Y)=σ2(X)(cov(X,Y))2σ2(Y).

Calcularea covarianței pentru un eșantion

Covarianțele eșantionului a K variabile cu câte N observații fiecare, extrase dintr-o populație, sunt date de matricea K x K: 𝐪=[qjk], cu intrările:

qjk=1N1i=1N(XijX¯j)(XikX¯k),

ceea ce reprezintă o estimare a covarianței dintre variabila Format:Math și variabila Format:Math.

Media eșantionului și covariația eșantionului reprezintă estimatori nealterați ai matricelor mediei și covarianței vectorului aleatoriu 𝐗, al cărui j-lea element (j = 1, ..., K) este una din variabilele aleatoare. Motivul pentru care matricea covarianței eșantionului are N1 la numitor, mai degrabă decât Neste că media populației E(X)nu este cunoscută, fiind astfel înlocuită cu media eșantionului 𝐗¯. Dacă media populației E(X) este cunoscută, estimarea nealterată analoagă este dată de:

qjk=1Ni=1N(XijE(Xj))(XikE(Xk))

Comentarii adiționale

Covarianța este uneori numită „măsură a dependenței liniare” a două variabile aleatoare. Aceasta nu înseamnă același lucru ca în contextul algebrei liniare (vezi dependență liniară). Când covarianța este normalizată (i.e. standardizată), se obține coeficientul de corelație Pearson, ce dă calitatea modelării pentru cea mai bună funcție liniară posibilă ce descrie relația dintre variabile. În acest sens, covarianța este un instrument pentru dependența liniară.

Aplicații

În genetică și biologie moleculară

Covarianța este un indicator important în biologie. Anumite secvențe de ADN sunt conservate mai mult decât altele între specii, astfel, pentru a studia structurile secundare sau terțiare ale proteinelor, sau structurile ARN, secvențele sunt comparate pentru specii înrudite. Dacă schimbări secvențiale sunt găsite sau nu sunt găsite deloc în ARN non-codant (exp. microARN), se presupune că secvențele sunt necesare pentru forme structurale comune, precum buclele ARN. În genetică, covarianța servește ca bază pentru calcularea Matricei Relației Genetice (GRM), ce mai este numită și matricea de înrudire, permițând inferențierea asupra structurii unei populații pe baza unui eșantion, precum și inferențierea asupra moștenirii unor complexe de trăsături. .

În finanțe

Covarianțele joacă un rol esențial în finanțe, în special în teoria portofoliului și în modelul CAPM. Covarianțele, alături de randamentele așteptate pentru diferite active, se folosesc pentru determinarea proporțiilor de diferite active pe care investitorii ar trebui să le dețină în vederea diversificării (și scăderii riscului).

În meteorologie și oceanografie

Matricea covarianțelor este importantă în estimarea condițiilor inițiale necesare modelelor de estimare a vremii viitoare. Matricea covarianțelor erorilor estimate este construită în jurul perturbărilor de la o stare medie. Matricea covarianțelor erorilor observaților este construită pentru a reprezenta magnitudinea erorilor observaționale combinate (pe diagonală) și erorile corelate dintre măsurători (în afara diagonalei). Acesta este un exemplu al folosirii covarianței de către filtrul Kalman și în vederea estimarea stării (interne) pentru sistemele variabile în timp.

În micrometeorologie

Tehnica covarianței Eddy este un indicator atmosferic în cadrul căruia covarianța dintre deviațiile instantanee ale vitezelor vânturilor verticale de la valoarea medie, și deviațiile instantanee ale concentrării gazelor, reprezintă baza calculării fluxurilor turbulente verticale.

În extragerea și urmărirea caracteristicilor (vocale)

Matricea covarianțelor este folosită pentru a captura variabilitatea spectrală a unui semnal.[9]

Referințe

  1. Format:Citat carte
  2. Format:MathWorld
  3. Oxford Dicționar de Statistică, Oxford University Press, 2002, p. 104.
  4. Donald E. Knuth (1998). The Art of Computer Programming, volume 2: Seminumerical Algorithms, 3rd edn., p. 232. Boston: Addison-Wesley.
  5. Format:Cite conference
  6. Format:Citat web
  7. Format:Citat carte
  8. Format:Citat web
  9. Format:Citat revistă