Formler för korrelationskoefficient, beräkning, tolkning, exempel

4568
Robert Johnston

De korrelationskoefficient i statistik är det en indikator som mäter tendensen hos två kvantitativa variabler X och Y att ha ett linjärt eller proportionellt förhållande mellan dem.

Generellt är variablerna X och Y två egenskaper för samma population. X kan till exempel vara en persons längd och Y sin vikt..

Figur 1. Korrelationskoefficient för fyra datapar (X, Y). Källa: F. Zapata.

I detta fall skulle korrelationskoefficienten indikera huruvida det finns en trend mot ett proportionellt förhållande mellan höjd och vikt i en viss population..

Pearsons linjära korrelationskoefficient betecknas med bokstaven r gemener och dess lägsta och högsta värden är -1 respektive +1. 

Ett värde r = +1 skulle indikera att uppsättningen par (X, Y) är perfekt inriktade och att när X växer kommer Y att växa i samma proportion. Å andra sidan, om det hände att r = -1, skulle paruppsättningen också vara perfekt inriktade, men i det här fallet när X ökar minskar Y i samma proportion.

Figur 2. Olika värden för den linjära korrelationskoefficienten. Källa: Wikimedia Commons.

Å andra sidan skulle ett värde på r = 0 indikera att det inte finns någon linjär korrelation mellan variablerna X och Y. Medan ett värde på r = +0.8 skulle indikera att paren (X, Y) tenderar att klustera på ena sidan och en annan av en viss rak.

Formeln för att beräkna korrelationskoefficienten r är som följer:

Hur man beräknar korrelationskoefficienten?

Den linjära korrelationskoefficienten är en statistisk kvantitet som finns i vetenskapliga räknare, de flesta kalkylblad och statistiska program..

Det är dock bekvämt att veta hur formeln som definierar den tillämpas, och för detta kommer en detaljerad beräkning att visas, utförd på en liten datamängd.

Och som det sägs i föregående avsnitt är korrelationskoefficienten kovariansen Sxy dividerad med produkten av standardavvikelsen Sx för variablerna X och Sy för variabeln Y.

Kovarians och varians

Kovariansen Sxy är:

Sxy = [Σ (Xi - ) (Yi - )] / (N-1)

Där summan går från 1 till N-datapar (Xi, Yi). och är aritmetiska medel för data Xi respektive Yi.

För sin del är standardavvikelsen för variabeln X kvadratroten av variansen för datamängden Xi, med i från 1 till N:

Sx = √ [Σ (Xi - ) ^ 2) / (N-1)]

På samma sätt är standardavvikelsen för variabel Y kvadratroten av variansen för datamängden Yi, med i från 1 till N:

Sy = √ [Σ (Yi - )två ) / (N-1)]

Illustrativt fall

För att visa i detalj hur man beräknar korrelationskoefficienten tar vi följande uppsättning med fyra datapar 

(X, Y): (1, 1); (2. 3); (3, 6) och (4, 7).

Först beräknar vi det aritmetiska medelvärdet för X och Y enligt följande:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Därefter beräknas de återstående parametrarna:

Kovarians Sxy

Sxy = [(1 - 2,5) (1 - 4,25) + (2 - 2,5) (3 - 4,25) + (3 - 2,5) (6 - 4,25) +….…. (4 - 2,5) (7 - 4,25) ] / (4-1)

Sxy = [(-1,5) (- 3,25) + (-0,5) (- 1,25) + (0,5) (1,75) + ... . 

…. (1.5) (2.75)] / (3) = 10.5 / 3 = 3.5

Standardavvikelse Sx

Sx = √ [(-1,5)två + (-0,5)två + (0,5)två + (1,5)två) / (4-1)] = √ [5/3] = 1.29

Standardavvikelse Sy

Sx = √ [(-3,25)två + (-1,25)två + (1,75)två + (2,75)två) / (4-1)] = 

√ [22,75 / 3] = 2,75

Korrelationskoefficient r

r = 3,5 / (1,29 * 2,75) = 0,98

Tolkning

I datamängden i föregående fall observeras en stark linjär korrelation mellan variablerna X och Y, vilket manifesteras både i spridningsdiagrammet (visas i figur 1) och i korrelationskoefficienten, vilket gav ett värde som ligger ganska nära enhet.

I den utsträckning som korrelationskoefficienten är närmare 1 eller -1, desto mer meningsfullt är det att anpassa data till en linje, resultatet av linjär regression..

Linjär regression

Den linjära regressionslinjen erhålls från Metod för minsta kvadrater. i vilken parametrarna för regressionslinjen erhålls från minimeringen av summan av kvadraten av skillnaden mellan det uppskattade Y-värdet och Yi för N-data.

Å andra sidan är parametrarna a och b för regressionslinjen y = a + bx, erhållna enligt metoden med minsta kvadrat:

* b = Sxy / (Sxtvå) För lutningen

* a = - b för skärningspunkten mellan regressionslinjen och Y-axeln.

Kom ihåg att Sxy är den kovarians som definieras ovan och Sxtvå är variansen eller kvadraten för standardavvikelsen definierad ovan. och är aritmetiska medel för data X respektive Y.

Exempel

Korrelationskoefficienten används för att bestämma om det finns en linjär korrelation mellan två variabler. Det är tillämpligt när variablerna som ska studeras är kvantitativa och dessutom antas att de följer en normal typfördelning..

Vi har ett illustrativt exempel nedan: ett mått på graden av fetma är kroppsmassindex, som erhålls genom att dividera en persons vikt i kilo med samma höjd i enheter i meter kvadrat.

Du vill veta om det finns en stark korrelation mellan kroppsmassindex och koncentrationen av HDL-kolesterol i blodet, mätt i millimol per liter. För detta ändamål har en studie med 533 personer genomförts, som sammanfattas i följande diagram, där varje punkt representerar en persons data.

Figur 3. Studie av BMI och HDL-kolesterol hos 533 patienter. Källa: Aragonese Institute of Health Sciences (IACS).

Noggrann observation av grafen visar att det finns en viss linjär trend (inte särskilt markerad) mellan koncentrationen av HDL-kolesterol och kroppsmassindex. Det kvantitativa måttet på denna trend är korrelationskoefficienten, som i detta fall visade sig vara r = -0,276.

Referenser

  1. González C. Allmän statistik. Återställd från: tarwi.lamolina.edu.pe
  2. IACS. Aragonese institutet för hälsovetenskap. Återställd från: ics-aragon.com 
  3. Salazar C. och Castillo S. Grundläggande principer för statistik. (2018). Återställd från: dspace.uce.edu.ec
  4. Superprof. Korrelationskoefficient. Återställd från: superprof.es
  5. USAC. Beskrivande statistikmanual. (2011). Återställd från: statistics.ingenieria.usac.edu.gt
  6. Wikipedia. Pearsons korrelationskoefficient. Återställd från: es.wikipedia.com.

Ingen har kommenterat den här artikeln än.