Homoscedasticity vad är det, betydelse och exempel

3233
David Holt

De homoscedasticitet i en prediktiv statistisk modell uppträder det om i alla datagrupperna för en eller flera observationer, variansen hos modellen med avseende på de förklarande (eller oberoende) variablerna förblir konstant.

En regressionsmodell kan vara homoscedastisk eller inte, i vilket fall vi talar om heteroscedasticitet.

Figur 1. Fem datamängder och regressionspassning för uppsättningen. Variansen i förhållande till det förutsagda värdet är densamma i varje grupp. (upav-biblioteca.org)

En statistisk regressionsmodell med flera oberoende variabler kallas homoscedastic, bara om variansen för felet hos den förutsagda variabeln (eller standardavvikelsen för den beroende variabeln) förblir enhetlig för olika gruppvärden för de förklarande eller oberoende variablerna.

I de fem datagrupperna i figur 1 har variansen i varje grupp beräknats med avseende på det värde som uppskattas av regressionen, vilket resulterar i att vara densamma i varje grupp. Det antas vidare att uppgifterna följer normalfördelningen.

På grafisk nivå betyder det att punkterna är lika utspridda eller utspridda runt det värde som förutses av regressionspassningen, och att regressionsmodellen har samma fel och giltighet för området för den förklarande variabeln..

Artikelindex

  • 1 Betydelsen av homoscedasticitet
    • 1.1 Homoscedasticitet kontra heteroscedasticitet
    • 1.2 Homoscedasticitetstest
    • 1.3 Standardiserade variabler
    • 1.4 Icke-grafiska tester av homoscedasticitet
  • 2 Referenser

Betydelsen av homoscedasticitet

För att illustrera vikten av homoscedasticitet i prediktiv statistik är det nödvändigt att kontrastera med det motsatta fenomenet, heteroscedasticity.

Homoscedasticitet kontra heteroscedasticity

I fallet med figur 1, där det finns homoscedasticitet, är det sant att:

Var ((y1-Y1); X1) ≈ Var ((y2-Y2); X2) ≈… Var ((y4-Y4); X4)

Där Var ((yi-Yi); Xi) representerar variansen representerar paret (xi, yi) data från grupp i, medan Yi är det värde som förutses av regressionen för medelvärdet Xi för gruppen. Variansen för n-data från grupp i beräknas enligt följande:

Var ((yi-Yi); Xi) = ∑j (yij - Yi) ^ 2 / n

Tvärtom, när heteroscedasticitet inträffar kanske inte regressionsmodellen är giltig för hela regionen där den beräknades. Figur 2 visar ett exempel på denna situation.

Figur 2. Grupp av data som visar heteroscedasticitet. (Egen utarbetande)

Figur 2 representerar tre datagrupper och uppsättningen av uppsättningen med hjälp av en linjär regression. Det bör noteras att data i den andra och tredje gruppen är mer spridda än i den första gruppen. Diagrammet i figur 2 visar också medelvärdet för varje grupp och dess felfält ± σ, med σ standardavvikelsen för varje datagrupp. Man bör komma ihåg att standardavvikelsen σ är variansroten.

Det är uppenbart att i fallet med heteroscedasticitet ändras regressionsuppskattningsfelet i värden för den förklarande eller oberoende variabeln, och i intervallen där detta fel är mycket stort är regressionsförutsägelsen opålitlig eller inte tillämplig.

I en regressionsmodell måste felen eller resterna (och -Y) fördelas med samma varians (σ ^ 2) genom hela intervallet för värden för den oberoende variabeln. Det är av denna anledning som en bra regressionsmodell (linjär eller icke-linjär) måste klara homoscedasticitetstestet.. 

Homoscedasticitetstest

Poängen som visas i figur 3 motsvarar data från en studie som letar efter en relation mellan huspriserna (i dollar) som en funktion av storleken eller arean i kvadratmeter.

Den första modellen som testas är en linjär regression. För det första noteras det att bestämningskoefficienten R ^ 2 för passningen är ganska hög (91%), så man kan tro att passningen är tillfredsställande..

Två regioner kan emellertid tydligt skiljas från justeringsdiagrammet. En av dem, den till höger innesluten i en oval, uppfyller homoscedasticitet, medan regionen till vänster inte har homoscedasticity.

Detta innebär att förutsägelsen för regressionsmodellen är adekvat och tillförlitlig i intervallet 1800 m ^ 2 till 4800 m ^ 2 men mycket otillräcklig utanför denna region. I den heteroscedastiska zonen är inte bara felet mycket stort, utan också uppgifterna verkar följa en annan trend än den som föreslås av den linjära regressionsmodellen..

Figur 3. Bostadspriser mot yta och prediktiv modell genom linjär regression, som visar homoscedasticitet och heteroscedasticitetszoner. (Egen utarbetande)

Spridningsdiagrammet för data är det enklaste och mest visuella testet av deras homoscedasticitet, men vid tillfällen där det inte är så uppenbart som i exemplet som visas i figur 3 är det nödvändigt att tillgripa diagram med hjälpvariabler..

Standardiserade variabler

För att separera områdena där homoscedasticitet uppfylls och där den inte är, introduceras de standardiserade variablerna ZRes och ZPred:

ZRes = Abs (y - Y) / σ

ZPred = Y / σ

Det bör noteras att dessa variabler beror på den tillämpade regressionsmodellen, eftersom Y är värdet på regressionsprognosen. Nedan är spridningsdiagrammet ZRes vs ZPred för samma exempel:

Figur 4. Det bör noteras att i homoscedasticitetszonen förblir ZRes enhetliga och små i prediktionsregionen (egen utarbetning).

I diagrammet i figur 4 med standardiserade variabler är området där restfelet är litet och enhetligt klart åtskilt från området där det inte är. I den första zonen uppfylls homoscedasticitet medan i det område där restfelet är mycket varierande och stort uppfylls heteroscedasticity..

Regressionsjustering tillämpas på samma datagrupp i figur 3, i detta fall är justeringen icke-linjär, eftersom den använda modellen innefattar en potentiell funktion. Resultatet visas i följande bild:

Figur 5. Nya zoner av homoscedasticitet och heteroscedasticitet i data passar in i en icke-linjär regressionsmodell. (Egen utarbetande).

I diagrammet i figur 5 bör homoscedastiska och heteroscedastiska zoner noteras tydligt. Det bör också noteras att dessa zoner utbyttes i förhållande till de som bildades i linjär passformmodell.

I diagrammet i figur 5 är det uppenbart att även om det finns en ganska hög bestämningskoefficient för passformen (93,5%) är modellen inte tillräcklig för hela intervallet för den förklarande variabeln, eftersom data för värden större än 2000 m ^ 2 nuvarande heteroscedasticitet.

Icke-grafiska tester av homoscedasticitet

En av de icke-grafiska tester som mest används för att verifiera om homoscedasticitet är uppfyllt eller inte är Breusch-Pagan test.

Inte alla detaljer i detta test kommer att ges i den här artikeln, men dess grundläggande egenskaper och stegen i samma beskrivs i stora drag:

  1. Regressionsmodellen tillämpas på n-data och deras varians beräknas med avseende på det värde som uppskattas av modellen σ ^ 2 = ∑j (yj - Y) ^ 2 / n.
  2. En ny variabel definieras ε = ((yj - Y) ^ 2) / (σ ^ 2)
  3. Samma regressionsmodell tillämpas på den nya variabeln och dess nya regressionsparametrar beräknas.
  4. Det kritiska värdet Chi kvadrat (χ ^ 2) bestäms, detta är hälften av summan av kvadraterna nya rester i variabeln ε.
  5. Fördelningstabellen Chi-kvadrat används med tanke på signifikansnivån (vanligtvis 5%) och antalet frihetsgrader (antal regressionsvariabler minus enheten) på tabellens x-axel för att erhålla värdet på kortet.
  6. Det kritiska värdet som erhållits i steg 3 jämförs med det värde som finns i tabellen (χ ^ 2).
  7. Om det kritiska värdet ligger under tabellens värde har vi nollhypotesen: det finns homoscedasticitet
  8. Om det kritiska värdet ligger över tabellens värde har vi den alternativa hypotesen: det finns ingen homoscedasticitet.

De flesta av de statistiska mjukvarupaket som: SPSS, MiniTab, R, Python Pandas, SAS, StatGraphic och flera andra innehåller homoscedasticitetstest av Breusch-Pagan. Ett annat test för att verifiera enhetlighet i varians Levene-test.

Referenser

  1. Box, Hunter & Hunter. (1988) Statistik för forskare. Omvända redaktörer.
  2. Johnston, J (1989). Econometrics Methods, Vicens -Vives-redaktörer.
  3. Murillo och González (2000). Handbok för ekonometri. Las Palmas universitet på Gran Canaria. Återställd från: ulpgc.es.
  4. Wikipedia. Homoscedasticitet. Återställd från: es.wikipedia.com
  5. Wikipedia. Homoscedasticitet. Återställd från: en.wikipedia.com

Ingen har kommenterat den här artikeln än.