De Mann-Whitney U-test Den används för jämförelse av två oberoende prover när de har få data eller inte följer en normalfördelning. På detta sätt anses det vara ett test icke-parametrisk, Till skillnad från dess motsvarighet Studentens test, som används när provet är tillräckligt stort och följer normalfördelningen.
Frank Wilcoxon föreslog det för första gången 1945, för prover av identiska storlekar, men två år senare utvidgades det till fallet med prover av olika storlek av Henry Mann och D. R. Whitney.
Testet används ofta för att kontrollera om det finns ett samband mellan en kvalitativ och en kvantitativ variabel.
Ett illustrativt exempel är att ta en uppsättning hypertoniska personer och extrahera två grupper, från vilka dagliga blodtrycksdata registreras i en månad.
Behandling A appliceras på en grupp och behandling B på en annan, här är blodtrycket den kvantitativa variabeln och typen av behandling är den kvalitativa..
Vi vill veta om median, och inte medelvärdet, av de uppmätta värdena är statistiskt samma eller olika, för att fastställa om det finns en skillnad mellan de två behandlingarna. För att få svaret används Wilcoxon-statistiken eller Mann-Whitney U-testet..
Artikelindex
Ett annat exempel där testet kan tillämpas är följande:
Antag att du vill veta om konsumtionen av läskedrycker skiljer sig avsevärt i två regioner i landet.
En av dem kallas region A och den andra regionen B. Ett register registreras över de liter som konsumeras varje vecka i två prover: en av 10 personer för region A och en annan av 5 personer för region B.
Uppgifterna är som följer:
-Region A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
-Region B: 12,14, 11, 30, 10
Följande fråga uppstår:
Beror konsumtionen av läsk (Y) på regionen (X)?
-Kvalitativ variabel X: Region
-Kvantitativ variabel Y: Soda konsumtion
Om mängden förbrukad liter är densamma i båda regionerna kommer slutsatsen att det inte finns något beroende mellan de två variablerna. Sättet att ta reda på är att jämföra medel- eller mediantrenden för de två regionerna.
Om data följer en normalfördelning lyfts två hypoteser: noll H0 och alternativ H1 genom jämförelse mellan medel:
-H0: det finns ingen skillnad mellan medelvärdet för de två regionerna.
-H1: medel för båda regionerna är olika.
Tvärtom, om uppgifterna inte följer en normalfördelning eller om provet helt enkelt är för litet för att veta det, skulle det jämföras i stället för att jämföra medelvärdet medianen av de två regionerna.
-H0: det finns ingen skillnad mellan medianen för de två regionerna.
-H1: medianerna i båda regionerna är olika.
Om medianerna sammanfaller uppfylls nollhypotesen: det finns inget samband mellan konsumtion av läskedrycker och regionen.
Och om det motsatta händer är den alternativa hypotesen sant: det finns ett samband mellan konsumtion och region.
Det är i dessa fall där Mann-Whitney U-testet anges..
Nästa viktiga fråga för att avgöra om man ska använda Mann Whitney U-testet är om antalet data i båda proverna är identiska, det vill säga att de är i nivå..
Om de två proverna är ihopkopplade skulle den ursprungliga Wilcoxon-versionen gälla. Men om inte, som är fallet i exemplet, tillämpas det modifierade Wilcoxon-testet, vilket är just Mann Whitney U-testet..
Mann-Whitney U-testet är ett icke-parametriskt test som kan tillämpas på prover som inte följer normalfördelningen eller med få data. Den har följande egenskaper:
1.- Jämför medianerna
2.- Det fungerar på beställda intervall
3.- Det är mindre kraftfullt, förstås av makten sannolikheten att avvisa nollhypotesen när den faktiskt är falsk.
Med hänsyn till dessa egenskaper tillämpas Mann-Whitney U-testet när:
-Uppgifterna är oberoende
-De följer inte normalfördelningen
-Nollhypotesen H0 accepteras om medianerna för de två proverna sammanfaller: Ma = Mb
-Den alternativa hypotesen H1 accepteras om medianerna för de två proverna skiljer sig åt: Ma ≠ Mb
Variabeln U är den kontraststatistik som används i Mann-Whitney-testet och definieras enligt följande:
U = min (Ua, Ub)
Detta betyder att U är det minsta av värdena mellan Ua och Ub, som tillämpas på varje grupp. I vårt exempel skulle det vara för varje region: A eller B..
Variablerna Ua och Ub definieras och beräknas enligt följande formel:
Ua = Na Nb + Na (Na + 1) / 2 - Ra
Ub = Na Nb + Nb (Nb +1) / 2 - Rb
Här är Na- och Nb-värdena storleken på proverna som motsvarar regionerna A respektive B och för deras del är Ra och Rb rangsummor som vi kommer att definiera nedan.
1.- Beställ värdena för de två proverna.
2. - Tilldela en orderrankning till varje värde.
3.- Korrigera befintliga ligaturer i data (upprepade värden).
4.- Beräkna Ra = summan av intervallen för prov A.
5.- Hitta Rb = Summan av raderna för prov B.
6. - Bestäm värdet Ua och Ub, enligt formlerna i föregående avsnitt.
7.- Jämför Ua och Ub, och den mindre av de två tilldelas den experimentella U-statistiken (det vill säga av data) som jämförs med den teoretiska eller normala U-statistiken.
Nu tillämpar vi det ovan nämnda på problemet med läskedrycker som tagits upp tidigare:
Region A: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Region B: 12,14, 11, 30, 10
Beroende på om medelvärdet för båda proverna är statistiskt samma eller olika accepteras eller avvisas nollhypotesen: det finns inget samband mellan variablerna Y och X, det vill säga konsumtionen av läskedrycker beror inte på regionen:
H0: Ma = Mb
H1: Ma ≠ Mb
Vi fortsätter att beställa data gemensamt för de två proverna och beställa värdena från lägsta till högsta:
Observera att värdet 11 visas två gånger (en gång i varje prov). Ursprungligen har den positioner eller intervall 3 och 4, men för att inte överskatta eller underskatta det ena eller det andra väljs medelvärdet som intervallet, det vill säga 3,5.
På samma sätt fortsätter vi med värdet 12, vilket upprepas tre gånger med intervall 5, 6 och 7.
Tja, värdet 12 tilldelas det genomsnittliga intervallet 6 = (5 + 6 + 7) / 3. Och detsamma för värdet 14, som har ligatur (visas i båda proverna) i positionerna 8 och 9, tilldelas det genomsnittliga intervallet 8,5 = (8 + 9) / 2.
Därefter separeras data för Region A och B igen, men nu tilldelas deras motsvarande intervall dem i en annan rad:
Områdena Ra och Rb erhålls från summan av elementen i den andra raden för varje fall eller region.
De respektive Ua- och Ub-värdena beräknas:
Ua = 10 × 5 + 10 (10 + 1) / 2-86 = 19
Ub = 10 × 5 + 5 (5 + 1) / 2-34 = 31
Experimentellt värde U = min (19, 31) = 19
Det antas att den teoretiska U följer en normalfördelning N med parametrar som uteslutande ges av storleken på proverna:
N ((na⋅nb) / 2, √ [na nb (na + nb +1) / 12])
För att jämföra den experimentellt erhållna variabeln U med den teoretiska U är det nödvändigt att ändra variabeln. Vi passerar från den experimentella variabeln U till dess värde typifierad, som kommer att kallas Z, för att kunna göra jämförelsen med en standardiserad normalfördelning.
Ändringen av variabeln är som följer:
Z = (U - na.nb / 2) / √ [na. nb (na + nb + 1) / 12]
Det bör noteras att för ändringen av variabeln användes parametrarna för den teoretiska fördelningen för U. Då kontrasteras den nya variabeln Z, som är en hybrid mellan den teoretiska U och den experimentella U, med en standardiserad normalfördelning N (0 , 1).
Om Z ≤ Zα ⇒ nollhypotesen H0 accepteras
Om Z> Zα ⇒ nollhypotes H0 avvisas
De standardiserade Za-kritiska värdena beror på den önskade konfidensnivån, till exempel för en konfidensnivå α = 0,95 = 95%, vilket är det vanligaste, det kritiska värdet Za = 1,96.
För de uppgifter som visas här:
Z = (U - na nb / 2) / √ [na nb (na + nb + 1) / 12] = -0,73
Vilket är under det kritiska värdet 1,96.
Så den slutliga slutsatsen är att nollhypotesen H0 accepteras:
Det finns ingen skillnad i konsumtionen av läskedrycker mellan region A och B.
Det finns specifika program för statistiska beräkningar, inklusive SPSS och MINITAB, men dessa program betalas och deras användning är inte alltid lätt. Detta beror på att de erbjuder så många alternativ, att praktiskt taget deras användning är reserverad för experter inom statistik..
Lyckligtvis finns det flera mycket exakta, gratis och lättanvända online-program som låter dig köra bland annat Mann-Whitney U-testet..
Dessa program är:
-Socialvetenskaplig statistik (socscistatistics.com), som har både Mann-Whitney U-test och Wilcoxon-test för fall av balanserade eller parade prover.
-AI Therapy Statistics (ai-therapy.com), som har flera vanliga tester av beskrivande statistik.
-Statistik att använda (physics.csbsju.edu/stats), en av de äldsta, så gränssnittet kan se daterat ut, även om det ändå är ett mycket effektivt gratisprogram.
Ingen har kommenterat den här artikeln än.