De F-distribution o Fisher-Snedecor-distribution är den som används för att jämföra avvikelserna mellan två olika eller oberoende populationer, som var och en följer en normalfördelning.
Fördelningen som följer variansen för en uppsättning prover från en enda normalpopulation är chi-kvadratfördelningen (Χtvå) av grad n-1, om vart och ett av proverna i uppsättningen har n element.
För att jämföra skillnaderna mellan två olika populationer är det nödvändigt att definiera a statistisk, det vill säga en extra slumpmässig variabel som gör att vi kan urskilja om båda populationerna har samma varians eller inte.
Nämnda hjälpvariabel kan vara direkt kvoten av provvariationerna för varje population, i vilket fall, om nämnda kvotient är nära enhet, finns det bevis för att båda populationerna har liknande varianter.
Artikelindex
Den slumpmässiga variabeln F eller F-statistik som föreslagits av Ronald Fisher (1890 - 1962) är den som oftast används för att jämföra avvikelserna från två populationer och definieras enligt följande:
Att vara stvå provvariansen och σtvå befolkningsvariansen. För att särskilja var och en av de två befolkningsgrupperna används prenumerationerna 1 respektive 2..
Det är känt att chi-kvadratfördelningen med (n-1) frihetsgrader är den som följer den hjälp (eller statistiska) variabeln som definieras nedan:
Xtvå = (n-1) stvå / σtvå.
Därför följer F-statistiken en teoretisk fördelning med följande formel:
Varelse ELLER chi-kvadratfördelningen med d1 = n1 - 1 frihetsgrader för befolkning 1 och V chi-kvadratfördelningen med d2 = n2 - 1 frihetsgrader för befolkningen 2.
Kvoten definierad på detta sätt är en ny sannolikhetsfördelning, känd som F-distribution med d1 frihetsgrader i täljaren och d2 frihetsgrader i nämnaren.
Medelvärdet för F-fördelningen beräknas enligt följande:
Där f (x) är sannolikhetstätheten för F-fördelningen, vilket visas i figur 1 för olika kombinationer av parametrar eller frihetsgrader.
Vi kan skriva sannolikhetstätheten f (x) som en funktion av funktionen Γ (gammafunktion):
När integralen som anges ovan har genomförts dras slutsatsen att medelvärdet för F-fördelningen med frihetsgrader (d1, d2) är:
μ = d2 / (d2 - 2) med d2> 2
Där det noteras att medelvärt inte beror på täljarens frihetsgrader d1.
Å andra sidan beror läget på d1 och d2 och ges av:
För d1> 2.
Variansen σtvå av F-fördelningen beräknas från integralen:
Erhållande:
Liksom andra kontinuerliga sannolikhetsfördelningar som involverar komplicerade funktioner sker hanteringen av F-distributionen med hjälp av tabeller eller programvara..
Tabellerna involverar de två parametrarna eller frihetsgraderna för F-fördelningen, kolumnen anger frihetsgraden för täljaren och raden frihetsgraden för nämnaren.
Figur 2 visar ett avsnitt av tabellen över F-fördelningen för fallet med a signifikansnivå av 10%, det vill säga a = 0,1. Värdet på F är markerat när d1 = 3 och d2 = 6 med självförtroendenivå 1- α = 0,9 det vill säga 90%.
När det gäller programvaran som hanterar F-distributionen finns det ett stort utbud, från kalkylblad som sådana Excel till specialiserade paket som minitab, SPSS Y R för att nämna några av de mest kända.
Det är anmärkningsvärt att mjukvaran för geometri och matematik geogebra har ett statistiskt verktyg som inkluderar huvudfördelningarna, inklusive F-fördelningen. Figur 3 visar F-fördelningen för fallet d1 = 3 och d2 = 6 med självförtroendenivå av 90%.
Tänk på två prover av populationer som har samma populationsvarians. Om prov 1 har storlek n1 = 5 och prov 2 har storlek n2 = 10, bestäm den teoretiska sannolikheten att kvoten för deras respektive varians är mindre än eller lika med 2.
Man bör komma ihåg att F-statistiken definieras som:
Men vi får höra att befolkningsvariationerna är lika, så för denna övning gäller följande:
Eftersom vi vill veta den teoretiska sannolikheten att denna kvot av provvariationer är mindre än eller lika med 2, måste vi känna till området under F-fördelningen mellan 0 och 2, vilket kan erhållas med tabeller eller programvara. För detta måste man ta hänsyn till att den erforderliga F-fördelningen har d1 = n1 - 1 = 5 - 1 = 4 och d2 = n2 - 1 = 10 - 1 = 9, det vill säga F-fördelningen med frihetsgrader ( 4, 9).
Genom att använda det statistiska verktyget för geogebra Det bestämdes att detta område är 0,82, så det dras slutsatsen att sannolikheten att kvoten för provvariationer är mindre än eller lika med 2 är 82%.
Det finns två tillverkningsprocesser för tunna ark. Tjocklekens variation bör vara så låg som möjligt. 21 prover tas från varje process. Provet från process A har en standardavvikelse på 1,96 mikron, medan provet från process B har en standardavvikelse på 2,13 mikron. Vilka av processerna har minst variation? Använd en avvisningsnivå på 5%.
Uppgifterna är som följer: Sb = 2,13 med nb = 21; Sa = 1,96 med na = 21. Detta betyder att vi måste arbeta med en F-fördelning på (20, 20) frihetsgrader.
Nollhypotesen innebär att populationsvariansen för båda processerna är identisk, det vill säga σa ^ 2 / σb ^ 2 = 1. Den alternativa hypotesen skulle innebära olika populationsvariationer.
Under antagandet av identiska populationsvariationer definieras den beräknade F-statistiken som: Fc = (Sb / Sa) ^ 2.
Eftersom avstötningsnivån har tagits som α = 0,05, då α / 2 = 0,025
Fördelningen F (0,025, 20,20) = 0,406, medan F (0,975, 20,20) = 2,46.
Därför kommer nollhypotesen att vara sant om den beräknade F uppfyller: 0,406≤Fc≤2,46. Annars avvisas nollhypotesen.
Eftersom Fc = (2.13 / 1.96) ^ 2 = 1.18 dras slutsatsen att Fc-statistiken ligger inom acceptansområdet för nollhypotesen med en säkerhet på 95%. Med andra ord, med 95% säkerhet har båda tillverkningsprocesserna samma populationsvarians..
Ingen har kommenterat den här artikeln än.