Místo matematiky to zkusím vyjádřit prostými slovy. Pokud máte k dispozici celou populaci, vypočítá se její odchylka ( varianta populace ) s jmenovatelem N
. Podobně, pokud máte pouze vzorek a chcete vypočítat tuto rozptyl vzorku , použijte jmenovatel N
(v tomto případě n vzorku) . V obou případech nic neodhadnete : průměr, který jste změřili, je skutečný průměr a rozptyl, který jste z tohoto průměru vypočítali, je skutečný rozptyl.
Nyní , máte pouze vzorek a chcete odvodit neznámý průměr a rozptyl v populaci. Jinými slovy, chcete odhady . Vezmete si svůj průměr vzorku pro odhad střední hodnoty populace (protože váš vzorek je reprezentativní), OK. Chcete-li získat odhad rozptylu populace, musíte předstírat, že tento průměr je ve skutečnosti průměrem populace, a proto již nezávisí na vašem vzorku od doby, kdy jste jej vypočítali. Chcete-li „ukázat“, že to nyní berete jako opravené, rezervujete si jedno (jakékoli) pozorování ze svého vzorku, abyste „podpořili“ hodnotu průměru: ať už se váš vzorek mohl stát jakýkoli, jedno vyhrazené pozorování může vždy přinést průměr hodnotě, kterou jste Dostali jsme a kteří věří, že jsou necitlivé na vzorkování nepředvídaných událostí. Jedno vyhrazené pozorování je „-1“, takže při výpočtu odhadu odchylky máte N-1
. Nestranný odhad se nazývá rozptyl vzorku (nezaměňovat s rozptylem vzorku), což je argot; je lepší nazvat tím, čím je: vzorek nezaujatý odhad rozptylu populace odhadovaný se střední hodnotou vzorku.
[Vkládám sem z mých níže uvedených komentářů: Představte si, že opakovaně odebíráte vzorky o velikosti N = 3
. Ze 3 hodnot ve vzorku pouze 2 hodnoty vyjadřují náhodnou odchylku pozorování od populace střední hodnoty, levá však vyjadřuje (bere na sebe) posun střední hodnoty z průměrné populace. „Stupeň volné“ pozorovací variability je tedy 2 ze 3 v každém samostatném vzorku. Když odhadujeme variabilitu na vzorku, ale chceme, aby to byl nezaujatý (nezměněný) odhad populační variability, „věříme“ pouze těm 2 volným pozorováním. „Platíme“ za rozhodnutí měřit variabilitu z výběrového průměru jako to byl průměr populace, protože musíme odvodit populační variabilitu. Tento „poplatek“ ( N-1
jmenovatel, korekce Bessel) rozšiřuje variabilitu a zahrnuje do ní rozptyl oscilačních vzorových prostředků, ale činí takovou odchylku nestrannou odhadce.]
Představte si však, že nyní nějak víte, že skutečná střední hodnota populace znamená, ale chcete odhadnout odchylku od vzorku. Potom tento skutečný průměr dosadíte do vzorce pro rozptyl a použijete jmenovatel N
: není zde potřeba „-1“, protože znáte skutečný průměr, ne odhadněte to ze stejného vzorku.