Otázka:
Jaký je rozdíl mezi N a N-1 při výpočtu rozptylu populace?
ilhan
2011-11-03 20:02:53 UTC
view on stackexchange narkive permalink

Při výpočtu rozptylu populace jsem nezjistil, proč existují N a N-1 . Když používáme N a když používáme N-1 ?

enter image description here
Klikněte zde pro větší verzi

Říká, že když je populace velmi velká, není rozdíl mezi N a N- 1, ale neříká, proč je na začátku N-1.

Upravit: Nezaměňujte to s n a n-1 které se používají při odhadování.

Edit2: Nemluvím o odhadu populace.

Odpověď najdete zde: http://stats.stackexchange.com/questions/16008/what-does-un objektness-mean/16009#16009. V zásadě byste měli použít N-1, když * odhadnete * rozptyl, a N, když to * vypočítáte * přesně.
@ocram,, pokud vím, když odhadujeme rozptyl, použijeme buď n nebo n-1.
Pokud chcete, aby byl váš odhad nestranný, měli byste použít n-1. Všimněte si, že když je n velké, není to záležitost.
Žádná z níže uvedených odpovědí není napsána z hlediska odvození konečné populace. Slovo * konečný * je zde naprosto zásadní; o tom je Kishova kniha (a ten, kdo říkal „Kniha se mýlí“, prostě neví dost o konečných průzkumech populace a vzorcích). Kvocient $ N-1 $ místo $ N $ jen dělá výpočty hezčími a odstraňuje potřebu tahat kolem faktorů jako $ 1-1 / N $. Úplná odpověď na tuto otázku by musela zavést inferenci vzorkování, kde jsou ukázkové ukazatele náhodné a hodnoty pozorovaných charakteristik $ y $ jsou OPRAVENÉ. Nenáhodný. Z kamene.
Při hraní s oktávou nebo matlabem byste mohli mít z této otázky lepší pocit ... Příklad: x = rand (10,1); var1 = součet ((x - průměr (x)). ^ 2) / (délka (x)); var2 = součet ((x - průměr (x)). ^ 2) / (délka (x) -1); ověříte významný rozdíl mezi `var1` a` var2`, protože velikost vašeho vzorku je velmi malá. Opakujte to s ohledem na větší velikost populace. x = rand (1e6,1); var1 = součet ((x - průměr (x)). ^ 2) / (délka (x)); var2 = součet ((x - průměr (x)). ^ 2) / (délka (x) -1); ověříte, že `var1` $ \ přibližně $` var2`
To ve skutečnosti nepřidává k dalším odpovědím. To, že různí dělitelé dávají různé odpovědi, nebo dokonce, že se rozdíl zmenšuje s N, není sporné. Otázkou je, kdy a proč použít kterýkoli dělitel.
Podívejte se na toto video, přesně odpovídá na vaši otázku. https://www.youtube.com/watch?v=xslIhnquFoE
@SahilChaudhary, vaše video hovoří o na n-1.Můj dotaz nemá nic společného s n a n-1.Moje otázka se týká N a N-1.Vidíte, že n a N jsou různé, že?Komentoval jsem své pátrání!
Můžete nám říct, která kniha je to?@StasK
Kniha je „Survey Sampling“ od „Leslie Kish“ od „John Willey & Sons“ https://archive.org/details/in.ernet.dli.2015.214343
Rád bych ostatním čtenářům zmínil, že toto číslo se nazývá „Basselova korekce“.Můžete si to prohlédnout na Wikipedii https://en.wikipedia.org/wiki/Bessel%27s_correction#Proof_of_correctness_%E2%80%93_Alternate_1
Pět odpovědi:
whuber
2011-11-03 23:10:31 UTC
view on stackexchange narkive permalink

$ N $ je velikost populace a $ n $ je velikost vzorku. Otázka se ptá, proč je populační rozptyl střední kvadratickou odchylkou od průměru, spíše než $ (N-1) / N = 1- (1 / N) $ krát. Proč tedy zůstat u toho? Proč nevynásobit střední kvadratickou odchylku například $ 1-2 / N $, nebo $ 1-17 / N $, nebo $ \ exp (-1 / N) $?

Ve skutečnosti je dobrá důvod ne. Kterákoli z těchto čísel, kterou jsem právě zmínil, by v pohodě posloužila jako způsob kvantifikace „typického rozšíření“ v populaci. Bez předchozí znalosti velikosti populace by však bylo nemožné použít náhodný vzorek k nalezení nezaujatého odhadce takového čísla. Víme, že ukázkový rozptyl, který vynásobí střední kvadratickou odchylku od střední hodnoty vzorku o $ (n-1) / n $, je nestranný odhad obvyklé populační odchylky při vzorkování s náhradou. (S provedením této opravy není problém, protože víme $ n $!) Varianta vzorku by proto byla zkreslený odhad jakéhokoli násobku varianty populace, kde tento násobek, například $ 1-1 / N $, není předem přesně znám.

Tento problém s neznámým množstvím zkreslení by se rozšířil na všechny statistické testy, které používají rozptyl vzorku, včetně t-testů a F-testů. Ve skutečnosti by dělení na cokoli jiného než $ N $ ve vzorci rozptylu populace vyžadovalo, abychom změnili všechny statistické tabulky t-statistik a F-statistik (a také mnoho dalších tabulek), ale úprava by závisela na velikost populace. Nikdo nechce, aby musel vytvářet tabulky za každých možných $ N $! Zvláště když to není nutné.

Je praktické, když je $ N $ dostatečně malé, že použití $ N-1 $ místo $ N $ ve vzorcích má rozdíl, obvykle znáte velikost populace (nebo můžete uhodněte to přesně) a při práci s náhodnými vzorky (bez náhrady) z populace byste se pravděpodobně uchýlili k mnohem podstatnějším opravám malé populace. Ve všech ostatních případech, koho to zajímá? Na rozdílu nezáleží. Z těchto důvodů, vedených pedagogickými úvahami (jmenovitě zaměřením na detaily, na kterých záleží, a přehlížením detailů, které ne), se některé vynikající úvodní statistické texty ani neobtěžují učit rozdíl: jednoduše zadejte jeden varianční vzorec (vydělte případně $ N $ nebo $ n $).

ttnphns
2011-11-03 21:08:29 UTC
view on stackexchange narkive permalink

Místo matematiky to zkusím vyjádřit prostými slovy. Pokud máte k dispozici celou populaci, vypočítá se její odchylka ( varianta populace ) s jmenovatelem N . Podobně, pokud máte pouze vzorek a chcete vypočítat tuto rozptyl vzorku , použijte jmenovatel N (v tomto případě n vzorku) . V obou případech nic neodhadnete : průměr, který jste změřili, je skutečný průměr a rozptyl, který jste z tohoto průměru vypočítali, je skutečný rozptyl.

Nyní , máte pouze vzorek a chcete odvodit neznámý průměr a rozptyl v populaci. Jinými slovy, chcete odhady . Vezmete si svůj průměr vzorku pro odhad střední hodnoty populace (protože váš vzorek je reprezentativní), OK. Chcete-li získat odhad rozptylu populace, musíte předstírat, že tento průměr je ve skutečnosti průměrem populace, a proto již nezávisí na vašem vzorku od doby, kdy jste jej vypočítali. Chcete-li „ukázat“, že to nyní berete jako opravené, rezervujete si jedno (jakékoli) pozorování ze svého vzorku, abyste „podpořili“ hodnotu průměru: ať už se váš vzorek mohl stát jakýkoli, jedno vyhrazené pozorování může vždy přinést průměr hodnotě, kterou jste Dostali jsme a kteří věří, že jsou necitlivé na vzorkování nepředvídaných událostí. Jedno vyhrazené pozorování je „-1“, takže při výpočtu odhadu odchylky máte N-1 . Nestranný odhad se nazývá rozptyl vzorku (nezaměňovat s rozptylem vzorku), což je argot; je lepší nazvat tím, čím je: vzorek nezaujatý odhad rozptylu populace odhadovaný se střední hodnotou vzorku.

[Vkládám sem z mých níže uvedených komentářů: Představte si, že opakovaně odebíráte vzorky o velikosti N = 3 . Ze 3 hodnot ve vzorku pouze 2 hodnoty vyjadřují náhodnou odchylku pozorování od populace střední hodnoty, levá však vyjadřuje (bere na sebe) posun střední hodnoty z průměrné populace. „Stupeň volné“ pozorovací variability je tedy 2 ze 3 v každém samostatném vzorku. Když odhadujeme variabilitu na vzorku, ale chceme, aby to byl nezaujatý (nezměněný) odhad populační variability, „věříme“ pouze těm 2 volným pozorováním. „Platíme“ za rozhodnutí měřit variabilitu z výběrového průměru jako to byl průměr populace, protože musíme odvodit populační variabilitu. Tento „poplatek“ ( N-1 jmenovatel, korekce Bessel) rozšiřuje variabilitu a zahrnuje do ní rozptyl oscilačních vzorových prostředků, ale činí takovou odchylku nestrannou odhadce.]

Představte si však, že nyní nějak víte, že skutečná střední hodnota populace znamená, ale chcete odhadnout odchylku od vzorku. Potom tento skutečný průměr dosadíte do vzorce pro rozptyl a použijete jmenovatel N : není zde potřeba „-1“, protože znáte skutečný průměr, ne odhadněte to ze stejného vzorku.

Ale moje otázka nemá nic společného s odhadem. Jde o výpočet rozptylu populace; s N a N-1. Nemluvím o n a n-1.
@ilhan, ve své odpovědi jsem použil `N` pro N i n. `N` je velikost součtu po ruce, buď populace, nebo vzorek. Chcete-li vypočítat _populační_odchylku, _ musíte mít k dispozici populaci. Pokud máte pouze vzorek, můžete buď vypočítat rozptyl tohoto vzorku, nebo vypočítat rozptyl _estimate_ variance. Žádný jiný způsob.
Mám úplné informace o své populaci; všechny hodnoty jsou známy. Nezajímá mě odhad.
Pokud máte svoji populaci, pak použijte N. N-1 by bylo nelogické používat.
Kish to neříká http://i.imgur.com/OpAVd.jpg
To není vůbec přesvědčivé. Populace je populace, vzorek je vzorek, vše řečeno. Nemůžete jeden nahradit druhým, dokonce ani pro jednoduchost.
@ilhan - Nemohl jsem přímo komentovat váš komentář k příspěvku ttnphns, ale zde je vysvětlení toho, co vidíte v knize a jak byste to měli odvodit. Symbol „S“, pokud se používá k označení rozptylu, vždy odkazuje na rozptyl vzorku. Řecké písmeno sigma se používá k označení populační odchylky. To je důvod, proč v knize vidíte zmínku S = N * sigma / (N - 1)
Nerozumím konceptu „vyhrazení“ 1 pozorování.Proč si nevyhradit 2 pozorování, 3, 4 atd ...?Pokud si rezervujete, řekněme, 2 pozorování, můžete udělat stejný argument, že 2 pozorování jsou to, co potřebujete, abyste získali zpět průměr?
Průměr populace @user5965026, je _one_ parametr, který je nezávislý na vzorku.Pro zajištění jeho nezávislosti si ve vzorku rezervujete _jednu_hodnotu (pozorování).
@ttnphns Hmm, mám potíže pochopit, co to znamená.Chápu, že populační prostředky jsou nezávislé na vzorku.Myslím, že nechápu, proč rezervování jednoho pozorování ze vzorku činí populaci nezávislou.Páni, prosím, rozšiřuj?
@user5965026, Představte si, že berete opakovaně vzorky o velikosti n = 3.Ze 3 hodnot ve vzorku pouze 2 hodnoty vyjadřují náhodnou odchylku pozorování od _populace_ střední hodnoty, levá však vyjadřuje (bere na sebe) posun _mean_ vzorku ze střední hodnoty populace.„Stupeň volné“ pozorovací variability je tedy 2 ze 3, v každém samostatném vzorku.Když odhadujeme variabilitu na vzorku, ale chceme, aby to byl nezaujatý (nezměněný) odhad populační variability, „věříme“ pouze těm 2 volným pozorováním.
Myslím, že to dává smysl.Zdá se, že se předpokládá, že průměr vzorku ze vzorku n = 3 se rovná průměru populace?
Ne předpokládat, ale předstírat.„Platíme“ za rozhodnutí změřit variabilitu ze střední hodnoty vzorku - jako kdyby to byl průměr populace, protože musíme odvodit populační variabilitu.
(pokr.) Tento „poplatek“ (jmenovatel n-1) rozšiřuje variabilitu a do rozptylu zahrnuje oscilaci vzorových prostředků, ale činí takovou odchylku nestranným odhadcem.
Frank Kelly
2016-09-01 11:27:31 UTC
view on stackexchange narkive permalink

Obecně platí, že pokud má člověk pouze zlomek populace, tj. vzorek, měli byste jej vydělit n-1. Existuje k tomu dobrý důvod, víme, že rozptyl vzorku, který vynásobí střední kvadratickou odchylku od průměru vzorku o (n − 1) / n, je nestranný odhad rozptylu populace.

Důkaz, že odhad variance vzorku je nestranný, najdete zde: https://economictheoryblog.com/2012/06/28/latexlatexs2/

Dále, pokud jedním z nich bylo použití odhadu rozptylu populace, tj. verze odhadu rozptylu, která vydělí n, na vzorku namísto populace by byl získaný odhad zkreslený.

Zdá se, že to odpovídá na jinou otázku týkající se odhadu populační odchylky.Vypadá to kruhovitě: není tato odpověď založena na předpokladu konkrétní konvence pro definování rozptylu populace?
John
2011-11-03 21:54:19 UTC
view on stackexchange narkive permalink

V minulosti existoval argument, že byste měli použít N pro neinferenční odchylku, ale to bych už nedoporučoval. Vždy byste měli používat N-1. Jak se zmenšuje velikost vzorku, N-1 je docela dobrá korekce na to, že se rozptyl vzorku sníží (je větší pravděpodobnost, že budete vzorkovat blízko vrcholu distribuce - viz obrázek). Pokud je velikost vzorku opravdu velká, nezáleží na žádném smysluplném množství.

Alternativním vysvětlením je, že populace je teoretický konstrukt, kterého nelze dosáhnout. Proto vždy používejte N-1, protože ať děláte cokoli, v nejlepším případě odhadujte rozptyl populace.

Rovněž uvidíte N-1 pro odhady rozptylu odtud dále s. Pravděpodobně se s tímto problémem nikdy nestretnete ... kromě testu, kdy vás váš učitel může požádat, abyste rozlišovali mezi inferenční a neinferenční mírou odchylky. V takovém případě nepoužívejte odpověď Whubera ani moji, podívejte se na odpověď ttnphns.

Figure 1

Poznámka, na tomto obrázku by měla být odchylka blízká 1. Podívejte se, kolik liší se podle velikosti vzorku, když používáte N k odhadu rozptylu. (toto je „zkreslení“ zmiňované všude)

Prosím, řekněte mi, proč N "již není doporučeno" se skutečnou populací po ruce? Populace není vždy teoretickým konstruktem. Někdy je váš vzorek pro vás bona fide populací.
@John, můžete prosím odstranit vše, co souvisí s „odhadem“, „odhadem“ a „vzorkem“? Otázka se týká samotné populace. Žádný odhad, žádné vzorkování, žádné vzorky. A pokud jde o velikost vzorku, použijte „n“. „N“ se používá pro velikost populace. Oprav mě pokud nemám pravdu.
ilhan, N lze použít pro váš vzorek, nebo jej lze použít pro velikost populace, pokud existuje. Ve většině případů je rozdíl mezi velkým N a malým n závislý na tématu. Například n může být počet případů v každé podmínce v experimentu, zatímco N může být počet experimentů. Oba jsou vzorky. Neexistuje žádné globální pravidlo.
ttnphns, záleží na tom, co myslíte populací. Tvrdil bych, že pokud je celá vaše populace tak malá, že na N-1 záleží, pak je sporné, zda je výpočet střední kvadratické odchylky vůbec vzdáleně užitečný. Zobrazit všechny hodnoty, jejich tvar a rozsah. Kromě toho je sporný celý starý argument, že ve skutečnosti máte N stupňů volnosti, pokud neděláte závěr. Jeden jste ztratili, když jste vypočítali průměr, který jste potřebovali k výpočtu rozptylu.
@John,, pokud vypočítáte průměr v rámci populace, stačí _state_ skutečnost o parametru, takže nebudete utrácet žádné stupně volnosti. Pokud to spočítáte ve vzorku a chcete _inferovat o populaci, pak jeden utratíte. Také mohu mít populaci s N = 1. U jmenovatele N-1 se zdá, že takový parametr jako rozptyl pro něj _exist_ neexistuje. Je to nesmysl.
Neříkám, že neexistuje argument. Jen říkám, že je to pochybné. Dokonce i studentova učebnice v podstatě říká, zapomeňte na to, že jsem řekl něco o používání N. V tomto bodě je to pravděpodobně nejlepší rada. A máte pravdu, pokud populace N = 1 neexistuje pro ni ŽÁDNÝ parametr odchylky, protože nemá žádnou variabilitu. Váš příklad dokazuje váš názor, ne pro to.
_Nula_ variabilita a _ nepoužitelnost_ konceptu variability jsou různé věci, Johne. Ve skutečnosti, s N = 1 populace má variabilitu, je nulová.
@ilhan Zvažte prosím aktualizaci své otázky (jako jste to udělali) a místo ponechání takových nekonstruktivních komentářů přejděte na aktualizovanou verzi. Všechno je diskutabilní, zvláště když samotné otázce chybí nějaký kontext. Zde se zdá, že problém spočívá v definování toho, co ve skutečnosti populace je.
Michael Lew
2011-11-04 14:13:36 UTC
view on stackexchange narkive permalink

Rozptyl populace je součet čtverců odchylek všech hodnot v populaci děleno počtem hodnot v populaci. Když odhadujeme rozptyl populace ze vzorku, setkáme se s problémem, že odchylky hodnot vzorku od průměru vzorku jsou v průměru o něco menší než odchylky těchto hodnot vzorku od ( skutečný průměr populace. To má za následek, že rozptyl vypočítaný ze vzorku je o něco menší než skutečný rozptyl populace. Použitím dělitele n-1 namísto n se toto podhodnocení opraví.

@ Bunnenburg, Pokud jste dostali odpověď na svou otázku.Prosím, teď mi vyjasněte, co máte?Je to pro mě také velký zmatek.
abychom kompenzovali tu _ malou odchylku, kterou dostaneme, proč nemůžeme použít n-2, n-3 atd.?proč zejména n-1?proč ne konstanta ... ???
@SaravanabalagiRamachandran Nesrovnalosti se liší podle velikosti vzorku, takže konstanta nebude sloužit.Korekce pomocí n-1 je blíže a funguje lépe než ostatní, které zmiňujete.


Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...