Otázka:
ANOVA předpoklad normality / normální rozdělení reziduí
Roman Luštrik
2011-01-19 01:07:59 UTC
view on stackexchange narkive permalink

Stránka Wikipedia na ANOVA uvádí tři předpoklady, jmenovitě:

  • Nezávislost případů - jedná se o předpoklad modelu, který zjednodušuje statistickou analýzu.
  • Normálnost - rozdělení zbytků je normální.
  • Rovnost (neboli „homogenita“) variací, která se nazývá homoscedasticita ...

Bod úrok je zde druhý předpoklad. Několik zdrojů uvádí předpoklad odlišně. Někteří říkají normálnost nezpracovaných dat, jiní nárok na rezidua.

Vyvstává několik otázek:

  • jsou normalita a normální distribuce reziduí stejné osoby (na základě vstupu na Wikipedii) , Prohlásil bych, že normalita je vlastnost a netýká se zbytků přímo (ale může to být vlastnost zbytků (hluboce vnořený text v závorkách, šílený)))?
  • pokud ne, jaký předpoklad by měl platit? Jeden? Oba?
  • Pokud je předpoklad normálně distribuovaných reziduí správný, děláme vážnou chybu kontrolou normality pouze histogramu nezpracovaných hodnot?
Můžete ignorovat cokoli jiného, ​​ty zdroje, které říkají, že pokud tvrdí, že surová data musí být normálně distribuována. A kdo řekl, že „my“, kontrolujeme pouze surové hodnoty pomocí histogramů. Jste v jedné z těch tříd Six Sigma ???
@Andy W: Právě jsem přidal odkaz na to, co se jeví jako relevantní část článku Wikipedie o ANOVA.
@DWin: http://blog.markanthonylawson.com/?p=296 (promiň, * zcela * mimo téma, ale nemohl odolat)
@onestop děkuji. Odkaz jsem si vyžádal jen proto, že jsem líný a nechtěl jsem ANOVA vyhledat na wikipedii sám, ne proto, že je to pro tuto otázku podstatné.
Související otázka zde: [co-pokud-zbytky-jsou-normálně-distribuovány-ale-y-není] (http://stats.stackexchange.com/questions/12262/).
Tři odpovědi:
whuber
2011-01-19 01:45:40 UTC
view on stackexchange narkive permalink

Předpokládejme, že se jedná o model fixních efektů. (Rada se u modelů s náhodnými efekty ve skutečnosti nemění, je to jen trochu komplikovanější.)

  1. Ne, normálnost a normální rozdělení zbytků nejsou stejné . Předpokládejme, že jste změřili výnos z plodiny s aplikací hnojiva i bez ní. U ploch bez hnojiva se výtěžek pohyboval od 70 do 130. U dvou ploch s hnojivem se výtěžek pohyboval od 470 do 530. Rozdělení výsledků je silně neobvyklé: je seskupeno na dvou místech souvisejících s aplikací hnojiva. Předpokládejme dále, že průměrné výnosy jsou 100, respektive 500. Potom se všechny zbytky pohybují od -30 do +30. Mohou (nebo nemusí) být běžně distribuovány, ale je zřejmé, že se jedná o úplně jinou distribuci.

  2. Na distribuci reziduí záleží protože odrážejí náhodnou část modelu. Všimněte si také, že p-hodnoty se počítají ze statistik F (nebo t) a ty závisí na zbytcích, nikoli na původních hodnotách.

  3. Pokud existují významné a důležité účinky v data (jako v tomto příkladu), pak můžete možná dělat „závažnou“ chybu . Naštěstí byste mohli udělat správné určení: to znamená, že při pohledu na nezpracovaná data uvidíte směs distribucí a to může vypadat normálně (nebo ne). Jde o to, že to, co hledáte, není relevantní.

Zbytky ANOVA nemusí být nikde blízko normálu, aby se vešly do modelu. Téměř normálnost reziduí je však zásadní , aby hodnoty p vypočítané z F-distribuce byly smysluplné.

Myslím, že je třeba dodat důležité body: v ANOVA je normálnost v každé skupině (ne celkově) ekvivalentní normálnosti reziduí.
@Aniko Mohl byste prosím ve svém komentáři rozvinout, co máte na mysli pod pojmem „ekvivalent“? Je téměř tautologické, že normálnost ve skupině je stejná jako normálnost reziduí této skupiny, ale je nepravdivé, že normálnost samostatně v každé skupině implikuje (nebo je implikována) normálností reziduí.
Opravdu jsem myslel tautologický smysl: pokud jsou skupiny normální, pak zbytky jsou normální. Opak je pravdivý pouze v případě, že je přidán homoscedascity (jako v ANOVA). Nemám v úmyslu prosazovat kontrolu skupin místo zbytků, ale myslím, že toto je základní důvod pro různé formulace předpokladů.
Všiml jsem si, že lidé, kteří dělají ANOVA, se obvykle zajímají o výpočet p-hodnot, a proto je pro ně důležitá normalita reziduí.Existují nějaké běžné důvody, aby se vešel do modelu ANOVA, pokud nemáme zájem o výpočet p-hodnot z F-distribuce?Omlouvám se, pokud je tato otázka příliš široká na komentář.
@user1205901 To je velmi dobrý bod.Dvě běžná použití ANOVA, která se nespoléhají na F test, jsou (1) je to pohodlný způsob, jak získat odhady efektů a (2) je nedílnou součástí výpočtu výpočtu odchylky.
@whuber Proč je normalita reziduí odlišná od normality ve skupině?Skupina je soustředěna nad průměrný odhad, zbytky nad 0, obě se stejnou odchylkou.Může být jeden normální a druhý ne?
@Cindy Zvažte (velmi častou) situaci, kdy obě skupiny mají různé prostředky.
Nechápu to.Jeden je normální s N (mu1, s), druhý s N (mu2, s), zbytky s N (0, s).Neříká to, že je nutná buď podmínka normality?
@Cindy Nevím, co máte na mysli pod výrazem „buď podmínka“.V takovém případě je jasné, že * podmíněné * odpovědi jsou normální, ale * okrajová * odpověď (což je směs normálů s různými prostředky) není normální.
@whuber Řekli jste: „... ale je nepravdivé, že normálnost samostatně v každé skupině implikuje (nebo je implikována) normálností reziduí.“V každé skupině nejsou data směsí normálních distribucí, ale jediné normální distribuce, že? Pokud ovšem nerozumím některé terminologii.
@Cindy Myslím, že jste nepochopili, co jsem napsal.Rezidua mohou být skutečně normální, aniž by zbytky v obou skupinách byly normální.Chcete-li vidět, jak můžete simulovat tuto situaci v počítači: začněte generováním zbytků ze střední-nulové normální distribuce.Náhodně je přiřaďte do skupin „A“ a „B“, ale pravděpodobnost přiřazení do „A“ závisí na tom, jak extrémní jsou zbytky.Obě skupiny reziduí budou mít nulová očekávání, ale pocházejí z jiných než normálních distribucí.
Zde je kód `R` pro takovou simulaci:` n <- 10 000; res <- rnorm (2 * n); res <- res [pořadí (abs (res))]; p <- dnorm (res); p <- p / součet (p); i <- sample.int (2 * n, n, prob = p); DF <- data.frame (Group = rep (c ("A", "B"), each = n), Zbytek = c (res [i], res [-i])); tabulka (skupina DF $); knihovna (ggplot2); ggplot (DF, aes (Residual, fill = Group)) + geom_density (velikost = 1,25, alfa = 1/2) `
@whuber, existuje nějaký způsob, jak citovat vaše vysvětlení?Možná jste to někde napsali nebo zveřejnili?Opravdu jsem si přál, abychom zde mohli citovat odpovědi.Některé, stejně jako mnoho z vašich, mají obrovskou hodnotu.
@streamline Jakýkoli dobrý účet ANOVA bude obsahovat ekvivalentní informace.Existuje však snadný způsob, jak citovat příspěvky zde v životopisu: klikněte na odkaz „citovat“ pod příspěvkem a zkopírujte text, který se objeví.
@whuber, Děkuji, Dr. Hubere, že jste si našli čas na zodpovězení i těch nejhloupějších otázek!Vím, že tento druh komentářů se nedoporučuje, ale myslím, že příliš často zapomínáme na to, abychom vám poděkovali.
@Streamline Jste vítáni.Přijímám vaše komplimenty jménem několika stovek běžných uživatelů tohoto webu, kteří běžně odpovídají na otázky.Jsem si docela jistý, že považují několik otázek za „hloupé“.Já například čtu co nejvíce otázek a některé z nich považuji za docela poučné, protože odhalují neočekávané a často zajímavé způsoby, jak lidé interpretují vysvětlení, popisy a definice.Reflexe nad takovými otázkami mi pomáhá lépe porozumět pojmu a doufám, že mi to umožní lépe ho vysvětlit nebo naučit.
probabilityislogic
2011-01-19 05:06:31 UTC
view on stackexchange narkive permalink

Standardní klasickou jednosměrnou ANOVA lze považovat za rozšíření klasického „2-vzorkového T-testu“ k „n-vzorovému T-testu“. To je patrné z porovnání jednosměrné ANOVA s pouhými dvěma skupinami s klasickým 2-vzorkovým T-testem.

Myslím, že kde se mátnete, je to (za předpokladu modelu) zbytky a nezpracovaná data jsou OBOU normálně distribuována. Nezpracovaná data se však skládají z běžných distribucí s různými prostředky (pokud nejsou všechny efekty přesně stejné), ale s stejnou odchylkou. Zbytky na druhé straně mají stejné normální rozdělení . Vychází to ze třetího předpokladu homoscedasticity.

Je to proto, že normální rozdělení je rozložitelné na střední a variační složky. Pokud má $ Y_ {ij} $ normální rozdělení se střední hodnotou $ \ mu_ {j} $ a odchylkou $ \ sigma ^ 2 $ lze zapsat jako $ Y_ {ij} = \ mu_ {j} + \ sigma \ epsilon_ {ij } $ kde $ \ epsilon_ {ij} $ má standardní normální rozdělení.

I když je ANOVA odvozitelná z předpokladu normality, myslím si (ale nejsem si jist), že ji lze nahradit předpokladem linearity ( podél nejlepších lineárních nestranných odhadů (MODRÝCH) řádků odhadu, kde „BEST“ je interpretováno jako minimální střední kvadratická chyba). Věřím, že to v zásadě zahrnuje nahrazení distribuce pro $ \ epsilon_ {ij} $ jakoukoli vzájemně nezávislou distribucí (přes všechny i a j ), které má průměr 0 a rozptyl 1.

Pokud jde o prohlížení vašich nezpracovaných dat, mělo by to vypadat normálně při samostatném vykreslování pro každou úroveň faktoru ve vašem modelu . To znamená vykreslení $ Y_ {ij} $ pro každý j na samostatný graf.

+1 za zdůraznění (v posledním odstavci) předpokladu homoscedasticity.
Znamená to, že pokud máme [řekněme] (http://stats.stackexchange.com/q/11887/5003) _n_ závislé skupiny k porovnání, musíme zkontrolovat jejich rezidua samostatně (což má za následek _n_ skupin reziduí)?
caracal
2011-01-19 02:01:21 UTC
view on stackexchange narkive permalink

V jednosměrném případě se skupinami $ p $ o velikosti $ n_ {j} $: $ F = \ frac {SS_ {b} / df_ {b}} {SS_ {w} / df_ {w}} $ where

$ SS_ {b} = \ sum_ {j = 1} ^ {p} {n_ {j} (M - M_ {j}}) ^ {2} $ a

$ SS_ {w} = \ sum_ {j = 1} ^ {p} \ sum_ {i = 1} ^ {n_ {j}} {(y_ {ij} - M_ {j}) ^ {2} } $

$ F $ sleduje distribuci $ F $, pokud $ SS_ {b} / df_ {b} $ a $ SS_ {w} / df_ {w} $ jsou nezávislé, $ \ chi ^ {2} $ - distribuované proměnné s $ df_ {b} $ a $ df_ {w} $ stupně volnosti. To je případ, kdy $ SS_ {b} $ a $ SS_ {w} $ jsou součtem čtverců nezávislých normálních proměnných se střední hodnotou $ 0 $ a stejnou stupnicí. Proto musí být $ M-M_ {j} $ a $ y_ {ij} -M_ {j} $ normálně distribuovány.

$ y_ {i (j)} - M_ {j} $ je reziduum z celého modelu ($ Y = \ mu_ {j} + \ epsilon = \ mu + \ alpha_ {j} + \ epsilon $), $ y_ {i (j)} - M $ je reziduum z omezeného modelu ($ Y = \ mu + \ epsilon $). Rozdíl těchto reziduí je $ M - M_ {j} $.

EDIT, aby odrážel objasnění pomocí @onestop: pod $ H_ {0} $ jsou všechny opravdové skupinové prostředky stejné (a tedy rovné $ M $), tedy normalita reziduí na úrovni skupiny $ y_ {i (j)} - M_ {j} $ implikuje také normalitu $ M - M_ {j} $. Samotné hodnoty DV nemusí být normálně distribuovány.

Předpokládá se, že tyto $ SS $ jsou $ \ chi ^ 2 $ -distribuovány * na základě nulové hypotézy *, což znamená, že skupinové prostředky jsou všechny stejné, tj. $ M_j = M $ pro všechny $ j $. V takovém případě $ y_ {ij} -M_j $ je normální znamená, že $ M_j-M $ je normální. Musíte tedy zkontrolovat pouze první, tj. Zda jsou zbytky na úrovni pozorování normální.
@onestop Upraveno tak, aby odráželo vaše vysvětlení, díky!


Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 2.0, pod kterou je distribuován.
Loading...