Musíte přemýšlet o tom, co máte na mysli pod „limitem“. Existují limity, například když máte více prediktorů než případů, narazíte na problémy v odhadu parametrů (viz malá simulace R ve spodní části této odpovědi) ).
Představuji si však, že mluvíte spíše o měkkých mezích týkajících se statistické síly a dobré statistické praxe. V tomto případě není jazyk „limitů“ opravdu vhodný. Spíše větší velikosti vzorků mají tendenci aby bylo rozumnější mít více prediktorů a hranice toho, kolik prediktorů je rozumných, pravděpodobně spadá do kontinua přiměřenosti. Diskuse o pravidlech pro velikost vzorku v několika regresích může být relevantní, protože mnoho takových obecných pravidel odkazuje na počet prediktorů.
Několik bodů
- Pokud vám jde spíše o celkovou predikci než o statistickou významnost jednotlivých prediktorů, pak je pravděpodobně rozumné zahrnout více prediktorů, než pokud máte obavy w se statistickou významností jednotlivých prediktorů.
- Pokud vás více zajímá testování konkrétního statistického modelu, který souvisí s vaší výzkumnou otázkou (např. jak je to běžné v mnoha aplikacích společenských věd), pravděpodobně máte důvody pro zahrnutí konkrétní prediktory. Můžete však mít také příležitost být selektivní, do kterých prediktorů zahrnete (např. pokud máte více proměnných, které měří podobný konstrukt, můžete zahrnout pouze jednu z nich). spousta možností a rozhodnutí, které prediktory zahrnout, zahrnuje úzké spojení mezi vaší teorií a výzkumnou otázkou.
- Často nevidím výzkumníky používající Bonferroniho korekce aplikované na testy významnosti regresních koeficientů. Jedním z rozumných důvodů může být to, že vědci mají větší zájem o hodnocení celkových vlastností modelu.
- Pokud vás zajímá posouzení relativní důležitosti prediktorů, považuji za užitečné prozkoumat jak dvojrozměrný vztah mezi prediktorem a výsledkem, tak i vztah mezi prediktorem a kontrolou výsledku u ostatních prediktorů. Pokud zahrnete mnoho prediktorů, je častěji pravděpodobné, že zahrnete prediktory, které jsou vysoce vzájemně propojené. V takových případech může být užitečná interpretace indexů důležitosti založených jak na bivariatech, tak na modelech, protože proměnná důležitá v bivariate smyslu může být v modelu skrytá jinými korelovanými prediktory ( více zde rozpracuji s odkazy).
Malá simulace R
Tuto malou simulaci jsem napsal, abych zdůraznil vztah mezi velikostí vzorku a parametrem odhad ve vícenásobné regrese.
set.seed (1) fitmodel <- funkce (n, k) {# n: velikost vzorku # k: počet prediktorů # návrat lineárního modelu vhodného pro daný vzorek prediktory velikosti a k x <- data.frame (matrix (rnorm (n * k), nrow = n)) names (x) <- paste ("x", seq (k), sep = "") x $ y <- rnorm (n) lm (y ~., Data = x)}
Funkce fitmodel
vyžaduje dva argumenty n
pro velikost vzorku a k
pro počet prediktorů. Nepočítám konstantu jako prediktor, ale odhaduje se. Potom vygeneruji náhodná data a vejde se do regresního modelu předpovídajícího proměnnou a z proměnných prediktoru k
a vrátí fit.
Vzhledem k tomu, že jste ve své otázce zmínili, že vás zajímá, zda je 10 prediktorů příliš mnoho, následující volání funkcí ukazují, co se stane, když je velikost vzorku 9, 10, 11 a 12. Tj. Velikost vzorku je o jeden menší než počet prediktorů na dva více než počet prediktorů
souhrn (fitmodel (n = 9, k = 10)) souhrn (fitmodel (n = 10) , k = 10)) shrnutí (fitmodel (n = 11, k = 10)) shrnutí (fitmodel (n = 12, k = 10))
> shrnutí (fitmodel (n = 9, k = 10))
volání: lm (vzorec = y ~., data = x) rezidua: VŠECH 9 reziduí je 0: ne zbytkové stupně volnosti! Koeficienty: (2 nejsou definovány kvůli singularitám) Odhad Std. Chybná hodnota t Pr (> | t |) (Intercept) -0,31455 NA NA NAx1 0,34139 NA NA NAxx-0,45924 NA NA NAx3 0,42474 NA NAx4 -0,87727 NA NA NAx5 -0,07884 NA NA NAx6 -0,03900 NA NAxx7 1,08482 NA NAx8 0,62890 NA NA NAx9 NA NA NA NAx10 NA NA NA N Zbytková standardní chyba: NaN na 0 stupních volnosti Více R-kvadrát: 1, Upravený R-kvadrát: NaN F-statistika: NaN na 8 a 0 DF, p-hodnota: NA
Velikost vzorku je o jeden menší než počet prediktorů. Je možné odhadnout pouze 9 parametrů, z nichž jeden je konstanta.
> shrnutí (fitmodel (n = 10, k = 10))
Volejte: lm (vzorec = y ~., Data = x) Zbytky: VŠECH 10 zbytků je 0: žádný zbytkový stupeň s svobody! Koeficienty: (1 není definováno kvůli singularitám) Odhad Std. Chyba t hodnota Pr (> | t |) (Intercept) 0,1724 NA NA NAx1 -0,3615 NA NA NAxx-0,4670 NA NA NAx3 -0,6883 NA NA NAx4 -0,1744 NA NA NAx5 -1,0331 NA NA NAx6 0,3886 NA NAxx -0,9886 NA NA NAx8 0,2778 NA NA NAx9 0,4616 NA NA NAxx10 NA NA NA NAR zbytková standardní chyba: NaN na 0 stupních volnosti Více R-kvadrát: 1, Upravený R-kvadrát: NaN
Statistika F: NaN na 9 a 0 DF, hodnota p: NA
Velikost vzorku je stejná jako počet prediktorů. Je možné odhadnout pouze 10 parametrů, z nichž jeden je konstanta.
> shrnutí (fitmodel (n = 11, k = 10))
volání: lm (vzorec = y ~., data = x) zbytky : VŠECH 11 reziduí je 0: žádné zbytkové stupně volnosti! Koeficienty: Odhad Std. Chybná hodnota t Pr (> | t |) (Intercept) -0,9638 NA NA NAx1 -0,8393 NA NA NAx2 -1,5061 NA NA NAx3 -0,4917 NA NA NAx4 0,3251 NA NA NAx5 4,4212 NA NA NAx6 0,7614 NA NAx7 -0,4195 NA NA 0,2142 NA NA NAx9 -0,9264 NA NA NAx10 -1,2286 NA NA N Zbytková standardní chyba: NaN na 0 stupních volnosti Více R-kvadrát: 1, Upravený R-kvadrát: NaN F-statistika: NaN na 10 a 0 DF, p-hodnota: NA
Velikost vzorku je o jeden více než počet prediktorů. Všechny parametry jsou odhadovány včetně konstanty.
> shrnutí (fitmodel (n = 12, k = 10) ))
Volání: lm (vzorec = y ~., data = x) Zbytky: 1 2 3 4 5 6 7 8 9 10 11 0,036530 -0,042154 -0,009044 -0,117590 0,171923 -0,007976 0,050542 -0,011462 0,010270 0,000914 -0,083533 12 0,001581 Koeficienty: Odhad Std. Chyba t hodnota Pr (> | t |) (Intercept) 0,14680 0,11180 1,313 0,4144 x1 0,02498 0,09832 0,244 0,8416 x2 1,01950 0,13602 7,495 0,0844 .x3 -1,76290 0,26094 -6,756 0,0936 .x4 0,44832 0,16283 2,753 0,2218 x5 -0,71 0,33209 0,18554 - 1,790 0,3244
x7 1,62276 0,21562 7,526 0,0841 .x8 -0,47561 0,18468 -2,575 0,2358 x9 1,70578 0,31547 5,407 0,1164 x10 3,25415 0,46447 7,006 0,0903 .--- Signif. kódy: 0 '***' 0,001 '**' 0,01 '*' 0,05 '.' 0,1 '' 1 Zbytková standardní chyba: 0,2375 na 1 stupni volnosti Více R-kvadrát: 0,995, Upravený R-kvadrát: 0,9452 F-statistika : 19,96 na 10 a 1 DF, hodnota p: 0,1726
Velikost vzorku je o dva více než počet prediktorů a konečně je možné odhadnout přizpůsobení celkového modelu.