Je odhadovaná hodnota v regresi OLS „lepší“ než původní hodnota

Otázka:

Kare

2014-01-11 02:20:34 UTC

view on stackexchange narkive permalink

Pomocí jednoduché obyčejné regrese nejmenších čtverců:

$ Y = \ alpha + \ beta \ times X $

můžeme odhadnout závislou proměnnou $ Y $ prostřednictvím parametrů regrese z $ \ alpha \ text {a} \ beta $.

Jak je odhadovaný $ Y $ „lepší“ než původní $ Y $?

** Lepší pro koho nebo co? ** Měření koeficientu gravitačního zákona v laboratoři? Hlášení zisku vaší společnosti daňovému úřadu? Oprava chyby nástroje?

šest odpovědi:

Glen_b

2014-01-11 04:41:23 UTC

view on stackexchange narkive permalink

Za normálních okolností byste pozorovanou hodnotu nenazvali „odhadovanou hodnotou“.

Navzdory tomu je však pozorovaná hodnota technicky odhad průměru na jeho konkrétním $ x $ a zacházení s ním jako s odhadem nám ve skutečnosti řekne smysl, ve kterém OLS lépe odhaduje průměr.

Obecně řečeno, regrese se používá v situaci, kdy byste měli odebrat další vzorek se stejnými $ x $, nedostali byste stejné hodnoty pro $ y $. V běžné regresi zacházíme s $ x_i $ jako s pevnými / známými veličinami a s odezvami, s $ Y_i $ jako s náhodnými proměnnými (s pozorovanými hodnotami označenými $ y_i $).

Používáme běžnější notaci, píšeme

$$ Y_i = \ alpha + \ beta x_i + \ varepsilon_i $$

Šumový výraz, $ \ varepsilon_i $, je důležitý, protože pozorování nelžou na populační linii (pokud by to udělali, nebyla by potřeba regrese; jakékoli dva body by vám poskytly populační linii); model pro $ Y $ musí počítat s hodnotami, které bere, a v tomto případě distribuce náhodných chybových účtů pro odchylky od ('true') řádku.

Odhad střední hodnoty v bodě $ x_i $ pro běžnou lineární regresi má rozptyl

$$ \ Big (\ frac {1} {n} + \ frac {(x_i- \ bar {x}) ^ 2} {\ sum (x_i- \ bar {x}) ^ 2} \ Big) \, \ sigma ^ 2 $$

, zatímco odhad založený na pozorované hodnotě má rozptyl $ \ sigma ^ 2 $.

Je možné ukázat, že za $ n $ minimálně 3, $ \, \ frac {1} {n} + \ frac {(x_i- \ bar {x}) ^ 2} {\ sum (x_i- \ bar {x}) ^ 2} $ není větší než 1 (ale může být - a v praxi to obvykle je - mnohem menší). [Dále, když odhadnete fit na $ x_i $ podle $ y_i $, také vám zbývá otázka, jak odhadnout $ \ sigma $.]

Ale spíše než sledovat formální demonstraci, přemýšlejte příklad, který, jak doufám, může být více motivující.

Nechť $ v_f = \ frac {1} {n} + \ frac {(x_i- \ bar {x}) ^ 2} {\ sum ( x_i- \ bar {x}) ^ 2} $, faktor, kterým se vynásobí pozorovací rozptyl, aby se získala rozptyl shody na $ x_i $.

Pojďme však pracovat spíše na stupnici relativní standardní chyby než na relativní odchylce (tj. podívejme se na druhou odmocninu této veličiny); intervaly spolehlivosti pro průměr na konkrétním $ x_i $ budou násobkem $ \ sqrt {v_f} $.

Takže k příkladu. Vezměme si data cars v R; toto je 50 pozorování shromážděných ve 20. letech 20. století ohledně rychlosti automobilů a ujetých vzdáleností:

enter image description here

Jak tedy hodnoty $ \ sqrt {v_f} $ porovnat s 1? Takhle:

enter image description here

Modré kruhy zobrazují násobky $ \ sigma $ pro váš odhad, zatímco černé kruhy pro obvyklý odhad nejmenších čtverců. Jak vidíte, použití informací ze všech dat činí naši nejistotu ohledně toho, kde střední hodnota populace leží, podstatně menší - alespoň v tomto případě a samozřejmě za předpokladu, že lineární model je správný.

Výsledkem je , pokud vyneseme (řekněme) 95% interval spolehlivosti pro průměr pro každou hodnotu $ x $ (včetně na jiných místech než pozorování), jsou limity intervalu na různých $ x $ obvykle malé ve srovnání s variace v datech:

enter image description here

Toto je výhoda „vypůjčení“ informací z jiných hodnot dat, než je současná.

Ve skutečnosti můžeme použít informace z jiných hodnot - prostřednictvím lineárního vztahu - k získání dobrých odhadů hodnoty na místech, kde nemáme ani data. Vezměte v úvahu, že v našem příkladu nejsou žádná data na x = 5, 6 nebo 21. S navrhovaným odhadem tam nemáme žádné informace - ale s regresní přímkou můžeme nejen odhadnout průměr v těchto bodech (a na 5,5 a 12,8 a atd.), můžeme k tomu uvést interval - opět však takový, který se spoléhá na vhodnost předpokladů linearity (a konstantní variance $ Y $ s a nezávislost).

+1. (Ale nejsem schopen prokázat $ \ frac {1} {n} + \ frac {(x_i- \ bar {x}) ^ 2} {\ sum (x_i- \ bar {x}) ^ 2} \ lt 1 $, pokud nepředpokládám, že $ n \ ge 3 $ a ne všechny $ x_i $ jsou stejné; i tehdy mohu ukázat, že vztah je pouze $ \ le $, ne $ \ lt $. :-) Proč to píšeš nemůžu z dat odhadnout $ \ sigma $? Myslel jsem, že se to běžně děje kořenem středního čtvercového zbytku. Nesmím správně pochopit vaše tvrzení.

@whuber Provedl jsem několik změn. Máte-li další komentář, bylo by to velmi vítané.

Dík! (Opravdu jste nemuseli tak tvrdě pracovat. :-)

Bill

2014-01-11 03:16:54 UTC

view on stackexchange narkive permalink

Nejprve je regresní rovnice:

\ begin {equation} Y_i = \ alpha + \ beta X_i + \ epsilon_i \ end {equation}

Existuje chybový výraz , $ \ epsilon $. Jak se ukázalo, tento chybový výraz je zásadní pro zodpovězení vaší otázky. Co přesně je chybný termín ve vaší aplikaci? Jedna jeho běžná interpretace je „vliv všeho, kromě $ X $, který ovlivňuje $ Y $.“ Pokud je to váš výklad vašeho chybového výrazu, pak je $ Y_i $ nejlepším měřítkem toho, co ve skutečnosti $ Y_i $ je.

Na druhou stranu, v některých ojedinělých případech interpretujeme chybový výraz jako výlučně chyba měření --- chyba vyvolaná chybou operátora při použití vědeckého nástroje nebo chyba pocházející z přirozeně omezené přesnosti nástroje. V takovém případě je „skutečná“ hodnota $ Y_i $ $ \ alpha + \ beta X_i $. V takovém případě byste měli použít OLS předpověď $ Y_i $ místo skutečné hodnoty $ Y_i $, pokud $ V (\ epsilon_i) >V (\ hat {\ alpha} _ {OLS} + \ hat {\ beta} _ {OLS} X_i) $ --- to je, pokud je rozptyl chyby, která pochází z nahrazení $ \ alpha $ a $ \ beta $ jejich odhady OLS, menší než rozptyl chyby měření.

Další příklad: Pokud je skutečný vztah mezi Y a X nelineární, pak alfa a beta, a tedy Yest, jsou pouze lokální linearizací nelineární funkce. Chybový termín zachytí efekty, které nelze zachytit lineárním uložením. V takovém případě může být Yest velmi zkresleným odhadcem Y [i], tj. Očekávaná chyba, pokud bychom provedli nové pozorování, by neměla být nula.

Peter Flom

2014-01-11 02:37:31 UTC

view on stackexchange narkive permalink

Původní hodnota není odhad (kromě skutečnosti, že může mít chybu měření): Je to hodnota Y pro konkrétní předmět (např. osobu nebo cokoli jiného). Predikovaná hodnota z rovnice je odhad: Jedná se o odhad očekávané hodnoty Y při dané hodnotě X.

Pojďme to konkretizovat:

Řekněme, že Y je hmotnost a X je výška. Řekněme, že měříte a vážíte spoustu lidí. Řekněme, že Jill je 5'0 a 105 liber. To je její výška a váha. Rovnice vám poskytne jinou předpovídanou hodnotu hmotnosti pro osobu, která je 5'0 ". To není předpovídaná hodnota pro Jill - nemusíte předpovídat ani odhadovat její váhu, znáte to s přesností měřítko. Je to predikovaná hodnota nějaké „typické 5'0“ osoby.

Můžeme tedy předpokládat, že regrese je nějaký druh shlukování, kde se třídy nacházejí pomocí regresní přímky?

Ne, není třeba vytvářet žádné třídy. Jedná se o tvar linky nejmenších čtverců.

Scortchi - Reinstate Monica

2014-01-11 02:28:55 UTC

view on stackexchange narkive permalink

Rovnice by měla být $$ \ operatorname {E} (Y) = \ alpha + \ beta x $$; to je očekávaná hodnota $ Y $ při dané hodnotě $ x $. Pokud tedy správný & vašeho modelu uděláte dostatek pozorování $ Y $ při této hodnotě $ x $, řekne vám, jaká bude průměrná hodnota $ Y $. Z dlouhodobého hlediska budete dělat lepší předpovědi s použitím tohoto průměru, než je hodnota, kterou jste pozorovali.

Thx za vaši odpověď! Mohl byste mi prosím vysvětlit, proč bych „dělal lepší předpovědi“?

Alex Williams

2014-01-11 02:35:37 UTC

view on stackexchange narkive permalink

OLS obvykle není motivován porovnáním odhadované odpovědi, $ \ hat {Y_i} $, s pozorovanou odpovědí $ Y_i $. Místo toho, pokud dostane novou sadu hodnot pro hodnotu prediktoru $ X_ {new} $, model OLS předpovídá, co by závislá proměnná byla v typickém případě $ \ hat {Y} _ {new} $.

Jde o to, že $ \ hat {Y} _i $ se obvykle nepovažuje za „lepší“ než $ Y_i $, ale spíše za přesnější odraz toho, co očekáváte, že $ Y $ bude mít konkrétní hodnotu pro $ X $ .

Existují však situace, kdy si můžete myslet, že $ \ hat {Y} _i $ přesněji odráží pravdu než $ Y_i $ (možná pro odlehlé hodnoty vzniklé v důsledku poruchy ve vašem shromažďování údajů). To by velmi záviselo na podrobnostech vašich údajů.

Martin F

2014-01-11 06:57:03 UTC

view on stackexchange narkive permalink

Pomáhá to? (To mě napadlo poprvé při čtení otázky.)

Ve statistikách Gauss – Markovova věta, pojmenovaná po Carlu Friedrichovi Gaussovi a Andrey Markovovi, uvádí, že v lineárním regresním modelu kde chyby mají očekávání nula a nesouvisejí a mají stejné odchylky, je nejlepší lineární nestranný odhad (MODRÝ) koeficientů dán odhadem běžných nejmenších čtverců (OLS). Zde „nejlepší“ znamená udávat nejnižší rozptyl odhadu ve srovnání s jinými nezaujatými lineárními odhady. Chyby nemusí být normální, ani nezávislé a identicky distribuované (pouze nekorelované a homoscedastické). Hypotézu, že odhadovatel je nezaujatý, nelze zrušit, protože jinak existují odhady lepší než OLS.

http://en.wikipedia.org/wiki/Gauss%E2%80%93Markov_theorem

ⓘ

Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.

about - legalese