Otázka:
Proč v odhadu OLS kvadratické zbytky místo absolutních zbytků?
PascalVKooten
2012-12-16 18:17:52 UTC
view on stackexchange narkive permalink

Proč v odhadu OLS používáme kvadratické zbytky místo absolutních zbytků?

Můj nápad byl, že použijeme druhou mocninu chybových hodnot, takže zbytky pod příslušnou čárou (které jsou pak záporné), by stále muselo být možné přidat k pozitivním chybám. Jinak bychom mohli mít chybu 0 jednoduše proto, že obrovská kladná chyba by se mohla zrušit s obrovskou zápornou chybou.

Proč ji tedy umocňujeme, místo abychom berli absolutní hodnotu? Je to kvůli extra trestu za vyšší chyby (namísto toho, aby 2 byly dvojnásobkem chyby 1, je to 4násobek chyby 1, když to srovnáme).

Odhad OLS v podstatě minimalizuje součet čtverců reziduí. Z matematického hlediska to vyžaduje převzetí derivace. A s derivací $ x \ mapsto x ^ 2 $ je menší problém než s derivací $ x \ mapsto | x | $. A je to.
@ocram: "A je menší problém s derivací x↦x2 než s derivací x↦ | x |". Nesouhlasím! Je nepochybně snazší minimalizovat | x-m | než je minimalizovat (x-m) ^ 2 (stačí najít $ m $, které vyrovnává $ | \ {x: x-m> 0 \} | $ a $ | \ {x: x-m <0 \} | $).
Související - Odkaz,
@user603 Hledání mediánu je snadné, ale u vícenásobné regrese je to mnohem těžší. Řešení OLS zahrnuje řešení lineárního systému, který je tak snadný, jak jen to jde. (Historicky první snahy v tomto směru, c. 1755, skutečně minimalizovaly součet zbytků. V univariantním modelu je docela geometrické řešení, ale nemyslím si, že by to zobecňovalo více vysvětlujících proměnných.)
@PeterEllis Také jsem našel tuto otázku! Mám pocit, že existují odpovědi s dalšími informacemi.
@whuber: jako obvykle, děkujeme za vaše postřehy. Jedna otázka: „V univariačním modelu je docela geometrické řešení“ na co odkazuje? - Předpokládám minimalizaci součtu zbytků -
V * The History of Statistics * * Stephen Stigler líčí analýzu z roku 1755 Rogera Boscovicha, který nejprve argumentoval, že linka $ L ^ 1 $ prochází těžištěm bodů, a poté studoval, jak se chyba $ L ^ 1 $ lišila čára byla otočena těžištěm. Tříděním sklonů bodů (relativně k těžišti jako počátku) vytvořil algoritmus $ O (n \ log (n)) $. Viz str. 46-49.
čtyři odpovědi:
user603
2012-12-16 18:40:29 UTC
view on stackexchange narkive permalink

Nemohu si pomoct s citací Hubera, Robustní statistika , s. 10 (omlouvám se, že nabídka je příliš dlouhá na to, aby se vešla do komentáře):

Dvě časově uznávané míry rozptylu jsou průměrnou absolutní odchylkou

$$ d_n = \ frac {1} {n} \ sum | x_i- \ bar {x} | $$

a střední kvadratická odchylka

$$ s_n = \ left [\ frac {1} {n} \ sum (x_i- \ bar {x}) ^ 2 \ right] ^ {1/2 } $$

Mezi Eddingtonem (1914, str.147) a Fisherem (1920, poznámka pod čarou na str. 762) došlo ke sporu o relativní přednosti $ d_n $ a $ s_n $. [.. .] Fisher to zdánlivě vyřešil poukázáním na to, že pro normální pozorování je $ s_n $ asi o 12% efektivnější než $ d_n $.

Vztahem mezi podmíněným průměrem $ \ hat { y} $ a bezpodmínečný průměr $ \ bar {x} $ podobný argument platí pro zbytky.

Musím se teď naučit o efektivitě (a dostatečnosti, konzistenci atd.), Takže mě opravdu zajímalo, jak zjistit „o 12% efektivnější“ díla ...
Účinnějším odhadcem je v zásadě ten, který k dosažení dané přesnosti potřebuje méně vzorků než méně účinný. V tomto případě, pokud označíme velikost vzorku jako $ n $, znamená to, že jako $ n \ rightarrow \ infty $, $ d_n $ je $ \ sqrt {0,12} $ méně přesné než $ s_n $
Díky, zdá se logické! Stále jsem zvědavý, jak to může být ve skutečnosti efektivnější ... a proč tomu tak je. Existuje způsob, jak dokázat, že je tedy účinnější než součet za všechny (xi-xbar) ^ 4?
@Dualinity: intuitivní odpověď je, že to proto, že definujeme účinnost jako očekávání druhé mocniny vzdálenosti mezi odhadovanou hodnotou $ \ bar {x} $ a skutečnou hodnotou $ \ mu $ (např. $ E (\ bar {x} - \ mu ) ^ 2 $). Zarovnáním funkce ztráty použité při odhadu parametru s funkcí použitou k definování účinnosti maximalizujeme účinnost odhadovaného parametru.
Eddingtonův přístup byl empirický a založený na datech z reálného života.Fisherův přístup byl matematický a založený na idealizovaných podmínkách: normální rozdělení, bezchybná měření.Pokud jsou chyby, Fisherův důkaz se nepoužije.K převrácení rolí a zvýšení efektivity $ d_n $ než $ s_n $ stačí 1% chyba
@juanrga Ano, a Tukey uvádí, že Fisher byl jediným statistikem, kterého v polovině 50. let zkoumal a měl jakýkoli smysl pro to, jak křehký („1% odchylujících se údajů vzorkovaných z normálního měřítka“) byl tento výsledek optimality.
Glen_b
2012-12-17 05:17:23 UTC
view on stackexchange narkive permalink

Oba jsou hotové.

Nejmenší čtverečky jsou jednodušší a skutečnost, že pro nezávislé náhodné proměnné „variace přidat“ znamená, že je to mnohem pohodlnější; například schopnost rozdělit odchylky je zvláště užitečná pro porovnání vnořených modelů. Je to o něco efektivnější za normálních okolností (nejmenší čtverce jsou maximální pravděpodobnost), což se může zdát jako dobré ospravedlnění - některé robustní odhady s vysokým rozdělením však mohou mít za normálních okolností překvapivě vysokou účinnost.

Ale Normy L1 se jistě používají pro regresní problémy a v dnešní době poměrně často.

Pokud používáte R, může zde být užitečná diskuse v části 5:

https: / /socialsciences.mcmaster.ca/jfox/Books/Companion/appendices/Appendix-Robust-Regression.pdf

(ačkoli věci před ním na odhad M jsou také relevantní, protože je to také zvláštní případ)

Greg Snow
2012-12-27 06:06:25 UTC
view on stackexchange narkive permalink

Jedna věc, která dosud nebyla zmíněna, je jedinečnost. Přístup nejmenších čtverců vždy vytvoří jedinou „nejlepší“ odpověď, pokud je matice vysvětlujících proměnných plná. Při minimalizaci součtu absolutní hodnoty zbytků je možné, že může existovat nekonečný počet řádků, které mají všechny stejný součet absolutních zbytků (minimum). Který z těchto řádků by měl být použit?

Můžete objasnit bod, který se snažíte udělat, Gregu? Zdá se, že děláte nějaké prohlášení ohledně odhadů koeficientů. Určitě však v OLS nemusí být koeficienty jedinečné. A pokud existuje více než jedno řešení, můžeme okamžitě dojít k závěru, že bude nekonečné množství řešení.
@cardinal, Právě jsem říkal, že při použití nejmenších čtverců získáte jedinou jedinečnou odpověď s nejmenší absolutní hodnotou můžete získat nekonečno, což ztěžuje interpretaci výsledků.
Ahoj Greg, to je to, co doufám, že můžeš ve své odpovědi objasnit. Tvrdíte, že dostanete jedinou jedinečnou odpověď, ale odpověď na * co *? (Určitě ne k regresním koeficientům, nutně.)
Mám na mysli odhad nejmenších čtverců regresních koeficientů, který je jedinečný, i když jsem vytvářel předpoklad (není původně uvedeno), že sloupce matice x jsou lineárně nezávislé, nebo matice x je úplná hodnost, nebo ... ( další způsoby, jak to říct): http://en.wikipedia.org/wiki/Linear_least_squares_(mathematics)
Nejedinečnost by mohla být vyřešena pomocí dalšího kritéria, jako je požadavek minimální normy $ \ hat {\ beta} $.
To je velmi pravda.V případě lineární regrese se nikdy nevejde na jednu nejlépe přizpůsobenou linii, pokud se použije mod chyb ve srovnání s druhou mocninou chyby.Ale stále to nevyjasňuje, proč ne 4 nebo 8. Proč 2 ??
@MayukhSarkar, co se stalo, když jste zkusili použít 4 nebo 8?
@GregSnow No o to se ptám.Proč ne mod, ale čtvercový rozumíme.Ale proč ne 4 nebo 8. Proč vždy 2?
@MayukhSarkar, a já jsme navrhovali, abyste simulovali různé datové sady s různým množstvím šikmosti, špičatosti a všeho, co se nazývá 6. moment (včetně některých definitivních odlehlých hodnot), a použijte různá kritéria (2, 4, 6, cokoli) a podívejte se, jakvýsledky se chovají.Může se stát, že 4 funguje stejně dobře jako 2, ale předpočítače 2 byly mnohem jednodušší, ale očekávám, že odlehlé hodnoty ovlivní 4 a 6 mnohem více než 2 (odlehlé hodnoty jsou jedním z důvodů, proč někteří lidé preferují použití absolutní hodnoty(1 místo 2).
Nemyslím si, že tato odpověď je správná.Myslím si, že analytická optimalizace je obtížná pouze číselně.
@Jonathan,, máte na mysli moji původní odpověď nebo některý z pozdějších komentářů?Jak byste numericky našli optimum, když existuje nekonečná sada koeficientů, které dávají přesně stejnou hodnotu pro funkci, kterou se snažíte optimalizovat?Určitě je snadné najít jednu z hodnot, ale počínaje jiným bodem by mohla být získána jiná optimální hodnota, navrhujete to prostě ignorovat?
Ahoj, @Greg Snow, neměl jsem vůbec pravdu a ty jsi (nerozmýšlel, jak jsem psal).Hlasoval jsem špatně (nyní je uzamčen);pokud provedete změnu tokenu, mohu pro tuto správnou odpověď hlasovat.
@Jonathan, Zahrnul jsem objasňující prohlášení založené na komentářích Cardinals.To vám může znovu otevřít věci.
Placidia
2012-12-17 01:56:33 UTC
view on stackexchange narkive permalink

Když je problém vyjádřen stochasticky: $ Y = aX + b + \ epsilon $, kde je $ \ epsilon $ normálně distribuován, je maximální odhad pravděpodobnosti odhad OLS - nikoli odhad minimální absolutní odchylky (MAD). To je hezké.

Kromě toho existuje silná vazba mezi odhadem OLS a lineární algebrou. $ \ hat {Y} $ je lineární funkce $ Y $ --- ve skutečnosti je to projekce do podprostoru definovaného nezávislými proměnnými.

S OLS se děje spousta hezkých věcí - - MAD, ne tolik. A jak zdůrazňuje @ user603, OLS jsou efektivnější (kde platí normální model). Je samozřejmě méně robustní.



Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...