Otázka:
Co v praxi znamená „pravděpodobnost je definována pouze do multiplikativní konstanty proporcionality“?
kmm
2014-05-13 19:39:35 UTC
view on stackexchange narkive permalink

Čtu článek, kde autoři vedou od diskuse o odhadu maximální pravděpodobnosti k Bayesově teorému, zdánlivě jako úvod pro začátečníky.

Jako pravděpodobnost například začínají binomickou distribucí:

$$ p (x | n, \ theta) = \ binom {n} {x} \ theta ^ x (1- \ theta) ^ {nx} $$

a poté přihlaste obě strany

$$ \ ell (\ theta | x, n) = x \ ln (\ theta) + (nx) \ ln (1- \ theta) $$

s odůvodněním, že:

"Protože pravděpodobnost je definována pouze do multiplikativní konstanty proporcionality (nebo aditivní konstanty pro log - pravděpodobnost), můžeme změnit měřítko ... zrušením binomického koeficientu a zapsáním log-pravděpodobnosti místo pravděpodobnosti “

Matematika dává smysl, ale nerozumím tomu, co je míněno „pravděpodobnost je definována pouze do multiplikativní konstanty proporcionality“ a jak to umožňuje upustit binomický koeficient a přejít z $ p (x | n, \ theta) $ na $ \ ell (\ theta | x, n) $.

Podobné Terminologie přišla v dalších otázkách ( zde a zde), stále však není jasné, co vlastně znamená definování pravděpodobnosti nebo přivedení informací na multiplikativní konstantu. Je možné to laicky vysvětlit?

Pět odpovědi:
kjetil b halvorsen
2014-05-13 20:12:59 UTC
view on stackexchange narkive permalink

Jde o to, že někdy mohou různé modely (pro stejná data) vést k funkcím pravděpodobnosti, které se liší multiplikativní konstantou, ale informační obsah musí být jasně stejný. Příklad:

Modelujeme $ n $ nezávislé Bernoulliho experimenty, které vedou k datům $ X_1, \ tečky, X_n $ , každá s distribucí Bernoulli s parametrem (pravděpodobnost) $ p $ . To vede k funkci pravděpodobnosti $$ \ prod_ {i = 1} ^ np ^ {x_i} (1-p) ^ {1-x_i} $$ Nebo my může shrnout data podle binomicky distribuované proměnné $ Y = X_1 + X_2 + \ dotsm + X_n $ , která má binomické rozdělení, což vede k funkci pravděpodobnosti $$ \ binom {n} {y} p ^ y (1-p) ^ {ny} $$ který jako funkce neznámého parametru $ p $ , je úměrný dřívější funkci pravděpodobnosti. Tyto dvě funkce pravděpodobnosti jasně obsahují stejné informace a měly by vést ke stejným závěrům!

A podle definice se považují za stejnou funkci pravděpodobnosti.


Další hledisko: pozorujte, že když jsou funkce pravděpodobnosti použity v Bayesově větě, podle potřeby pro Bayesian analýza, takové multiplikativní konstanty jednoduše zruší! takže jsou pro bayesiánskou inferenci zjevně irelevantní. Stejně tak se zruší při výpočtu poměrů pravděpodobnosti, jak se používá v testech optimální hypotézy (Neyman-Pearsonovo lemma.) A nebude to mít žádný vliv na hodnotu odhadů maximální pravděpodobnosti. Vidíme tedy, že ve většině častých závěrů nemůže hrát roli.


Můžeme argumentovat ještě z jiného hlediska. Výše uvedená Bernoulliho funkce pravděpodobnosti (dále jen termín „hustota“) je ve skutečnosti hustota s ohledem na míru počítání, tj. Míru na nezáporných celých číslech s hmotností jedna pro každé nezáporné celé číslo. Mohli jsme ale definovat hustotu s ohledem na některé další dominující míry. V tomto příkladu se to bude zdát (a je) umělé, ale ve větších prostorech (funkčních prostorech) je to opravdu zásadní! Pojďme pro ilustraci použít specifické geometrické rozdělení, napsané $ \ lambda $ , s $ \ lambda ( 0) = 1/2 $ , $ \ lambda (1) = 1/4 $ , $ \ lambda (2) = 1/8 $ atd. Pak je hustota Bernoulliho distribuce vzhledem k $ \ lambda $ dána $$ f _ {\ lambda} (x) = p ^ x (1-p) ^ {1-x} \ cdot 2 ^ {x + 1} $$ , což znamená $$ P (X = x) = f_ \ lambda (x) \ cdot \ lambda (x) $$ S tímto novým, dominujícím měřítkem se funkce pravděpodobnosti stává (s notací shora) $$ \ prod_ {i = 1} ^ np ^ {x_i} (1-p) ^ {1-x_i} 2 ^ {x_i + 1} = p ^ y (1-p) ^ { ny} 2 ^ {y + n} $$ si povšimněte zvláštního faktoru $ 2 ^ {y + n} $ . Takže při změně dominující míry použité v definici funkce pravděpodobnosti vzniká nová multiplikativní konstanta, která nezávisí na neznámém parametru $ p $ a je zjevně irelevantní. To je další způsob, jak zjistit, jak multiplikativní konstanty musí být irelevantní. Tento argument lze zobecnit pomocí derivátů Radon-Nikodym (výše uvedený argument je příkladem.)

„informační obsah musí být jasně stejný“ To platí pouze tehdy, pokud věříte v princip pravděpodobnosti!
Ano, možná, ale ukázal jsem, jak to vyplývá z bayesiánských principů.
@kjetilbhalvorsen Děkuji za promyšlenou odpověď!Jedna věc, kterou jsem stále zmatená, je důvod, proč pravděpodobnost distribuce bernoulli nezahrnuje binomický koeficient.Vaše odpověď objasňuje, proč na tom nezáleží, ale nechápu, proč je to zaprvé vynecháno z pravděpodobnosti.
@jvans: Je to proto, že binomický koeficient nezávisí na neznámém parametru, takže nemůže ovlivnit tvar funkce pravděpodobnosti
Aksakal
2014-05-13 21:22:58 UTC
view on stackexchange narkive permalink

V podstatě to znamená, že záleží pouze na relativní hodnotě PDF. Například standardní normální (gaussovský) PDF je: $ f (x) = \ frac {1} {\ sqrt {2 \ pi}} e ^ {- x ^ 2/2} $, vaše kniha říká, že místo toho mohou použít $ g (x) = e ^ {- x ^ 2/2} $, protože se nestarají o stupnici, tj. $ c = \ frac {1} {\ sqrt {2 \ pi}} $ .

Stává se to proto, že maximalizují funkci pravděpodobnosti a $ c \ cdot g (x) $ a $ g (x) $ budou mít stejné maximum. Proto bude maximálně $ e ^ {- x ^ 2/2} $ stejné jako $ f (x) $. Neobtěžují se tedy měřítkem.

Dilip Sarwate
2014-05-13 21:17:12 UTC
view on stackexchange narkive permalink

Nemohu vysvětlit význam nabídky, ale pro odhad maximální pravděpodobnosti nezáleží na tom, zda se rozhodneme najít maximum funkce pravděpodobnosti $ L (\ mathbf x; \ theta ) $ (považováno za funkci $ \ theta $ nebo maximum $ aL (\ mathbf x; \ theta) $ kde $ a $ je nějaká konstanta. je to proto, že nás nezajímá maximální hodnota $ L (\ mathbf x; \ theta) $, ale spíše hodnota $ \ theta _ {\ text {ML}} $, kde se toto maximum vyskytuje, a to jak $ L (\ mathbf x; \ theta) $, tak $ aL (\ mathbf x; \ theta ) $ dosáhnou své maximální hodnoty na stejném $ \ theta _ {\ text {ML}} $. Multiplikativní konstanty tedy lze ignorovat. Podobně bychom mohli uvažovat o jakékoli monotónní funkci $ g (\ cdot) $ (například logaritmus) pravděpodobnostní funkce $ L (\ mathbf x; \ theta) $, určete maximum $ g (L (\ mathbf x; \ theta)) $ a odvozte hodnotu $ \ theta _ {\ text {ML} } $ z toho. Pro logaritmus se multipliativní konstanta $ a $ stává aditivní konstantou $ \ ln (a) $ a také ji lze v Proces hledání umístění maxima: $ \ ln (a) + \ ln (L (\ mathbf x; \ theta) $ je maximalizováno ve stejném bodě jako $ \ ln (L (\ mathbf x; \ theta) $.

Pokud jde o odhad maximální a posteriori pravděpodobnosti (MAP) , $ \ theta $ je považováno za realizaci náhodné proměnné $ \ Theta $ s a priori hustotní funkcí $ f _ {\ Theta} (\ theta) $, data $ \ mathbf x $ jsou považováno za realizaci náhodné proměnné $ \ mathbf X $ a za funkci pravděpodobnosti se považuje hodnota podmíněné hustoty $ f _ {\ mathbf X \ mid \ Theta} (\ mathbf x \ mid \ Theta = \ theta) $ z $ \ mathbf X $ podmíněno na $ \ Theta = \ theta $; uvedená funkce podmíněné hustoty je hodnocena na $ \ mathbf x $. a posteriori hustota $ \ Theta $ je $$ f _ {\ Theta \ mid \ mathbf X} (\ theta \ mid \ mathbf x) = \ frac {f _ {\ mathbf X \ mid \ Theta} (\ mathbf x \ mid \ Theta = \ theta ) f_ \ Theta (\ theta)} {f _ {\ mathbf X} (\ mathbf x)} \ tag {1} $$, ve kterém rozpoznáme čitatele jako hustotu kloubu $ f _ {\ mathbf X, \ Theta} (\ mathbf x, \ theta) $ dat a odhadovaných parametrů. Bod $ \ theta _ {\ text {MAP}} $, kde $ f _ {\ Theta \ mid \ mathbf X} (\ theta \ mid \ mathbf x) $ dosáhne maximální hodnoty, je odhad MAP $ \ theta $, a, pomocí stejných argumentů jako v odstavci vidíme, že můžeme ignorovat $ [f _ {\ mathbf X} (\ mathbf x)] ^ {- 1} $ na pravé straně $ (1) $ jako multiplikativní konstantu, jak můžeme ignorujte multiplikativní konstanty v obou $ f _ {\ mathbf X \ mid \ Theta} (\ mathbf x \ mid \ Theta = \ theta) $ a v $ f_ \ Theta (\ theta) $. Podobně, když se používají pravděpodobnosti logu, můžeme ignorovat aditivní konstanty.

Tuto myšlenkovou linii lze provést pomocí Bayes také: Pokud vložíte $ L $ nebo $ aL $ do Bayesovy věty, na tom nezáleží, $ a $ se zruší, takže zadní je stejný.
Sergio
2014-05-13 20:53:53 UTC
view on stackexchange narkive permalink

Laicky řečeno, často budete hledat maximální pravděpodobnost a $ f (x) $ a $ kf (x) $ sdílejí stejné kritické body.

Takže udělejte $ f (x) $ a $ f (x) + 2 $, ale nebyly by to ekvivalentní funkce pravděpodobnosti
Prosím, jak píše Alecos Papadopoulos ve své odpovědi, „pravděpodobnost je nejprve společná funkce hustoty pravděpodobnosti“. Kvůli předpokladu iid pro náhodné vzorky je tato společná funkce _produkt_ jednoduchých hustotních funkcí, takže vznikají multiplikativní faktory, doplňky nikoli.
Společná funkce je takový produkt právě tehdy, jsou-li data nezávislá.Ale MLE se vztahuje i na závislé proměnné, takže argument produktu vypadá nepřesvědčivě.
Alecos Papadopoulos
2014-05-13 21:11:08 UTC
view on stackexchange narkive permalink

Navrhoval bych, aby ve funkci pravděpodobnosti nevypadly žádné konstantní výrazy (tj. výrazy, které neobsahují parametry). Za obvyklých okolností nemají vliv na $ \ text {argmax} $ pravděpodobnosti, jak již bylo zmíněno. Ale:

Mohou nastat neobvyklé okolnosti, kdy budete muset maximalizovat pravděpodobnost s výhradou stropu - a pak byste měli „pamatovat“ na zahrnutí jakýchkoli konstant do výpočtu jeho hodnoty.

Můžete také provádět testy výběru modelů pro nevnořené modely pomocí hodnoty pravděpodobnosti v procesu - a protože modely nejsou vnořené, budou mít dvě pravděpodobnosti různé konstanty.

Kromě toho věta

„Protože pravděpodobnost je definována pouze do multiplikativní konstanty proporcionality (nebo aditivní konstanty pro logaritmickou pravděpodobnost)“

je nesprávné , protože pravděpodobnost je první funkce společné hustoty pravděpodobnosti , nejen „libovolná“ objektivní funkce, která má být maximalizována.

Hmmm ... Když jsem nosil bayesiánský klobouk, vždy jsem myslel na funkci pravděpodobnosti jako funkci _podmíněné_ hustoty dat daných parametrem a ne jako funkci _joint_ hustoty pravděpodobnosti. Umístění maxima společné hustoty pravděpodobnosti dat a parametru (považováno za funkci neznámého parametru $ \ theta $; data se opravují) poskytuje odhad maximální _a posteriori_ pravděpodobnosti (MAP) $ \ theta $ , že?
@DilipSarwate Proti tomu nemáme žádné námitky - ale i zde se díváme na _density_, který musí shrnovat jednotu. Pak jsou konstanty nepostradatelné pro správnou definici, a tak si stále myslím, že výraz „je pouze _defined_ až do konstanty proporcionality“ je špatný ... myslím, že jde spíše o neopatrné psaní než o cokoli jiného ... Mám podezření, že autoři mohli být „ovlivněni“ tím, jak zjistíme zadní hustotu, tj. „ignorováním“ konstant v produktu „podmíněná hustota $ \ krát $ předchozí“.
Pokud je to špatné, musíte se podívat na nějakou skutečnou definici ... skutečné definice, které jsem viděl, zahrnuje tento termín! Váš názor na výběr modelu může být argumentem, že tato definice není užitečná ... (definice sama o sobě není správná / špatná, ale spíše užitečná / neužitečná)
@kjetilbhalvorsen Mám přístup k mnoha knihám, které definují funkci hustoty. Aby byla funkce považována za hustotu, musí se integrovat do jednoty. Funkce pravděpodobnosti _je funkce hustoty, považovaná za funkci parametrů. Jako funkce parametrů se nemusí nutně integrovat do jednoty v prostoru parametrů. Věta „je _ pouze_ definována do atd.“, Zůstává nesprávná, v lepším případě zbytečně matoucí. Není třeba psát tuto větu, abychom „upustili“ tuto konstantu proporcionality, což může být každopádně riskantní, jak jsem vysvětlil ve své odpovědi.
Myslím, že s jazykem musíte být trochu opatrnější. Pravděpodobnost je funkcí parametrů pro fixní vzorek, ale je ekvivalentní hustotě spáry v ** prostoru vzorku **. To znamená, $$ L (\ boldsymbol \ theta \ mid \ boldsymbol x) = f (\ boldsymbol x \ mid \ boldsymbol \ theta). $$ To se integruje do $ 1 $ v prostoru vzorku, ale nemusí to být nutně $ 1 $ při integraci v prostoru parametrů. Když řeknete „pravděpodobnost je hustota, považovaná za funkci parametrů“, bude to znít, jako byste měli na mysli „hustotu vzhledem k parametrům“, což není.
@heropup Už jsem napsal, že se nemusí nutně integrovat do jednoty nad parametrickým prostorem, a proto jej nelze okamžitě považovat za „funkci hustoty“, když je považována za „funkci parametrů“.
Ano, já vím. Chci říct, že fráze „Funkce pravděpodobnosti je funkcí hustoty, na kterou se díváme jako na funkci parametrů“, je sama o sobě matoucí. Bylo by přesnější říci něco jako: „Funkce pravděpodobnosti je funkcí parametrů pro fixní vzorek a je ekvivalentní (nebo úměrná) hustotě spáry v prostoru vzorku.“
@heropup Určitě by to bylo mnohem přesnější.
@heropup Vaše požadované tvrzení, že „funkce pravděpodobnosti ... je ekvivalentní (nebo úměrná) hustotě spár ve vzorovém prostoru“ by bylo skutečně mnohem přesnější, ale stejně nesprávné. Funkce pravděpodobnosti není ** ani ekvivalentní, ani úměrná hustotě spáry **, protože „koeficient proporcionality“ není konstantní (pokud není předchozí rozdělení neznámého parametru rovnoměrně rozloženo po intervalu). Hustota kloubu je $ L (x \ mid \ theta) f (\ theta) $, kde $ L $ je pravděpodobnost a $ f (\ theta) $ je předchozí distribuce parametru.
@DilipSarwate Vidím váš názor, ale mluvíme o různých hustotách. Mluvíte o hustotě spojů v prostoru vzorku i parametrů. Mluvím o podmíněné hustotě nad prostorem vzorku pro pevnou (ale neznámou) sadu parametrů. To je konec konců způsob, jakým konstruujeme pravděpodobnost, například při odhadu maximální pravděpodobnosti. Pokud řeknu, že mám $ n $ IID pozorování z exponenciální distribuce s neznámým parametrem $ \ lambda $, abych získal MLE na základě tohoto vzorku, nemusím ukládat předchozí na $ \ lambda $, abych napsal pravděpodobnost.
Alecos Papadopoulos: Chápu, že se vám nelíbí standardní definice, ale stále je to standardní definice. Ve své odpovědi jsem vysvětlil myšlení, které stojí za touto volbou definice! Přinášíte na trh další argument: „konstanta proporcionality“ by mohla být zajímavá pro výběr modelu, což činí AIC srovnatelnou napříč různými rodinami modelů. Někdo použil tento argument a požádal o vypočtené pravděpodobnosti R pro začlenění těchto konstant. To bylo odmítnuto, protože R Gods (jako B Ripley) tomuto argumentu nevěří.
@kjetilbhalvorsen +1 pro „R Gods“.


Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...