Jde o to, že někdy mohou různé modely (pro stejná data) vést k funkcím pravděpodobnosti, které se liší multiplikativní konstantou, ale informační obsah musí být jasně stejný. Příklad:
Modelujeme $ n $ nezávislé Bernoulliho experimenty, které vedou k datům $ X_1, \ tečky, X_n $ , každá s distribucí Bernoulli s parametrem (pravděpodobnost) $ p $ . To vede k funkci pravděpodobnosti $$ \ prod_ {i = 1} ^ np ^ {x_i} (1-p) ^ {1-x_i} $$ Nebo my může shrnout data podle binomicky distribuované proměnné $ Y = X_1 + X_2 + \ dotsm + X_n $ , která má binomické rozdělení, což vede k funkci pravděpodobnosti $$ \ binom {n} {y} p ^ y (1-p) ^ {ny} $$ který jako funkce neznámého parametru $ p $ , je úměrný dřívější funkci pravděpodobnosti. Tyto dvě funkce pravděpodobnosti jasně obsahují stejné informace a měly by vést ke stejným závěrům!
A podle definice se považují za stejnou funkci pravděpodobnosti.
Další hledisko: pozorujte, že když jsou funkce pravděpodobnosti použity v Bayesově větě, podle potřeby pro Bayesian analýza, takové multiplikativní konstanty jednoduše zruší! takže jsou pro bayesiánskou inferenci zjevně irelevantní. Stejně tak se zruší při výpočtu poměrů pravděpodobnosti, jak se používá v testech optimální hypotézy (Neyman-Pearsonovo lemma.) A nebude to mít žádný vliv na hodnotu odhadů maximální pravděpodobnosti. Vidíme tedy, že ve většině častých závěrů nemůže hrát roli.
Můžeme argumentovat ještě z jiného hlediska. Výše uvedená Bernoulliho funkce pravděpodobnosti (dále jen termín „hustota“) je ve skutečnosti hustota s ohledem na míru počítání, tj. Míru na nezáporných celých číslech s hmotností jedna pro každé nezáporné celé číslo. Mohli jsme ale definovat hustotu s ohledem na některé další dominující míry. V tomto příkladu se to bude zdát (a je) umělé, ale ve větších prostorech (funkčních prostorech) je to opravdu zásadní! Pojďme pro ilustraci použít specifické geometrické rozdělení, napsané $ \ lambda $ , s $ \ lambda ( 0) = 1/2 $ , $ \ lambda (1) = 1/4 $ , $ \ lambda (2) = 1/8 $ atd. Pak je hustota Bernoulliho distribuce vzhledem k $ \ lambda $ dána $$ f _ {\ lambda} (x) = p ^ x (1-p) ^ {1-x} \ cdot 2 ^ {x + 1} $$ , což znamená $$ P (X = x) = f_ \ lambda (x) \ cdot \ lambda (x) $$ S tímto novým, dominujícím měřítkem se funkce pravděpodobnosti stává (s notací shora) $$ \ prod_ {i = 1} ^ np ^ {x_i} (1-p) ^ {1-x_i} 2 ^ {x_i + 1} = p ^ y (1-p) ^ { ny} 2 ^ {y + n} $$ si povšimněte zvláštního faktoru $ 2 ^ {y + n} $ . Takže při změně dominující míry použité v definici funkce pravděpodobnosti vzniká nová multiplikativní konstanta, která nezávisí na neznámém parametru $ p $ a je zjevně irelevantní. To je další způsob, jak zjistit, jak multiplikativní konstanty musí být irelevantní. Tento argument lze zobecnit pomocí derivátů Radon-Nikodym (výše uvedený argument je příkladem.)