Jak číst Cookovy vzdálenosti?

Otázka:

Platypezid

2012-02-02 18:02:58 UTC

view on stackexchange narkive permalink

Ví někdo, jak zjistit, zda jsou body 7, 16 a 29 vlivnými body nebo ne? Někde jsem četl, že protože Cookova vzdálenost je menší než 1, nejsou. Mám pravdu?

enter image description here

Existují různé názory. Některé z nich se týkají počtu pozorování nebo počtu parametrů. Ty jsou načrtnuty na adrese http://en.wikipedia.org/wiki/Cook%27s_distance#Detecting_highly_influential_observations.

@whuber Díky. Při provádění průzkumu dat je to pro mě vždy šedá oblast. Datový bod 16 výše výrazně ovlivňuje výsledky modelu, čímž zvyšuje chyby typu I.

Dalo by se namítnout, že zvyšuje také chyby typu „III“, které (obecně i neformálně) představují chyby související s nepoužitelností podkladového modelu pravděpodobnosti.

@whuber ano, velmi pravdivé!

Dva odpovědi:

user5644

2012-02-02 21:15:07 UTC

view on stackexchange narkive permalink

Některé texty vám říkají, že body, u nichž je Cookova vzdálenost větší než 1, je třeba považovat za vlivné. Jiné texty vám dávají prahovou hodnotu $ 4 / N $ nebo $ 4 / (N - k - 1) $, kde $ N $ je počet pozorování a $ k $ počet vysvětlujících proměnných. Ve vašem případě by druhý vzorec měl přinést prahovou hodnotu kolem 0,1.

John Fox (1) je ve své brožuře o regresní diagnostice poměrně opatrný, pokud jde o udávání číselných prahových hodnot. Doporučuje použití grafiky a podrobnější zkoumání bodů s „hodnotami D, které jsou podstatně větší než ostatní“. Podle Foxe by prahové hodnoty měly být použity pouze pro vylepšení grafických zobrazení.

Ve vašem případě lze pozorování 7 a 16 považovat za vlivná. No, alespoň bych se na ně podíval blíže. Pozorování 29 se podstatně neliší od několika dalších pozorování.

(1) Fox, Johne. (1991). Regresní diagnostika: Úvod . Sage Publications.

+1 Vymazat souhrn. Dodal bych, že vlivné případy obvykle nejsou problémem, pokud by jejich odstranění z datové sady ponechalo odhady parametrů v podstatě beze změny: obáváme se těch, jejichž přítomnost skutečně * mění * výsledky.

@lejohn Velmi oceňuji vaši odpověď. Whuber má správnou vynikající jasnost ve vaší odpovědi. To je velmi informativní. Možná vám doporučuji zdůraznit Foxe a vaše názory na stránce wikipedia!

gung - Reinstate Monica

2012-02-05 06:30:45 UTC

view on stackexchange narkive permalink

+1 k @lejohn i @whuber. Chtěl jsem trochu rozšířit komentář @ whubera. Cookovu vzdálenost lze porovnat s dfbeta. Cookova vzdálenost se vztahuje k tomu, jak daleko se v průměru predikované hodnoty y posunou, pokud dotyčné pozorování klesne ze sady dat. dfbeta odkazuje na to, jak moc se odhad parametru změní, pokud je dané pozorování vynecháno ze sady dat. Všimněte si, že s $ k $ kovariátami bude $ k + 1 $ dfbetas (intercept, $ \ beta_0 $ a 1 $ \ beta $ pro každou kovariátu). Cookova vzdálenost je pro vás pravděpodobně důležitější, pokud provádíte prediktivní modelování, zatímco dfbeta je důležitější při vysvětlujícím modelování.

Je zde ještě jeden bod, který stojí za to zmínit. V observačním výzkumu je často obtížné vzorkovat jednotně v celém prostoru prediktorů a v dané oblasti můžete mít jen několik bodů. Takové body se mohou od ostatních lišit. Mít několik odlišných případů může být zneklidňující, ale před odsunutím odlehlých hodnot si zaslouží značné zamyšlení. Legitimně může dojít k interakci mezi prediktory, nebo se systém může posunout a chovat se jinak, když se hodnoty prediktorů stanou extrémními. Kromě toho vám mohou pomoci rozmotat účinky kolineárních prediktorů. Vlivné body by mohly být požehnáním v přestrojení.

+1 „Cookova vzdálenost je pro vás pravděpodobně důležitější, pokud provádíte prediktivní modelování, zatímco dfbeta je důležitější při vysvětlujícím modelování“: toto je velmi užitečná rada.

Ahoj - zajímavá diskuse. Ale nemohlo by být racionální integrovat fiktivní proměnnou pro měření účinku například z pozorování 16?

@Pantera jsem odstranil 16 a porovnal před a po emisní modely

Ahoj - pokud odeberete pozorování, měli byste se ujistit, že k tomu máte „dobrý“ argument, například že je pozorování změřeno nesprávně. Pokud vyhodíme pozorování, protože dělají jen nějaké statistické potíže, máme blízko k dolování dat.

Skvělá odpověď!Můžete ale vysvětlit, proč si myslíte: * „Cookova vzdálenost je pro vás pravděpodobně důležitější, pokud provádíte ** prediktivní modelování **, zatímco dfbeta je důležitější ve ** vysvětlujícím modelování **.“ *?Myslel jsem, že dělám prediktivní práci, mít robustní koeficienty je velmi důležité, ne?

Vypadá rozumně, @rnorouzian,, ale prediktivní modelování je o získávání predikovaných hodnot ($ \ hat {y} $ s).Pokud by tedy koeficienty nebyly robustní, ale nemělo to znatelný dopad na předpovězené hodnoty, nevadilo by to.V praxi budou mít oba podobné informace, ale budou koncipovány podle toho, na čem vám záleží.

@rnorouzian, není opravdu vhodné mít tyto konverzace v komentářích pod odpovědí.Neřekl jsem „se znatelným dopadem“, řekl jsem bez, a řekl jsem „pokud“.Všimněte si poslední věty mého předchozího komentáře.

ⓘ

Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.

about - legalese