Ví někdo, jak zjistit, zda jsou body 7, 16 a 29 vlivnými body nebo ne? Někde jsem četl, že protože Cookova vzdálenost je menší než 1, nejsou. Mám pravdu?
Ví někdo, jak zjistit, zda jsou body 7, 16 a 29 vlivnými body nebo ne? Někde jsem četl, že protože Cookova vzdálenost je menší než 1, nejsou. Mám pravdu?
Některé texty vám říkají, že body, u nichž je Cookova vzdálenost větší než 1, je třeba považovat za vlivné. Jiné texty vám dávají prahovou hodnotu $ 4 / N $ nebo $ 4 / (N - k - 1) $, kde $ N $ je počet pozorování a $ k $ počet vysvětlujících proměnných. Ve vašem případě by druhý vzorec měl přinést prahovou hodnotu kolem 0,1.
John Fox (1) je ve své brožuře o regresní diagnostice poměrně opatrný, pokud jde o udávání číselných prahových hodnot. Doporučuje použití grafiky a podrobnější zkoumání bodů s „hodnotami D, které jsou podstatně větší než ostatní“. Podle Foxe by prahové hodnoty měly být použity pouze pro vylepšení grafických zobrazení.
Ve vašem případě lze pozorování 7 a 16 považovat za vlivná. No, alespoň bych se na ně podíval blíže. Pozorování 29 se podstatně neliší od několika dalších pozorování.
(1) Fox, Johne. (1991). Regresní diagnostika: Úvod . Sage Publications.
+1 k @lejohn i @whuber. Chtěl jsem trochu rozšířit komentář @ whubera. Cookovu vzdálenost lze porovnat s dfbeta. Cookova vzdálenost se vztahuje k tomu, jak daleko se v průměru predikované hodnoty y posunou, pokud dotyčné pozorování klesne ze sady dat. dfbeta odkazuje na to, jak moc se odhad parametru změní, pokud je dané pozorování vynecháno ze sady dat. Všimněte si, že s $ k $ kovariátami bude $ k + 1 $ dfbetas (intercept, $ \ beta_0 $ a 1 $ \ beta $ pro každou kovariátu). Cookova vzdálenost je pro vás pravděpodobně důležitější, pokud provádíte prediktivní modelování, zatímco dfbeta je důležitější při vysvětlujícím modelování.
Je zde ještě jeden bod, který stojí za to zmínit. V observačním výzkumu je často obtížné vzorkovat jednotně v celém prostoru prediktorů a v dané oblasti můžete mít jen několik bodů. Takové body se mohou od ostatních lišit. Mít několik odlišných případů může být zneklidňující, ale před odsunutím odlehlých hodnot si zaslouží značné zamyšlení. Legitimně může dojít k interakci mezi prediktory, nebo se systém může posunout a chovat se jinak, když se hodnoty prediktorů stanou extrémními. Kromě toho vám mohou pomoci rozmotat účinky kolineárních prediktorů. Vlivné body by mohly být požehnáním v přestrojení.