Ovládání něčeho a ignorování něco není totéž. Uvažujme o vesmíru, ve kterém existují pouze 3 proměnné: $ Y $, $ X_1 $ a $ X_2 $. Chceme vytvořit regresní model, který předpovídá $ Y $, a zvláště nás zajímá jeho vztah s $ X_1 $. Existují dvě základní možnosti.
- Mohli bychom posoudit vztah mezi $ X_1 $ a $ Y $ při ovládání pro $ X_2 $:
$$ Y = \ beta_0 + \ beta_1X_1 + \ beta_2X_2 $$ nebo -
mohli bychom posoudit vztah mezi $ X_1 $ a $ Y $ při ignorování $ X_2 $:
$ $ Y = \ beta_0 + \ beta_1X_1 $$
Je pravda, že se jedná o velmi jednoduché modely, ale představují různé způsoby pohledu na to, jak vztah mezi $ X_1 $ a $ Y $ se projevuje. Odhadovaná částka $ \ hat \ beta_1 $ s může být často u obou modelů podobná, ale může se lišit. Nejdůležitější při určování toho, jak odlišné jsou, je vztah (nebo jeho nedostatek) mezi $ X_1 $ a $ X_2 $. Zvažte toto číslo:
V tomto scénáři je korelace $ X_1 $ s $ X_2 $. Vzhledem k tomu, že děj je dvourozměrný, tak trochu ignoruje $ X_2 $ (možná ironicky), takže jsem pro každý bod označil hodnoty $ X_2 $ s odlišnými symboly a barvami (níže uvedený pseudo-3D obrázek poskytuje další způsob, jak to zkusit pro zobrazení struktury dat). Pokud by se vešel regresní model, který ignoroval $ X_2 $, dostali bychom plnou černou regresní čáru. Pokud by se vešel model, který ovládal za $ X_2 $, dostali bychom regresní rovinu, kterou je opět těžké vykreslit, takže jsem do této roviny vykreslil tři řezy, kde $ X_2 = 1 $, $ X_2 = 2 $ a $ X_2 = 3 $. Máme tedy řádky, které ukazují vztah mezi $ X_1 $ a $ Y $, které platí, když kontrolujeme pro $ X_2 $. Všimněte si, že ovládání pro $ X_2 $ nepřináší jediný řádek, ale sadu řádků.
Dalším způsobem, jak přemýšlet o rozdílu mezi ignorováním a ovládáním pro jinou proměnnou, je zvážit rozdíl mezi okrajovou distribucí a podmíněná distribuce. Zvažte toto číslo:
( Toto je převzato z mé odpovědi zde: Jaká je intuice za podmíněnými Gaussovými distribucemi? )
Pokud se podíváte na normální křivku nakreslenou nalevo od hlavního obrázku, jedná se o okrajové rozdělení $ Y $ . Jedná se o distribuci $ Y $, pokud ignorujeme jeho vztah s $ X $. Na hlavním obrázku jsou dvě normální křivky představující podmíněné rozdělení $ Y $, když $ X_1 = 25 $ a $ X_1 = 45 $. Podmíněné distribuce řídí na úrovni $ X_1 $, zatímco marginální distribuce ji ignoruje .