Jak byste vysvětlili rozdíl mezi korelací a kovariancí?

Otázka:

pmgjones

2011-11-08 22:52:04 UTC

view on stackexchange narkive permalink

V návaznosti na tuto otázku, Jak byste vysvětlili kovarianci někomu, kdo rozumí pouze zlému?, který řeší otázku vysvětlení kovariance laikovi, vyvolala v mé mysli podobnou otázku .

Jak by se dalo vysvětlit statistickému nováčkovi rozdíl mezi kovariancí a korelací ? Zdá se, že oba odkazují na změnu jedné proměnné spojené zpět s jinou proměnnou.

Podobně jako v případě uvedené otázky by byl vhodnější nedostatek vzorců.

šest odpovědi:

Nick Sabbe

2011-11-09 01:20:53 UTC

view on stackexchange narkive permalink

Problém kovariancí spočívá v tom, že je obtížné je srovnávat: když vypočítáte kovarianci sady výšek a vah vyjádřených v (respektive) metrech a kilogramech, dostanete jinou kovarianci, než když to provedete v jiné jednotky (což již dává problém lidem, kteří dělají totéž s metrickým systémem nebo bez něj!), ale také bude těžké zjistit, zda (např. výška a váha „překračují více“ než, řekněme délku vašeho prsty na rukou a nohou, jednoduše proto, že „měřítko“, na které se kovariance počítá, se liší.

Řešením je „normalizace“ kovariance: vydělíte kovariance něčím, co představuje rozmanitost a měřítko v jak kovariáty, tak skončí s hodnotou, u které je zaručeno, že je mezi -1 a 1: korelace. Bez ohledu na to, v jaké jednotce byly vaše původní proměnné, získáte vždy stejný výsledek, což také zajistí, že můžete do jisté míry porovnat, zda dvě proměnné „korelují“ více než dvě jiné, jednoduše porovnáním jejich korelace.

Poznámka: výše předpokládá, že čtenář již chápe koncept kovariance.

+1 Chtěli jste do poslední věty napsat „korelace“ místo „kovariance“?

Jste si jisti, že nemůžete srovnávat kovarianty s různými jednotkami? Jednotky procházejí kovariancí vynásobené - pokud je vaše X v `cm` a vaše Y je v` s`, pak vaše $ cov (X, Y) = z \ cm \ cdot s $. A pak můžete jen vynásobit výsledkem jednotkovým konverzním faktorem. Zkuste to v R: `cov (auta $ rychlost, auta $ dist) == cov (auta $ rychlost / 5, auta $ dist / 7) * (7 * 5) '

@naught101 Mám podezření, že jde o to, že kdybych vám řekl, že $ \ mbox {Cov} (X, Y) = 10 ^ 10 $ a nic jiného, neměli byste ponětí, zda $ X $ vysoce předpovídá $ Y $ nebo ne, zatímco kdybych vám řekl, že $ \ mbox {Cor} (X, Y) = 0,9 $, měli byste něco trochu interpretovatelnějšího.

@guy: To by byly kovariance * bez * jednotek: P Myslím, že důležité je, že nemůžete snadno porovnat kovarianty ze dvou datových sad, které mají různé varianty. Například pokud máte vztah B = 2 * A a dva datové soubory, {A1, B1} a {A2, B2}, kde A1 má rozptyl 0,5 a A2 má rozptyl 2, pak $ cov ( A2, B2) $ bude mnohem větší než $ cov (A1, B1) $, i když je vztah úplně stejný.

Jednoduše řečeno korelace> kovariance

Korelace je tedy normalizovaná kovariance?

Jaký je případ kovariance?

Andy W

2011-11-09 02:22:26 UTC

view on stackexchange narkive permalink

Požadavky na tyto typy otázek mi připadají trochu bizarní. Zde je matematický koncept / vzorec, přesto o něm chci mluvit v některých souvislostech zcela postrádajících matematické symboly. Rovněž si myslím, že je třeba konstatovat, že skutečná algebra nutná k pochopení vzorců by se podle mého názoru měla naučit většinu jedinců před vysokoškolským vzděláním (není nutné porozumět maticové algebře, postačí jednoduchá algebra).

Takže namísto úplného ignorování vzorce a mluvení o něm v některých magických a heuristických typech analogií se podívejme na vzorec a pokusme se vysvětlit jednotlivé komponenty malými kroky. Při pohledu na vzorce by měl být jasný rozdíl v kovarianci a korelaci. Zatímco když mluvím o analogiích a heuristice, domnívám se, že by zakryl dva relativně jednoduché pojmy a jejich rozdíly v mnoha situacích.

Takže pojďme začít vzorcem pro ukázkovou kovarianci (ty jsem právě vzal a převzal z wikipedie);

$ \ frac {1} {n-1} \ sum_ {i = 1} ^ {n} (x_i- \ bar {x}) (y_i- \ bar {y}) $

Aby všichni dostali rychlost, pojďme explicitně definujte všechny prvky a operace ve vzorci.

$ x_i $ a $ y_i $ jsou každé měření dvou samostatných atributů stejného pozorování
$ \ bar { x} $ a $ \ bar {y} $ jsou prostředky (nebo průměr) každého atributu
U $ \ frac {1} {n-1} $ řekněme, že to znamená, že rozdělíme konečný výsledek $ {n-1} $.
$ \ sum_ {i = 1} ^ {n} $ může být pro některé cizí symbol, takže by bylo pravděpodobně užitečné tuto operaci vysvětlit. Je to prostě součet všech samostatných pozorování $ i $ a $ n $ představuje celkový počet pozorování.

V tomto okamžiku bych mohl představit jednoduchý příklad, abych tak řekl tvář prvkům a operacím. Například si například vytvořme tabulku, kde každý řádek odpovídá pozorování (a $ x $ a $ y $ jsou odpovídajícím způsobem označeny). Pravděpodobně by tyto příklady byly konkrétnější (např. Řekněme, že $ x $ představuje věk a $ y $ představuje váhu), ale pro naši diskusi by to nemělo vadit.

  x y --- 2 54 89 35 60 8

V tomto okamžiku, pokud máte pocit, že operace součtu ve vzorci nemusí být zcela pochopena, můžete ji zavést znovu v mnohem jednodušším kontextu. Řekněme jen, že $ \ sum_ {i = 1} ^ {n} (x_i) $ je stejné jako v tomto příkladu;

  x - 2 4 9 5+ 0 - 20

Nyní by měl být tento nepořádek vyjasněn a můžeme se dopracovat k druhé části vzorce, $ (x_i- \ bar {x}) (y_i- \ bar { y}) $. Nyní, za předpokladu, že lidé již vědí, co to znamená, $ \ bar {x} $ a $ \ bar {y} $ znamenají, a řekl bych, protože jsem pokrytecký vůči mým vlastním komentářům dříve v příspěvku, stačí se odvolat na znamená z hlediska jednoduché heuristiky (např. uprostřed distribuce). Jeden pak může jen vzít tento proces po jedné operaci. Výrok $ (x_i- \ bar {x}) $ právě zkoumá odchylky / vzdálenost mezi každým pozorováním a průměr všech pozorování pro daný konkrétní atribut. Pokud je tedy pozorování dále od střední hodnoty, bude této operaci přidělena vyšší hodnota. Lze se pak vrátit zpět k dané příkladové tabulce a jednoduše demonstrovat operaci pozorování na vektoru $ x $.

  x x_bar (x - x_bar) 2 4 -24 4 09 4 55 4 10 4 -4

Operace je stejná pro $ y $ vektor, ale pouze pro zesílení můžete tuto operaci také prezentovat.

  y y_bar (y - y_bar) 5 6 -18 6 23 6 -36 6 08 6 2

Pojmy $ (x_i- \ bar {x}) $ a $ (y_i- \ bar {y}) $ by nyní neměly být dvojznačné a můžeme přejít na další operaci, vynásobíme-li tyto výsledky společně, $ (x_i- \ bar {x}) \ cdot (y_i- \ bar {y}) $. Jak Gung zdůrazňuje v komentářích, často se tomu říká křížový produkt (možná užitečný příklad, jak se vrátit zpět, pokud bychom zavedli základní maticovou algebru pro statistiku).

Všimněte si, co se stane při násobení, jsou-li obě pozorování ve velké vzdálenosti nad průměrem, bude mít výsledné pozorování ještě větší kladnou hodnotu (totéž platí, pokud jsou obě pozorování ve velké vzdálenosti pod průměrem, protože vynásobení dvou negativů se rovná kladnému). Všimněte si také, že pokud je jedno pozorování vysoko nad průměrem a druhé je hluboko pod průměrem, bude výsledná hodnota velká (v absolutních číslech) a záporná (jako kladná doba se zápor rovná rovno zápornému číslu). Nakonec si všimněte, že když je hodnota velmi blízko průměru pro kterékoli z pozorování, vynásobením těchto dvou hodnot bude výsledkem malé číslo. Tuto operaci můžeme znovu prezentovat v tabulce.

  (x - x_bar) (y - y_bar) (x - x_bar) * (y - y_bar) -2-1 2 0 2 0 5 -3 -15 1 0 0-4 2 -8

Nyní, pokud jsou v místnosti nějakí statistici, měli by v tomto okamžiku vřít s očekáváním. Můžeme vidět, že do hry vstupují všechny jednotlivé prvky toho, co je kovariance a jak se počítá. Nyní musíme jen shrnout konečný výsledek v předchozí tabulce, vydělit $ n-1 $ a voila , kovariance by již neměla být mystická (vše pouze s definováním jednoho řeckého symbolu) .

  (x - x_bar) * (y - y_bar) ----------------------- 2 0-15 0 + -8 ----- -21-21 / (5-1) = -5,25

V tomto okamžiku možná budete chtít zdůraznit, odkud pochází 5, ale to by mělo být tak jednoduché, jako odkazovat zpět na tabulku a počítat počet pozorování (necháme opět ponechat rozdíl mezi vzorkem a populací na jinou dobu) .

Kovariance sama o sobě nám toho moc neřekne (může, ale v tomto okamžiku je zbytečné jít do jakýchkoli zajímavých příkladů, aniž bychom se uchýlili k magicky nedefinovaným odkazům na publikum). V dobrém případě nebudete opravdu muset prodávat, proč by nám mělo záležet na tom, co je to kovariance, za jiných okolností možná budete muset jen doufat, že vaše publikum je zajaté a vezme vaše slovo za to. Ale pokračujeme v rozvíjení rozdílu mezi tím, co je kovariance a co je korelace, můžeme se jen vrátit zpět k formuli pro korelaci. Abyste zabránili fobii řeckých symbolů, stačí říct, že $ \ rho $ je běžný symbol používaný k vyjádření korelace.

$ \ rho = \ frac {Cov (x, y)} {\ sqrt {Var (x) Var (y)}} $

Znovu opakuji, čitatel v předchozím vzorci je jednoduše kovariancí, jak jsme právě definovali, a jmenovatel je druhá odmocnina součinu rozptyl každé jednotlivé řady. Pokud potřebujete definovat samotnou odchylku, můžete jednoduše říci, že odchylka je stejná jako kovariance řady sama se sebou (tj. $ Cov (x, x) = Var (x) $). A platí všechny stejné koncepty, které jste zavedli s kovariancí (tj. Má-li řada mnoho hodnot daleko od svého průměru, bude mít vysokou rozptyl). Možná si zde všimněte, že řada nemůže mít také negativní rozptyl (což by logicky mělo vycházet z dříve uvedené matematiky).

Takže jediné nové komponenty, které jsme zavedli, jsou ve jmenovateli, $ Var (x) Var (y) $. Dělíme tedy kovarianci, kterou jsme právě vypočítali, součinem odchylek každé řady. Dalo by se jít do léčby o tom, proč dělení $ \ sqrt {Var (x) Var (y)} $ bude vždy mít za následek hodnotu mezi -1 a 1, ale mám podezření, že nerovnost Cauchy – Schwarz by měla být vynechána z program této diskuse. Takže jsem zase pokrytec a uchýlím se k některým, vezměte si slovo , ale v tomto okamžiku můžeme představit všechny důvody, proč používáme korelační koeficient. Tyto matematické lekce pak lze spojit s heuristikou uvedenou v dalších výrokech, jako je odpověď Petera Floma na jednu z dalších otázek. I když to bylo kritizováno za zavedení konceptu ve smyslu kauzálních prohlášení, tato lekce by měla být na pořadu dne také.

Chápu, že za určitých okolností by tato úroveň léčby nebyla vhodná. Senát potřebuje shrnutí . V takovém případě se můžete vrátit k jednoduché heuristice, kterou lidé používají v jiných příkladech, ale Řím nebyl postaven za den. A senátu, který žádá o shrnutí, pokud máte tak málo času, měli byste si jednoduše vzít mé slovo a upustit od formalit analogií a odrážek.

Naprosto souhlasím s představou, že otázka je nějak mimo účel tohoto fóra. Definice kovariance jako $$ \ text {cov} (X, Y) = \ mathbb {E} [(X- \ mathbb {E} [X]) (Y- \ mathbb {E} [Y])] $ $ je nejjasnější vysvětlení, jaké lze navrhnout. Používá pouze představu očekávání. Vyhýbání se vzorci vede k nutně neúplným a potenciálně zavádějícím verzím. A to nemůže poskytnout čtenáři muže vypočítat kovarianci / korelaci v nové situaci. Není to nejlepší způsob, jak bojovat s nesčetnými počty.

+1, to je celkem dobré. K pojmovým úvodům bych však nebyl tak kritický. Pracoval jsem s lidmi s dostatkem matematické úzkosti, že by je pravděpodobné, že by je vzorec ztratil. Obvykle je dostanu na rychlost s intuicí 1. a pak projdu matematikou jednoduše a důkladně (stejně jako tady) * později *. Tímto způsobem se jen učí, jak matematika reprezentuje to, co už vědí, a pokud mentálně odejdou, stále se naučili velké myšlenky. Jako tangenciální bod pracuji v matematice v aplikaci Excel, což mi připadá velmi dobré.

Pár nitpicků (omlouvám se): ve své nejvyšší rovnici vydělíte $ N $, ale poté (správně) proberete dělení $ N-1 $ v přidružené odrážce; Mohu si všimnout, že $ (x_i- \ bar {x}) (y_i- \ bar {y}) $ se nazývá „cross product“; protože jste mluvili o * kovariance * sample *, až se dostanete ke korelaci, mohl bych přeskočit věci o $ \ rho $ a prostě použít $ r $; na závěr se korelace vypočítá z kovariance tak, že se změní její měřítko vzhledem k * SD * *, nikoli k odchylkám, viz [zde] (http://mathworld.wolfram.com/Covariance.html), např.

Díky @gung, jsem v prvním vzorci změnil překlep a poté pro korelaci jsem vzal druhou odmocninu vynásobených odchylek (místo definice standardní odchylky). Když používám rho versus jiný symbol, necítím se příliš silně. Kdybych učil a měl učebnici, pravděpodobně bych se jen chtěl přizpůsobit textu. Doufejme, že ještě jeden řecký symbol nezpůsobí chaos!

Souhlasím, že bych neměl být tak kritický (myslím, že jsem měl špatnou náladu, když jsem to psal původně). Řekl bych, že takové žádosti o zkratky ve skutečnosti neumožňují nic jiného než povrchní porozumění. Je jistě obtížné dosáhnout rovnováhy. Souhlasím také s tím, že ruční matematika (nebo excel) je užitečným nástrojem pro učení, alespoň pro mě, když nejsem matematik.

Nedělal bych si s tím starosti, jsi velmi nápomocný pro někoho v odporné náladě. Nebyl jsem si jistý, zda mám tuto odpověď číst se smíchem nebo ne. Pravděpodobně by pro mě bylo lepší, kdybych si pamatoval, že takové vysvětlení je pro mnoho lidí nutné.

Pokud bych mohl vaši odpověď podpořit stokrát, udělal bych.Jaké děsně jasné vysvětlení!

Proč používáte dva odlišné symboly $ N $ a $ n $ pro to, co by mělo být totéž?

Ano, máte pravdu, Alexi, měly by to být stejné symboly.

`(x - x_bar) * (y - y_bar)` je bodový produkt.

Ve skutečnosti tato odpověď nemá vysvětlení, co je to kovariance, když bych měl zvolit kovarianci nad korelací nebo jinak, jaký je rozdíl mezi kovariancí vs. korelací, intuitivním vysvětlením kovariance a korelací, odkud tato fomula pochází.Je to jen ukázat vzorec a vysvětlit, jak jej vypočítat.

D Dawg

2015-11-15 06:59:04 UTC

view on stackexchange narkive permalink

Korelace (r) je kovariance (cov) vašich proměnných (x & y) dělená (nebo upravená jinými slovy) každou z jejich standardních odchylek ($ \ sqrt {Var [x] Var [y] } $).

To znamená, že korelace je jednoduše reprezentací kovariance, takže výsledek musí ležet mezi -1 (dokonale inverzně korelovaný) a +1 (dokonale pozitivně korelován), přičemž hodnota blízká nule znamená, že dvě proměnné nesouvisí.

Kovariance je neomezená a ve srovnání s jinými kovariancemi postrádá kontext. Normalizací / úpravou / standardizováním kovariancí do korelace lze sady dat snáze srovnávat.

Jak si dokážete představit, existuje několik způsobů, jak lze statistiku (například kovarianci) normalizovat / standardizovat. Matematický vzorec pro vztah mezi korelací a kovariancí jednoduše odráží použití statistik konvence (jmenovitě úpravy podle jejich směrodatných odchylek):

$$ r = \ frac {cov (x, y)} {\ sqrt {Var [x] Var [y]}} $$

user31180

2013-12-20 05:26:45 UTC

view on stackexchange narkive permalink

Pokud jste obeznámeni s myšlenkou centrování a standardizace, je x-xbar středem x v jeho střední hodnotě. Totéž platí pro y. Kovariance tedy data jednoduše vycentruje. Korelace však nejen vycentruje data, ale také škáluje pomocí směrodatné odchylky (standardizovat). Násobení a součet je tečkovým produktem dvou vektorů a udává, jak paralelní jsou tyto dva vektory navzájem srovnatelné (projekce jednoho vektoru na druhý). Dělením (n-1) nebo převzetím očekávané hodnoty je měřítko pro počet pozorování. Myšlenky?

Karl Morrison

2015-07-30 02:49:08 UTC

view on stackexchange narkive permalink

Pokud jsem tomu rozuměl. Korelace je „normalizovaná“ verze kovariance.

Jak [mnoho příspěvků potvrzuje] (http://stats.stackexchange.com/search?q=normalize), „normalizovat“ má mnoho různých významů.Který z nich používáte?

Nagaraj

2012-03-26 21:42:06 UTC

view on stackexchange narkive permalink

Korelace je upravena tak, aby byla mezi -1 a +1 v závislosti na tom, zda existuje pozitivní nebo negativní korelace, a je bezrozměrná. Kovariance se však pohybuje od nuly, v případě dvou nezávislých proměnných, do Var (X), v případě, že jsou dvě sady dat stejné. Jednotky COV (X, Y) jsou jednotky X krát jednotky Y.

Kovariance může být záporná, takže není omezena na 0. Rovněž mi není jasné, co myslíte svou poslední větou: „Jednotky COV (X, Y) jsou jednotky X krát jednotky Y.“ , chcete to rozpracovat?

@AndyW nejsou jednotky z definice jasné? $ \ operatorname {Cov} (X, Y) = \ operatorname {E} {\ big [(X - \ operatorname {E} [X]) (Y - \ operatorname {E} [Y]) \ big]} $ . Operátor očekávání je pouze váženým průměrem hodnot X / Y a jednotky procházejí.

@naught101, Jednotky procházejí? Moje první poznámka k Nagarajovi byla, abych podnítil další jasnost, protože nejednoznačná prohlášení, jako je ta, kterou bych uvedl, nejsou nikomu užitečná. Proč tedy nemůžeme interpretovat kovarianci jako „jednotky x vynásobené jednotkami y“, protože to není to, co to je. Potenciálně správnějším výrokem (pro kovarianci vzorku) by byl „* průměr součinů * ** průměrných odchylek **“. pokračování ...

Nyní střední odchylky rozhodně nejsou stejné jako původní jednotky a výsledná statistika kovariance není jednoduše závislá na průměru a rozptylu původních atributů. Kovariance sama o sobě vám nic neříká, aniž byste věděli o rozptylu původních atributů.

ⓘ

Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.

about - legalese