Otázka:
Jak interpretovat variační koeficient?
Durin
2014-10-09 20:27:41 UTC
view on stackexchange narkive permalink

Snažím se porozumět variačnímu koeficientu. Když to zkusím použít na následující dva vzorky dat, nechápu, jak interpretovat výsledky.

Řekněme, že ukázka 1 je $ {0, 5, 7, 12, 11, 17} $ a vzorek 2 je $ 10, 15, 17, 22, 21, 27} $. Zde je ukázka 2 $ = $ vzorek 1 $ + \ 10 $, jak vidíte.

Oba mají stejnou standardní odchylku $ \ sigma_ {2} = \ sigma_ {1} = 5,95539 $, ale $ \ mu_ {2} = 18,67 $ a $ \ mu_ {1} = 8,66667 $.

Variační koeficient $ {\ sigma} / {\ mu} $ se nyní bude lišit. U vzorku 2 to bude méně než u vzorku 1. Jak ale interpretuji tento výsledek? Pokud jde o rozptyl, oba jsou stejné; pouze jejich prostředky jsou různé. Jaké je zde využití variačního koeficientu? Jen mě zavádí, nebo možná nejsem schopen interpretovat výsledky.

Pokud namísto přidání 10 přidáte 1000, druhá sada čísel se bude lišit v porovnání se střední hodnotou mnohem méně než první sada.Variační koeficient je výrazem toho.
Velmi úzce souvisí: http://stats.stackexchange.com/questions/113437/proper-use-of-the-coefficient-of-variation.
Sedm odpovědi:
Nick Cox
2014-10-10 04:49:13 UTC
view on stackexchange narkive permalink

V příkladech, jako je ten váš, když se data liší jen aditivně, tj. ke všemu přidáme nějakou konstantní $ k $ , pak, jak upozorníte, směrodatná odchylka se nezmění, průměr se změní přesně touto konstantou, a tak se variační koeficient změní z $ \ sigma / \ mu $ na $ \ sigma / (\ mu + k) $ , což není ani zajímavé, ani užitečné.

Je to multiplikativní změna, která je zajímavá a kde má variační koeficient své využití. Pro vynásobení všeho nějakou konstantou $ k $ znamená, že variační koeficient se stává $ k \ sigma / k \ mu $ , tj. zůstává stejný jako dříve. Změna měrných jednotek je případem, jako v odpovědích @Aksalal a @Macond.

Protože variační koeficient je bez jednotek, je také bez dimenzí, protože všechny jednotky nebo dimenze, které vlastní základní proměnná, jsou vymyty dělením. Díky tomu je variační koeficient měřítkem relativní variability , takže relativní variabilitu délek lze porovnávat s variabilitou délek a tak dále. Jedním z oborů, kde variační koeficient našel určité popisné použití, je morfometrie velikosti organismu v biologii.

V zásadě a v praxi je variační koeficient definován pouze plně a vůbec pro proměnné, které jsou zcela pozitivní. Podrobně tedy váš první vzorek s hodnotou $ 0 $ není vhodný příklad. Dalším způsobem, jak to vidět, je poznamenat, že pokud by byla střední hodnota vždy nula, koeficient by byl neurčitý a pokud by byla střední hodnota vždy záporná, koeficient by byl záporný, za předpokladu, že by v druhém případě byla směrodatná odchylka kladná. V obou případech by opatření bylo zbytečné jako měřítko relativní variability nebo pro jakýkoli jiný účel.

Ekvivalentní prohlášení je, že variační koeficient je zajímavý a užitečný pouze v případě, že jsou logaritmy definovány obvyklým způsobem pro všechny hodnoty, a skutečně použití variačních koeficientů je ekvivalentní pohledu na variabilitu logaritmů.

Ačkoli by se to tady čtenářům mělo zdát neuvěřitelné, viděl jsem klimatologické a geografické publikace, ve kterých koeficienty variace teplot Celsia zmátly naivní vědce, kteří si všímají, že koeficienty mohou explodovat, protože průměrné teploty se blíží $ 0 ^ \ circ $ C a stanou se záporné pro střední teploty pod bodem mrazu. Ještě bizarněji jsem viděl návrhy, že problém je vyřešen použitím Fahrenheita místo. Naopak variační koeficient je často správně zmiňován jako souhrnná míra definovaná právě tehdy, když se měřící stupnice kvalifikují jako poměrová stupnice. Variační koeficient není zvlášť užitečný ani pro teploty měřené v kelvinech, ale spíše z fyzikálních důvodů než z matematických nebo statistických.

Stejně jako v případě bizarních příkladů z klimatologie, které nechávám bez odkazu, protože autoři si nezaslouží ani uznání, ani ostudu, variační koeficient byl v některých oblastech nadměrně používán. Občas existuje tendence považovat to za druh magického souhrnného opatření, které zapouzdřuje střední i standardní odchylku. Jedná se o přirozeně primitivní myšlení, protože i když má poměr smysl, nelze z něj získat střední a standardní odchylku.

Ve statistikách je variační koeficient poměrně přirozeným parametrem, pokud variace následuje buď po gama nebo lognormálu, jak je vidět při pohledu na formu variačního koeficientu pro tato rozdělení.

I když variační koeficient může být užitečný, v případech, kdy se použije, je užitečnějším krokem práce na logaritmickém měřítku, buď logaritmickou transformací, nebo použitím funkce logaritmického odkazu v zobecněném lineárním modelu.

EDIT: Pokud jsou všechny hodnoty záporné, můžeme znaménko považovat pouze za konvenci, kterou lze ignorovat. Ekvivalentně v takovém případě je $ \ sigma / | \ mu | $ ve skutečnosti identické dvojče variačního koeficientu.

EDIT 25. května 2020: Dobrá podrobná diskuse v Simpson, G.G., Roe, A. a Lewontin, R.C. 1960. Kvantitativní zoologie. New York: Harcourt, Brace, str. 89-94. Tento text je nevyhnutelně datován v několika ohledech, ale obsahuje mnoho jasných vysvětlení a podmanivých komentářů a kritik.

Viz také Lewontin, R.C. 1966. O měření relativní variability. Systematická biologie 15: 141–142. https://doi.org/10.2307/sysbio/15.2.141

+1 Tento příspěvek obsahuje klíčové body týkající se logaritmů a pozitivity, které by měly být součástí jakékoli diskuse o dané problematice.Díky „válečným příběhům“ se také dobře čte.
Myslel jsem, že nemůžete vypočítat CV, pokud je proměnná = 0?
@Jerf: Promyslete si to.Pokud jsou všechny hodnoty 0, pak neexistuje žádná variace a nic k výpočtu.Neexistuje žádný problém jen proto, že některé jednotlivé hodnoty jsou 0, protože to samo o sobě nevylučuje, že průměr je 0. Přesto můžete vždy najít příklady, kdy některé hodnoty nejsou nula, ale průměr je 0, např.-1, 0, 1, v takovém případě je CV neurčitý.V praxi je ale životopis nejužitečnější, když jsou všechny hodnoty kladné.
Bart
2015-01-08 04:39:58 UTC
view on stackexchange narkive permalink

Představte si, že jsem řekl: „V tomto městě je 1 625 330 lidí. Plus mínus pět.“ Moje přesné demografické znalosti by na vás udělaly dojem.

Ale kdybych řekl: „V tomto domě je pět lidí. Plus mínus pět.“ Člověk by si myslel, že nemám ponětí, kolik lidí je v domě.

Stejná standardní odchylka, mnoho různých životopisů.

Toto je rozumný způsob, jak vysvětlit, co je CoV, ale není jasné, jak relevantní je to pro otázku OP.
OP se ptá: "Pokud jde o rozptyl, oba jsou stejné; pouze jejich prostředky jsou odlišné. Takže jaké je použití variačního koeficientu?"Myslím, že můj příklad ilustruje použití životopisu jako způsobu interpretace odchylky.
Nevyrušil jsem vás.2 explicitní otázky OP jsou: „Jak interpretuji tento výsledek?“ & „Jak se zde používá variační koeficient?“.Vaše vysvětlení je dobré, ale pochopení toho, co je CoV, je pouze prvním krokem k zodpovězení těchto otázek, nikoli celá odpověď na tyto otázky.
Aksakal
2014-10-10 01:03:15 UTC
view on stackexchange narkive permalink

Normálně používáte variační koeficient pro proměnné různých měrných jednotek nebo velmi odlišných měřítek. Můžete si to představit jako poměr šum / signál. Můžete například porovnat variabilitu hmotnosti a výšky studentů; variabilita HDP USA a Monaka.

Variační koeficient ve vašem případě nemusí mít vůbec smysl, protože hodnoty se příliš neliší.

Macond
2014-10-10 01:12:02 UTC
view on stackexchange narkive permalink

Vzorek s vyššími hodnotami má menší odchylky od jeho průměru, jak naznačuje definice ($ s / \ bar {x} $). Je to vlastně docela přímočaré. Variační koeficient je užitečný při porovnávání variací mezi vzorky (nebo populacemi) různých měřítek. Zvažte, že máte co do činění s platy mezi zeměmi. Porovnání rozdílů ve mzdě v USA a Japonsku je méně informativní, pokud jako statistiku použijete rozptyl místo variačního koeficientu, protože 1 USD ~ = 100 JPY a rozdíl 1 mzdy ve mzdě neznamená to samé v obou vzorcích. V tomto příkladu můžete převést vše na USD a poté provést výpočty, ale není vždy zřejmé, jak převádět mezi různými měřítky. Když například porovnáváme rozdíly v tělesné hmotnosti různých druhů.

user62371
2014-12-08 22:57:19 UTC
view on stackexchange narkive permalink

Ve skutečnosti mohou být obě statistiky zavádějící, pokud svou hypotézu a experiment neznáte nebo jim nerozumíte. Zvažte tento příšerný příklad ... Chůze po dvou výškových budovách po laně na rozdíl od chůze po prkně. Řekněme, že lano má průměr 1 palec, zatímco prkno je široké 12 palců. 5 lidí bylo požádáno, aby šli po laně, a 5 bylo požádáno, aby šli po prkně. Zjistili jsme následující výsledky:

Průměrná vzdálenost každého kroku od okraje (nebo strany) lana (palce): 0,5, 0,2, 0,3, 0,6, 0,1

průměrná vzdálenost každého kroku od okraje (nebo strany) prkna (palce): 5,5, 5,2, 5,3, 5,6, 5,1

Stejně jako ve vašem příkladu bude i tento příklad mít stejné standardní odchylky jako hodnoty pro prkno jsou jednoduše +5 rozdíl od hodnot pro lano. Kdybych vám ale řekl, že směrodatná odchylka pro každý experiment byla 0,2074, dalo by se říci, že tyto dva experimenty byly ekvivalentní. Pokud bych vám však řekl, že životopis pro lano experiment byl téměř 61% ve srovnání s méně než 4% pro prkno, můžete se zeptat, kolik lidí spadlo z lana.

Sun Ke
2017-05-06 05:32:10 UTC
view on stackexchange narkive permalink

CV je relativní variabilita, která se používá k porovnání variability různých ukázkových datových sad. Pro váš příklad stejná standardní odchylka / odchylka s menším průměrem vygeneruje menší CV.znamená to, že menší datová sada CV má menší relativní variabilitu. Předpokládejme, že vyděláte 10 000 měsíčně a já vydělám 100. (jiný průměr) všichni pravděpodobně ztrácíme 100 měsíčně (kolísání), bude mě bolet mnohem víc než vás, protože dostanu větší CV (cv = 1 ve srovnání s vaším 0,01), relativně větší variace.

Musím říci, že to nepřidává nic k existujícím odpovědím.
lokmal
2018-06-02 07:54:37 UTC
view on stackexchange narkive permalink

v tomto případě cv není správným statistickým nástrojem k vysvětlení výsledku.

V závislosti na povaze provedeného výzkumu, tedy cíle, má výzkumník konkrétní hypotézu nebo poukazuje na důkaz.Musí navrhnout, provést experiment a analyzovat data pomocí nejlepšího a vhodného statistického nástroje, tj. Má-li experiment porovnat růst skupiny 1 a skupiny 2, i když hodnoty CV obou jsou stejné, ale pomocí T-testu nebo spárovaného T-test nebo Anova (větší experiment), mohl by snadno dokázat rozdíl mezi těmito dvěma skupinami.

Klíčem zde je použití příslušného statistického nástroje k smysluplnému vysvětlení výsledku. Pamatujte, že životopis je pouze jednou z možností v Popisné statistice.

moje 2 centy

Zdá se, že to říká, že variační koeficient je vhodný, když je vhodný, ale ne jinak.Jaký jiný bod máte na mysli?


Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...