Otázka:
Jaký je rozdíl mezi popisnou a inferenční statistikou?
user1205901 - Reinstate Monica
2013-10-05 09:59:21 UTC
view on stackexchange narkive permalink

Chápal jsem, že popisná statistika kvantitativně popisovala vlastnosti vzorku dat, zatímco inferenční statistika obsahovala závěry o populacích, ze kterých byly vzorky čerpány.

Stránka wikipedia pro statistický závěr uvádí:

Statistická inference z větší části vytváří výroky o populacích, přičemž využívá data získaná ze sledované populace prostřednictvím nějaké formy náhodného výběru.

Díky „povětšině“ jsem si myslel, že těmto pojmům možná nerozumím správně. Existují příklady inferenčních statistik, které nedávají teze o populacích?

Popisná statistika: Mince byla hodena desetkrát a padla šestkrát dolů. Statistická inference: Maximální odhad pravděpodobnosti Heads je 0,6 $, nebo, Tyto informace nestačí k odmítnutí hypotézy, že mince je spravedlivá mince.
Odvození bez konceptu „populace“: Předpokládejme, že vaše data jsou generována nějakým (částečně) neznámým náhodným mechanismem / pravidlem. Inferenční metody umožňují posoudit vlastnosti tohoto mechanismu na základě dat. Příklad: Chcete ověřit elektrofyzikální vzorec na základě výsledků, které lze měřit pouze přibližně nebo za nedokonalých podmínek.
@Michael: Ano; nebo skutečně * udělejte * vaše data generována známým náhodným mechanismem - náhodným přiřazením experimentálních ošetření.
šest odpovědi:
Jeromy Anglim
2013-10-05 10:51:36 UTC
view on stackexchange narkive permalink

Pocházím z prostředí behaviorálních věd a spojuji tuto terminologii zejména s úvodními učebnicemi statistik. V této souvislosti se rozlišuje:

  • Popisná statistika jsou funkce ukázkových dat, které jsou při popisu některých vlastností dat skutečně zajímavé. Klasické popisné statistiky zahrnují průměr, min, max, směrodatnou odchylku, medián, zkosení, špičatost.
  • Inferenční statistiky jsou funkcí ukázkových dat, které vám pomohou vyvodit závěr týkající se hypotéza o populačním parametru. Klasické inferenční statistiky zahrnují z, t, $ \ chi ^ 2 $, poměr F atd.

Důležité je, že jakákoli statistika, inferenční nebo popisná, je funkcí vzorku data. Parametr je funkcí populace, kde termín populace je stejný jako říkat podkladový proces generování dat.

Z tohoto pohledu závisí stav dané funkce dat jako popisné nebo inferenční statistiky za účelem, pro který jej používáte.

To znamená, že některé statistiky jsou zjevně užitečnější při popisu relevantních funkcí dat a některé se dobře hodí k usnadnění závěru.

  • Inferenční statistiky: Standardní testovací statistiky jako t a z, pro daný proces generování dat, kde je nulová hypotéza nepravdivá, je očekávaná hodnota silně ovlivněna vzorkem velikost. Většina vědců by takové statistiky neviděla jako odhad populačního parametru skutečného zájmu.
  • Popisná statistika : Naproti tomu popisná statistika odhaduje populační parametry, které jsou obvykle skutečně zajímavé. Například průměr vzorku a směrodatná odchylka poskytují odhady ekvivalentních parametrů populace. Dokonce i popisné statistiky, jako je minimum a maximum, poskytují informace o ekvivalentních nebo podobných parametrech populace, i když je samozřejmě v tomto případě zapotřebí mnohem větší péče. Mnoho popisných statistik může být navíc zkreslených nebo jinak méně než ideální odhady. Stále však mají určitou užitečnost při odhadování požadovaného populačního parametru.

Takže z tohoto pohledu je důležité pochopit tyto věci:

  • statistika : funkce ukázkových dat
  • parametr : funkce populace (proces generování dat)
  • odhad : funkce ukázkových dat použitých k odhadu parametru
  • inference : proces dosažení závěru o parametru

Můžete tedy definovat rozdíl mezi popisným a inferenčním na základě záměru výzkumníka, který používá statistiku, nebo můžete definovat statistiku na základě toho, jak se obvykle používá.

Jak je oprávněné volat t nebo F * skóre * (spíše než např. T- * testy *) inferenční statistiky?
@jona t-skóre je „statistika“, která se používá v t-testu, proto by se dalo popsat t-skóre jako inferenční statistika, pokud se použije jako součást takového inferenčního procesu. Myslím, že jsem začal s předpokladem, že statistika je funkcí dat. Možná se ale zmiňujete o tom, že o inferenční statistice často uvažujeme jako o širší sadě technik používaných k odvozování?
Dovolte mi to formulovat jinak - není t-statistika spíše popisem vzorku než inferenčním tvrzením (například p-hodnota)?
Ano, funkce dat je ekvivalentní popisu vzorku. Myslím, že jsem si myslel, že takové statistiky se používají v inferenčním procesu (např. Vědci spojují t-statistiku s t-distribucí, aby získali hodnotu p, a pak se vztahují p k alfa k vyvození závěru). Často jsem viděl, že učebnice používají tyto příklady. Ale předpokládám, že p-hodnota a samotný binární závěr by mohly být považovány za statistiku (tj. Funkce ukázkových dat). A samotnou binární inference lze považovat za nejjasněji zarovnanou s inferencí. To je to, o co jdeš?
Definice hodnoty p (pravděpodobnost vzorku vzhledem k nějaké populaci) se týká populace (nebo alternativně dlouhodobých frekvencí), takže bych ji zařadil pod inferenciální. Definice * t * je formulována pouze ve vztahu k vzorku, že?
Například například použijete data k získání * t *, který souvisí s distribucí, která vám dává * p *, což zase vede k binárnímu závěru o parametru populace. Z pohledu frekventanta jsou tedy t, p a binární závěr všechny náhodné proměnné. Všichni byli zapojeni do inferenčního procesu. Nejsem si jistý, jaké jsou klady a zápory označování všech nebo jen některých takových statistik za inferenční.
Existuje také mnoho dalších způsobů, jak odvodit závěry (např. Bootstrapped intervaly spolehlivosti, cut-off na Bayesovské zadní hustoty). Možná by tedy v těchto případech bylo nutné vyladit výše uvedené definice, aby se více zaměřily na závěry závěru. To znamená, že jakmile se dostanu mimo tradiční statistiku testů frekventovanosti, mám sklon uvažovat spíše o inferenčních postupech, než abych musel jasně rozlišovat popisnou statistiku od inferenční.
Scortchi - Reinstate Monica
2013-10-05 17:20:12 UTC
view on stackexchange narkive permalink

Jedna forma závěru je založena na náhodném přiřazení experimentálních ošetření, & nikoli na náhodném výběru z populace (i hypoteticky). Oscar Kempthorne byl zastáncem.

První příklad v Edgingtonu (1995), Randomizační testy , tento přístup dobře ilustruje. Výzkumník získá deset subjektů, náhodně je rozdělí do dvou skupin, přidělí léčbu $ A $ jedné skupině & $ B $ a změří jejich odpovědi & vypočítá Studentovu t-statistiku rozdílu ve skupinových prostředcích. Spíše než použít normální teorii vzorkování k posouzení významnosti vypočítá $ t $ pro každý možný způsob, jakým by mohla být přiřazena léčba (je jich 252); poté, když bere na vědomí, že každá permutace je stejně pravděpodobná při nulové hypotéze bez efektu léčby, vidí, že devět dává vyšší hodnotu $ t $ než ta, kterou pozoroval & vypočítá p-hodnotu $ 10/252 = 0,04 $. „Získává“ zde, jak velmi často, může znamenat vůbec cokoli - možná bylo vybráno prvních deset vysokoškoláků na jeho přednášce, aby zvedli ruce - ale s touto analýzou není třeba udržovat předstírání, že z subjektů byly náhodně odebrány vzorky populace zájmu (nevýhodou je, že jakékoli zobecnění nad rámec těchto deseti je extra-statistické).

Predikce je další oblastí, kde nemusíte nutně formulovat tvrzení o populacích. (Nevím, že by každý chtěl volat predikci „inference“, ale existuje Geisser (1993), Predictive Inference: An Introduction ). Predikce často vyplývá z přizpůsobeného populačního modelu, ale ne vždy; např. @ Mattův příklad klasifikace, průměrování modelu (Bayesian nebo na základě váh Akaike) nebo prognostické algoritmy, jako je exponenciální vyhlazování.

NB Myslím, že „inferenční vs. popisná statistika“ se častěji vztahuje na disciplínu Statistika, spíše než na množství vypočítaná ze vzorků. Mezi inferenčním & a popisnou statistikou není podstatný rozdíl; jak zdůraznil @Jeremy, jde o to, k čemu to využijete.

Matt Krause
2013-10-05 11:02:20 UTC
view on stackexchange narkive permalink

Nejsem si jistý, zda klasifikace nutně učiní prohlášení o populaci (populacích), ze které jsou čerpány datové body. Klasifikace, jak pravděpodobně víte, využívá tréninková data skládající se z vektorů „funkcí“, z nichž každý je označen určitou třídou, k předpovědi označení třídy patřících k dalším neoznačeným vektorům prvků. Mohli bychom například použít vitální funkce pacienta a lékařskou diagnózu k předpovědi, zda jsou ostatní pacienti zdraví nebo nemocní.

Některé klasifikátory, nazývané „generativní klasifikátory“, se snaží explicitně modelovat populace nebo proces generování dat který produkuje každou třídu. Například algoritmus Naive Bayes počítá $ P (\ textrm {class} = c | \ textrm {features}) $ pro každou třídu $ c $, za předpokladu, že jsou všechny funkce nezávislé. Tyto modely lze rozumně považovat za výroky o populaci.

Jiné klasifikátory však hledají rozdíly mezi třídami bez modelování samotných tříd; tito se nazývají diskriminační klasifikátory. Jedním klasickým příkladem je klasifikátor nejbližšího souseda, který přiřadí neoznačený příklad třídě svého nejbližšího souseda (kde close je definováno nějakým rozumným způsobem pro daný problém). Zdá se, že to neobsahuje mnoho, pokud vůbec, informací o populacích, ze kterých byly čerpány datové body.

Pokud vás zajímá rozdíl mezi popisnou a inferenční statistikou, může to být plodnější přemýšlet o účelu analýzy. Popisná statistika, jako průměr, vám může říci, kolik pstruhů je v typickém jezeře - něco popisují. Inferenční statistika, jako je $ t $ -test, vám může říci, jestli je v těchto jezerech obvykle více pstruhů než basů - to vám umožní tvrdit o popisné statistice.

Vani
2013-10-18 23:59:17 UTC
view on stackexchange narkive permalink

V jednom řádku, vzhledem k údajům, se popisné statistiky snaží shrnout obsah vašich údajů s minimální ztrátou informací (v závislosti na tom, jaké opatření používáte). Uvidíte geografii dat. (Něco jako, podívejte se na graf výkonu třídy a řekněte, kdo je nahoře, dole atd.)

Na jednom řádku, vzhledem k datům, můžete zkuste odhadnout a odvodit vlastnosti hypotetické populace, ze které data pocházejí. (Něco jako porozumění studentům 7. ročníku prostřednictvím dobrého vzorku ze třídy za předpokladu, že základní populace je dostatečně velká, že je nelze vzít v úvahu jako celek)

Nemyslím si, že jde o definici nebo charakterizaci popisných statistik, jejichž cílem je minimální ztráta informací. Je zcela možné mít popisné statistiky, které vynechávají opravdu důležité detaily, a to je často problém.
Frehiwot Mulugeta
2016-12-08 14:42:10 UTC
view on stackexchange narkive permalink

Stručně

Popisná statistika je analýza dat, která smysluplně popisují, zobrazují nebo shrnují data;je to jednoduše způsob, jak popsat naše údaje / mluvit o celé populaci.některé z nich jsou Měření centrální tendence a Měření rozptylu.

Inferenční statistika je technika, která nám umožňuje používat vzorky k zobecnění populací, ze kterých byly vzorky odebrány. příkladtestování hypotéz a

NURU MUSTEFA
2017-04-04 12:19:50 UTC
view on stackexchange narkive permalink

popisná statistika je analýza dat, která smysluplně popisují, zobrazují nebo shrnují data;je to jednoduše způsob, jak popsat naše údaje / mluvit o celé populaci.některé z nich jsou Míry centrální tendence a Míra rozptylu

Inferenční statistika je technika, která nám umožňuje používat vzorky k zobecnění populací, ze kterých byly vzorky odebrány. příklad testování hypotéz a shareimprove this answer

Vítejte na [stats.se]!Věnujte prosím chvilku prohlídce naší [prohlídky].Vypadá to, že jste se chystali dokončit dobrou odpověď, ale něco se stalo.neváhejte upravit svou odpověď, abyste dokončili svou myšlenku.Možná budete také chtít vylepšit svou odpověď přidáním citací / odkazů, které spolupracují s tím, co jste sem vložili.Musíte také odpovědět na otázku „Existují příklady inferenčních statistik, které nedávají teze o populacích?“


Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...