Otázka:
Jaké jsou příklady anachronických postupů ve statistice?
Francis
2016-06-18 10:42:29 UTC
view on stackexchange narkive permalink

Mám na mysli postupy, které si stále zachovávají svou přítomnost, přestože problémy (obvykle výpočetní), s nimiž se měly vyrovnat, byly většinou vyřešeny.

Například Yatesova korekce kontinuity byla vynalezena k přiblížení Fisherova přesného testu s testem $ \ chi ^ 2 $, ale už to není praktické, protože software nyní zvládne Fisherův test i při velkých vzorcích (vím toto nemusí být dobrým příkladem „udržení jeho přítomnosti“, protože učebnice, jako je analýza kategorie Kategorical Data společnosti Agresti, často uznávají, že Yatesova oprava „již není nutná“).

Jaké jsou další příklady takových postupů?

Vlastně si nejsem tak jistý, že test chí-kvadrát byl zastaralý dostupností výpočetního výkonu k provedení Fisherova přesného testu, např.jsou vaše okraje skutečně pevné?[Podívejte se na tuto odpověď na jinou otázku] (http://stats.stackexchange.com/a/153048/22228) od @gung,.(Jsem si docela jistý, že máme vlákno diskutující o problému podrobněji, ale nemohu ho najít, protože máme spoustu otázek „měl bych použít chí-kvadrát nebo mám použít Fisherův přesný test“, které se objeví, kdyžHledám!)
@Silverfish: Nemyslel jsem, že $ \ chi ^ 2 $ bylo zastaralé, pouze Yatesova oprava byla.Věřím, že studie ukázaly, že Yatesova korekce je příliš konzervativní, když nejsou fixní okraje.Recenze napsal článek Michaela Habera [* Korekce kontinuity a statistické testování *] (http://www.jstor.org/stable/1402597).
@Silverfish, to je pravděpodobně to, po čem toužíte: [Vzhledem k síle počítačů v dnešní době, existuje někdy důvod udělat spíše chi-kvadrát test než Fisherův přesný test?] (Http://stats.stackexchange.com/q/ 14226 /)
používat OLS místo LAD?
Pamatujte, že anachronické postupy mohou být v některých případech pro studenty poučné, aby lépe porozuměly určité koncepci.
@PatrickT: Mám ** spoustu ** problémů s voláním OLS anachronicky.Jistě, existují zvláštní případy, kdy je LAD zjevně lepší ... ale to samé lze říci opačným směrem.
@CliffAB, Ve skutečnosti je anachronika silná.Měl jsem na mysli myšlenku, že výpočetní výhoda linearity OLS je tím, co ji odlišuje od alternativ, jako je LAD, které jsou pravděpodobně intuitivnější a robustnější, ale to donedávna představovalo výpočetní nepořádek.Spíše poznámka mimochodem.
Deset odpovědi:
Nick Cox
2016-06-18 13:55:46 UTC
view on stackexchange narkive permalink

Je silně dokázáno, že použití prahových úrovní významnosti, jako je $ P = 0,05 $ nebo $ P = 0,01 $, je historickou kocovinou z období, kdy většina výzkumníků závisela na dříve vypočítaných tabulkách kritických hodnot. Dobrý software nyní poskytne přímo hodnoty $ P $. Dobrý software vám umožní přizpůsobit si analýzu a nebude záviset na testech učebnice.

Je to svárlivé, jen proto, že některé problémy s testováním významnosti vyžadují rozhodnutí, jako je to v oblasti kontroly kvality, kde je rozhodování o přijetí nebo odmítnutí dávky, následované akcí v obou směrech. I tam by však mezní hodnoty, které mají být použity, měly vyrůst z analýzy rizik, neměly by záviset na tradici. A často ve vědách je analýza kvantitativních indikací vhodnější než rozhodnutí: přemýšlení kvantitativně implikuje pozornost velikostem hodnot $ P $ a nejen hrubé dichotomii, významné versus nevýznamné.

Označím, že se zde dotýkám složitého a kontroverzního problému, na který se zaměřují celé knihy a pravděpodobně tisíce papírů, ale zdá se být pro toto téma spravedlivým příkladem.

Skvělý příklad!Pro informaci stojí za zmínku toto vlákno: [Co se týče hodnot p, proč 1% a 5%?Proč ne 6% nebo 10%?] (Http://stats.stackexchange.com/questions/55691/regarding-p-values-why-1-and-5-why-not-6-or-10)
Tato procenta také ovlivňují intervaly spolehlivosti, nejen hodnoty $ p $.
@ J. M. Jsem si 95% jistý, že máte pravdu, i když si nejsem 99% jistý.
Ve skutečnosti si nejsem jistý, zda je to skvělý příklad.I když je pravda, že je mnohem snazší testovat věci na $ \ alpha = 0,038561 $, než tomu bylo dříve, nikdy jsem neviděl dobrý argument, proč byste * chtěli *, mimo speciální případy (tj. Kontrolu kvality), ve kterýchpřípadě nevím, že se stále používají libovolné úrovně významnosti.
@CliffAB Nemyslím si, že hlavním bodem přesné hodnoty P je to, že se pak rozhodnete, že představuje kritickou úroveň, kterou chcete přijmout pro rozhodnutí.Rozhodně to nenavrhuji ani neobhajuji.Součástí argumentu zde není jen to, že 0,05 a 0,01 jsou v nejlepším případě na konvenčních úrovních, ale že testy poskytují jeden způsob, jak posoudit sílu důkazů proti nulové hypotéze, spíše než učinit binární rozhodnutí.V praxi zůstávají hladiny 0,05 a 0,01 v mnoha oblastech velmi často používány.
@Nick Cox A nezapomeňte na 0,1 úrovně pro uvolněný, měkký dav.
@NickCox: navrhujete, že p-hodnota ** mohla být ** použita pouze jako míra důkazu, spíše než jako nástroj pro binární rozhodnutí?To je ve skutečnosti velmi zajímavý nápad a pravděpodobně by pomohl snížit počet nestatistiků, kteří budou činit závěry, díky nimž hlava statistika exploduje ...
Ano, samozřejmě, ale to bylo hlavní obhájitelné použití hodnot P od doby, kdy byly vynalezeny.Myslím, že jen směruji velmi běžný názor.Například Fisher zdůraznil, jak je důležité neprovádět vědecké úsudky na základě jednotlivých testů.
Určitě sdílím názor, na co je dobrá hodnota p.Nikdy jsem si nemyslel, že s nimi nebudeme mít všechny problémy, které dnes máme, kdyby k modernímu notebooku měli přístup jen Neyman, Pearson atd. ...
Nemyslím si, že lepší software řeší všechny problémy zde.Je až příliš snadné pokládat špatnou otázku, dokonce is vynikajícím softwarem.Nesnažím se shrnout klady a zápory testování v jedné odpovědi na CV.
@NickCox: lepší software rozhodně neřeší všechny problémy: stále je máme :).Opravdu jsem se zmínil o vaší první větě v odpovědi.
Cliff AB
2016-06-19 00:57:57 UTC
view on stackexchange narkive permalink

Jednou z metod, se kterou si myslím, že se mnou bude mnoho návštěvníků tohoto webu souhlasit, je postupná regrese. Stále se to děje stále , ale nemusíte hledat daleko odborníky na tomto webu, kteří říkají, že litují jeho použití. Metoda jako LASSO je mnohem výhodnější.

HA !!Doporučujete nahradit anachronismus (postupnou regresi) anachronismem nové generace (LASSO), což je anachronismus ve své době, jehož stoupenci si to dosud neuvědomují.Viz http://stats.stackexchange.com/questions/162861/how-to-cross-validate-stepwise-logistic-regression/162935#162935.
@MarkL.Stone: Ahoj člověče, alespoň 20 let je správným směrem.Nejsem tak dobře obeznámen s těmito metodami, takže bych si je musel přečíst, než bych jim mohl dát svůj souhlas.
Po rychlém přečtení článku trochu váhám, abych rozhodl, že LASSO je oficiálně zastaralé, i když to zjevně není vždy optimální volba.Možná za 5 let budu pohodlnější nazývat LASSO zastaralým.
Před pár lety Larry Wasserman ve svém dnes již neexistujícím blogu * NormalDeviate * označil Lasso za jeden z nejdůležitějších příspěvků do statistik za poslední desetiletí.
@Mark Děkujeme za Bertsimas et al.odkaz.Je to pěkný dokument, ale nevidím žádné důkazy, že regularizace $ \ ell_0 $ bude fungovat lépe než elastická síť $ \ ell_1 $ + $ \ ell_2 $ v praxi.Existují takové důkazy?Co vás vede k přesvědčení, že laso je anachronismus a nejlepší podmnožinou je způsob, jak jít?
@amoeba: Myslím, že Mark odkazuje na praxi používání LASSO jako nástroje pro nejlepší regresi podmnožiny.Například si nejasně vzpomínám, že jsem četl někoho, kdo diskutoval o prvním přizpůsobení LASSO, a pak znovu namontoval nepenalizovaný model pomocí parametrů nenulové regrese.Nejlepší regrese podmnožiny může být přímější způsob, jak toho dosáhnout (i když, jak říkáte, není jasné, že je to dobrý nápad, i když to analytik * chce * dělat).
... a příspěvek představuje alespoň jednu * situaci (tj. simulaci za určitých parametrů), kdy jednoznačně funguje LASSO, i když si myslím, že všichni přesně víme, jak vážně bychom měli tyto výsledky brát sami.
Arne Jonas Warnke
2016-06-18 15:44:07 UTC
view on stackexchange narkive permalink

Můj názor je takový, že přinejmenším v (aplikované) ekonometrii je stále častěji normou používat robustní nebo empirickou kovarianční matici než „anachronickou praxi“ spoléhání se (asymptoticky) na správnou specifikaci kovarianční matice . To samozřejmě není bez diskuse: viz některé z odpovědí, které jsem zde odkazoval na CrossValidated, ale je to určitě jasný trend.

Mezi příklady patří standardní chyba robustní heteroscedasticity (standardní chyby Eicker-Huber-White). Někteří vědci jako Angrist a Pischke zjevně doporučují vždy používat heteroscedasticitu robustní standardní chybu místo „anachronického“ postupu, aby jako výchozí použili normální standardní chybu a zkontrolovali, zda je předpoklad E [uu '] = \ sigma ^ 2 I_n $ je zaručeno.

Mezi další příklady patří data panelu, Imbens a Wooldridge píšou například na svých přednáškových slidech argumentují proti použití kovarianční matice variance náhodných efektů (implicitně předpokládá určitou specifikaci odchylky v komponentě variance jako výchozí ):

K dispozici je plně robustní odvození, které by se mělo obecně používat. (Poznámka: Obvyklou matici odchylek RE, která závisí pouze na $ \ sigma_c ^ 2 $ a $ \ sigma_u ^ 2 $, není nutné správně specifikovat! Stále má smysl ji používat při odhadu, ale učinit inference robustní.)

Při použití zobecněných lineárních modelů (pro distribuce, které patří do exponenciální rodiny) se často doporučuje používat vždy takzvaný sendvičový odhad, spíše než se spoléhat na správné distribuční předpoklady (zde anachronická praxe) : viz například tato odpověď nebo Cameron s odkazem na počítání dat, protože odhad pseudo-maximální pravděpodobnosti může být v případě chybné specifikace docela flexibilní (např. pomocí Poissona, pokud by byl záporný binomál správný).

Takové [bílé] standardní opravy chyb musí být provedeny pro Poissonovu regresi, protože mohou způsobit mnohem větší rozdíl než podobné opravy heteroskedasticity pro OLS.

Greene píše ve svém učebnice v kapitole 14 (k dispozici na jeho webových stránkách) například s kritickou poznámkou a podrobněji pojednává o výhodách a nevýhodách této praxe:

Existuje trend v současná literatura k výpočtu tohoto [sendvičového] odhadu rutinně, bez ohledu na funkci pravděpodobnosti. * [...] * Ještě jednou zdůrazňujeme, že sendvičový odhadce sám o sobě nemusí být nutně jakékoli ctnosti, pokud je funkce pravděpodobnosti zadáno a ostatní podmínky pro odhad M nejsou splněny.

Zajímavé, ale otázkou je, co je anachronické, nikoli to, co je nyní stále standardnější, takže odpověď musí být obrácená.
Ahoj Nicku, děkuji za tvůj komentář (a tvé úpravy), upravil jsem text tak, aby zdůraznil, co je anachronická praxe, doufám, že bude trochu jasnější.Neobrátil jsem celý text, protože dřívější praxe je blízko tomu, aby se standardní chybou nic nedělalo.
V některých případech není přirozené a není možné použít robustní alternativy, řekněme časové řady.Takže si myslím, že se nestává „populárnějším“, ale jen „populárnějším v některých oblastech“.
Cliff AB
2016-06-19 01:24:45 UTC
view on stackexchange narkive permalink

Metoda, která se zbytečně používá po celou dobu, je Bonferroniho korekce na p-hodnoty. Zatímco mnohonásobná srovnání jsou stejně velkým problémem, jaký kdy byl, Bonferroniho korekce je pro hodnoty p v podstatě zastaralá: pro každou situaci, kdy je Bonferroniho korekce platná, platí i Holm-Bonferroni, který bude mít přísně vyšší alternativa pokud $ m > 1 $, kde $ m $ je počet testovaných hypotéz (rovnost u $ m = 1 $).

Myslím, že důvodem přetrvávání Bonferroniho korekce je snadnost mentálního použití (tj. p = 0,004 s $ m = 30 $ lze snadno upravit na 0,12, zatímco Holm-Bonferroni vyžaduje třídění p- hodnoty).

Přišel sem zveřejnit toto.Také: nejsem přesvědčen, že existuje situace, kdy by FWER byl upřednostňován před ještě novějšími metodami FDR (kvůli škálovatelnosti a přizpůsobivosti).
gung - Reinstate Monica
2016-06-20 05:43:49 UTC
view on stackexchange narkive permalink

Většina anachronických postupů je pravděpodobně způsobena tím, jak se učí statistika, a skutečností, že analýzy provádějí obrovské počty lidí, kteří absolvovali pouze několik základních tříd. Často vyučujeme soubor standardních statistických nápadů a postupů, protože tvoří logickou posloupnost zvyšující se pojmové propracovanosti, která má pedagogický smysl (srov. Jak můžeme vůbec znát populační rozptyl?). Jsem si za to sám: občas učím statistiky 101 a 102 a neustále říkám: „existuje lepší způsob, jak to udělat, ale je to nad rámec této třídy“. Pro ty studenty, kteří nepřekračují úvodní sekvenci (téměř všichni), zůstávají základní, ale nahrazené strategie.

  1. U příkladu statistik 101 je pravděpodobně nejčastější anachronickou praxí otestovat nějaký předpoklad a poté spustit tradiční statistickou analýzu, protože test nebyl významný. Modernějším / pokročilejším / obhájitelnějším přístupem by bylo použít metodu, která by od tohoto předpokladu byla robustní. Některé reference pro více informací:

  2. U statistik 102 příkladů byl zastaralý libovolný počet postupů modelování:

    • Transformace $ Y $ za účelem dosažení normality reziduí pro získání spolehlivých hodnot $ p $ vs. bootstrapping.
    • Transformace $ Y $ k dosažení homoscedasticity místo použití sendvičového odhadu atd.
    • Použití polynomu vyššího řádu k zachycení křivosti vs. kubických splajnů.
    • Posuzování modelů určených pro predikci pomocí hodnot $ p $ a dobroty ve vzorku metrik jako $ R ^ 2 $ namísto křížové validace.
    • S daty opakovaných měření kategorizujete spojitou proměnnou tak, aby bylo možné použít rmANOVA, nebo zprůměrujete více měření oproti použití lineárního smíšeného modelu.
    • atd.

Ve všech těchto případech jde o to, že lidé dělají to, co se nejprve naučili v úvodní třídě, protože prostě neznají pokročilejší a vhodnější metody.

pteetor
2018-04-08 01:07:04 UTC
view on stackexchange narkive permalink

Placení licenčních poplatků za vysoce kvalitní statistické softwarové systémy.#R

Jeremias K
2016-06-18 20:09:21 UTC
view on stackexchange narkive permalink

Velmi zajímavým příkladem jsou testy kořenových jednotek v ekonometrii. I když existuje spousta možností k testování proti nebo pro kořen jednotky v zpožděném polynomu časové řady (např. (Augmented) Dickey Fullerův test nebo KPSS test), problém lze úplně obejít, když použijeme Bayesovu analýzu . Sims na to upozornil ve svém provokativním příspěvku s názvem Understanding Unit Rooters: A Helicopter Tour z roku 1991.

Testy kořenových jednotek zůstávají v platnosti a používají se v ekonometrii. I když bych to osobně přisuzoval hlavně lidem, kteří se zdráhají přizpůsobit se bayesovským postupům, mnoho konzervativních ekonometriků obhajuje praxi testů kořenových jednotek tím, že Bayesovský pohled na svět odporuje premise ekonometrického výzkumu. (To znamená, že ekonomové považují svět za místo s pevnými parametry, nikoliv náhodné parametry, které se řídí nějakým hyperparametrem.)

Zajímala by mě krátká diskuse o tom, jak Bayesovské praktiky tyto testy obcházejí.Jinými slovy, jak byste se vyjádřil k tomuto tvrzení?
Musím připustit, že už je to dlouho, co jsem si přečetl příspěvek, ale hlavním bodem je, že při použití plochého předposledku pro Bayesianskou analýzu časové řady lze použít standardní t-hodnoty.
Peter Phillips v návazných článcích na ten, který citujete, uvádí důvody pro přijetí Jeffreysova rozhodnutí, díky čemuž Bayesianova analýza vypadá znovu těsněji ve vztahu k té frekventované.Viz https://onlinelibrary.wiley.com/doi/abs/10.1002/jae.3950060411
Alexis
2018-05-24 20:07:32 UTC
view on stackexchange narkive permalink

Také je výuka / provádění dvoustranných testů rozdílu bez současného testování ekvivalence v frekventované oblasti testování hypotéz je hlubokým závazkem k zkreslení potvrzení.

Existuje určitá nuance v tom, že vhodná analýza síly s promyšlenou definicí velikosti efektu se může proti tomu chránit a poskytnout víceméně stejné druhy závěrů, ale (a) analýzy výkonu jsou při předkládání zjištění tak často ignorovány a (b) Nikdy jsem neviděl analýzu výkonu, například pro každý koeficient odhadovaný pro každou proměnnou ve vícenásobné regrese, ale je to jednoduché pro kombinované testy rozdílu a testy proekvivalence (tj. testy relevance).

Alex. C-L - Reinstate Monica
2019-08-29 20:18:04 UTC
view on stackexchange narkive permalink

Použít spíše negativní binomický model než (robustní) Poissonův model k identifikaci požadovaného parametru v proměnné počtu, jen proto, že dochází k nadměrnému rozptylu?

Viz jako reference: https://blog.stata.com/2011/08/22/use-poisson-rather-than-regress-tell-a-friend/

Důkaz, že Poisson je robustnější v případě fixních efektů, je poměrně nedávný, protože je často odkazován na: Wooldridge, JM, „Distribuční odhad některých nelineárních panelových datových modelů“, Journal of Econometrics 90 (1999), 77–97.

Mike Hunter
2016-06-18 17:25:35 UTC
view on stackexchange narkive permalink

Zde je několik anachronismů:

  • Neoplatonický předpoklad, že v teoretickém éteru existuje jediná „pravá“ populace, která je věčná, pevná a nepohyblivá naše nedokonalé vzorky mohou být hodnoceny, jen málo přispívají k rozvoji učení a znalostí.

  • Redukčnost obsažená v mandátech, jako je Occam's Razor , není v souladu s dobou. NEBO lze shrnout jako: „Z konkurenčních hypotéz by měla být vybrána ta s nejmenším počtem předpokladů.“ Alternativy zahrnují Epicurův Princip vícenásobných vysvětlení , který zhruba uvádí: „Pokud je s údaji v souladu více než jedna teorie, všechny si ponechejte.“

  • Celý systém vzájemného hodnocení zoufale potřebuje generální opravu.

* Upravit *

  • S masivními daty obsahujícími desítky milionů funkcí již není potřeba fáze výběru proměnných.

  • Kromě toho jsou inferenční statistiky bezvýznamné.

Komentáře nejsou určeny pro rozšířenou diskusi;tato konverzace byla [přesunuta do chatu] (http://chat.stackexchange.com/rooms/41406/discussion-on-answer-by-djohnson-what-are-some-examples-of-anachronistic-practic).


Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...