Otázka:
Proč je například pohlaví obvykle kódováno spíše 0/1 než 1/2?
Adhesh Josh
2011-10-08 00:46:29 UTC
view on stackexchange narkive permalink

Rozumím logice kódování pro analýzu dat. Moje otázka níže se týká použití konkrétního kódu.

  • Existuje důvod, proč je pohlaví často kódováno jako 0 pro ženy a 1 pro muže?
  • Proč je toto kódování považováno za „standardní“?
  • Porovnejte to s Female = 1 a Male = 2. Existuje problém s tímto kódováním?
Použití schématu kódování 0/1 je v zásadě užitečné při aplikaci regresních modelů mimo jiné, i když je možných několik schémat kódování, např. -1/1 (ale změní to interpretaci regresních koeficientů). Nemělo by se však zaměňovat se zadáváním údajů (tj. S tím, co jste do databáze skutečně vložili). V takovém případě je lepší uložit celé štítky. Při sestavování regresního modelu je převeďte na číselné hodnoty nebo vytvořte speciální designovou matici. Jinak vám přeji hodně štěstí, abyste řekli, co znamená 0 ​​a 1 za 5 let.
Viděl jsem pohlaví kódované v databázi jako mužské, ženské a neznámé.
Myslím, že tuto otázku lze nejlépe považovat za dvě zmatené otázky.Větší otázkou je, proč použít pro indikátor nebo fiktivní proměnnou spíše kódování 0-1 než jakékoli jiné.Menší otázkou je, proč použít 1 pro muže a 0 pro ženy, na které jedna krátká odpověď zní, že se používá mnoho dalších kódování, včetně opaku 1 pro ženy atd., A také různá složitá kódování umožňující neznámé pohlaví a projiné kategorie pohlaví.
Sedm odpovědi:
Jeromy Anglim
2011-10-08 04:22:18 UTC
view on stackexchange narkive permalink

Důvody upřednostňovat nulové kódování binárních proměnných:

  • Střední hodnota proměnné nula představuje podíl v kategorii představovaný hodnotou jedna (např. procento mužů ).
  • V jednoduché regresi $ y = a + bx $, kde $ x $ je proměnná nula jedna, má konstanta přímou interpretaci (např. $ a $ je průměr $ y $ pro ženy).
  • Jakékoli kódování binární proměnné, kde je rozdíl mezi dvěma hodnotami jedna (tj. nula jedna, ale také jedna dvě), poskytuje přímou interpretaci regresního koeficientu (např. $ b $ je účinek přechodu od ženy k muži na y).

Různé body týkající se kódování binárních proměnných:

  • Libovolné kódování binární proměnné, které zachovává pořadí kategorií (např. female = 0, male = 1; female = 1, male = 2; female = 1007, male = 2000; atd.) neovlivní korelaci binární proměnné s jinými proměnnými.
  • Jakékoli tabulky, které vykazují binární proměnnou tímto způsobem, by měly objasnit, jak byla proměnná kódována. Může být také užitečné proměnnou označit podle kategorie, která představuje hodnotu jedné: např. y = a + b * Male místo y = a + b * Gender .
  • U některých binárních proměnných by jedna kategorie měla být přirozeně kódována jako jedna. Například při pohledu na rozdíl mezi léčbou a kontrolou by měla být kontrola nulová a léčba by měla být jedna, protože regresní koeficient se nejlépe považuje za účinek léčby.
  • Převrácení kategorií ( např. výroba female = 1 a male = 0, spíše než female = 0 a male = 1) převrátí znamení korelací a regresních koeficientů.
  • V případě pohlaví obvykle neexistuje přirozený důvod kódovat proměnnou female = 0, male = 1, versus male = 0, female = 1. Konvence však může naznačovat, že jedno kódování je čtenáři více známé; nebo výběr kódování, které činí pozitivní regresní koeficient, může interpretaci usnadnit. V některých kontextech lze také jeden rod považovat za referenční kategorii; například pokud studujete vliv toho, že jste v profesi, v níž dominují muži, na příjmu ženy, mohlo by mít smysl kódovat male = 0 a female = 1, abyste mohli hovořit o efektu bytí ženy.
  • Škálování regresních koeficientů promyšleným způsobem může mít silný vliv na interpretovatelnost regresních koeficientů. Andrew Gelman o tom hodně diskutuje; viz například jeho příspěvek z roku 2008 Měřítko regresních vstupů dělením dvěma standardními odchylkami (PDF) v Statistics in Medicine , 27, 2865-2873.
  • Kódování muže a ženy jako -1 a +1 je další možnost, která může poskytnout smysluplné koeficienty (viz "co je kódování efektů").
Uh, vždycky jsem si myslel, že přirozeným důvodem pro kódování female = 0 a male = 1 byla "anatomie" ...
@matt legrační. Nikdy by mě to tak nenapadlo. Vždy jsem byl ovlivněn objektivem mého magisterského studia, kde vás učí o tom, jak některé feministky kritizují ideologie, které vidí ženy definované nedostatkem něčeho, co mají muži. Prostřednictvím takové čočky se poněkud vtipně stane kódování pohlaví politickým problémem :-)
Jako zvyk vždy měním název proměnné pohlaví na něco jako „Žena“, aby bylo jasné, co znamená kódovací schéma 0/1.
Jeromy, budeš chtít sledovat diskusi https://stats.meta.stackexchange.com/a/4881/3277 o tom, zda potřebujeme samostatnou značku [dummy-variables] a říct svůj pro / con v komentáři?
Když vezmeme v úvahu dvojici pohlavních chromozomů X a Y, ženy mají XX a muži mají XY chromozomy.Vezmeme-li X = 0 a Y = 1, můžeme zjistit, že žena = XX = 00 = 0 a muž = XY = 01 = 1.
Henry
2011-10-08 01:05:24 UTC
view on stackexchange narkive permalink

Usnadňuje interpretaci výsledků. Předpokládejme, že máte nějaké údaje o výšce:

  Žena A: 165 Žena B: 170 Žena C: 175 Muž D: 170 Muž E: 180 Muž F: 190 

a vzali jste regrese tvaru Height = a + b * Gender + Residual .

S fiktivní proměnnou 0,1 byste získali odhad a 170 je průměrná výška žen a b 10 je rozdíl mezi průměrnými výškami mužů a žen.

S fiktivní proměnnou 1,2 byste získali odhad a 160, což je těžší interpretovat.

Dík. Statistiky se učím „rychlostí světla“, protože je to požadavek mé nové práce. Platí toto kódování stále pro korelační analýzu.
@Adhesh Pokud máte na mysli korelaci mezi dvěma kvantitativními proměnnými, pak není problém s kódováním: stačí použít nezpracovaná měřítka. Pokud se vaše otázka týká asociace mezi dvěma kvalitativními proměnnými, můžete uvažovat o položení nové otázky, ale upřímně řečeno, v tomto případě není mnoho potíží (pokud nechcete použít nerovnoměrně rozložené skóre pro kategorie proměnných, ale na toto bylo zodpovězeno jinde) stránky).
@Adesh Kódováním binárního kódu 1/2 nebo 0/1 získáte vliv na svůj korelační koeficient. 0/1 má také tu výhodu, že průměrem proměnné by bylo procento mužů nebo žen, v závislosti na tom, které je které. Pro interpretaci různých typů analýz mohou být užitečná další kódovací schémata.
mauvedeity
2011-10-08 17:49:53 UTC
view on stackexchange narkive permalink

Předpokládal jsem, že to bylo proto, že typ pole, který se často používá k ukládání pohlaví, je bitové pole a bitová pole v SQL mohou mít pouze hodnoty 0 nebo 1. Když vyložíte data, vyjde jako 0 nebo 1, a proto získáte tyto konkrétní hodnoty.

Pokud byste chtěli použít 1 a 2, museli byste použít větší typ pole, které by zabralo více místa, a tím by se celá databáze o něco větší.

Jako programátor SQL to byla také moje první reakce.Nejsem si jistý žádnými čistými matematickými důvody pro použití 0 a 1 pro pohlaví, ale vím, že některé podněty vycházely z potřeby používat nejmenší možné typy dat.Celoodvětvové standardy byly vyvinuty ze zvyku a všichni padli do souladu.Možná by stálo za to zkontrolovat historii standardů ANSI.V dnešní době existuje tlak na to, aby DBAs používaly bajtové nebo malé celočíselné sloupce pro pohlaví, což naznačuje neobvyklé výjimky jako „korporátní entita“ nebo „neurčitý“, ale mnoho starých databází stále odráží starý standard.
Cassie
2016-02-21 02:06:30 UTC
view on stackexchange narkive permalink

Nechal jsem profesora navrhnout, abychom kódovali „biologicky“, přičemž ženy byly 0 a muži 1 - aby odráželi anatomii. Nemyslím si, že to byla ta nejcitlivější věc na PC ve třídě, ale rozhodně snadno zapamatovatelná při pohledu na datovou sadu o 5 let později.

To zjevně není „skutečná“ odpověď na otázku (možná je to spíše komentář než odpověď), ale mnemotechnika je jednoznačně tou, kterou mnoho lidí považuje za užitečnou.
Více „biologický“ než „anatomický“ jsem se učil (i když se domnívám, že „důvod“ byl vynalezen retrospektivně, spíše než původní), že 0 se používá pro ženy, protože je to „výchozí“ pohlaví - víra je vembryologický vývoj, je ženská cesta přijata, pokud intervenující procesy nevytlačí embryo k diferenciaci dolů po mužské cestě.Toto bylo kdysi rozšířené přesvědčení, ale [je nyní považováno za zastaralé] (https://web.archive.org/web/20150415131341/http://www.learner.org/courses/biology/units/gender/experts/vilain.html): je také třeba aktivně aktivovat ženskou cestu.
V tomto případě by muži neměli být kódováni jako „00“.
user873
2011-10-11 23:38:45 UTC
view on stackexchange narkive permalink

Zatím bylo zveřejněno mnoho dobrých důvodů, ale mělo by to být také reflexivní. Proč byste začali počítat od 1? Mnoho numerických algoritmů je mnohem komplikovanější. Označování začíná na 0, ne 1. Pokud o tom ještě nejste přesvědčeni, mám pěkný příklad, proč je to důležité na http://madhadron.com/?p=69

Co se týče toho, proč jsou ženy 0 a muži 1, pamatujme, že po většinu své historie byl statistik pravděpodobně přímým mužem. Když byli požádáni, aby pojmenovali sex, první, kdo mi přišel na mysl, byla „žena“. Všechno poté byla pravděpodobně historická nehoda a racionalizace.

Věřím, že odkazovaný článek nyní najdete na adrese: http://madhadron.com/posts/2009-07-17-determining-affine-transforms-from-three-points.html
Adam Eivy
2015-05-18 21:34:55 UTC
view on stackexchange narkive permalink

Standard ISO / IEC 5218 aktualizuje tento pojem o následující mapu:

  0 = není známo, 1 = muž, 2 = žena, 9 = ne použitelné.  

To je užitečné zejména v jazycích, kde 0 vynucuje falešnou hodnotu, například v JavaScriptu:

  if (! user.gender) { promptForGender ();}  
Je důležité si uvědomit, že tento druh standardu je opravdu pro přenos dat * a / nebo * ukládání. * Není dostatečný jako standard pro analýzu dat *, což je otázka, o kterou konkrétně jde.
Jillian
2018-05-15 20:58:30 UTC
view on stackexchange narkive permalink

To, jak to osobně vidím já, je phallically, 0 typicky představuje ženu, protože je to tvar lůna a je považován za ženský ... téměř ve všech vědních kruzích (tj. v grafech rodokmenu biologie / genetiky) kruzích nebo nuláchpředstavují ženy.Kde jako přímější tvary hran (trojúhelníky, čtverce nebo 1 s) mají tendenci reprezentovat mužské pohlaví.Toto jednoduché porozumění usnadnilo vždy si pamatovat, které je pro mě.

Ačkoli na konci dne, pokud kódujete a analyzujete data sami, můžete zadat libovolná čísla, obecně za předpokladu, že existuje klíč, pro kterou atrapu proměnné jste použili, stane se irelevantní.

Zvláštní odpověď na hloupou otázku.


Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.
Loading...