Proč jsou usměrněné lineární jednotky považovány za nelineární?

Otázka:

Aly

2015-03-16 20:51:02 UTC

view on stackexchange narkive permalink

Proč jsou aktivační funkce opravených lineárních jednotek (ReLU) považovány za nelineární?

$$ f (x) = \ max (0, x) $$

Jsou lineární, když je vstup kladný, a podle mého chápání odemkne reprezentativní sílu hlubokých sítí nelineární aktivace jsou nutností, jinak by celá síť mohla být reprezentována jedinou vrstvou.

Podobná otázka byla položena již dříve: https://stats.stackexchange.com/questions/275358/why-is-increasing-the-non-linearity-of-neural-networks-desired, i když to pravděpodobně není duplikát

Jeden odpovědět:

Lucas

2015-03-16 22:22:02 UTC

view on stackexchange narkive permalink

RELU jsou nelinearity. Abychom pomohli vaší intuici, zvažte velmi jednoduchou síť s 1 vstupní jednotkou $ x $, 2 skrytými jednotkami $ y_i $ a 1 výstupní jednotkou $ z $. S touto jednoduchou sítí bychom mohli implementovat funkci absolutní hodnoty,

$$ z = \ max (0, x) + \ max (0, -x), $$

nebo něco, co vypadá podobně jako běžně používaná funkce sigmoidu,

$$ z = \ max (0, x + 1) - \ max (0, x - 1). $$

Jejich kombinací do větších sítí / použitím více skrytých jednotek můžeme aproximovat libovolné funkce.

$ \ hskip2in $ RELU network function

Byly by tyto typy ručně konstruovaných ReLusů postaveny apriori a pevně zakódovány jako vrstvy?Pokud ano, jak byste věděli, že vaše síť vyžaduje zejména jeden z těchto speciálně vytvořených ReLus?

@MonicaHeddneck Můžete zadat své vlastní nelinearity, ano.Co dělá jednu aktivační funkci lepší než jinou, je neustálé výzkumné téma.Například jsme dříve používali sigmoidy, $ \ sigma (x) = \ frac {1} {1 + e ^ {- x}} $, ale kvůli problému s mizejícím gradientem se ReLUs staly populárnějšími.Je tedy na vás, abyste použili různé funkce aktivace nelinearity.

Jak byste aproximovali $ e ^ x $ s ReLU mimo vzorek?

@Lucas, Takže v zásadě, pokud kombinujeme (+)> 1 ReLU, můžeme aproximovat jakoukoli funkci, ale pokud jednoduše `reLu (reLu (....)) 'bude vždy lineární?Také zde změníte `x` na` x + 1`, což by se dalo považovat za `Z = Wx + b`, kde se W&b změní, aby poskytly různé varianty takového druhu` x` & `x + 1`?

ⓘ

Tyto otázky a odpovědi byly automaticky přeloženy z anglického jazyka.Původní obsah je k dispozici na webu stackexchange, za který děkujeme za licenci cc by-sa 3.0, pod kterou je distribuován.

about - legalese