Přečetl jsem zde následující:
- Sigmoidní výstupy nejsou zaměřeny na nulu . To je nežádoucí, protože neurony v pozdějších vrstvách zpracování v neuronové síti (více o tom brzy) by přijímaly data, která nejsou vycentrována na nulu. To má dopad na dynamiku při sestupu gradientu, protože pokud jsou data přicházející do neuronu vždy pozitivní (např. $ x > 0 $ elementwise v $ f = w ^ Tx + b $ )), pak se přechod na vahách $ w $ během zpětného šíření stane buď všemi pozitivní nebo všechny záporné (v závislosti na přechodu celého výrazu $ f $ ). To by mohlo zavést nežádoucí dynamiku cik-cak do aktualizací přechodu pro váhy. Všimněte si však, že jakmile se tyto přechody sčítají napříč dávkou dat, konečná aktualizace pro váhy může mít proměnné znaky, což tento problém poněkud zmírní. Jedná se tedy o nepříjemnost, ale ve srovnání s výše uvedeným problémem s nasycenou aktivací má méně závažné důsledky.
Proč by mít všechny $ x>0 $ (elementwise) vedou ke všem pozitivním nebo negativním přechodům na $ w $ ?