Neuronové sítě vs všechno ostatní

MiloMinderbinder

2018-05-03 21:13:19 UTC

view on stackexchange narkive permalink

Nenašel jsem uspokojivou odpověď na tuto otázku od google .

Samozřejmě, pokud jsou data, která mám, řádově miliony, pak je cestou hluboké učení.

A četl jsem, že když nemám velká data, možná je lepší použít jiné metody ve strojovém učení. Uvedený důvod je přehnaně vhodný. Strojové učení: tj. Prohlížení dat, extrakce funkcí, tvorba nových funkcí ze shromažďovaných dat atd. Věci, jako je odstraňování silně korelovaných proměnných atd., Celé strojové učení 9 yardů.

A přemýšlel jsem: proč je to tak, že neurální sítě s jednou skrytou vrstvou nejsou všelékem na problémy se strojovým učením? Jsou to univerzální odhady, nadměrné přizpůsobení lze zvládnout s výpadkem, regulací l2, regularizací l1, dávkovou normalizací. Rychlost tréninku není obecně problém, pokud máme jen 50 000 příkladů tréninku. V testovacím čase jsou lepší než, řekněme, náhodné lesy.

Tak proč ne - vyčistit data, spočítat chybějící hodnoty, jako byste to obvykle dělali, vycentrovat data, standardizovat data, vrhnout je na soubor neuronových sítí s jednou skrytou vrstvou a aplikovat regularizaci, dokud neuvidíte žádné přílišné a pak je trénovat až do konce. Žádné problémy s přechodovou explozí nebo mizením přechodu, protože se jedná pouze o dvouvrstvou síť. Pokud by byly potřeba hluboké vrstvy, znamená to, že se mají naučit hierarchické funkce, a potom nejsou dobré ani jiné algoritmy strojového učení. Například SVM je neurální síť pouze se ztrátou pantů.

Byl by oceněn příklad, kdy by nějaký jiný algoritmus strojového učení překonal pečlivě regulovanou 2vrstvou (možná 3?) neuronovou síť. Můžete mi dát odkaz na tento problém a já bych trénoval tu nejlepší neuronovou síť, jakou umím, a uvidíme, jestli dvouvrstvá nebo třívrstvá neuronová síť nedosáhne žádného jiného srovnávacího algoritmu strojového učení.

Neuronové sítě JSOU algoritmus strojového učení ...

Určitě existují domény, kde je hluboké učení kralováním, jako je rozpoznávání obrázků, ale ve většině ostatních oblastí jim obvykle dominuje podpora gradientu, jak je zřejmé z pohledu výsledků soutěží Kaggle.

@MatthewDrury - opravdu je!omlouvám se, že jsem v terminologii mizerný.Doufám, že zpráva byla sdělena.změnou otázky, aby byla robustnější.Děkuji za poukázání

Pokud jde o hloubku sítě, určitě to zkontrolujte: https://stats.stackexchange.com/questions/182734/

https://en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization

V 90. letech Radford Neal ukázal, že se sítě 1 vrstvy stávají gaussovskými procesy na hranici skrytých uzlů.Lidé se tím nadchli a 20 let zkoumali praktické lékaře a počítali.Po 10–15 letech došlo k Deep Learning a v mnoha „tvrdých“ problémech si vedlo lépe.Podřizuji se tedy, že to není tak slibný nápad, jak se na první pohled zdá.