云南網(wǎng)站推廣公司訓(xùn)練神經(jīng)網(wǎng)絡(luò)很慢、很困難,之前有許多人設(shè)計了各種各樣的方法。近期的優(yōu)化方法結(jié)合了隨機方法和批量方法的特點,比如用mini-batch,跟SGD類似,但是實現(xiàn)了更多的啟發(fā)式方法來估計二階對角信息,就和無黑塞方法(Hessian-free)或者L-BFGS類似。
這樣吸收了兩種方法優(yōu)點的方案通常在實際問題中有更快的收斂速度,比如Adam就是一個深度學(xué)習(xí)中常用的優(yōu)化器,實現(xiàn)了簡單的啟發(fā)式方法來估計梯度的均值和變化幅度,從而能夠在訓(xùn)練中更加穩(wěn)定地更新權(quán)重。
之前
云南網(wǎng)站推廣公司發(fā)現(xiàn)的許多權(quán)重更新規(guī)則都借鑒了凸函數(shù)分析中的想法,雖然神經(jīng)網(wǎng)絡(luò)中的優(yōu)化問題是非凸的。近期通過非單調(diào)學(xué)習(xí)速率的啟發(fā)式方法得到的經(jīng)驗結(jié)果表明,在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方面我們?nèi)匀恢跎?,還有許多非凸優(yōu)化的方法可以用來改進訓(xùn)練過程。